《搜索引擎信息检索实践》(美)W.Bruce Croft (美)Donald Metzler (美)Trevor Stroh

城市

店铺名称

店主联系方式

店铺售价

库存

店铺得分/总交易量

发布时间

操作

新书比价

网站名称

书名

售价

优惠

操作

图书详情

出版社

机械工业出版社
ISBN

9787111288084
作者

(美)W.Bruce Croft (美)Donald Metzler (美)Trevor Stroh
页数

309
出版时间

2010年06月01日
定价

¥56.00
所属分类

全部分类 > 新闻传播 > 信息资源与检索

内容提要

本书介绍了信息检索(IR)中的关键问题,以及这些问题如何影响搜索引擎的设计与实现,并且用数学模型强化了重要的概念。对于网络搜素引擎这一重要的话题,书中主要涵盖了在网络上广泛使用的搜索技术。
本书适用于高等院校计算机科学或计算机工程专业的本科生、研究生,对于专业人士而言,本书也不失为一本理想的入门教材。

文章节选

译者序
记得1996年,我在北京图书馆的电子阅览室里付费上机检索,查到了一些我感兴趣的英文文献的题录。当时感觉很兴奋,用电脑检索比手工卡片检索方便了许多,但实在无法想象,短短几年后信息检索技术就冲破了科技情报领域的局限,成为普通民众每天都要使用的信息搜索工具。是互联网这项人类历史上伟大的发明,是网上浩如烟海的信息给人类带来的挑战,推动了信息检索技术向海量、**、多媒体、个性化等方向突飞猛进地发展。在21世纪第二个“十年”到来的今天,越来越多的学者、研发人员、研究生和大学生们投入到搜索引擎的研究与实践中来,他们希望掌握搜索引擎背后的理论和技术,希望了解在搜索引擎设计和开发中的原则和经验,从而为搜索引擎在各个行业的应用以及更具颠覆性的下一代搜索引擎的研发创造条件。本书恰好可以满足这些读者的迫切需求。本书英文版原作者w. bruce croft于1979年在英国剑桥大学获得计算机科学博士学位,同年加入university of massachusetts(amherst分校)计算机科学系,曾任系主任多年,目前担任该系的特聘教授。1992年,他创建了智能信息检索研究**,其研究兴趣覆盖信息检索中的多个领域,包括检索模型、web搜索、查询处理、跨语言检索和搜索架构等。他在1997年被选为acm fellow,2000年获得美国信息科学与技术学会的研究奖,2003年获得acm sigir(acm关于信息检索的特殊兴趣组)的gerard salton奖,salton奖是信息检索领域*受关注的奖励。从作者的简历中可以看到这是一位国际信息检索领域**的学者,他的这本新书一经出版,就以其深入浅出,理论与实践密切结合,覆盖了诸多*新的搜索引擎技术等鲜明特色而获得了业内的普遍好评。机械工业出版社迅速出版了该书的英文版,同时委托我研究**将其译为中文,以飨读者。在本书的翻译过程中,秦兵教授付出的心血*多,她除了要翻译自己负责的部分以外,还要负责组织、校对等工作,她高度的责任心是本书得以顺利出版的关键。除四位主要译者外,李正华、伍大勇、郎君、赵妍妍、宋巍等多位高年级博士生也参与了部分章节的翻译工作。本书也得到了译者们的恩师李生教授的支持,并得到了他主持的**自然科学基金**项目“下一代信息检索研究”(编号60736044)的资助。译者水平有限,书中疏漏在所难免,敬请读者批评

出版者的话
译者序
前言
第1章搜索引擎和信息检索 1
1.1 什么是信息检索 1
1.2 重要问题 2
1.3 搜索引擎 4
1.4 搜索工程师 5
参考文献和深入阅读 6
练习 6
第2章搜索引擎的架构 8
2.1 什么是软件架构 8
2.2 基本的构件 8
2.3 组件及其功能 10
2.3.1 文本采集 10
2.3.2 文本转换 12
2.3.3 索引的创建 13
2.3.4 用户交互 14
2.3.5 排序 15
2.3.6 评价 16
2.4 搜索引擎是如何工作的 17
参考文献和深入阅读 17
练习 17
第3章信息采集和信息源 18
3.1 确定搜索的内容 18
3.2 网络信息爬取 18
3.2.1 抓取网页 19
3.2.2 网络爬虫 20
3.2.3 时新性 22
3.2.4 面向主题的信息采集 24
3.2.5 深层网络 24
3.2.6 网站地图 25
3.2.7 分布式信息采集 26
3.3 文档和电子邮件的信息采集 27
3.4 文档信息源 28
3.5 转换问题 30
3.6 存储文档 31
3.6.1 使用数据库系统 32
3.6.2 随机存取 32
3.6.3 压缩和大规模文件 33
3.6.4 更新 34
3.6.5 bigtable 35
3.7 重复检测 36
3.8 去除噪声 39
参考文献和深入阅读 42
练习 43
第4章文本处理 45
4.1 从词到词项 45
4.2 文本统计 46
4.2.1 词表增长 49
4.2.2 估计数据集和结果集大小 51
4.3 文档解析 53
4.3.1 概述 53
4.3.2 词素切分 53
4.3.3 停用词去除 55
4.3.4 词干提取 55
4.3.5 短语和n元串 59
4.4 文档结构和标记 62
4.5 链接分析 63
4.5.1 锚文本 64
4.5.2 pagerank 64
4.5.3 链接质量 68
4.6 信息抽取 69
4.7 国际化 72
参考文献和深入阅读 73
练习 74
第5章基于索引的相关排序