开发自己的搜索引擎 Lucene+Heritrix(第2版) 华工书店满19包邮::有路网

免费注册 | 登录 | 我的有路 | 黑板报 | 客服中心 | 帮助

网站购物车本 | 店铺购物车本

店铺平均得分：99.25 分，再接再厉！！！【查看全部评价】

评分	40分	50分	60分	70分	80分	90分	100分
数量	21	9	22	36	131	455	13707

本店铺共有 48 笔投诉记录，投诉率 0% ，低于平均投诉率 1% 【查看详细】

投诉类型

数量

比例

商品问题

46%

发货问题

42%

退款问题

10%

其他

已解决

100%

店主称呼：小张联系方式：

18924022418 地址：广东省广州市天河区东莞庄南街31号
促销广告：有偿提供图书发票

【进入店铺首页】

≡

本店已缴纳保证金≡

【查看店家资质】

图书分类

图书标签

店铺公告

满19包邮！全国绝大部分地区只收5元的首重费用，免收续重费用！合作快递有百世汇通快递，邮政小包（全国任何地方都能到），有偿提供图书发票！需要报销的请在线联系客服开发票

发布时间：2019年02月19日

店铺介绍

购书满19元包邮另外购书可提供正规机打发票，发票另收8个点，需要请联系！

入驻时间：2013年02月28日

交易帮助

第一步：选择图书放入购物车。
第二步：结算、填写收货地址。
第三步：担保付款或银行汇款。
第四步：卖家发货。
第五步：确认收货、评价。

【查看更多帮助】

书名：开发自己的搜索引擎 Lucene+Heritrix(第2版)

作/译者：邱哲符滔滔王学松出版社：人民邮电出版社

出版日期：2010年01月
ISBN：9787115215291 [十位：7115215294]
页数：562
定价：￥69.00
店铺售价：￥50.00 （为您节省：￥19.00）
店铺库存：0 本
注：您当前是在入驻店铺购买，非有路网直接销售。

正在处理购买信息，请稍候……

我要买：本

* 如何购买
** 关于库存、售价、配送费等具体信息建议直接联系店主咨询。
联系店主：

18924022418

本店已缴纳保证金,请放心购买!【如何赔付?】

店主推荐图书：

买家对店铺的满意度评价：查看更多>>

评分

评价内容

评论人

订单图书

100分
满分

确认收货后30天未评价，系统默认好评！
[2023-05-04 15:49:49]

迟**
济南市

金属切削原理(第2版)（内容一致，印次、封面或原价不同，统一售价，随机发货）（内容一致，印次、封面或原价不同，统一售价，随机发货）￥7.00
100分
满分

确认收货后30天未评价，系统默认好评！
[2023-03-25 09:57:34]

白*
广州市

锅炉压力容器安全技术及应用￥15.20
100分
满分

确认收货后30天未评价，系统默认好评！
[2023-03-22 22:22:07]

武**
襄阳市

土地资源管理学(第二版) ￥13.90
100分
满分

确认收货后30天未评价，系统默认好评！
[2023-03-19 20:59:27]

罗**
上海市

C程序设计试题汇编（内容一致，印次、封面或原价不同，统一售价，随机发货）￥5.80
100分
满分

确认收货后30天未评价，系统默认好评！
[2022-12-26 09:10:29]

韩**
儋州市

中级口译教程(第三版) ￥8.20
经济林栽培学(第2版) ￥12.00

《开发自己的搜索引擎 Lucene+Heritrix(第2版)》内容提要：

本书是一本介绍搜索引擎开发的书籍,通过本书,读者可以独立构建一个企业级的搜索引擎网站。本书讲解了搜索引擎与信息检索基础,Lucene入门实例,索引的建立,使用Lucene来搜索,排序,分析器,对Word、Excel和PDF格式文档的解析,Compass搜索引擎框架,Lucene分布式,爬虫Heritrix,HTMLParser,DWR等内容。*后综合这些技术,构建了一个典型的垂直搜索系统,具有很强的商业实用价值。
本书是一本使用Lucene和Heritrix来讲解搜索引擎构建的书,通过对API和源代码的分析,力求使读者在应用的基础上,能够深入其核心,自行扩展和开发相应组件,发挥想象力,开发出更具有创意的搜索引擎产品。
本书适合Java程序员和从事计算机软件开发的编程人员阅读,同时也可以作为搜索引擎爱好者的入门书籍。

《开发自己的搜索引擎 Lucene+Heritrix(第2版)》图书目录：

第1章搜索引擎与信息检索
1.1 搜索引擎的历史
1.1.1 萌芽:Archie、Gopher
1.1.2 起步:Robot(网络机器人)的出现与Spider(网络爬虫)
1.1.3 发展:Excite、Galaxy、Yahoo等
1.1.4 繁荣:Infoseek、AltaVista、Google和Baidu
1.2 信息检索系统的基本知识
1.2.1 信息检索系统
1.2.2 信息检索的过程
1.2.3 传统查找的优点和不足
1.2.4 使用索引提高检索速度
1.2.5 倒排索引
1.2.6 评价信息检索系统的标准
1.3 Lucene的简介
1.4 小结
第2章 Lucene入门实例
2.1 实例介绍
2.1.1 实例说明
2.1.2 开发过程
2.2 准备工作
2.2.1 将文档的全角标点转成半角标点
2.2.2 将大文档切分成多个小文档
2.2.3 预处理源文件的统一接口
2.3 创建Eclipse工程
2.3.1 准备工作
2.3.2 创建工程并引入Lucene的JAR包
2.3.3 运行文档预处理类
2.3.4 创建处理文档的索引类:IndexProcessor
2.3.5 创建检索索引的搜索类
2.4 运行效果
2.5 小结
第3章索引的建立
3.1 Document逻辑文件
3.1.1 Lucene的Document
3.1.2 为Document添加多种Field
3.1.3 Document的内部实现
3.2 Field的内部实现
3.2.1 Field包含的类
3.2.2 Field类的构造方法
3.3 Lucene的索引工具IndexWriter
3.3.1 IndexWriter的初始化
3.3.2 向索引添加文档
3.3.3 限制每个Field中的词条的数量
3.4 Lucene索引过程详解
3.4.1 Lucene索引建立过程概览
3.4.2 使用addDocument方法向索引添加文档
3.4.3 DocumentWriter的addDocument方法
3.4.4 文档的倒排
3.4.5 对postingTable进行排序
3.4.6 将Posting信息写入索引
3.5 索引文件格式
3.5.1 索引的segment
3.5.2 .fnm格式
3.5.3 .fdx与.fdt格式
3.5.4 .tii与.tis格式
3.5.5 deletable格式
3.5.6 复合索引格式.cfs
3.6 索引过程的调优
3.6.1 合并因子mergeFactor
3.6.2 maxMergeDocs
3.6.3 minMergeDocs
3.7 索引的合并与索引的优化
3.7.1 FSDirectory与RAMDirectory
3.7.2 使用IndexWriter来合并索引
3.7.3 索引的优化
3.8 从索引中删除文档
3.8.1 索引的读取工具Index-Reader
3.8.2 使用文档ID号来删除特定文档
3.8.3 使用Field信息来删除批量文档
3.9 Lucene的同步问题
3.9.1 为什么要进行同步以及Lucene的同步法则
3.9.2 commit.lock与write.lock
3.10 Lucene 2.0的新类:IndexModifier类
3.11 小结
第4章 Lucene搜索
第5章排序、过滤和分页
第6章 Lucene的分析器
第7章 Word、Excel和PDF的处理
第8章 Compass:封装了Lucene的框架
第9章 Lucene分布式
第10章无比强大的网络爬虫Heritrix
第11章搜索引擎综合实例:准备篇
第12章搜索引擎综合实例:下载篇
第13章使用正则表达式与HTML Parser分析网页
第14章网页内容存储与索引
第15章搜索引擎综合实例:交互篇
第16章搜索引擎综合实例:Web篇
附录 Lucene 2.4更新内容

《开发自己的搜索引擎 Lucene+Heritrix(第2版)》编辑推荐与评论：

原书是国内**本讲解搜索引擎开发的畅销书
内容新颖、实用,提供了价值上百万元的大型数码产品搜索引擎开发案例,可直接应用于项目
用案例的方式讲解,便于读者实践