网络信息检索技术及搜索引擎系统开发

副标题：无

作者：高凯，郭立炜，许云峰编著

分类号：

ISBN：9787030261434

收录收藏 (0) 评论纠错

微信扫一扫,移动浏览光盘

简介

简介

　　本书较系统地论述了网络信息检索技术的基本原理，并进一步阐述了　　其在搜索引擎系统开发及其智能化实现中的应用。本书分为三部分。第一　　部分是基础知识和相关背景介绍部分，包括从第1章到第3章的内容。其中　　，第1章概要介绍了信息检索的起源和发展、信息检索模型及方法、网络信　　息检索的过程、网络信息检索性能评价、网络信息智能化处理、网络信息　　检索技术的未来发展等问题；第2章简要介绍了Web信息下载、页面分析与　　信息抽取方法、基于链接分析的网页相关性算法、检索结果排序、自然语　　言处理等问题；第3章就搜索引擎的发展、分类、功能、资源等进行了介绍　　。第二部分为利用开源资源实现搜索引擎系统的部分，包括从第4章到第8 　　章的内容，主要介绍如何利用Lucene等开源资源来构建自己的搜索引擎。　　作为开源项目中的一朵奇葩，Lucene提供了强大的全文索引和检索功能，　　并在搜索引擎、桌面检索系统、网站站内搜索、企业级内部文档管理与检　　索、情报分析系统、知识管理系统、数字图书馆检索系统中发挥了很好的　　作用。本书第4章介绍了Lucene的索引与检索机制及其应用、开发平台的搭　　建与配置等；第5章介绍Lucene中的中英文分词处理及其效果；第6章介绍　　检索结果排序及处理技术；第7章介绍如何利用开源资源来获取网络信息；　　第8章介绍如何对常见格式的网络资源进行解析与预处理。第三部分为搜索　　引擎智能化的研究与实现部分，包括从第9章到第14章的内容。其中，第9 　　章对信息采集中的网页去重与相关网页聚类进行了研究；第10章讨论了信　　息的动态采集与更新策略，以期搜索引擎能根据网站及其更新速度的不同　　，动态调整其信息采集与更新的频度；第11章则是面向自然语言提问的理　　解与处理，提供面向大众的支持自然语言提问的智能检索接口不仅能使人　　机交互更加人性化，还能促进搜索引擎的应用普及；第12章则给出一种参　　照多数用户在检索类似问题时的经验，为用户提供一些关联性和扩展性的　　相关概念反馈的方法；第13章给出一种相近检索与检索结果排序方法；第　　14章阐述了一种基于用户浏览兴趣的网页预取策略。　　全书理论联系实际，涉及面广，体系完整，内容新颖，条理清晰，组　　织合理，图例丰富，说明详细，既可作为高等院校计算机应用技术专业和　　图书馆等相关专业的教材，也可作为工程技术人员的参考资料。　　

第1章绪论

1.1 引言

1.2 信息检索的起源和发展

1.2.1 手工检索

1.2.2 脱机批处理检索

1.2.3 联机检索

1.2.4 光盘检索

1.2.5 网络信息检索

1.3 信息检索模型及方法

1.3.1 传统布尔检索与扩展布尔检索模型

1.3.2 向量空间模型

1.3.3 概率检索模型

1.3.4 模糊检索模型

1.3.5 逻辑检索模型

1.3.6 概念检索

1.3.7 案例检索

1.4 网络信息检索的过程

1.4.1 网络信息获取

1.4.2 信息加工

1.4.3 信息检索与结果提供

.1.5 网络信息检索的性能评价

1.6 网络信息智能化处理

1.7 网络信息检索技术的未来

1.7.1 以智能化技术为核心的智能检索

1.7.2 多媒体信息检索

1.7.3 跨语言检索

1.7.4 个性化检索

本章小结

参考文献

第2章网络信息处理

2.1 网络信息采集

2.2 网络信息抽取

2.3 网络信息的标引与索引

2.3.1 标引

2.3.2 索引

2.4 基于链接分析的网页相关性算法及检索结果排序

2.4.1 链接分析

2.4.2 hits算法

2.4.3 paserank算法及网页相关性评价

2.4.4 hits算法和pagerank算法的比较

2.5 基于自然语言处理的检索

2.5.1 自然语言理解的发展

2.5.2 基于规则分析的方法

2.5.3 基于统计分析的方法

2.5.4 自然语言检索

本章小结

参考文献

第3章搜索引擎

3.1 搜索引擎概述

3.2 搜索引擎的发展历程

3.3 搜索引擎的分类

3.3.1 目录索引式搜索引擎

3.3.2 自动式搜索引擎

3.3.3 元搜索引擎

3.3.4 分布式搜索引擎

3.4 搜索引擎开发平台简介

3.4.1 lucene

3.4.2 lemur

3.4.3 lius

3.4.4 egothor

3.4.5 xapian

3.5 开源的web搜索引擎系统简介

3.5.1 nutch

3.5.2 yacy

3.5.3 compass

3.6 相关资源

3.6.1 权威教材

3.6.2 国际著名研究机构

3.6.3 著名国际会议

本章小结

参考文献

第4章 lucene的索引与检索机制及其应用

4.1 lucene简介

4.2 lucene的下载、安装与部署

4.2.1 下载lucene

4.2.2 配置环境变量

4.2.3 对lucene demo的测试

4.3 lucene的索引与检索机制概述

4.3.1 文本分析

4.3.2 lucene的索引方式

4.3.3 lucene索引文件的构成

4.3.4 lucene的检索

4.3.5 lucene的索引和检索主要流程

4.4 管理和操作索引

4.4.1 设定增量索引

4.4.2 更新索引

4.4.3 优化索引

4.4.4 管理索引

4.5 lucene的检索

4.5.1 构建检索

4.5.2 完成检索的主要步骤

4.6 根据用户提交的检索词构造查询

4.6.1 对单——域字段检索

4.6.2 对逻辑关系检索

4.6.3 对范围的检索

4.6.4 对前缀通配的检索

4.6.5 对query的前缀和后缀通配的检索

4.6.6 模糊检索的实现

4.6.7 对多关键词的检索

4.6.8 通过query的spannearquery方式完成近似检索

4.7 基于lucene应用程序：开源搜索引擎系统nutch

4.7.1 nutch简介

4.7.2 在eclipse中加载nutch

本章小结

参考文献

第5章分词处理

5.1 概述

5.1.1 基于词典匹配的中文分词

5.1.2 基于词频统计的无词典中文分词

5.1.3 lucene的分析器

5.2 常用的中英文分词器及分词效果

5.2.1 停用词分析器

5.2.2 标准分析器

5.2.3 简单分析器

5.2.4 空格分析器

5.2.5 关键词分析器

5.2.6 chineseanalyzer

5.2.7 cjkanalyzer

5.2.8 第三方分词工具ictclas

5.2.9 第三方分析软件je

5.2.10 第三方分析软件ik_canalyzer

5.2.11 第三方分析软件mik_canalyzer

本章小结

参考文献

第6章检索结果排序及处理

6.1 检索结果集hits

6.2 检索结果的排序及控制

6.2.1 lucene的排序机制

6.2 通过改变文档的boost因子来改变排序结果

6.2.3 使用lucene的sort类定制排序结果

6.2.4 对多个指定field进行综合排序

6.3 检索结果的分页

6.4 检索结果的高亮显示

6.5 检索日志处理

6.5.1 下载及配置log4j

6.5.2 配置信息

6.5.3 servlet启动文件

6.5.4 测试

本章小结

参考文献

第7章网络信息获取

7.1 网络蜘蛛的工作原理

7.2 开源网络蜘蛛简介

7.2.1 weblech

7.2.2 j—spider

7.3 nutch网络蜘蛛的工作机制及其使用

7.3.1 确定种子集

7.3.2 下载网页

7.3.3 查阅爬行臼志

7.3.4 修改配置文件

本章小结

参考文献

第8章网络信息预处理

8.1 使用pdfbox预处理pdf文档

8.2 使用jacob预处理word文档

8.3 使用htmlparser预处理html文档

8.4 使用poi处理office文档

8.4.1 处理excel文档

8.4.2 处理word文档

8.5 使用lucene处理sql server数据表

本章小结

参考文献

第9章信息采集中的网页去重与相似网页聚类

9.1 概述

9.2 相关工作

9.3 对同源网页的去重

9.4 同源网页去重性能评测

9.4.1 测试数据集与测试环境

9.4.2 同源网页去重算法性能比较与分析

9.5 相似网页聚类

9.5.1 网页主题概念的自动标引

9.5.2 主题概念权值的确定

9.5.3 主题概念抽取的主要流程与示例

9.5.4 对主题概念标引过程中可能存在的问题的说明

9.5.5 网页间相似关系的度量与聚类处理

9.6 对内容雷同网页聚类的性能评测

9.6.1 应用环境

9.6.2 网页聚类示例

9.6.3 召回率与聚类准确率统计

9.6.4 可能存在的问题及改进计划

本章小结

附录

参考文献

第10章信息的动态采集与更新

10.1 概述

10.2 相关工作

10.3 泊松过程

10.4 用泊松过程描述更新事件

10.5 更新事件到达时间的条件分布

10.6 网页动态采集及调整策略

10.7 基于相关性的网页动态采集调整

10.8 网页动态采集实验结果与分析

10.8.1 网页更新事件的分布与统计

10.8.2 更新效果分析及对可能存在问题的说明

10.8.3 系统资源利用分析

10.8.4 局限性及下一步的工作

本章小结

参考文献

第11章面向自然语言提问的理解与处理

11.1 概述

11.2 相关工作

11.3 基于句模分析的自然语言提问处理

11.3.1 概述

11.3.2 句模

11.3.3 核心检索项的抽取

11.3.4 概念检索

11.4 核心检索项间逻辑关系的识别与处理

11.4.1 研究背景

11.4.2 对自然语言提问的形式化表示

11.4.3 基于产生式规则的归约

11.4.4 对二义性问题的处理

11.4.5 对语义的处理及其局限性

11.5 性能评测

11.5.1 对检索数量的定量分析

11.5.2 对检索项间逻辑关系处理的分析

11.5.3 查全率和查准率统计与分析

11.5.4 对尚存问题的说明

本章小结

参考文献

第12章相关概念反馈

12.1 概述

12.2 相关工作

12.3 相关概念反馈的实现

12.3.1 基于用户检索提问的相关概念获取

12.3.2 基于fpr算法的相关概念获取

本章小结

参考文献

第13章相近检索与检索结果排序

13.1 查询纠错与相近检索概述

13.2 性能测试与分析

13.3 可能存在的问题

13.4 有关检索结果排序的相关工作

13.5 检索结果排序策略

13.6 相关性权值的确定

13.7 检索效果示例及对可能存在问题的说明

本章小结

参考文献

第14章基于用户浏览兴趣的网页预取

14.1 概述

14.2 相关工作

14.2.1 个性化技术

14.2.2 网页预取

14.3 基于session-tree的网页预取

14.3.1 用户行为分析

14.3.2 session-tree结构及算法流程

14.4 性能分析及对可能存在问题的说明

本章小结

参考文献

已确认勘误

页码	勘误内容	提交人	修订印次

网络信息检索技术及搜索引擎系统开发

名称
类型
大小

用户反馈

FAQ

网络信息检索技术及搜索引擎系统开发

已确认勘误

第次印刷 筛选

第次印刷