简介
本书对信息检索及信息检索系统的基本概念、原理、算法进行详尽介绍。主要内容包括信息检索模型、文本操作技术、文本索引和搜索技术、查询处理与Web检索技术、分布式信息检索、文本分类与聚类、信息过滤等,并给出Web信息检索的实现实例。.
本书内容丰富,源于作者多年的教学及科研心得,适合作为高等院校计算机专业本科生及研究生相关课程的教材,也可作为技术人员研究信息检索与搜索引擎的参考读物。
随着互联网搜索引擎取得商业上的巨大成功,越来越多的读者对信息检索技术产生了浓厚的兴趣。本书作者基千多年信息检索教学与科研实践心得编写了本书,从基础到应用,从理论到实践,从经典算法到最新的研究成果,全面地介绍信息检索系统中的各项核心技术。书中详细阐述信息检索模型、常用的文本操作技术、文本的索引和搜索技术、查询处理相关的技术、评测技术等,有利于读者了解信息检索系统的基本实现原理,掌握搜索引擎的关键技术。
本书特色..
理论联系实际,介绍了用Lucene实现Web信息检索的实例。
融入了作者的科研实践心得,对相关的前沿技术也有所涉及。
每章后都附有大量的参考文献,并提供思考题供读者进行深入研究。
本书为授课教师提供电子课件,请登录华章网站下载。...
目录
序
前言
作者简价
教学建议
第1章 绪论1
1.1 信息检索简介1
1.1.1 信息检索的概念和处理对象1
1.1.2 信息检索的基本流程1
1.1.3 与信息检索相关的学科2
1.2 信息检索的研究内容3
1.2.1 信息检索要解决的问题3
1.2.2 信息检索中的基础研究课题4
1.2.3 信息检索中的关键技术5
1.2.4 信息检索中的应用研究6
1.3 信息检索的历史、现状与未来8
1.3.1 信息检索的历史8
1.3.2 信息检索的现状与未来9
1.4 本书结构10
本章小结11
思考练习12
第2章 信息检索模型13
2.1 信息检索模型的定义和分类13
2.1.1 信息检索模型的定义13
2.1.2 信息检索模型的分类13
2.2 布尔模型14
2.2.1 布尔模型的定义14
2.2.2 布尔模型示例15
2.3 向量空间模型15
2.3.1 向量空间模型的定义15
2.3.2 常见相似度计算方法17
2.3.3 向量空间模型与布尔模型的比较19
2.4 概率模型19
2.4.1 概率模型的定义19
2.4.2 概率模型的优缺点22
2.5 扩展布尔模型23
2.5.1 扩展布尔模型简介23
2.5.2 基本模糊集合模型23
2.5.3 扩展模糊集合模型24
2.6 统计语言模型25
2.6.1 语言模型简介25
2.6.2 数据稀疏和平滑26
2.6.3 基于语言模型的检索模型30
2.6.4 基于语言模型的信息检索模型的优缺点分析31
2.7 隐性语义索引模型31
2.7.1 隐性语义索引32
2.7.2 隐性语义索引模型原理32
2.7.3 隐性语义索引实例34
2.7.4 隐性语义索引模型的特点36
2.8 基于本体论的模型37
2.8.1 本体论的概念37
2.8.2 描述本体的语言38
2.8.3 本体的构造39
2.8.4 常用的本体库简介39
2.8.5 本体论在信息检索系统中的应用42
本章小结43
思考练习43
参考文献43
第3章 信息检索系统的评价45
3.1 引言45
3.2 性能评价指标45
3.2.1 准确率和召回率46
3.2.2 单值评价方法47
3.2.3 一些特殊的评价方法49
3.2.4 其他测度方法52
3.3 国外信息检索评测53
3.3.1 TREC评测54
3.3.2 NTCIR评测59
3.3.3 CLEF评测61
3.4 国内信息检索评测62
3.4.1 863信息检索评测62
3.4.2 SEWM中文Web评测64
3.5 信息检索评价的研究66
3.5.1 现有研究成果介绍66
3.5.2 今后的研究问题与趋势67
本章小结67
思考练习67
参考文献68
第4章 文本操作技术70
4.1 引言70
4.2 英文词法分析70
4.2.1 断词70
4.2.2 词干提取73
4.3 中文词法分析75
4.3.1 最大匹配法76
4.3.2 歧义词切分77
4.3.3 未登录词识别78
4.3.4 分词系统介绍81
4.3.5 语料及评测82
4.4 相关资源84
4.4.1 停用词表84
4.4.2 词典资源84
4.5 英文拼写检查86
4.5.1 形态还原87
4.5.2 词语相似度计算88
本章小结90
思考练习90
参考文献90
第5章 文本索引和搜索92
5.1 引言92
5.2 倒排文件93
5.2.1 倒排文件简介93
5.2.2 倒排文件的使用94
5.2.3 倒排文件的建立95
5.2.4 倒排文件的维护96
5.2.5 倒排文件的压缩97
5.2.6 倒排文件性能分析99
5.3 词汇表的存取99
5.3.1 排序数组99
5.3.2 B树100
5.3.3 Trie树101
5.4 后缀数组102
5.4.1 后缀数组的构造102
5.4.2 后缀数组的使用103
5.4.3 后缀数组的分析103
5.5 签名文件103
5.5.1 签名文件的构造103
5.5.2 签名文件的使用和维护105
5.5.3 签名文件的分析105
5.6 文本搜索技术105
5.6.1 BF算法106
5.6.2 KMP算法106
5.6.3 BM算法108
5.6.4 精确模式匹配算法的选择109
本章小结109
思考练习109
参考文献109
第6章 查询处理技术111
6.1 引言111
6.2 查询构造方法111
6.2.1 单一词查询111
6.2.2 上下文查询111
6.2.3 布尔查询112
6.3 相关反馈与查询重构112
6.3.1 向量空间模型中的反馈与查询重构113
6.3.2 概率模型中的反馈与查询重构115
6.3.3 布尔模型中的反馈与查询重构116
6.3.4 相关反馈的评价117
6.4 自动查询扩展技术118
6.4.1 查询扩展的全局分析方法119
6.4.2 查询扩展的局部分析方法121
6.4.3 基于词典库的查询扩展123
6.5 交互式查询扩展123
6.6 查询处理的发展趋势124
本章小结124
思考练习125
参考文献125
第7章 Web检索技术127
7.1 引言127
7.2 Web检索的工作流程及系统结构128
7.2.1 工作流程128
7.2.2 系统结构128
7.3 Web数据的采集129
7.3.1 Web数据采集系统的工作原理129
7.3.2 Web数据采集系统的相关概念及协议130
7.3.3 Web数据采集系统的基本结构133
7.3.4 Web数据采集系统的分类136
7.4 网页的预处理138
7.4.1 网页去重138
7.4.2 正文提取142
7.5 相关性排序系统145
7.5.1 早期的相关性排序技术145
7.5.2 链接分析技术145
7.5.3 多特征融合的相关性排序算法147
7.6 Web检索系统的其他模块147
本章小结148
思考练习148
参考文献149
第8章 分布式信息检索150
8.1 引言150
8.2 分布式信息检索系统体系结构150
8.3 文档集合的划分152
8.4 文档集合的选择153
8.4.1 文档集合的表示153
8.4.2 集合选择算法153
8.4.3 文档集合选择算法的评价156
8.5 检索结果的合并157
本章小结159
思考练习159
参考文献159
第9章 Web信息检索实践161
9.1 引言161
9.2 利用Lucene建立索引161
9.2.1 在Lucene中建立索引的主要步骤162
9.2.2 基本索引程序163
9.2.3 深入控制Lucene索引过程170
9.2.4 与索引相关的并发问题176
9.3 利用Lucene进行搜索180
9.3.1 IndexSearcher181
9.3.2 Hits181
9.3.3 Query与QueryParser182
本章小结184
思考练习185
参考资源185
第10章 文本分类与聚类186
10.1 引言186
10.2 文本分类186
10.2.1 文本分类概述186
10.2.2 文本分类的过程187
10.2.3 分类算法190
10.2.4 文本分类的评估指标194
10.2.5 相关评测和相关资源194
10.3 文本聚类195
10.3.1 文本聚类概述195
10.3.2 层次聚类195
10.3.3 基于划分的聚类197
10.3.4 基于密度的方法199
10.3.5 自组织映射201
10.3.6 基于模型的方法202
10.3.7 文本聚类结果的描述202
10.3.8 文本聚类的评价方法202
本章小结203
思考练习204
参考文献204
第11章 信息过滤技术205
11.1 引言205
11.2 信息过滤的概念及主要研究内容206
11.2.1 信息过滤的概念和主要特点206
11.2.2 信息过滤与信息检索、信息抽取以及分类等研究的区别206
11.2.3 信息过滤系统的分类体系207
11.3 信息过滤系统的结构及评价208
11.3.1 信息过滤系统的组成208
11.3.2 信息过滤系统的评价211
11.4 基于内容的信息过滤213
11.4.1 信息过滤中应用的统计模型213
11.4.2 信息过滤中应用的文本分类方法216
11.5 协作过滤222
11.5.1 基于用户的协作过滤223
11.5.2 基于模型的协作过滤225
11.5.3 基于项目的协作过滤227
本章小结228
思考练习228
参考文献228
第12章 问答系统231
12.1 引言231
12.2 问答系统的发展历程231
12.3 问答系统的种类233
12.3.1 问答系统分类方法233
12.3.2 自然语言的数据库问答系统233
12.3.3 对话式问答系统234
12.3.4 基于常问问题集的问答系统235
12.3.5 基于大规模文档集的问答系统236
12.3.6 阅读理解系统236
12.3.7 基于知识库的问答系统238
12.4 基于常问问题集的问答系统实现239
12.4.1 候选问题集的建立239
12.4.2 句子相似度计算240
12.5 基于大规模文档集的问答系统实现242
12.5.1 问答的任务与系统实现流程242
12.5.2 问题分析244
12.5.3 相关文档检索248
12.5.4 句段检索251
12.5.5 答案抽取252
12.5.6 问答结果的答案评测及其面对的问题和困难254
本章小结255
思考练习255
参考文献256
前言
作者简价
教学建议
第1章 绪论1
1.1 信息检索简介1
1.1.1 信息检索的概念和处理对象1
1.1.2 信息检索的基本流程1
1.1.3 与信息检索相关的学科2
1.2 信息检索的研究内容3
1.2.1 信息检索要解决的问题3
1.2.2 信息检索中的基础研究课题4
1.2.3 信息检索中的关键技术5
1.2.4 信息检索中的应用研究6
1.3 信息检索的历史、现状与未来8
1.3.1 信息检索的历史8
1.3.2 信息检索的现状与未来9
1.4 本书结构10
本章小结11
思考练习12
第2章 信息检索模型13
2.1 信息检索模型的定义和分类13
2.1.1 信息检索模型的定义13
2.1.2 信息检索模型的分类13
2.2 布尔模型14
2.2.1 布尔模型的定义14
2.2.2 布尔模型示例15
2.3 向量空间模型15
2.3.1 向量空间模型的定义15
2.3.2 常见相似度计算方法17
2.3.3 向量空间模型与布尔模型的比较19
2.4 概率模型19
2.4.1 概率模型的定义19
2.4.2 概率模型的优缺点22
2.5 扩展布尔模型23
2.5.1 扩展布尔模型简介23
2.5.2 基本模糊集合模型23
2.5.3 扩展模糊集合模型24
2.6 统计语言模型25
2.6.1 语言模型简介25
2.6.2 数据稀疏和平滑26
2.6.3 基于语言模型的检索模型30
2.6.4 基于语言模型的信息检索模型的优缺点分析31
2.7 隐性语义索引模型31
2.7.1 隐性语义索引32
2.7.2 隐性语义索引模型原理32
2.7.3 隐性语义索引实例34
2.7.4 隐性语义索引模型的特点36
2.8 基于本体论的模型37
2.8.1 本体论的概念37
2.8.2 描述本体的语言38
2.8.3 本体的构造39
2.8.4 常用的本体库简介39
2.8.5 本体论在信息检索系统中的应用42
本章小结43
思考练习43
参考文献43
第3章 信息检索系统的评价45
3.1 引言45
3.2 性能评价指标45
3.2.1 准确率和召回率46
3.2.2 单值评价方法47
3.2.3 一些特殊的评价方法49
3.2.4 其他测度方法52
3.3 国外信息检索评测53
3.3.1 TREC评测54
3.3.2 NTCIR评测59
3.3.3 CLEF评测61
3.4 国内信息检索评测62
3.4.1 863信息检索评测62
3.4.2 SEWM中文Web评测64
3.5 信息检索评价的研究66
3.5.1 现有研究成果介绍66
3.5.2 今后的研究问题与趋势67
本章小结67
思考练习67
参考文献68
第4章 文本操作技术70
4.1 引言70
4.2 英文词法分析70
4.2.1 断词70
4.2.2 词干提取73
4.3 中文词法分析75
4.3.1 最大匹配法76
4.3.2 歧义词切分77
4.3.3 未登录词识别78
4.3.4 分词系统介绍81
4.3.5 语料及评测82
4.4 相关资源84
4.4.1 停用词表84
4.4.2 词典资源84
4.5 英文拼写检查86
4.5.1 形态还原87
4.5.2 词语相似度计算88
本章小结90
思考练习90
参考文献90
第5章 文本索引和搜索92
5.1 引言92
5.2 倒排文件93
5.2.1 倒排文件简介93
5.2.2 倒排文件的使用94
5.2.3 倒排文件的建立95
5.2.4 倒排文件的维护96
5.2.5 倒排文件的压缩97
5.2.6 倒排文件性能分析99
5.3 词汇表的存取99
5.3.1 排序数组99
5.3.2 B树100
5.3.3 Trie树101
5.4 后缀数组102
5.4.1 后缀数组的构造102
5.4.2 后缀数组的使用103
5.4.3 后缀数组的分析103
5.5 签名文件103
5.5.1 签名文件的构造103
5.5.2 签名文件的使用和维护105
5.5.3 签名文件的分析105
5.6 文本搜索技术105
5.6.1 BF算法106
5.6.2 KMP算法106
5.6.3 BM算法108
5.6.4 精确模式匹配算法的选择109
本章小结109
思考练习109
参考文献109
第6章 查询处理技术111
6.1 引言111
6.2 查询构造方法111
6.2.1 单一词查询111
6.2.2 上下文查询111
6.2.3 布尔查询112
6.3 相关反馈与查询重构112
6.3.1 向量空间模型中的反馈与查询重构113
6.3.2 概率模型中的反馈与查询重构115
6.3.3 布尔模型中的反馈与查询重构116
6.3.4 相关反馈的评价117
6.4 自动查询扩展技术118
6.4.1 查询扩展的全局分析方法119
6.4.2 查询扩展的局部分析方法121
6.4.3 基于词典库的查询扩展123
6.5 交互式查询扩展123
6.6 查询处理的发展趋势124
本章小结124
思考练习125
参考文献125
第7章 Web检索技术127
7.1 引言127
7.2 Web检索的工作流程及系统结构128
7.2.1 工作流程128
7.2.2 系统结构128
7.3 Web数据的采集129
7.3.1 Web数据采集系统的工作原理129
7.3.2 Web数据采集系统的相关概念及协议130
7.3.3 Web数据采集系统的基本结构133
7.3.4 Web数据采集系统的分类136
7.4 网页的预处理138
7.4.1 网页去重138
7.4.2 正文提取142
7.5 相关性排序系统145
7.5.1 早期的相关性排序技术145
7.5.2 链接分析技术145
7.5.3 多特征融合的相关性排序算法147
7.6 Web检索系统的其他模块147
本章小结148
思考练习148
参考文献149
第8章 分布式信息检索150
8.1 引言150
8.2 分布式信息检索系统体系结构150
8.3 文档集合的划分152
8.4 文档集合的选择153
8.4.1 文档集合的表示153
8.4.2 集合选择算法153
8.4.3 文档集合选择算法的评价156
8.5 检索结果的合并157
本章小结159
思考练习159
参考文献159
第9章 Web信息检索实践161
9.1 引言161
9.2 利用Lucene建立索引161
9.2.1 在Lucene中建立索引的主要步骤162
9.2.2 基本索引程序163
9.2.3 深入控制Lucene索引过程170
9.2.4 与索引相关的并发问题176
9.3 利用Lucene进行搜索180
9.3.1 IndexSearcher181
9.3.2 Hits181
9.3.3 Query与QueryParser182
本章小结184
思考练习185
参考资源185
第10章 文本分类与聚类186
10.1 引言186
10.2 文本分类186
10.2.1 文本分类概述186
10.2.2 文本分类的过程187
10.2.3 分类算法190
10.2.4 文本分类的评估指标194
10.2.5 相关评测和相关资源194
10.3 文本聚类195
10.3.1 文本聚类概述195
10.3.2 层次聚类195
10.3.3 基于划分的聚类197
10.3.4 基于密度的方法199
10.3.5 自组织映射201
10.3.6 基于模型的方法202
10.3.7 文本聚类结果的描述202
10.3.8 文本聚类的评价方法202
本章小结203
思考练习204
参考文献204
第11章 信息过滤技术205
11.1 引言205
11.2 信息过滤的概念及主要研究内容206
11.2.1 信息过滤的概念和主要特点206
11.2.2 信息过滤与信息检索、信息抽取以及分类等研究的区别206
11.2.3 信息过滤系统的分类体系207
11.3 信息过滤系统的结构及评价208
11.3.1 信息过滤系统的组成208
11.3.2 信息过滤系统的评价211
11.4 基于内容的信息过滤213
11.4.1 信息过滤中应用的统计模型213
11.4.2 信息过滤中应用的文本分类方法216
11.5 协作过滤222
11.5.1 基于用户的协作过滤223
11.5.2 基于模型的协作过滤225
11.5.3 基于项目的协作过滤227
本章小结228
思考练习228
参考文献228
第12章 问答系统231
12.1 引言231
12.2 问答系统的发展历程231
12.3 问答系统的种类233
12.3.1 问答系统分类方法233
12.3.2 自然语言的数据库问答系统233
12.3.3 对话式问答系统234
12.3.4 基于常问问题集的问答系统235
12.3.5 基于大规模文档集的问答系统236
12.3.6 阅读理解系统236
12.3.7 基于知识库的问答系统238
12.4 基于常问问题集的问答系统实现239
12.4.1 候选问题集的建立239
12.4.2 句子相似度计算240
12.5 基于大规模文档集的问答系统实现242
12.5.1 问答的任务与系统实现流程242
12.5.2 问题分析244
12.5.3 相关文档检索248
12.5.4 句段检索251
12.5.5 答案抽取252
12.5.6 问答结果的答案评测及其面对的问题和困难254
本章小结255
思考练习255
参考文献256
编著还有:秦兵、张宇、车万翔
- 名称
- 类型
- 大小
光盘服务联系方式: 020-38250260 客服QQ:4006604884
云图客服:
用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问
Video Player
×
Audio Player
×
pdf Player
×