著者还有:仇晶、张晓明、王伟、张华平

副标题:无

作   者:高凯[等]著

分类号:

ISBN:9787118090048

微信扫一扫,移动浏览光盘

简介

《信息检索与智能处理》从多个视角对信息检索和智能处理技术进行了阐述,内容涵盖信息检索系统的架构、检索结果处理、中文自然语言处理、评价方法、Web检索、网络异构信息采集、网页正文提取与去噪、信息抽取、话题跟踪、主题词标引、分类、聚类、自动摘要、搜索引擎与数字图书馆的开发与应用实践、信息可视化等。全书以模块化的方式进行组织,理论性强,体系完整,内容新颖,条理清晰,组织合理,强调实践。作者团队以认真严谨的科学态度实现了书中绝大部分的主要方法,尽力详尽描述了各种方法的适用环境及取得的效果。

目录

第1篇背景知识
第1章绪论
1.1信息及其分类
1.2信息检索的起源和发展
1.2.1手工检索
1.2.2脱机批处理检索
1.2.3联机检索
1.2.4光盘检索
1.2.5网络信息检索
1.3信息检索与其他学科的关系
1.4本书主要关注的内容及知识点间的联系
1.5本章小结
参考文献
第2章信息智能处理关键技术综述
2.1自然语言处理及中文分词
2.1.1基于词典匹配的中文分词法
2.1.2基于词频统计的无词典中文分词法
2.2异构信息处理与内容表示
2.3文本挖掘
2.4实体关系抽取
2.5命名实体识别
2.6话题跟踪
2.7文本分类
2.7.1基于统计和分词的方法
2.7.2基于向量空间模型的方法
2.7.3基于知识工程的分类方法
2.8文本情感分析
2.9文本聚类
2.10自动摘要
2.11全文检索
2.12语义Web与信息集成
2.13大数据处理与Hadoop开源系统
2.13.1 Hadoop简介
2.13.2 HBase简介
2.13.3 Hive简介
2.13.4 Pig简介
2.13.5 Cassandra简介
2.13.6 Chukwa简介
2.14本章小结
参考文献
第3章搜索引擎与信息检索综述
3.1搜索引擎概述
3.2搜索引擎的发展历程
3.3搜索引擎的分类
3.3.1目录索引式搜索引擎
3.3.2自动式搜索引擎
3.3.3元搜索引擎
3.3.4分布式搜索引擎
3.4网络信息检索与处理的基本流程
3.4.1网络信息获取
3.4.2信息抽取
3.4.3信息加工
3.4.4信息检索与结果提供
3.5开源研发工具
3.5.1Lucene
3.5.2Lemur
3.5.3 UUS
3.5.4Egothor
3.5.5 Xapian
3.5.6 Sphinx
3.6信息检索评测
3.6.1TREC评测
3.6.2其他评测:NTCIR、CLEF、SEWM
3.7信息检索模型与基本方法
3.7.1布尔检索模型
3.7.2概率检索模型
3.7.3向量空间模型
3.7.4模糊检索模型
3.7.5逻辑检索模型
3.7.6概念检索
3.7.7案例检索
3.8信息检索系统的性能评价指标
3.9信息检索系统的体系结构
3.10本章小结
参考文献
第2篇信息处理
第4章海量异构信息采集
4.1概述
4.2相关工作综述与扩展阅读
4.3海量异构信息的获取与处理
4.3.1异构数据整合
4.3.2爬虫设计
4.3.3异构数据处理
4.4基于网站优先级调整的信息动态采集算法
4.4.1网页时新度的确定
4.4.2基于网页时新度的网站优先级调整思路
4.4.3基于网站优先级的多线程网页信息采集技术
4.4.4根据网页类别确定优先级
4.4.5实验及结果分析
4.5本章小结
参考文献
第5章网页正文提取与解析
5.1概述
5.2相关工作综述与扩展阅读
5.3基于DOM的网页正文提取与解析
5.3.1DOM规范简述
5.3.2算法描述
5.4基于文字密度的网页正文提取
5.4.1算法流程图
5.4.2网页源码预处理
5.4.3网页正文源码行中文密度的计算
5.4.4网页源码正文分块
5.4.5网页正文识别
5.4.6网页原始格式的保留问题
5.4.7实验设计与数据分析
5.5本章小结
参考文献
第6章实体关系抽取
6.1概述
6.2相关工作综述与扩展阅读
6.2.1基于模板的方法
6.2.2基于特征的实体关系抽取
6.2.3基于Kernel的实体关系抽取
6.2.4基于无指导的学习方法
6.3核函数
6.3.1核函数的基本数学性质
6.3.2常用的核函数
6.4特征核函数
6.4.1定义
6.4.2句法核函数
6.4.3组合核函数
6.5未使用Bootstrapping算法的实体关系自动抽取
6.5.1系统模型
6.5.2实验数据集
6.5.3实验结果
6.6基于Bootstrapping算法的实体关系自动抽取
6.6.1系统模型
6.6.2实验结果
6.7本章小结
参考文献
第7章命名实体识别及话题跟踪
7.1概述
7.2相关工作综述与扩展阅读
7.2.1命名实体识别研究概况及发展趋势
7.2.2话题跟踪的相关研究
7.3将时间信息用于话题跟踪
7.3.1时间信息识别
7.3.2时间信息的规范
7.3.3时间信息的相似度计算
7.3.4时间信息抽取性能评估
7.4标题信息用于话题跟踪
7.5话题跟踪模型
7.6实验结果与分析
7.6.1新闻正文抽取
7.6.2新闻标题抽取
7.6.3新闻发布时间的抽取
7.6.4实验结果
7.7本章小结
参考文献
第8章主题概念自动标引
8.1概述
8.2相关工作综述与扩展阅读
8.3基于概念分析的主题词自动标引
8.3.1文章模型建立
8.3.2主题词自动标引算法
8.3.3主题概念权值的设定
8.3.4同(近)义词、忽略词和用户自定义词的处理
8.3.5基于频率统计和规则过滤的未登录词识别与处理
8.4基于遗传算法的主题概念权值学习与调整算法
8.4.1编码设计
8.4.2适应性函数
8.4.3选择策略
8.4.4变异策略
8.4.5杂交策略
8.4.6学习算法
8.5算法实验与性能分析
8.5.1实验环境与实验数据
8.5.2实验评价标准
8.5.3各领域标引结果满意度测试
8.5.4基于遗传算法的主题概念权值学习与调整实验
8.6下一步的研究计划
8.7本章小结
参考文献
第9章文本自动摘要
9.1概述
9.2相关工作综述与扩展阅读
9.3基于主题标引相似计算的文本自动摘要
9.3.1文档结构模型表示
9.3.2主题词串的向量化与构建文档向量空间模型
9.3.3计算文档结构各部分的权重
9.3.4正规则、负规则、用户倾向性词表的定义与应用
9.3.5基于语句相似度的语句冗余度算法以及摘要句冗余度阈值的使用
9.3.6摘要和原文比例的确定以及摘要生成
9.3.7预处理网页正文对提高摘要准确性的作用
9.3.8提高摘要算法实时性的措施
9.4算法实验及性能分析
9.5本章小结
参考文献
第10章文本自动分类
10.1概述
10,2相关工作综述与扩展阅读
10.3算法流程
10.4文本表示模型
10.4.1基于主题词向量模板的文本表示模型
10.4.2基于特征词哈希表的文本表示模型
10.5两种辅助算法
10.5.1改进的向量内积算法
10.5.2改进的相似度算法
10.6类别中心向量分类算法
10.6.1算法主要步骤
10.6.2类别中心向量修正
10.7算法性能分析
10.7.1两种向量表示方法的性能比较
10.7.2类别中心向量分类算法的实验及分析
10.8无分词分类算法
10.8.1基于单字计算的文本分类算法
10.8.2特征向量生成
10.8.3相似度计算
10.8.4实验结果分析
10.9本章小结
参考文献
……
第3篇应用

已确认勘误

次印刷

页码 勘误内容 提交人 修订印次

著者还有:仇晶、张晓明、王伟、张华平
    • 名称
    • 类型
    • 大小

    光盘服务联系方式: 020-38250260    客服QQ:4006604884

    意见反馈

    14:15

    关闭

    云图客服:

    尊敬的用户,您好!您有任何提议或者建议都可以在此提出来,我们会谦虚地接受任何意见。

    或者您是想咨询:

    用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问

    Video Player
    ×
    Audio Player
    ×
    pdf Player
    ×
    Current View

    看过该图书的还喜欢

    some pictures

    解忧杂货店

    东野圭吾 (作者), 李盈春 (译者)

    loading icon