中文印刷体文档识别技术

副标题:无

作   者:王科俊,冯伟兴著

分类号:

ISBN:9787030287601

微信扫一扫,移动浏览光盘

简介

         本书为我国首部全面阐述关于中文印刷体文档识别基本原理,基本方法及其实现算方的著作。目前仅具有汉字和符号识别功能的印刷体识别软件(ocr)已在实际中得到广泛应用,但是一个中文文档中不仅含有汉字,还含有英文以及各种各样的公式及图表。而现阶段的中文文档识别软件并不能对公式进行识别,迫切需要一种既能识别汉字又能识别公式的较为全面的中文文档识别系统。针对这一现状,本书作者近十年来重点开展了公式识别的研究,本书就是我们在这一领域研究成果的总结。本书从中文印刷体文档图像的预处理、版面分析、文字和符号识别、公式定位和识别、表格识别和文档中的图形图像处理等方面全面介绍了中文印刷体文档识别的技术细节,结合作者多年来在公式识别方面取得的研究成果重点给出了公式的定位与提取和公式的结构分析的理论与方法,本书还给出了一个含有文字、公式和表格识别功能的中文印刷体文档识别系统软件实现方法及相应的实现代码。      

目录

  《智能科学技术著作丛书》序
  前言
  第1章 绪论
   1.1 中文印刷体文档识别基本原理
   1.2 中文印刷体文档识别研究现状
   1.2.1 印刷体文档的汉字识别
   1.2.2 印刷体文档的公式识别
   1.2.3 印刷体文档的表格识别
   1.3 中文印刷体文档识别中的难点
  第2章 中文印刷体文档图像预处理
   2.1 中文印刷体文档图像采集
   2.1.1 文档图像采集
   2.1.2 文档图像显示
   2.1.3 文档图像格式
   2.2 中文印刷体文档图像特点
   2.3 二值化处理
   2.3.1 图像灰度化
   2.3.2 图像二值化
   2.4 平滑去噪
   2.4.1 邻域平均法
   2.4.2 中值平均法
   2.4.3 噪声直接去除法
   2.5 倾斜校正
   2.5.1 图像倾斜检测
   2.5.2 图像倾斜校正
  第3章 版面分析
   3.1 版面结构
   3.2 版面分析方法
   3.2.1 基于连通域的版面分析方法
   3.2.2 二分法
   3.2.3 基于组合特征的版面分析方法
   3.2.4 基于神经网络的版面分析方法
   3.2.5 基于最近邻连接强度和行列可信度的版面分析方法
   3.3 版面理解
   3.3.1 文字区域
   3.3.2 图片区域
   3.3.3 表格区域
   3.3.4 版面结构表示与存储
   3.4 版面重构
  第4章 印刷体汉字识别
   4.1 文本区域预处理
   4.1.1 文本增强
   4.1.2 字符分割
   4.1.3 字符细化
   4.1.4 字符归一化
   4.1.5 文本区域处理效果图
   4.2 印刷体汉字的特征提取
   4.2.1 印刷体汉字的统计特性
   4.2.2 印刷体汉字的常用特征
   4.3 印刷体汉字识别的实现方式
  第5章 公式的定位与提取
   5.1 印刷体文档公式的特点
   5.2 基于投影的公式定位和提取
   5.2.1 独立行公式的定位
   5.2.2 内嵌公式的定位
   5.3 基于Parzen窗的独立行公式定位和提取
   5.3.1 待分类文本行的特征数据提取
   5.3.2 Parzen窗方法
   5.3.3 公式定位与提取效果
   5.4 基于字符宽度中心矩的公式定位和提取
   5.4.1 文本区域基本数据获取
   5.4.2 含公式的文本行提取
   5.4.3 文本行中公式判别
   5.4.4 独立行公式的定位
   5.4.5 内嵌公式的定位
   5.4.6公式定位与提取效果
   5.5 基于汉字拒识的内嵌公式定位和提取
   5.5.1 内嵌公式的定位
   5.5.2 公式定位与提取效果
  第6章 公式字符分割与识别
   6.1 公式字符的特点
   6.2 公式字符的分割
   6.2.1 基于轮廓跟踪的字符分割
   6.2.2 基于连通域的字符分割
   6.3 公式字符的识别
   6.3.1 公式字符图像预处理
   6.3.2 基于模板匹配的公式字符识别
   6.3.3 基于特征的公式字符识别
   6.3.4 印刷体公式字符识别的实现
   6.3.5 公式字符识别方法
  第7章 公式结构分析与表示
   7.1 公式结构分析的难点
   7.1.1 数学运算符的模糊性
   7.1.2 符号的上下文敏感性
   7.1.3 表示习惯的差异性
   7.1.4 公式的复杂性
   7.1.5 公式的多行结构
   7.2 公式结构分析前的字符预处理
   7.3 公式结构分析方法
   7.4 公式结构表示方法
   7.4.1 公式的典型表示方法
   7.4.2 实验结果
  第8章 图表处理
   8.1 文档中图形图像的表示与处理
   8.1.1 游程压缩
   8.1.2 霍夫曼编码压缩
   8.1.3 算术压缩方法
   8.1.4 Rice压缩方法
   8.1.5 LZW压缩方法
   8.2 文档中表格的分析与识别
   8.2.1 表格预处理
   8.2.2 表格直线提取
   8.2.3 表格结构分析
   8.2.4 表格字符提取与识别
  第9章 中文印刷体文档识别软件HEUOCR的设计与实现
   9.1 应用程序框架的构建
   9.1.1 框架风格
   9.1.2 数字图像处理类
   9.2 文档图像预处理
   9.2.1 图像灰度化
   9.2.2 图像平滑滤波
   9.2.3 图像阈值分割
   9.3 文档图像版面分析
   9.3.1 基本连通域提取
   9.3.2 基本连通域分析
   9.4 文本汉字识别
   9.4.1 字符分割
   9.4.2 字符识别
   9.5 公式识别
   9.5.1 公式定位
   9.5.2 公式字符分割
   9.5.3 公式字符特征提取
   9.5.4 公式字符识别
   9.5.5 公式结构分析
  参考文献
  

已确认勘误

次印刷

页码 勘误内容 提交人 修订印次

中文印刷体文档识别技术
    • 名称
    • 类型
    • 大小

    光盘服务联系方式: 020-38250260    客服QQ:4006604884

    意见反馈

    14:15

    关闭

    云图客服:

    尊敬的用户,您好!您有任何提议或者建议都可以在此提出来,我们会谦虚地接受任何意见。

    或者您是想咨询:

    用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问

    Video Player
    ×
    Audio Player
    ×
    pdf Player
    ×
    Current View

    看过该图书的还喜欢

    some pictures

    解忧杂货店

    东野圭吾 (作者), 李盈春 (译者)

    亲爱的云图用户,
    光盘内的文件都可以直接点击浏览哦

    无需下载,在线查阅资料!

    loading icon