印刷体汉字识别及其MATLAB实现
- 格式:doc
- 大小:559.00 KB
- 文档页数:20
matlab 汉字二进制编码摘要:1.引言2.Matlab 简介3.汉字的二进制编码4.如何在Matlab 中处理汉字5.总结正文:1.引言Matlab 是一种广泛应用于科学计算和数据分析的编程语言,具有强大的矩阵计算能力和各种工具箱。
然而,在处理汉字时,需要了解汉字的二进制编码以及如何在Matlab 中进行处理。
2.Matlab 简介Matlab 是一种基于矩阵计算的编程语言,由美国MathWorks 公司开发。
它具有丰富的函数库和强大的绘图功能,广泛应用于数学建模、信号处理、图像处理、控制系统等领域。
3.汉字的二进制编码汉字是中文、日文和韩文等东亚语言中使用的字符。
为了在计算机中表示和处理汉字,需要将其转换为二进制编码。
常用的汉字编码有GBK、UTF-8 和Unicode 等。
在Matlab 中,可以通过定义字体文件的方式来支持不同的编码方式。
4.如何在Matlab 中处理汉字在Matlab 中处理汉字,首先需要确保系统支持汉字显示。
可以通过以下命令检查Matlab 是否支持中文显示:```matlabdisp("你好,世界!");```如果显示正常,说明Matlab 已经支持中文显示。
在处理汉字时,需要使用适当的编码方式,例如,使用UTF-8 编码可以在不同操作系统和设备之间保持一致性。
此外,可以使用Matlab 的内置函数进行字符串操作和矩阵计算。
5.总结Matlab 作为一种强大的科学计算语言,在处理汉字时需要了解汉字的二进制编码以及如何在Matlab 中进行处理。
通过设置字体文件和支持适当的编码方式,可以在Matlab 中正常显示和处理汉字。
Matlab中的模式识别技术实践引言模式识别是一门涉及计算机科学、人工智能和统计学的领域,它致力于寻找和识别数据中的模式和结构。
在现代科技的快速发展下,模式识别技术在各个领域都起到了重要的作用。
而在应用这一领域中,Matlab作为一种强大的工具,提供了丰富的算法和函数库,使得模式识别技术的实践更加便捷和高效。
一、机器学习与模式识别机器学习是模式识别中的核心方法之一,它通过从数据中学习规律和模式,来辅助模式的识别和分类。
在Matlab中,机器学习工具箱提供了各种经典的算法,包括支持向量机(SVM)、决策树和神经网络等,可以帮助我们实现不同类型的模式识别任务。
例如,我们可以利用SVM算法实现图像分类任务。
首先,我们需要从大量的图像数据中提取特征,例如颜色直方图、纹理特征和形状描述符等。
然后,将提取到的特征作为SVM的输入,通过训练和调参的过程,使用SVM模型来对新的图像进行分类。
通过Matlab提供的函数和工具,我们可以快速构建、训练和评估模型,大大减轻了我们的工作负担。
二、特征提取与选择在模式识别任务中,特征的选择和提取是非常重要的环节。
好的特征可以更好地表达数据的内在模式和结构,从而提高分类和识别的准确性。
Matlab中提供了丰富的特征提取和选择的函数,可以帮助我们快速有效地完成这一过程。
一种常见的特征选择方法是主成分分析(PCA),它通过线性变换将高维数据投影到低维空间,从而减少数据的维度但保留主要的信息。
Matlab中的PCA函数可以直接实现这一过程,帮助我们选择出最能代表数据的主要特征。
另外,Matlab还提供了一些经典的特征提取函数,例如局部二值模式(LBP)和方向梯度直方图(HOG)。
这些函数可以将图像等多维数据转化为具有较好表达能力的特征向量,有助于我们在模式识别任务中取得更好的效果。
三、模式识别的应用领域模式识别技术在诸多领域都起到了重要的作用。
以下将介绍几个常见的应用领域,并结合实例说明Matlab中的实践。
中文印刷体文档识别技术第1章绪论1.1 中文印刷体文档识别基本原理1.2 中文印刷体文档识别研究现状1.2.1 印刷体文档的汉字识别1.2.2 印刷体文档的公式识别1.2.3 印刷体文档的表格识别1.3 中文印刷体文档识别中的难点第2章中文印刷体文档图像预处理2.1 中文印刷体文档图像采集2.1.1 文档图像采集2.1.2 文档图像显示2.1.3 文档图像格式2.2 中文印刷体文档图像特点2.3 二值化处理2.3.1 图像灰度化2.3.2 图像二值化2.4 平滑去噪2.4.1 邻域平均法2.4.2 中值平均法2.4.3 噪声直接去除法2.5 倾斜校正2.5.1 图像倾斜检测2.5.2 图像倾斜校正第3章版面分析3.1 版面结构3.2 版面分析方法3.2.1 基于连通域的版面分析方法3.2.2 二分法3.2.3 基于组合特征的版面分析方法3.2.4 基于神经网络的版面分析方法3.2.5 基于最近邻连接强度和行列可信度的版面分析方法3.3 版面理解3.3.1 文字区域3.3.2 图片区域3.3.3 表格区域3.3.4 版面结构表示与存储3.4 版面重构第4章印刷体汉字识别4.1 文本区域预处理4.1.1 文本增强4.1.2 字符分割4.1.3 字符细化4.1.4 字符归一化4.1.5 文本区域处理效果图4.2 印刷体汉字的特征提取4.2.1 印刷体汉字的统计特性4.2.2 印刷体汉字的常用特征4.3 印刷体汉字识别的实现方式第5章公式的定位与提取5.1 印刷体文档公式的特点5.2 基于投影的公式定位和提取5.2.1 独立行公式的定位5.2.2 内嵌公式的定位5.3 基于Parzen窗的独立行公式定位和提取5.3.1 待分类文本行的特征数据提取5.3.2 Parzen窗方法5.3.3 公式定位与提取效果5.4 基于字符宽度中心矩的公式定位和提取5.4.1 文本区域基本数据获取5.4.2 含公式的文本行提取5.4.3 文本行中公式判别5.4.4 独立行公式的定位5.4.5 内嵌公式的定位5.4.6公式定位与提取效果5.5 基于汉字拒识的内嵌公式定位和提取5.5.1 内嵌公式的定位5.5.2 公式定位与提取效果第6章公式字符分割与识别6.1 公式字符的特点6.2 公式字符的分割6.2.1 基于轮廓跟踪的字符分割6.2.2 基于连通域的字符分割6.3 公式字符的识别6.3.1 公式字符图像预处理6.3.2 基于模板匹配的公式字符识别6.3.3 基于特征的公式字符识别6.3.4 印刷体公式字符识别的实现6.3.5 公式字符识别方法第7章公式结构分析与表示7.1 公式结构分析的难点7.1.1 数学运算符的模糊性7.1.2 符号的上下文敏感性7.1.3 表示习惯的差异性7.1.4 公式的复杂性7.1.5 公式的多行结构7.2 公式结构分析前的字符预处理7.3 公式结构分析方法7.4 公式结构表示方法7.4.1 公式的典型表示方法7.4.2 实验结果第8章图表处理8.1 文档中图形图像的表示与处理8.1.1 游程压缩8.1.2 霍夫曼编码压缩8.1.3 算术压缩方法8.1.4 Rice压缩方法8.1.5 LZW压缩方法8.2 文档中表格的分析与识别8.2.1 表格预处理8.2.2 表格直线提取8.2.3 表格结构分析8.2.4 表格字符提取与识别第9章中文印刷体文档识别软件HEUOCR的设计与实现9.1 应用程序框架的构建9.1.1 框架风格9.1.2 数字图像处理类9.2 文档图像预处理9.2.1 图像灰度化9.2.2 图像平滑滤波9.2.3 图像阈值分割9.3 文档图像版面分析9.3.1 基本连通域提取9.3.2 基本连通域分析9.4 文本汉字识别9.4.1 字符分割9.4.2 字符识别9.5 公式识别9.5.1 公式定位9.5.2 公式字符分割9.5.3 公式字符特征提取9.5.4 公式字符识别9.5.5 公式结构分析。
matlab 汉字二进制编码MATLAB是一种广泛应用于科学和工程计算的编程语言和环境。
它提供了丰富的功能和工具,可以用于各种数值计算、数据分析、图像处理、算法开发和模拟实验等应用领域。
其中,汉字的处理问题一直是MATLAB用户关注的一个重要方面之一。
本文将介绍MATLAB中汉字的二进制编码方式及其应用。
在MATLAB中,汉字的二进制编码方式主要有两种:Unicode编码和GBK编码。
Unicode编码是一种国际化的标准字符编码,包含了全世界几乎所有的字符,包括汉字。
而GBK编码是中文信息处理的标准,它将汉字分成了不同的区,每个区有若干个位面,每个位面又包含了若干个码位,每个码位对应一个字符。
在MATLAB中,可以使用内置的函数将汉字转换为二进制编码。
下面是一个示例,展示了如何将汉字 "你好" 转换为二进制编码:```matlabstr = '你好';unicode = unicode2native(str, 'UTF-8');gbk = unicode2native(str, 'GBK');```在上述示例中,变量 `str` 是一个包含汉字的字符串,`unicode` 是将汉字转换为UTF-8编码的结果,`gbk` 是将汉字转换为GBK编码的结果。
可以通过查看变量的值来获取对应的二进制编码。
对于每种编码方式,都有对应的解码函数可以将二进制编码转换为汉字。
例如,将UTF-8编码转换为汉字的示例如下:```matlabunicode = [228 189 160 229 165 189]; % UTF-8编码str = native2unicode(unicode, 'UTF-8');disp(str);```在上述示例中,变量 `unicode` 是一个包含UTF-8编码的二进制数组,`str` 是将UTF-8编码转换为汉字的结果。
【matlab代做】神经网络手写数字识别文献综述基于神经网络的手写体数字识别系统1 前言自1946年第一台计算机面世以来,让电脑能说会看,能写会画,使人与计算机的交流更加充分融洽,就成为电脑专家们努力追求的目标。
其中计算机的输入技术也由最早的磁带输入到键盘鼠标操作,然而,笔输入的更加直观方便使之成为每个人的梦想。
1987年,美国电气和电子工程师学会IEEE(institute for electrical and electronic engineers)在圣地亚哥召开了盛大规模的神经网络国际学术会议,国际神经网络学会(international neural networks society)也随之诞生。
1990年IEEE神经网络会刊问世,各种期刊的神经网络特刊层出不穷,神经网络的理论研究和实际应用进入了一个蓬勃发展的时期[1]。
目前关于人工神经网络的定义尚不统一[2],例如,美国神经网络学家Hecht Hielsen 关于人工神经网络的一般定义是:“神经网络是由多个非常简单的处理单元彼此按某种方式相互连接而形成的计算系统,该系统是靠其状态对外部输入信息的动态响应来处理信息的”。
综合人工神经网络的来源、特点及各种解释,可以简单表述为:人工神经网络是一种旨在模仿人脑结构及其功能的脑式智能信息处理系统。
神经网络经过训练可有效地提取信号、语音、图像、雷达、声呐等感知模式的特征,并能解决现有启发式模式识别系统不能很好解决的不变量探测、自适应、抽象或概括等问题。
2 手写体数字识别系统的现状2.1手写体数字识别手写体字符的识别是多年来的研究热点,在过去的数十年中,研究者们提出了许许多多的识别方法。
数字识别问题是根据待识别数字符号的特征观察值将其分类到0-9共10个类别中去。
手写体数字识别方法大致可以分为两类[3]:基于统计的识别方法和基于结构的识别方法。
统计法所使用的技术大致有一下几类:1) 模板匹配法2) 从像素点统计分布的角度来抽取特征,主要的方法有:采样点方法,矩方法、特征轨迹方法等。
基于BP神经网络的印刷体字母识别1背景随着社会的发展,英语作为国际通用语言得到了日益广泛的应用,因此有大量的英文文档整理、查询、统计的工作需要完成,而英文字母识别系统可以轻而易举地完成很多以前难以想象的工作。
智能控制作为一门新兴的交叉学科,在许多方面都优于传统控制,而智能控制中的人工神经网络由于模仿人类的神经网络,具有感知识别、学习、联想、记忆、推理等智能,更是有着广阔的发展前景。
人工神经网络理论的应用主要在人工智能,自动控制,模式识别,机器人,信息处理,CAD/CAM等方面。
如:(1)空间科学。
航空飞行器及汽车的自动驾驶导航系统,飞行路径模拟,飞行器制导和飞行程序优化管理等。
(2)控制和优化。
机器人运动控制,各种工业过程控制和制造过程控制,如集成电路布线设计,生产流程控制等等。
(3)模式识别和图像处理。
如人脸识别,语言识别,指纹识别,签名识别,手写体和印刷体字符识别,目标检测与识别,图像复原,图像压缩等等。
(4)智能信息管理系统。
如股价预测,不动产价格预测,外汇,黄金等大宗产品价格预测,公司财务分析,地震及各种自然灾害预报等等。
其中最核心的是反向传播网络(Back Propagation Network),简称BP网络。
本文介绍了运用matlab工具箱确定隐层神经元的个数和构造BP神经网络,并用两组样本对该神经网络进行训练,然后运用训练后的网络对字母进行识别。
2 BP网络介绍BP神经网络又称误差反向传递神经网络。
它是一种依靠反馈值来不断调整节点之间的连接权值而构建的一种网络模型。
它的整个体系结构分为输入层、隐藏层和输出层,其中隐藏层根据具体情况的需要,可以是一层结构也可为多层结构。
BP算法的基本思想是:学习过程由信号的正向传播与误差的反向传播两个过程组成。
正向传播时,输入样本从输入层传入,经各隐藏层逐层处理后,传向输出层。
若输出层的实际输出与期望的输出(教师信号)不符,则转入误差的反向传播阶段。
2013届本科生毕业设计(论文)开题报告课题名称印刷体汉字识别技术的研究专业电气工程及其自动化专业方向电气工程及其自动化班级09103212学号0910321220学生姓名沈佳骏指导教师陈岚教研室电子电工教研室上海应用技术学院电气与电子工程学院2013年3月1日1开题依据汉字已有数千年的历史,是中华民族文化的重要结晶,闪烁着中国人民智慧的光芒。
同时也是世界上使用人数最多和数量最多的文字之一。
现如今,汉字印刷材料的数量大大增加,一些专业单位如新闻社、图书馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海,信息量均是爆炸性增长,毕竟阅读印刷材料更为符合人的自然阅读习惯。
然而,汉字是非字母化、非拼音化的文字,因此,如何将汉字快速高效地输入计算机,是信息处理的一个关键问题[1],也是关系到计算机技术能否在我国真正普及的关键问题,更是传播与弘扬中华民族悠久历史文化的关键问题。
但人工键入速度不仅慢而且劳动强度大,一般的使用者每分钟只能输入40—50个汉字。
这种方法不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合。
而且随着劳动力价格的升高,利用人工方法进行汉字输入也将面临经济效益的挑战。
因此,对于大量已有的文档资料,汉字自动识别输入就成为了最佳的选择。
因此,汉字识别技术也越来越受到人们的重视。
汉字识别技术已经呈现出了广泛的应用前景,它主要应用在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域。
汉字识别是模式识别的重要应用领域,也是光学字符识别OCR(Optical Character Recognition)的重要组成部分[2]。
汉字识别是一门多学科综合的研究课题,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。
一方面各学科的发展给它的研究提供了工具;另一方面,它的研究与发展也必将促进各学科的发展。
256现代交际·2019年6期作者简介:王思达,长春师范大学学生,研究方向:计算机科学与技术;刘勇,长春师范大学学生,研究方向:计算机科学与技术;袁汇灵,长春师范大学学生,研究方向:计算机科学与技术。
基于MATLAB 和升维投影法的手写字符识别输入系统王思达 刘勇 袁汇灵(长春师范大学 吉林 长春 130032)摘要:互动式电子白板最早由加拿大SMART Technologies Inc 在1331年发明。
其最早的用途是会议与培训,并在随后进军到了教育领域。
在国内,随着教育正逐渐向数字化、智能化转变,诸如电子白板之类的新一代智能教具也正在全国学校中渐渐流行开来。
然而,与这些设备设施相匹配的一系列软件的发展却相对欠缺,直接限制了新型设备作用的发挥。
而本文将提出一种全新的基于教学的适用于交互式电子白板的手写输入方式。
关键词:升维投影 字符识别 MATLAB 电子白板中图分类号:TP183 文献标识码:A 文章编号:1009-5349(2019)06-0256-02一、现状及背景随着科技时代的发展以及人们的需求,字符识别技术正在被广泛应用于各种领域,而领域的发展也带动了技术的革新。
现如今,与字符识别相关的技术与算法层出不穷,比如SVM、OCR、CSG 等。
但是这些技术在应用上各有千秋,但我们认为基于MATLAB 与升维投影所开发出的,适用于电子白板等电子设备的的字符识别算法在理解与研究上将会更加便捷。
二、字符识别方式概述对于黑板字符的识别我们基于MATLAB 对图像的处理方法设计了独到的方式,摒弃了以往停留在二维图像上的传统识别方式,将所有收集到的信息进行基于积分和微分的升维处理,进行三维的建模和检索,从而克服了以往识别不准确和速度慢的问题。
其具体实现步骤如下:1.图像收集对书写在电子白板上的信息进行收集,在单片机的加持下,将整个黑板的实时信息以图片的形式收集并反馈至处理器。
2.图像处理收集到图像信息以后,通过MATLAB 强大的图像处理功能将整个画面图像先后转化为灰度图像和二至图像,由灰度图像收集字符颜色,以便随后还原。
基于计算机视觉的汉字识别与印刷体转写技术研究计算机视觉技术在现代社会中得到了广泛的应用,其中汉字识别与印刷体转写是一个重要的研究方向。
本文将探讨基于计算机视觉的汉字识别与印刷体转写技术的研究进展、方法和挑战。
1. 引言计算机视觉技术是研究如何让计算机通过视觉感知和理解图像或视频,并进行相关的任务,如物体识别、图像分类等。
汉字识别与印刷体转写是计算机视觉技术中一个重要的应用领域。
它在很多实际场景中都有广泛的应用,如自动化文档处理、手写文字识别和文本重排等。
2. 汉字识别汉字作为世界上使用人数最多的文字,其识别是一个具有挑战性的任务。
传统的汉字识别方法主要基于特征提取和模式匹配。
这些方法常常使用算法提取图像的特征点或线条,然后利用模板匹配或机器学习方法来进行汉字识别。
然而,这些方法对于复杂的汉字或手写文字的识别效果有限。
近年来,深度学习技术的兴起为汉字识别带来了新的突破。
卷积神经网络(CNN)和循环神经网络(RNN)被广泛用于汉字识别任务中。
通过使用大规模的数据集进行训练,深度学习模型可以学习到更加丰富和抽象的特征表示,从而提高了汉字识别的准确率和鲁棒性。
3. 印刷体转写印刷体转写是将印刷体汉字转换成计算机可识别的字符序列。
印刷体转写在实际应用中有着广泛的需求。
传统的印刷体转写方法主要基于字库匹配和规则匹配。
这些方法通过建立字形和字符之间的对应关系,将印刷体汉字转换为标准的计算机字符。
然而,传统的印刷体转写方法对于复杂的字体和噪声干扰具有较弱的鲁棒性。
近年来,基于深度学习的印刷体转写方法取得了显著的进展。
通过使用大规模的印刷体汉字数据集进行训练,深度学习模型可以学习到字形和字符之间的复杂映射关系,从而实现更准确和鲁棒的印刷体转写。
4. 方法和算法基于计算机视觉的汉字识别与印刷体转写技术主要利用深度学习模型进行实现。
在汉字识别任务中,常用的模型包括基于CNN的物体检测模型、基于RNN的序列分类模型和端到端的无监督模型。
. '. 印刷体汉字的识别及其MATLAB实现 0.汉字识别研究的意义
汉字已有数千年的历史,是中华民族文化的重要结晶,闪烁着中国人民智慧的光芒。同时也是世界上使用人数最多和数量最多的文字之一。现如今,汉字印刷材料的数量大大增加,一些专业单位所接触的印刷材料更是浩如烟海,信息量均是爆炸性增长。然而,汉字是非字母化、非拼音化的文字,因此,如何将汉字快速高效地输入计算机,是信息处理的一个关键问题,也是关系到计算机技术能否在我国真正普及的关键问题,更是传播与弘扬中华民族悠久历史文化的关键问题。而且随着劳动力价格的升高,利用人工方法进行汉字输入也将面临经济效益的挑战。因此,对于大量已有的文档资料,汉字自动识别输入就成为了最佳的选择。因此,汉字识别技术也越来越受到人们的重视。汉字识别是一门多学科综合的研究课题,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。一方面各学科的发展给它的研究提供了工具;另一方面,它的研究与发展也必将促进各学科的发展。因而有着重要的实用价值和理论意义。 1.印刷体汉字识别的研究
1.1印刷体汉字识别技术的发展历程 计算机技术的快速发展和普及,为文字识别技术应运而生提供了必备条件。加上人们对信息社会发展的要求越来越高,文字识别技术的快速发展可想而知。印刷体文字的识别可以说很早就成为人们的梦想。印刷体汉字的识别最早可以追溯到60年代,但都是西方国家进行的研究。我国对印刷体汉字识别的研究始于70年代末80年代初。同国外相比,我国的印刷体汉字识别研究起步较晚。从80年代开始,汉字ORC的研究开发一直受到国家重视,经过科研人员十多年的辛勤努力,印刷体汉字识别技术的发展和应用,有了长足进步。 1.2印刷体汉字识别的原理分析及算法研究 汉字识别实质是解决文字的分类问题,一般通过特征辨别及特征匹配的方法来实现。目前汉字识别技术按照识别的汉字不同可以分为印刷体汉字识别和手写体汉字识别。印刷体汉字识别从识别字体上可分为单体印刷体汉字识别与多体印刷体汉字识别。 印刷体汉字识别的流程如图1-1所示: . '. 图1-1汉字识别流程框图 印刷在纸张上的汉字,通过用扫描仪扫描或者数码相机拍摄等光学方式输入
后得到灰度图像(Grayscale image)或者二值图像(Binary image),然后利用各种模式识别算法对汉字图像进行分析,提取汉字的特征,与标准汉字进行匹配判别,从而达到识别汉字的目的。印刷体汉字识别技术主要包括预处理、特征提取、匹配识别和后处理等步骤。 1.2.1预处理 在对原始图像进行识别处理之前,尽可能将干扰因素影响降低,是非常有必要的,也就是要先对原始采样信号进行预处理。预处理通常包括去除噪声、版面分析、二值化、倾斜校正、行列切分、平滑、归一化、细化等。 (1)版面分析 它是指对印刷体文档图像进行分析,提取出文本、图像图形、表格等区域,并确定其逻辑关系,并将相应的文本块连接在一起。 (2)二值化 将一幅具有多种灰度值的图像变成白黑分布的二值图像的工作称为二值化处理,二值化的主要目的是将汉字从图像中分离出来。通常的方法为先确定像素的阈值,比较像素值和阈值的大小,从而确定为1或0,这个二值化阈值的选取较为关键。 (3)倾斜校正 通过输入设备获得的图像不可避免地会发生倾斜,这会给后面的行字分割、文字识别等图像处理与分析带来困难,因此,在汉字识别系统中,倾斜校正是图像预处理的重要部分。倾斜校正的核心在于如何检测出图像的倾斜角。 (4)汉字切分 汉字切分的目的是利用字与字之间、行与行之间的空隙,将单个汉字从整个图像中分离出来。汉字的切分分为行切分和字切分[9]。 . '. (5)归一化 归一化也称规格化,它是把文字尺寸变换成统一大小,纠正文字位置(平移),文字笔画粗细变换等文字图像的规格化处理,并只对文字图像进行投影。 (6)平滑 对数字图像进行平滑,目的是去处孤立的噪声干扰,以平滑笔画边缘。平滑在图像处理中实质是一幅文字图像通过一个低通滤波器,去除高频分量,保留低频分量。 (7)细化 细化处理是将二值化文字点阵逐层剥去轮廓边缘上的点,变成笔画宽度只有一个比特的文字骨架图形。细化处理的目的是搜索图像的骨架,去除图像上多余的像素,从而在不改变图像主要特征的前提下,减少图像的信息量。 1.2.2汉字特征提取
预处理的最终目的是为了更加方便、准确地进行汉字的特征提取,从而提高
汉字识别率。对于汉字,其特征大致分为两类,包括结构特征和统计特征,至今总数已经不下百种。 要做到有的放矢,就需要研究已有的获得良好效果的各种汉字特征,分析它们的优点、缺点和适用环境。如下列出常用的一些的汉字结构特征和汉字统计特征。 1.结构特征 (1)抽取笔画法 抽取笔画法是利用汉字由笔画所构成的特点进行识别,它利用汉字的结构信息来进行汉字的联机识别,在印刷体和脱机手写识别中,由于笔画提取的困难,结果不是很理想。 (2)松弛匹配法 松弛匹配法是一种基于全局特征的匹配方法,它对输入汉字作多边近似,抽取边界线段,将这些边界线段组成临近线段表,然后用松弛匹配操作,完成边与边的匹配。这种方法利用弹性吸收汉字的变形,一个字只用一个样本。 (3)非线性匹配法 非线性匹配法是由Tsukumo等提出的,用以解决字形的位移、笔画的变形等现象。此方法试图克服从图形中正确抽取笔画的困难,以提高正确判别的能力。 2.统计特征 (1)笔画复杂性(Complexity Index) 笔画复杂性指数是指文字笔画的线段密度,其定义如下:
xyxLC/ (1-1)
yxyLC/ (1-2) . '. 式(1-1)和(1-2)中 xC、
y
C一横向和纵向的笔画复杂性指数;
xL、
y
L一横向和纵向的文字线段总长度;
x、
y
一横向和纵向质心二次矩的平方根;
xC、yC分别反应了横向和纵向的笔画复杂性,横多的xC大,竖多的yC大。笔画复杂性指数与汉字的位移无关,受字体和字号的影响较小,但易受笔画断裂和粘连的影响,且其分类能力较差,常与另一种粗分类方法“四边码”连用。 (2)四边码(Four-side Code) 四边码是在汉字点阵图的四周各取一条带,计算其中的文字图像素点数,并将它分成四级,构成一个四元组。由于汉字边框不但含有丰富的结构信息,而且边框部分笔画一般较少,不易粘连,抗干扰能力强,但对汉字的位移和旋转比较敏感,与笔画复杂性指数正好形成互补。 (3)特征点 特征点提取算法的主要思想是利用字符点阵中一些有代表性的黑点(笔画)、白点(背景)作为特征来区分不同的字符。特征点包括笔画骨架线的端点、折点、歧点和交点,汉字的背景也含有一定的区别于其它汉字的信息,选择若干背景点作为特征点,有利于提高系统的抗干扰能力。其特点是能够大大压缩特征库的容量,对于内部笔画粘连字符,其识别的适应性较强、直观性好,但不易表示为矢量形式,匹配难度大,不适合作为粗分类的特征。 (4)笔段特征 汉字是由笔画组成的,而笔画又由笔段组成,笔段可近似为一定方向、长度和宽度的矩形段。利用笔段与笔段之间的关系组成特征对汉字进行识别,受字体和字号的影响小,对于多体汉字的识别获得了良好效果。其缺点是笔段的提取会较为困难,匹配的难度大,抗内部笔画断裂或者粘连能力差。 1.2.3汉字识别分类 1.相关匹配 这是一种统计识别方法,它通过在特征空间中计算输入特征向量与各模板向量之间的距离进行分类判决。 (2)文法分析 文法分析的基本思想是将输入的汉字看作是一个语句或符号串,将识别问题转化为判断输入的语句是否属于某种语言,即句子是否符合某种语言的语法约束条件。 (3)松弛匹配 无论是相关匹配还是文法分析,都要求输入特征向量和模板特征向量的各分量之间具有确切的对应关系,然而在结构分析中,往往事先难以确定两者各分量. '. 间的对应关系,此时可以采用松弛匹配法。 松 (4)人工神经网络 汉字识别是一个非常活跃的分支,不断有新的方法涌现出来,为汉字识别的研究注入新的活力,其中基于人工神经网络的识别方法是非常引人注目的方向。目前神经网络理论的应用己经渗透到各个领域,并在模式识别、智能控制、计算机视觉、自适应滤波和信号处理、非线性优化、自动目标识别,连续语音识别、声纳信号的处理、知识处理、传感技术与机器人、生物等领域都有广泛地应用。 1.2.4 后处理 后处理就是利用相关算法对识别后的汉字文本或者初级识别结果做进一步的处理,纠正误识的汉字,给出拒识的汉字,确定模棱两可的汉字。汉字识别的后处理方法[12,13]从用户的参与程度来说,可分为三类:手工处理,交互式处理和计算机自动处理。以下对各种常用的后处理方法做简单的介绍。 (1)简单的词匹配 简单的词匹配就是利用文本中字的上下文匹配关系和词的使用频度,给识别后文本中的拒识字提供一个“最佳”的候选字,其关键是建立汉语词条数据库。 (2)综合词匹配 综合词匹配方法,就是综合利用初级识别结果和字的上下文关系及词的使用频度,来决定最后的识别结果。这种方法实际上己把识别过程和后处理过程融为一体了。 (3)词法分析 语言是语音和意义的结合体。语素是最小的语言单位。无论是词还是短语,都有其构成规则,利用这些规则,将它们分类。另外,不同的应用背景,也有不同的分类结果。
(4)句法、语义分析 语句无论是从结构上,还是从意思上都有一种人类共同理解、共同接受和共同遵守的语言组合法则。所以利用语义句法的方法,在初级识别结果的基础上,在利用词法分析进行匹配之后或匹配的同时,再进行句法分析和语义分析,从而确定要识别的汉字。 (5)人工神经元网络 利用人工神经元网络的汉字识别后处理可以采取两种方式。一种是把识别过程和后处理过程分开,网络的输入是初级识别结果的短语或者句子,其中包含不确定的汉字(或拒识的汉字),通过网络的运行,最终确定这些字。另一种方法是把识别过程和后处理过程综合在一起,初级识别给出的结果是每一个待识汉字的前几个候选字和每一候选字与待识字之间的相似度。然后,把这些候选字以及