基于胶囊网络的汉字笔迹鉴定算法
- 格式:pdf
- 大小:1.11 MB
- 文档页数:6
基于神经网络的手写字符识别系统设计与优化手写字符识别是指通过计算机视觉技术将手写的字符转化为计算机可识别的数字或字母。
神经网络作为一种常用的机器学习算法,已被广泛应用于手写字符识别系统中。
本文将围绕如何设计和优化基于神经网络的手写字符识别系统展开论述。
首先,设计一个基于神经网络的手写字符识别系统需要考虑以下几个关键步骤:数据集的预处理、网络架构的选择、模型训练和优化。
在数据集的预处理阶段,首先收集足够多的手写字符样本,并将其进行标注。
然后,对这些样本进行图像处理,例如去噪、灰度化、归一化等,以提高模型的鲁棒性和准确性。
此外,可以采用数据增强技术如旋转、缩放、平移等操作,扩充训练样本的多样性,以提高模型的泛化能力。
接下来,选择合适的神经网络架构对手写字符进行识别。
常用的神经网络包括多层感知机(MLP)、卷积神经网络(CNN)和循环神经网络(RNN)等。
针对手写字符识别任务,通常选择卷积神经网络作为基础架构,因其在图像处理领域具有较好的性能。
可以选用已经在手写字符识别任务上得到验证的经典网络,如LeNet-5、AlexNet、ResNet等,也可以通过网络调整和改进来满足特定需求。
在模型训练阶段,需要将数据集划分为训练集、验证集和测试集,并采用适当的损失函数和优化算法对模型进行训练。
常用的损失函数有交叉熵损失、均方误差等,优化算法包括梯度下降法、Adam等。
此外,可以采用学习率衰减、正则化、dropout等技术来缓解过拟合问题,进一步提升模型的泛化能力。
在模型训练完成后,需要对模型进行评估和优化。
可以使用准确率、精确率、召回率等指标来评估模型的性能,并针对性地进行优化。
优化的方法包括调整超参数(如学习率、批量大小、网络深度等)、集成学习、模型融合等。
此外,还可以尝试一些先进的技术来提升手写字符识别系统的性能。
例如,可以引入循环神经网络来处理序列信息,利用注意力机制来提高对关键特征的关注度,使用迁移学习来适应不同场景的手写字符识别等。
基于神经网络的手写体字识别技术在数字化时代,人工智能技术日益成熟发展,各种基于人工智能技术的应用越来越多,其中手写体字识别技术就是其中之一。
手写体字识别技术是指通过计算机对手写体字进行识别,并转换为机器可读的格式。
这项技术的发展,离不开神经网络的应用。
下面我们就来了解一下基于神经网络的手写体字识别技术。
一、手写体字识别技术的基本原理手写体字识别技术的基本原理就是将手写的字迹通过光电传感器或数码相机等设备转换成数字信号,再根据手写字的特征来识别出这些手写字。
手写字的特征包括笔画方向、长度、宽度、弯曲度等,这些特征是用数字化的方法表示出来的。
在对手写字进行识别时,计算机使用这些特征来推测手写字的形状和意义。
二、神经网络在手写体字识别技术中的应用随着神经网络技术的发展,神经网络逐渐应用于手写体字识别技术之中。
神经网络是一种机器学习的算法,能够自动学习输入数据中的规律和特征,进而对数据进行分类或预测。
在手写体字识别技术中,神经网络可以用来训练计算机自动识别各种手写字的特征。
神经网络的结构分为输入层、隐藏层和输出层。
在手写体字识别中,输入层用来接收手写字的数字化信息,即手写字象素点的灰度值;输出层则用来输出计算机对手写字识别的结果。
隐藏层是神经网络中最为复杂的部分,隐藏层通过神经元的连接和计算来逐步提取并转换手写字的信息,并更高效地将其符合人类可识别的特征输出给输出层。
三、神经网络在手写体字识别技术中的实现方式神经网络在手写体字识别技术中的实现方式有许多种,下面我们介绍其中的两种:卷积神经网络和循环神经网络。
1.卷积神经网络卷积神经网络( Convolutional Neural Network, CNN )是一种深度学习的神经网络,主要用于图像识别和处理。
在手写体字识别技术中,卷积神经网络通过滤波器和池化层来提取手写字的特征,然后对这些特征进行分类或预测。
卷积神经网络的输入层输出的特征图可以对应手写体字中的笔画方向和弯曲度等特征。
基于神经网络的手写文字识别算法研究随着人工智能与机器学习技术的不断进步,手写文字识别技术也越来越成熟。
而基于神经网络的手写文字识别算法研究成为了当前热门的方向之一。
本文将探讨基于神经网络的手写文字识别算法的相关情况,包括其背景、关键技术、发展现状以及未来展望等。
一、背景手写文字识别算法是一项将手写笔画转换成可供计算机处理的数字化形式的技术。
其应用范围广泛,如识别地址、签名、表格、笔记、邮政编码等,并在银行、邮政、政府、医疗等行业得到广泛应用。
在历史上,手写文字识别算法主要是由专门的人工智能专家或者专业算法工程师设计和开发。
如今,人工智能和机器学习技术的普及,让更多的普通程序员也有能力开发手写文字识别算法。
而基于神经网络的手写文字识别算法在这一领域中占据着越来越重要的地位。
二、关键技术基于神经网络的手写文字识别算法,我们需要掌握如下关键技术:1.数据预处理:一般来说,预处理是指将原始的手写文字图像进行处理,去除背景噪声和扭曲,增强手写文字的边缘、鲜明度和对比度等。
数据预处理不仅可以提高手写文字识别算法的正确率,还可以减小样本数量,提高程序的运行速度。
2.特征提取:手写文字图像是由一系列笔画轨迹组成的,如何提取出关键的特征是手写文字识别算法中的关键问题。
目前,主要的特征提取方法包括灰度共生矩阵法、梯度直方图法等。
3.神经网络模型:神经网络是基于人脑细胞和神经元构建的仿真模型,常用于解决复杂的非线性问题,并且具有自学习、自适应、容错性等优良特性。
在手写文字识别算法中,我们通常选择卷积神经网络(CNN)或者循环神经网络(RNN)等模型来进行处理。
三、发展现状基于神经网络的手写文字识别算法在技术上已经非常成熟。
在具体应用上,大多数的手写文字识别服务都已经在使用基于神经网络的算法。
例如,在Windows的操作系统中,自带的手写板提供了非常好的手写文字识别功能,它就是基于神经网络的算法进行设计和优化。
此外,在数字化OCR、人工智能智能化图像等领域,基于神经网络的手写文字识别算法也取得了许多优秀的成果。
基于神经网络的手写字体识别系统设计与实现Ⅰ.引言手写字体识别是一项重要的研究领域,它应用广泛,如优化自然语言处理,权重调整和电子商务等方面。
近年来,神经网络在手写字体识别领域得到了广泛应用,因为它可以从输入数据中自动进行特征提取,并能够学习复杂的非线性映射关系。
本文将介绍基于神经网络的手写字体识别系统的设计与实现。
Ⅱ.方法A. 数据处理本文利用EMNIST数据集进行实验,该数据集是一个包含28 x 28像素图像的大型手写数字和字符数据集。
经过处理,数据集被划分为训练集、验证集和测试集。
训练集包含85,000个样本,验证集包含15,000个样本,测试集包含10,000个样本。
B. 神经网络模型我们设计了一种基于卷积神经网络(CNN)的手写字体识别模型。
它包括两个卷积层和两个池化层,随后是两个全连接层和一个输出层。
每个卷积层后面跟着一个ReLU激活函数,全连接层也是如此。
在最后一层,输出层包括10个神经元,每个神经元对应一个数字类别。
C. 模型训练本文使用Adam优化器和交叉熵损失函数进行了模型的训练。
经过调整,当学习率设置为0.001时,模型可以有较好的训练效果。
在训练期间,我们在验证集上监控了分类准确率,从而选择最优的模型。
D. 模型评价我们评估了我们所建立的手写字体识别系统,在测试集上的分类准确率。
结果表明,该模型能够实现92%以上的分类准确率。
Ⅲ.结果本文所建立的手写字体识别系统采用了基于卷积神经网络的方法。
我们将EMNIST数据集分为三个部分:训练集,验证集和测试集。
训练集用于训练模型,验证集用于选择最优模型,测试集用于评价最终的分类效果。
结果表明,该系统具有较高的分类准确率。
Ⅳ.讨论与结论本文介绍了一种基于神经网络的手写字体识别系统的设计与实现。
通过对EMNIST数据集进行训练和测试,我们发现该系统具有较好的分类效果。
我们还发现,比较模型的准确性和速度非常重要。
我们需要在保证准确性的基础上,不断寻找更快速的模型,以提高识别效率。
基于神经网络的手写汉字识别研究手写汉字识别一直是计算机科学的研究重点之一。
现代计算机视觉和人工智能的快速发展,也促进了该领域的进一步发展。
因此,基于神经网络的手写汉字识别越来越被重视。
神经网络是一种动态系统,它模拟了人类的神经系统。
该系统由多层神经元组成,每层神经元经过研究和调整后,可以实现对输入信息的特定处理和判断能力,如分类、回归、聚类等。
基于神经网络的手写汉字识别算法,通常包括数据接收、预处理、特征提取和分类识别几个步骤。
数据接收与预处理首先,需要对手写汉字数据进行输入和接收,并进行预处理。
目前比较常用的输入手写数据方式有笔画输入法和码表输入法。
常见的预处理过程包括滤波、二值化和归一化等操作,以便于数据更加规范和处理。
特别是二值化操作,将图像转换为0和1的二值图像,是后续特征提取和分类识别的基础。
特征提取特征提取主要是将处理后的手写汉字图像,转换成具有较强区别性的特征向量。
目前比较常用的特征提取方法有方向梯度直方图(HOG)、局部二值模式(LBP)和分形特征等。
其中,HOG算法主要通过计算图像的方向梯度,来提取图像特征。
LBP算法则是利用局部图像区域的纹理信息,来描述图像的特征。
另外,分形特征则利用分形算法对汉字图像进行分析,得到具有区别性的特征向量。
分类识别分类识别是整个基于神经网络的手写汉字识别算法的核心和关键。
通过分类算法,能够将输入的手写汉字图像进行分类和判断,从而得到正确的识别结果。
目前比较常用的分类算法有支持向量机(SVM)、最近邻分类(KNN)和神经网络(NN)等。
其中,神经网络具有较好的分类效果和计算速度,并且具有较强的计算能力,因此被广泛应用于基于神经网络的手写汉字识别研究中。
基于神经网络的手写汉字识别应用基于神经网络的手写汉字识别应用已经广泛应用于电子商务、文本识别和图形识别等领域。
特别是在文字识别系统中,基于神经网络的手写汉字识别技术己经成为主流技术。
识别准确率也越来越提高,基本上能够达到人类视觉识别水平。
基于模式识别的自动化笔迹鉴定系统开发在当今数字化和信息化的时代,各种文件和文书的真实性和合法性变得至关重要。
笔迹作为一种个人特征的体现,其鉴定在法律、金融、刑侦等领域有着广泛的应用。
传统的笔迹鉴定方法主要依赖于人工经验和主观判断,不仅效率低下,而且准确性也难以保证。
因此,开发基于模式识别的自动化笔迹鉴定系统具有重要的现实意义和应用价值。
一、笔迹鉴定的基本原理笔迹鉴定的本质是通过对笔迹特征的分析和比较,来判断不同笔迹是否出自同一人之手。
笔迹特征可以分为总体特征和局部特征两大类。
总体特征包括书写水平、字体风格、字形大小、字间距、行间距等;局部特征则包括笔画的形态、起笔、收笔、运笔、连笔等。
这些特征在不同人的笔迹中存在着一定的差异,通过对这些差异的分析和识别,可以实现笔迹的鉴定。
二、模式识别技术在笔迹鉴定中的应用模式识别是一门研究如何让计算机自动识别和分类模式的学科。
在笔迹鉴定中,模式识别技术主要包括特征提取和分类器设计两个关键环节。
1、特征提取特征提取是将笔迹图像转化为一组能够反映其本质特征的数值向量的过程。
常用的特征提取方法有基于结构的方法、基于统计的方法和基于变换的方法等。
基于结构的方法主要通过分析笔画的结构和形态来提取特征,如笔画的长度、角度、弧度等;基于统计的方法则通过计算笔迹图像的灰度直方图、纹理特征等统计量来提取特征;基于变换的方法如傅里叶变换、小波变换等,可以将笔迹图像从时域转换到频域,从而提取出更具代表性的特征。
2、分类器设计分类器的作用是根据提取的特征来判断不同笔迹是否属于同一人。
常见的分类器有决策树、支持向量机、神经网络等。
决策树是一种基于规则的分类器,通过对特征的逐步判断来进行分类;支持向量机则通过寻找一个最优的分类超平面来实现分类;神经网络则是一种模拟人脑神经元工作原理的分类器,具有很强的学习能力和泛化能力。
三、自动化笔迹鉴定系统的开发流程1、数据采集首先需要收集大量的笔迹样本,包括真实笔迹和伪造笔迹。
基于神经网络的在线手写签名识别技术近年来,随着科技的不断进步,人工智能技术的应用越来越广泛,其中基于神经网络的在线手写签名识别技术在多个领域得到了广泛应用。
这项技术的发展为人们的生活带来了便利,也为个人身份认证和信息安全提供了有效的保障。
本文将就基于神经网络的在线手写签名识别技术进行详细探讨。
一、技术原理神经网络是一种模拟人脑神经元网络结构的计算模型,它拥有自主学习和适应环境的能力。
基于神经网络的在线手写签名识别技术,是通过收集用户手写签名数据,并将其转化为数字信号,进而利用人工神经网络模型进行训练和识别,实现对用户签名的快速准确的识别。
具体来说,该技术包括三个阶段:采样、预处理和识别。
采样阶段是指利用数码板或触控屏等设备对用户手写签名进行采样,并将采样结果存储在计算机中。
预处理阶段则是对采样结果进行数字信号的转化、滤波、去噪等处理,以生成合适的输入信号。
在识别阶段,将处理后的输入信号输入到事先训练好的人工神经网络模型中,进行识别输出。
二、应用场景基于神经网络的在线手写签名识别技术已经得到了广泛应用,尤其在口头承诺、交易确认、信息认证等需要身份验证的场景中,该技术发挥了重要作用。
其中,电子合同中的在线签名便是一个重要应用场景。
以国内电子合同平台“合同锁”为例,其在线手写签名识别技术可以实现对用户签名的快速识别,并在多个企业间验证签名的合法性,从而大大提高了电子合同的安全性和可靠性。
此外,基于神经网络的在线手写签名识别技术也被广泛应用于人脸识别、银行卡支付、智能门禁等领域,并在追踪罪犯和预防欺诈等领域中发挥了重要作用。
三、技术优势相比传统的手写签名识别技术,基于神经网络的在线手写签名识别技术具有以下明显优势:(1)数据量大:与传统手写识别技术相比,基于神经网络的识别技术可以接受更多的训练数据,从而提高了模型的识别能力和准确度。
(2)误差率低:由于神经网络具有学习和适应环境的特点,其可以在多方面进行优化,从而降低了识别误差率,提高了识别的精度和准确度。
基于神经网络的手写字符识别算法研究随着科技的进步,手写字符识别技术在我们的日常生活中扮演着越来越重要的角色。
从人们输入电子邮件和短信,到智能手机上的手写输入功能,手写字符识别技术的应用越来越广泛。
其中,基于神经网络的手写字符识别算法被认为是最有效的方法之一。
本文将研究该算法,并探讨其原理、应用以及未来的发展趋势。
首先,我们来详细了解一下基于神经网络的手写字符识别算法的原理。
神经网络是一种模仿人类神经系统运作的计算模型。
它由多个神经元组成,这些神经元通过权重和激活函数来模拟信息的传递和处理。
手写字符识别算法利用神经网络的分布式并行处理能力,通过学习和训练,从输入的手写字符图像中提取特征,并将其与预先定义的字符进行匹配,从而实现字符识别的功能。
在神经网络的手写字符识别算法中,有几个关键的步骤。
首先是数据预处理。
由于手写字符图像的质量和风格各不相同,预处理步骤可以提高图像质量,减少噪声对识别结果的影响。
接下来是特征提取。
神经网络通过对图像中的边缘、角点等特征进行提取,从而将图像数字化并减少数据维度。
然后是神经网络的构建和训练。
根据预先定义的网络结构和误差函数,利用训练集对神经网络的权重进行调整和优化。
最后是字符识别。
将输入的手写字符图像输入神经网络进行前向传播,根据输出层的概率分布,选择最有可能的字符作为识别结果。
基于神经网络的手写字符识别算法在实际应用中具有广泛的应用前景。
首先,它可以应用于文字识别。
图像中的文字可以通过光学字符识别技术转化为电子文本,用于自动文档处理和数据分析。
其次,它可以用于数字签名验证。
通过从手写签名中提取特征并与预先存储的模板进行验证,可以增强身份认证的安全性。
另外,基于神经网络的手写字符识别算法还可以应用于金融领域,如支票识别和银行卡数字化等。
然而,尽管基于神经网络的手写字符识别算法在字符识别方面取得了重大突破,但仍存在一些挑战和待解决的问题。
首先是识别率的提高。
虽然目前的算法已经具有很高的准确性,但在一些复杂的场景下,如手写字迹较潦草或输入设备低劣等情况下,算法的识别率仍然有待改进。
基于深度学习的手写字识别系统设计手写字识别系统是一种能够自动识别手写字并将其转化为可读文本的技术。
随着深度学习技术的发展,基于深度学习的手写字识别系统逐渐成为最先进和最有效的解决方案之一。
本文将介绍基于深度学习的手写字识别系统的设计原理和实现方法。
首先,基于深度学习的手写字识别系统设计的第一步是数据收集与预处理。
系统需要大量的手写字样本数据来进行训练和测试。
可以利用公开的手写字数据集,如MNIST数据集,也可以自己制作数据集。
预处理过程包括图像去噪、二值化、大小调整等操作,以便提高图像的质量和可读性。
接下来,我们需要选择适当的深度学习模型来构建手写字识别系统。
目前,卷积神经网络(Convolutional Neural Network,CNN)是最常用的模型之一。
CNN能够从输入图像中提取有用的特征,并进行分类和识别。
在手写字识别系统中,我们可以设计一个包含多个卷积层和池化层的CNN模型,并在最后加上全连接层进行分类。
在构建CNN模型后,我们需要进行模型训练。
训练过程包括两个关键步骤:前向传播和反向传播。
前向传播是指模型根据输入图像进行推理和预测的过程,反向传播是指根据预测结果和真实标签之间的差异来调整模型参数的过程。
在训练之前,我们需要将数据集分为训练集和验证集,用于评估和优化模型性能。
训练完成后,我们可以使用测试集来评估模型的准确性和鲁棒性。
评估指标可以包括准确率、召回率、F1值等。
如果模型表现不佳,我们可以根据测试集的反馈来优化模型,例如调整网络结构、修改参数等。
除了模型训练和测试,还可以考虑一些额外的优化方法来提高系统性能。
例如,数据增强技术可以通过旋转、平移、缩放等变换来扩增数据集,增加模型的泛化能力。
此外,集成学习方法,如投票、Bagging和Boosting等,也可以用于进一步提升模型的准确性。
在实际应用中,我们还可以考虑使用图形界面或者移动应用来展示手写字识别系统。
用户可以通过摄像头或者手写板输入手写字样本,并得到识别结果和反馈。
微胶囊可擦笔字迹的分析与鉴定作者:郭媛媛,罗仪文,张清华,等来源:《中国司法鉴定》 2019年第1期摘要:目的研究微胶囊可擦笔字迹的检验方法,并同激光打印机字迹进行分析比较。
方法使用显微检验法、压痕检验法、拉曼光谱法、红外光谱法及扫描电镜法进行检验。
结果高倍率的显微检验下,可区分微胶囊可擦笔字迹与激光打印机字迹;使用压痕检验法,可区分微胶囊可擦笔字迹与激光打印机字迹;通过拉曼光谱法检测,发现微胶囊可擦笔字迹与激光打印机字迹的拉曼光谱不同;通过红外光谱法检测,发现微胶囊可擦笔字迹与激光打印机字迹的红外光谱不同;使用扫描电镜法,可有效区分微胶囊可擦笔字迹与激光打印机字迹。
结论综合运用多种检验方法对微胶囊可擦笔字迹进行鉴定,符合鉴定实践要求。
关键词:微胶囊可擦笔;笔迹显微特征;拉曼光谱;红外光谱;扫描电镜中图分类号:DF794.2文献标志码:Adoi:10.3969/j.issn.1671-2072.2019.01.007文章编号:1671-2072-(2019)01-0041-04当前市售的可擦笔,主要可分为热可擦和微胶囊两大类。
前者系利用摩擦产生的热量使字迹消失;后者则是利用微球对书写颜料予以包裹,由于微球的粒度大于纸张纤维的缝隙,这就使得微球颜料较为容易地被橡皮擦拭下来。
从文书鉴定角度而言,微胶囊可擦笔的表观样态、显微形态与激光打印字迹较为接近且难以区分,故本文拟通过实验方法探索微胶囊可擦笔的有效检验、鉴别方法。
2018年文件形成方式鉴定能力验证(2018CNAS-Z0200)项目中的“卢秋如”签名字迹,即是用微胶囊可擦笔书写。
签名字迹书写速度中等偏慢,笔力平缓均匀,压痕浅淡。
显微镜下检验,签名墨迹的微观形态呈现出“颗粒感”,与印刷墨粉颇为相似。
统计反馈结果,有33%的能力验证计划参加者对于签名形成方式存在错误判断,故对于微胶囊可擦笔字迹进行研究具有较强的实践意义。
1材料与方法1.1材料1.1.1可擦笔样本不同牌号的黑色微胶囊可擦笔共2支,分别为金万年G-1092(JWN)和三菱(SL)。
基于胶囊网络的汉字笔迹鉴定算法doi:10.3969/j.issn.1674-7100.2018.05.009收稿日期:2018-06-12作者简介:陈 健(1994-),男,安徽滁州人,浙江理工大学硕士生,主要研究方向为计算机视觉, E-mail :2218316563@通信作者:周 平(1960-),男,浙江杭州人,浙江理工大学教授,博士,主要从事计算机视觉方面的研究, E-mail :1500064071@陈 健 周 平浙江理工大学信息学院浙江 杭州 310018摘 要:由于采集脱机汉字手写样本时忽略了书写人的心理和生理等因素对书写活动的影响,因而传统笔迹鉴定算法的泛化能力较低。
针对上述问题,提出基于胶囊网络的汉字笔迹鉴定算法,并构建了跟踪采集数据集以模拟复杂背景下产生的汉字。
胶囊网络构建活动向量表示特定类型的实例化参数,通过动态路由算法将活动向量路由到下一层相应的胶囊中,使下一层胶囊得到更清晰的输入信号。
分别采用5种算法对HWDB1.1数据集和跟踪采集数据集进行了测试,实验结果表明:本文算法的分类准确率比其他4种算法的都高,HWDB1.1数据集和跟踪采集数据集中算法的分类准确率分别为95.82%, 94.39%;本文算法具有较强的泛化性能,对训练样本数的依赖程度较低,弥补了卷积神经网络池化层的信息丢失缺陷。
关键词:胶囊网络;笔迹鉴定;活动向量;同变性中图分类号:TP391.12 文献标志码:A文章编号:1674-7100(2018)05-0051-060 引言书写活动在日常生活中必不可少。
经过长期的书写,成年人的书写风格趋于稳定,是一种稳定的行为特征,因而可用于身份识别。
笔迹鉴定对身份识别具有重要的研究意义,在司法、金融等领域发挥着越来越重要的作用。
笔迹鉴定材料分为两种:一种是在线形式,如银行的电子签名;另一种是离线形式。
本文研究的对象是离线笔迹。
离线笔迹鉴定样本通常具有产生背景复杂、鉴定素材少等特点,这给鉴定工作增加了难度,对鉴定算法的泛化性能也提出了更高的要求[1-3]。
目前离线笔迹鉴定主要通过对汉字手写体预处理、特征提取和分类3个步骤实现[4]。
其中,特征提取分为两种。
一种是通过固定的算法提取人为指定特征,再使用SVM (support vector machine )分类器等进行分类。
如:刘俊[5]提出基于笔画笔压特征的手写汉字笔迹鉴定方法,并采用4种基本笔画、每种笔画10个样本验证算法,10位书写人的笔迹鉴定准确率可达94%。
刘宏等[6]提出基于SVM 和纹理的笔迹鉴别方法,先使用Gabor 滤波器提取纹理特征,再利用SVM 分类器进行分类,15位书写人的笔迹鉴定准确率达93.10%。
R. Jain 等[7]使用KAS 算法(K-adjacent segments )提取手写体汉字的轮廓特征模拟手写汉字,并对IAM 数据集(IAMonDo-database )中300位书写人的笔记进行鉴定,分类准确率达93.90%。
另一种是通过深度学习中卷积神经网络(convolutional neural network ,CNN )提取特征与分类。
如:Xing L. J.等[8]提出了一种多流的卷积神经网络方法(DeepWriter ),并对HWDB (casia online and offline Chinese handwriting databases )数据集中301位书写人的笔迹进行鉴定,分类准确率高达98.01%。
H. T. Nguyen 等[9]提出了基于卷积神经网络的子区域级和字符级局部特征提取方法,并对IAM 数据集中900位书写人的笔迹进行鉴定,分类准确率为91.81%。
Yang W. X.等[10]提出使用DropStroke 数据增强方法丰富手写内容,使用深度卷积神经网络对420位书写人的笔迹数据集进行测试,分类准确率为92%。
卷积神经网络通过组合低层特征形成更加抽象的高层表示特征[11],其表征特定的特征(如汉字手写体中横的倾斜角度、勾的提笔长度、竖弯的曲率等)具有较大优势,但无法表征特征间的同变性(如横的倾斜角度、勾的提笔长度等的相对位置关系)[12]。
而胶囊网络使用活动向量表征特定类型的实例化参数,可以更好地表征脱机手写汉字的特征以及特征之间的同变性,有利于脱机手写汉字的全局特征提取[13-14]。
因此,本课题提出基于胶囊网络的汉字笔迹鉴定方法,以期为汉字笔迹鉴定提供理论参考。
1 算法原理1.1 胶囊网络胶囊网络的原理是,输入图像经卷积层进行原始卷积运算得到基础胶囊层,再由动态路由算法将基础胶囊路由到下一层相应的胶囊构成笔迹胶囊层,笔迹胶囊经动态路由算法得到数字胶囊层,最后使用全连接层进行图像解码与重建。
每个胶囊层由多个胶囊构成,每个胶囊都是一个活动向量即实例化参数,低层胶囊与高层胶囊相连,如图1所示。
动态路由是解决将低层胶囊的输出值传送给哪个高层胶囊的问题,实质上路由的数据传送是由低层胶囊的输入(预测向量)与高层胶囊的输出(激活向量)的相似度决定。
如果低层胶囊的预测向量与高层胶囊的激活向量具有较高相似度,则判定两个胶囊是高度相关的。
动态路由过程中,先将向量间相似度权重b ij 初始化为零并通过迭代进行更新,然后根据b ij 计算每个胶囊的动态路由耦合系数c ij ,最后通过c ij 得到j 层胶囊的输出向量。
b ij 的更新公式为 , (1)式中:为上一层胶囊的输出;v j 为激活函数。
b ij 直接影响整个动态路由过程中的c ij 。
当胶囊匹配到与自身高相似度的实体时,c ij 会在动态路由迭代过程中不断地更新,即, (2)式中m 为初始化相似度权重b ij 的个数。
胶囊的输出s j (除第一层胶囊)是由低层胶囊输入与c ij 得到: , (3)。
(4)式中:u i 是低层胶囊的输出;W ij 为胶囊所对应的权重。
为使胶囊最终的输出值在[0, 1)之间,采用非线性函数对输出值进行压缩,即。
(5)最初的迭代过程中,c ij 的状态是相等的,原因是低层胶囊不知道该和高层胶囊中的哪一个胶囊产生紧密的耦合状态;随着迭代过程的进行,这种均匀分布的状态很快被打破,相似度高的两个胶囊的耦合会变得紧密。
动态路由算法的伪代码如下。
1:procedure D YNAMIC R OUTING//l 为胶囊层层数,r 为反向传播优化参数图1 胶囊层示意图Fig. 1 Schematic diagram of Capsule layer2:for capsule i in layer l and result capsule j in layer (l +1):b ij ←03:for t =0;t <n ;t ++do 4:for capsule i in layer l :c ij ←5:for capsule j in layer(l +1):s i ←6:for capsule j in layer(l +1):v i ←7:for capsule j in layer l and result capsule j in layer(l +1):b ij ←b ij +·v i8:return V j //V j 为胶囊层输出9:end procedure胶囊网络的算法思想是由低层特征的迭代及其与高层特征的空间关系推出高层特征。
汉字推理示意图如图2所示。
1.2 学习模型本文所设计的胶囊网络学习模型是将输入图像通过经典卷积得到基础胶囊,基础胶囊经过动态路由算法逐层传递形成笔迹胶囊,最后由全连接层重建图像。
以“家”字为例的学习模型如图3所示。
第一层是输入层,即汉字图像通过3个经典卷积层进行卷积运算。
每个经典卷积层由多个滤波器组成,分别有64, 128, 256个滤波器。
滤波器的核为3×3,步长为1。
卷积层的空间维度降到56×56。
输入层的输出被传递给下一层构建胶囊。
第二层是代表最低级别多维实体的基础胶囊层。
基础胶囊使用5×5卷积核,步长为2,8个输出神经元构成一个胶囊即得8维胶囊。
基础胶囊层共有26×26×32个胶囊。
基础胶囊层的嵌套引入了新的维度,不用通过添加层数增加网络的深度,但在笔迹胶囊层中会添加多个新的图层[15]。
第三层是笔迹胶囊层。
笔迹胶囊由基础胶囊通过动态路由算法得到,通过转换矩阵将8维胶囊转换为16维胶囊,每个胶囊代表一个书写人。
卷积神经网络是通过卷积产生的标量标定特征,而笔迹胶囊层是使用带有维度的向量表示实体特征,这对汉字笔画间存在的共性(字的整体斜率等),以及汉字特征的相对关系有很大帮助。
第四层是全连接层。
全连接层包含512, 1 024个节点的两个全连接层。
该层使用网络的预测类别重构类别中的实体图像,图像重建后,根据三路网络的实例化参数的向量长度进行分类。
2 实验2.1 数据集本课题组使用HWDB1.1数据集和跟踪采集数据集分析本算法的性能。
HWDB1.1数据集是由中国科学院自动化研究所于2007—2010年收集的300位书写人的脱机手写汉字样本组成,这些样本经300 dpi 扫描仪扫描后进行了切分和标注。
跟踪采集数据集是目前开源的脱机手写汉字数据集,采集时,忽略了书写人的生理和心理状况对书写的影响,限制200位书写人的书写时间,每位书写人一周内每天书写50~100个汉字。
这些样本经300 dpi 扫描仪扫描获得彩色图像,其后期处理过程如图4所示。
文本预处理之后,以文本二值图的外接矩形为基准,将倾斜的文本行进行矫正,矫正完成后再对文本进行水平方向的投影,根据投影波形图的波峰、波谷的相对位置计算文本行的平均高度,并统计黏连行的行数,结合平均行高与黏连行的最小值进行分割,得到文本行。
文本分割与文本行分割的过程类似。
经过筛选后,最终得到104 800幅手写汉字图像。
图2 胶囊网络的计算过程示意图Fig. 2 Schematic diagram of the calculation process ofthe capsule network图3学习模型设计图Fig. 3 Learning model design052.2 结果与分析本课题组将本文算法、DropStroke 算法[10]、DeepWriter 算法[8]、HalfDeepWriter 算法[16]、改进的GoogLeNet 算法[17]对HWDB1.1数据集和跟踪采集数据集进行测试,分析各种算法的分类准确率和泛化性能。
HWDB1.1数据集中,训练集和测试集按照4:1的比例划分,训练集包含640 600个样本,测试集包含162 040个样本。
5种算法对HWDB1.1数据集进行测试的结果如图5所示。