数字验证码识别算法的研究和设计

格式：pdf
大小：154.20 KB
文档页数：3

下载文档原格式

/ 3

验证码识别原理及实现方法

验证码识别原理及实现方法验证码的作用：有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试。

其实现代的验证码一般是防止机器批量注册的，防止机器批量发帖回复。

目前，不少网站为了防止用户利用机器人自动注册、登录、灌水，都采用了验证码技术。

所谓验证码，就是将一串随机产生的数字或符号，生成一幅图片，图片里加上一些干扰象素（防止OCR），由用户肉眼识别其中的验证码信息，输入表单提交网站验证，验证成功后才能使用某项功能。

我们最常见的验证码1，四位数字，随机的一数字字符串，最原始的验证码，验证作用几乎为零。

2，随机数字图片验证码。

图片上的字符比较中规中矩，有的可能加入一些随机干扰素，还有一些是随机字符颜色，验证作用比上一个好。

没有基本图形图像学知识的人，不可破！3，各种图片格式的随机数字+随机大写英文字母+随机干扰像素+随机位置。

4，汉字是注册目前最新的验证码，随机生成，打起来更难了,影响用户体验，所以，一般应用的比较少。

简单起见，我们这次说明的主要对象是第2种类型的，我们先看几种网上比较常见的这种验证码的图片.这四种样式，基本上能代表2中所提到的验证码类型，初步看起来第一个图片最容易破解，第二个次之，第三个更难,第四个最难。

真实情况那？其实这三种图片破解难度相同。

第一个图片，最容易，图片背景和数字都使用相同的颜色，字符规整，字符位置统一。

第二个图片，看似不容易，其实仔细研究会发现其规则，背景色和干扰素无论怎么变化，验证字符字符规整，颜色相同，所以排除干扰素非常容易，只要是非字符色素全部排除即可。

第三个图片，看似更复杂，处理上面提到背景色和干扰素一直变化外，验证字符的颜色也在变化，并且各个字符的颜色也各不相同。

看似无法突破这个验证码，本篇文章，就一这种类型验证码为例说明，第四个图片，同学们自己搞。

第四个图片，除了第三个图片上提到的特征外，又在文字上加了两条直线干扰率，看似困难其实，很容易去掉。

基于深度学习的验证码识别技术研究与实现

基于深度学习的验证码识别技术研究与实现随着互联网的快速发展，验证码的使用越来越普遍，用于确保用户操作的安全性。

然而，这也给用户带来了不便，因为传统的人为方式往往需要用户输入模糊的图像或文字。

为了解决这一问题，基于深度学习的验证码识别技术应运而生。

本文将对这一技术的研究与实现进行探讨。

一、技术背景验证码识别技术旨在使用计算机自动识别包含在验证码中的图像或文字，从而能够更高效地为用户提供服务。

深度学习则是一种机器学习方法，通过模拟人脑神经网络的方式，使计算机在数据上进行训练，从而实现自主学习和模式识别能力的提升。

基于深度学习的验证码识别技术结合了这两者的优势，能够快速、准确地识别验证码。

二、技术原理基于深度学习的验证码识别技术的核心是神经网络模型。

首先，收集一定数量的带有标签的验证码样本作为训练集，然后使用深度学习算法对这些样本进行训练。

训练过程中，神经网络模型通过多次迭代优化权重和偏置值，使得其输出结果与真实标签尽可能接近。

一旦训练完成，该模型就能够识别新的验证码。

三、关键技术在基于深度学习的验证码识别技术中，有几个关键技术起到了关键作用。

1. 数据集采集与预处理：获取大量的验证码样本是进行训练的第一步。

采集的数据集应该包含多种类型的验证码，以提高模型的泛化能力。

此外，还需要对数据集进行预处理，如图像去噪、二值化等，以提高图像质量和降低噪声的干扰。

2. 网络结构设计：神经网络的结构设计对验证码识别的准确性有着重要影响。

常用的网络结构包括卷积神经网络（CNN）、循环神经网络（RNN）和长短时记忆网络（LSTM）等。

针对不同类型的验证码，需要选择适合的网络结构。

3. 特征提取与降维：验证码的特征提取是识别过程的关键步骤，能否准确提取出有效的特征对识别结果有很大的影响。

常见的特征提取方法包括图像轮廓提取、颜色直方图提取、梯度直方图提取等。

为了降低特征维度，常常通过主成分分析（PCA）和线性判别分析（LDA）等方法进行降维处理。

短信验证码识别技术研究

短信验证码识别技术研究在今天的互联网社会中，安全性和防骗是非常重要的问题。

其中，短信验证码作为目前主流的验证方式，被广泛使用。

但是，验证码的识别问题却是一直困扰着用户和开发者的问题。

本文将会对短信验证码的识别技术进行深入的分析和探讨，为大家带来更好的使用体验。

一、短信验证码的产生及特点为了保证注册用户的真实性和减少注册时候的资料造假，验证码这种安全性比较高的验证方式被广泛应用。

短信验证码是其中主流之一，其特点是简单易操作，不需要网络支持以及任何软件、硬件支持即可完成验证。

验证码的生成过程一般如下：在用户向后端服务器发送注册请求时，服务器通过自身的算法，向用户发送手机短信并附加验证码。

当用户收到验证码后，需要根据短信中的提示，将验证码输入到注册页面中进行验证。

在此过程中，短信验证码的内容一般都非常短小，并且常常由数字、字母等字符混合而成，使得用户记忆起来较为简单。

此外，验证码的字体、颜色等都具有一定规律性，以缺少人工干扰的视觉美学为主要设计因素。

二、短信验证码识别技术发展史短信验证码作为一种主流的验证方式，其识别技术历经了以下三个阶段：1.人工识别阶段早期的短信验证码并没有采用特殊的字母和数字样式，其验证码识别主要靠人工识别，即人工提取。

这种方式对人工成本和时间的要求较高，且易犯错，识别率不高。

2.基于规则的识别阶段为了加强和提高验证码的识别率，一些规则在识别上得到了应用。

利用PS软件可以打马赛克、加噪点的原理，常常被用于开发者们的样式设计。

此外，噪点过多、小字体的验证码纷纷采用了缩放、旋转等处理方式，来减少识别性能的影响。

3.机器学习方式阶段由于规则识别不能应对破解者不断升级的识别技术，机器学习的方法逐渐被开发者应用。

在该方法下，计算机通过大量图形验证法样例和经验数据的学习，自主形成分类器，实现短信验证码识别。

三、短信验证码识别技术的应用发展至今，短信验证码识别技术已经得到广泛的应用，提高了工作效率。

数字验证码识别算法的研究和设计

板。先将２０×２０的图形分成４×４块，每块５×５个像素，然后统计各个网格中黑点个数。图像的网格分块如图３所示：
征量化值的数学期望。字符图像有多种形状特征，因而模板是
由一个Ｎ维向量构成。
设字符Ｃ（ｉｉ＝０， …，９）的模板向量 β，待识别字符图像ｘ，其与模板相应的特征向量 α，Ｎ为模版向量的长度，则可计算ｘ
８６２００７，４３（３２）
ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇａｎｄＡｐｐｌｉｃａｔｉｏｎｓ计算机工程与应用
◎产品、研பைடு நூலகம்、测试◎
数字验证码识别算法的研究和设计
王虎１，冯林２，孙宇哲３ＷＡＮＧＨｕ１，ＦＥＮＧＬｉｎ２，ＳＵＮＹｕ－ｚｈｅ３
大连理工大学大学生创新院，辽宁大连１１６０２３ＩｎｓｔｉｔｕｔｅｏｆＵｎｉｖｅｒｓｉｔｙＳｔｕｄｅｎｔｓ’Ｉｎｎｏｖａｔｉｏｎ，ＤａｌｉａｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｄａｌｉａｎ，Ｌｉａｏｎｉｎｇ１１６０２３，ＣｈｉｎａＥ－ｍａｉｌ：ｗｌｙｓ１１１＠１６３．ｃｏｍ
"ｊ从大到小排序，序号即该模板分量的权值。为了加强区分能力，我们对权值加上整体偏移量ｏｆｆｓｅ（ｔ可调）；丢弃部分可信度
低的模板分量（置权值为０）。
模板法是本项目算法的基本框架，将各个数字字符的外形
特征都统一到模板内部，然后进行一致的运算，降低了程序的
复杂度，提高了开发效率。那么，如何构造好的模板呢？
２
０，１， … ，９且ｋ≠ｉ）在该分量的样本均值的差异度Ｓ′ｊ（ｊ＝０，１，

验证码识别技术研究与应用

多模态融合
结合多种模态信息提高验证码识别准
确率
用户体验优化
提升用户在验证码识别过程中的体验
感受
开放合作
产学研合作
加强验证码识别技术的产学研合作模
式
行业联盟
建立验证码识别技术行业联盟促进技
术共享
国际交流
与国际领先机构进行技术交流与合作
谢谢
增强算法适应能力
第二章传统验证码识别技术
●02
基于图像处理的验证码识别技术
传统验证码识别技术中，图像处理是至关重要的一步。首先需要对验证码图像进行灰度化处理，然后进行二值化处理，最后应用图像分割算法对验证码进行分割，以便后续识
别过程的进行。
基于机器学习的验证码识别技术
支持向量机(SVM)
随机森林算法
K近邻算法(KNN)
常用于图像分类
集成学习方法
基于实例的学习方法
基于深度学习的验证码识别技术
卷积神经网络(CNN)
注意力机制技术
广泛用于图像识别
提高模型性能
循环神经网络 (RNN)
用于处理序列数据
验证码识别技术的性能评估方法
精确率和召回率
用于衡量分类器性能
ROC曲线
评估模型的分类能力
利用人工智能算法解析图像验证码
验证码识别技术未来发展展望
深度学习技术的不断突破
深度学习在验证码识别领域持续取得突破
验证码识别技术的普及应用
验证码识别技术逐渐应用于各个领域
安全验证领域的新发展趋势
验证码识别技术在安全验证领域有着广阔的应用前景
第六章总结与展望
●06
本文主要内容总结
验证码识别技术发展历程回顾

基于深度学习的验证码识别算法研究

基于深度学习的验证码识别算法研究一、研究背景随着互联网的发展，出现了各种类型的验证码，例如数字、字母、汉字、图形等等。

验证码的出现是为了对付爬虫、机器人等恶意访问行为，防止这些恶意行为从而保护网站的安全性。

但是随着人工智能的发展，现有的验证码识别技术已经不能很好地应对这些问题，导致验证码的可用性受到影响。

因此，基于深度学习的验证码识别算法得到了广泛的关注和研究。

二、深度学习技术简介深度学习除了传统的机器学习技术，更加注重模型的深度和层次性。

深度学习通过多个“隐层”来学习特征表示，最终得到更加准确的分类结果。

深度学习技术是实现验证码识别的关键所在，为传统的验证码识别技术注入了新的活力。

三、基于深度学习的验证码识别算法研究1. 数据集准备训练深度学习模型需要大量的数据，因此收集、制作和标注验证码数据集变得至关重要。

数据集的质量直接影响模型的识别效果。

一般来说，数据集应该广泛涵盖各种不同类型的验证码，例如数字、字母、汉字、图形等。

2. 构建深度学习模型构建深度学习模型是实现验证码识别的关键所在，不同的模型结构、激活函数和损失函数会对模型的识别效果产生重要影响。

常用的深度学习模型有卷积神经网络(CNN)、循环神经网络(RNN)等。

3. 模型训练与优化在数据集准备好以后，我们需要对模型进行训练和优化。

在对模型进行训练之前，一般会将数据集分成训练集、验证集和测试集，并对数据进行预处理、数据增强等操作，以增强模型的鲁棒性和泛化能力。

模型优化包括调整学习率、正则化、批量归一化等操作，以提高模型的收敛速度和准确率。

4. 模型评估与应用模型评估是在训练完模型之后对其性能进行评估的重要步骤。

通常采用准确率、召回率、F1值等指标进行评估。

模型应用包括在实际环境下对验证码的识别应用，例如对网站的验证码登录进行自动化识别、数据爬取、安全攻防等。

四、应用案例基于深度学习的验证码识别算法已经在多个领域得到应用。

例如：1. 智能手机解锁智能手机的解锁方式多是基于图形验证码，采用了基于卷积神经网络(CNN)的深度学习算法进行识别。

基于机器学习的验证码识别技术研究

基于机器学习的验证码识别技术研究随着互联网的普及，人们在在线进行各类操作时，面临了一个烦恼：验证码。

验证码由于其多变性和随机性，保护了用户的账号安全，但也给用户带来了不小的困扰。

验证码的出现，为了不被机器自动破解，随机生成的字符和数字，有时难以界定字符边界，而机器自动识别能力有限，在实现上会出现不小的困难。

幸运的是，机器学习的出现，为验证码识别技术的突破提供了更好的解决方案。

1. 机器学习算法介绍机器学习是一种通过电算手段来模拟人类学习行为的方法。

机器学习算法主要包括有监督学习、无监督学习和半监督学习三种。

其中有监督学习模型是通过训练样本进行拟合，然后通过模型预测出新数据的输出结果。

常见的分类算法包括朴素贝叶斯（Naive Bayes）、决策树（Decision Tree）、支持向量机（Support Vector Machine）等。

无监督学习主要是对数据进行聚类和因子分析，常见的无监督学习算法包括K-Means和主成分分析等。

半监督学习主要是在有限的标注数据的基础上，利用无标注数据信息进行学习。

2. 利用机器学习算法进行验证码识别验证码识别是机器学习在实际应用场景中的一种重要应用。

主流的验证码识别方法包括模板匹配、向量量化、神经网络等。

但由于机器学习算法的革新，使得验证码识别效果得到了大大提升。

传统的基于模板匹配的识别方法，需要用参考字库中的字符与实际的验证码进行匹配，而基于机器学习算法的验证码识别方法则不同。

机器学习可以通过多次训练，从大量的训练数据中分析获取文本或图像的特征，学习到实际字符的特征，然后识别验证码，并将其转换为可用的文本字符或数字。

在机器学习算法中，人工神经网络是一种被广泛使用的技术，主要应用于验证码识别和图像处理领域。

神经网络识别验证码的基本原理是：先将验证码图像分割成单个字母，然后将每一个字母的像素矩阵作为样本，通过神经网络进行训练，最后在实际验证码上预测。

通过多次反复的训练，神经网络可以掌握对于大量验证码图像转化为对应字符的技巧。

验证码识别技术研究与应用

验证码识别技术研究与应用随着互联网技术的不断发展，验证码逐渐成为了一个保护网站或应用的重要手段。

很多网站都会在用户登录、注册、重置密码等操作时添加验证码。

验证码一般由数字、英文字母或汉字随机组合成，以防止机器人恶意攻击和大规模注册。

但是，由于验证码图像难以识别，人工识别成本过高，因此验证码识别技术成为了必须探索的课题之一。

一、验证码识别技术验证码识别技术是指通过计算机程序自动识别验证码。

通常，验证码识别技术可以分为两种方法：基于图像处理的验证码识别和基于模型的验证码识别。

基于图像处理的验证码识别是指对验证码图像进行预处理和特征提取，然后采用分类器进行识别。

基于模型的验证码识别是指采用机器学习的方法，通过模型训练来实现验证码的识别。

1. 基于图像处理的验证码识别基于图像处理的验证码识别一般包括以下几个步骤：1）去噪处理：为了清除验证码图像中的噪点，可以采用中值滤波、均值滤波等算法进行去噪。

2）验证码分割：由于验证码图像中的字符之间没有分隔符，需要对每个字符进行分割。

分割方法有垂直投影法、水平投影法、基于联通性的字符分割等。

3）验证码特征提取：为了将验证码图像转化为计算机可识别的数字，需要对验证码图像进行特征提取。

常用的特征提取方法有灰度矩、Zernike矩、Gabor滤波器等。

4）验证码分类：最后采用分类器对验证码进行分类，常用的分类器有KNN、SVM、随机森林等。

2. 基于模型的验证码识别基于模型的验证码识别通常采用机器学习的方法，主要包括以下几个步骤：1）数据采集：从互联网上采集大量的验证码图像数据。

2）特征提取：对采集到的验证码数据进行特征提取，常用的方法有HOG特征、SIFT特征等。

3）模型训练：对提取到的特征进行模型训练，采用SVM、随机森林等分类器进行分类模型的训练。

4）模型评估：对训练好的模型进行评估，以确定模型的精度和正确率。

5）应用部署：将训练好的模型应用于实际验证码的识别。

二、验证码识别技术的应用验证码识别技术在互联网领域的应用非常广泛，主要包括以下几个方面：1. 自动注册：很多网站为了防止恶意注册，设置了各种各样的验证码，但是验证码难以防范机器人注册。

开题报告-验证码识别技术研究与实现

学生姓名
张安龙
学号
班级
所属院系专业
指导教师1
职称
所在
部门
物联网技术学院
指导教师2
职称
所在
部门
毕业设计
（论文）题目
验证码识别技术研究与实现
题目类型
工程设计（项目）■
论文类□
作品设计类□
其他□
1、选题简介、意义
选题的介
随着互联网技术的快速发展和应用，网络在给人们提供丰富资源和极大便利的同时，伴随而来的就是互联网系统的安全性问题。验证码的出现正是加强web系统安全的产物。验证码，最早作为卡内基梅隆大学的一个科研项目，Yahoo!是CAPTCHA的第一个用户。
5 可分割验证码的识别
5.1数字图像预处理技术
5.2常用的字符分割算法
5.3猫扑网站验证码的识别
5.4西祠胡同网站验证码的识别
6 涯验证码的识别
7 总结
致谢
参考文献
指导教师意见：
签字：
2019年3月2日
院（系）审批意见：
签章：
2019年3月5日
二、课题综述（课题研究，主要研究的内容，要解决的问题，预期目标，研究步骤、方法及措施等）
1.课题研究
验证码识别技术研究与实现
2、研究内容
研究验证码识别技术,可以及时发现和改善验证码的漏洞,在增强网络安全性、防止恶意机器程序攻击方面有着重要意义。
2.预期目标
找出现在验证码的不足，为以后改善验证码提供理论基础。
3.研究步骤
1、阐述了课题的背景及研究意义，介绍了验证码识别在国内外的发展状况
2、重点介绍了用于字符识别的BP神经网络、卷积神经网络和形状上下文算法，给出了它们的推导过程。

验证码识别系统的研究与实现

验证码识别系统的研究与实现Chapter 1：引言验证码通常用于网站的不同行为验证，如用户注册、登录、快速找回密码等，从而保证网站的安全性和防范欺诈操作。

然而，传统的验证码方案存在一些问题，比如难以辨认、易被机器程序破解等，这些问题都对验证码识别系统提出了更高的要求。

因此，本文将介绍验证码识别系统的研究和实现。

Chapter 2：验证码识别技术研究2.1 验证码识别技术简介通常，验证码识别技术是通过图像处理算法和机器学习算法来实现的。

根据验证码图像处理技术的不同方法，验证码识别技术可以分为传统验证码识别技术和基于深度学习的验证码识别技术。

2.2 传统验证码识别技术传统验证码识别技术主要包括图像识别和图像特征提取两个步骤。

首先，通过图像识别，将验证码区分出来，并进行分割处理。

接着，对验证码图像进行特征提取，生成可识别的验证码模型。

最后将输入验证码与模型进行匹配，即可对验证码进行识别。

2.3 基于深度学习的验证码识别技术深度学习算法的不断迭代开发范式为验证码识别提供了新的思路。

基于深度学习的验证码识别技术是一种全自动识别方法，对于不同的验证码产生的深度网络较为灵活和高效。

Chapter 3：验证码识别系统实现3.1 Python语言介绍Python是一种高级编程语言，由于其简单易学、优雅简洁的语法结构，被广泛使用于WEB开发、数据分析、科学计算、人工智能等领域。

而验证码识别领域也不例外，Python的使用可以帮助人们轻松地实现代码的编写和测试。

3.2 Python的图像处理库Python的图像处理库主要有Pillow和OpenCV两个库。

Pillow是PIL的强化版，提供了图像打开、保存、旋转、缩放等基础功能，适合于图像处理初学者；而OpenCV是一个广泛使用的计算机视觉库，可以处理几乎所有类型的图像和视频文件，同时还包括一系列模式识别算法，适合于高级图像处理操作。

3.3 Python的机器学习库Python的机器学习库主要有scikit-learn和TensorFlow两个库。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

板。先将２０×２０的图形分成４×４块，每块５×５个像素，然后统计各个网格中黑点个数。图像的网格分块如图３所示：
征量化值的数学期望。字符图像有多种形状特征，因而模板是
由一个Ｎ维向量构成。
设字符Ｃ（ｉｉ＝０， …，９）的模板向量 β，待识别字符图像ｘ，其与模板相应的特征向量 α，Ｎ为模版向量的长度，则可计算ｘ
（２）
ｋ＝１
２．１．３加权模板权值的构造
模板分量的权值 γｊ是基于统计学方式计算得出的。在随机的ｎ个验证码样本中，字符Ｃ（ｉｉ＝０， …，９）的模板长
度为Ｎ，Ｃｉ的模板样本有如下参数：各分量的样本均值Ｙ"（ｊｊ＝
２
０，１， …，Ｎ）、样本总体方差Ｓｊ（ｊ＝０，１， …，Ｍ）、与其它字符Ｃ（ｋｋ＝
很多网络应用技术需要验证码识别技术。验证码种类繁多，越来越复杂；另一方面，识别系统具有很强针对性，只能够识别一种类型的验证码［１］。在公开的验证码识别算法中，有一些简单的识别算法［２］能够基本实现部分验证码的识别。但是，这些算法使用的模板较为单一，准确率不高，缺乏系统性，不易移植。本文设计了一种多模板的、高准确率的数字验证码识别系统，算法易于移植。
２
０，１， … ，９且ｋ≠ｉ）在该分量的样本均值的差异度Ｓ′ｊ（ｊ＝０，１，
９
! ２
２
…，Ｍ）。Ｓ′ｊ的计算公式：Ｓ′ｊ＝
（Ｙ"ｋ－Ｙ"ｉ） ×（Ｙ"ｋ－Ｙ"ｉ）。
ｋ＝０
３
２
构造模板分量权值：令特征性 "ｊ＝（Ｓｊ＋０．０１）（／Ｓ′ｊ＋０．０１），对
向扫描时只有一个交叉点的行数，该值比较固定，样本方差小，
具有较高的可信度；数字“２”的下部变形较大，而且位置不定，
网格特征分析时，黑点数目的样本方差大，因而此模板分量不
可信。特征权值就是某形状特征的可信度的量化，可信度高则
权值高，可信度低则权值低。
（１）计算Ａ的水平中心位置；（２）对Ａ中各个黑点与水平中心的距离算术求和：Ｂａｌａｎｃｅ＝
８８２００７，４３（３２）
ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇａｎｄＡｐｐｌｉｃａｔｉｏｎｓ计算机工程与应用
!（ｃｉｘ－ｚｘ）。
２．１基于加权模板的模板匹配
２．１．１模板匹配定义数字字符图像一个模板分量：标准数字图像的形状特
基金项目：国家自然科学基金（ｔｈｅＮａｔｉｏｎａｌＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎｏｆＣｈｉｎａｕｎｄｅｒＧｒａｎｔＮｏ．５０５７５０３１）。作者简介：王虎（１９８４－），研究方向：计算机图形处理，模式识别与智能控制；冯林（１９６９－），博士，教授，研究方向：图像压缩、配准及融合和演化算
Ａｂｓｔｒａｃｔ：ＣＡＰＴＣＨＡＤｅｃｏｄｅｒｔｅｃｈｎｏｌｏｇｙｉｓｕｓｅｄｉｎｍｕｌｔｉ－ｓｅｎｄｔｅｃｈｎｏｌｏｇｙ．ＴｈｅｐａｐｅｒｐｒｅｓｅｎｔｓａＣＡＰＴＣＨＡＤｅｃｏｄｅｒＳｙｓｔｅｍｂａｓｅｄｏｎｔｅｍｐｌａｔｅｍａｔｃｈｉｎｇ．Ｇｒｉｄｆｅａｔｕｒｅｔｅｍｐｌａｔｅ，ｃｒｏｓｓｉｎｇｐｏｉｎｔｓｆｅａｔｕｒｅｔｅｍｐｌａｔｅａｎｄｉｍｐｒｏｖｅｄｄｙｎａｍｉｃｔｅｍｐｌａｔｅａｓｗｅｌｌａｓｈｏｌｅｎｕｍｂｅｒｆｅａｔｕｒｅａｒｅｕｓｅｄｉｎｔｈｅｓｙｓｔｅｍ．Ｉｎｏｒｄｅｒｔｏｉｍｐｒｏｖｅｔｈｅｄｅｃｏｄｉｎｇａｃｃｕｒａｃｙ，ａｗｅｉｇｈｔｅｄｔｅｍｐｌａｔｅｉｓｐｒｏｐｏｓｅｄａｎｄａｓｔａｔｉｓｔｉ－ｃａｌａｐｐｒｏａｃｈｉｓａｄｏｐｔｅｄｔｏｏｂｔａｉｎｔｈｅｗｅｉｇｈｔ．Ｔｅｓｔｓｓｈｏｗｔｈａｔｔｈｅｓｙｓｔｅｍ’ｓｄｅｃｏｄｉｎｇａｃｃｕｒａｃｙｉｓ１００％．Ｋｅｙｗｏｒｄｓ：ｔｅｍｐｌａｔｅｍａｔｃｈｉｎｇ；ｗｅｉｇｈｔｅｄｔｅｍｐｌａｔｅ；ｄｙｎａｍｉｃｔｅｍｐｌａｔｅ；ｇｒｉｄｆｅａｔｕｒｅ；ｃｒｏｓｓｉｎｇｐｏｉｎｔｓｆｅａｔｕｒｅ
"ｊ从大到小排序，序号即该模板分量的权值。为了加强区分能力，我们对权值加上整体偏移量ｏｆｆｓｅ（ｔ可调）；丢弃部分可信度
低的模板分量（置权值为０）。
模板法是本项目算法的基本框架，将各个数字字符的外形
特征都统一到模板内部，然后进行一致的运算，降低了程序的
复杂度，提高了开发效率。那么，如何构造好的模板呢？
由于字符的基本形状一定，质心居中，字符的笔划经过每个网格的笔划数大致保持稳定。细化后的笔划是由单像素构成，各个网格的黑色像素不会受字符笔划的粗细而变化。对于模板期望值的计算，采用了统计的方法：选取１０００个样本，计算各个字符在每个网格的平均黑点数，此数值即所求期望值。２．２．２交叉点特征模板强化区分能力
ＷＡＮＧＨｕ，ＦＥＮＧＬｉｎ，ＳＵＮＹｕ－ｚｈｅ．Ｒｅｓｅａｒｃｈａｎｄｄｅｓｉｇｎｏｆｄｉｇｉｔａｌｃｈａｒａｃｔｅｒ－ｂａｓｅｄＣＡＰＴＣＨＡｄｅｃｏｄｅｒ．ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，２００７，４３（３２）：８６－８７．
８６２００７，４３（３２）
ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇａｎｄＡｐｐｌｉｃａｔｉｏｎｓ计算机工程与应用
◎产品、研发、测试◎
数字验证码识别算法的研究和设计
王虎１，冯林２，孙宇哲３ＷＡＮＧＨｕ１，ＦＥＮＧＬｉｎ２，ＳＵＮＹｕ－ｚｈｅ３
大连理工大学大学生创新院，辽宁大连１１６０２３ＩｎｓｔｉｔｕｔｅｏｆＵｎｉｖｅｒｓｉｔｙＳｔｕｄｅｎｔｓ’Ｉｎｎｏｖａｔｉｏｎ，ＤａｌｉａｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｄａｌｉａｎ，Ｌｉａｏｎｉｎｇ１１６０２３，ＣｈｉｎａＥ－ｍａｉｌ：ｗｌｙｓ１１１＠１６３．ｃｏｍ
１引言
目前，网络上出现了很多基于文本的验证码。基于文本的验证码验证码，就是将一串随机产生的字符，生成一幅图片，图片里随机的加入一些像素干扰、颜色干扰和形变干扰等等，然后要求用户将图片上的字符识别出来，以达到防止恶意注册等目的。本文研究的是是无像素干扰的、大小固定的、质心位置居中，含有形变干扰的数字字符（形变数字验证码）。
与子结构引导的汉字识别［５］中的活动模板不同，本算法所使用的活动模板，是用一个小方块包围字符图形的某一部分，包括图像的上、中、下部。虽然某些字符整体形变大，但是部分的形变却很小，从而具有较大的参考价值。例如，“７”的下部是很简单的一条斜线，可以用于区分数字“１”和数字“２”，如图５所示：
模板向量的每个分量均对应一个权值，从而每个字符对应
一个Ｎ维模板向量和一个Ｎ维权值向量，两个向量便组成加
权模板。加权模版可以提高某特殊外形特征的权重，降低不可
信外形特征的权重，更加准确的进行识别。设待识别字符ｘ的
权值向量 γ，计算加权模板的匹配差异度：
Ｎ
! Ｄｉｆｆｉ＝（ "ｋ－ !ｋ） ×（ "ｋ－ !ｋ） ×γｋ
部分结构Ａ的参数有，黑点个数，不均衡度等。不均衡度可分为水平不均衡度和垂直不均衡度，水平（垂直）不均衡度就是Ａ中各黑点到水平（垂直）中心的坐标差值求和。令Ｃｉｘ为Ａ中第ｉ个黑点的横坐标，ｚｘ为中心的横坐标，规定位于左边的黑点距离为负，Ａ的水平不均衡度计算方法如下：
实验中发现网格特征模板对于“２”、“３”、“５”、“７”，“１”、 “ ２”、“ ７”和“ ３”、“ ５”、“ ６”、“ ９”这三组数据区分不到位。分析这些数字字符图像的特点发现，使用直线切割字符图像的同一坐标位置所得的交叉点数目是不同的，因此，把交叉点特征作为模
板之一。沿第一组数据的如图４所示：
２．２．３活动模板引导部分特征识别对于部分数字，活动空间较大，经过形变后其某部分结构
不定于某网格，即网格特征模板的可信度较低。例如数字“１”，常常以正斜或者反斜的形态出现，倾斜角度也很不一定，因此容易出错。
摘要：验证码识别技术常用于网站的群发技术。使用网格特征模板、交叉点特征模板、改进的活动模板，结合孔洞数特征，设计了基于模板匹配算法的形变数字验证码识别系统。为进一步提高识别率，提出了一种加权模板及其构造方案，并运用统计学方法，通过大量随机样本的多组实验，求得各组模板及其权值。测试结果表明，系统的识别准确率达到了１００％。关键词：模板匹配；加权模板；活动模板；网格特征；交叉点特征文章编号：１００２－８３３１（２００７）３２－００８６－０２文献标识码：Ａ中图分类号：ＴＰ３９１．４３
法；孙宇哲（１９８０－），硕士，研究方向：移动开发、网络应用、数字信号处理。
王Ｃｏｍ虎ｐｕ，ｔｅ冯ｒＥｎ林ｇｉ，ｎ孙ｅｅｒ宇ｉｎ哲ｇａ：ｎ数ｄ字Ａ验ｐｐ证ｌｉｃ码ａｔｉ识ｏｎ别ｓ计算算法机的工研程究与和应设用计

数字验证码识别算法的研究和设计

合集下载

验证码识别原理及实现方法

基于深度学习的验证码识别技术研究与实现

短信验证码识别技术研究

数字验证码识别算法的研究和设计

验证码识别技术研究与应用

基于深度学习的验证码识别算法研究

基于机器学习的验证码识别技术研究

验证码识别技术研究与应用

开题报告-验证码识别技术研究与实现

验证码识别系统的研究与实现

文档推荐

最新文档