当前位置：文档之家› 基于神经网络的图像识别方法_彭淑敏

基于神经网络的图像识别方法_彭淑敏

基于神经网络的图像识别方法

彭淑敏，王军宁

（西安电子科技大学 ISDN 国家重点实验室，陕西西安 710071）

摘要神经网络是近年来受到国内外广泛关注的高新技术，不同科学的科技人员对其进行了深入的研究，并取得了许多有价值的研究成果。神经网络在图像识别方面也取得了广泛应用。神经网络用于图像识别一般都要提取图像特征，然后把提取好的图像特征送入神经网络识别器进行识别。文中提出的用BP 神经网络作图像识别的方法，不对图像作特征提取，直接把图像数据作为神经网络识别器的输入。文章最后用MATLAB 完成了网络的训练与测试，并给出了试验结果。结果表明，不作特征提取的神经网络图像识别系统具有很强的抗干扰能力。

关键词人工神经网络（ANN）；BP 网络；MATLAB；图像识别中图分类号

1 引言

人工神经网络（Artificial Neural Networks）（简称ANN）系统从20世纪40年代末诞生至今仅短短半个多世纪，但由于他具有信息的分布存储、并行处理以及自学习能力等优点，已经在信息处理、模式识别、智能控制及系统建模等领域得到越来越广泛的应用。尤其是基于误差反向传播（Error Back Propagation）算法的多层前馈网络（Multiple-Layer Feedforward Network）(简称BP 网络)，可以以任意精度逼近任意的连续函数，所以广泛应用于非线性建模、函数逼近、模式分类等方面。

目标识别是模式识别领域的一项传统的课题，这是因为目标识别不是一个孤立的问题，而是模式识别领域中大多数课题都会遇到的基本问题，并且在不同的课题中，由于具体的条件不同，解决的方法也不尽相同，因而目标识别的研究仍具有理论和实践意义。这里讨论的是将要识别的目标物体用成像头(红外或可见光等)摄入后形成的图像信号序列送入计算机，用神经网络识别图像的问题。

2 BP 神经网络

2.1 BP 神经网络

BP 网络是采用Widrow-Hoff 学习算法和非线性可微转移函数的多层网络。一个典型的BP 网络

采用的是梯度下降算法，也就是Widrow-Hoff 算法所规定的。backpropagation 就是指的为非线性多层网络计算梯度的方法。一个典型的BP 网络结构如图1所示。

我们将它用向量图表示如图2所示。

图2 BP 网络向量图

其中：对于第k 个模式对，输出层单元的j 的加权输入为

电子科技 2005年第1期（总第184期）

基于神经网络的图像识别方法

电子科技/2005年1月15日

∑==P

J J y J b W c 1

net

该单元的实际输出为)net (J J c f C =，而隐含层单元i 的加权输入为

∑==n

k y I a v b 1

net

该单元的实际输出为 )net (I I b f b = 函数f 为可微分递减函数

x f ?+=

)(。其算法描述如下：

（1）初始化网络及学习参数，如设置网络初始权矩阵、学习因子等。

（2）提供训练模式，训练网络，直到满足学习要求。

（3）前向传播过程：对给定训练模式输入，计算网络的输出模式，并与期望模式比较，若有误差，则执行（4）；否则，返回（2）。

（4）后向传播过程：a. 计算同一层单元的误差；b. 修正权值和阈值；c. 返回（2） 2.2 BP 网络隐层个数的选择

对于含有一个隐层的三层BP 网络可以实现输入到输出的任何非线性映射。增加网络隐层数可以降低误差，提高精度，但同时也使网络复杂化，增加网络的训练时间。误差精度的提高也可以通过增加隐层结点数来实现。一般情况下，应优先考虑增加隐含层的结点数。

2.3 隐含层神经元个数的选择

当用神经网络实现网络映射时，隐含层神经元个数直接影响着神经网络的学习能力和归纳能力。隐含层神经元数目较少时，网络每次学习的时间较短，但有可能因为学习不足导致网络无法记住全部学习内容；隐含层神经元数目较大时，学习能力增强，网络每次学习的时间较长，网络的存储容量随之变大，导致网络对未知输入的归纳能力下降，因为对隐含层神经元个数的选择尚无理论上的指导，一般凭经验确定。

3 神经网络图像识别系统

人工神经网络方法实现模式识别，可处理一些

环境信息十分复杂，背景知识不清楚，推理规则不明确的问题，允许样品有较大的缺损、畸变，神经网络方法的缺点是其模型在不断丰富完善中，目前能识别的模式类还不够多，神经网络方法允许样品有较大的缺损和畸变，其运行速度快，自适应性能好，具有较高的分辨率。

神经网络的图像识别系统是神经网络模式识别系统的一种，原理是一致的。一般神经网络图像识别系统由预处理，特征提取和神经网络分类器组成。预处理就是将原始数据中的无用信息删除，平滑，二值化和进行幅度归一化等。神经网络图像识别系统中的特征提取部分不一定存在，这样就分为两大类：① 有特征提取部分的：这一类系统实际上是传统方法与神经网络方法技术的结合，这种方法可以充分利用人的经验来获取模式特征以及神经网络分类能力来识别目标图像。特征提取必须能反应整个图像的特征。但它的抗干扰能力不如第2类。② 无特征提取部分的：省去特征抽取，整副图像直接作为神经网络的输入，这种方式下，系统的神经网络结构的复杂度大大增加了，输入模式维数的增加导致了网络规模的庞大。此外，神经网络结构需要完全自己消除模式变形的影响。但是网络的抗干扰性能好，识别率高。本文采用无特征提取的神经网络识别方法。

当BP 网用于分类时，首先要选择各类的样本进行训练，每类样本的个数要近似相等。其原因在于一方面防止训练后网络对样本多的类别响应过于敏感，而对样本数少的类别不敏感。另一方面可以大幅度提高训练速度，避免网络陷入局部最小点。

由于BP 网络不具有不变识别的能力，所以要使网络对模式的平移、旋转、伸缩具有不变性，要尽可能选择各种可能情况的样本。例如要选择不同姿态、不同方位、不同角度、不同背景等有代表性的样本，这样可以保证网络有较高的识别率。

构造神经网络分类器首先要选择适当的网络结构：神经网络分类器的输入就是图像的特征向量；神经网络分类器的输出节点应该是类别数。隐层数要选好，每层神经元数要合适，目前有很多采

基于神经网络的图像识别方法

IT Age/ Jan. 15, 2005 用一层隐层的网络结构。然后要选择适当的学习算法，这样才会有很好的识别效果。在学习阶段应该用大量的样本进行训练学习，通过样本的大量学习对神经网络的各层网络的连接权值进行修正，使其对样本有正确的识别结果，这就像人记数字一样，网络中的神经元就像是人脑细胞，权值的改变就像是人脑细胞的相互作用的改变，神经网络在样本学习中就像人记数字一样，学习样本时的网络权值调整就相当于人记住各个数字的形象，网络权值就是网络记住的内容，网络学习阶段就像人由不认识数字到认识数字反复学习过程是一样的。神经网络是按整个特征向量的整体来记忆图像的，只要大多数特征符合曾学习过的样本就可识别为同一类别，所以当样本存在较大噪声时神经网络分类器仍可正确识别。在图像识别阶段，只要将图像的点阵向量作为神经网络分类器的输入，经过网络的计算，分类器的输出就是识别结果。

4 仿真实验

4.1 实验对象

本实验用MATLAB 完成了对神经网络的训练和图像识别模拟。从实验数据库中选择0～9这十个数字的BMP 格式的目标图像。图像大小为16×8像素，每个目标图像分别加10％、20％、30％、40％、50％大小的随机噪声，共产生60个图像样本。将样本分为两个部分，一部分用于训练，另一部分用于测试。实验中用于训练的样本为40个，用于测试的样本为20个。随机噪声调用函数randn(m,n)产生。 4.2 网络结构

本试验采用三层的BP 网络，输入层神经元个数等于样本图像的象素个数16×8个。隐含层选24个神经元，这是在试验中试出的较理想的隐层结点数。输出层神经元个数就是要识别的模式数目，此例中有10个模式，所以输出层神经元选择10个，10个神经元与10个模式一一对应。 4.3 基于MATLAB 语言的网络训练与仿真建立并初始化网络

% ================

S1 = 24;% 隐层神经元数目S1选为24 [R,Q] = size(numdata); [S2,Q] = size(targets); F = numdata; P=double(F);

net = newff(minmax(P),[S1 S2],{'logsig' 'logsig'},'traingda','learngdm')

这里numdata 为训练样本矩阵，大小为128×40， targets 为对应的目标输出矩阵，大小为10×40。

newff(PR,[S1 S2…SN],{TF1 TF2…TFN}，BTF,BLF,PF)为MATLAB 函数库中建立一个N 层前向BP 网络的函数，函数的自变量PR 表示网络输入矢量取值范围的矩阵[Pmin Pmax];S1~SN 为各层神经元的个数；TF1~TFN 用于指定各层神经元的传递函数；BTF 用于指定网络的训练函数；BLF 用于指定权值和阀值的学习函数；PF 用于指定网络的性能函数，缺省值为‘mse’。

设置训练参数

net.performFcn = 'sse'; %平方和误差性能函数

net.trainParam.goal = 0.1; %平方和误差目标

net.trainParam.show = 20; %进程显示频率

net.trainParam.epochs = 5000;%最大训练步数

net.trainParam.mc = 0.95; %动量常数网络训练

net=init(net);%初始化网络

[net,tr] = train(net,P,T);％网络训练对训练好的网络进行仿真 D=sim(net,P); A = sim(net,B);

B 为测试样本向量集,128×20的点阵。D 为网络对训练样本的识别结果，A 为测试样本的网络识别结果。实验结果表明：网络对训练样本和对测试样本的识别率均为100％。如图（3）为64579五个数字添加50%随机噪声后网络的识别结果。

基于神经网络的图像识别方法

电子科技/2005年1月15日

待识别字符图像

识别结果

图3 字符图像识别结果

5 结论

由实验可知，采用神经网络识别图像是切实可行的，由于时间关系，目前只是用Matlab 进行了简单的数字图像识别试验，下一步的工作是在降低网络规模的情况下，识别复杂的目标图像。参考文献

1 焦李成著. 神经网络系统理论. 西安: 西安电子科技大学出版社, 1990.

2 黄德双著. 神经网络模式识别系统理论. 北京: 电子工业出版社, 1996.

3 Demuth H d, Beale M.Neural network toolbox user ’s guide Version 4.The Mathworks Inc,2001.

4 许东, 吴铮. 基于Matlab6.X 的系统分析与设计——神经网络. 西安: 西安电子科技大学出版社, 2002.

5 顾阳, 王庆林, 许立新. 基于W iener滤波, K -L变换和BP网络的数字识别. 北京理工大学学报, 2002, 22(1)： 113～116.

6 许延发, 张敏. 改进的BP 算法在多目标识别中的应用. 光学精密工程, 2003, 11(5): 513～515.

作者简介

彭淑敏（1975—），女，西安电子科技大学ISDN 国家重点实验室硕士研究生。研究方向：神经网络在目标识别与跟踪方面的应用等。

Methods of Image Recognition Based on Neural Networks

Peng ShuMin, Wangjunning

(ISDN State Key Lab, Xidian University, Shanxi, Xi’an, 710071 China)

Abstract As a high technique, the neural network has drawn wide attention in the recent years. Scientists in various fields have made a deep study of it and have achieved a lot of valuable research findings. It has been widely used in image recognition. Usually image recognition based on neural networks needs feature extraction, and then the features extracted are delivered to the neural network classifier. The method of image recognition by BP network presented in this paper doesn’t need feature extraction. The image data are served as the network input. This paper concludes with the network training and testing with the testing results presented. Results indicate that the system of image recognition based on neural networks has strong anti-jamming ability. Keywords Artificial neural networks; BP network; MATLAB; image recognition

（上接第37页）

Study of the Description Method of Multimedia Content

Description Based on MPEG-7

Zhang Xiaogang and Ding Zhenguo

(School of Economy & Management, Xidian University, Xi’An 710071,China)

Abstract How to describe multimedia information is a main problem in multimedia information retrieval. This paper presents the tools specified by MPEG-7 standard for describing multimedia data and makes a study of the methods for describing multimedia content with MPEG-7 from both the structural aspect and the semantic aspect. It also presents some examples. Keywords MPEG-7; multimedia content description; description scheme