当前位置:文档之家› 基于图像处理和人工神经网络方法的人眼注视与否探知的研究

基于图像处理和人工神经网络方法的人眼注视与否探知的研究

第42卷第6期南开大学学报(自然科学版)2009年12月ActaScientiarumNaturaliumUniversitatisNankaiensisV01.42N9-6Dec.2009

文章编号:0465—7942(2009)06—0001—05

基于图像处理和人工神经网络方法的人眼注视与否探知的研究

姚橙1,常胜江2

(1.天津城市建设学院基础学科部物理教研室,天津300384;2.南开大学现代光学研究所,天津300071)

摘要:提出了一种用于人眼大角度斜视时注视与否的特征参数提取和识别的新方法,该方法避免了光照不均匀导致特征参数提取上的困难.同时,针对训练样本较多时网络训练收敛较慢的缺点,对Levenberg—Maquardt算法进行了改进.计算机仿真结果表明,该方法不仅成功解决了照明条件对图像质量的限制问题,还可以在短时间内对含有大量样本的数据库进行有效训练和准确识别,并具有较高的推广性,训练后的网络对100个样本的识别率为97%.

关键词:注视探知I反向传播算法f特征参数提取

中图分类号:TP751.1文献标识码:A

0引言

随着信息技术的发展及其广泛应用,人机交互技术变得越来越重要,人眼注视与否作为无接触(Con—tactfree)智能控制的辅助信号,已成为人机交互技术中需要解决的关键问题,被越来越多的研究人员重视[1-2].据报道,微软公司已经着手开发计算机语音操作系统,为了把无意义的语音信号(比如聊天等)与要输入的语音指令区分开来,计算机首先需要判断人眼注视与否,如果判断为注视,语音信号才作为计算机输入的指令.另据报道,日本的电视技术研究所已经开发了人眼遥控系统,使用眼睛的注视方向来选择频道.在这些研发工作中,人眼注视方向的自动探知已经成为该技术能否应用的关键技术.类似的应用还包括作为机车驾驶员的安全伴侣,用注视探知方法,自动警告驾驶员的走神或打盹.

为了满足上述应用的需要,必须保证人眼注视探知方法的准确性和实时性.尽管国外已有对固定人的注视方向进行测量的商用仪器设备,但这些仪器要求被测人戴上头盔,上面装有专用测量装置[3],如:红外半导体激光器和位敏探测器PSD,多通道摄像机,或测距仪等.尽管这些装置有较高的注视方向测量精度,但其设备复杂昂贵。作用距离短,每次测量都需对仪器进行调节和定位,并不适合作为智能控制辅助信号应用.近几年,国内在这一领域也开展了一些初步的研究工作,例如:郝群等人[43采用图像处理算法分析眼眶与瞳孔的位置关系,从而判断出人眼的注视方向.该方法的思路简洁,具有一定的判别精度,但是由于完全借助于图像处理手段,该方法不仅受到图像质量的严重制约,并且容错性与推广性较差.王勇等人口一63采用图像处理提取特征与人工神经网络识别相结合的方法对人眼注视探知进行了系统研究.由于在图像分析的基础上合理利用了人工神经网络的有监督学习、容错及聚类功能,在实现具有较高推广性的注视方向的探知方面取得了较好的结果.但该方法的缺陷也很明显,一方面该方法对特征参数的提取受到图像质量(尤其是光照不均匀引起的模糊)影响很大,参数的提取往往不够准确,另一方面,传统BP神经网络算法大量的迭代运算使训练时间过长,对大规模的样本进行学习需要10h以上的时间,限制了算法的推广性.

收稿日期:2009—02—13

基金项目:国家自然科学基金(60772105)

作者简介:姚橙(1986一),女,天津人,讲师.

?2?南开大学学报(自然科学版)第42卷提出了~种新的人眼注视探知的方法.为了有效地提取与注视方向有关的特征参数,在不影响算法实时性的前提下,首先解决样本的背景光照不均匀的问题,使算法能够适用于质量较差的光照环境,在此基础上通过图像分割和像素统计准确得到瞳孔、眼眶、鼻孔等参数.在神经网络算法方面,比较几种BP神经网络训练算法的特点,提出采用Levenberg—Marquart算法训练包含大量训练样本的神经网络.模拟结果表明,该算法能够在短时间内训练包含大量样本的数据库,对于测试样本具有很高的识别率.

1特征参数的提取

1.1图像预处理

尽管在实验室条件下可以通过理想的照明获得优质的图像,但在实际应用时,获取的图像常常会因为光照的原因而存在图像模糊等现象,造成图像分析中对目标的定位、分割以及特征提取上的困难,因此需要采用一些算法来改善图像的质量.改善图像质量的方法很多,最常用的方法是同态滤波法,即根据图像中照明分量表现为慢变化,而反射分量倾向于急剧变化这一特点,将图像进行傅立叶变换,变换到频域并采用滤波器对反射分量与照明分量分别增强与抑制.该方法以图像照明模型为依据,效果较好,但两次的傅立叶变换使处理时间大大增加.为了保证算法的实时性,采用背景亮度估计法[7]对图像进行了预处理,该方法在保证图像质量得到改善的同时具有非常快的处理速度,能够满足人眼注视识别对算法的实时性要求.简要的处理流程如下:

(1)估计出图像背景的照度.方法是

将图像平均分割成十几个较小的图像块,

将每个图像块中的最小值作为图像背景

的亮度(图1);

(2)将粗略估计出的背景照度矩阵通

过插值法扩展成和原始图像大小相同的

矩阵;

(3)将估计出的背景照度从原始图像

中减去,以修正照度不均的影响;

(4)由于前面的操作使图像变暗,可

以通过调整图像的灰度对此进行矫正.

使用该方法对一幅照明情况不佳的图

像进行了处理,效果如图2所示.处理后的

图像照度较为均匀,对比度军导到了很大改

善,可以清晰分辨出眼眶,瞳孔与鼻孔的位

置.1.2图像分割与特征参数的提取

与人眼注视判别相关的参数,主要由

两部分组成‘引,第一是反映眼球与眼眶相

对位置的参数,通过分别确定眼眶与瞳孔

的中心坐标然后求差可以得到该参数.第

图1背景亮度分布的粗略估计Fig.1Roughestimateofbackgroudlightdistribution

原图像矫正后图2经过图像预处理后图像照度的改善情况Fig.2Improvementofimagequalityafterimagepre—processing二是反映面部方向的参数,为了确定这个参数,除了前面得到的眼眶坐标外,还需要确定鼻子的坐标.

为了提取瞳孔与眼睛相对位置的坐标,将眼睛图像(图3(a))5Y割出来并进行二值化处理(图3(b)),

然后做出每列白点数的统计(1iP-值化后图像矩阵每一列中值为1的点的个数),如图3(c)所示.

第6期姚橙等:基于图像处理和人工神经网络方法的人眼注视与否探知的研究?3?

(a)人眼原始图像(b)人眼二值化图像

以z坐标为例,从A到F依次代表了左眼睛左边缘x日。,左瞳孔X捌,左眼睛右边缘x耽,右眼睛左边缘xe一,右瞳孔X陆,右眼睛右边缘XErz

图3瞳孔的参数提取

Fig.3Parameterextractionofeyesandpupils

在统计图中可以看出,由于两眼之间的区域基本没有黑点存在,统计图中对应的部分为一条直线,图中间向左向右的两个突变处即为眼睛的内侧边缘(即左眼睛右边缘XEl2和右眼睛左边缘XErl).统计图的两边的两个极大值点是眼睛的外侧边缘(即左眼睛左边缘XE-。和右眼睛右边缘X耻),取平均后得到左眼睛中心X日一(X口。+XEi2)/2,以及右眼睛中心XEr=(XEr。+XD。)/2.瞳孔位置(Xm,XBf)可以对统计图中代表眼睛区域的两块凹陷曲线的两边坐标取平均值得到.

这样获得了左右眼睛,两个瞳孔的中心坐标的X分量.其y分量可以使用类似的方法从纵向做每一行的白点数统计得到.将左右眼睛的连线中心和两个瞳孔的连线中心的相对位

置计算出来作为送入神经网络的两个特征参数:似=l掣一掣l

~I(yEl+Y0)(y融+YB。)I

山一l—■广_一—■广一l

鼻子坐标的提取也可以使用类似的方法得到,由于鼻子

图像二值化后的黑点聚集在两个鼻孔处,通过与提取瞳孔坐

标类似的方法得到鼻子的坐标(X。,Y。).

依据人面部的对称性,可以通过鼻子坐标与眼睛的中心

坐标得到人脸所在平面与图像平面如图4所示.ABC为图像平面,A代表鼻子中心位置,B、C为图像中眼睛中心的位置,,,,一j:臻A

图4人脸倾斜角度

Fig.4Inclineangleofhumanface

C假设实际人脸中鼻子中心到眼的连线中有一条连线落在这个平面上(图中AB),E代表实际人脸中另一只眼睛的中心位置.ABE代表人脸实际所在平面.ABC与ABE的夹角用0表示,有

cosO=lCDI/IDEl(1)

在△ACD中。

}CDI=JACJ?sinIjo

IADI=IAClcos妒(2)

在△ADE中:

IADf2+JDEl2=J4EI2(3)

由于似BE为等腰三角形,因此IAEI2=IABI2,下列关系存在:

DEI=以瓦开『=『丁砬币=门瓦盯(1蕴开丽而(4)

因此有:

?4?南开大学学报(自然科学版)第42卷

cos0=IAC}sing/ ̄/{AB2一lAC2COS2P(5)也就是说,当不考虑P的变化时,口只与lABI、IACI的长度有关.

于是,脸部倾斜角度可以由鼻子到左眼睛的距离和鼻子到右眼睛的距离差这个特征参数表征,即:‘D一 ̄/(XEl—X。)2+(yEI—Y。)2一 ̄/(XEf—X。)2+(yEr—y。)2(6)这样,通过图像分割与像素点统计,分别得到了反映眼球与眼睛相对位置的参数LtX,Ay,与反映面部方向的参数D.

2BP神经网络学习算法及模拟结果

在各种神经网络模型当中,BP神经网络因其良好的非线性逼近能力和泛化能力以及使用的易适性而受到人们的重视.但传统BP网络存在网络收敛速度慢、容易陷入局部最小点等问题.以王勇的实验∞]为例,当样本数量为几十个时,训练时间超过十个小时,为了减少训练时间,该方法需要预先使用一系列判据去除明显的非注视样本,通过降低训练样本的数量来提高网络的收敛速度.但训练样本太少往往会导致网络的推广能力的下降,因此对于较大的训练样本库,必须使用收敛速度更快速的训练算法.为了选取合适的训练算法,加快人眼注视探知的处理速度,对传统的BP算法[8]、动量BP算法[9]、自适应速率的BP算法[10。、弹性BP算法[10。、共轭梯度法[n-lz3和Levenberg—Marquardt(LM)算法E13-lsJ六种算法进行对比分析,确定了适于训练大规模样本库的网络训练算法.上述六种算法当中,前四种算法是为常用的一阶算法,具有算法简单,计算量小等特点,但收敛速度较慢且容易陷入局域最小,因而很难得到最优解.相比而言共轭梯度法和LM算法具有很快的收敛速度,但由于是二阶算法,算法的复杂性相对较高,尤其是共轭梯度法算法,由于要计算性能函数的二阶导数,并存储全部的Hessian矩阵,这种算法的计算量较大,实时性难以得到保证.由于LM算法采用近似的二阶导数,在对训练速率进行修正时不需要计算Hessian矩阵,因而练速度大大加快.主要采用该算法对神经网络进行学习,在人眼注视与否的判断实验中获得了非常好的结果.

实验中采用的网络为一个三层的神经网络结构,输入节点数为3,分别输入三个特征参数AX,Ay和D.网络的隐藏层和输出层的神经元数分别为3个和1个.神经元的激活函数为tansig函数.在模拟过程中,训练样本集和测试样本集各包含50个样本(其中注视样本20,非注视样本30),为了对比分析,在表1中给出了在1.8GHz主频计算机中几种算法的收敛时间.从表1可以看出OSS一步正切算法收敛较慢.弹性BP算法,自适应速率的BP算法在半分钟内完成了1000次迭代后,并没有达到设置的训练精度,而LM算法经32次迭代就已经收敛,误差小于设置的训练误差(10_8).使用训练后的神经网络进行测试,训练后网络对训练样本集识别正确率为100%,对50个测试样本识别率达到94%,对所有样本的正确识别率为97%.

表1几种算法的训练参数

Table1TrainingparameterofeachrefinedBP

3结论

提出了一种用于判断人眼注视与否的特征参数提取的新方法,该方法对特征参数的提取准确快速,由于使用了改进的反向传播算法训练BP神经网络,在训练时可以快速对包含大量样本的数据库进行处理,

第6期姚橙等:基于图像处理和人工神经网络方法的人眼注视与否探知的研究?5?

提高了算法的推广性.

参考文献

1HjelmasE,LowBK.Facedetection:asurvey[J].ComputerVisionandImageUnderstanding,2001,86(3):236--274.

2PavlovicVI,SharmaR,HuangTS.Visualinterpretationofhand

gestures

forhuman—computerinteraction:are—viewD].IEEETransPatternAnal&MachineIntelligence,1997,19(7):677--695.

3TaimiK,LiuJ.Eyeandgazetrackingforvisuallycontrolledinteractivestereoscopicdisplay[J].SignalProcessing:ImageCommunication,1999,14(10):799~810.

4HaoQun,LiuWeihua,Li130.Eyegazingdirectioninspectionbasedonimageprocessingtechnique[J].OpticalTechnique,2004,30(5):547—551.

5WangYong,YuanJinghe,ChangShengjiang,eta1.Amethodtodistinguishgazingdirectionofhumaneyesbasedonparameterextraction[J].Jof0ptoelectronics&Laser(光电子?激光),2001,12(12):1284—1287.6WangYong,YuanJinghe,ChangShengjian,eta1.Gesturelabelingbasedongazedirectionrecognitionformachineinteraction[J].OpticalEngineering,2002,41(8):1840一1844.

7SunZhaolin.ImageprocessingbyMATLAB6.X[M].Beijing:TsinghuaUniversityPress,2002.

8Werboss

Paul.Beyondregression:Newtoolsforpredictionandanalysisinthe

behavioralsciences[D].MA:Applmath,HarvardUniversity,1974.

9ParkerDB.Learning—logic:Castingthecortexofthehumanbraininsilicon,TR一47[R].MA:MITCenterforComputationalResearchinEconomicsandManagementScience,1985.

10WidrowB,HoffME.Adaptiveswitchingcircuits[M].NewYork:InstituteofRadioEngineer,1960.

11FletcherR,ReevesC.Functionminimizationbyconjugategradients[J].ComputerJournal,1964,7:533--536.

12PatrickP,SmageVD.Minimizationmethodfortrainingfeedforwardneuralnetworks[J].NeuralNetworks,1994,7:1—11.

13ShamnoDF.Recentadvancesingradientbasedunconstrainedoptimizationtechniquesforlargeproblems[J].Trans—actionsoftheASME,1983。105(2):155~159.

14ScalesLE.Introductiontonon—linearoptimization[M].NewYork:Springer—Vorlag,1985.

15AthanasiosNikolaidis,LoannisPitas.Facialfeatureextractionandposedeterminationofpose[J].PatternRecogni.tion.2000.33:】783—1791.

GazingDetection

MethodBasedonImageProcessing

andArtificialNeuralNetworks

YaoChen91.ChangShengjian92

(1.PhysicsTeachingandResearchSection,Departmentof

FundamentalSubject,

TianjinInstituteofUrbanConstruction,Tianjin300384,China,

2.InstituteofModernOptics,NankaiUniversity,Tianjin300071,China)

Abstract:Amethodforgazingrecognitionisproposedusingimageprocessingmethodandbackpropagationneuralnetworks.The

methodcaneffectivelyextractfeaturefroman—desiredimagesresultedfromunevendistributinglight.Thesimulationresultsonalargedatabasewhichconsistingof100samplesshowthattheproposedalgorithmnotonlyhavefastconver—gentcharacteristic,butalsoobtainhighrecognitionrateas

97%.

Keywords:gazingdetectionback‘propagationalgorithm;parameterextraction

基于图像处理和人工神经网络方法的人眼注视与否探知的研

作者:姚橙, 常胜江, Yao Cheng, Chang Shengjiang

作者单位:姚橙,Yao Cheng(天津城市建设学院基础学科部物理教研室,天津,300384), 常胜江,Chang Shengjiang(南开大学现代光学研究所,天津,300071)

刊名:

南开大学学报(自然科学版)

英文刊名:ACTA SCIENTIARUM NATURALIUM UNIVERSITATIS NANKAIENSIS(NATURAL SCIENCE EDITION)年,卷(期):2009,42(6)

被引用次数:0次

参考文献(15条)

1.Hjelmas E.Low B K Face detection:a survey 2001(3)

2.Pavlovic V I.Sharma R.Huang T S Visual interpretation of hand gestures for human-computer interaction,a re-view 1997(7)

3.Taimi K.Liu J Eye and gaze tracking for visually controlled interactive stereoscopic display

1999(10)

4.郝群.刘伟华.李博基于图像处理的人眼注视方向检测研究[期刊论文]-光学技术 2004(5)

5.Wang Yong.Yuan Jinghe.Chang Shengjiang A method to distinguish gazing direction of human eyes based on parameter extraction 2001(12)

6.Wang Yong.Yuan Jinghe.Chang Shengjian Gesture labeling based on gaze direction recognition for machine interaction 2002(8)

7.Sun Zhaolin Image processing by MATLAB 6.X 2002

8.Werboss Paul Beyond regression:New tools for prediction and analysis in the behavioral sciences 1974

9.Parker D B Learning-logic:Casting the cortex of the human brain in silicon,TR-47 1985

10.Widrow B.Hoff M E Adaptive switching circuits 1960

11.Fletcher R.Reeves C Function minimization by conjugate gradients 1964

12.Patrick P.Smage V D Minimization method for training feed for ward neural networks 1994

13.Shamno D F Recent advances in gradient based unconstrained optimization techniques for large problems 1983(2)

14.Scales L E Introduction to non-linear optimization 1985

15.Athanasios Nikolaidis.Loannis Pitas Facial feature extraction and pose determination of pose 2000

本文链接:https://www.doczj.com/doc/d44256076.html,/Periodical_nkdx200906001.aspx

授权使用:北京交通大学(北京交通大学),授权号:da3c2974-cc78-4c80-b733-9e37018b4daf

下载时间:2010年11月23日

相关主题
文本预览
相关文档 最新文档