当前位置:文档之家› 基于非下采样Contourlet变换的人脸表情识别算法研究

基于非下采样Contourlet变换的人脸表情识别算法研究

基于非下采样Contourlet变换的人脸表情识别算法研究

贾函龙1王金芳2黄利飞3

(1 辽宁机电职业技术学院,辽宁丹东118000;2 燕山大学电气工程学院,秦

皇岛0662002;3杭州筹图科技有限公司,杭州310000)

摘要:本文研究了非下采样Contourlet变换在人脸表情识别中的应用,并设计了相应的算法流程。首先将人脸表情图像分割为最能表征表情信息的眼睛和嘴巴两个部分,然后利用非下采样Contourlet变换对分割的局部图像进行特征提取,最后使用极限学习机进行分类,并与BP神经网络进行对照实验。研究结果显示,表情分类平均准确率可达86.57%,比BP 神经网络的分类方法平均准确率高出7.43%。而在执行速度方面,极限学习机却是BP神经网络的11.09倍,表明了本实验方案的高效性和可行性。

关键词:人脸表情识别;非下采样Contourlet变换;极限学习机;BP神经网络

中图分类号:文献标识号:

Facial expression recognition based on the next sampling Contourlet

transform algorithm research

Jia Hanlong1, Wang Jinfang2, Huang Lifei3

(1 Liaoning Mechatronics College, Liaoning Dandong, 118000, China;2 Yanshan University, Qinhuangdao, 066200, China;3Hangzhou ChouTou Tech Co. LTD, Hangzhou, 310000, China) Abstract: this paper studied the next sampling Contourlet transform in the application of facial expression recognition, and the corresponding algorithm design process. Facial expression of the image segmentation is the most can represent the expression information of the eyes and the mouth of two parts, and then use the sampling Contourlet transform under the division of local image feature extraction, finally using extreme learning machine for classification, and compared with the BP neural network control experiment. The results showed that expression classification accuracy can reach 86.57% on average, than the BP neural network classification method of average accuracy higher than 7.43%. In the speed of execution method, extreme learning machine is 11.09 times that of the BP neural network show that the efficiency and feasibility of the

作者简介:贾函龙(1988-),男,辽宁丹东人,学士,助理实验师,主要研究方向: 工业自动化编程、图像处理;

王金芳(1986-),女,河北保定人,硕士,工程师,主要研究方向:图像处理、电子线路设计。

黄利飞(1988-),男,河南安阳,硕士,工程师,主要研究方向:图像处理。

experiment scheme.

Key words: facial expression recognition; The next sampling Contourlet transform; Extreme

learning machine; The BP neural network

引言

人脸表情含有丰富的人体行为信息,可以直观的反应一个人的心理状态。随着人机交互的研究日益得到人们关注,人脸表情识别已经成为模式识别领域一个极具研究意义的分支。目前,应用于表情识别的方法有基于gabor小波特征的方法,基于主动形状模型(ASM)和主动外观模型(AAM)的方法,基于流形的方法等。

典型的人脸表情提取主要包括人脸表情的预处理,特征提取与选择和人脸表情分类三个主要步骤。其中,表情特征的提取与选择是人脸表情识别步骤中最关键的一步。如何将人脸表情预处理得到的高维数据进行快速有效的降维,是表情识别系统的核心,也是目前为止最难于有效解决的关键所在。Gabor小波可以提取多尺度、多方向的空间频率特征,在人脸识别和表情识别的应用技术中,已经取得了一定的成绩。Contourlet变换也是一种多尺度、多方向的变换,早在2002年,Martin Vetterli和M.N.Do就研究了该算法。该变换是基于小波多尺度分析的思想基础研究的一种新的多尺度多方向分析方法。该变换不仅可以实现任意方向和尺度的分解,具有同小波变换一样的优势,而且由于其在图像轮廓特征和纹理信息方面的独到的提取和描述,因而在图像处理领域具有较为广泛的应用。然而,该变换在轮廓波采样过程进行了下采样转换,因此失去了平移不变性,导致在图像的恢复变换时,会造成伪吉布斯失真。为此,A.L.Cunha等人研究了非下采样Contourlet变换,由于取消了变换过程中的下采样,从而有效地抑制了伪Gibbs失真。

鉴于Contourlet变换的缺陷,A.L.Cunha等人提出了NSCT变换。该变换是由非下采样金字塔分解 (Nonsubsampled Pyramid,NSP)和非下采样方向性滤波器组(Nonsubsampled Directional Filter Banks,NSDFB)组成的。非下采样金字塔分解通过一个双通道的滤波器组,可将信号分解成一个多通和多个带通部分。

1 表情图像预处理

由于拍摄环境的复杂性以及人体自身的运动,获取的人脸表情信息会受到一些干扰。因

此预先对要进行特征提取和特征选择的图片进行人脸特征区域的定位,人脸区域的几何归一

化以及直方图均衡化,是有很重要的意义的[4]。JAFEE人脸表情库后预处理前后的图像如图

1和图2所示,每行分别对应一个人的7种表情,分别为愤怒、厌恶、恐惧、高兴、中性、

悲伤和惊奇。

图1 JAFFE库部分人脸表情图像

Fig.1 JAFFE library part of facial expression image

图2 经过预处理后的表情图像实例

Fig.2 After pretreatment of face image instance

人脸特征区域的定位采用基准特征结合仿射变换[5]的方法,该方法可以估计左右瞳孔的位置,然后依据左右瞳孔的坐标来确定人脸的位置,从而实现对人脸特征区域的定位。几何归一化是指图像经过尺度变换,得到统一大小的校准图像,即具有相同的高和宽,这样可以使图像在后期特征提取和特征选择阶段上具有相同的特征维数,从而简化运算。直方图均衡化可以消除部分光线和光照强度的影响,使图像动态范围增大,对比度更加扩展,有助于提高识别率。

2 Contourlet变换与非下采样Contourlet变换

Contourlet变换是一种新的图像二维表示算法,它的基本思想是首先用一个类似小波的多尺度分解描述出轮廓段,然后将图像数据拉普拉斯金字塔变换(Laplacian Pyramid,LP)和二维方向滤波器组(Directional Filter Bank,DFB)进行多尺度、多方向的变换。LP变换的基础是高斯金字塔,这是通过对原始图像循环进行高斯低通滤波和下采样来完成的,下采样的过程相当于带通滤波器,这样就形成了从上到下有层次的金字塔样式的图像分解,LP变换的主要功能是将图像分解为低频系数子带和高频系数子带。

从根本上说,图像是由一个数值矩阵组成的。矩阵相邻的像素点可以组成短小的线条,而多个线条的聚集就形成图像的基本轮廓和纹理特性,因此引入DFB滤波器组的作用就是基于方向的角度对图像进行从粗分辨率到细分辨率的特征提取。DFB滤波器组首先将LP变换得到的高频分量抽样进行多方向分解,然后通过将分布在同一方向的奇异点,合成一个系数,用类似于线段的基结构表征图像的边缘细节等几何特征,实现对图像信息的稀疏逼近。

对低频子带重复上述LP和DFB分解过程即可实现图像的多尺度多方向分解。LP分解

的每一层将图像分解为高频部分和低频部分,而DFB的优点是对于高频部分的表现更加优秀,这也就是两则叠加之后的Contourlet变换更具有优异性的原因。但是由于该变换在LP 变换的分解和重构滤波器的过程中,带宽均大于2/

。因此,对滤波后的图像进行缩减下采样会产生频谱混叠。频谱混叠会削弱了Contourlet变换的方向选择性,因为同一方向的信息会在几个不同的方向子带中再次出现。同时,Contourlet变换的下采样也使该算法失去了平移不变性。

鉴于Contourlet变换的缺陷的较为明显,A.L.Cunha等人提出了NSCT变换。该变换是由非下采样金字塔分解(Nonsubsampled Pyramid,NSP)和非下采样方向性滤波器组(Nonsubsampled Directional Filter Banks,NSDFB)组成的。非下采样金字塔分解通过一个双通道的滤波器组,可将信号分解成一个多通和多个带通部分。

NSCT变换可以由两步组成,先将图像经非下采样金字塔分解滤波器分解为低频图像矩阵系数部分和高频图像矩阵系数部分,再由非下采样方向性滤波器将高频图像矩阵系数部分分解为若干个子带方向(见图3)

原始图像分解NSFDB分解

低通子带

带通子带方向

带通子带方向

图3 NSCT变换分解示意图

Fig.3 NSCT transform decomposition diagram

在NSP分解过程中由于没有下采样环节,所以NSCT变换具有平移不变性,这就增强了图像特征信息的方向选择性,更好地在多尺度多方向上实现了纹理特征的描述。

因为上述两个步骤中滤波器组的下采样因子全部去除了,所以不会导致图像的错位,这就是该变换满足平移不变性的原因。运用该变换进行图像的NSCT变换分解后,同Contourlet 变换一样,会得到一个低频子带和若干个高频子带,而且随着子带层数的增加,细节被逐渐

放大。

(a) 原图(b)低频子带

(a) The original image (b) The low frequency subband

(c)第一层两个方向上的高频子带

(c) The first layer of high frequency subband of two directions

(d)第二层两个方向上的高频子带

(d) The second two directions on the high frequency subband

(e)第三层两个方向上的高频子带

(e) the third layer of high frequency subband of two directions

图4 人脸表情图像的三层分解

Fig.4 The three layers of decomposition of facial expression images 将JAFEE人脸表情库中的一幅图像进行NSCT变换三层分解之后,如图4所示,仔细观察图像的细微之处,我们可知,低频子带的图像系数矩阵主要描述了人脸五官的基本轮廓,对原始图像进行了低频滤波之后,图像变得模糊不清,而高频子带的图像系数矩阵则主要描述了人脸五官的更细节的轮廓及纹理等信息。如第二层四个方向上的高频子带信息较为细腻的从不同方向描述了口、眼、鼻子的细节特征,验证了随着子带层数的增加,细节纹理等被逐

渐放大,如第三层高频子带信息描述了更加细微的对光照等外部因素鲁棒性强的细节特征。在采用支持向量机或者极限学习机进行分类的时候,考虑该变换的平移不变性,分解次数太多会导致维数灾难。也考虑到各层子带所描述和包含的信息量,取三层NSCT 变换分解,且各层方向数目为2,4,2的时候,较为理想。

3. 非下采样Contourlet 变换表情识别

人脸

JAFFE

表情预处理

人脸表情区域

切割

提取非下采样Contourlet 特征

特征融合

人脸表情分类

眼睛和嘴鼻部进行

融合

图5 非下采样Contourle 变换在表情识别中的框架图

Fig.5 The next sampling Contourle transform in facial expression recognition in the frame

在人脸表情识别系统中,人脸的每个部位对表情识别的贡献率是不同的。研究表明,眼睛和嘴唇部位,对人脸表情的识别,起着决定性的作用。因此,本算法将人脸表情分割成含有丰富表情的眼睛部位和嘴唇部位两个部分。本文在人脸表情识别技术中NSCT 算法,先用

该算法进行人脸表情关键区域的特征选择,其中,在人脸表情的非下采样Contourlet 特征融合之后,因为维数较大(如选取JAFFE 人脸表情库的210幅图片,特征提取然后融合之后可达210*101025维),直接带入分类器的话,会引起维数灾难,而且会极大的降低分类器的分类效率。为此,在把特征提取之后的数据引入分类器之前,应先进行数据压缩,以避免维数灾难。本文引入PCA 方法进行维数约简。然后引入主成分分析算法进行特征提取,最后采用极限学习机(extreme learning machine ,简称ELM )进行表情分类,并与BP 神经网络分类算法进行识别正确率和识别效率的对比。

4 极限学习机(ELM )

2004年,新加坡南洋理工大学的黄广斌副教授研究极限学习机(Exteme Learning Machine ,ELM )算法。该算法是一种简单小巧、速度极快的单隐层前馈神经网络学习算法。传统的神经网络学习算法,比如BP 神经网络,不仅容易产生局部最优解,而且在训练时,需要人为设置大量的训练参数。极限学习机则小巧迅速的多,具有学习速度快且泛化性能好的优点,这是因为该算法简洁在只需要提前人为设置网络的隐层节点数目,在算法运行过程中不仅不需要调整网络的输入权值和隐元的偏置大小,而且最后只产生唯一的最优解。因此,近年来,ELM 也已经成为神经网络研究领域的一个研究热点,并成功应用于手写数字识别、人脸识别、时间序列预测等领域。以下介绍ELM 算法的工作原理。

已知给定N 个不同的样本D={(xi ,yi )|xi ∈Rn, yi ∈Rn }, i=1,2,3,…,M 。ELM 算法是前馈神经网络,主要用于训练单隐含层,这点与BP 神经网络不同,BP 神经网络可以手动设置隐含层数目。那么,该神经网络的数学模型可以表述为:

M j f b x w y i

i

i

M

i i

i

......,3,2,1),(1

=+?=∑=β (1)

其中,M 表示隐含层的结点个数。 上式可以简称成

y H =β (2)

其中,H 为隐层输出矩阵,表达式为:

?

?

?

????

???????+?+++?+++?++=)()2()()()()()()()(2M 1M 1111222121N 1N 212111x b x b x b x b b x b x b x b x b x N M N g g g g g g g g g H ωωωωωωωωω (3)

T

T N T

T ),,,(21ββββ = (4)

T

T T T y y y y ??? ??=11

1,,, (5)

在式(3)中,行代表训练样本所有隐结点的输出。ELM 算法是一种速度极快的单隐层前馈神经网络学习算法。其算法根据相关原理可以较为简略的总结为如下几步:

第一步,通过随机初始化的方式,对偏置bi 和权值wi 进行随机赋值。这一步由于不需要调整网络的输入权值和隐元的偏置大小,大大提高了ELM 算法的运行速度。

第二步,计算隐含层输出矩阵H 。利用公式(4),求得训练样本所有隐节点的输出,并将其计算成矩阵的形式。

第三步,近似求解权值β,通过式Y H +=β

?,即可求得计算隐含层到输出层的权值。 5实验结果

运用非下采样Contourle 变换的方法,对人脸表情图像进行特征提取,并用PCA 算法进行特征选择,最后以BP 神经网络和极限学习机(ELM )进行分类。本章实验中所使用的数据库是日本的JAFFE 表情库,该图像库由有10个女性的7种表情(生气、厌恶、恐惧、高兴、悲伤、惊讶和中性),共计213幅图像组成。本算法选取每人每种表情3幅,七种表情共210幅表情图像来进行实验。将每幅人脸表情图像经过几何归一化、直方图均衡化等预处理后,可以得到每幅像素点为130×130的统一大小的图像。实验采用三层NSCT 变换分解,且各层方向数目为2,4,2,并将“PKV A ”作为默认的滤波器。所以,每张人脸表情经变换后可以得到7个子带特征信息。为了做到与人无关的表情识别,在表情的分类环节,引入BP 神经网络和ELM 算法进行对照试验,并且随机选择每类表情的25幅表情图像作为训练集,其余5幅表情图像作为测试集。实验中BP 神经网络和ELM 算法的激励函数都是S 型函数。实验重复10次以降低随机性。

表1 JAFFE 数据库人脸表情识别率 (%)

Table.1 JAFFE facial expression recognition database

(%) 方法 1 2 3 4 5 6 7 8 9 10 平均识别率 BP-NN 74.29 94.29 71.43 71.43 74.29 80.00 85.71 77.14 82.86 80.00 79.14 ELM

85.71

91.43

88.57

82.86

82.86

94.29

82.86

77.14

88.57

91.43

86.57

由表1我们可以看出,经过非下采样Contourle 变换提取后,使用极限学习机的表情分类平均准确率可达86.57%,比使用BP 神经网络的分类方法平均准确率高出7.43%。而在执行时间方面,如表2所示,BP 神经算法执行十次的平均时间为6.82s 而,ELM 算法仅为0.92s ,我们可知极限学习机的速度BP 神经网络的11.09倍,可见ELM 算法的高速性和高效性。

表2 JAFFE数据库人脸表情识别的执行时间(s) Table.2 the execution time of the JAFFE facial expression recognition database (s)

方法 1 2 3 4 5 6 7 8 9 10

平均执行

时间BP-NN 9.82 9.50 9.70 9.60 9.71 9.51 9.60 9.72 9.50 9.82 9.65 ELM 0.87 0.86 0.84 0.85 0.90 0.85 0.94 0.86 0.85 0.84 0.87 本文还分析了各类表情识别的相关分布,如表3所示。我们可以的看到,分类正确率最

低的是恐惧和厌恶,分别只有76%和80%。在恐惧表情的分类中,表情大多被错分为厌恶

和愤怒,在厌恶表情的分类中,表情大多被错分为愤怒和恐惧。可以表明这四种表情在JAFFE

库上的表情单元的相近性,以致于无法使用NSCT变换提取出精确的表情特征。

表3 JAFFE表情库六类基本表情识别分布

Table.3 JAFFE expression library distribution of six basic facial expression recognition

表情类别

识别次数

识别率

(%) 愤怒厌恶恐惧高兴悲伤惊奇

愤怒48 1 1 0 0 0 96.00 厌恶 5 40 3 0 2 0 80.00 恐惧 2 3 38 0 1 0 76.00 高兴0 0 0 45 3 2 90.00 悲伤0 1 3 3 41 2 82.00 惊奇0 0 0 2 0 48 96.00 在六种基本表情的实验分类结果中,可以通过绘制直方图来更加简明的进行对比分析,如图6所示。各类表情中分类正确率最高的愤怒、惊奇和高兴,分别达到了96%,96%和90%。各种表情的识别率相对来说都是比较高,这表明了本算法在实现表情正确分类上的有效性。

愤怒

厌恶

恐惧

悲伤

惊奇

高兴

102030405060708090100识别率(%)

图6 人脸六种表情基本表情的识别率

Fig.6 Face six basic facial expression recognition rate expressions

本文所提方法比所提方法提高了8%-12%,如表4所示,显示了文献报道中不同的方法在JAFFE 表情数据库中的识别率,可知本文所研究的方法的测试结果优于文献报道结果.进一步表明了本算法的有效性。

表4 不同方法在JAFFE 库上的识别率 (%) Table.4 different methods on the JAFFE library recognition rate (%)

算法

识别率 Gabor 滤波器+SVM 79.10 基于Gabor 和LBP 集成 79.40 Contourle 变换+LPP+SVM

75.24 本文算法

86.57

6 结论及展望

本文研究将NSCT 变换用于人脸表情的特征提取,最后使用极限学习机进行分类,并将实验结果与BP 神经网络算法进行对比。详细描述了实验结果中各类表情的识别率,通过各类表情识别率都比较高的结果,表明本方法的有效性和高效性。

NSCT 算法中,并没有对NSCT 各层分解方向数目做具体的探讨;在表情分类时,ELM 算法和BP 神经网络各自的参数寻优并没有深化,因此对NSCT 算法各层分解方向数目做具体的探讨,进行深化的参数寻优,有望进一步提高识别效果。

参考文献

[1] Huang G, Zhou H. Extreme learning machine for regression and multiclass cassification[J]. Systems,Man, and

Cybernetics,PartB Cybernetics, IEEE Transactions on, 2012,42(2):513-529.

[2] ZUO Kunlong ,LIU Wenyao. Facial expression recognion using active appearance models[J ] . Journal of

Optoelectronics ·La ser (光电子·激光) ,2004 ,15 (7) : 853857

[3] Chang Ya, Hu Changbo, Turk M.Probabilistic Expression Analysis on Manifolds[C]//Proc.of Conference on

Computer Vision and Pattern Recognition. Washington D. C., USA: [s. n.], 2004.

[4] 朱健翔, 苏光大, 李迎春. 结合Gabor特征与Adaboost的人脸表情识别[J]. 光电子:激光, 2006, 17(8):993-998.

[5] Littlewort G, Bartlett M S, Fasel I, et al. Analysis of machine learning methods for real-time recognition of

facial expressions from video[J]. Computer Vision & Pattern Recognition, 2004.

[6] 乔杉. 基于BP神经网络的人脸识别方法研究[D]. 中国地质大学, 2014.

中图分类号和文献标识码,还请本刊编辑部代为补充。

不需要开发票,请发申通快递,

通讯地址:辽宁省,丹东市,振兴区,洋河大街30号,辽宁机电职业技术学院。

联系电话: 152 **** ****

相关主题
文本预览
相关文档 最新文档