【CN109815893A】基于循环生成对抗网络的彩色人脸图像光照域归一化的方法【专利】
- 格式:pdf
- 大小:664.99 KB
- 文档页数:12
专利名称:基于对偶生成对抗式网络的人脸图像去模糊和恢复方法
专利类型:发明专利
发明人:王爽,焦李成,刘梦晨,胡月,权豆,梁雪峰,马文萍,刘飞航
申请号:CN201810338538.1
申请日:20180416
公开号:CN108573479A
公开日:
20180925
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于对偶生成对抗式网络的人脸图像去模糊和恢复方法,本发明实现的步骤为:1、网络初始化;2、输入数据;3、优化判别器;4、优化生成器;5、迭代训练网络;6、测试网络;7、输出结果。
本发明相比现有技术基于单一生成对抗式网络的方法,网络更加容易收敛,不容易造成模型崩塌,并且生成效果更加稳定,生成图像与真实图像更加接近。
本发明可应用于对模糊、细节信息残缺的图像进行去模糊和恢复处理。
申请人:西安电子科技大学
地址:710065 陕西省西安市雁塔区太白南路2号
国籍:CN
代理机构:西安通大专利代理有限责任公司
代理人:徐文权
更多信息请下载全文后查看。
基于生成对抗网络的轻量级图像盲超分辨率网络李若琦;苍岩【期刊名称】《应用科技》【年(卷),期】2024(51)2【摘要】针对图像盲超分辨率网络计算参数多、模型庞大的问题,对快速且节省内存的轻量级图像非盲超分辨率网络(fast and memory-efficient image super resulotion network,FMEN)进行改进,提出了一种轻量级的快速且节省内存的图像盲超分辨率网络(fast and memory-efficient image blind super resulotion network,FMEBN)。
首先,通过图像退化模块模拟部分真实世界退化空间,使用退化预测模块预测低分辨率(low resolution,LR)图像的退化参数;然后,为能有效利用退化先验信息指导并约束网络进行重建,使用动态卷积对原网络特征提取、重建模块、高频注意力块(high frequency attention block,HFAB)结构进行改进;最后,使用生成对抗网络(generative adversarial network,GAN)对FMEN训练策略与损失函数进行优化,减小真实数据与生成数据的差异,生成更加真实、清晰的纹理、轮廓。
实验结果表明,在合成图像数据集和真实图像数据集RealWorld-38上,该算法有较好的重建精度与视觉效果,模型大小12 MB,可以满足图像盲超分辨率网络的轻量级需求。
【总页数】8页(P112-119)【作者】李若琦;苍岩【作者单位】哈尔滨工程大学信息与通信工程学院【正文语种】中文【中图分类】TP391【相关文献】1.经ERCP和PTCD途径胆道支架置入治疗老年低位恶性梗阻性黄疸的临床观察2.基于生成对抗网络的人脸图像超分辨率重建3.基于生成对抗网络与噪声分布的图像超分辨率重建方法4.基于条件生成对抗网络的图像超分辨率重建研究5.利用图像掩膜优化基于生成对抗网络的图像超分辨率模型因版权原因,仅展示原文概要,查看原文内容请购买。
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202010608734.3(22)申请日 2020.06.29(71)申请人 电子科技大学地址 611731 四川省成都市高新区(西区)西源大道2006号(72)发明人 王博文 潘力立 (74)专利代理机构 电子科技大学专利中心51203代理人 陈一鑫(51)Int.Cl.G06T 3/00(2006.01)G06K 9/00(2006.01)G06K 9/62(2006.01)G06N 3/04(2006.01)G06N 3/08(2006.01)(54)发明名称一种基于循环条件生成对抗网络的人脸衰老图像合成方法(57)摘要该发明公开了一种基于循环条件生成对抗网络的人脸衰老图像合成方法,属于计算机视觉领域。
该方法首先选择使用生成对抗网络作为基本框架,同时,借鉴循环生成对抗网络的对偶学习的思想,并利用辅助分类器的监督学习思想,创新地在循环生成对抗网络进行衰老图片生成时引入类别标签,使网络对特定的年龄特征增加关注度,并通过给判别器增加一个辅助分类支路,使得生成网络可以有效利用标签信息去学习特定的知识,并且通过对偶学习的思想,单次训练即可完成生成网络在不同年龄段图像的生成转换。
通过上述的方法,本发明充分利用了对偶学习和辅助分类监督思想的优势,大大地提高了循环生成对抗网络在衰老图像生成的效率和图片质量。
权利要求书2页 说明书12页 附图3页CN 111798369 A 2020.10.20C N 111798369A1.一种基于循环条件生成对抗网络的人脸衰老图像合成方法,该方法包括:步骤1:对数据集进行预处理;获取UTKFace数据集,UTKFace数据集是具有较长年龄范围的大规模面部数据集,对获取的数据集根据不同的年龄段进行分组;再利用one-hot向量对这三个年龄段的图像标签进行编码,最后对图片像素值进行归一化;步骤2:构建卷积神经网络;构建的卷积神经网络包括三个子网络,一个为生成器G,一个为生成器F,一个为判别器D;生成器G输入源域图片x和目标域标签c,输出生成目标域人脸图片G(x,c);生成器F输入生成的目标域人脸图片G(x,c)和源域标签c′,输出生成的源域人脸图片F(G(x,c),c′);生成器F的生成过程是源域图片x的重建过程,设计生成器F的重构损失使F(G(x,c),c′)和源域图片x相似,这样一张源域图片经过G变为目标域图片,目标域图片再经过F转换回源域图片;G和F为一个互逆的过程,一张图片依次经过G和F,图片保持不变;保证图片在源域和目标域转换的过程中,重要特征不会丢失;生成器输入输出均为图片,而判别器输入为图片,输出为标量和分类向量;生成器网络的前两层为3个下采样卷积块,之后接着6个残差网络块,最后再跟着3个上采样卷积块;判别器网络依次采用6个下采样卷积块,以及两个标准卷积块;生成器G和F的详细参数如下:首先是3层卷积层,卷积核模板大小分别为7×7、4×4、4×4卷积层步长分别为1、2、2,每一卷积层后使用Instance norm归一化层来归一化,激活函数为ReLU函数;其次是6个残差块串联,然后是两层转置卷积,卷积核模板大小都为,步长都为2,每一转置卷积层后使用Instance norm归一化层来归一化,激活函数是ReLU函数;最后一层是卷积层,卷积核模板大小为7×7,卷积层步长为2,激活函数为tanh函数;判别器D的详细参数如下:首先是6个卷积层,每个卷积层卷积核模板大小都为4×4,步长都为2,激活函数都为Leakey ReLU;最后输出分为两路,一路为辅助分类器路,另一路为判别器路;辅助分类器路卷积层卷积核模板大小2×2,步长为1,输出维度为3,对应生成器输入的标签维度;判别器路卷积核模板大小3×3,步长为1,输出维度为1;步骤3:训练判别器D;利用上述步骤得到的人脸对齐图像和one-hot年龄标签来训练判别器D;判别器D的输入是源域图像x和源域标签c′,输出人脸图像的真假判别D src(x)和源域真实图片的标签c′的后验估计D cls(c′|x);采用如下的损失函数:公式中的c′是源域图片的标签,x是源域的图像;λcls是对E x,c′[-log(D cls(c′|x))]的平滑加权系数,即对输入图片的标签与辅助分类器输出的概率密度估计之间的交叉熵损失的平滑加权系数;E x,c′,E x分别表示对(x,c′),x求期望;在下一步的训练中,判别器这一次输入生成器G生成的目标域人脸图片G(x,c),c是生成器需要生成的图片的年龄段标签,即目标域标签;输出人脸图像的真假判别D src(G(x,c));E x,c是对(x,c)求期望;这个过程用如下损失函数表示:判别器D的总损失函数如下式表示:步骤4:训练生成器G;生成器G的输入是源域图片x和目标域标签c,输出生成器生成目标域人脸图片G(x,c);利用上一步训练的判别器D来训练生成器G;训练生成器G时,判别器D的参数固定;判别器D 的输入是生成器生成的目标域人脸图片G(x,c),输出的是生成器目标域标签c的后验估计D cls(c|G(x,c))和输出人脸图像的真假判别D src(G(x,c));为保证输入图像和衰老图像身份一致性,加入循环一致性损失;生成器G的损失如下面公式所示:公式中λcls是对E x,c[-log(D cls(c|G(x,c)))]的平滑加权系数,即对目标域标签与判别器判别生成图片所属类别的概率密度估计之间的交叉熵损失的平滑加权系数;λrec是对E x,c,c′[||x-F(G(x,c),c′)||1]的平滑加权系数,即对循环一致性损失项的平滑加权系数;E x,c,E x,c,c′分别是对(x,c),(x,c,c′)求期望;步骤5:训练生成器F;生成器F的输入是上面得到的目标域图片G(x,c)和源域标签c′,输出生成器生成的人脸图片F(G(x,c),c′);生成器F与G的训练过程类似,生成器F是利用源域标签,将目标域图片转为源域图片,即对应目标年龄段图片映射回源年龄段图片;损失为:公式中λcls是对E x,c′[-log(D cls(c′|F(G(x,c),c′)))]的平滑加权系数,即对源域标签与判别器判别生成图片所属类别的概率密度估计之间的交叉熵损失的平滑加权系数;λrec是对E x,c,c′[||x-(F(G(x,c),c′))||1]的平滑加权系数,即对循环一致性损失项的平滑加权系数;E x,c′,E x,c,c′分别是对(x,c′),(x,c,c′)求期望;步骤6:训练完成后只采用生成器G部分,给定图片X和目标域标签C,则可以得到多张不同年龄段的输出图片。
第60卷 第4期吉林大学学报(理学版)V o l .60 N o .4 2022年7月J o u r n a l o f J i l i nU n i v e r s i t y (S c i e n c eE d i t i o n )J u l y 2022d o i :10.13413/j .c n k i .jd x b l x b .2021311基于循环生成对抗网络的人脸素描合成葛延良,孙笑笑,张 乔,王冬梅,王肖肖(东北石油大学电气信息工程学院,黑龙江大庆163318)摘要:针对当前卷积神经网络通常以降低感受野为条件获得多尺度图像特征,以及很难捕获各特征通道之间重要关系的问题,结合循环生成对抗网络结构的特点提出一种新的多尺度自注意力机制的循环生成对抗网络.首先,在生成器中使用V G G 16模块组成U -N e t 结构网络,以增强对图像特征信息的提取,同时对网络中的下采样和上采样进行改进,以提高特征分辨率,获取更多的细节信息;其次,设计多尺度特征聚合模块,采用不同采样率的多个并行空洞卷积,整合了不同尺度上的空间信息,在保持图像较大感受野的同时,多比例地捕捉图像信息;最后,为捕获空间维度和通道维度中的特征依赖关系,设计像素自注意力模块对空间维度和通道维度上的语义依赖关系进行建模,以增强图像特征的表现能力,提高生成素描图像的质量.关键词:深度学习;循环生成对抗网络;空洞卷积;多尺度特征聚合模块;像素自注意力模块中图分类号:T P 391 文献标志码:A 文章编号:1671-5489(2022)04-0897-09F a c e S k e t c hS y n t h e s i sB a s e d o n C yc l e -G e n e r a t i v eAd ve r s a r i a lN e t w o r k s G EY a n l i a n g ,S U N X i a o x i a o ,Z HA N G Q i a o ,WA N G D o n g m e i ,WA N G X i a o x i a o (S c h o o l of E l e c t r i c a l a n dI n f o r m a t i o nE ng i n e e r i n g ,N o r th e a s t P e t r o l e u m U ni v e r s i t y ,D a q i n g 163318,H e i l o n gj i a n g Pr o v i n c e ,C h i n a )收稿日期:2021-08-23.第一作者简介:葛延良(1979 ),男,汉族,硕士,副教授,从事图像处理㊁计算机视觉和无线通信的研究,E -m a i l :g e y a n l i a n g @139.c o m.通信作者简介:孙笑笑(1993 ),女,汉族,硕士研究生,从事生成对抗网络和人脸素描融合的研究,E -m a i l :3076266954@q q .c o m.基金项目:黑龙江省自然科学基金(批准号:L H 2020F 005).A b s t r a c t :A i m i n g a tt h e p r o b l e m t h a tt h ec u r r e n tc o n v o l u t i o n a ln e u r a ln e t w o r k su s u a l l y o b t a i n e d m u l t i -s c a l e i m a g e f e a t u r e s o n t h e c o n d i t i o no f r e d u c i n g r e c e p t i v e f i e l d s ,a n d i tw a s d i f f i c u l t t o c a p t u r e t h e i m p o r t a n t r e l a t i o n s h i p b e t w e e nc h a n n e l s .C o m b i n e dw i t ht h e f e a t u r e so f c y c l e -g e n e r a t i v e a d v e r s a r i a l n e t w o r k s s t r u c t u r e ,w e p r o p o s e dan e w c y c l e -g e n e r a t i v ea d v e r s a r i a ln e t w o r k s w i t h m u l t i -s c a l ea n d s e l f -a t t e n t i o nm e c h a n i s m.F i r s t l y ,V G G 16m o d u l ew a s u s e d t o f o r m U -N e t s t r u c t u r e i n t h e g e n e r a t o r t o e n h a n c e t h ee x t r a c t i o no f i m a g e f e a t u r e i n f o r m a t i o n .A t t h es a m et i m e ,t h ed o w n -s a m p l i n g a n d u p -s a m p l i n g i n t h e n e t w o r kw e r e i m p r o v e d t o i m p r o v e t h e f e a t u r e r e s o l u t i o n a n do b t a i nm o r e d e t a i l e d i n f o r m a t i o n .S e c o n d l y ,am u l t i -s c a l e f e a t u r e f u s i o nb l o c kw a s d e s i g n e d .T h em u l t i p l e p a r a l l e l d i l a t e d c o n v o l u t i o n sw i t hd i f f e r e n t s a m p l i n g r a t e sw e r eu s e d t o i n t e g r a t e t h e s p a t i a l i n f o r m a t i o no nd i f f e r e n t s c a l e s ,a n d c a p t u r e i m a g e i n f o r m a t i o n i nm u l t i p l e p r o p o r t i o n sw h i l em a i n t a i n i n g a l a r g e r e c e p t i v e f i e l d o f t h ei m a g e .F i n a l l y ,i no r d e rt oc a p t u r et h ef e a t u r ed e p e n d e n c i e si nt h es p a t i a ld i m e n s i o na n d c h a n n e l d i m e n s i o n ,t h e p i x e l s e l f -a t t e n t i o n m o d u l ew a sd e s i g n e d t om o d e l t h e s e m a n t i cd e p e n d e n c i e si n t h e s p a t i a l d i m e n s i o na n dc h a n n e l d i m e n s i o n ,s oa s t oe n h a n c e t h e r e p r e s e n t a t i o na b i l i t y o f i m a g e f e a t u r e s a n d i m p r o v e t h e q u a l i t y o f t h e g e n e r a t e d s k e t c h i m a g e s .K e y w o r d s :d e e p l e a r n i n g ;c y c l e -g e n e r a t i v ea d v e r s a r i a ln e t w o r k s ;d i l a t e d c o n v o l u t i o n ;m u l t i -s c a l e f e a t u r e f u s i o nb l o c k ;p i x e l s e l f -a t t e n t i o nm o d u l e 作为图像风格迁移的一个重要分支,人脸素描合成(f a c e s k e t c hs y n t h e s i s ,F S S )目前得到广泛的关注[1].人脸素描合成是指将人脸转化为相对应的素描图像[2],其在生活㊁刑事侦查㊁数字娱乐㊁漫画制作[3]及电影制作等领域应用广泛.图像的风格迁移方法主要有两种:基于图像迭代和基于模型迭代[4].图像迭代方法主要包括基于最大均值差异㊁基于M a r k o v 随机场和基于深度图像类比.模型迭代方法在图像风格迁移方面有较大优势,特别是卷积神经网络[5]和生成对抗网络的不断发展[1],极大提高了人脸素描合成的图像质量.其中基于卷积神经网络的图像风格迁移[6],实现了局部连接㊁权值分担㊁特征提取和封装,缺点是迁移缺乏泛化能力,可能导致图像模糊甚至失真[7].生成对抗网络(g e n e r a t i v ea d v e r s a r i a ln e t w o r k s ,G A N )很好地解决了上述问题.G o o d f e l l o w 等[8]首次提出了生成对抗网络,极大提高了生成图像的速度和清晰度[9],同时降低了网络的复杂度,但整个过程是全监督学习,而全监督网络要求训练人脸到素描风格迁移模型有较大的成对数据集,准备成对数据集既困难又昂贵,同时具有时间和空间的局限性;G u l r a j a n i 等[10]提出了I m p r o v e d G A N ,对G A N 进行了结构更改和训练,主要集中于半监督学习和更好的图像生成,训练结构稳定的G A N [11];I s o l a 等[12]提出了 P i x 2p i x 网络模型,风格迁移效果显著,但要求图片必须成对;在此基础上,Z h u 等[13]提出了循环生成对抗网络(c y c l e -g e n e r a t i v e a d v e r s a r i a l n e t w o r k s ,C y c l e G A N ),在该网络中提出基于对称G A N 模型,其在损失函数中加入周期一致性损失,使输入图像在不配对的情况下生成不同风格的图像,完成无监督学习的高质量风格传递任务.本文使用循环生成对抗网络框架,将其应用于人脸素描合成,实验得到了更优质的素描图片.图1 C yc l e G A N 生成模型结构F i g .1 G e n e r a t i v em ode l s t r u c t u r e o fC yc l e G A N 1 循环生成对抗网络模型无监督学习循环生成对抗网络的整体模型如图1所示.由图1可见,总网络包括两个生成器网络G X 和G Y 及两个鉴别器网络D X 和D Y .其训练过程相当于生成器G 与鉴别器D 的相互博弈,生成器伪造的样本越来越逼真,鉴别器的鉴别技术越来越强,直到鉴别器D 分辨不出生成的素描图像是真实的人脸素描还是人脸图片风格迁移后的素描,该对抗过程达到平衡.在网络模型结构中,X ,Y 分别表示人脸和素描图像组成的数据集,C y c l e G A N 由X ңY 和Y ңX 的G A N 网络组成,D Y 鉴定区分来自素描域Y 的真实图像和人脸照片X 通过生成器G Y 合成的素描图像^Y ,同理D Y 的目标是区分来自人脸域X 的真实图像和素描图像Y 通过生成器G X 合成的人脸图像^X ;分别加入一个循环损失函数898 吉林大学学报(理学版) 第60卷(c y c l e -l o s s ),c y c l e -l o s s 采用循环一致性损失L 1;整个网络采用端到端的方法训练,学习人脸和素描图像之间的映射关系.本文定义两个相同的P a t c h G A N [12]作为鉴别器.鉴别器采用四组卷积层+正则化+L e a k y R e L U 激活函数形式和一组卷积层+谱归一化+L e a k y Re l u 激活函数形式,每个卷积层的卷积核大小均为4,步长为2,通道数依次为64,128,256,512,最后一层每个分割块通过S i g m o i d 输出为真的概率,然后用B C E 损失函数计算得到最终的损失[12].P a t c h G A N 对于图像风格迁移后的图片保持高细节的清晰化.鉴别器网络结构如2所示.图2 鉴别器网络结构F i g.2 D i s c r i m i n a t o r n e t w o r k s t r u c t u r e 2 预备知识2.1 U -N e t 模块循环生成对抗网络的生成器采用卷积神经网络学习图像特征,本文受文献[14]的启发,将U -N e t 结构应用于生成器中.U -N e t 结构本质上是一个编码器-解码器网络,在完全对称的编码器和解码之间进行常规的跳跃连接,以结合图像高级和低级语义[15].本文以V G G 16模块组成U -N e t 的结构作为生成器主框架,X (i ,m )表示位于U -N e t 网络层不同位置的V G G 16模块,其中i 表示模块位于第i 行,m 表示模块位于第m 列,其结构如图3所示.图3 U -N e t 结构模型F i g.3 S t r u c t u r a lm o d e l o fU -N e t 2.2 空洞卷积常见的图像分割算法通常使用池化层和卷积层增加感受野,特征图缩小再放大的过程会导致精度损失,因此本文引入空洞卷积(d i l a t e dc o n v o l u t i o n )[16],可在增加感受野的同时保持特征图的尺寸不变,如图4(A )所示.图4是标准的3ˑ3卷积(扩张率为1),该卷积的感受野是卷积核覆盖3ˑ3区域.当扩张率为2时,感受野R F n 可利用R F n =R F n -1+(i -1)ˑd(1)计算,其中R F n -1表示上一层的感受野,i 表示卷积核大小,d 表示步长.图像特征提取过程中,在保证特征图一定分辨率的前提下,获得较大的图像特征感受野.由图4(B )可见,此时的卷积核大小为2ˑ(3-1)+1=5,与图4(A )叠加得到图4(C )的感受野相当于7ˑ7网格所覆盖的区域.2.3 自注意力模块由于目前的网络结构在图像特征提取过程中存在均匀分布的特点,而卷积运算将图片进行局部分998 第4期 葛延良,等:基于循环生成对抗网络的人脸素描合成割,在进行深层特征提取与迁移时,局部与整体会有差异.本文受文献[17]工作的启发,通过自注意力机制建立像素之间的关联,提高对图像高频信息和图像风格保持的能力.本文引用通道自注意力模块(c h a n n e ls e l f -a t t e n t i o n m o d u l e ,C S AM )和空间自注意力模块(s p a t i a ls e l f -a t t e n t i o n m o d u l e ,S S AM ).C S AM 结构如图5所示.S S AM 通过每个位置特征的加权总和,选择性地聚集每个位置的特征,其结构如图6所示.图4 空洞卷积感受野示意图F i g .4 S c h e m a t i c d i a g r a mo f d i l a t e d c o n v o l u t i o n r e c e pt i v e f i e ld 图5 通道自注意力模块的结构F i g .5 S t r u c t u r e o f c h a n n e l s e l f -a t t e n t i o nm o d u le 图6 空间自注意力模块的结构F i g .6 S t r u c t u r e of s pa t i a l s e l f -a t t e n t i o nm o d u l e 3 改进的生成网络模型3.1 多尺度特征聚合模块本文设计多尺度特征聚合模块(M F F B ),结构如图7所示.将图像特征并行输入通过3个3ˑ3的图7 多尺度特征聚合模块F i g .7 M u l t i -s c a l e f e a t u r e f u s i o nb l o c k 空洞卷积[16],分别以2,4,8的采样率并行采样,同时将输入与一个全局平均池化(G A P )相乘,将得到的4个不同尺度的特征在通道维度上叠加到一起,最后再通过1ˑ1的卷积进行特征融合和通道数恢复.3.2 上采样和下采样模块本文上采样模块和下采样模块设计采用相同的结构,如图8所示.分别在下采样保持最大池化提取特征和反卷积上采样的同时,与一个3ˑ3的卷积层进行并联,并在通道维度上进行特征叠加,最后通过R e l u 激活函数达到快速收敛,使采样过程增加对图像细节特征信息的获取.3.3 像素自注意力模块本文建模像素自注意力模块(p i x e l s e l f -a t t e n t i o n m o d u l e ,P S AM )通过自注意力机制建立像素之间的关联,以提高对图像高频信息和图像风格保持的能力,如图9所示.输入的图像特征表示为3维009 吉林大学学报(理学版) 第60卷图8 上采样和下采样模块F i g .8 U p s a m p l i n g m o d u l e a n dd o w n s a m p l i n g mo d u l e C ˑH ˑW ,其中C 表示通道维度,H ˑW 表示位置维度.对于输入特征为C ˑH ˑW 的特征A ,先在空间维度上进行压缩,A 通过重塑后特征图与A重塑和转置的特征图进行矩阵相乘后通过S o f t m a x 函数得到像素大小为C ˑC 通道注意图G ;同理使转置后的G 与转置后的A 进行矩阵乘法,并乘以尺度系数β,再次转置后与A 逐元素相加得到特征图M ,β初始化为0,并逐渐学习分配更多的权重.得到特征图M 后在通道维度上进行压缩,首先,分别通过3个卷积层得到分割后的特征图B ,C ,D ,然后分别重塑成C ˑN ,N =H ˑW 表示像素的大小;其次,特征图B 通过转置后与重塑后的C 进行矩阵相乘后,通过S o f t m a x 函数得到像素大小为图9 像素自注意力模块F i g.9 P i x e l s e l f -a t t e n t i o nm o d u l e N ˑN 的空间注意图E ;同理使转置后的E 与转置后的D 进行矩阵乘法,并乘以尺度系数α,再次转置后与M 逐元素相加得到特征图F ,α初始化为0,并逐渐学习分配更多的权重.通过C S AM 与S S AM 进行级联组成像素自注意力模块,不仅捕捉了任意两个通道特征图之间的通道依赖关系,还挖掘了任意两个位置之间的空间依赖性,通过训练网络自主学习两个位置之间的特征相似性权重.3.4 生成器网络结构本文在C yc l e G A N 生成器网络基础上进行改进,结构如图10所示.首先,用V G G 16模块组成U -N e t 网络代替生成器中的全卷积神经网络,模型中使用改进后的上采样和下采样模块,使网络下采样采用最大池化和上采样反卷积时,能减少图像特征的损耗;其次,在编码器与解码器进行常规跳跃连接过程中添加M F F B ,可在保持一定图像特征分辨率的情况下,具有较大的感受野,多尺度的捕捉上下文信息,使得U -N e t 结构的每个解码器层都融合了来自编码器中的小尺度和同尺度的特征图,减少图像细节信息的损失,M F F B 不仅改善了网络对图像边界细节信息的提取,并且可从图像特征中提取有用信息;再次,在解码器端进行多尺度密集跳跃连接,通过解码器端的X (1,5)与X (3,3),X (4,2),X (5,1)模块进行密集跳跃连接;同理X (2,4)与X (4,2),X (5,1)及X (3,3)与X (5,1)模块都采用密集跳跃连接的方式,使得U -N e t 结构内部形成多尺度的密集跳跃连接,对图像的不同尺度特征信息进行多次的复用和提取,以提高网络浅层特征利用率及深度特征的兼容性,从而成功地捕捉图像的几何特征和细节纹理信息,使U -N e t 结构的每个解码器层都融合了来自编码器中的小尺度和同尺度的特征图;最后,图像信息的提取集中在第五层的X (5,1)模块,此时通道数最多,使X (5,1)和X (1,5)模块进行级联操作,在该过程中建模P S AM ,实现方法是通过网络训练,P S AM 自动学习使不同的图像特征获得与之匹配的权重,从而完成对原始特征的重新标定,实现多层次交叉模态特征融合,并降低了低质量图像特征的冗余和噪声.3.5 训练过程C y c l e G A N 学习从X ңY 的映射,如果映射关系设为G ,则学习到的图像即为G X ,然后用鉴别器判断是否是真实图像,从而形成生成对抗网络.其损失函数为L G A N (G X ,D Y )=E Y [l o g D Y (y )]+E X [l o g (1-D Y (G X (x )))],(2)其中G X 计划生成与目标域中的图像完全无法区分的假图像G X (x ),而D Y 试图区分真假图像.对于映109 第4期 葛延良,等:基于循环生成对抗网络的人脸素描合成209吉林大学学报(理学版)第60卷射函数G Y:YңX和鉴别器D X,本文定义一个类似的对抗性损失L G A N(G Y,D X).图10生成器合成过程网络结构F i g.10N e t w o r k s t r u c t u r e o f g e n e r a t o r s y n t h e s i s p r o c e s s基于C y c l e G A N中两个G A N的对称性,所有X都可由G映射到Y空间的图像上,反之亦然.所以为避免损失无效,本文不能直接使用该损失进行训练.因此重新定义一种损失函数,其假设生成的图像可以被合成回原域.对于X域的图像,本文训练的目的是XңG X(x)ңG Y(G X(x))ʈX;对于Y 域的图像,本文训练的目的是YңG Y(y)ңG X(G Y(y))ʈY.C y c l e G A N模型的关键是使用循环一致性损失的监督,其损失函数表示为L c y c(G X,G Y)=E X[G Y(G X(x))-x1]+E Y[G X(G Y(y))-y1].(3) C y c l e G A N结构还加入了本体映射损失(i d e n t i t y l o s s).C y c l e G A N使用I d e n t i t y l o s s的目的是在迁移过程中保持原色调,约束生成器更接近真映射,本文引入的损失函数表示为L i l(G X,G Y)=E X[G X(x)-x1]+E Y[G Y(y)-y1].(4)从而在整个C y c l e G A N网络中的总目标损失函数表示为L(G X,G Y,D X,D Y)=L G A N X+L G A N Y+λc y c L c y c+λi l L i l,(5)其中λc y c和λi l是控制循环损失和本体映射损失的参数.4实验为验证本文人脸素描合成网络框架的性能,本文在包含人脸手绘素描和人脸照片的数据集C U F S[18]和C U F S F[19]上进行训练.数据集C U F S包含606对彩色人脸照片,用于研究人脸草图合成和人脸素描识别,其包括来自香港中文大学(C UH K)学生数据库的188对面孔,其中88对用于训练, 100对用于测试;来自A R数据库的123对面孔,60对用于训练,63对用于测试;来自X M2V T S数据库中的295对人脸面孔,其中150对用于训练,145对用于测试.数据集C U F S F分别包括1194对黑白人脸照片和素描,其中挑选400对用于训练,694对用于测试,因为草图更抽象化及与原始照片没有很好的对齐,增加了实验的复杂性.实验环境为U b u n t u操作系统计算机,N V I D I A1080T i显卡, P y t o r c h1.9环境下运行.4.1参数设置由于受实验设备条件限制,在实验过程中训练集的人脸图像被裁剪成256ˑ256大小,b a t c h_s i z e 为5,实验迭代次数为200次,生成器和鉴别器使用A d a m算法进行优化,优化学习率为0.0002,为减少网络的震荡,存储几张生成图像作为缓冲更新鉴别器.4.2实验结果与分析为验证本文实验对人脸素描合成的有效性,在相同的硬件环境下,本文对比了F C N算法[20]㊁MW F 算法[21]㊁C y c l e G A N 算法[13]㊁C A -G A N 算法[22]和本文算法分别在数据集C U F S 和C U F S F 上生成的人脸素描图像.在客观评价指标上,采用的图像质量评估指标分别为:结构相似指数(s t r u c t u r a l s i m i l a r i t y i n d e x m e a s u r e ,S S I M )[23],其从亮度㊁对比度和结构相似三方面衡量待评图像的质量;特征相似度测量(f e a t u r e s i m i l a r i t y i n d e xm e a s u r e ,F S I M ),其是在S S I M 上的延伸,F S I M 算法[23]能根据一张图片中不同像素所占的百分数不同而给予合适的权重指数,与肉眼的视觉感知一致性较高,聚焦合成素描图像的低层次特征与手绘图像的区别;结构共现纹理的测试(S c o o tM e a s u r e )[24],其针对类视觉系统具有快速评估两张面部素描之间感知相似性的能力,空间结构和共线纹理是面部素描合成中两个普遍适用的感知特征,结构共线纹理测试同时考虑空间结构和共线纹理,指标数值越大,说明与手绘素描图相似度越高,重构的人脸素描与手绘素描之间的差异越小,效果越好.不同网络架构在数据集C U F S 和C U F S F 上生成的素描图像进行测评的结果分别列于表1和表2.表1 不同网络架构在数据集C U F S 上素描图像评估结果对比T a b l e 1 C o m p a r i s o no f s k e t c h e v a l u a t i o n r e s u l t s o f d i f f e r e n t n e t w o r ka r c h i t e c t u r e s o nC U F Sd a t a s e t 评估指标F C N 算法MW F 算法C y c l e G A N 算法C A -G A N 算法本文算法S S I M 0.56970.57410.58340.64310.6543F S I M 0.68420.68680.68420.75980.7623S c o o tM e a s u r e0.47110.48210.52410.58320.5925表2 不同网络架构在数据集C U F S F 上素描图像评估结果对比T a b l e 2 C o m p a r i s o no f s k e t c h e v a l u a t i o n r e s u l t s o f d i f f e r e n t n e t w o r ka r c h i t e c t u r e s o nC U F S Fd a t a s e t 评估指标F C N 算法MW F 算法C y c l e G A N 算法C A -G A N 算法本文算法S S I M 0.53210.56120.56630.67320.6836F S I M 0.66240.66740.67930.74210.7583S c o o tM e a s u r e 0.47320.48980.50120.54760.5732由表1可见,本文算法相比于F C N ,MW F ,C y c l e G A N ,C A -G A N 算法训练得到的人脸素描图像,其各项指标均有提高.本文算法与效果相对较好的C A -G A N 网络训练得到的人脸素描图像相比,其S S I M 和F S I M 值分别提高0.0112和0.0025,S c o o tM e a s u r e 提高0.0093.由表2可见,本文算法与效果相对较好的C A -G A N 网络训练得到的素描图像相比,其S S I M 和F S I M 值分别提高0.0104和0.0162,S c o o tM e a s u r e 提高0.0256.实验结果证明了本文算法在人脸素描图像合成方面的有效性.下面从主观视觉上对比实验结果.各算法在数据集C U F S 和C U F S F 上测试生成的人脸素描图片如图11所示.由图11可见,不同算法的重建素描效果图在主观视觉上,MW F 和F C N 算法重建的图像主观上能辨析人脸,但其纹理模糊;C y c l e G A N 算法重建的图像线条更丰富,但边缘较模糊;C A G A N 算法重建的素描图像面部表情稍微失真,但整体轮廓更清晰;本文算法重建的人脸素描图像能恢复出更好的轮廓边缘信息,且线条含有更多的细节信息,发丝和五官轮廓更清晰,呈现出笔绘的线条感.实验结果表明,本文算法基于人脸照片重建的素描图像取得了最好的素描风格重现,感官视觉和客观指标上均优于对比算法.综上所述,针对在人脸素描图像合成过程中存在人脸边缘和细节纹理模糊㊁面部表情失真等问题,本文结合C y c l e G A N 算法的优点,提出了一种多尺度自注意机制的循环生成对抗网络用于人脸素描图像合成.该网络通过建模P S AM ,使网络在对图像特征进行提取时,网络自动学习图像特征信息的权重,通过学习不同特征通道之间的重要关系提升网络性能,使素描风格迁移获得更好的表达;该网络采用U -N e t 结构的生成器,并改进内部连接方式和采样结构,在获得较大感受野的情况下提取多尺度的特征信息,利用空洞卷积设计M F F B .将该网络与其他经典算法进行实验对比的结果表明,本文算法不仅主观上重建了较好的视觉效果,进一步纠正了网络生成的人脸素描图像在细节纹理㊁几何特征和边缘特征方面的表现能力;在客观评价指标上,本文取得的较高的F S I M 和S c o o tM e a s u r e 值,也证明了本文算法在人脸素描图像合成方面的有效性.309 第4期 葛延良,等:基于循环生成对抗网络的人脸素描合成图11 在数据集C U F S 和C U F S F 上各算法的视觉对比结果F i g .11 V i s u a l c o m p a r i s o n r e s u l t s o f e a c ha l go r i t h mo nC U F Sd a t a s e t a n dC U F S Fd a t a s e t 参考文献[1] 王楠楠.异质人脸图像合成及其应用研究[D ].西安:西安电子科技大学,2015.(WA N G N N.H e t e r o ge n e o u s F a c e I m a g eS y n t h e s i s a n d I t sA p p l i c a t i o n [D ].X i a n :X i d i a nU n i v e r s i t y ,2015.)[2] 徐润昊,程吉祥,李志丹,等.基于循环生成对抗网络的含遮挡人脸识别[J ].计算机工程,2022,48(5):289-296.(X U R H ,C H E N G J X ,L IZ D ,e ta l .M a s k e d F a c e R e c o g n i t i o n B a s e do n C y c l i c G e n e r a t i o nof A d v e r s a r i a lN e t w o r k [J ].C o m p u t e rE ng i n e e r i n g ,2022,48(5):289-296.)[3] 姚赛赛.素描人脸合成与识别研究[D ].济南:山东大学,2018.(Y A OSS .R e s e a r c ho nS k e t c hF a c eS yn t h e s i s a n dR e c o g n i t i o n [D ].J i n a n :S h a n d o n g U n i v e r s i t y,2018.)[4] 彭春蕾.基于概率图模型的异质人脸图像合成与识别[D ].西安:西安电子科技大学,2017.(P E N G C L .H e t e r o g e n e o u sF a c e I m a g eS y n t h e s i sa n d R e c o g n i t i o nB a s e do nP r o b a b i l i s t i cG r a p h M o d e l [D ].X i a n :X i d i a n U n i v e r s i t y ,2017.)[5] 梁正友,刘德志,孙宇.结合迁移学习与可分离三维卷积的微表情识别方法[J ].计算机工程,2022,48(1):228-235.(L I A N GZY ,L I U DZ ,S U N Y.M i c r o e m o t i cR e c o g n i t i o n M e t h o dC o m b i n i n g T r a n s f e rL e a r n i n g a n d S e p a r a b l eT h r e e -D i m e n s i o n a l C o n v o l u t i o n [J ].C o m p u t e rE n g i n e e r i n g ,2022,48(1):228-235.)[6] 申铉京,张雪峰,王玉.像素级卷积神经网络多聚焦图像融合算法[J /O L ].吉林大学学报(工学版),(2022-02-24)[2022-07-20].d o i :10.13229/j .c n k i .j d x b g x b 20211096.(S H E N XJ ,Z HA N G X F ,WA N G Y.P i x e l -L e v e l C o n v o l u t i o n a l N e u r a l N e t w o r kM u l t i f o c u s I m a g e F u s i o nA l g o r i t h m [J /O L ].J o u r n a l o f J i l i nU n i v e r s i t y (E n g i n e e r i n g S c i e n c eE d i t i o n ),(2022-02-24)[2022-07-20].d o i :10.13229/j .c n k i .j d x b g x b 20211096.[7] WO OS ,P A R K J ,L E EJ Y ,e ta l .C b a m :C o n v o l u t i o n a lB l o c k A t t e n t i o n M o d u l e [C ]//P r o c e e d i n gso ft h e E u r o p e a nC o n f e r e n c e o nC o m p u t e rV i s i o n (E C C V ).B e r l i n :S p r i n g e r ,2018:3-19.[8] G O O D F E L L OWI J ,P O U G E T -A B A D I EJ ,M I R Z A M ,e t a l .G e n e r a t i v eA d v e r s a r i a lN e t s [C ]//P r o c e e d i n gs o f t h e27t h I n t e r n a t i o n a l C o n f e r e n c e o n N e u r a lI n f o r m a t i o n P r o c e s s i n g S ys t e m s .N e w Y o r k :A C M ,2014:2672-2680.[9] 朱海琦,李宏,李定文,等.基于生成对抗网络的单图像超分辨率重建[J ].吉林大学学报(理学版),2021,59(6):1491-1498.(Z HU H Q ,L IH ,L ID W ,e t a l .S i n g l e I m a g eS u p e r -R e s o l u t i o nR e c o n s t r u c t i o nB a s e do n 409 吉林大学学报(理学版) 第60卷G e n e r a t e dC o u n t e r m e a s u r eN e t w o r k [J ].J o u r n a l o f J i l i nU n i v e r s i t y (S c i e n c eE d i t i o n ),2021,59(6):1491-1498.)[10] G U L R A J A N I I ,A HM E D F ,A R J O V S K Y M ,e ta l .I m p r o v e d T r a i n i n g of W a s s e r s t e i n G a n s [E B /O L ].(2017-12-25)[2021-03-20].h t t p s ://a r x i v .o rg /a b s /1704.00028.[11] S A L I MA N S T ,G O O D F E L L OW I ,Z A R E M B A W ,e ta l .I m p r o v e d T e ch ni q u e sf o r T r a i n i n g Ga n s [C ]//P r o c e e d i n g s o f t h e 30t hI n t e r n a t i o n a lC o n f e r e n c eo nN e u r a l I n f o r m a t i o nP r o c e s s i n g S ys t e m s .N e w Y o r k :A C M ,2016:2234-2242.[12] I S O L AP ,Z HUJY ,Z HO U T ,e t a l .I m a g e -t o -I m a g eT r a n s l a t i o nw i t hC o n d i t i o n a lA d v e r s a r i a lN e t w o r k s [C ]//P r o c e e d i n g s o f t h e I E E EC o n f e r e n c e o nC o m p u t e rV i s i o n a n dP a t t e r nR e c o g n i t i o n .P i s c a t a w a y,N J :I E E E ,2017:1125-1134.[13] Z HUJY ,P A R K T ,I S O L AP ,e t a l .U n p a i r e d I m a g e -t o -I m a g eT r a n s l a t i o nU s i n g C y c l e -C o n s i s t e n tA d v e r s a r i a l N e t w o r k s [C ]//P r o c e e d i n g s o f t h e I E E EI n t e r n a t i o n a lC o n f e r e n c eo nC o m p u t e rV i s i o n .P i s c a t a w a y,N J :I E E E ,2017:2223-2232.[14] R O N N E B E R G E R O ,F I S C H E R P ,B R O X T.U -N e t :C o n v o l u t i o n a l N e t w o r k s f o r B i o m e d i c a l I m a ge S e g m e n t a t i o n [C ]//I n t e r n a t i o n a lC o nf e r e n c eo n M e d i c a l I m ag eC o m p u t i n g a n dC o m p u t e r -A s s i s t e dI n t e r v e n t i o n .B e r l i n :S p r i n g e r ,2015:234-241.[15] S I MO N Y A N K ,Z I S S E R MA N A.V e r y D e e pC o n v o l u t i o n a l N e t w o r k sf o r L a r g e -S c a l e I m a g e R e c o g n i t i o n [E B /O L ].(2015-04-10)[2021-02-01].h t t p s ://a r x i v .o r g /a b s /1409.1556v 4.[16] Y U F ,K O L T U N V.M u l t i -s c a l e C o n t e x t A g g r e g a t i o n b y D i l a t e d C o n v o l u t i o n s [E B /O L ].(2016-04-30)[2021-03-01].h t t p s ://a r x i v .o r g /a b s /1511.07122v 1.[17] F UJ ,L I UJ ,T I A N HJ ,e t a l .D u a lA t t e n t i o nN e t w o r k f o r S c e n e S e g m e n t a t i o n [C ]//P r o c e e d i n gs o f t h e I E E E /C V FC o n f e r e n c e o nC o m p u t e rV i s i o na n dP a t t e r nR e c o g n i t i o n .P i s c a t a w a y ,N J :I E E E ,2019:3146-3154.[18] WA N G X G ,T A N G X O.F a c eP h o t o -S k e t c hS y n t h e s i sa n d R e c o g n i t i o n [J ].I E E E T r a n s a c t i o n so nP a t t e r n A n a l y s i s a n d M a c h i n e I n t e l l i g e n c e ,2008,31(11):1955-1967.[19] Z HA N G W ,WA N G X G ,T A N G X O.C o u p l e d I n f o r m a t i o n -T h e o r e t i c E n c o d i n g f o r F a c e P h o t o -S k e t c h R e c o g n i t i o n [C ]//C V P R2011.P i s c a t a w a y ,N J :I E E E ,2011:513-520.[20] Z HA N GLL ,L I NL ,WU X ,e t a l .E n d -t o -E n dP h o t o -S k e t c hG e n e r a t i o nv i aF u l l y C o n v o l u t i o n a l R e p r e s e n t a t i o n L e a r n i n g [C ]//P r o c e e d i n gso f t h e5t h A C M o nI n t e r n a t i o n a lC o n f e r e n c eo n M u l t i m e d i aR e t r i e v a l .N e w Y o r k :A C M ,2015:627-634.[21] Z HO U H ,K U A N G Z ,WO N G K Y K.M a r k o v W e i g h tF i e l d sf o rF a c eS k e t c h S yn t h e s i s [C ]//2012I E E E C o n f e r e n c e o nC o m p u t e rV i s i o na n dP a t t e r nR e c o g n i t i o n .P i s a t a w a y ,N J :I E E E ,2012:1091-1097.[22] Y UJ ,X U XX ,G A OF ,e t a l .T o w a r dR e a l i s t i cF a c eP h o t o -S k e t c hS y n t h e s i s v i aC o m p o s i t i o n -A i d e dG A N s [J ].I E E ET r a n s a c t i o n s o nC y b e r n e t i c s ,2020,51(9):4350-4362.[23] S A R A U ,A K T E R M ,U D D I N M S .I m a g e Q u a l i t y A s s e s s m e n t t h r o u ghF S I M ,S S I M ,M S Ea n dP S N R :A C o m p a r a t i v eS t u d y [J ].J o u r n a l o fC o m p u t e r a n dC o mm u n i c a t i o n s ,2019,7(3):8-18.[24] F A N DP ,Z HA N GSC ,WU Y H ,e t a l .S c o o t :A P e r c e p t u a lM e t r i c f o rF a c i a l S k e t c h e s [C ]//P r o c e e d i n g so f t h e I E E E /C V FI n t e r n a t i o n a l C o n f e r e n c e o nC o m p u t e rV i s i o n .P i s c a t a w a y ,N J :I E E E ,2019:5612-5622.(责任编辑:韩 啸)509 第4期 葛延良,等:基于循环生成对抗网络的人脸素描合成。
专利名称:一种基于辅助变量的对抗生成网络的彩色图像灰度化方法
专利类型:发明专利
发明人:刘且根,李婧源,周瑾洁,何卓楠,李嘉晨,全聪,谢文军,王玉皞
申请号:CN201910529133.0
申请日:20190618
公开号:CN110428473A
公开日:
20191108
专利内容由知识产权出版社提供
摘要:本发明提供了一种基于辅助变量的对抗生成网络的彩色图像灰度化方法,包括以下步骤:步骤A:检验输入图像是否为彩色图像,若为彩色图像则使用梯度相关相似度灰度化(GcsDecolor)算法对其进行灰度化处理,并将灰度化后图像进行复制,得到三份灰度化图像作为对抗生成网络的对比图像;步骤B:设计基于辅助变量的对抗生成网络(AV‑GAN),训练AV‑GAN网络;步骤C:将彩色图像通过已训练完成的AV‑GAN网络进行测试,得到最终的灰度化图像。
本发明使彩色图像灰度化计算效率较高,并可保存彩色图像的显著特征,使灰度化图像可保留颜色排序,更好地反映了彩色和灰度图像之间的结构相似性。
申请人:南昌大学
地址:330000 江西省南昌市红谷滩新区学府大道999号
国籍:CN
代理机构:北京众合诚成知识产权代理有限公司
代理人:许莹莹
更多信息请下载全文后查看。
第41卷 第1期吉林大学学报(信息科学版)Vol.41 No.12023年1月Journal of Jilin University (Information Science Edition)Jan.2023文章编号:1671⁃5896(2023)01⁃0076⁃08基于循环生成对抗网络的人脸素描合成网络设计收稿日期:2021⁃03⁃11基金项目:黑龙江省自然科学基金资助项目(LH2020F005)作者简介:葛延良(1979 ),男,黑龙江大庆人,东北石油大学副教授,主要从事图像处理㊁计算机视觉㊁无线通信研究,(Tel)86⁃158****3399(E⁃mail)geyanliang@;通讯作者:孙笑笑(1993 ),女,河南商丘人,东北石油大学硕士研究生,主要从事生成对抗网络㊁人脸素描融合研究,(Tel)86⁃159****1939(E⁃mail)3076266954@㊂葛延良,孙笑笑,王冬梅,王肖肖,谭 爽(东北石油大学电气信息工程学院,黑龙江大庆163318)摘要:针对目前人脸到素描合成存在生成的素描图轮廓模糊㊁细节纹理缺失等问题,提出一种采用循环生成对抗网络(CycleGAN:Cycle⁃Generative Adversarial Networks)解决方案㊂构建多尺度CycleGAN,生成器采用深度监督的U⁃Net++结构为基础,在其解码器端进行下采样密集跳跃连接;在其生成器的编码器端设计通道注意力和和空间注意力机制形成特征增强模块;最后在生成器中增加像素注意力模块㊂实验结果表明,与现有经典算法相比,从主观视觉评测和利用现有的4种图像质量评价算法进行质量评估,该方法较好地合成了素描图像的几何边缘和面部细节信息,提高了素描图像的质量㊂关键词:深度学习;多尺度CycleGAN;卷积神经网络;特征增强模块;像素注意力模块中图分类号:TP391.41;TP183文献标志码:ADesign of Face Sketch Synthesis Based on Cycle⁃Generative Adversarial NetworksGE Yanliang,SUN Xiaoxiao,WANG Dongmei,WANG Xiaoxiao,TAN Shuang(School of Electrical and Information Engineering,Northeast Petroleum University,Daqing 163318,China)Abstract :At present,Face sketch synthesis has a series of problems,such as generateing fuzzy outline,lacking of detail texture and so on.Therefore,using CycleGAN(Cycle⁃Generative Adversarial Networks)as a solution to build multi⁃scale cyclegan is proposed.Method innovation is mainly reflected in:The generator adopts the deep supervised U⁃net++structure as the basis,and performs down sampling dense jump connection at its decoder;The encoder end of the generator designs the channel attention and spatial attention mechanism to form a feature enhancement module;a pixel attention module is added to the pared with some existing classical algorithms,from the subjective visual evaluation and using the existing four image quality evaluation algorithms for quality evaluation,the experimental results show that this algorithm can better synthesize the geometric edge and facial detail information of sketch image,and improve the quality of sketchimage.Key words :deep learning;multi⁃scale cycle⁃generative adversarial networks (CycleGAN);convolutional neuralnetworks(CNN);feature enhancement module;pixel attention module 0 引 言近年来,作为图像风格迁移的一个分支[1],人脸素描合成(FSS:Face Sketch Synthesis)得到广泛关注㊂人脸素描合成是指将人脸转化为相对应的素描图像,其在生活,数字娱乐,漫画制作[2]及电影制作等多个行业中应用广泛㊂2014年,Goodfellow 等[3]首次提出生成对抗网络(GAN:Generative Adversarial Network),其能提高生成图像的清晰度;特别是2017年Gulrajani 等[4]提出ImprovedGAN,对GAN 网络进行结构更改和训练,主要集中于半监督学习和更好的图像生成㊂Isola 等[5]提出 Pix2pix”网络模型,其要求图片必须成对;Zhu 等[6]提出CycleGAN,使输入图像在不配对的情况下生成不同风格的图像,完成高质量的风格传递任务㊂利用生成对抗网络进行人脸素描合成的研究已成为计算机视觉研究的热点[7]㊂笔者使用CycleGAN 网络框架应用于人脸素描合成,实验得到更加优质的素描图片㊂首先,以CycleGAN 网络架构为基础网络,构建一个多尺度特征合成的CycleGAN 实现人脸素描合成,基于U⁃Net++结构优势,使用VGG16模块[8]对U⁃Net++网络[9]结构进行改进,生成器的解码器端利用图像高级特征指导低级特征的特点,在解码器端的每层增加密集跳跃连接,增强对特征图像的提取能力,能生成高质量的图像㊂其次,在生成器中解码器端下采样的过程中添加通道注意力和空间注意力机制组成的特征增强模块(FEM:Feature Enhancement Module)㊂最后,为使生成器能合理的分摊图片低频信息和高频信息的像素权重,在生成器的框架中加入像素注意力模块㊂在CFUS 和CFUSF 数据集上的实验结果表明,与现有的一些经典方法对比,笔者的研究结果在主观视觉上,使素描图像的细节和表情纹理表现更加突出,图像边界更加清晰;在4种客观评价指标上,笔者方法在人脸素描合成上取得最好的效果㊂1 相关工作1.1 循环生成对抗网络2017年,Zhu 等[6]首次提出CycleGAN,其整体模型如图1a 所示,总网络包括两个生成器网络G X 和G Y ,以及两个鉴别器网络D X 和D Y ㊂其训练过程相当于生成器G 与鉴别器D 的相互博弈,生成器伪造的样本越来越逼真,鉴别器的鉴别技术越来越强,直到鉴别器D 分辨不出生成的素描图是真实的人脸素描还是人脸图片风格迁移后的素描,对抗过程达到平衡㊂在网络模型结构中,笔者定义两个相同的PatchGAN 结构[5]的鉴别器,结构如图1b 所示㊂鉴别器采用1组卷积层+正则化+Leaky ReLU 激活函数形式和5组卷积层+谱归一化+Leaky Relu 激活函数形式㊂X ㊁Y 分别表示人脸和素描图像组成的数据集㊂图1 循环生成对抗网络模型Fig.1 Model of cycle⁃generative adversarial networks 1.2 注意力模块由于目前的网络结构在图像特征的提取过程中存在均匀分布的特点,因此Xu 等[10]提出通道注意力模块,提高了网络对有意义的特征信息的选择能力㊂其原理是采用池化操作,进行高频特征提取,从而提高网络对有用信息的关注㊂通道注意力和空间注意力结构如图2a 和图2b 所示㊂77第1期葛延良,等:基于循环生成对抗网络的人脸素描合成网络设计图2 注意力模块Fig.2 Attention block structure 1.3 像素注意力机制人脸照片的高频信息和低频信息的分布是不均匀的,使网络能合理分摊图像特征低频信息和高频信息的像素权重,朱海琦等[11]采用一种像素注意力机制更加关注高频信息,结构如图3所示㊂图3 像素注意力机制模块Fig.3 Pixel attention mechanism block 2 改进后的生成器网络结构2.1 特征增强模块在生成器中设计由一个通道注意力和一个空间注意力级联组成的特征增强模块,以融合多层次交叉模态特征[12],以增强网络对图像特征的兼容性,提高图像高频信息的提取㊂其结构如图4所示㊂图4 特征增强模块Fig.4 Feature enhancement module 在网络中输入和输出的通道数不会发生改变,特征图通过通道注意力进行全局平均和全局最大池化学习对各通道的依赖程度,随后在把空间域的信息做对应的空间变换,增加特征信息的多样性的同时也提高了对高频图像特征信息的提取㊂具体做法如下,以F 表示输入的特征图,首先将特征图在空间维度上进行压缩,通过利用平均池化和最大池化实现特征提取上的相互补充,通过两个池化函数后可得到两个一维矢量㊂然后再通过全87吉林大学学报(信息科学版)第41卷局平均池化以特征图为单位进行特征均值提取,使网络对特征图的每个像素点都有反馈㊂而全局最大池化也为全局平均池化的一个补充,弥补了在进行梯度反向传播计算时,只有特征图中响应最大的地方才有梯度反馈的特性㊂F c avg 和F c max 分别代表经过全局最大池化和全局平均池化计算后的特征图,R 0和R 1代表多层感知模型中的两层参数层,感知模型中R 0和R 1之间特征需要使用ReLU 作为激活函数进行非线性网络加深,σ表示激活函数,通过通道注意力后得到的权重特征图M C (F )公式如下:M C (F )=σ(R 1(R 0(F c avg ))+R 1(R 0(F c avg )))㊂(1) 特征图在通道上形成注意模型,为使输入的特征图在空间层面上的部分得到更高的权重倾斜,所以在通道层面上通过使用平均池化和最大池化对输入特征图进行压缩操作,对输入特征F c 分别在通道维度上做平均和最大值采样操作,得到了两个二维的特征图,然后在通道维度叠加在一起得到一个通道数为2的特征图;最后为保证得到的特征图在空间维度上与输入的特征图一致,使用一个包含单个7×7卷积核的隐藏层对其进行卷积操作,如图3㊁图4下部分网络所示㊂这部分卷积层之间采用Sigmoid 激活函数,用μ表示,该特征图经过平均池化操作后定义为F s avg ∈R 1×H ×W ;经过最大池化操作后定义为F s max ∈R 1×H ×W ,F s max 通过空间注意力机制后权重特征图如下:M S (F )=μ(f 7×7([F s avg ;F s max ]))㊂(2)2.2 生成器设计笔者以VGG16模块[8]改进U⁃Net++的结构作为生成器,X (i ,m )表示位于U⁃Net++网络层不同位置的VGG16模块,其中i 表示模块位于第i 行,m 表示模块位于第m 列㊂首先对U⁃Net++结构网络层连接方式进行改进,网络结构解码器端利用高级特征指导低级特征的特点,在解码器端的每层增加密集跳跃连接,增强对特征图像的提取能力㊂实现方式如图5所示,解码器端的X (1,5)与X (3,3),X (4,2),X (5,1)模块进行密集跳跃连接;同理X (2,4)与X (4,2),X (5,1);X (3,3)与X (5,1)模块都采用密集跳跃连接的方式,使U⁃Net++结构的左右两端形成不对称的跳连方式,以对图像的特征信息进行多次复用和提取㊂图5 改进后生成器网络结构Fig.5 Improved generator network structure基于U⁃Net++的结构,为提高网络模型对高频信息的提取,在解码器端下采样的过程中X (4,1)到X (5,1)模块之间设计特征增强模块㊂实现方法是使用通道注意力和空间注意力级联融合多层次交叉模态特征,在特征输入的每个通道里采用全局平均池化和全局最大池化进行并联,以不同的权重值对通道里的特征进行特征提取,多尺度的进行特征提取㊂使用通过简单的卷积层[13]增强多层次深度特征和对比[14]改进深度图㊂并在通道维度上进行特征聚合,最后通过Sigmoid 函数激活;空间维度上采用最大池化和平均池化进行多尺度特征聚合㊂该方法的目的就是网络在保留多尺度信息的同时,有效提高网络多97第1期葛延良,等:基于循环生成对抗网络的人脸素描合成网络设计08吉林大学学报(信息科学版)第41卷模态特征兼容性㊂FEM不仅改善多模态图像特征的匹配性,并从图像特征中提取有用信息,还降低了低质量图像特征的冗余和噪声㊂图像信息的提取集中在第5层的X(5,1)模块,使X(5,1)和X(1,5)模块进行级联操作,在该过程中添加像素注意力模块,通过网络结构最后输出为X(1,5)模块,使生成器对像素低频信息和高频信息的像素权重的处理能合理的分摊,提高网络浅层特征利用率及深度特征的兼容性㊂2.3 损失函数CycleGAN学习从X到Y的映射,如果映射关系设置为G,则学习到的图像就是G X,然后使用鉴别器判断是否是真实图像,从而形成生成对抗网络㊂其损失函数如下:L GAN(G X,D Y)=E Y[log D Y(y)]+E X[log(1-D Y(G X(x)))],(3)其中G X计划生成与目标域中的图像完全无法区分的假图像G X(x),而D Y试图区分真假图像㊂对映射函数G Y:Y→X和鉴别器D X,笔者定义一个类似的对抗性损失:L GAN(G Y,D X)㊂基于CycleGAN网络中两个GAN网络的对称性,所有X都可以由G映射到Y空间的图像上,反之亦然㊂所以为不使损失无效,笔者不能直接使用这个损失进行训练㊂基于这种情况,定义一种损失函数,其假定生成的图像可被合成回原域㊂对X域的像,笔者训练目的X→G X(x)→G Y(G X(x))≈X;对Y域的像,笔者训练的目的是Y→G Y(y)→G X(G Y(y))≈Y㊂CycleGAN模型的关键是使用循环一致性损失的监督㊂其损失函数为L cyc(G X,G Y)=E x[G Y(G X(x))-x1]+E y[G X(G Y(y))-y1]㊂(4) CycleGAN网络结构还加入本体映射损失(Identity Loss)㊂CycleGAN使用Identity loss的目的是在迁移过程中保持原色调,约束生成器更加接近真映射,则有L il(G X,G Y)=E x[G X(x)-x1]+E y[G Y(y)-y1],(5)所以在整个CycleGAN网络中的总目标损失函数为L(G X,G Y,D X,D Y)=L GAN X+L GAN Y+λcyc L cyc+λil L il,(6)其中λcyc和λi l表示控制循环损失和本体映射损失的参数㊂3 实验与结果为验证笔者人脸素描合成框架性能,在CUFS[15]和CUFSF[16]数据集上进行训练㊂CUFS数据集中包含606对彩色人脸照片和素描,包括来自香港中文大学学生数据库的188张人脸,其中88张用于训练, 100张用于测试;来自AR数据库的123张人脸,60张用于训练,63张用于测试;还有XM2VTS数据库中的295张人脸,其中150对用于训练,145对用于测试㊂CUFSF数据集分别包括1194对黑白人脸照片和素描,其中挑选400对用于训练,694对用于测试,因为草图更加的抽象化和与原始照片没有很好的对齐增加了实验的挑战性㊂程序在pytorch1.9环境下运行,实验设备是一台Ubuntu操作系统计算机,一块NVIDIA1080Ti显卡㊂3.1 参数设置由于受实验设备条件限制,在实验过程中训练集的人脸图像被裁剪成256×256像素大小,batch_size 为5,整个实验迭代次数为200次,生成器和鉴别器使用Adam算法进行优化,优化学习率为0.0002㊂3.2 结果与分析为证明本实验对人脸素描合成的有效性,在相同的硬件环境配置下,笔者对比FCN(Fully Convolutional Networks for Semantic Segmentation)算法[17],LIE算法[18],MRF(Marcov Randon Field)算法[19],SSD(Single Shot MultiBox Detector)算法[19],GAN(Generative Adversarial Network)算法[3]以及CGAN(Conditional Generative Adversarial Network)算法[21]和笔者方法(Ours)在CUFS和CUFSF数据集上生成的人脸素描图像㊂在客观评价指标上,笔者采用的图像质量评估指标为VIF(Visual Information Fidelity)㊁FSIM(Feature Similarity Index Measure)㊁UIQI(Universal Image Quality Index)和Scoot Measure㊂分别为视觉信息保真度VIF [22],其主要适用于灰度图像,在本文中主要用于测试生成的素描图与剪裁后的艺术家绘画的素描图进行对比计算,以衡量待评图像的质量优劣㊂特征相似指数FSIM 是在结构相似指数上的延伸,FSIM 算法[23]能根据一张图片中不同的像素所占的比重不同而给予合适的权重指数㊂UIQI [24]是为各种图像处理应用而设计的,其存在的意义是可对不同类型的图像失真进行比较㊂笔者还使用结构共现纹理的测试(Scoot Measure),其针对类视觉系统具有很强的快速评估两张面部素描之间的感知相似性的能力㊂ 空间结构”和 共线纹理”是面部素描合成中两个普遍适用的感知特征,结构共线纹理测试同时考虑 空间结构”和 共线纹理”[25⁃26]㊂这些指标越接近1,说明与Target 相似度越高,重构的人脸素描与手绘素描之间的差异越小㊂对不同网络在CUFS 数据集和CUFSF 数据集生成的素描图像进行评估结果如表1㊁表2所示㊂表1 各网络架构在CUFS 数据集上素描图评估结果对比Tab.1 Comparison of sketch evaluation results of each network architecture on CUFS test setMethod FCN LLE MRF SSD GAN CGAN OursVIF 0.05990.06200.05370.06580.06450.06720.0696FSIM 0.64600.70410.70470.69380.71480.75820.7814UIQI 0.95980.95450.94850.96010.95870.97790.9850Scoot 0.45310.48010.51520.45000.48410.70740.7552表2 各网络架构在CUFSF 数据集上素描图评估结果对比Tab.2 Comparison of sketch evaluation results of each network architecture on CUFSF test set MethodFCN LLE MRF SSD GAN CGAN Ours VIF 0.06240.06410.05390.06620.06530.06710.0701FSIM0.63620.70180.70390.69540.71510.75910.7892UIQI 0.96220.95450.94860.95290.95870.97840.9886Scoot 0.45420.47690.51510.45470.48370.71760.7763 从表1中数据看出,笔者方法相较于FCN,LLE,MRF,SSD,以及GAN 和CGAN 训练得到的人脸素描图像,其各项指标均有提高㊂笔者方法和效果相对较好的CGAN 网络训练得到的人脸素描图像对比,其VIF 和FSIM 值分别提高0.0028和0.0232,UIQI 和Scoot Measure 分别提高0.0071和0.0478;从表2中数据看出,笔者方法和效果相对较好的CGAN 网络训练得到的人脸素描图像对比,其VIF 和FSIM 值分别提高0.0030和0.0301,UIQI 和Scoot Measure 分别提高0.0102和0.0587㊂由此证明笔者算法在人脸素描图像重建的有效性㊂各算法测试的视觉效果如图6㊁图7所示㊂图6 在CUFS 数据集上各算法的视觉对比结果Fig.6 The visual comparison results of each algorithm on CUFS test set 18第1期葛延良,等:基于循环生成对抗网络的人脸素描合成网络设计图7 在CUFSF 数据集上各算法的视觉对比结果Fig.7 The visual comparison results of each algorithm on CUFSF test set从主观视觉上对比,基于笔者改进的CycleGAN 生成的素描图案在图像纹理㊁阴影㊁遮挡㊁脸部线条和脸部像素分布方面更加的清晰㊂如图6所示,各算法在CUFS 数据集上测试生成的人脸素描图片,不同算法的重建素描效果图在主观视觉上,FCN,LLE,MRF 和SSD 网络重建出的图像都存在不同程度的失真和扭曲,GAN 和CGAN 重建出的素描图的面部表情稍微失真但整体轮廓更加清晰,CGAN 和笔者算法重建出的效果较好于前5种算法,但笔者算法重建出的人脸素描线条含有更多的细节信息,发丝和人眼轮廓更加清晰㊂当人脸图片换成难度更大的灰度图片时,如图7所示,各算法在CUFSF 数据集上测试生成的人脸素描图片,从主观视觉上看,在画像师画出的素描图像更抽象的条件下,FCN,LLE,MRF 和SSD 重建出的素描图像失真更严重,脸部轮廓模糊㊂笔者方法与其他网络相比,生成的人脸素描图案的脸部轮廓更清晰,而且能显示更多的脸部细节纹理,脸部线条更加流畅,五官表现清楚,更好的突出表情纹理㊂综合图6和图7,笔者的网络架构重建出的素描图像与其他网络重建的图像相比,脸部纹理细节更加丰富,能恢复出更好的轮廓边缘信息,在显示图像细节和纹理方面更具有表现性㊂综上所述,笔者网络重建的素描图像取得最好的视觉抽象效果,在感官视觉和客观指标上均优于现有的几种经典算法㊂4 结 语笔者针对在人脸素描合成过程中对特征信息的提取不充分,以及对各个特征提取通道的比重没有倾斜和丢失细节信息的问题,结合CycleGAN 网络进行研究,用于人脸素描合成的过程中对生成器的内部连接方式进行改进,以及设计特征增强模块和添加注意力机制㊂通过该网络在CUFS 和CUFSF 公共人脸数据集上进行训练,并与其他经典算法进行实验对比,笔者方法不仅主观上重建出较好的视觉效果,证明笔者算法较为成功地解决了上述问题,从而重建出逼真的细节纹理信息㊁几何特征和边缘特征;在客观评价指标上,取得了较高的FSIM 和UIQI 值以及Scoot 值,有力的证明笔者方法在人脸素描合成方面的有效性㊂未来的工作将主要研究如何设计最新的生成对抗网络得到更加优质的人脸素描合成结果㊂参考文献:[1]王楠楠.异质人脸图像合成及其应用研究[D].西安:西安电子科技大学通信工程学院,2015.WANG N N.Heterogeneous Face Image Synthesis and Its Application [D].Xi’an:School of Communication Engineering,Xi’an University of Electronic Science and Technology,2015.[2]姚赛赛.素描人脸合成与识别研究[D].济南:山东大学控制科学与工程学院,2018.28吉林大学学报(信息科学版)第41卷YAO S S.Research on Sketch Face Synthesis and Recognition [D].Jinan:School of Control Sceince and Engineering,Shandong University,2018.[3]GOODFELLOW I,POUGET⁃ABADIE J,MIRZA M,et al.Generative Adversarial Nets [J].Advances in Neural InformationProcessing Systems,2014,27.[4]GULRAJANI I,AHMED F,ARJOVSKY M,et al.Improved Training of Wasserstein Gans [P].arXiv Preprint arXiv:1704.00028,2017.[5]ISOLA P,ZHU J Y,ZHOU T,et al.Image⁃to⁃Image Translation with Conditional Adversarial Networks [C]∥Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE,2017:1125⁃1134.[6]ZHU J Y,PARK T,ISOLA P,et al.Unpaired Image⁃to⁃Image Translation Using Cycle⁃Consistent Adversarial Networks [C]∥Proceedings of the IEEE International Conference on Computer Vision.[S.l.]:IEEE,2017:2223⁃2232.[7]BI H,LIU Z,YANG L,et al.Face Sketch Synthesis:A Survey [J].Multimedia Tools and Applications,2021,80(12):18007⁃18026.[8]PARDEDE J,SITOHANG B,AKBAR S,et al.Implementation of Transfer Learning Using VGG16on Fruit RipenessDetection [J].International Journal of Intelligent Systems &Applications,2021,13(2):127⁃134.[9]MICALLEF N,SEYCHELL D,BAJADA C J.Exploring the U⁃Net++Model for Automatic Brain Tumor Segmentation [J].IEEE Access,2021,9:125523⁃125539.[10]XU X,WANG J,ZHONG B,et al.Deep Learning⁃Based Tool Wear Prediction and Its Application for Machining ProcessUsing Multi⁃Scale Feature Fusion and Channel Attention Mechanism [J].Measurement,2021,177:109254.[11]朱海琦,李宏,李定文,等.基于生成对抗网络的单图像超分辨率重建[J].吉林大学学报(理学版),2021,59(6):1491⁃1498.ZHU H Q,LI H,LI D W,et al.Single Image Super⁃Resolution Reconstruction Based on Generative Adversarial Network [J].Journal of Jilin University (Science Edition),2021,59(6):1491⁃1498.[12]FAN D P,ZHAI Y,BORJI A,et al.BBS⁃Net:RGB⁃D Salient Object Detection with a Bifurcated Backbone Strategy Network[C]∥European Conference on Computer Vision.Cham:Springer,2020:275⁃292.[13]PIAO Y,JI W,LI J,et al.Depth⁃Induced Multi⁃Scale Recurrent Attention Network for Saliency Detection [C]∥Proceedingsof the IEEE /CVF International Conference on Computer Vision.[S.l.]:IEEE,2019:7254⁃7263.[14]ZHAO J X,CAO Y,FAN D P,et al.Contrast Prior and Fluid Pyramid Integration for RGBD Salient Object Detection [C]∥Proceedings of the IEEE /CVF Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE,2019:3927⁃3936.[15]WANG X,TANG X.Face Photo⁃Sketch Synthesis and Recognition [J].IEEE Transactions on Pattern Analysis and MachineIntelligence,2008,31(11):1955⁃1967.[16]ZHANG W,WANG X,TANG X.Coupled Information⁃Theoretic Encoding for Face Photo⁃Sketch Recognition [C]∥CVPR2011.[S.l.]:IEEE,2011:513⁃520.[17]IJJEH A A,ULLAH S,KUDELA P.Full Wavefield Processing by Using FCN for Delamination Detection [J].MechanicalSystems and Signal Processing,2021,153:107537.[18]LIU Q,TANG X,JIN H,et al.A Nonlinear Approach for Face Sketch Synthesis and Recognition [C]∥2005IEEE ComputerSociety Conference on Computer Vision and Pattern Recognition (CVPR’05).[S.l.]:IEEE,2005,1:1005⁃1010.[19]LI C,WAND M.Precomputed Real⁃Time Texture Synthesis with Markovian Generative Adversarial Networks [C]∥EuropeanConference on Computer Vision.Cham:Springer,2016:702⁃716.[20]SONG Y,BAO L,YANG Q,et al.Real⁃Time Exemplar⁃Based Face Sketch Synthesis [C]∥European Conference onComputer Vision.Cham:Springer,2014:800⁃813.[21]BI H,LI N,GUAN H,et al.A Multi⁃Scale Conditional Generative Adversarial Network for Face Sketch Synthesis [C]∥2019IEEE International Conference on Image Processing (ICIP).[S.l.]:IEEE,2019:3876⁃3880.[22]ZHANG L,LIN L,WU X,et al.End⁃To⁃End Photo⁃Sketch Generation via Fully Convolutional Representation Learning [C]∥Proceedings of the 5th ACM on International Conference on Multimedia Retrieval.[S.l.]:ACM,2015:627⁃634.[23]ZHANG L,ZHANG L,MOU X,et al.FSIM:A Feature Similarity Index for Image Quality Assessment [J].IEEETransactions on Image Processing,2011,20(8):2378⁃2386.[24]ZHOU W,BOVIK A C.A Universal Image Quality Index [J].IEEE Signal Processing Letters,2002,9(3):81⁃84.[25]MIRZA M,OSINDERO S.Conditional Generative Adversarial Nets [J].Computer Science,2014(4):2672⁃268.[26]FAN D P,ZHANG S C,WU Y H,et al.Scoot:A Perceptual Metric for Facial Sketches [C]∥Proceedings of the IEEE /CVF International Conference on Computer Vision.[S.l.]:IEEE,2019:5612⁃5622.(责任编辑:刘东亮)38第1期葛延良,等:基于循环生成对抗网络的人脸素描合成网络设计。
基于生成对抗网络的可见光与红外图像融合
刘锃亮;张宇;吕恒毅
【期刊名称】《无线电工程》
【年(卷),期】2022(52)4
【摘要】图像融合是图像处理领域中非常重要的分支,可见光图像与红外图像的融合在机器感知、目标检测与追踪、监控、遥感和图像去雾等方面扮演着十分重要的角色。
针对目前一些融合算法时效性差、复杂程度高、泛化程度低和融合后图片信息丢失量大等问题,在神经网络FusionGAN的基础上进行了改进。
在其中引入了一种多尺度卷积PSConv和一种轻量化注意力模块ECA-Net,前者能够在更细粒度角度进行多尺度特征融合,后者能自适应地选择一维卷积核大小,从而实现性能上的提优。
实验采用经典的红外与可见光数据集TNO和NIO数据集,经实验表明,改进后的算法在主观评价与客观评价下,与原算法和其他算法相比有着明显提高。
【总页数】7页(P555-561)
【作者】刘锃亮;张宇;吕恒毅
【作者单位】中国科学院长春光学精密机械与物理研究所;中国科学院大学光电学院
【正文语种】中文
【中图分类】TP183
【相关文献】
1.一种基于生成对抗网络与注意力机制的可见光和红外图像融合方法
2.基于边缘保持和注意力生成对抗网络的红外与可见光图像融合
3.基于双路级联对抗机制的红外与可见光图像融合方法
4.基于生成对抗模型的可见光-红外图像匹配方法
5.基于WEMD和生成对抗网络重建的红外与可见光图像融合
因版权原因,仅展示原文概要,查看原文内容请购买。
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910991629.X(22)申请日 2019.10.18(71)申请人 复旦大学地址 200433 上海市杨浦区邯郸路220号(72)发明人 付彦伟 王文萱 李树昀 薛向阳 姜育刚 (74)专利代理机构 上海德昭知识产权代理有限公司 31204代理人 郁旦蓉(51)Int.Cl.G06K 9/00(2006.01)G06K 9/62(2006.01)G06N 3/04(2006.01)G06N 3/08(2006.01)(54)发明名称基于组合对抗生成网络的人脸微表情深度学习识别系统(57)摘要本发明提供一种基于组合对抗生成网络的人脸微表情深度学习识别系统,对用于进行人脸微表情识别的模型进行训练从而完成对待识别图像的人脸微表情识别,其特征在于,包括:模型存储部,存储有预先训练完成的用于进行微表情识别、姿态分类以及人脸识别的多功能识别网络以及基于组合对抗生成网络的微表情人脸图像生成网络;待识别图像获取部,用于获取待识别图像;特征提取部,将待识别图像输入多功能识别网络从而得到对应身份、姿态、微表情的特征信息;以及微表情识别部,根据特征信息完成人脸微表情识别。
权利要求书2页 说明书8页 附图3页CN 112686083 A 2021.04.20C N 112686083A1.一种基于组合对抗生成网络的人脸微表情深度学习识别系统,对用于进行人脸微表情识别的模型进行训练从而完成对待识别图像的人脸微表情识别,其特征在于,包括:模型存储部,存储有预先训练完成的用于进行微表情识别、姿态分类以及人脸识别的多功能识别网络以及基于组合对抗生成网络的微表情人脸图像生成网络;待识别图像获取部,用于获取所述待识别图像;特征提取部,将所述待识别图像输入所述多功能识别网络从而得到对应身份、姿态、微表情的特征信息;以及微表情识别部,根据所述特征信息完成人脸微表情识别,其中,所述多功能识别网络通过如下步骤训练得到:步骤S1,根据带标签的训练数据集进行所述多功能识别网络的预训练;步骤S2,将所述训练数据集划分为以随机三张图片为一组的训练组,所述三张图片分别表示了所述微表情人脸图像生成网络的生成对象的目标身份、目标姿态以及目标微表情的特征信息;步骤S3,将所述训练组输入所述微表情人脸图像生成网络并生成符合所述目标身份、所述目标姿态以及所述目标微表情的人脸生成图片;步骤S4,将所述训练数据集以及所述人脸生成图片输入所述多功能识别网络进行训练;步骤S5,重复所述步骤S3至所述步骤S4直至网络收敛从而完成所述多功能识别网络的训练。
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201811404314.2(22)申请日 2018.11.23(71)申请人 杭州健培科技有限公司地址 310018 浙江省杭州市下沙经济技术开发区3号大街3号(72)发明人 夏海琪 程国华 季红丽 (51)Int.Cl.G06K 9/62(2006.01)G06N 3/04(2006.01)G06N 3/08(2006.01)(54)发明名称一种基于生成对抗网络优化医学图像分类性能的方法(57)摘要本发明提供了一种基于生成对抗网络优化医学图像分类性能的方法。
它包括构建分类任务数据集;在现有的数据上训练分类算法模型;利用生成对抗网络生成新的正样本候选数据;利用投票机制对生成的正样本数据进行严格筛选;按一定比例将生成的数据融入已有的正样本数据微调分类网络。
本发明的技术优点在于解决医疗图像分类中存在的正样本数据量少而导致算法泛化能力差,易过拟合,以及人工积累数据成本高等问题。
另外,在提升医疗图像分类算法性能的同时能在一定程度上提升算法的抗攻击能力。
权利要求书1页 说明书4页 附图2页CN 109635850 A 2019.04.16C N 109635850A1.一种基于生成对抗网络优化医学图像分类性能的方法,其特征在于:(1)构建分类任务数据集,包括数据预处理、给定标签等;(2)在已有数据上利用数据增广的方式训练初步的分类算法模型;(3)利用原始的正样本数据,训练生成对抗网络生成新的正样本候选数据;(4)将生成的正样本候选数据进行对应(2)中数据增广方式的图像处理,并对(2)的分类模型进行判别,然后采用投票机制判断生成的候选正样本的有效性;(5)将(4)中筛选出的有效候选正样本按一定比例融入(1)构建的数据集,利用新的数据集在(2)的分类模型上进行微调;(6)将(4)中筛选出的有效候选正样本按一定比例融入(1)构建的数据集,利用新的数据集在(2)的分类模型上进行微调。
基于CycleGAN的非配对人脸图片光照归一化方法曾碧;任万灵;陈云华【摘要】针对人脸识别过程中光照对识别结果的影响问题, 提出了一种基于CycleGAN的光照归一化方法. 使用了生成对抗式的网络结构, 利用图像翻译的原理, 将较亮图片的光照风格迁移至较暗图片, 同时保持原人脸表面平滑且结构基本不变. 使用非配对的数据集, 无需人工标注标签, 简化了数据准备阶段的工作, 达到了利用无监督的深度学习方法去除图片光照影响的目的. 最后用训练好的模型处理CroppedYale测试集, 比较处理前后的人脸识别准确率. 实验证明, 本文方法具有较强的降低人脸光照对识别率影响的能力且基本不改变人脸结构, 有利于提高人脸识别的准确率.【期刊名称】《广东工业大学学报》【年(卷),期】2018(035)005【总页数】9页(P11-19)【关键词】生成对抗网;深度学习;人脸识别;光照归一化;人脸光照处理【作者】曾碧;任万灵;陈云华【作者单位】广东工业大学计算机学院,广东广州 510006;广东工业大学计算机学院,广东广州 510006;广东工业大学计算机学院,广东广州 510006【正文语种】中文【中图分类】TP391如今深度学习被应用在越来越多的领域,并且越来越成熟,各种监督、半监督的深度学习方法相较于传统方法准确率大幅提高[1]. 但深度学习十分依赖于数据样本,如果训练样本的质量和数量不高,那么识别准确率会大打折扣. 在人脸识别领域更是如此.光照、旋转角度、表情、遮挡、化妆等,都会影响人脸识别的准确率,其中光照因素的影响尤为明显. 因此,光照预处理对于人脸识别来讲是十分重要的. 目前,针对人脸识别中的光照处理大部分仍然使用传统图像处理方法,如直方图均衡化(Histogram equalization,HE)、对数域离散余弦变换(Logarithmic Discrete Cosine Transform,LDCT)、单尺度Retinex(Single-scale Retinex,SSR)等归一化算法[2-3].白小叶[4]将对数域离散余弦变换、高斯差分滤波及对比度均衡化结合起来形成光照预处理链,来处理人脸图片上的光照. 聂祥飞等[5]在离散余弦变换的基础上,利用梯度脸算法增强人脸的高频细节信息. 而对于深度学习这种非传统方法,在进行人脸识别时,一般用增加数据集的光照多样性的方式来使模型学习尽可能多的光照特征,从而对各种光照具有更强的抗干扰能力,但这样的方式同时会大大增加数据数量及数据准备阶段的工作. 针对上述方法的不足,本文采用GAN这种非典型深度学习模型,以构建一个小数据量、无标签化的无监督光照归一化模型.GAN(Generative Adversarial Nets,生成对抗网)[6]由两个模型构成——生成模型和判别模型. 其中生成模型可以学习样本的分布,从而将输入的随机噪声变为与样本分布相同的图片;判别模型则通过判断生成模型输出的图片是否像真实样本,来反馈给生成模型,从而训练生成模型,使之生成的图片更能以假乱真. 在原始GAN的基础上,越来越多的GAN模型被提出,如DCGAN(Deep Convolutional Generative Adversarial Networks,深度卷积生成对抗网)[7]、CGAN(Conditional Generative Adversarial Nets,条件生成对抗网)[8]等,为样本生成提供了更多的可能性和更可靠的技术支持. Zhu J Y等[9]提出了CycleGAN(Cycle-Consistent Adversarial Networks),在非配对的数据集上,利用两个生成模型和两个判别模型构成了一种双向环状结构,无监督地实现了两种不同风格的图片之间的相互转换.对于光照处理问题,pix2pix(Image-to-Image Translation)可以实现精准的图片风格迁移[10],包括人脸图片,理论上可以应用于人脸去光照处理,但是需要配对的训练集,有监督地实现一一对应的图像处理. 简单的DCGAN结构(卷积层编码+转置卷积层解码)也可以实现光照到非光照的转换,但同时很容易改变人脸其他的特征,脸部变形较严重.本文使用改进的CycleGAN模型,基于图像翻译的原理,利用生成模型与判别模型之间的环状对抗博弈使生成模型具有更强的学习能力、判别模型具有更强的判断能力,在保持人脸结构基本不变的同时学习到光照特征,实现光照归一化,且使用非配对的数据集,无需手动标注标签,大大简化了数据准备阶段的工作. 本文使用一个正面、无明显表情的无光照人脸数据集和一个正面、无明显表情的有多角度多强度光照的人脸数据集进行光照归一化模型的训练,两个数据集中的图片非一一对应,无需手动标注标签;然后利用训练好的模型来处理一个光照不均匀的人脸数据集;最后,分别将未处理的数据集和处理后的数据集用人脸识别模型进行识别,比较光照处理前后的识别准确率,并与其他光照处理方法进行对比,验证了本文方法的有效性.1 基于CycleGAN的人脸光照归一化算法原理1.1 人脸光照归一化实现原理用于人脸图片光照归一化的CycleGAN模型需要两个数据集:数据集A和数据集B,其中数据集A为光照多样化的人脸图像,数据集B为光照均匀的人脸图像. 利用CycleGAN模型处理人脸图像中的光照,其原理为利用CycleGAN特殊的环状结构,将两个数据集中的图像循环翻译,实现两个数据集中光照风格的迁移. 原理示意图如图1所示.图 1 人脸光照归一化原理示意图Fig.1 Schematic diagram of face illumination normalization光照归一化模型由两个生成模型和两个判别模型构成,其中生成模型负责生成图像,且要不断使自己生成的图像更加像原始数据集,以实现“以假乱真”;判别模型则要强化自己的分辨能力,根据标签判断图像是来自真实样本还是来自生成模型,以此来指导生成模型的生成过程.将光照不均匀的人脸数据集A中的图像输入第1个生成模型Ga2b后,Ga2b将生成一个新的图像fakeB,然后由判别模型Db对fakeB进行分类,判断fakeB是来自真实人脸数据集还是来自生成模型生成的图像,将结果反馈给Ga2b,以此来强化Ga2b使其能够生成更真实的图像. 因此在Db的监督下,fakeB将不断缩小与数据集B中图像的差距,即光照风格要尽量像数据集B中的均匀光照. 将fakeB再输入第2个生成模型Gb2a,将生成另一个新的图像cycA,而cycA的光照风格要尽量像数据集A中的不均匀的光照. 反之,将B中图像输入Gb2a后生成的fakeA在判别模型Da的监督下要尽量像A中的光照,fakeA经Ga2b生成的cycB要尽量像B中的光照. 也就是说,生成模型不仅要能使A变成B(Ga2b),还要具备从B还原成A的能力(Gb2a),反之亦然. 这就是本模型特殊的环状结构. 生成模型和判别模型互相博弈,Db训练Ga2b,Da训练Gb2a,使两个生成模型能生成越来越真实的图像,生成模型则分别反过来训练判别模型使其不断增强分辨能力. 而cycA与cycB的生成过程可以看作是一个验证过程,用来验证生成模型是否得到了很好的训练以生成足够以假乱真的图像.当模型训练完成后,输入数据集A中光照不均匀的人脸图像,生成模型Ga2b就可以生成像数据集B的光照均匀的图像,即将A的光照风格向B转化. 反之亦然.如此也就实现了人脸图像光照风格的迁移.虽然由B向A转化的过程是为了训练模型而必须存在,但出于实际需要,输出的结果只保留A向B转化的结果,即fakeB,以实现人脸光照的归一化.1.2 光照归一化模型的结构1.2.1 生成模型的结构生成模型结构如图2所示,其中的残差模块如图3所示.图 2 生成模型结构Fig.2 Structure of the Generator图 3 残差模块结构Fig.3 Structure of ResNet block生成模型共由4个卷积层(conv1-conv3、conv4)、9个残差模块层(resnet1-resnet9)、2个转置卷积层(deconv1、deconv2)构成. 生成模型的输入与输出均为128×128像素的单通道人脸灰度图像. 输入的图像进行对称填充后通过3个卷积层(conv1-conv3)提取图像特征,然后输入残差模块(resnet1-9). 每个残差模块层都包含了两个卷积层,在最后将部分输入直接添加到输出,可以在保护原始图像信息完整性的同时实现图像的转换. 图像的特征向量经由转置卷积层(deconv1-2)还原成低级特征,再由最后一层卷积层(conv4)转换成图像. 每一个卷积层之后都使用Instance Normalization来代替Batch Normalization[11],以实现单幅图像的归一化操作,从而在加快模型收敛及防止梯度爆炸的基础上提高生成图像的质量.1.2.2 判别模型的结构判别模型的结构如图4所示. 判别模型的输入是一张128×128像素的人脸灰度图像,其作用为判断这张图像是来自样本的原始人脸图像(标签为1)还是生成模型生成的图像(标签为0),因此判别模型的输出为一个一维的向量,当判别模型D判别出样本是来自真实人脸图像则输出标签为1,而如果判别出样本是来自生成模型生成的图像则输出标签为0. 判别模型是由5个卷积层(conv1-4、conv5)构成的全卷积网络,图像经由4层卷积层(conv1-4)提取特征,然后经最后一层卷积层(conv5)产生一个一维的输出,以实现判断功能. 除第1层和最后一层外,也均采用Instance Normalization来实现归一化.图 4 判别模型结构Fig.4 Structure of the Discriminator1.3 光照归一化模型的训练流程训练过程如图5所示.其训练流程为:(1) 将样本集A中的光照不均匀的人脸图像输入第1个生成模型Ga2b,经一系列卷积、转置卷积后,输出图像fakeB;(2) 将fakeB输入判别模型Db中,由判别模型Db来判断该图像属于哪个标签(如果像B中的光照均匀的真实图像,则标签为1,否则为0);(3) 将fakeB输入第2个生成模型Gb2a,生成cycA;(4) 将样本集B中的光照均匀的人脸图像输入第2个生成模型Gb2a,输出fakeA;(5) 将fakeA输入Da,按照与Db类同的方法判断fakeA的标签;(6) 将fakeA输入第1个生成模型Ga2b,生成cycB;(7) 当fakeA与A、fakeB与B、cycA与A、cycB与B之间的差异达到最小,即两个生成模型生成的人脸图像与真实样本无差别,同时两个判别模型也无法正确区分真实样本和生成样本时,整个训练流程结束.图 5 光照归一化模型训练流程示意图Fig.5 Process of training face illumination normalization model为了更好地训练两个生成模型,损失函数中添加了一个循环损失项,即经由两个生成模型循环生成的图像与原始图像的差别,也就是cycA与A的差、cycB与B的差,二者的和. 其数学表达式为[9]那么最终的loss就可表示为其中为目标函数,为代价估计,X、Y为输入数据,为的映射函数,为的映射函数.2 改进的CycleGAN模型的人脸光照归一化方法2.1 改进的CycleGAN模型改进后的CycleGAN模型结构与原CycleGAN模型结构基本相同. 为了使光照处理效果显著且不改变人脸结构,本文模型在原模型的基础上将卷积核的大小更改为全奇数,其中生成模型中除第1和最后一个卷积层的卷积核为7×7像素,其他层包括残差模块中的卷积层的卷积核均为3×3像素;判别模型中卷积层的卷积核大小为5×5像素. 并且使用了更有效的激活函数.本文使用ELU(exponential linear unit,指数线性单元)和增加了项的LeakyELU来代替原模型的ReLU和LReLU[12].ELU的数学公式为在本文中,ELU的取默认值1.LELU数学公式为ELU(包括添加了β项的LELU)一方面具有ReLU的优点:右侧线性部分和ReLU一样,在输入大于0时保持梯度不衰减,可以有效缓解梯度消失问题;另一方面,左侧函数值不为0,也就是当输入为负值时函数值不为0,可以防止出现ReLU的神经元死亡现象,而其软饱和的特性,对比ReLU的硬饱和( f′(x)=0(| x|>c,c为常数),对噪声更加鲁棒.对于LELU中的参数取值,实验过程中讨论了7组不同的取值组合,以观察不同的值对模型的影响. 本文LELU取值组合如表1所示.表 1 、的取值情况Tab.1 Values of,0.1 0.5 0.2 0.01 0.1 0.5 1 0.01 0.5 3 0.5实验过程中发现>1时相比其他取值情况模型更容易发生梯度爆炸现象,而很大、很小时LELU将近似于LReLU和PReLU[12],在此对这些情况不做详细讨论.各种取值情况下的函数图像如图6所示. 从上至下依次为α=0.2,β =0.01;α =1,β=0.01;α=0.2,=0.1;=0.1,β =0.5;α =0.2,β =0.5;α =1,β =0.5的LELU函数曲线、ELU函数曲线,以及α =3,β=0.5的LELU函数曲线. 不同的α 、β组合对模型的影响将在实验结果部分详细讨论.图 6 激活函数Fig.6 Activation functions不同于原CycleGAN模型中生成模型(包括残差模块)使用ReLU、判别模型使用LReLU的组合,本文改进模型的生成模型中的前3个卷积层和2个转置卷积层均使用ELU,利用ELU输出均值更接近于0的特性,使模型可以稳定地快速收敛;最后一层仍然使用tanh;而每个残差模块使用LELU可以保留更多的人脸细节. 判别模型最后一层不使用激活函数,其他卷积层均用ELU.改进的CycleGAN模型使用自适应矩估计方法更新网络参数,其数学表达示为其中t为迭代次数,gt 为梯度,m t 、vt分别是对梯度的一阶矩估计和二阶矩估计,以此来动态调整每个参数的学习率. 是对的偏差修正.分别为一阶和二阶动量衰减系数. 其参数更新规则为其中θt 为第t次迭代的参数值,η为学习率,ε是一个用于数值稳定的小常数.在本文实验中,β1设为0.5,为0.999,初始学习率设为0.000 2,ε采用默认值1e-8.2.2 利用改进的CycleGAN模型实现人脸光照归一化改进的CycleGAN模型的实现原理及训练流程与前文所述的基本相同,需要两个数据集:光照多样化的数据集A和光照均匀的数据集B.改进的CycleGAN模型利用CycleGAN模型的优势,将两个数据集中的图片不断循环翻译,实现两个数据集光照风格的互相转化. 即一方面以数据集B为基准,利用判别模型的“监督”作用,使生成模型在对数据集A编码解码的同时学习到B 的光照特征,使A中人脸的光照风格向B转化,同时不改变A中人脸的结构,以实现A人脸+B光照;同时以数据集A为基准,使生成模型在对数据集B编码解码的同时学习到A的光照特征,使B中人脸的光照风格向A转化,同时不改变B 中人脸的结构,以实现B人脸+A光照. 本文出于实际去除光照的目的,只保留了数据集A到B的转换结果,也就是将有不均匀光照的人脸图片变为光照均匀的图片,即A人脸+B光照,以实现数据集A的光照归一化.3 实验过程与结果分析本文实验所使用的计算机配置为:CPU-3.5 GHz,RAM-16 GB,显卡GTX-1070.3.1 实验设计3.1.1 训练改进CycleGAN模型的实验设计如前所述,本文CycleGAN模型训练过程中需要两个人脸数据集:一个光照多样化的数据集A和一个光照均匀的数据集B. 数据集B为增广的CASPEAL-R1数据集的标准人脸子集[13],实验过程中在CAS-PEAL-R1原有1 040张亚裔人脸的基础上,又增加了1 161张来自FEI Face Database和CelebA的正面人脸图片,均无遮挡和明显的表情,经镜像变换后增广为4 402张均匀光照的多种族人脸图片. 数据集A则在CAS-PEAL-R1的光照子集基础上增加了另两个数据集中有各种角度和强度光照的正面人脸图片,也均无明显表情和遮挡,且其总数量与B集相同.两个数据集均未手动标注标签,且数据集中的图片非一对一配对.根据前文介绍的改进CycleGAN模型中激活函数的7组取值情况,训练实验也进行7组,每组共运行20个epoch,在前10个epoch(0~9)中学习率不变,在后10个epoch(10~19)里,学习率更新策略为为当前epoch的学习率,η为初始学习率).3.1.2 不同值的改进CycleGAN模型对比实验设计模型训练好后,利用裁剪后的ExtendedYaleB数据集即CroppedYale进行人脸识别实验以测试模型的光照处理效果[14-15]. 实验分为两组以做对比,均基于Caffe深度学习框架实现,采用了Light CNN模型进行微调[16],两组实验所使用的Light CNN模型参数相同. CroppedYale包含了38个人,每人64张不同光照角度、强度下的图片,实验前将图片缩放为128×128像素. 第1组实验选取10张较暗的不同光线入射角度的图片,每人所选取的图片原始标签一致,将其用于测试,余下54张图片用于训练;第2组实验选取相同图片做测试集,但只选取光照较均匀、亮度较高的图片做训练集(由于该类样本较少,因此对其做数据扩充处理,最终数量与第1组实验相同). 训练集测试集示例图见图7.图 7 测试实验数据集示例Fig.7 Samples of datasets in test experiments用模型处理测试集,训练集不做处理,将处理前后的数据集分别进行人脸识别实验,迭代20 000次后对比准确率. 准确率计算方式为其中,TP为预测标签为A且实际标签为A的图像数;TN为预测标签不为A且实际标签也不为A的图像数;FP为预测标签为A但实际标签不为A的图像数;FN为预测标签不为A但实际标签为A的图像数.在实验过程中,两组实验分别比较了激活函数采用不同值的改进CycleGAN模型处理测试集后的识别准确率,并与原CycleGAN模型处理测试集后的识别准确率进行了比较.3.1.3 本文方法与其他方法对比由于CycleGAN在训练过程中需要学习两个映射:,因此,不同于简单的学习的GAN,这样的强化学习使CycleGAN具有更好的效果. 本文将采用改进的CycleGAN模型对数据集的处理结果与采用单向DCGAN模型对同样的数据集进行同样的去光照实验结果进行了比较.这里所用DCGAN模型的生成模型由3个卷积层和3个转置卷积层构成,以实现编码-解码的功能.除最后一层使用tanh激活函数外,其他层使用ReLU.判别模型由4个卷积层和1个全连接层构成,激活函数最后一层使用Sigmoid,其他层用LReLU. 生成模型和判别模型均使用BatchNormalization进行规范化,所有卷积层和转置卷积层的卷积核均为5×5像素. 优化策略与本文模型相同,损失函数为Sigmoid交叉熵损失函数.另外,本文还采用HE、LDCT两种非深度学习方法处理测试数据集,将结果与深度学习方法进行对比.为了验证本文方法对人脸识别准确率的提升效果,利用DCGAN方法与非深度学习方法处理人脸数据集后也进行与上文相同的两组对比实验.3.2 实验结果与分析3.2.1 改进CycleGAN模型训练结果针对前文所介绍的LELU激活函数,采用不同、值构成的LELU训练模型,训练时的loss曲线如图8所示. d_a_loss表示其为第1个判别模型Da的loss曲线,g_a_loss表示其为第1个生成模型Ga2b的loss曲线,余下同理. 0.1_0.5表示LELU中取0.1取0.5,余下同理. old_act表示采用原CycleGAN的ReLU+LReLU激活函数组合.图 8 采用不同、值的模型训练时的loss曲线Fig.8 Loss curves of models with different s本文实际实验目的为输出数据集A的光照风格向数据集B转换的结果,所对应的loss曲线为d_b_loss和g_a_loss. 几组不同的值所对应的采用LELU激活函数的改进CycleGAN模型均成功收敛,并且收敛后loss值基本低于原模型.3.2.2 不同值的改进CycleGAN模型对比实验的结果两组实验测试得到的准确率对比如图9所示.在第1组实验中,训练集中的图片含有各种角度和强度的光照,训练数据具有较好的多样性,因此模型可以较充分地学习到人脸图片的各种特征,包括光照特征,即便测试集中的图片较暗且光照角度强度与训练集不同,分类准确率也可以达到96%以上.利用原CycleGAN模型进行光照归一化处理后,分类准确率有所提升,达到了98%以上. 利用前文所讨论的七组、值所训练的改进CycleGAN模型分别对测试集的光照经过归一化处理后,最终的分类准确率均达到了98%以上,最高达到了99%以上.在第2组实验中,由于训练集中均为光照较亮较平均的图片,而测试集依然为较暗的图片,用未经过光照处理的测试集测试得到的准确率相比第1组实验急剧下降,只有41%. 利用原CycleGAN模型处理测试集的光照后,测试得到的准确率相比未处理的测试集有所提升,但也只有47%. 而经过7个模型处理光照后的测试集得到的准确率与前两者相比均有明显提升,其中=0.1、=0.5的LELU训练得到的改进CycleGAN模型处理测试集后得到的准确率最高,达到69%.图 9 实验准确率曲线Fig.9 Accuracy curves of experiments3.2.3 本文方法与其他方法对比用不同方法对人脸图片进行处理的结果对比如图10. 用不同方法处理人脸图像后进行准确率测试实验的结果对比如表2.由图10可以看到,LDCT的处理结果稍优于HE,表2中的准确率结果表明HE与LDCT均能提高识别准确率,但提升幅度有限. 只学习单向映射的DCGAN学习能力较弱,不仅没有很好地去除光照,还改变了人脸面部结构. 而实验过程中发现,对于本文所使用的样本量如此少的数据集,DCGAN较容易出现GAN经常发生的mode collapse现象,表2也表明,用这样的模型处理测试集,准确率不升反降. 学习双向映射的CycleGAN的学习能力则更强,也更不容易发生mode collapse现象,图10中原CycleGAN模型的处理结果显示,人脸结构得到了较好的保持,光照影响也有明显的削弱,但显然没有本文方法平滑.表2的准确率结果也表明,原CycleGAN模型与HE、LDCT性能相差不大,而利用经CycleGAN处理后的测试集测试人脸识别系统,识别准确率大幅地提高.图 10 人脸图片光照处理结果对比Fig.10 Results of different illumination normalization methods表 2 准确率结果对比Tab. 2 Recognition rates of two sets of experiments with different methods %测试集第1组实验第2组实验未经处理 96.61 41.65 HE 97.65 45.83 LDCT 98.78 50.65单向DCGAN 28.12 13.54原CycleGAN 98.69 47.13本文方法 99.22(平均)99.74(最高)61.31(平均)69.01(最高)4 结束语本文提出了一种利用改进CycleGAN去除人脸光照影响的方法. 该方法利用CycleGAN的环状结构,使生成模型能够学习到两个训练数据集之间的双向映射,在判别模型的“监督”下实现两个数据集的两种光照特征的互相转换,而非配对的数据集也大大简化了数据准备阶段的工作. 另外,ELU和LELU激活函数的配合使用,使模型在学习到光照特征的同时,很好地保留了人脸的面部结构,防止因脸部变形而影响识别率. 深度学习在人脸识别中的应用已经很广泛,但将GAN用在人脸识别领域依然有许多问题亟待解决,因此,未来的工作中将继续探索GAN与人脸识别的结合,在深度学习之路上继续前行.参考文献:【相关文献】[1]陈旭, 张军, 陈文伟, 等. 卷积网络深度学习算法与实例[J]. 广东工业大学学报, 2017, 34(6): 20-26.CHEN X, ZHANG J, CHEN W W, et al. Convolutional neural network algorithm and case [J]. Journal of Guangdong University of Technology, 2017, 34(6): 20-26.[2]LEE P H, WU S W, HUNG Y P. Illumination compensation using oriented local histogram equalization and its application to face recognition [J]. IEEE Transactions on Image processing, 2012, 21(9): 4280-4289.[3]CHEN W, ER M J, WU S. Illumination compensation and normalization for robust face recognition using discrete cosine transform in logarithm domain [J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics),2006, 36(2): 458-466.[4]白小叶. 光照变化下的人脸识别算法研究[D]. 南京: 南京邮电大学通信与信息工程学院, 2016.[5]聂祥飞, 杨志军, 何雪. 利用离散余弦变换与梯度脸的人脸光照处理[J]. 微型机与应用, 2017,36(11): 50-53.NIE X F, YANG Z J, HE X. Face illumination processing using discrete cosine transform and gradient faces [J]. Microcomputer & it’s applications, 2017,36(11): 50-53.[6]GOODFELLOW I J, POUGET-ABADIE J, Mirza M, et al.Generative adversarial nets[C]// International Conference on Neural Information Processing Systems. Massachusetts:MIT Press, 2014: 2672-2680.[7]RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[J]. arXiv preprint arXiv: 1511.06434,2015. [8]MIRZA M, OSINDERO S. Conditional generative adversarial nets[J]. arXiv preprint arXiv: 1411.1784, 2014.[9]ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[J]. arXiv preprint arXiv: 1703.10593, 2017.[10]ISOLA P, ZHU J Y, ZHOU T H, et al. Image-to-image translation with conditional adversarial networks[J]. arXiv preprint arXiv: 1611.07004, 2016.[11]ULYANOV D, VEDALDI A, LEMPITSKY V. Instance normalization: The missing ingredient for fast stylization[J].arXiv preprint arXiv: 1607.08022, 2016.[12]CLEVERT D A, UNTERTHINER T, HOCHREITER S.Fast and accurate deep network learning by exponential linear units (elus)[J]. arXiv preprint arXiv: 1511.07289, 2015. [13]GAO W, CAO B, SHAN S G, et al. The CAS-PEAL largescale Chinese face database and baseline evaluations [J].IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, 2007, 38(1): 149-161.[14]GEORGHIADES A S, BELHUMEUR P N, KRIEGMAN D J. From few to many: illumination cone models for face recognition under variable lighting and pose [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2001,23(6): 643-660.[15]LEE K C, HO J, KRIEGMAN D J. Acquiring linear subspaces for face recognition under variable lighting [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2005, 27(5): 684-98.[16]WU X, HE R, SUN Z N, et al. A light CNN for deep face representation with noisy labels[J]. arXiv preprint arXiv:1511.02683, 2015.。
基于光照归一化分块完备LBP特征的人脸识别周巍;程勇;曹雪虹【期刊名称】《计算机工程与应用》【年(卷),期】2015(000)011【摘要】针对复杂光照条件下的人脸识别,提出了一种基于光照归一化分块完备局部二值模式(B-CLBP)特征的人脸识别算法。
该方法对人脸图像进行光照归一化预处理,对处理后的人脸图像进行B-CLBP特征提取,融合成B-CLBP直方图,根据最近邻准则进行分类识别。
在Extended Yale B人脸库上的实验结果表明,所提算法可以有效提高复杂光照条件下的人脸识别率。
%Aiming at the problem of face recognition under complex illumination, an effective face recognition method based on illumination normalization and block-based completed local binary pattern is proposed. The method performs illumination normalization on face images, then extracts the B-CLBP features from the processed face images in order to form the B-CLBP histogram, applies the nearest neighbor principle for face recognition. The experimental results on Extended Yale B face databases demonstrate that the proposed method can achieve significant recognition rate under com-plex illumination conditions.【总页数】5页(P145-149)【作者】周巍;程勇;曹雪虹【作者单位】南京邮电大学通信与信息工程学院,南京 210003;南京工程学院通信工程学院,南京 211167;南京邮电大学通信与信息工程学院,南京 210003; 南京工程学院通信工程学院,南京 211167【正文语种】中文【中图分类】TP391.4【相关文献】1.基于分块LBP和鲁棒核编码的人脸识别 [J], 袁华;钟欢虹;欧阳宁;莫建文2.基于光照归一化分块自适应LTP特征的人脸识别 [J], 白小叶;程勇;曹雪虹3.基于分块加权LBP技术的人脸识别算法 [J], 管灵霞;杨会成;鲁春;童英4.基于分块加权的LBP算法在人脸识别中的应用 [J], 朱天星;黄世震5.基于分块LBP融合特征和SVM的人脸识别算法 [J], 张敦凤;高宁化;王姮;冯兴华;霍建文;张静因版权原因,仅展示原文概要,查看原文内容请购买。
基于深度学习的人脸图像合成与重建算法研究人脸图像合成与重建是计算机视觉领域的重要研究方向之一。
近年来,深度学习技术的发展为人脸图像合成与重建带来了巨大的突破。
本文将介绍基于深度学习的人脸图像合成与重建算法的研究进展,并探讨其在实际应用中的潜在价值。
一、人脸图像合成算法研究1.1 基于生成对抗网络的人脸图像合成算法生成对抗网络(GANs)是一种常用于图像合成的深度学习模型。
通过训练一个生成器网络和一个判别器网络,GANs能够学习到一个生成器网络,使其能够生成逼真的人脸图像。
目前,基于GANs的人脸图像合成算法已经取得了令人瞩目的成果。
例如,Pix2Pix模型是一种常用的基于GANs的图像到图像翻译模型,它能够将输入图像与目标输出图像之间建立起映射关系,从而实现人脸图像合成。
此外,CycleGAN模型通过引入循环一致性损失,能够实现不同风格的人脸图像相互转换。
1.2 基于变分自编码器的人脸图像合成算法变分自编码器(VAEs)是一种利用自编码器进行潜在空间建模的方法。
在人脸图像合成中,VAEs可以通过学习潜在空间的分布,从而能够生成具有多样性的人脸图像。
与传统自编码器不同的是,VAEs引入了潜在变量,并通过最小化重构误差和潜在空间的正则项来实现对潜在空间的控制。
通过对潜在变量进行插值、修改,可以生成具有不同特征的人脸图像。
近年来,基于VAEs的人脸图像合成算法取得了良好的效果。
二、人脸图像重建算法研究2.1 基于卷积神经网络的人脸图像重建算法卷积神经网络(CNNs)是一种能够从图像中提取特征的深度学习模型。
在人脸图像重建中,CNNs能够学习到图像中的局部特征,并通过特征的重建来实现人脸图像的重建。
通过训练一个编码器网络和一个解码器网络,CNNs可以将输入图像编码为一组潜在特征向量,并通过解码器网络将潜在特征向量重构为人脸图像。
近年来,基于CNNs的人脸图像重建算法已经取得了显著的进展,能够重建出逼真的人脸图像。
基于局部分阶段归一化的复杂光照人脸识别程勇【摘要】以往算法通过低通、高通滤波的模式实施人脸图像的光照、光照不变量的估计,存在邻域像素信息混杂的问题,无法准确地从人脸图像中提取人脸本征.考虑邻域像素成像光照的相关性,提出基于邻域像素成像光照消除的局部分阶段归一化光照不变特征提取模型,可获取人脸图像的多细节光照不变特征,并通过内积度量构建基于多层次匹配的类别鉴别方法.Yale B和Extended Yale B人脸库上的试验结果表明,该算法能明显提高复杂光照人脸识别性能,明显优于当前先进算法.【期刊名称】《南京工程学院学报(自然科学版)》【年(卷),期】2017(015)003【总页数】6页(P67-72)【关键词】局部分阶段归一化;光照不变特征;多层次匹配;人脸识别【作者】程勇【作者单位】南京工程学院通信工程学院,江苏南京211167;南京工程学院康尼机电研究院,江苏南京211167【正文语种】中文【中图分类】TP391.4人脸识别作为一种非接触式、友好性强的生物特征识别技术,在身份验证、识别和安全领域具有广阔的应用前景.多年来,人脸识别技术备受图像处理、模式识别、计算机视觉领域的广泛关注.尽管人脸识别技术已经取得诸多显著的研究成果(自动人脸识别系统也已出现),但现有人脸识别系统只在理想的数据采集环境中才能达到较为稳定的性能.目前,复杂光照变化仍是影响人脸识别性能的一个主要因素,严重制约着人脸识别技术的推广和应用.基于光照归一化和光照不变量提取的方法是两种经典、有效的光照鲁棒人脸识别方法.光照归一化方法[1-4]是运用各种全局或局部变换,减弱成像光照差异对人脸图像的影响,主要包括直方图均衡化和低频拟合方法.从早期的全局、局部直方图均衡化[1]到现在的自适应[2]和有向局部直方图均衡化[3],这类方法能有效提高图像的对比度,一直受到复杂光照人脸识别研究者的关注,取得了一定的研究成果.但是,直方图均衡化是以灰度均匀分布为目的,未考虑人脸本征信息的实际分布.低频拟合方法[4]运用各类正常光照人脸图像的大尺度信息拟合其他光照人脸图像的低频信息达到光照归一化的目的,用所有类别正常光照人脸图像的低频信息拟合其他光照人脸图像的低频信息,很难保留低频信息的原始结构.光照不变量提取方法[5-12]提取人脸图像中不受光照影响或影响较小的特征作为鉴别依据,减弱光照变化对人脸识别的影响,本质上是在假设成像光照缓慢变化、人脸本征快速变化的基础上,从人脸图像估计高频信息(人脸本征)、低频信息(成像光照)的角度提取与成像光照无关的人脸本征,该类方法存在邻域信息的混杂现象,无法从人脸图像中准确获取人脸本征.针对当前复杂光照人脸识别研究的不足,本文考虑邻域像素成像光照的相关性,提出基于邻域像素成像光照消除的局部分阶段归一化模型,可获取人脸图像不同细节的光照不变特征,并通过内积度量构建一种多层次匹配和鉴别分类方法.1 相关知识1.1 成像模型可见光成像是指可见光照射到目标物体,经物体表面反射到图像获取设备上可见光强度的度量.成像模型描述了照射到物体表面的光照强度、物体表面反射特征与物体图像间的数值关系.Lambert、Blinn-Phong 和Oren-Nayar模型是经典的成像模型,其中,Lambert模型是漫反射模型,描述粗糙物体表面向各个方向都具有相同的光照反射特性.人脸面部表面光照反射特性非常接近于理想的漫反射模型,因此,Lambert光照模型被广泛应用于复杂光照人脸识别研究中.采用简单Lambert 光照模型作为成像模型时,一幅人脸图像I可表示为I(x,y)=F(x,y)×L(x,y)(1)式中:F表示人脸表面光照反射特征,是人脸的本质特征,与成像光照变化无关;L表示人脸成像时照射到人脸面部的光照.由式(1)可知,人脸成像时光照变化会使人脸图像产生较大差异,图1给出Yale B人脸库中某人在不同光照下获取的人脸图像,可以看出光照变化对人脸图像产生很大影响.有时光照变化对某人人脸图像造成的影响比不同人人脸本征间的差异还大,这将严重影响人脸识别的分类性能.图1 不同光照人脸图像1.2 内积度量假设A=[a1,a2,…,an]和B=[b1,b2,…,bn]为n维向量,则A和B的内积可定义为:(2)(3)(4)式中:‖A‖和‖B‖分别为n维向量A和B的模;θ为A和B的夹角.由向量内积定义可以看出,当向量为单位向量时,两个向量间的内积与两个向量间的夹角有关,内积越大表征两个向量间的夹角越小,相似度越大.因此,本文采用向量内积对人脸特征进行相似性度量,描述人脸之间的匹配程度,构建多层次特征匹配模型.2 本文算法2.1 局部分阶段归一化2017年,文献[13]提出一幅灰度图像邻域像素间的比值是一种光照不变特征.受此启发,本文提出一种多层次提取光照不变特征的局部分阶段归一化方法.该方法能更全面地考察邻域像素光照不变特征的对比关系,从多视觉获取复杂光照人脸图像具有不同细节特性的光照不变特征.一幅灰度人脸图像I的局部分阶段归一化Nh定义为:(5)(6)(7)Imm(x,y)=median({Im(i,j)(i,j)∈Φ(x,y)})(8)Im(x,y)=max({I(i,j)(i,j)∈Φ(x,y)})(9)式中:max(·)和median(·)分别表示最大值和中值函数;Φ(x,y)表示以像素点(x,y)为中心的邻域像素集;Φ表示邻域尺度表示以图像Imm像素点(x,y)为中心邻域Φ第h 大的像素值.本文试验中选择Φ=3×3,h=1,2,…,9.图2给出一幅原始人脸图像及其对应的局部分阶段归一化效果,可以看出:若着眼于单个像素点,局部分阶段归一化反映了某像素点与邻域像素点间的比例关系,可消除光照,是一种光照不变特征;若纵观某阶段归一化图像Nh,局部分阶段归一化则反映了邻域某层次比例关系的整体分布情况,能从多角度提取原始图像的多细节光照不变特征.图2 局部分阶段归一化2.2 多层次匹配与识别2.2.1 匹配字典主成分分析是一种最优的数据压缩和表征方法,可用少量互不相关的特征空间较好地表述原始数据实现高维数据的压缩和特征提取.因此,本文首先对训练样本的局部分阶段归一化通过一维主成分分析实施原始高维数据的降维,获取相应的一维特征列向量;然后,将一维特征列向量规划为单位列向量;最后,将所有的特征向量组成二维特征空间,作为模式分类中多层次匹配的匹配字典D.2.2.2 匹配框架图3 多层次匹配框图局部分阶段归一化可分层次提取人脸具有不同细节的光照不变特征(光照不变量),能较全面地表征人脸面部的本质属性,更好地区分不同人脸的差异,提高复杂光照人脸识别的分类性能.因此,本文利用内积度量作为评价标准,提出一种多细节特征的多层次匹配框架,寻找不同细节特征与匹配字典中匹配度最高的基元,构建对应的匹配矩阵针对每个局部分阶段归一化Nh,首先与匹配字典进行初始匹配,找到最相近的基元计入匹配矩阵获取初始匹配矩阵根据初始匹配矩阵和Nh计算匹配残差对匹配残差进行再匹配,将最匹配的基元计入匹配矩阵获取再匹配矩阵计算残差进行再匹配,更新匹配矩阵通过n次匹配和n次匹配矩阵的更新,每个Nh得到含有n个非零基元的匹配矩阵多层次匹配框架如图3所示.由于本文在局部分阶段归一化中获取了9个不同细节特征的光照不变特征,因此,在多层次匹配环节选择n=9.2.3 识别模型计算人脸图像每个局部分阶段归一化Nh与匹配矩阵基元间的相似度Sh为(10)通过式(10)融合人脸图像所有局部分阶段归一化对应的相似度Sh,获取含有类别信息的总体相似度S为(11)假定,训练样本类别数为r,每类的训练个数为m, 某个测试样本对应的总体相似度S=[s1,s2,…,s9rm],则测试样本对应类别i的相似度Ci为(12)若存在Ct满足Ct=min({Cii=1,2,…,r}) t∈{1,2,…,r}(13)则测试样本属于t类.3 试验结果为了验证所提算法的有效性,本文在Yale B[14]和扩展的Yale B[15]复杂光照人脸数据库上与梯度脸(Gradientfaces)[8]、韦伯脸(Weberface)[11]和纹理增强模型(LUO)[12] 光照处理算法进行对比试验,给出了相应的识别结果.Yale B数据库由美国耶鲁大学计算视觉与控制中心创建,包含10 个人多姿态、多光照5 760 幅图像,主要用于光照和姿态问题的研究与分析.由于Yale B人脸库中类别较少,耶鲁大学依据Yale B人脸库的建立模式,新增了28人,创建了扩展的Yale B人脸数据库.本文将Yale B和扩展的Yale B数据库合并为Yale B+数据库,根据光照入射角度的不同,Yale B+人脸库可分5个光照变化子集:子集1(0°~12°)、子集2(13°~25°)、子集3(26°~50°)、子集4(51°~77°)和子集5(大于77°).鉴于本文着重研究人脸识别技术的复杂光照问题,试验中仅选择正面无表情复杂光照人脸图像作为试验对象. 依次从5个子集中选取1个子集构成训练集,其他子集作为测试集,表1—表5给出了本文算法及其他算法在选择不同训练集时各测试子集对应的识别结果,其中全部子集表示所有测试子集.由表1—表5可以看出,本文算法在各种训练集选择模式时都能获取很好的识别性能,所有测试子集上的识别率几乎都表1 子集1作为训练集的识别率 %方法子集2子集3子集4子集5全部子集梯度脸100.0098.8787.2894.7495.29韦伯脸98.2599.0697.8198.0698.29纹理增强模型97.5999.0694.3095.4396.54本文算法100.00100.00100.0099.1799.72 超过99 %,明显高于国内外先进算法.需要特别指出是:当子集5作为训练集时,本文算法在其他4个测试子集上的识别率均达到100 %,在国内外复杂光照人脸识别研究中罕有报道,这充分说明了所提算法在恶劣的光照环境中具有很强的光照鲁棒性. 表2 子集2作为训练集的识别率 %方法子集1子集3子集4子集5全部子集梯度脸99.2595.3092.5493.9194.69韦伯脸96.9995.8798.4795.8596.61纹理增强模型93.9991.5499.1392.9494.13本文算法100.0099.6299.7898.7599.39表3 子集3作为训练集的识别率 %方法子集1子集2子集4子集5全部子集梯度脸100.00100.0098.0399.0399.16韦伯脸98.8795.6197.5998.8997.79纹理增强模型98.1293.2097.8198.2096.90本文算法100.00100.00100.0099.3199.74表4 子集4作为训练集的识别率 %方法子集1子集2子集3子集5全部子集梯度脸100.0099.5697.3799.7299.09韦伯脸96.9999.5698.6899.4598.94纹理增强模型97.7499.1297.7498.7598.43本文算法100.00100.0099.8199.7299.85表5 子集5作为训练集的识别率 %方法子集1子集2子集3子集4全部子集梯度脸96.2491.6790.2399.5694.04韦伯脸99.2596.7198.6899.5698.48纹理增强模型98.1293.8699.0699.5697.66本文算法100.00100.00100.00100.00100.004 结语本文从多细节光照不变量提取和多层次匹配鉴别分类两个角度研究了复杂光照人脸识别问题.一方面,针对以往光照不变量提取算法存在邻域像素信息间相互混杂的问题,从邻域像素光照具有相似性出发,从多视觉提出基于局部分阶段归一化的光照不变特征提取模型,能够提取人脸本征的多细节光照不变量,具有更强的类别表达能力;另一方面,以内积度量为基础,从对不同细节光照不变特征分别进行鉴别度量和分层次匹配的角度,构建了一种多层次匹配类别鉴别方法.Yale B+复杂光照人脸数据库上试验结果表明所提算法具有很强的光照鲁棒性,优于当前的先进算法.参考文献:【相关文献】[1] XIE X, LAM K M. Face recognition under varying illumination based on a 2D face shape model [J]. Pattern Recognition, 2005, 38(2): 221-230.[2] VISHWAKARMA V P, PANDEY S, GUPTA M N. Adaptive histogram equalization and logarithm transform with rescaled low frequency DCT coefficients for illumination normalization [J]. International Journal of Recent Trends in Engineering, 2009, 1(1): 318-322.[3] LEE P, WU S, HUNG Y. Illumination compensation using oriented local histogram equalization and its application to face recognition [J]. IEEE Transactions on Image Processing, 2012, 21(9): 4280-4289.[4] XIE X, ZHENG W S, LAI J, et al. Normalization of face illumination based on large-and small-scale features [J]. IEEE Transactions on Image Processing, 2011, 20(7): 1807-1821. [5] ZHANG T, FANG B, YUAN Y, et al. Multiscale facial structure representation for face recognition under varying illumination [J]. Pattern Recogn, 2009, 42(2): 251-258.[6] HU H. Illumination invariant face recognition based on dual tree complex wavelet transform [J]. IET Comput Vis, 2015, 9: 163-173.[7] CHENG Y, HOU Y, ZHAO C, et al. Robust face recognition based on illumination invariant in nonsubsampled contourlet transform domain [J]. Neurocomputing, 2010,73(10-12): 2217-2224.[8] ZHANG T, TANG Y Y, FANG B, et al. Face recognition under varying illumination using gradientfaces [J]. IEEE Trans Image Process, 2009, 18(11): 2599-2606.[9] NIKAN S, AHMADI M. Local gradient-based illumination invariant face recognition using local phase quantisation and multi-resolution local binary pattern fusion [J]. IET Image Process, 2015, 9(1): 12-21.[10] TAN X, TRIGGS B. Enhanced local texture feature sets for face recognition under difficult lighting conditions [J]. IEEE Trans Image Process, 2010, 19(6): 1635-1650.[11] WANG B, LI W, YANG W, et al. Illumination normalization based on weber’s law with application to face recognition[J]. IEEE Signal Process Lett, 2011, 18(8): 462-465.[12] LUO Y, GUAN Y. Enhanced facial texture illumination normalization for face recognition [J]. Appl Opt, 2015, 54(22): 6887-6894.[13] CHENG Y, LI Z, JIAO L, et al. Illumination-insensitive features for face recognition [J]. The Visual Computer, 2017, 33:1-11.[14] GEORGHIADES A S, BELHUMEUR P N, KRIEGMAN D J. From few to many: illumination cone models for face recognition under variable lighting and pose [J]. IEEE Trans Pattern Anal Mach Intell, 2001, 23(6): 643-660.[15] LEE K C, HO J, KRIEGMAN D. Acquiring linear subspaces for face recognition under variable lighting [J]. IEEE Trans Pattern Anal Mach Intell, 2005, 27(5): 684-698.。
基于生成对抗网络的图像艺术风格迁移董伟;赵杰煜【摘要】提出了一种新颖的图像艺术风格化算法, 利用结构相似性指数和最小二乘生成对抗网络,搭建图像艺术风格化模型. 通过对模型生成器和判别器的对抗训练以及重建约束, 该模型可以生成一幅逼真的风格化作品. 根据在人脸肖像素描 sketch-photo 数据集和中国水墨画风格beihong-photo数据集实验表明, 与目前流行的DualGAN算法、CycleGAN算法、Pix2Pix算法和GAN算法相比, 本文提出的方法具有更好的风格化效果.%This paper proposes a novel neural style transfer algorithm. The Structural Similarity Index Measurement (SSIM) with the Least Squares Generate Adversarial Nets (LSGAN) is adopted to build a model for image repainting with neural styles. Through the adversarial training and reconstruction constraints, the model can generate a more realistic and reasonable stylized picture. Two groups of experiments are performed with CHUK sketch-photo dataset and a Chinese ink-painted style dataset (named beihong-photo which is constructed by the authors’ lab). Experimental results show that the presented method achieves a more acceptable state-of-art effect compared with those from the most popular algorithms, including DualGAN, CycleGAN, Pix2Pix and the classic GAN.【期刊名称】《宁波大学学报(理工版)》【年(卷),期】2019(032)005【总页数】6页(P30-35)【关键词】结构相似性指数;最小二乘生成对抗网络;图像艺术风格化;非真实感绘制【作者】董伟;赵杰煜【作者单位】宁波大学信息科学与工程学院, 浙江宁波 315211;宁波大学信息科学与工程学院, 浙江宁波 315211【正文语种】中文【中图分类】TP301.6随着大数据时代的来临与深度学习技术的兴起, 人工智能领域取得了快速发展, 使得研究者对人工智能的关注度以及社会大众对人工智能的憧憬得到空前提升[1-2]. 图像艺术风格化是近年来非真实感绘制领域的研究热点之一, 其主要考虑如何利用计算机模拟某种艺术风格绘制素描、水彩以及油画等[3]. 因此, 在海量图像数据下, 运用深度学习技术来实现图像艺术风格化具有重要意义.已有学者提出了一些图像艺术风格化算法和基于生成对抗网络的图像风格转换算法. 如Gatys等[4]首次运用深度学习来实现图像的艺术风格转换, 通过卷积神经网络中间层输出特征图的统计特性来对图像内容以及风格特征进行提取和量化, 虽然效果惊艳, 但每幅图像的渲染都要经过漫长的学习过程, 在多轮迭代计算中逐像素地施加纹理. 文献[5-6]在Gatys的基础上提出了一种实时图像艺术风格化算法, 通过预训练VGGNet提取图像的高维抽象特征用以构建损失函数, 同时使用图像转换网络来存储风格的纹理特征. 该算法实验效果良好, 但每次仅仅学习到单张图片的艺术风格. Isola等[7]提出了一种监督性风格转换框架Pix2Pix. 该算法要求训练样本配对, 即已知输入图像的风格化结果, 因此为了使生成器产生更逼真的结果,该算法引入范数来惩罚生成结果与真实结果之间的差异. 为了解决Pix2Pix训练数据需要配对的问题, Zhu等[8]提出了无监督风格转换框架CycleGAN, 引入循环一致性理论,使用两组生成器和判别器, 将源域中一幅图像依次经过源域到目标域的映射, 以及目标域到源域的映射后得到源图像的重建图像, 并使用范数约束重建图像与源图像越相近越好. Yi等[9]提出了基于对偶学习和范数的无监督图像风格转换DualGAN. 近期, 谢志峰等[10]提出了一种基于CycleGAN生成高低曝光图片, 并结合输入图像, 实现了HDR风格迁移. 林嘉骏等[11]提出了一种基于像素级GAN的灰度图像彩色化模型, 目标函数使用范数作为彩色化优化项. 上述基于GAN的图像风格转换算法都使用范数作为生成器损失函数的一部分, 但范数只是从像素角度去衡量图像之间的差异性, 并没有充分利用图像的结构信息.本文结合结构相似性指数(Structural Similarity Index Measurement, SSIM)[12]和最小二乘生成对抗网络(Least Squares Generate Adversarial Nets, LSGAN)[13], 提出一种在图像内容特征和风格特征保持平衡的图像艺术风格化算法, 使得在图像细节生成上有更出色的表现.2014年Goodfellow等[14]首次提出了生成对抗网络(Generative Adversarial Nets, GAN), 成为深度学习结合生成模型和判别模型的成功典范. GAN将一个对抗性判别器模型(判别器)巧妙地结合到一个生成模型(生成器)中, 生成器生成数据, 判别器判断该数据的真伪, 二者相互竞争, 相互促进, 生成器产生的结果愈来愈真, 达到以假乱真的程度; 判别器的能力也愈来愈强, 对于真假数据的判别越来越强. GAN 训练过程是一个全自动的非指导性学习过程, 几乎无需人工干预. 已有的研究表明[15-18], GAN在诸如图像生成、图像超分辨和半监督学习等各种任务中发挥着重要作用.GAN的基本思想是同时训练一个判别器和一个生成器, 判别器旨在区分真实样本和生成样本; 而生成器试图尽可能“欺骗”判别器, 使得判别器误认为生成样本为真实样本. 生成器与判别器均可以采用深度神经网络[19]. GAN的优化过程可以描述为一个“二元极小极大”问题, 目标函数为[12]:式中: 是随机噪声的分布; 是真实样本的分布; 表示计算期望值.对于生成器G, 目标是, 由于与目标无关, 因此仅需要最大化, 即生成器生成的结果需要成功“误导”判别器的输出结果. 对于判别器, 目标是, 因此需要最大化和最小化, 即判别器需要区分样本是真实样本还是生成样本.构建一个基于SSIM和LSGAN的残差网络进行图像艺术风格化学习. 网络的搭建借鉴了深度残差网络(ResNet)[20]和LSGAN. 其中生成器网络结构包含3个部分: 卷积层、残差块以及转置卷积层, 分别具有不同的卷积步长和模板数, 在对抗训练过程中完成对输入图像内容和目标图像风格特征的提取以及二者之间的融合过程. 判别器网络结构由卷积层构成, 在对抗训练过程中完成对生成样本和真实样本的区分.本研究的图像艺术风格化模型如图1所示, 由2组生成器和判别器构成. 在模型训练学习过程中, 人脸图像经过生成器生成具有素描绘制风格的人脸肖像, 判别器学习正确区分当前作品是否由生成器生成. 同时, 人脸素描图片经过生成器转换为对应现实状态下的人脸图像, 判别器学习正确区分当前图像是否由生成器转换过来. 本模型生成器的网络结构搭建借鉴了He等[20]提出的深度残差网络, 包括3个部分: 前部由3个卷积层构成; 中部由9个残差块构成; 尾部由2个转置卷积层和1个卷积层构成. 除第一层和最后一层卷积层使用了的卷积核, 滑动步长取1, 其余卷积层均采用的卷积核, 滑动步长取2. 生成器与生成器均采用相同的网络结构.图像艺术风格化模型的判别器网络结构是由5个卷积操作组成的深度卷积神经网络. 输入为生成器产生的生成样本和真实样本, 输出为判断结果. 判别器与判别器均采用相同的网络结构. 生成器和判别器的网络结构信息见表1. 由表1可知, 1~25层为生成器, 26~30层为判别器. 生成器除转置卷积操作外, 其余卷积操作之前均采用边缘镜像填充进行补零. 除生成器输出卷积层外, 其余所有卷积操作后都添加一个实例归一化层和ReLU激活函数层, 生成器输出层采用Tanh作为激活函数. 判别器除输出卷积层外, 其余卷积操作后均添加一个实例归一化层和LeakyReLU层. 在判别器中使用LeakyReLU作为激活函数, LeakyReLU是ReLU激活函数的改进版本.在确定模型的目标函数时, 借鉴文献[13]提出的最小二乘生成对抗网络的相关理论, 在生成器和判别器训练过程中生成器试图尽可能“欺骗”判别器, 使判别器误认生成样本为真实样本, 即学习最小化. 同时, 判别器通过不断地学习, 提升识别生成样本与真实样本的能力, 使其对生成样本的评分更低, 真实图评分更高, 即学习最小化和.生成器的损失函数为:判别器的损失函数为:同理, 生成器的损失函数为:同理, 判别器的损失函数为:为了进一步优化GAN的精度, 本文在LSGAN的损失函数的基础上, 在生成器的损失函数中添加重建损失函数作为损失函数的一部分. 为衡量生成器输入图像与其重建图像之间的差异程度, 引入SSIM来量化二者的相似性. 对输入图像与其重建图像的结构相似度定义为:则生成器重建损失函数项为:最终, 生成器的损失函数为:式中用于控制对抗损失项与重建损失项间的相对重要性.Step1 输入图片集X、图片集Y、生成器及其对应参数、判别器及其对应参数、生成器及其对应参数、判别器DX及其对应参数、权重系数、最大循环次数Nepoch、当前迭代次数t、开始减小学习率的回合数Noffset、生成器初始学习率和判别器初始学习率.Step2 随机初始化、、和.Step3 更新迭代次数.Step4 从集合X和Y中采样一张图像, 将其输入到对应的生成器得到相应的生成样本, 对真实样本以及生成样本分别打上1和0标签.Step5 将生成样本输入到对应的生成器, 得到图像的重建图像, 并计算各生成器重建损失.Step6 生成样本与真实样本分别输入判别器, 计算判别器目标函数, 最小化该目标函数, 同时根据误差, 采用误差反传和改进后Adam优化更新判别器的权值; 同理, 对判别器进行权值更新.Step7 对生成器进行优化, 同时最小化生成器目标函数, 同样采取误差反传与改进后的Adam优化更新生成器的权值; 同理, 对生成器进行优化并更新权值.Step8 判断当前迭代次数t与Noffset的大小关系, 然后更新学习率的值.Step9 循环计算Step3至Step 9, 直至达到最大循环次数.将本文提出的方法在2个不同艺术风格的数据集上进行实验, 通过与DualGAN算法[9]、CycleGAN算法[8]、Pix2Pix算法[7]和GAN算法[8]的对比, 验证本文算法的有效性, 并将该方法应用到具有中国特色的水墨画进行风格转换. 在水墨画风格转换实验中, 图片集X采用horse2zebra数据集中马的图片, 图片集Y采用从百度图片爬取的徐悲鸿所绘水墨画马的图片(图2). 利用Python的OpenCV库对爬取到的图片进行预处理, 将所有图片大小裁剪到像素128×128. 同时, 采用数据增强技术对图片集Y中的数据进行扩充. 实验环境为Intel Xeon Silver 4116 2.1GHz CPU, 128G内存, GPU为NVIDIA TITAN XP, 深度学习框架TensorFlow 1.8.0. 采用人脸素描风格数据集sketch-photo和中国水墨画风格数据集beihong-photo进行实验, 其中beihong-photo由宁波大学计算科学与技术研究所收集并创建. sketch-photo和beihong-photo的训练集和测试集包含的样本数量见表2. 本文提出方法基于TensorFlow深度学习框架实现, 使用GPU进行运算加速. 优化算法采用改进后Adam, 生成器初始学习率为0.0002, 判别器初始学习率为0.0001. 前100回合学习率不发生变化, 后100回合学习率开始线性衰减. 最大循环次数Nepoch为200, 重建损失函数项的比重λ为4.图3给出了5组实验在sketch-photo数据集的风格转换结果. 从图3可以发现, GAN算法和Pix2Pix算法生成的素描肖像比较模糊, 尤其在眼睛部位; DualGAN算法在输入图像色系偏暗情况下, 生成的素描肖像不太理想, 出现大片黑块; CycleGAN算法在输入图像佩戴眼镜情况下, 生成的素描肖像在眼镜部分发生了扭曲, 没有将眼镜与眉毛二者之间的细节信息很好地保存. 本文提出的算法能够很好地保留人脸五官细节信息, 同时可以保证生成的素描肖像轮廓不会扭曲.选取Kernel MMD(Maximum Mean Discrepancy, MMD)[21]、Wasserstein距离、FID(Fréchet Inception Distance, FID)[22]以及IS(Inception Score, IS)[23] 4种评价指标, 对本文算法与DualGAN算法、CycleGAN算法在sketch-photo数据集上进行定量评估, 评估结果见表3. Kernel MMD评估指标是在给定核函数下度量了真实分布与生成分布之间的差异; Wasserstein距离评估指标是通过计算Wasserstein距离来区分真实分布与生成分布的差异性; FID是将真实分布与生成分布建模为高斯随机变量, 并计算Fréchet距离来衡量真实分布与生成分布之间的差异性; MMD、Wasserstein距离以及FID指标分别从不同角度来衡量真实分布与生成样本之间的差异性, 值越小模型越好. 从表3可发现, 本文提出的方法能更好地拟合目标数据集的真实样本分布. IS评估指标是计算生成图像在Inception网络中产生的logit响应和边缘分布的KL散度来衡量GAN生成图片的质量以及多样性, 值越大模型越好. 从表3可发现, 本文算法与其他2种方法在该指标上差异不大, IS是评价现实图片与生成图片的区别, 而用在绘画风格上效果不明显.将本文提出方法应用到具有中国特色的水墨画风格转换中, 结果如图4所示. 从图4可发现, 本文算法可以学习到徐悲鸿先生的绘画风格, 尤其在马的鬃毛和马尾等部位的处理.本文结合结构相似性指数和最小二乘生成对抗网络, 提出一种在图像内容特征和风格特征保持平衡的图像艺术风格化算法. 实验结果表明, 在成功训练完一个GAN后, 利用生成器的强大生成能力, 可以获得高质量风格化作品. 下一步将对本模型进行改进, 使得模型能够学习到更加抽象的艺术绘制风格.【相关文献】[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553):436-444.[2] Bengio Y. Learning deep architectures for AI[J]. Foundations and Trends in Machine Learning, 2009, 2(1): 1-55.[3] 曹毅. 基于图像的水墨画绘制方法的研究[D]. 长春: 吉林大学, 2012.[4] Gatys L A, Ecker A S, Bethge M. Image style transfer using convolutional neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Communication Society, 2016:2414-2423.[5] Johnson J, Alahi A, Li F F. Perceptual losses for real-time style transfer and super-resolution[C]//European Conference on Computer Vision. Berlin: Springer, 2016:694-711.[6] Ulyanov D, Lebedev V, Vedaldi A, et al. Texture networks: Feed-forward synthesis of textures and stylized images [C]//Proceedings of 33rd International Conference on Machine Learning. New York: ACM, 2016:1349-1357.[7] Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Computer Society, 2017: 5967-5976.[8] Zhu J Y, Park T, Isola P, et al. Unpaired Image-to-image translation using cycle-consistent adversarial networks[C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE Computer Society, 2017:2242-2251.[9] Yi Z, Zhang H, Tan P, et al. DualGAN: Unsupervised dual learning for image-to-image translation[C]//IEEE International Conference on Computer Vision. New York: IEEE Computer Society, 2017:2868-2876.[10] 谢志峰, 叶冠桦, 闫淑萁, 等. 基于生成对抗网络的HDR图像风格迁移技术[J]. 上海大学学报(自然科学版), 2018, 24(4):524-534.[11] 林嘉骏, 诸葛晶晶, 张晴. 基于像素级生成对抗网络的复杂场景灰度图彩色化[J]. 计算机辅助设计与图形学学报, 2019, 31(3):439-446.[12] Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: From error visibility to structural similarity [J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612. [13] Mao X, Li Q, Xie H, et al. Least squares generative adversarial networks[C]//IEEE International Conference on Computer Vision. New York: IEEE Computer Society, 2017:2813-2821.[14] Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarialnets[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems.Massachusetts: MIT Press, 2014: 2672-2680.[15] Nguyen A, Clune J, Bengio Y, et al. Plug & play generative networks: Conditional iterative generation of images in latent space[C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Computer Society, 2017:3510-3520.[16] Li C, Wand M. Precomputed real-time texture synthesis with markovian generative adversarial networks[C]// European Conference on Computer Vision. Berlin: Springer, 2016:702-716.[17] Ledig C, Theis L, Huszár F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Computer Society, 2017:105-114.[18] Zhang H, Xu T, Li H. StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks[C]//IEEE International Conference on Computer Vision. New York: IEEE Computer Society, 2017:5908-5916.[19] 王坤峰, 苟超, 段艳杰, 等. 生成式对抗网络GAN的研究进展与展望[J]. 自动化学报, 2017,43(3):321-332.[20] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Computer Society, 2016:770-778.[21] Gretton A, Fukumizu K H, Teo C, et al. A kernel method for the two-sample-problem[C]//Advances in Neural Information Processing Systems 19 Proceedings of the 2006 Conference. Massachusetts: MIT Press, 2007:1672- 1678.[22] Heusel M, Ramsauer H, Unterthiner T, et al. GANs trained by a two time-scale update rule converge to a local nash equilibrium[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.Massachusetts: MIT Press, 2017: 6626-6637.[23] Salimans T, Goodfellow I J, Zaremba W, et al. Improved techniques for training GANs[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems.Massachusetts: MIT Press, 2016: 2232-2242.。
生成对抗网络在人脸生成和人脸识别中的应用生成对抗网络(Generative Adversarial Networks,简称GAN)是一种由生成网络和判别网络组成的深度学习模型,近年来在人脸生成和人脸识别领域取得了重要的应用成果。
GAN通过对抗训练的方式,使得生成网络可以从随机噪声中生成逼真的人脸图像,同时判别网络可以准确地判断真实图像和生成图像的差异。
这一技术在人工智能领域引起了广泛关注,并在许多实际应用中取得了突破性进展。
首先,GAN在人脸生成方面具有重要应用。
传统的人脸合成技术往往需要大量的样本数据和复杂的算法来实现逼真效果。
而GAN通过学习大量真实人脸图像数据集,并结合随机噪声输入,在没有样本数据情况下也能够生成具有高度逼真度和多样性的虚拟人脸图像。
这种无监督学习方式使得GAN具备了更广泛应用于虚拟现实、游戏开发、影视特效等领域。
其次,在人脸识别方面,GAN也发挥着重要作用。
传统的人脸识别技术主要依赖于特征提取和匹配算法,但往往受到光照、姿态和表情等因素的影响,导致识别准确度较低。
而GAN可以通过生成逼真的人脸图像,提供更多的训练样本,从而增强人脸识别系统的鲁棒性和准确度。
此外,GAN还可以通过生成对抗训练方式,对抗攻击性样本(Adversarial Examples)对人脸识别系统的干扰。
这种技术可以有效提高人脸识别系统对抗攻击的能力。
另外,GAN还能够应用于人脸属性编辑和重建等方面。
通过学习真实数据集中的属性信息,并在生成网络中进行属性编辑操作,GAN可以实现对人脸图像中特定属性(如年龄、性别、表情等)进行修改或重建。
这种技术在影视特效、广告设计等领域具有广泛应用前景。
然而,在实际应用中,GAN也面临着一些挑战和问题。
首先是数据集质量问题。
由于生成网络依赖于大量真实数据集进行学习,在数据集质量较低或存在偏差时可能导致生成图像的质量下降。
其次是生成图像的多样性问题。
生成网络往往倾向于生成与训练样本相似的图像,导致生成图像缺乏多样性。