基于特征融合人脸识别
- 格式:doc
- 大小:24.50 KB
- 文档页数:5
如何使用AI技术进行智能化人脸识别与身份验证智能化人脸识别与身份验证是一种利用AI技术来识别和验证人脸信息的高级技术。
它广泛应用于各个领域,包括安全监控、金融交易、手机解锁等。
本文将介绍如何使用AI技术进行智能化人脸识别与身份验证,并对其原理和发展趋势进行探讨。
一、智能化人脸识别技术介绍1.1 什么是智能化人脸识别智能化人脸识别技术将传统的基于图像处理的人脸识别方法与机器学习相结合,通过深度学习神经网络模型,能够准确地提取并匹配出独特的面部特征,并根据特征比对结果来进行身份认证。
1.2 智能化人脸识别的原理智能化人脸识别主要包括两个步骤:特征提取和特征匹配。
首先,通过卷积神经网络(CNN)等深度学习模型,将人脸图像转换成数字矩阵,并提取出高维度的特征表示。
这些特征表示能够准确地反映人脸的形状、纹理、轮廓等信息。
其次,将提取得到的特征与数据库中存储的人脸特征进行比对,通过计算相似度或距离来确定是否匹配成功。
常用的比对方法有欧氏距离、余弦相似度等。
二、智能化人脸识别在身份验证中的应用2.1 安全监控领域智能化人脸识别技术在安全监控领域得到广泛应用。
它可以通过分析视频流或图像数据中的人脸信息,实时识别出陌生人员或可疑行为,并向相关部门发送警报,加强对公共场所的安全管理。
2.2 金融交易领域在金融交易中,智能化人脸识别技术被用于身份验证和防止欺诈行为。
用户在进行网上银行交易或支付时,系统会通过摄像头获取用户面部图像,并与事先注册的人脸特征进行比对,以确保交易过程的安全性和真实性。
2.3 手机解锁与支付领域智能手机现已广泛采用人脸识别技术来解锁设备和进行支付操作。
用户只需要通过正面摄像头将自己的面部对准屏幕,系统即可快速识别并解锁,提供便捷的用户体验,并加强设备的安全性。
三、智能化人脸识别技术的优势和挑战3.1 优势智能化人脸识别技术具有以下几个明显优势:- 高准确性:深度学习模型使得人脸识别的准确度大大提高,极大程度上避免了传统图像处理方法中对光线、姿态等因素的影响。
手机人脸识别原理
手机人脸识别技术是一种通过手机摄像头对用户脸部特征进行检测和分析,从而确定用户身份的技术。
它主要基于以下原理:
1. 提取脸部特征:手机摄像头拍摄用户的脸部图像,并通过图像处理算法将图像中的脸部特征提取出来。
这些脸部特征可以包括人脸的轮廓、眼睛、嘴巴、鼻子等部位的位置和形状信息。
2. 特征比对和匹配:将提取的脸部特征与事先存储在手机内部的特征模板或数据库中的特征进行比对和匹配。
这些特征模板通常是通过用户在手机上进行人脸注册时生成的,其中包含用户脸部特征的数学描述。
3. 人脸比对算法:手机人脸识别技术还依赖于一系列人脸比对算法,例如相似度计算、特征融合等。
这些算法可以通过将提取的脸部特征与特征模板进行比对,计算相似度得分,并确定用户身份。
4. 图像采集和预处理:手机在进行人脸识别时需要对图像进行采集和预处理。
采集时需要保证光线条件充足,并采集多张角度不同、表情不同的图像以增加准确性。
预处理阶段主要包括人脸检测、人脸对齐、图像增强等步骤,以提高对脸部特征的提取和匹配的精度。
5. 脸部识别模型的训练:为了实现准确的人脸识别,手机人脸识别系统需要经过大量的数据训练。
数据集通常包含各种光照条件下的人脸图像,用于训练人脸识别模型。
这些模型可以通
过机器学习和深度学习方法进行训练,以提高人脸识别算法的准确性和鲁棒性。
综上所述,手机人脸识别技术通过摄像头采集用户的脸部图像,提取脸部特征,并将其与事先存储的特征模板进行比对和匹配,从而实现对用户身份的识别。
这项技术在手机解锁、支付安全、人脸表情识别等领域具有广泛应用。
第33卷第2期计算机辅助设计与图形学学报Vol.33No.2 2021年2月Journal of Computer-Aided Design & Computer Graphics Feb. 2021基于增强特征融合网络的行人重识别方法刘玉杰1), 周彩云1), 李宗民1), 李华2,3)1) (中国石油大学(华东)计算机科学与技术学院青岛 266580)2) (中国科学院计算技术研究所智能信息处理重点实验室北京 100190)3) (中国科学院大学北京 100049)(****************.cn)摘要: 针对行人重识别技术受遮挡、背景冗余、光照、姿态以及检测误差等问题的影响, 鲁棒的行人特征表达对正确检索行人越来越重要. 为了利用对齐特征和度量学习的优势, 进一步分析局部空间语义特征. 首先, 在特征层面: 一是在ResNet50框架中嵌入空间变换结构, 自适应对齐局部区域空间特征, 解决因局部区域不对齐导致的空间语义不一致的问题; 二是通过对齐的局部特征设计一种增强特征融合网络, 充分利用语义信息间的关联性提取图像的细节特征. 然后, 在损失函数层面: 提出一种排序矩阵方法选取区域样本对, 设计了一种局部三元组损失计算方法, 联合正则化分类损失共同训练网络, 充分利用融合的增强特征, 达到高效度量的效果. 最后, 文中方法结合现有的重排算法进一步提高了Rank-1与mAP检索精度, 在行人重识别基准数据集Market-1501上的实验结果, 证明了本文方法的有效性.关键词: 空间语义特征; 增强特征融合网络; 排序矩阵; 局部三元组损失中图法分类号: TP391.41 DOI: 10.3724/SP.J.1089.2021.18303Strong Feature Fusion Networks for Person Re-IdentificationLiu Yujie1), Zhou Caiyun1), Li Zongmin1), and Li Hua2,3)1) (College of Computer Science and Technology, China University of Petroleum, Qingdao 266580)2) (Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing100190)3) (University of Chinese Academy of Sciences, Beijing 100049)Abstract: With the development of deep learning, the performance of person Re-Identification (Re-ID) has been significantly improved. It’s still a challenging task due to the challenges coming from large variations on persons such as occlusion, background clutter, pose, illumination and detection failure, etc. To retrieve true pedestrians, robust feature expression is significant. Instead of using external cues, this paper takes advantage of robust align-ment features and metric learning. First, from the aspect of feature extraction, there were three contributions. (i) Embeded a spatial transformer network in the network architecture, which is called ResNet_STN in this paper, which can solve the problem of local spatial semantic feature inconsistency, accurately express the main charac-teristics of the target, and achieve pedestrian alignment. (ii) Designed a strong feature fusion network based on the aligned local features, which is named a Strong Feature Fusion Module (SFFM) and can make full use of the connection between semantic information to extract detailed features of images. Then, from the aspect of metric loss function, one contribution was put forward. (iii) Proposed a Ranking Matrix (RM) method to select local收稿日期: 2020-04-07; 修回日期: 2020-06-29. 基金项目: 国家自然科学基金(61379106, 61379082, 61227802); 山东省自然科学基金(ZR2013FM036, ZR2015FM011). 刘玉杰(1971—), 男, 博士, 副教授, CCF会员, 主要研究方向为计算机图形图像处理、多媒体数据分析、多媒体数据库; 周彩云(1995—), 女, 硕士研究生, 主要研究方向为行人重识别、图像检索; 李宗民(1965—), 男, 博士, 教授, 博士生导师, CCF会员, 主要研究方向为计算机图形学、图像处理、模式识别、科学计算可视化; 李华(1957—), 男, 博士, 研究员, 博士生导师, CCF会员, 主要研究方向为计算机图形图像处理.第2期刘玉杰, 等: 基于增强特征融合网络的行人重识别方法 233triplet samples and compute local triplet loss. We combined a regularized classification loss to train the network to unleash the discrimination ability of the learned strong representations of this network architecture. Finally, the proposed method with the existing re-ranking algorithm to further improves Rank-1 and mAP retrieval accuracy. Experimental results on Market-1501 dataset demonstrate the effectiveness of our proposed method.Key words: spatial semantic feature; strong feature fusion networks; ranking matrix; local triplet loss随着互联网技术的不断进步, 人脸识别[1]、目标追踪[2]以及行人再识别[3]等行人智能认知技术日益发展, 并逐渐用于商业应用. 行人重识别(person re-identification)任务旨在给定1幅行人的查询图像, 在大规模的行人数据中检索出不同摄像头下拍摄的与其最相似的前k幅图像, 被视为一种跨摄像头的图像检索[4]任务. 由于训练数据与测试数据的行人身份不重合, 所以也看做一种零样本学习[1]问题. 该技术可以与行人检测[5]、目标跟踪[2]等技术结合应用于智能视频监控、智能安保、智能交通等领域. 在现实场景中, 如刑侦破案以及特定场景下的识人、寻人问题上具有广泛的应用前景.随着深度学习的不断发展, 在计算机视觉领域更深层的网络[6]被应用到行人重识别任务中, 优化了识别效果. 但随着更深层网络的提出, 底层细节信息随着卷积层的加深往往会丢失. 同时, 受背景冗余、遮挡、光照、摄像头拍摄角度、运动模糊和检测误差等问题的影响, 导致行人图像间的差异很大, 不易区分. 由此, 提取鲁棒的行人特征表示[7-9]以及应用高效的相似性度量方法[10-13]仍是重中之重.(1) 特征层面. 目前, 在有监督行人重识别任务中, 为了提取更具判别力的行人特征, 全局特征通常会联合局部特征共同表征行人的整体信息, 但由于背景冗余、遮挡和摄像头拍摄角度不同, 会带来极大的局部区域偏差, 导致局部语义空间不一致的问题. 本文在不引入额外的姿态估计模型以及关键点信息的前提下, 通过嵌入空间变换结构解决行人图像间区域不对齐的问题. 为进一步表达图像局部区域之间的关联性并提取目标区域的显著性特征, 本文利用对齐的相邻区域设计了增强特征融合模块(strong feature fusion module, SFFM), 在不引入其他模型的情况下粗定位行人的关键区域, 增强网络的判别力.(2) 损失层面. 行人重识别作为一种分类任务, 常用交叉熵计算分类损失; 同时作为一种检索任务, 常用对比损失[11]、三元组损失[10,12]以及四元组损失[13]进行样本间的相似性度量. 为充分地利用融合网络提取的对齐增强特征, 本文采用分类损失和三元组损失训练网络, 提出一种排序矩阵(ranking matrix, RM), 根据特有的监督信息选取局部三元组样本, 设计了一种局部三元组损失计算方法. 同时考虑行人重识别作为一类特殊的检索问题, 即训练数据与测试数据中行人身份不重合, 为避免训练过程中过拟合现象的发生, 采用一种正则化的分类交叉熵损失, 进一步解决类内差异大、类间差异小的问题.本文根据网络框架输出的对齐特征, 设计3层级SFFM方法, 以增强特征的鲁棒性和表达能力; 同时提出RM方法选取三元组区域样本对, 并设计一种局部三元组损失计算方法准确度量样本间的相似性, 以达到正确聚类的效果; 整合新的网络框架ResNet_STN, 在经典的行人重识别数据集Market-1501上, 将现有的重排算法引入到本文方法中, 优化检索结果并进一步提高了检索精度.1 相关工作1.1行人重识别行人重识别作为一类特殊的检索问题, 一般是通过对数据图像进行特征提取, 获得其特征表示, 然后投影到特定的度量空间中进行相似性度量, 并依据相似性距离进行排序, 最终得到检索结果. 目前, 基于深度学习的行人重识别[14]发展迅速, 并逐步向限制场景下的应用阶段迈进. 近3年在计算机视觉会议CVPR, ICCV, ECCV发表的行人重识别方向的论文, 多数依旧是在特征表达以及相似性度量方面做工作, 但也有少量工作开始转向无监督跨域迁移, 利用生成对抗网络解决数据少、遮挡、视角变换等严峻问题, 有效提高了行人重识别的检索精度. 但是, 无论是在有监督的行人重识别还是解决无监督数据域分布问题上, 严峻的挑战依旧存在, 如行人换衣、姿态各异以及域风格适应问题仍然没有得到很好的解决. 因此, 如何设计网络结构提取更加鲁棒的行人特征, 以及寻找最优的度量学习方法匹配不同行人间的相似程度依旧是行人重识别中研究的重点.234 计算机辅助设计与图形学学报第33卷1.2增强特征融合为提取行人的显著性特征以及图像中具有判别力的属性特征(衣服LOGO、配饰、背包等), 大部分工作开始融合全局特征与局部特征, 但由于数据集中的行人图像存在背景冗余以及遮挡的情况, 所以局部特征的引入会带来特定区域的不对齐问题, 导致特征表达上的空间语义不一致. 语义一般针对图像数据而言, 一致是要求提取的特征具有一定的联系性. 在行人重识别任务中, 由于拍摄角度、场景变化、运动模糊等带来的不同图像中同一行人的部位不对准则会导致不同图像在空间上的语义特征表达不一致, 进而影响行人重识别的性能. 由此, Wei等[15]通过引入额外的姿态估计模型进行语义空间对齐, 虽然融合对齐后的局部特征提高了精度, 但额外模型的引入也带来了新的模型误差以及计算量. Li等[16]采用注意力机制的方法定位行人的关键区域, 增强目标的特征表达, 提取显著性特征来实现图像局部空间一致性, 但忽略了有用的边缘细节信息, 缺少语义信息间的关联性, 且这类方法一般需要额外的标注信息. 2017年, Zhang等[17]直接采用分块的方法学习局部区域特征并提出利用最短路径解决局部空间语义不一致的问题. 同年, 在Sun等[7]提出的基于局部区域的卷积基线(part-based convolutional baseline, PCB)网络中, 虽然利用简单的分块方法PCB取得了不错的检索效果, 但其前提条件是假设数据集中的行人图像对齐, 这忽略了行人图像中存在的背景冗余以及遮挡等问题带来的影响; 提出的局部池化优化(refined part pooling, RPP)方法需要进一步微调, 且不能端到端训练网络.针对以上问题, 本文在ResNet50框架中嵌入空间变换结构实现对齐, 主要针对输出的对齐特征设计了一种增强特征融合模块. 该模块分为3层级特征: 第1级特征提取行人的整体全局特征; 第2级特征提取行人空间分块区域的局部特征; 第3级特征利用对齐局部相邻区域的融合提取行人图像中的关联性特征, 充分利用了语义信息间的关联性达到弱注意力机制的效果, 既不需要大量的标注信息, 也不需要引入额外的姿态关键点模型.1.3相似性度量相似性度量旨在采用一种抽象的距离方式去刻画图像之间的相似程度. 在行人重识别任务中, 主要是将图像特征编码到欧几里得空间中, 根据样本间的欧几里得度量优化损失函数, 通过将函数最小化来控制正样本对,a pd以及负样本对,a nd之间的距离, 最终达到拉近正样本对、推开负样本对的效果, 即,,a p a nd d. 2014年, Yi等[18]在行人重识别问题上首次提出用一个统一的框架联合特征提取与度量学习进行端到端学习. Schroff等[10]首次将三元组损失引入到人脸识别领域并取得了突破性进展. 为提高网络的泛化能力以及收敛速度, Hermans等[12]选取困难样本三元组来更好地表达类内、类间的结构分布, 从而加快网络的训练速度并提升相似样本的区分能力. 目前, 度量学习在计算机视觉任务中非常有效, 在目标检索[4]、零样本学习[1]和人脸验证[10]等方向均有广泛应用.本文考虑三元组损失带来的过拟合、泛化能力差的问题, 采用困难样本三元组损失[12]作为相似性度量优化函数. 在充分拟合的基础上, 加入局部融合特征并计算其之间的相似性距离, 最终将设计的局部三元组损失联合类别约束进一步提升了网络对行人图像的区分能力.1.4重排算法重排算法(re-ranking, RK)旨在再次对检索排序结果进行重新排序. 本文采用基于k互近邻方式的重排算法[19], 在局部查询扩展方法基础上, 计算原始距离与杰卡德距离的加权集合作为最终的检索距离排序列表, 有效地降低了图像错误匹配的情况, 具体算法详见文献[19].2 本文方法针对行人重识别面临的挑战, 本文进一步探索局部语义信息之间的关联性, 提出一种基于增强特征融合网络的行人重识别方法. 搭建网络框架并在卷积层中引入空间变换结构, 以提取语义一致的局部特征; 设计新型融合模块, 以利用邻近区域的关联性信息提取到更强判别力的特征; 引入局部三元组损失计算方法, 并采用矩阵存储的形式, 以保留邻近区域的监督信息; 最终对3层级特征分别计算三元组损失和分类损失来约束样本间的相似程度, 进而达到正确检索行人的目的. 整体框架如图1所示, 主要由2部分构成: 嵌入空间变换结构的残差网络框架ResNet_STN和增强特征融合模块SFFM, 后者是本文的主要创新. 使用在ImageNet上预训练的ResNet50模型, 包括5个ResBlock模块和全局平均池化层(global average pooling, GAP), 每个ResBlock模块包括卷积层、归一化层、激活层(激活第2期 刘玉杰, 等: 基于增强特征融合网络的行人重识别方法 235函数采用ReLU)以及最大池化层, 通过移除最后的全连接层并根据行人类别数目增加对应映射的全连接层来预测行人类别概率. 在框架ResNet_STN 中, 利用输出的4ResBlock 的特征图作为空间变换结构的输入, 输出的M 个对齐局部特征在SFFM 中得到进一步的分析和利用. 在测试阶段将融合后的特征作为最终的行人检索特征, 进行相似性度量获得检索结果.图1 本文方法框架图2.1 网络模块(1) ResNet_STN. 选择在动作识别、图像检索等计算机视觉任务中取得显著成果的ResNet50网络结构作为本文模型的基本框架. 为解决引入局部特征带来的问题以及更好地利用本文提出的增强特征融合模块, 在该网络中嵌入可微分的空间变换结构[20]. 如图1所示的灰色虚线框, 在ResNet_STN 中引入了空间变换结构. 空间变换结构作为一种轻量级的通用模块, 可以无缝集成到任何网络架构中, 使神经网络能够主动变换特征图, 实现对网络内的数据仿射变换的操作, 该结构不需要额外关键点的标定, 能够根据分类任务自适应地将数据进行空间变换和对齐. 空间变换结构主要包含定位网络(localization net, LN)、网格变换以及线性采样3个组成部分, 将ResNet50输出的4ResBlock 的特征图作为输入, 利用LN 得到的M个空间位置参数, 根据空间变换计算得到对应的仿射变换参数12=[,,,]M θθθθ , 最后利用双线性插值方法实现局部区域位置的对准. 在本文实验中, LN 由1个卷积层和2个全连接层构成, 其他部分设置参考文献[20], 最终提取到局部空间语义一致的对齐特征, 并在核心方法SFFM 中得到利用.(2) SFFM. 如图2所示, 对于数据集中的多数样本而言, 同类目标虽然在外观上呈现多样性, 但具有相同的深层语义特征; 不同类目标之间, 即使外观有一定的相似性, 其语义却不相关, 因而利用分类模型便能很好地将行人,,A B C 进行归类识别. 但对于数据集中极为相似的样本, 如图2中行人C 的分类样本, 红色方框中的图像与行人C 外观相似、网络提取的语义特征也相似, 故将其错误分类.由此, 利用全局语义特征进行分类很大程度上会受限于数据集样本情况.为进一步提取样本间的显著性特征提高网络的区分能力, 设计了图1中红色虚线框中的SFFM 方法, 如图3所示. 根据ResNet_STN 输出的M 个对齐局部特征②, 除了将其全部融合作为全局特征①之外, 为表达图像局部区域之间的关联性, 本文进一步分析和利用M 个局部特征, 将相邻局部区域特征再次融合作为增强特征③, 最后融合特征①②③作为最终的检索行人特征. 在第3层级特征中, 增强特征融合后经过一个平均池化层GAP 得到M '个列向量, 其中, 2M M '=. 随后经过ϕ操作降低特征维度, ϕ由1个1×1卷积层、归一化层和激活层(激活函数采用ReLU)构成. 最后, 特征向量输入到由全连接层FC 和Softmax 函数构成的分类器中, 从而预测行人类别概率. 具体地, 损失部分见第2.2节. 第3.4节实验中, 在全局特征融合M 个局部特征的基础上, 验证了第3层级增强特征的进一步融合切实有效地提高了检索精度.图2 利用全局特征分类行人图像示意图236计算机辅助设计与图形学学报第33卷图3 增强特征融合模块结构图2.2 损失函数为了充分利用增强的融合特征来度量行人图像间的相似性, 本文采用正则化的分类损失以及三元组损失联合训练网络, 并使用梯度下降算法使得损失函数不断下降来进行优化, 最后在特征空间实现类内距离足够小、类间距离足够大的效果, 从而准确分类并检索出不同摄像头下的相似行人. 2.2.1 正则化分类损失在训练过程中, 对每个行人的图像x 做预测分类, 计算分类损失. 本文采用基于Softmax 激活函数的交叉熵损失训练分类器, Softmax 激活函数表示为1ee jnz j N zn P ==∑ (1)其中, N 为训练集类别总数; z 表示分类层输出得分, T j j z x=W ,T n n z x=W . 对于行人,1,2,3,,j j N ∈ , 其类别的概率为j P . 交叉熵分类损失为lsid1log()Nj j LP φ==-∑ (2) 本文考虑到行人重识别中训练与测试数据的行人身份不重合, 为避免过拟合现象的发生, 在原有的标签平滑(label-smoothing, LS)[21]方法基础上采用φ函数, 即,1,y jNy jN δφδδ⎧≠⎪⎪=⎨⎪-+=⎪⎩(3)并在本文网络中取得很好的效果. 其中, φ表示目标概率; 若y 表示的真值标签与j 相等, 则目标概率值较为接近1, 反之接近0; δ为常数, 在实验中设置0.1δ=. 在控制损失较小的情况下, 通过φ函数的引入, 一是提高模型的泛化能力, 防止过拟合现象的发生; 二是通过δ值控制分类预测值大小, 在一定程度上缩小了不同类别之间的差距, 提高分类任务的挑战性.如图3所示, 训练过程中, SFFM 方法中的全局特征以及()M M '+个局部特征分别计算分类损失, 最终的正则化分类损失为cla lsid lsidlsid 11111+= log() log()log()NG m m j j N M N M m m j j j m j m L L L L P P P φφφ'='''=====+-+-+-∑∑∑∑∑(4)2.2.2 三元组损失在三元组集合={,,}a p n S X X X 中, (,)a p X X 构成一对正例, 即表示同一行人的2幅图像,(,)a n X X 构成一对负例, 表示不同行人的2幅图像.相似性度量旨在优化函数达到让相似正样本对a X 与p X 之间的距离小于负样本对a X 与n X 之间距离的效果. 三元组损失公式为()()(()())22trip,,221 a p na p X X X a n L f X f X N f X f X γ+=---+∑(5)其中, trip N 表示三元组总数; , , a p n X X X S ∈; ()f ⋅为网络输出的特征; ()+max(,0)=⋅⋅. 通过最小化L , 达到拉近正样本、推开负样本的效果.考虑三元组损失中简单与困难样本的选取对网络模型具有重要作用, 且不同的采样策略对全局特征与局部特征的表征分布会有不同影响. 由此, 为使三元组损失函数在训练过程中更有效, 加快网络训练速度的同时提升对相似图像的区分能力, 采用困难样本三元组损失函数[12], 即通过欧几里得度量选取相同标签下距离最远的一对为正例, 以及不同标签下最近的一对为负例, 它们作为困难三元组样本[22]. 在一个批次处理中选取P 个行人的K 幅图像, tripN P K '=⨯. 由于硬件条件限制, 最大取trip64N '=, 困难样本三元组损失函数计算公式为()()()()2trihard21,,112a21,,1,, max minP Kii a p p Ki a i l nn K l P l iLf X f X fX f X γ===+==≠⎡=---⎢⎣⎤-+⎥⎦∑∑ (6)第2期 刘玉杰, 等: 基于增强特征融合网络的行人重识别方法 237在SFFM 方法中, 选用第1级特征和第3级特征做三元组损失, 为了避免网络训练过程中收敛速度慢, 没有用到第2级特征进一步联合损失计算. 如图3所示, 第1级特征计算全局三元组损失gt L , 即式(6). 图3中, 对于全局特征①, 对号表示利用ϕ操作之前的特征向量计算相似性, 而非叉号表示的归一化后的向量计算. 针对第3级特征, 提出一种RM 方法选取三元组区域样本对, 并计算局部三元组损失lt L , 对号表示利用第3级增强融合的特征计算lt L , 而不是利用叉号表示的第2级特征.(3) RM. 针对SFFM 方法中的第3级特征, 采用经过ϕ操作之后的归一化特征2[0,1]x y f f ''-∈计算一个批次大小tripN '中M '个局部特征之间的欧几里得度量, 归一化后的特征距离d 构成RM, 即{}22,e 1 ,1,2,,e +1x y x y f f x y f f d x y M ''''-''--'''=∀= (7) RM 表示为111RM ,1 = M x y M M M d d d d d ''''''⎡⎤⎢⎥⎢⎥⎢⎥⎣⎦M .RM 按序存储, 由此会保留一定的监督信息.选出RM M 中正样本对与负样本对下的对应区域的最小值, 即对角线区域,1,2,,mm d m M '∈ , 计算局部三元组损失ltL , 其公式为 lt ,,1+1+M mm mm a p a n m L d d M β'=⎡⎤=-⎣⎦'∑ (8) 最终三元组损失trip L 公式为trip gt lt L L L λ=+ (9) 其中, gt L 中的γ与ltL 中的β是常量超参阈值, 均用于控制三元组类内类间距离; λ表示局部三元组损失所占比重. 本文设置0.01γβ==, =2λ. 2.2.3 总优化损失函数 联合分类损失以及三元组损失作为整个网络的损失函数, 最终的总优化损失函数为total cla trip L L L =+ (10) 3 实验结果与分析 3.1 数据集介绍 本文选择在经典的行人重识别数据集Market- 1501[23]上进行评估. Market-1501是行人重识别领域的基准数据集, 一共有来自6个不同的摄像头1 501个行人的32 668幅图像. 数据集被分为训练集和测试集, 其中751个行人的12 936幅图像作为训练集, 剩余的750个行人的19 732幅图像作为测试集, 在测试集的750个行人中随机选择每个摄像头中的一幅图像作为查询图像, 共3 368幅查询图像. 对于每幅查询图像, 旨在从测试集中检索出最相似的行人图像序列. 因Market-1501数据集涉及不同视角、不同场景以及各类行人不同风格的图像, 相较来说比较接近真实场景应用, 故选择该数据集以验证本文方法的有效性.3.2 评价标准在Market-1501数据集中, 采用Rank-1准确率和平均准确率(mean average precision, mAP)作为评价标准.3.3 实验设置 实验基于深度学习框架PyTorch 实现, 在Windows 10操作系统、NVIDIA GeForce GTX TITAN X 以及4块NVIDIA Tesla P100的服务器上进行. 在数据预处理阶段, 针对Market-1501数据集的分布特点采用了色彩抖动、随机擦除、水平翻转进行数据预处理做数据增强, 初始化图像大小为256128⨯. 在训练过程中, 使用在ImageNet 数据上预训练的ResNet50模型为底层框架, 采取学习率更新策略, 并将最后一个残差块的步长设置为1, 增大行人的显著性特征. 实验设置局部区域=6M , 3M '=, 批量大小为64, 即16个行人各选取4幅图像, 训练迭代总次数为200次. 在测试阶段, 利用融合后的特征向量作为行人的整体特征,实现精准检索.3.4 实验分析表1所示为不同方法在Market-1501数据集上的评估结果, 其中SFFM ①②表示去掉第3级局部特征融合, 仅利用第1, 2级局部特征的融合作为最终的检索特征; +lt SFFM-L 表示在增强特征融合模块的基础上去掉局部三元组损失的优化; +RK 表示在本文方法上加入重排算法优化检索排序的结果. 可以看出, 本文方法较Res50-baseline [6]结果有明显提升, 在重排算法优化下, 其在Market-1501数据集上Rank-1达到94.22%, mAP 达到85.03%. 为进一步验证本文方法中增强特征融合模块及损失优化带来的效果, 表1中分别比较Res50-baseline, ResNet_STN, Res50-baseline+SFFM 以及本文方法238计算机辅助设计与图形学学报 第33卷分别去掉第3级局部融合特征和局部三元组损失、本文方法ResNet_STN+SFFM 以及本文方法结合重排后的效果. 对比发现, 第3级特征的进一步融合在mAP 上提升了7.7%, 在Rank-1上提升了2.7%; 此外, 局部三元组损失的加入有效地提高了精度, 在mAP 指标上提高了4.39%. 同时, 相比于Res50-baseline, ResNet_STN 的精度在Rank-1指标上也提高了2.29%.表1 不同方法在Market-1501数据集上的评估结果 %方法 Rank-1 mAP Res50-baseline [6]85.14 68.59ResNet_STN 87.43 70.38 Res50-baseline(+SFFM) 91.78 75.17 ResNet_STN(+SFFM )①② 90.17 74.10ResNet_STN(+SFFM-ltL )91.83 77.41ResNet_STN(+SFFM) 92.87 81.80+RK 94.22 85.03为了进一步验证局部特征之间对齐的相似程度, 随机选取10对正例样本统计归一化后的相似性距离[0,1]d ∈. 如图4所示, 对任意一对正例数据12{,}I I , 其对应的横坐标表示图像1I 的6个局部区域, 纵坐标表示图像2I 的6个局部区域, 计算两两局部特征间距离. 距离越小, 表示相似程度越高, 在图4中表示的颜色越浅; 距离越大, 表示相似程度越低, 在图4中表示的颜色越深. 根据随机选择的10对样本数据计算各部分平均距离的统计示例来看, min 21(,}), {1,,6}d I I ζζζ== , 即正例数据相对应的局部特征间的平均距离最小, 相似程度最高, 说明本文的网络模型提取到的局部特征达到了较好的对齐效果.图4 局部特征相似性度量统计示例 在Market-1501数据集中, 将本文方法与现有的行人重识别方法进行比较, 如表2所示. 对比方法包括传统方法(BoW+kissme [23], LOMO+XQDA [24])和深度学习方法(MSCAN [8], TripNet [12], GLAD [15],HA-CNN [16], AlignedReID [17], PCB [7], SRB [14]), 分析如下:(1) 相比于传统方法, 基于深度学习方法的准确率有大幅度的提升, 这也证明了深度学习在特征表示以及度量学习方面的优越性.(2) 相比于基准的分类识别方法MSCAN [8],TripNet [12], 本文方法在Market-1501数据集上的准确率结果都有大幅度的提高. 对比局部特征学习的方法GLAD [15], 本文方法不需要额外的姿态估计模型以及关键点信息, 这证明了本文方法有效地增强了特征表达, 从而提高行人重识别的性能.(3) 相比于现有的行人重识别方法SRB [14], 本文方法达到了相近的结果, 这主要是结合了鲁棒特征和度量学习的优势. SRB 方法利用行人的全局特征进行识别分类, 但是考虑行人图像本身的多样性以及相似性, 局部信息的引入往往会更加有助于区分性特征的表达. 以图2中行人C 的样本图像为例, 红色方框中的图像与其他行人图像外观相似、网络提取的全局特征也相似, 计算样本对特征之间的距离,,0a p a n d d ->, 所以容易将其分错.表2 13种方法在Market-1501数据集上的对比 %方法 Rank-1 mAP BoW+kissme [23] 44.42 20.76 LOMO+XQDA [24] 22.22 43.79 MSCAN [8] 80.31 57.53 TripNet [12] 84.92 69.14 TripNet(RK)[12] 86.67 81.07 GLAD [15] 89.90 73.90 HA-CNN [16] 91.20 75.70 AlignedReID [17] 91.80 79.30 PCB [7] 92.40 77.30 PCB+RPP [7] 93.80 81.60 SRB [14]94.50 85.90本文方法 92.87 81.80 本文方法(RK) 94.22 85.03本文方法通过融合增强的局部特征作为最终的行人特征表示, 如图5所示. 联合多层级局部区域信息提取到更具有区分性的细节特征(背包肩带、鞋子颜色), 计算得到样本间的欧几里得度量d a ,n >d a ,p , 因此能准确衡量正负样本间的相似程度, 最终优化目标函数达到拉近正例、推开负例的效果.。
基于多模态融合的图像识别算法研究随着人工智能技术的不断发展,图像识别算法被越来越广泛地应用于人们生活和工作中。
而基于多模态融合的图像识别算法,由于在多个角度提取图像信息,可以提高识别的准确率和鲁棒性,得到了越来越多的关注和研究。
一、多模态融合的概念所谓多模态融合,是指将来自不同传感器或源的信息进行整合,从而获得更丰富、更准确、更完整的信息。
在图像识别领域,多模态融合意味着将来自不同图像特征的信息融合在一起,以提高识别的准确性和效率。
二、基于多模态融合的图像识别算法基于多模态融合的图像识别算法,主要有以下三种类型:1.基于特征融合的算法特征融合是指将来自不同特征提取方法得到的特征进行融合,以提高识别的准确率。
具体方法包括加权平均、特征拼接、特征堆叠等。
其中,加权平均是最常用的方法,可以根据各特征在识别中的作用进行加权,从而得到更为准确的结果。
值得注意的是,特征融合的过程也会提高算法的复杂度,因此在实际应用中也需要对算法进行优化以提高效率。
2.基于决策融合的算法决策融合是指将多种分类器的结果进行整合,以得到更准确的分类结果。
在图像识别中,不同的分类器可以提取不同的特征,得出不同的结果。
这些结果可以通过加权求和、最大化投票等方式进行整合,得到更为准确的结果。
但是,在决策融合中,需要对各分类器的可靠性进行评估,并进行权重调整,以避免其对最终结果的影响。
3.基于任务融合的算法任务融合是指将多个任务的识别结果进行整合,以得到更为准确的结果。
在图像识别中,不同的任务可以包括目标物体的识别、物体的姿态估计和目标物体的识别等。
这些任务可以根据其在识别任务中的重要性进行加权求和或投票融合,以得到更为准确和完整的识别结果。
三、多模态融合的优势相较于单一模态的图像识别算法,基于多模态融合的算法具有以下优势:1.提高了识别准确率由于多种模态提取的特征相对较为独立,因此,通过多模态融合可以提高识别的准确性。
例如,在人脸识别领域中,可以将三维人脸模型和二维人脸图像进行融合,得到更为准确的人脸识别结果。
人脸识别技术的特征提取方法人脸识别技术是一种通过获取和分析人脸图像中的特征,来进行身份验证或者身份识别的技术。
而人脸识别技术的核心就是人脸特征的提取。
本文将介绍几种常用的人脸识别技术中的特征提取方法。
一、颜色信息的提取颜色信息是人脸图像中最直观的特征之一,通过对人脸图像进行色彩空间转换,即将RGB颜色空间转换为HSV颜色空间,可以提取出特定的颜色信息。
在HSV颜色空间中,H表示色调,S表示饱和度,V 表示亮度。
通过调整阈值,可以提取出人脸图像中的肤色信息,从而进行特征的提取和分析。
二、几何信息的提取几何信息是利用人脸图像中的形状和结构特征,通过计算和测量人脸各个部位之间的相对位置和大小关系来进行特征提取。
常见的几何信息包括眼睛间距、眼睛到鼻子的距离、嘴巴的大小等。
通过测量和计算这些几何信息,可以得到一个人脸的独特特征。
三、纹理信息的提取纹理信息是指人脸图像中由于皮肤质地、皱纹等因素造成的细微变化。
纹理信息的提取需要先将人脸图像进行分割,再对每个小区域进行纹理特征的提取。
常用的方法有局部二值模式(LBP)和高斯微分滤波器(GDF)等。
通过提取纹理信息,可以得到一个人脸图像的纹理特征。
四、特征融合除了单一的特征提取方法,还可以通过将不同的特征进行融合来得到更加准确的特征提取结果。
特征融合可以采用加权求和的方式,将不同特征的重要性进行评估,并根据重要性进行加权处理。
常见的特征融合方法有融合规则、融合加权和融合决策等。
五、深度学习方法近年来,深度学习方法在人脸识别技术中得到了广泛应用。
深度学习方法通过构建深层神经网络,利用多层次的特征提取和表达能力来实现人脸特征的提取。
常见的深度学习方法有卷积神经网络(CNN)和自编码器(Autoencoder)等。
总结:人脸识别技术的特征提取方法包括颜色信息的提取、几何信息的提取、纹理信息的提取、特征融合和深度学习方法。
不同的特征提取方法有不同的应用场景和优劣势,根据具体的需求选择合适的方法进行特征提取,可以提高人脸识别技术的准确度和稳定性。
基于几何特征与深度数据的三维人脸识别摘要:提出一种基于三维点云数据多特征融合的人脸识别方法。
利用深度信息提取人脸中分轮廓线和鼻尖横切轮廓线;采用曲率分析的方法定位出人脸关键点,针对鼻子等人脸刚性区域,选取并计算了4类(包括曲率、距离、体积和角度)共13维的特征向量作为三维几何特征。
深度图特征采用结合lbp与fisherface的方法进行提取与识别。
在3dface-xmu和zju-3dfed数据库上比较了该方法与pca、lbp等单一方法的识别性能,识别效果有比较明显的提升。
关键词:三维人脸识别;几何特征;深度图像;lbp算子;fisherface中图分类号:tp391 文献标识码:a 文章编号:1009-3044(2013)08-1864-051 概述基于二维图像的人脸识别算法经过半个多世纪的发展,已经取得了一定的研究成果。
随着lbp[1]和gabor[2]等算子的引入,以及子空间方法在人脸识别上的应用,人脸识别进入高速发展的时期。
然而研究表明[3],受限于所采用的数据形式,二维人脸识别方法不可避免的受到环境(如光照,背景等)和人脸本身(如姿态,表情等)等因素的影响。
因此本课题组赖海滨[4]、刘丹华[5]通过双目立体视觉技术获得了具有良好表征能力的人脸三维点云数据。
该文在此基础上研究了基于点云的三维人脸识别技术。
分别研究了基于几何特征以及基于深度图的三维人脸识别。
该文计算几何特征主要选取人脸的中分轮廓线、鼻尖横切轮廓线作为研究对象。
人脸的中分轮廓线上包括了前额、鼻子、嘴巴和下巴的缩影,呈现出了人脸中最突出的各个器官的轮廓。
鼻尖横切轮廓线上包含了鼻翼点和鼻尖点的信息,能够有效地表达鼻子宽度、鼻尖鼻翼所成角度等信息。
该文在人脸中分轮廓线和鼻尖横切轮廓线上定位了十三个特征点并根据这些特征点之间的关系计算出几何特征。
该文采用lbp算子提取人脸深度图的纹理特征。
利用分块的思想,将人脸均匀分成不同的区块,提取每个区块各自的lbp直方图特征,所有区块的直方图拼接以后得到空间增强直方图。
有关“人脸识别”的毕设课题
人脸识别的毕设课题涵盖了人脸识别的多个方面,包括基于深度学习的方法、多特征融合、字典学习、文本/语音驱动的动画生成、深度学习在人脸老化、表情识别、认证等方面的应用,以及基于生成模型的人脸图像合成与分析等。
这些课题的研究可以为人脸识别技术的发展和应用提供新的思路和方法。
有关“人脸识别”的毕设课题如下:
1.基于深度学习的人脸识别方法研究。
2.人脸表情识别关键技术研究。
3.基于多特征融合的人脸识别研究。
4.基于字典学习的人脸特征提取及识别研究。
5.基于文本/语音驱动的高自然度人脸动画生成研究。
6.基于深度学习的人脸老化合成研究。
7.基于深度学习的人脸表情识别研究。
8.基于深度学习的人脸认证方法研究。
9.基于特征学习的无约束环境下的人脸识别研究。
10.基于生成模型的人脸图像合成与分析研究。
基于多特征融合的人脸识别算法研究引言人脸识别作为一种重要的生物特征识别技术,在安全检测、身份认证、社交媒体等领域有着广泛的应用。
然而,在实际应用中,由于光照、姿态、遮挡等因素的影响,人脸识别算法的准确率和鲁棒性仍然存在挑战。
为了提高人脸识别算法的性能,研究者们不断探索新的方法和技术。
本文将从多特征融合角度出发,对人脸识别算法的研究进行深入探讨。
一、人脸识别算法概述人脸识别算法经历了从传统的特征提取方法到深度学习方法的发展过程。
传统的人脸识别算法主要包括主成分分析(PCA)、线性判别分析(LDA)等方法。
这些方法在一定程度上能够处理光照和姿态变化对人脸识别的干扰,但在面对遮挡和噪声等情况时效果不佳。
近年来,深度学习技术的兴起为人脸识别算法带来了革命性的进展。
深度学习模型能够通过大规模数据的训练,自动学习到更具有判别性的人脸特征,从而提高了人脸识别的准确率和鲁棒性。
其中,卷积神经网络(CNN)的应用尤为广泛。
CNN通过逐层的卷积和池化操作,自动提取图像中的局部特征,并将其映射到更高维度的特征空间。
然而,单一的特征提取方法仍然存在局限性,无法完全解决所有复杂的场景。
二、多特征融合的意义与方法多特征融合是一种将多个特征进行组合的技术,用于提高人脸识别算法的性能。
通过融合不同类型的特征,可以综合利用它们的优点,以应对不同的识别场景和问题。
多特征融合广泛应用于人脸识别算法中,包括传统的特征融合方法和基于深度学习的特征融合方法。
1. 传统特征融合方法传统的特征融合方法主要包括级联方法、投票方法和特征融合器方法等。
级联方法通过将不同特征提取方法串联起来,逐层进行特征融合,从而得到更具有判别性的特征表示。
投票方法将不同特征提取方法的分类结果进行融合,通过投票机制判断最终识别结果。
特征融合器方法则将不同特征提取方法得到的特征向量进行加权融合,从而得到更综合的特征表示。
2. 基于深度学习的特征融合方法基于深度学习的特征融合方法主要集中在多任务学习和网络结构设计两个方向。
基于多特征融合的人脸识别算法研究人脸识别技术已经得到了广泛的应用,在生活中也越来越常见,比如手机的解锁、考勤签到等场景都在使用人脸识别技术。
随着技术的发展,人脸识别算法也在不断地优化升级。
本文聚焦于基于多特征融合的人脸识别算法研究,介绍相关的理论基础、方法和应用场景。
一、人脸识别算法的理论基础人脸识别技术主要基于人脸图像的特征表达,根据不同的特征提取算法可以将人脸图像转化为特征向量,再将不同的特征向量进行比对,来完成人脸识别的任务。
传统的人脸识别技术主要包括基于PCA(主成分分析)的人脸识别和基于LDA(线性判别分析)的人脸识别。
相较于PCA,LDA可以更好地实现特征的提取和分类,但是LDA也存在一些问题,比如LDA只能用于二分类任务,而不能处理多分类任务等问题。
近年来,深度学习技术的发展为人脸识别算法的提升提供了新的思路和方法。
卷积神经网络(CNN)经过了大量的研究和实践,已经成为目前最为成功的深度学习算法之一。
基于深度学习的人脸识别算法可以在较高的准确率和实用性之间取得平衡,因此也成为了当前主流的人脸识别技术之一。
二、多特征融合的人脸识别算法多特征融合的人脸识别算法是指利用多种特征,结合不同的算法进行融合的一种方法。
这种方法相比于单一特征的方法,在识别准确率和鲁棒性上都有所提高。
多特征融合的人脸识别算法主要有以下几种:1.特征融合方法特征融合方法在多个特征提取算法中,采用某种加权或组合方式对这些特征进行加权处理,最终得出一个稳定可靠的特征向量。
一般来说,基于特征融合的方法的准确率会高于单一特征算法。
2.多分类器融合方法多分类器融合方法是将单一的人脸识别算法分别应用于多个分类器中,然后将它们的输出结果按一定的方式进行融合。
多分类器融合算法是一种常见的集成学习方法,相较于特征融合,多分类器融合算法的准确率更高,但训练时间和计算成本也更高。
3.异常检测方法异常检测方法是利用多个特征提取算法的输出结果中的共同点来判断异常情况。
提高人脸识别技术鲁棒性的实用技巧人脸识别技术是近年来广泛应用于安全领域的一项重要技术,它可以通过对人脸的独特特征进行检测和识别,实现自动身份认证和监控系统。
然而,当前的人脸识别技术在某些特殊情况下,如光照不均匀、姿态变化、表情变化等情况下,其准确性和鲁棒性还存在一定的挑战。
为了克服这些问题,下面将介绍几种提高人脸识别技术鲁棒性的实用技巧。
一、多特征融合技术为了提高人脸识别系统的准确性和鲁棒性,可以利用多个特征对同一个人脸进行识别。
目前常用的特征包括颜色特征、纹理特征、形状特征等。
通过将这些特征进行合成或融合,可以提高人脸识别系统对不同条件下的人脸的准确性和鲁棒性。
同时,多特征融合技术还可以提高系统的抗攻击性,减少伪造、欺骗等风险。
二、深度学习模型深度学习模型在人工智能领域广泛应用,对于人脸识别技术也有着重要的作用。
通过使用深度神经网络模型,可以学习到更丰富、更抽象的人脸特征表示,提高识别的准确性和鲁棒性。
同时,深度学习模型还可以通过大规模数据的训练,提高系统对不同场景、光照条件、表情变化等的适应性。
三、动态人脸识别技术传统的人脸识别技术主要基于静态图片进行识别,对于动态场景下的人脸识别存在一定的挑战。
为了提高人脸识别系统在动态场景下的鲁棒性,可以引入动态人脸识别技术。
该技术通过对视频序列进行分析和建模,从中提取出丰富的时间信息以及人脸运动特征,从而提高识别的准确性和鲁棒性。
动态人脸识别技术可以应用于监控和视频安防领域。
四、数据增强技术数据增强技术是一种有效的方法,通过对原始数据进行变换和扩充,提高数据集的多样性和丰富性。
对于人脸识别技术来说,数据增强技术可以通过人脸图像的旋转、平移、缩放、扭曲等操作,生成更多的训练样本,从而提高系统的泛化能力和鲁棒性。
此外,数据增强技术还可以用于解决数据不平衡的问题,提高对少样本类别的识别能力。
五、联合学习联合学习是一种分布式学习方法,通过多个参与方共同学习和训练模型,提高识别的准确性和鲁棒性。
特征融合的实现与应用随着人工智能技术的不断发展,特征融合作为一种重要的数据处理方式,在机器学习、计算机视觉、自然语言处理等领域得到了广泛的应用。
特征融合是指将不同属性、不同特征空间的信息进行融合,从而得到更加全面、准确、丰富的信息表达。
本文将探讨特征融合的实现方式和应用。
一、特征融合的实现方式1. 特征级联特征级联是指将不同特征空间的特征拼接在一起,形成一个更大的特征向量。
这种方式比较简单,但存在一些问题,如特征空间太大会导致维度灾难,从而影响模型的训练和泛化能力。
2. 特征加权特征加权是指对不同特征进行加权求和,其中权重可以通过学习得到。
这种方式可以通过学习得到每个特征对于模型的重要性,进而对每个特征进行加权。
3. 特征选择特征选择是指选择对模型训练和预测有较大贡献的特征。
这种方式可以通过统计方法和机器学习算法来实现。
4. 特征转换特征转换是指将不同特征空间的特征转换为同一特征空间,通常需要应用特定的映射函数或神经网络来实现。
这种方式可以减少特征维度,提高模型的性能。
二、特征融合的应用1. 人脸识别人脸识别是指通过人脸图像来识别个体身份。
特征融合在人脸识别中有广泛应用,如将颜色、纹理、深度等特征进行融合,提高识别准确率和鲁棒性。
2. 目标检测目标检测是指在图像或视频中检测特定目标。
特征融合在目标检测中也有重要应用,如将颜色、纹理、形状、运动等特征进行融合,提高目标检测的准确率和效率。
3. 自然语言处理自然语言处理是指通过计算机来处理人类自然语言。
特征融合在自然语言处理中也有应用,如将词向量、句向量、情感向量等特征进行融合,提高自然语言处理的准确率和多样性。
4. 推荐系统推荐系统是指根据用户的历史行为和偏好来为用户推荐信息或商品。
特征融合在推荐系统中也有应用,如将用户的历史行为、偏好、社交网络信息等特征进行融合,提高推荐系统的准确率和个性化程度。
三、总结特征融合是一种重要的数据处理方式,在机器学习、计算机视觉、自然语言处理等领域有广泛应用。
基于多特征融合的人脸识别算法苏饶;李菲菲;陈虬【摘要】针对局部二值模式描述子提取的纹理信息以及梯度幅值量化算子提取的边缘特征无法有效且全面地描述人脸信息的问题,文中提出一种基于马尔可夫稳态特征模型的多特征融合算法.首先,将通过GMQ算子提取的边缘特征以及通过LBP 描述子提取的纹理特征分别与马尔可夫稳态特征模型进行融合,然后再将两者进行有效地线性加权融合.最后,在ORL数据集上进行的实验显示,文中提出算法的识别精度可达到95.83%.与单一的特征提取算法以及常见的人脸识别算法对比结果表明了该方法的有效性.【期刊名称】《电子科技》【年(卷),期】2019(032)007【总页数】6页(P43-48)【关键词】人脸识别;局部二值模式;梯度幅值量化;马尔可夫稳态特征;线性加权融合;ORL数据集【作者】苏饶;李菲菲;陈虬【作者单位】上海理工大学光电信息与计算机工程学院,上海200093;上海理工大学光电信息与计算机工程学院,上海200093;上海理工大学光电信息与计算机工程学院,上海200093【正文语种】中文【中图分类】TP391.41人脸识别是一项基于人体生物特征的身份鉴别方法,主要涉及模式识别、图像处理、计算机视觉、心理学及生理学等多个交叉学科。
人脸识别已被应用于信息处理、行政执法、支付安全等领域,但由于其易受到光照、姿态及物体遮挡等复杂环境的影响,其识别性能还需要进一步完善。
人脸识别包括图像预处理、特征提取、匹配和识别等步骤。
其中特征提取主要包含全局特征及局部特征。
全局特征提取常用的方法包括:主成分分析(Principal Component Analysis,PCA)[1]、线性判别分析(Linear Discriminant Analysis,LDA)[2]以及独立成分分析(Independent Component Analysis,ICA)[3]等,旨在将高维的图像特征映射到低维子空间中,以表现出人脸的整体轮廓。
基于特征融合的人脸识别
摘要:针对单一的人脸特征在人脸识别中的局限性,本文将多种人脸特征进行融合以提高识别率。
通过对人脸图像提取pca、dct 和lbp特征向量,后通过数据融合理论进行多特征融合,最后经过fisher分类器进行识别,实验表明本文算法有效提高了人脸识别性能。
关键词:特征提取;主分量分析;离散余弦变换;局部二值模式;特征融合
中图分类号:tp391
早期的人脸识别是直接采用图像灰度作为人脸特征进行特征选
择或分类,如eigenfaces[1]、fisherfaces[2]等。
近年来,对图像灰度进行多尺度、多方向的小波变换日益成为人们分析人脸图像的重要手段。
针对单一特征在人脸识别中具有一定的局限性,假如通过不同的特征提取方法提取几种人脸特征,然后按照一定的规则进行融合,将有效地利用人脸的各种信息进而提高人脸识别率。
在此基础上本文提出了基于特征融合的了人脸识别方法,实验表明该方法有效地提高了人脸识别性能。
1 特征提取
特征提取在数据预处理阶段是一个非常关键的步骤,人脸特征的鲁棒性直接影响系统的识别性能,本文分别提取了人脸图像的pca、dct和lbp特征。
1.1 pca
主分量分析(pca)算法通过进行线性变换来寻找一组最优的单位正交向量基,并用这组向量的线性组合来重构原样本使得重构后的样本和原样本的均方误差最小。
计算全体训练样本的协方差矩阵s,将s的特征向量按特征值从大到小的顺序排列,选择较大的前r (r?m)个特征值对应的特征向量组成特征空间,这就是图像的主分量。
1.2 dct
离散余弦变换(dct)是一种常用的多尺度变换工具,通过dct 算法将图像数据变换到频域得到图像的低频和高频信息,主要信息将集中在变换后的低频系数中,根据计算要求,我们舍弃一部分高频信息,保留主要的低频信息。
当u(n)是一个向量时,经过dct变换得到的c(k×n),表示为:
通过离散余弦变换,一个序列被分解为余弦基序列的加权和,这些余弦基序列就是矩阵c的行向量[3],直接去除高频系数也可以降低图像的维数。
1.3 lbp
近年来基于局部二值模式(lbp)的人脸识别方法[4]受到了人们的关注。
在灰度图像中,像素值为像素的灰度。
基本的lbp算子[5]作用于一个大小固定为3~3的矩形块,如图1所示。
数学上,对于任意一幅图像,lbp 算子可描述如下:
(2)
其中:xc为中心点的灰度值,xp代表中心点某个邻节点的灰度值,下标p表示邻域,r 表示圆形邻域的半径。
s()为阶梯函数。
使用lbp算子对整个图像进行逐行扫描得到一个lbp响应图像,计算响应图像的直方图得到图像的lbp直方图,它作为我们进行人脸识别的特征。
2 特征融合
数据融合在模式识别领域尤其是人脸识别方面有着诸多应用。
按照融合层次可将数据融合划分为数据融合、特征融合和决策融合。
多特征融合可以利用具有区分意义和互补信息的特征进行融合,确保了识别特征的鲁棒性[6]。
在特征融合阶段,将由通过lda、dct和lbp特征提取算法提取到的特征向量进行融合。
假设f1、f2和f3分别是通过lda、dct
和lbp算法得到特征向量,由于这三个特征向量维数不一致,因此对其先进行归一化,定义如下融合阶段的特征向量:
融合后的特征向量定义为
其中||.||代表向量的二范数。
3 实验结果与分析
实验采用的数据是orl人脸库,库中含有40个人的400幅图像,每人10幅,这些人脸图像是在不同的时间、光照、头部角度、面部表情和人脸细节条件下拍摄的,图像尺寸为92×112像素。
分类识别采用的是fisher方法,此方法使得同类之间样本更加聚集,不同类样本之间更加分离。
本文实验先通过训练不同数量样本得到
的识别结果进行比较,结果如下表。
实验设计了本文算法与各自单独使用pca、dct和lbp特征进行人脸识别的性能比较,结果如下
由上述表格可以看出,训练样本数量越多,识别率就越高,但是相应的计算量也会增加,因此要注意选择适合的训练样本数量。
在算法比较实验中,我们统一选取了每个人的5幅图像作为训练样本。
由比较结果可以看出,本文通过将多种特征进行融合有效地提高了人脸识别性能。
4 结论
本文提出了一种多特征融合的人脸识别方法,弥补了单一特征信息量不足的影响,通过将多种人脸特征归一化后进行融合,有效地提高了人脸识别性能。
后续工作中我们将对融合策略进一步优化,根据不同特征对识别效能的贡献设置相应的权重或融合方案,以使该方法具有更广泛的应用。
参考文献:
[1]turk m,pentland a.face recognition using eigenfaces.in:negahdaripour s,et al.,eds. proc.of the ieee conf.on computer vision and pattern recognition.maui:ieee computer society press,1991:586?591.
[2]belhumer p,hespanha p,kriegman d.eigenfaecs vs fisherfaces:recognition using class specific linear projection.ieee trans. on pattern analysis and machine
intelligence,1997,19(7):711?720.
[3]李建科,赵保军,张辉,焦继超.dct和lbp特征融合的人脸识别[j].北京理工大学学报,2010,11:1355-1359.
[4]王玮,黄非非,李见为,冯海亮.采用lbp金字塔的人脸描述与识别[j].计算机辅助设计与图形学学报,2009,21(1):94-106.
[5]ojala t,pietik?inen m,m?enp?? t.multiresolution gray-scale and rotation invariant texture classification with local binary patterns.ieee trans.on pattern analysis and machine intelligence,2002,24(7):971?987.
[6]刘冬梅,吕明磊,曾智勇.基于数据融合的人脸识别方法[j].计算机工程,2014,1.
作者简介:刘冬梅(1987-),女,山东泰安人,硕士研究生,研究方向:模式识别、图像处理。
作者单位:福建师范大学软件学院,福州 350108。