基于改进Mobilenet算法的深度人脸识别算法
- 格式:pdf
- 大小:1.42 MB
- 文档页数:6
基于MTCNN-facenet的档案人脸识别方法2云南云电同方科技有限公司,云南昆明 650217)摘要:在图像档案管理阶段,人物信息作为核心关键部分,人物信息的抽取显得十分重要。
通过人脸识别相关技术可以实现图像数据的高效管理和关键信息抽取。
针对档案人物图像的特点,提出了一种基于MTCNN-facenet的人脸识别方法,通过结合MTCNN与facenet来进行人脸图像深层特征获取,并结合PDM皮尔逊相关算法来进行人脸相关系数计算,有效避免了外界环境及其光照等对人脸图像的影响。
该方法的特征提取能力强,识别速度快,识别准确率高,为档案图像关键特征提取提供了技术支撑。
关键词:图像档案;人脸识别;MTCNN;facenet;LResnet档案数据作为企业的价值数据,蕴含着很多潜在的价值信息。
其中,档案人物数据作为档案数据中的关键数据之一,在档案数据管理中,档案人物信息极其重要,包括企业领导、先进人物、劳动模范、优秀党员等重要人物。
档案人物信息都是以图像的形式进行存储,档案管理人员在进行数据利用过程中,需要从海量的数据中挑选出相应的人物数据,工作效率低且难以保证准确率,且对于档案管理员的经验知识要求较高,不利于档案数据的后续利用。
目前,随着人工智能技术的不断发展,各领域的智能化落地已经成为必然趋势,也为档案的智能化利用提供了契机。
同时,在档案利用过程中,需要充分考虑档案数据处理的实时性、准确性和安全性。
为了提高档案管理的效率,有效获取档案图像数据中存在的人物信息,本研究通过结合人脸识别技术来进行图像档案人物信息自动提取。
为了有效降低光照、遮挡等外界环境对人脸识别效果的影响,本文提出了一种基于MTCNN-facenet的人脸识别方法。
该方法将深度学习方法应用到档案人物数据的自动抽取中,有效提高了档案的智能化水平,也为后续的档案进一步利用提供了技术支撑。
1相关研究人脸识别作为计算机视觉的一个研究方向,目前基于深度学习的人脸识别技术已经比较成熟,但人脸识别的效果受背景、光照、遮挡、姿势等多种干扰因素的影响[1],要想提高模型的鲁棒性和泛化性仍然面临着极大的挑战。
基于深度学习的人脸表情识别算法改进研究摘要:近年来,随着深度学习的快速发展,人脸表情识别技术取得了显著的进展。
然而,现有的算法在面对复杂的环境和多样化的表情时仍然存在一定的局限性。
本文通过综合分析目前流行的人脸表情识别算法,并结合传统计算机视觉技术,提出了一种基于深度学习的人脸表情识别算法改进方法。
该方法通过引入更多的表情数据集、优化模型架构以及进一步改善训练过程,有效提升了人脸表情识别的准确度和鲁棒性。
实验证明,本文提出的算法在各类表情识别任务中取得了优于现有算法的表现。
1. 引言人脸表情识别是计算机视觉领域的一个重要研究方向,具有广泛的应用前景。
然而,由于表情的多样性和复杂性,对于人脸表情的准确识别仍然是一个具有挑战性的问题。
传统的基于人工设计特征的方法在解决这个问题上存在一定的局限性,因此,近年来基于深度学习的人脸表情识别算法逐渐成为研究热点。
2. 相关工作2.1 传统的人脸表情识别算法传统的人脸表情识别算法通常基于特征提取和分类器构建。
其中,主要的特征提取方法包括傅里叶变换、灰度共生矩阵、主成分分析等。
然后,通过训练分类器(如支持向量机、随机森林等),来实现表情的分类。
2.2 基于深度学习的人脸表情识别算法基于深度学习的人脸表情识别算法近年来取得了巨大的突破,主要包括卷积神经网络(CNN)和循环神经网络(RNN)等。
这些算法通过构建深层网络模型,可以从原始图像中自动学习特征,并实现对表情的准确识别。
3. 改进方法3.1 引入更多的表情数据集为了提高算法的泛化能力和鲁棒性,我们通过引入更多的表情数据集来扩充训练集。
相比于传统的基于人工设计特征的方法,基于深度学习的算法更加注重对大规模数据的学习和挖掘。
通过扩充数据集,可以增加模型对于不同表情的识别能力,并减轻数据不平衡导致的问题。
3.2 优化模型架构为了更好地适应复杂的表情识别任务,我们对模型的架构进行了优化。
首先,引入了残差连接(Residual Connection)等技术,以便更好地捕捉原始图像中的细节信息。
现代电子技术Modern Electronics Technique2023年11月1日第46卷第21期Nov. 2023Vol. 46 No. 210 引 言说话人识别也称为声纹识别[1],与指纹识别、人脸识别等身份认证技术相同,都代表不同人之间的个体差异。
说话人识别是根据每个人的发音特点,以及每个人的发音器官,包括声带、声道等,在大小和形状上的不同来进行区别不同人的声音。
说话人识别技术按照其所要识别的任务及应用场景主要分为两类:说话人验证(Speaker Verification )及说话人辨认(Speaker Identification )。
按照其识别内容可以分为三类:文本相关(text⁃dependent )、文本无关(text⁃independent ),以及文本提示(text⁃prompted )。
随着社会不断的发展,文本无关的说话人识别也越来越受到重视,本文针对文本无关的说话人辨认进行研究。
传统的说话人识别技术往往对音频提取声学特征,例如梅尔倒谱系数(Mel Frequency Cepstral Coefficient,基于改进语谱图的深度学习说话人识别马志举, 杜庆治, 龙 华, 邵玉斌(昆明理工大学 信息工程与自动化学院, 云南 昆明 650500)摘 要: 为了提高说话人识别系统的性能,提出基于改进语谱图的深度学习说话人识别算法。
语谱图当中包含了语音的内容、情绪、语种以及说话人身份等多种信息,在以往的说话人识别算法中,往往没有考虑到说话人身份特性,采用直接提取语音中的语谱图作为网络输入,而说话人识别系统中需要提取语谱图中表征身份的信息,因此需要在原始语谱图的基础上进行改进。
在语谱图中,基音频率以及共振峰等信息最能表现说话人的身份特征,从而提出根据语音信号中每一帧的基音频率进行自适应梳状滤波,得到改进后的语谱图,再通过卷积神经网络提取说话人特征,从而达到提升识别准确率的效果。
基于深度学习的人脸识别算法实现及优化近年来,随着科技的快速发展,人脸识别技术也随之不断进步。
基于深度学习的人脸识别算法是其中的一种高效且准确的识别方式,该算法可以在不同的场景中实现人脸识别功能。
一、人脸识别算法介绍人脸识别算法是一种将图像中的人脸进行识别和比对的技术。
该技术可以用于安全监控、智能门禁、人脸支付等场景。
人脸识别算法通常包括以下几个步骤:1、人脸检测:从图像中检测出人脸,并将其框选出来,称为目标区域。
2、特征提取:通过对目标区域的图像进行处理,提取出其中的特征向量。
3、特征匹配:将提取出的特征向量与数据库中预存储的特征向量进行比对。
4、判断结果:根据比对结果,判断该人脸是否在数据库中存在匹配项,如果存在,则完成人脸识别。
二、基于深度学习的人脸识别算法基于深度学习的人脸识别算法是一种高效且准确的人脸识别技术。
它采用卷积神经网络(CNN)模型进行人脸检测和特征提取,通过学习大量的数据集获得更高的识别准确率。
在人脸检测阶段,基于深度学习的算法使用了多层卷积神经网络模型对图像进行识别。
其中,第一层卷积神经网络用于检测图像中的人脸位置,之后通过较浅的网络进行特征提取,随后送入具有较多全连接层的网络中进行分类。
该算法可以通过训练大量数据集得到更高的检测准确率,同时满足更复杂的场景需求。
在特征提取阶段,基于深度学习的算法使用了深度卷积神经网络模型进行特征提取。
该模型会对图像的每个像素进行处理,提取出每个像素所代表的信息,根据这些信息生成一个特征向量,该向量可以用来区分不同的人脸。
最后,在特征匹配阶段,采用欧氏距离和余弦向量相似度等算法进行人脸匹配,比对特征向量获得最终的匹配结果。
三、基于深度学习的人脸识别算法实现实现基于深度学习的人脸识别算法,需要采用合适的开发平台和工具,如TensorFlow、Keras、PyTorch等。
以下以TensorFlow平台为例,介绍基于深度学习的人脸识别算法的实现方法:1、数据处理:建立数据集并对其进行处理,例如:处理人脸的大小和位置,检测人脸并将其标记。
改进机器学习算法在人脸识别中的应用人脸识别是近年来备受关注的一项技术,它不仅在安防、金融、医疗等领域有着广泛的应用,还在智能家居、虚拟现实等领域展现出其强大的潜力。
而机器学习作为人工智能的分支,为人脸识别带来了许多新的思路和方法。
在这篇文章中,我们将探讨如何改进机器学习算法在人脸识别中的应用。
1. 背景介绍人脸识别是指通过图像处理和模式识别技术,从一组图像中识别出其中的人物身份信息的技术。
目前,人脸识别技术已经成为许多应用场景必不可少的一环,例如身份验证、人脸支付、门禁管理等。
而机器学习作为一种强大的工具,也被广泛地应用在人脸识别中。
其背后的原理是通过一系列的图像处理和特征提取,将人脸图像转化为某个特征向量,再通过机器学习算法进行训练,最终识别出目标人物。
但是,当前的人脸识别技术仍然存在着一些不足,例如对于光线、角度等环境干扰的敏感性,对于样本量和质量的要求较高等问题。
2. 改进机器学习算法在人脸识别中的应用2.1 深度学习在人脸识别中的应用深度学习是机器学习的一个分支,与传统的机器学习相比,其可以通过多层神经网络对数据进行特征提取和分类。
因此,它具有更高的鲁棒性和准确性。
在人脸识别领域,深度学习也被广泛应用。
例如,通过卷积神经网络对人脸进行特征提取,再使用支持向量机等分类算法进行人脸识别,可以实现更高的准确率和鲁棒性。
2.2 多模态融合传统的人脸识别算法主要依赖于单一的特征提取方式,例如色度信息、纹理特征等。
然而,这样的方法往往只能处理一部分的信息,难以较好地解决识别的问题。
而多模态融合则能够将不同形式的数据信息进行有效地融合,从而提高识别的准确性。
例如,结合色度、纹理、形态等多种特征进行融合,可以实现更高效的人脸识别。
2.3 迁移学习迁移学习是指将一个领域的知识转移到其他领域的过程。
在人脸识别中,迁移学习也被广泛使用。
例如,通过在大规模的数据集上进行训练,将网络中的一部分参数迁移到目标任务中,能够大幅提高识别的准确性。
基于深度学习的人脸识别算法研究人脸识别技术作为生物特征识别领域的重要分支,在安全控制、人机交互等方面具有广泛的应用前景。
随着深度学习算法的兴起, 人脸识别技术在准确度和鲁棒性方面取得了巨大的突破。
本文将重点研究基于深度学习的人脸识别算法,并评估其在不同场景下的性能表现。
一、概述基于深度学习的人脸识别算法是一种通过计算机程序自动识别和验证人脸的技术。
该算法将人脸图像的特征提取、特征匹配等步骤交给网络模型自主完成,取代了传统的手工特征提取和分类方法。
深度学习算法可以充分挖掘人脸图像的内在信息,提高识别准确度和鲁棒性。
二、深度学习算法在人脸识别中的应用1. 卷积神经网络(CNN)卷积神经网络是深度学习中最为经典的网络结构之一,其在人脸识别中已经被广泛应用。
通过多层卷积和池化操作, CNN可以从原始图像中提取出高级抽象特征,用于人脸图像的分类、检测和识别。
通过对训练集进行大规模训练和调优, 可以使得网络具备较高的鲁棒性和准确性。
2. 深度残差网络(ResNet)深度残差网络是一种特殊的卷积神经网络结构,在人脸识别中得到了广泛应用。
ResNet通过引入残差跳跃连接,解决了传统深度神经网络训练过程中的梯度消失和表达能力不足的问题。
其结构的层次和复杂度可以根据不同的任务进行调整,使得网络具有更强的特征提取和表达能力。
3. 人脸检测和对齐在人脸识别中,人脸检测和对齐是必不可少的预处理步骤。
传统的方法通常依靠手工设计的特征和分类器进行人脸检测,效果比较有限。
而基于深度学习的人脸检测算法可以通过端到端学习的方式,直接从原始图像中检测和定位人脸区域。
同时,通过对检测到的人脸进行对齐,可以进一步提高人脸识别的准确性和鲁棒性。
三、基于深度学习的人脸识别算法的挑战虽然基于深度学习的人脸识别算法在准确度和鲁棒性方面取得了显著进展,但仍然存在一些挑战。
1. 数据集不平衡由于数据采集的困难性和隐私问题,构建大规模、高质量的人脸数据集仍然是一项艰巨的任务。
基于深度神经网络的人脸识别算法随着科技的不断发展,人脸识别技术已经成为我们生活中不可或缺的一部分。
无论是手机解锁、门禁系统、安全检测还是社交娱乐等领域,都需要依赖人脸识别算法。
而基于深度神经网络的人脸识别技术,比传统算法更为高效、更为准确,被广泛应用于人脸识别领域。
一、深度神经网络深度神经网络是一种类似于人类大脑结构的网络模型,可以模拟人脑对事物的分析与判断,从而实现计算机对数据的深度学习与处理。
深度神经网络的优点在于能够自动学习,并通过多层次的神经元来实现对数据的分类和识别。
二、基于深度神经网络的人脸识别算法基于深度神经网络的人脸识别算法,通过多层次的神经元来识别人脸特征,并将识别出的特征存储在数据库中,以后再次识别时,就可以将其与数据库中存储的特征进行比对,从而实现人脸的识别。
这种算法的核心是人脸特征的提取和分类。
在人脸特征提取方面,深度神经网络的多层次神经元对人脸的纹理、轮廓等特征进行提取。
在分类方面,深度神经网络通过不断训练模型,从而提高识别率。
总体来说,基于深度神经网络的人脸识别算法有以下几个步骤:1、数据采集:从不同角度、不同灯光条件下拍摄人脸的照片,并记录每张照片的人脸特征。
2、人脸检测:通过图像处理算法将照片中的人脸框出来,并对每个人脸进行处理。
3、特征提取:将每个人脸的特征进行提取,并将其保存到数据库中。
这一步需要利用深度神经网络的多层次神经元实现。
4、识别比对:当需要识别一张照片的人脸时,从照片中提取特征,并将其与数据库中存储的特征进行比对。
如果相似度达到一定的阈值,就可以认为是同一人。
三、基于深度神经网络的人脸识别算法的应用1、门禁系统:基于深度神经网络的人脸识别算法可以实现门禁系统的自动识别。
只要录入系统中的人的面部特征,当这些人进入门禁系统的时候,系统就可以自动识别他们,省去了其他门禁系统需要刷卡、输入密码等操作。
2、社交娱乐:很多社交娱乐应用已经开始利用基于深度神经网络的人脸识别技术,例如照片标记、人脸美颜等。
基于改进卷积神经网络的人脸识别研究人脸识别是计算机视觉领域的重要研究方向之一。
随着深度学习技术的发展,卷积神经网络(Convolutional Neural Network, CNN)在人脸识别任务中取得了显著的成绩。
传统的CNN在人脸识别任务中仍然存在一些问题,比如对光照、表情、姿态等因素的敏感度较高。
针对这些问题,研究者们对CNN进行了改进,提出了一系列的改进算法。
一种常用的改进算法是使用深度残差网络(Residual Network, ResNet)。
ResNet主要通过使用残差模块来增加网络的深度,从而提高了网络的性能。
在人脸识别任务中,有研究者将ResNet应用于人脸特征提取的过程中。
通过增加网络的深度,ResNet可以更好地学习到人脸的特征,提高人脸识别的准确率。
另一种改进算法是使用注意力机制(Attention Mechanism)。
注意力机制能够帮助网络集中注意力于对人脸识别任务更重要的区域或特征。
有研究者提出了自适应特征选择的注意力机制,通过学习到的注意力权重,网络可以自动选择对人脸识别任务更重要的特征。
这样可以降低网络对噪声或干扰的敏感性,提高人脸识别的鲁棒性。
一些研究者还尝试在传统的CNN模型的基础上引入辅助类别信息或相似性约束信息,来改善人脸识别的性能。
通过引入身份分类的辅助标签,可以帮助网络学习到更鲁棒的人脸特征。
相似性约束信息可以通过引入三元组损失函数来实现,该函数鼓励网络将同一个人的人脸特征拉近,不同人的人脸特征推开。
这样可以使得网络在人脸识别任务中更好地区分不同的人。
基于改进卷积神经网络的人脸识别研究主要集中在深度残差网络、注意力机制、辅助类别信息和相似性约束信息等方面。
通过这些改进算法的应用,可以提高人脸识别任务的准确率和鲁棒性。
未来,可以继续研究如何进一步改进卷积神经网络,以在人脸识别任务中取得更好的性能。
研究与开发 Research & Development
39引言近年来,由于深度学习在图像识别领域内的卓越表现,人脸识别任务也逐渐开始采用深度学习方法来突破性能瓶颈。2014年,Facebook团队利用深度学习在LFW人脸数据库上得到97.35%的平均分类精度[1];
同年,香港中文大学的团队[2]取得了97.45% 的成绩。
由此,人脸识别任务的主要技术方法从传统的人工提取特征结合分类识别算法转变为基于卷积神经网络的深度学习方法,这种端对端的自主学习方法,可以更方便高效地提取人脸特征[3]。其后,Google 于2015年
提出了FaceNet模型,在 LFW 数据集上的准确率高达99.63%[4],接着更具挑战的MegaFace数据集应运而
生,该数据集采集了690572个ID的1027060张公开人脸图像[5],对人脸识别的研究起到了至关重要的作用。
为了提高算法的性能,专家学者们研究设计出了很多表现优秀的损失函数。Triplet Loss[6]、L-Softmax Loss(Large-margin Softmax Loss)[7] 、Center Loss[8]、
SphereFace采用的A-Softmax(Angular Softmax Loss)[9]、
AM-Softmax(Additive Margin Softmax)[10]等都对人脸识别
基于改进Mobilenet算法的深度人脸识别算法的性能做出了很大的贡献。
除此以外,研究人员不断增加网络的层数以获得更好的性能,从最初7层的AlexNet增加到16层的VGG,到22层的GoogleNet,再到152层的ResNet[11]。随着网络深度的增加,模型的性能得到了
显著提升,但是与此同时模型所需要的存储空间和预测所需要的时间也增加了很多。所以对移动端的人脸识别任务而言,通过增加网络的层数提高模型性能是不切实际的。所以设计出能仅利用移动端的硬件资源就能够快速完成基于深度学习模型的人脸识别任务至关重要。为了解决这些问题,目前提出的轻量级网络有SqueezeNet[12]、MobileNet[13]、ShuffleNet[14]等,它
们在移动设备上都获得了不错的性能。
本文将采用传统的人工提取特征结合分类识别的方法进行人脸检测和人脸对齐,然后训练改进的Mobilenet算法进行人脸识别,在轻量级网络上达到了较高的识别率。
1 人脸检测与特征点定位人脸检测与特征点定位是人脸识别的关键步骤,会
摘 要 针对深度人脸识别任务在移动端遇到的存储空间受限、预测所需时间长、算法性能不高等问题,提出了一种改进的Mobilenet算法。将Mobilenet算法的监督信号Softmax改进为AM-Softmax,通过多次实验,设计出AM-Softmax比较适合Mobilenet算法的附加余量和缩放因子值。训练集和验证集来源于数据集MS-Celeb-1M-v1c和数据集Asian-Celeb,并在LFW数据集上对改进Mobilenet算法的有效性进行了验证。通过与初始Mobilenet算法模型的对比实验发现,采用改进Mobilenet算法的性能较优,准确率比softmax提升了十个百分点。充分利用数据集Asian-Celeb中的亚洲名人ID,增加训练样本数,将性能进一步提高了四个百分点。关键词 深度学习;人脸识别;Mobilenet;损失函数
刘梦雅 毛剑琳昆明理工大学昆明650500研究与开发 Research & Development
40对最终的识别结果产生重要的影响。目前人脸检测与特征点定位的许多研究难点,例如人脸的差异性、人脸图像的大小、光照强度与方向等都得到了较好的解决。针对人脸检测与特征点定位任务的方法主要可分为以下三种:基于几何特征的方法、基于肤色模型的方法和基于统计理论的方法[15]。基于几何特征的方法主要根据人脸轮廓特征、灰度分布特征、器官特征和模板特征等进行人脸检测与特征点定位。基于肤色模型的方法是采用一些模型来确定人脸图片中属于肤色的像素,从而实现人脸检测。这种方法可以检测出人脸区域的像素,也会将人体其他区域(颈部、手、胳膊等)的肤色像素点检测出来,所以需要结合其他方法一起使用才能取得较好的效果。基于统计理论的人脸检测与特征点定位方法是对从人脸图像提取的统计特征进行分析,再利用机器学习的方法查找统计特征,进而设计出分类器,再将人脸图像输入到设计出的分类器中进行人脸检测与特征点定位。神经网络、支持向量机、Adaboost算法等都是基于统计理论的方法。本文采用基于统计理论的人脸检测与特征点定位方法,利用计算机视觉库 Opencv,将人脸的多种特征(LAB、SURF、SIFT)结合boosted分类器实现人脸图像的初步检测。 2 基于MobileNet的人脸识别算法MobileNet是Google提出的一种深度学习网络,具有高效、低耗的特性,在图像分类、图像识别等任务中,可以保持较高的准确率。MobileNet算法对传统的全卷积方式进行了优化,将全卷积操作分解为两部分,分别是 Depthwise 卷积以及 Pointwise 卷积(深度可分离卷积),大大减少了需要学习的参数量,同时,这种稀疏化表达方式也减少了很多的冗余信息。在此基础上,模型又设置了两个超参数,分别为宽度因子和分辨率因子,以控制模型的大小和输入图像的分辨率,从而使得模型在规模和速度上更可控。
图1左侧为传统的卷积方式,经过3×3卷积后,
再经过BN( Batch Normalization)层和Relu(Rectified Linear Unit)激活函数;右边是MobileNet算法提出的深度可分离卷积方式:3×3的传统卷积方式被替换为Depthwise 卷积和1×1的Pointwise卷积,然后与传统卷积一样分别经过BN和ReLU激活函数。
3×3 Conv1×1 Conv3×3 Depthwise ConvBN
BNBN
ReLUReLU
ReLU图1 传统卷积与深度可分离卷积在表1中,具体展示了MobileNet在ImageNet上训练时使用的网络架构(表格中含有dw表示这一层采用了Depthwise结合1x1Pointwise的方式),网络共有28 层。输入图片经过多次卷积池化,然后经过全连接和 Softmax分类输出分类结果。
3 改进的MobileNet算法如表1所示的MobileNet在ImageNet上训练时使用的网络架构中,分类器使用的是最传统的Softmax,
但随着对Softmax研究的深入,更多优化后的Softmax出现了。本文在做了众多对比实验后发现,针对MobileNet算法,AM-Softmax的分类效果比其它优化后的Softmax分类器更好,所以本文选择AM-Softmax分类器替换MobileNet原始的Softmax分类器。
3.1 SoftmaxSoftmax损失函数如式(1)所示。研究与开发 Research & Development
41样本编号实验样本传统PHash算法结果
Conv/s2 3×3×3×32 224×224×3Conv dw/s1 3×3×32 dw 112×112×32Conv/s1 1×1×32×64 112×112×32Conv dw/s2 3×3×64 dw 112×112×64Conv/s1 1×1×64×128 56×56×64Conv dw/s1 3×3×128 dw 56×56×128Conv/s1 1×1×128×128 56×56×128Conv dw/s2 3×3×128 dw 56×56×128Conv/s1 1×1×128×256 28×28×128Conv dw/s1 3×3×256 dw 28×28×256Conv/s1 1×1×256×256 28×28×256Conv dw/s2 3×3×256 dw 28×28×256Conv/s1 1×1×256×512 14×14×2565×Conv dw/s1Conv/s1 3×3×512 dw1×1×512×512 14×14×51214×14×512
Conv dw/s2 3×3×512 dw 14×14×512
Conv/s1 1×1×512×1024 7×7×512Conv dw/s2 3×3×1024 dw 7×7×1024Conv/s1 1×1×1024×1024 7×7×1024Avg Pool/s1 Pool 7×7 7×7×1024FC/s1 1024×1000 1×1×1024Softmax/s1 Classifier 1×1×1000
表1 MobileNet算法框架
(1)其中,是全连接的输入,表示第个输入,
为学习到的参数矩阵,为第个输入的目标分对数(Target Logit)。
3.2 AM-Softmax 首先,AM-Softmax的表达式如式(2)所示。
(2)
其中,为引入的一个附加余量(Additive Margin),这一附加余量可以扩大类与类之间的距离,
从而提高分类的正确率。将和分别进行归一化,然后引入一个超参数作为缩放因子。如果将作为参数进行学习,网络就会变得不好收敛,所以文献[10]中将固定为30。值得注意的是,如果和没有进行归一化操作,则应该设为1。
关于AM-Softmax的几何解释[10],如图2所示,m的
取值大小控制着分类边界的大小。m越大,类间的距离就越大,可以通过设置更大的m来进一步缩小类内方差。文献[10]中通过划分数字手写体实验表明,m较小时,类间距离较小,每类数字靠的比较近;m较大时类间距离较大,所以模型的性能会因此提高。AM-Softmax可以在不调整太多超参数的情况下缩小类内方差。
marginClass centerSoftmax boundaryAM-Softmax boundary
Target region
图2 AM-Softmax的几何解释4 试验与试验结果分析4.1 数据准备本文采用的训练集和验证集的来源有两个,MS-