模式识别特征选择与提取
- 格式:doc
- 大小:366.48 KB
- 文档页数:8
模式识别特征选择与提取(总8页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--模式识别特征选择与提取中国矿业大学计算机科学与技术学院电子信息科学系班级:信科11-1班,学号:08113545,姓名:褚钰博联系方法(QQ或手机):8,日期:2014 年 06月 10日摘要实际问题中常常需要维数约简,如人脸识别、图像检索等。
而特征选择和特征提取是两种最常用的维数约简方法。
特征选择是从某些事物中提取出本质性的功能、应用、优势等,而特征提取是对特征空间进行变换,将原始特征空间映射到低维空间中。
本文是对主成分分析和线性判别分析。
关键词:特征选择,特征提取,主成分分析,线性判别分析1.引言模式识别的主要任务是利用从样本中提取的特征,并将样本划分为相应的模式类别,获得好的分类性能。
而分类方法与分类器设计,都是在d(变量统一用斜体)维特征空间已经确定的前提下进行的。
因此讨论的分类器设计问题是一个选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题。
对分类器设计方法的研究固然重要,但如何确定合适的特征空间是设计模式识别系统另一个十分重要,甚至更为关键的问题。
如果所选用的特征空间能使同类物体分布具有紧致性,即各类样本能分布在该特征空间中彼此分割开的区域内,这就为分类器设计成功提供良好的基础。
反之,如果不同类别的样本在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。
本文要讨论的问题就是特征空间如何设计的问题。
基于主成分分析的特征选择算法的思想是建立在这样的基础上的:主成分分析方法将原始特征通过线性变换映射到新的低维空间时,获得的主成分是去了新的物理意义,难以理解,并且主成分是所有原始特征的线性组合。
所以将主成分分析与特征选择相结合,设计多种相似性度量准则,通过找到与主成分相关的关键特征或者删除冗余、不相关以及没有意义的特征,将主成分又重新映射到原始空间,来理解成主成分的实际意义。
模式识别技术的发展应用模式识别(Pattern Recognition)是人类的一项基本智能,在日常生活中,人们经常在进行“模式识别”。
模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。
模式识别又常称作模式分类,从处理问题的性质和解决问题的方法等角度,模式识别分为有监督的分类(Supervised Classification)和无监督的分类(Unsupervised Classification)两种。
二者的主要差别在于,各实验样本所属的类别是否预先已知。
一般说来,有监督的分类往往需要提供大量已知类别的样本,但在实际问题中,这是存在一定困难的,因此研究无监督的分类就变得十分有必要了。
其中,特征选择和特征提取技术更是尤为关键。
在许多现实问题中,如人脸识别、文本分类、图像检索等,维数约简是一个不可缺少的步骤。
而特征选择和特征提取是两种最常用的维数约简方法。
特征选择是指从原始空间中挑选特征,得到由原始特征组成的特征子集,而特征提取是对特征空间进行变换,将原始特征空间映射到低维空间中。
目前大部分研究都是将特征选择与特征提取独立开来,本文以特征提取的典型方法主成分分析(Principal Component Analysis,PCA)和线性判别分析(Linear Discriminant Analysis,LDA)为主,将特征提取与特征选择结合起来进行研究,利用二者各自的长处去进行维数约简,设计与提出基于主成分分析的特征选择算法和基于线性判别分析的高维特征选择算法。
基于主成分分析的特征选择算法的思想是建立在这样的基础上:主成分分析方法将原始特征通过线性变换映射到新的低维特征空间时,获得的主成分失去了物理意义,难以理解,并且主成分是所有原始特征的线性组合;此外由于特征选择是直接寻找有实际意义的特征,并且能减少计算开支。
特征选择与提取特征的选取是模式识别的基础、关键。
特征选择的好坏将直接影响到分类器设计的好坏。
故从原特征的形成,到特征提取和特征选择,每一步骤都显得尤为重要。
同时特征的选取它也是模式识别的难点,如何获取如何获得在追求最优解的同时代价(计算量或时间)却最小的方法。
一、原特征选择的依据在运用模式识别进行分类器设计之前,毫无疑问,首先要进行广泛采集能够反映研究对象的状态、本质及性质等特征。
比如,就如大家平时的讲话当中,充斥着许多描述性情节,就需从怎样描述其对象才能让大家认知,找出一大堆的描述词来对能反映的特征进行修饰。
就像两个同学在分开多年以后再次遇到,其中的一个人想向另一个人打听一个不在场的同学现况,但是可能由于心奋突然一时之间想不起他的名字,这是他就会向对方提供一堆信息,比如曾用过的绰号、相貌、体型、走路的体态及说话的方式等等。
这些就是泛泛的原特征,可能描述者稍加思索就可以从中找出几个甚至一个关键特征能够让对方明白他讲的是谁。
比如当听者收到“当时班里男生里面个子最高的(班里最高的比其他人高都的很明显,)”或“班里最漂亮的女生(班里其他女生都惨不忍睹)”这样的话时,他就知道说的是谁了。
而其它的许多特征也在描述中起到了一定的作用,一定数量的特征也可能是对方判定。
故原特征选定的好坏对于整个分类器的设计过程起到了第一个瓶颈。
原特征的选定应分两种情况:一种是特征之间主次很明显。
向上面例子中讲的那样设计(描述)对象的特征对于设计者来说,已经比较清楚,哪个特征是最主要特征,最能反映事物的,哪个次之,哪个再次之,排序很明显,没有犯难的。
这时原特征选定就比较简单,只需根据“专家知识”就能定特征。
一种是特征之间的主次不明显,哪个重要哪个不重要让人犹豫不决,这时的原特征不能依赖于“专家知识”来定特征,而应该对犹豫不决的特征都收集起来,交给下个环节运用数学方法进行海选。
同样,上例当中的听者收到“当时班里男生里面个子最高的(但是那时班里个子高的有好几个,而且都差不多)”或“班里最漂亮的女生(班里其他女生都个个漂亮)”的话时却因满足条件的太多了,难以产生联想。
模式识别中的特征抽取与选择方法研究特征抽取与选择在模式识别中扮演着至关重要的角色。
模式识别是一种分析和解释数据的过程,将数据转化为可理解的形式并用于分类、识别、聚类等任务。
特征抽取是指从原始数据中提取出对于模式识别任务有意义的特征,而特征选择是指从抽取出的特征中选择最相关、最有用的特征。
在模式识别任务中,原始数据可能具有很高的维度,包含大量的冗余信息,这会导致模型的复杂性和计算成本的增加。
同时,选择合适的特征也能够帮助提高模型的准确性和可解释性。
因此,研究特征抽取与选择方法对于优化模式识别系统具有重要意义。
特征抽取方法可以分为两大类:基于信号处理的方法和基于机器学习的方法。
基于信号处理的方法主要用于处理信号和图像数据,常见的方法包括小波变换、傅里叶变换、对数变换等。
这些方法能够提取出数据的频域、时域或空域特征,有助于捕捉到数据的局部和全局性质。
基于机器学习的特征抽取方法主要基于统计学原理和机器学习算法。
其中,主成分分析(PCA)是一种常用的降维方法,通过线性变换将高维数据映射到低维空间。
同时,局部特征提取方法,如局部二值模式(LBP)和尺度不变特征变换(SIFT),能够提取出数据的局部纹理和形状特征。
此外,深度学习方法,如卷积神经网络(CNN)和自编码器(AE),也能够自动学习数据的高层抽象特征。
在特征选择方面,常用的方法包括过滤法、包装法和嵌入法。
过滤法主要基于特征与类别之间的相关性进行特征选择,例如相关系数、互信息等。
这些方法简单高效,能够快速筛选出与目标变量相关性较高的特征,但忽略了特征之间的相互作用。
包装法通过训练模型并根据模型的性能选择特征。
常见的方法包括递归特征消除(RFE)和遗传算法等。
这些方法能够考虑特征之间的相互作用,但计算复杂度较高。
嵌入法将特征选择与模型训练过程结合起来,通过优化模型的性能来选择特征。
常见的方法包括L1正则化(L1 regularization)、决策树改进(Decision Tree Improvement)等。
第六章特征选择与提取6.1 引言6.2 类别可分性判据6.3 特征选择6.4 特征提取6.5 图象的特征提取6.1 引言基本任务:如何从多特征中找出那些最有效的特征或:获取一组”少而精”的分类特征压缩⇒⇒研究如何高维特征空间低维特征空间特征分为三类:(1)物理的; (2)结构的; (3)数学的本章研究、讨论:学习样本选择并提取数学特征⎧⎨⎩⎧⎪⎪⎪⎨⎪⎧⎪⎨⎪⎩⎩物理人们直观识别对象特征感觉器官接受结构统计平均值相关系数机器自动识别对象:数学特征本征值协方差阵本征向量基本概念1.特征形成:根据被识别的对象产生一组原始特征⎧⎨⎩传感器的直接测量值模式空间计算值(波形、数字图象)例如:细胞识别⎧⎫⎪⎪⎪⎪⎯⎯⎯→⎨⎬⎪⎪⎪⎪⎩⎭计算通过图象输入得到细胞的数字图象细胞面积总光密度原始特征胞核面积核浆比⎧⎨⇒⎩专家经验和知识方法数学方法筛选比较Y XT E E T ⇒::特征提取值(变换)器3.特征提取:通过映射或变换的方法,把模式空间的高维特征向量变成特征空间的低维特征。
2.特征选择:从一组特征中挑选出一些最有效的特征(过程)。
⎧⎪⎨⎪⎩特征评估标准解决特征选择与提取特征空间的维数优化过程⇒传感器特征形成特征选择与提取分类器⇒⇒⎯⎯⎯→决策→→→传感器特征形成特征选择与提取分类器⎯→⎯⎯→⎯⎯→⎯321Y Y Y ⎯→⎯⎯→⎯21X X ⎯⎯⎯→决策含有特征选择和提取的模式分类问题框图特征选择/提取降维过程信号6.2 类别可分性判据d D C ⇒特征选择/提取的任务:从D 个特征中选择出d个特征组合哪种组合最好准则衡量⇒找出:分类器错误率最小的那组特征(/)e i P p x ω⎧⎧⎪⎨⎨⎩⎪⎩计算理论上正确最有效的特征未知实际有困难希望找出一些使用的标准以衡量各类之间的可分性希望可分性准则满足下列几条要求:(1)与错误概率(或错误率上下界)有单调关系,这使取极值时其分类错误率也较小。
(2)度量特性:0, , 0, , ij ij ij jiij ij J i j J i j J J J i j J >≠===⎧⎨⎩当时不同类当时同类其中是第类和第类的可分性准则函数,类内分离度小越大,两类的分离程度就越大类间分离度大(3)单调性:加入新的特征时,准则函数不减小。
模式识别是人工智能和机器学习领域的一个重要概念,它的主要任务是让计算机能够识别出输入数据的模式,并根据这些模式做出相应的决策或预测。
模式识别的三个主要步骤包括:
1.数据采集和预处理:这是模式识别的第一步,主要是收集原始
数据并进行必要的预处理。
数据可以来自各种传感器、图像、语音、文本等。
预处理包括数据清洗、降维、特征提取等,以便更好地进行后续处理。
这一步的目的是去除数据中的噪声和无关信息,提取出对模式识别有用的特征。
2.特征提取和选择:在数据采集和预处理之后,需要从数据中提
取出能够表征其本质属性的特征。
这些特征可以是一组数值、形状、纹理、颜色等,具体取决于要解决的模式识别问题。
特征提取和选择是模式识别中最关键的一步,因为有效的特征能够大大提高模式识别的准确率。
3.分类器设计和分类决策:在提取出有效的特征之后,需要设计
一个分类器来对不同的模式进行分类。
分类器可以是基于统计的方法、神经网络、支持向量机等。
分类决策是根据分类器的输出对待分类的样本进行决策,例如将某个样本归类到某一类别中。
需要注意的是,以上三个步骤是相互关联、相互影响的。
在实际应用中,可能需要根据具体的问题和数据特点对这三个步骤进行反复的调整和优化,以达到最好的模式识别效果。
模式识别特征选择与提取中国矿业大学计算机科学与技术学院电子信息科学系班级:信科11-1班,学号:08113545,姓名:褚钰博联系方法(QQ或手机):390345438,e-mail:****************日期:2014 年06月10日摘要实际问题中常常需要维数约简,如人脸识别、图像检索等。
而特征选择和特征提取是两种最常用的维数约简方法。
特征选择是从某些事物中提取出本质性的功能、应用、优势等,而特征提取是对特征空间进行变换,将原始特征空间映射到低维空间中。
本文是对主成分分析和线性判别分析。
关键词:特征选择,特征提取,主成分分析,线性判别分析1.引言模式识别的主要任务是利用从样本中提取的特征,并将样本划分为相应的模式类别,获得好的分类性能。
而分类方法与分类器设计,都是在d(变量统一用斜体)维特征空间已经确定的前提下进行的。
因此讨论的分类器设计问题是一个选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题。
对分类器设计方法的研究固然重要,但如何确定合适的特征空间是设计模式识别系统另一个十分重要,甚至更为关键的问题。
如果所选用的特征空间能使同类物体分布具有紧致性,即各类样本能分布在该特征空间中彼此分割开的区域内,这就为分类器设计成功提供良好的基础。
反之,如果不同类别的样本在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。
本文要讨论的问题就是特征空间如何设计的问题。
基于主成分分析的特征选择算法的思想是建立在这样的基础上的:主成分分析方法将原始特征通过线性变换映射到新的低维空间时,获得的主成分是去了新的物理意义,难以理解,并且主成分是所有原始特征的线性组合。
所以将主成分分析与特征选择相结合,设计多种相似性度量准则,通过找到与主成分相关的关键特征或者删除冗余、不相关以及没有意义的特征,将主成分又重新映射到原始空间,来理解成主成分的实际意义。
基于线性判别分析的高维特征选择将单个特征的Fisher准则与其他特征选择算法相结合,分层消除不相关特征与冗余特征。
不相关特征滤波器按照每个特征的Fisher评价值进行特征排序,来去除噪音和不相关特征。
通过对高维数据特征关联性的分析,冗余特征滤波器选用冗余度量方法和基于相关性的快速过滤器算法。
分别在不同情境下进行数据分类实验,验证其性能。
2.原理分析对一原始特征来说,特征选择的方案很多,从N 维特征种选择出M 个特征共有()!!!M N N C M N M =-中选法,其中哪一种方案最佳,则需要有一个原则来进行指导。
我们进行特征选择和特征提取的最终目的还是要进行识别,因此应该是以对识别最有利原则,这样的原则我们称为是类别的可分性判据。
用这样的可分性判据可以度量当前特征维数下类别样本的可分性。
可分性越大,对识别越有利,可分性越小,对识别越不利。
人们对的特征的可分性判据研究很多下面几种常用的判据,我们需要根据实际问题,从中选择出一种。
一般来说,我们希望可分性判据满足以下几个条件:1. 与识别的错误率由直接的联系,当判据取最大值时,识别的错误率最小;2. 当特征独立时有可加性,即:)(),,,(121K NK ij N ij x J x x x J ∑==ij J 是第i 类和第j 类的可分性判据,ij J 越大,两类的可分程度越大,()12,,,N x x x 为N 维特征;3. 应具有某种距离的特点:0ij J >,当i j ≠时; 0ij J =,当i j =时;ij ji J J =;4. 单调性,加入新的特征后,判据不减小:()()12121,,,,,,,ij N ij N N J x x x J x x x x +≤。
但是遗憾的是现在所经常使用的各种判据很难满足上述全部条件,只能满足一个或几个条件。
特征提取又称为特征变换,最常采用的特征变换是线性变换,即若DR x ∈是D 维原始特征,变换后的d 维新特征dR y ∈为x W y T= , 其中,W 是d ⨯D 维矩阵,称作变换阵。
特征提取就是根据训练样本求适当的W ,使得某种特征变换准则最优。
主成分分析方法的出发点是从一组特征中计算出一组按重要性从大到小排序的新特征,他们是原有特征的线性组合,并且相互之间是不相关的。
记p x x x ,,,21 为p 个原始特征,设新特征ξ,i=1, ,p 是这些原始特征的线性组合 x x T i j pj ij i ααξ==∑=1,为了统一i ξ的尺度,要求线性组合的模为1,即1=i T i αα,写成矩阵形式是 x A T=ξ,其中,ξ是由新特征i ξ组成的向量,A 是特征变换矩阵。
要求解的是最优的正交变换A ,它使新特征i ξ的方差达到极值。
3.理论证明或说明特征选择的基本框图为:一个典型的特征选择算法通常包括四个人基本步骤:1.子集产生,这是一个搜索过程,通过一定的搜索策略产生候选的特征子集。
2.子集评价,每一个候选的特征子集都根据一定的评价准则得到,并与先前的最优特征子集进行比较。
3.终止条件,算法结束所需要满足的条件,它与子集的产生过程和评价准则的选用有关。
4.结果验证,就是根据一定的先验知识或通过合成现实数据集的测试来证明所选择的特征子集的性能。
基于特征提取主成分分析变换矩阵的一般过程:训练数据全集4.实现方法或步骤流程特征选择顺序前进法每次从未入选的特征中选择一个特征,使得它与已入选的特征组合到一起所得到的可分性判据最大,直到特征数增加到M 为止。
用k X 表示在第k 步时的特征集合,搜索算法如下:1) 开始时,0X =∅,从N 个特征中选择一个()i J x 最大的特征,加入已选特征集,{}1i X x =; 2) 在第k 步,k X 中包含已经选择的k 个特征,对未入选的N k -个特征计算,{}()kjJ X x ,其中1,2,,j N k =-,并且按照由大到小排序,将可分性判据最大的特征l x 加入k X ,{}1k kl X X x +=;3) 直到所选的特征数等于M 为止。
特征抽取的方法—基于离散K-L 变换(DKLT)的特征抽取: 设原始特征为N 为矢量()12,,,TN x x x =X ,均值矢量[]E =m X ,相关矩阵T E ⎡⎤=⎣⎦X R XX ,协方差矩阵()()TE ⎡⎤=--⎣⎦X C X m X m 。
我们可以对X 作如下的标准正交变换,将其变为矢量()12,,,TN y y y =Y :12T T T N ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦T T TY =T X X TY 的每个分量:T i i y =T X ,其中T 为一个N N ⨯的标准正交矩阵,i T 为其第i 个列矢量,1,0,T i j i ji j=⎧=⎨≠⎩T T 。
也就是说Y 的每个分量是X 每一个分量的线性组合。
同样X 可以表示为:()()112121NT N i i i N y y y y -=⎡⎤⎢⎥⎢⎥====⎢⎥⎢⎥⎢⎥⎣⎦∑X T Y TY T T T T我们要进行特征提取,也就是要用Y 的M 项来代替X ,这种代替必然带来误差,下面我们来对这个误差进行估计:令:1ˆMi ii y ==∑X T ,1M N ≤<,引入的均方误差为: ()()()2211N NTTi i i i M i M e M E E y E y y =+=+⎡⎤⎡⎤⎡⎤=--==⎣⎦⎣⎦⎢⎥⎣⎦∑∑X XX X 11NNTTTii ii i M i M E =+=+⎡⎤==⎣⎦∑∑XTXX T T RT这又变成一个优化问题,我们希望寻找到一个标准正交矩阵T ,使得()2e M 最小,因此可以去这样的准则函数:()111NNT T ii iiii M i M J λ=+=+=--∑∑XT RT T T第一项保证均方误差最小,第二项保证T 为标准正交矩阵,i λ为一待定常数。
()i i iJλ∂=-=∂X R I T 0T ,1,,i M N =+即:i i i λ=X R T T ,很明显i λ为相关矩阵X R 的特征值,i T 为对应于i λ的特征矢量,由于X R 是一个实对称矩阵,所以12,,.N T T T 相互正交,T 为一个正交矩阵。
均方无差:()2111NN NT T ii ii iii M i M i M e M λλ=+=+=+===∑∑∑XT RT T T根据矩阵论,有这样的结论:一个N N ⨯的正定实对称矩阵有N 个特征值和特征矢量,这些特征矢量之间是正交的。
相关矩阵X R 就是一个实对称矩阵,当训练样本足够多时,也可以满足正定性,根据上式我们知道,当要从N 维特征中提取出M 维特征时,我们只需要统计出特征相关矩阵X R ,然后计算其特征值和特征矢量,选择对应特征值最大的前M 个特征矢量作成一个N M ⨯特征变换矩阵T ,就可以完成特征提取。
步骤如下:1、 利用训练样本集合估计出相关矩阵T E ⎡⎤=⎣⎦X R XX ;2、 计算X R 的特征值,并由大到小排序:12N λλλ≥≥≥,以及相应的特征矢量:12,,,N T T T ;3、 选择前M 个特征矢量作成一个变换矩阵[]12M =T T T T ;4、 在训练和识别时,每一个输入的N 维特征矢量X 可以转换为M 维的新特征矢量:TY =T X 。
这种方法是利用相关矩阵X R 进行变换,同样也可以利用协方差矩阵X C 进行变换,还可以利用样本的散度矩阵W S ,B S ,T S 或者1W B -S S 进行变换。
过程都是一样的,需要计算特征值和特征向量,选择最大的M 个特征值对应的特征矢量作出变换矩阵。
5.实验设计和结果分析基于特征相关性的特征选择算法选择c 均值聚类算法来去除冗余。
C 均值算法的基本思想即是通过迭代寻找c 个聚类的一种划分方案,使得用这c 个聚类的均值来代表相应各类样本时所得到的总体误差最小。
C 均值算法的基础是最小误差平方和准则。
若i N 是第i 聚类i Γ中的样本数目,i m 是这些样本的均值,即∑Γ∈=iy ii y N m 1把iΓ中的各样本y 与均值i m 间的误差平方和对所有类相加后为21e ∑∑=Γ∈-=ci y i im y Je J 是误差平方和聚类准则,它是样本集y 和类别集Ω的函数。
C 均值算法的步骤:1.选择初始划分,并计算每个聚类的均值以及误差平方和;2.选择一个备选样本y ,设y i Γ∈;X1the first results of kmeansX2X 3X1X2X 31.无论在聚类时,初始均值如何选取,在程序结果中总能得到相同的分类结果,同时e J 的结果相差很小。
2.当各聚类设定的初始均值不同时,程序结果经过的步骤不同。
3.e J 是随着聚类数目的增加而单调的减少的,当聚类数目等于样本数时e J =0,即每个样本自己成一类。