模式识别特征选择与提取

格式：doc
大小：366.48 KB
文档页数：8

下载文档原格式

模式识别特征选择与提取

模式识别特征选择与提取(总8页)--本页仅作为文档封面，使用时请直接删除即可----内页可以根据需求调整合适字体及大小--模式识别特征选择与提取中国矿业大学计算机科学与技术学院电子信息科学系班级：信科11-1班，学号：08113545，姓名：褚钰博联系方法（QQ或手机）：8，日期：2014 年 06月 10日摘要实际问题中常常需要维数约简，如人脸识别、图像检索等。

而特征选择和特征提取是两种最常用的维数约简方法。

特征选择是从某些事物中提取出本质性的功能、应用、优势等，而特征提取是对特征空间进行变换，将原始特征空间映射到低维空间中。

本文是对主成分分析和线性判别分析。

关键词：特征选择，特征提取，主成分分析，线性判别分析1.引言模式识别的主要任务是利用从样本中提取的特征，并将样本划分为相应的模式类别，获得好的分类性能。

而分类方法与分类器设计，都是在d（变量统一用斜体）维特征空间已经确定的前提下进行的。

因此讨论的分类器设计问题是一个选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题。

对分类器设计方法的研究固然重要，但如何确定合适的特征空间是设计模式识别系统另一个十分重要，甚至更为关键的问题。

如果所选用的特征空间能使同类物体分布具有紧致性，即各类样本能分布在该特征空间中彼此分割开的区域内，这就为分类器设计成功提供良好的基础。

反之，如果不同类别的样本在该特征空间中混杂在一起，再好的设计方法也无法提高分类器的准确性。

本文要讨论的问题就是特征空间如何设计的问题。

基于主成分分析的特征选择算法的思想是建立在这样的基础上的：主成分分析方法将原始特征通过线性变换映射到新的低维空间时，获得的主成分是去了新的物理意义，难以理解，并且主成分是所有原始特征的线性组合。

所以将主成分分析与特征选择相结合，设计多种相似性度量准则，通过找到与主成分相关的关键特征或者删除冗余、不相关以及没有意义的特征，将主成分又重新映射到原始空间，来理解成主成分的实际意义。

模式识别讲义-特征提取和特征选择

完全可分：若p(x|ω1) ≠0时， p(x|ω2)＝0；
完全不可分：对任意x，都有 p(x|ω1) ＝ p(x|ω2)；
二、距离
（2）概率距离
若任何函数Jp g[ p(x | 1), p(x | 2), P1, P2]dx满足以下条件：
a、Jp 0； b、当两类完全可分时 Jp取得最大值； c、当两类完全不可分是 Jp为0；
总错误率P(e) P(x R2 1) P(x R3 1) ... P(x RM 1)P(1) P(x R1 2 ) P(x R3 2 ) ... P(x RM 2 )P(2 ) ... P(x R1 M ) P(x R2 M ) ... P(x RM 1 M )P(M )
X
p(x | j)
Xp(x | i)来自 [ p(x | i) p(x | j）]ln p(x | i) dx
X
p(x | j)
三、特征提取算法
1、使用类内类间距离进行特征提取类内类间距离
Jd=Jw+Jb＝tr（Sw＋Sb)
其中Jw是类内平均距离，Jb是类间平均距离通常给定一个训练集后，Jd是固定的，因此，在特征
模式识别第八讲特征选择与特征提取
回顾：
贝叶斯分类的原理最小错误率贝叶斯分类最小风险贝叶斯分类最大似然比贝叶斯分类正态分布情况下的贝叶斯分类
分类器的错误率
1、分类器的错误率
•错误率是评价一个分类器的重要指标 •错误率受分类决策方法、训练集、测试集和偶然因素的影响 •分类错误是一个概率事件，错误率应由概率方式表达
各特征向量之间的距离的平均值，称为类内类间距离：
c

特征选择和特征提取

在这个例子里，用LLE 进行降维成功的体现了数据内在的局部分布结构，而用PCA 映射则会将高维空间里的远点映射到低维空间后变成了近邻点。
四、特征的选择
特征选择:=从原始特征中挑选出一些最有代表性、分类性能最好的特征进行分类。
从－D典个型特的征组中合选优取化d个问,共题CdCD种Dd 组合。特征选择的方法大体可分两大类：
u2
x2
u1 x1
主成分是这个椭圆的「长轴」方向。短轴的方向和长轴垂直，是「第二个」主成分的方向。变换后的各分量，它们所包括的信息量不同，呈逐渐减少趋势。事实上，第一主分量集中了最大的信息量，常常占80％以上。第二、三主分量的信息量依次很快递减，到了第n分量，信息几乎为零。
从几何意义来看，变换后的主分量空间坐标系与变
➢ 等距映射(Isomap).
J.B. Tenenbaum, V. de Silva, and J. C. Langford. A global geometric framework for nonlinear dimensionality reduction. Science, vol. 290, pp. 2319--2323, 2000.
• LDA的思想: 寻找最能把两类样本分开的投影直线. • LDA的目标: 使投影后两类样本的均值之差与投影
样本的总类散布的比值最大 . • LDA的求解: 经过推导把原问题转化为关于样本集
总类内散布矩阵和总类间散布矩阵的广义特征值问题.
Best projection direction for classification
y
2 j

E

uTj
xxT

模式识别(7-2)特征的选择与提取

5 4
,

54
试用K-L变换作一维数据压缩。
思路：1）求总体均值向量；2）求产生矩阵ψ ； 3）求产生矩阵的特征值λi 及特征向量 i ；
4）按λi排序，确定变换矩阵W； 5）利用 y W T x 求新的一维样本。
K－L变换的一些典型应用
上面我们从数学的角度分析了K-L变换的性质。归结起来，它消除了各分量之间的相关性，因而用它来描述事物时，可以减少描述量的冗余性，做到用最经济有效的方法描述事物。下面结合一些应用实例来说明如何运用K-L变换的这一性质。
但是由于它的正交基函数族是从训练样本集中计算出来的，因此并不存在一种对任何数据都适用的K-L变换基，一般的作法是先用一组训练数据计算出K-L变换基，然后用这组基来分析其它数据。
K－L变换的性质
K－L变换的性质
K－L变换的性质
K－L变换的产生矩阵
当样本所属类别未知时：
x的相关函数矩阵 x的协方差矩阵
§7.3 基于K－L展开式的特征提取
图6-3b
图6-3(b)中的向量A与B在一个二维空间定义，它们两者分别含有成分为(a1,a2)与(b1,b2)，a1与b1是两者的同一种成分，a2与b2则是另一种成分。故它们的点积定义为a1b1+a2b2，在这种条件下就不需要积分，而只是简单求和。
§7.3 基于K－L展开式的特征提取
K－L变换的一些典型应用
4．人脸图象合成
用K-L变换构造参数模型的另一种典型用途是人脸图象合成。从下面的例子中可以看出，有目的地控制各个分量的比例，也就是通过调整参数向量。可以将一幅不带表情图象改变成带各种表情的图象，称为人脸表情图象合成。
为了对复杂事物进行经济有效的描述，我们希望将其分解成相互独立的成分，譬如我们分析其快速变化的成分时，就希望它只不再混杂其它成分。

模式识别7-特征选择和提取

为一般来说，原来的n个数据各自在不同程度上反映
了识别对象的某些特征，简单地删去某些特征可能会
丢失较多的有用信息。
• 如果将原来的特征做正交变换，获得的每个数据都是
原来n个数据的线性组合，然后从新的数据中选出少
数几个，使其尽可能多地反映各类模式之间的差异，
而这些特征间又尽可能相互独立，则比单纯的选择方
➢遗传算法
单独最优特征组合
特征
选择
计算各特征单独使用时的可分性判据J并加
以排队，取前d个作为选择结果
不一定是最优结果
当可分性判据对各特征具有(广义)可加性，
该方法可以选出一组最优的特征来，例：
➢各类具有正态分布
➢各特征统计独立
➢可分性判据基于Mahalanobis距离
d
J ij ( x1 , x2 ,..., xd ) J ij ( xk ) J D (x) (μi μ j )T 1(μi μ j )
k 1
顺序前进法
特征
选择
自下而上搜索方法。
每次从未入选的特征中选择一个特征，使得
它与已入选的特征组合在一起时所得的J值
为最大，直至特征数增加到d为止。
该方法考虑了所选特征与已入选特征之间的
相关性。
顺序后退法
特征
选择
该方法根据特征子集的分类表现来选择特征
搜索特征子集：从全体特征开始，每次剔除
➢ 当特征独立时有可加性：
k 1
➢ 单调性：
J ij ( x1 , x2 ,..., xd ) J ij ( x1 , x2 ,..., xd , xd 1 )
常见类别可分离性判据：基于距离、概率分布、熵
函数

模式识别(7-1)特征的选择与提取

细胞自动识别：
原始测量：（正常与异常）细胞的数字图像
原始特征（特征的形成，找到一组代表细胞性质的特征）：细胞面积，胞核面积，形状系数，光密度，核内纹理，和浆比
压缩特征：原始特征的维数仍很高，需压缩以便于分类
特征选择：挑选最有分类信息的特征特征提取：数学变换
傅立叶变换或小波变换用PCA方法作特征压缩
基于距离的可分性判据
计算所有样本平均距离作为判据 Jd (x) tr(Sw Sb )
其中“tr”表示矩阵的迹（对角线元素的和）。
各类特征向量之间的平均距离可写成：
1
Jd (x) 2
c
Pi
i 1
c
Pj
j 1
1 nin j
ni n j
(xk(i) , xl( j) )
k 1 l 1
其中Pi、Pj 分别表示各类的先验概率，ni、nj分别是第i与j
基于距离的可分性判据
如果推广至c类别情况，同时考虑各类的先验概率Pi 不等，则可将上列各式表示成：
c
Sb = Pi(mi m)(mi m)T i 1 c
Sw = PiEi[(mi m)(mi m)T ] i 1
其中， m 为总均值向量，Pi表示各类别的先验
概率，Ei表示i类的期望符号。
基于距离的可分性判据
Fisher准则时曾用过两个描述离散度的矩阵。一个是类间离散矩阵Sb
Sb = (m1 - m2 )(m1 - m2 )T
另一个是类内离散度矩阵SW
Si = (x - mi )(x - mi )T , xX i
Sw = S1 + S2
i 1, 2
以上式子是针对两类别情况的，如果推广至c 类别情况？
)T (x(ki)

特征选择与提取

模式识别技术的发展应用模式识别(Pattern Recognition)是人类的一项基本智能，在日常生活中，人们经常在进行“模式识别”。

模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。

模式识别又常称作模式分类，从处理问题的性质和解决问题的方法等角度，模式识别分为有监督的分类（Supervised Classification）和无监督的分类(Unsupervised Classification)两种。

二者的主要差别在于，各实验样本所属的类别是否预先已知。

一般说来，有监督的分类往往需要提供大量已知类别的样本，但在实际问题中，这是存在一定困难的，因此研究无监督的分类就变得十分有必要了。

其中，特征选择和特征提取技术更是尤为关键。

在许多现实问题中,如人脸识别、文本分类、图像检索等,维数约简是一个不可缺少的步骤。

而特征选择和特征提取是两种最常用的维数约简方法。

特征选择是指从原始空间中挑选特征,得到由原始特征组成的特征子集,而特征提取是对特征空间进行变换,将原始特征空间映射到低维空间中。

目前大部分研究都是将特征选择与特征提取独立开来,本文以特征提取的典型方法主成分分析(Principal Component Analysis,PCA)和线性判别分析(Linear Discriminant Analysis,LDA)为主,将特征提取与特征选择结合起来进行研究,利用二者各自的长处去进行维数约简,设计与提出基于主成分分析的特征选择算法和基于线性判别分析的高维特征选择算法。

基于主成分分析的特征选择算法的思想是建立在这样的基础上:主成分分析方法将原始特征通过线性变换映射到新的低维特征空间时,获得的主成分失去了物理意义,难以理解,并且主成分是所有原始特征的线性组合;此外由于特征选择是直接寻找有实际意义的特征,并且能减少计算开支。

模式识别-5--特征选择与提取

1 Cj 1 Iij = ln + tr[Ci (C−1 −Ci−1)] j 2 Ci 2
当Ci和Cj之间越相近则散度越小。
1 −1 −1 Jij = tr[ Ci −Cj )(Cj −Ci )] （ 2
散度的性质从上面的定义我们可以看出散度Jij具有如下性质： (i) Jij=Jji, (ii) 当ωi和ωj的分布不同时，Jij>0 (iii)当ωi和ωj的分布完全同时，Jij＝0 (iv) 在模式特征的各个分量都相互独立的情况下,有：
Sb2 = (m −m2 )(m −m2 )t 1 1
当三类或者更多的时候就引入先验概率作为加权 :
Sb2 = (m − m2 )(m − m2 )t 表示1和2两类模式的类间散布矩阵； 1 1
Sb1 = ∑P(ω )(m − m )(m − m )t i i 0 i 0
其中 m = E{ x} = ∑P(ωi )m为多类模式（这里共c类）分布 0 i 总体的均值向量 i=1 多类模式集散布矩阵多类的类内散布矩阵，可用各类类内散布矩阵的先验加权表示：
该式子是散度的一般表达式。注：当ωi和ωj的分布是一些特殊的表达式子，那么对数似然比函数和散度可以得到一些很简单形式。当ωi和ωj服从正态分布，散度为：
p(x | ωi ) Jij = I ji + Iij = ∫ [ p(x | ωi ) − p(x | ωj )]ln dx x p(x | ωj )
3. 特征选择和提取是构造模式识别系统的一重要课题
在很多实际问题中，往往不容易找到那些最重要的特征，或受客观条件的限制，不能对它们进行有效的测量；因此在测量时，由于人们心理上的作用，只要条件许可总希望把特征取得多一些；另外，由于客观上的需要，为了突出某些有用信息，抑制无用信息，有意加上一些比值、指数或对数等组合计算特征（在数据上作一些处理）；如果将数目很多的测量值不做分析，全部直接用作分类特征，不但耗时，而且会影响到分类的效果，产生“特征维数灾难” 问题。为了设计出效果好的分类器，通常需要对原始的测量值集合进行分析，经过选择或变换处理，组成有效的识别特征；在保证一定分类精度的前提下，减少特征维数，即进行“降维”处理，使分类器实现快速、准确和高效的分类。

模式识别之特征选择和提取

p( X | i ) 与 p( X | j ) 相差愈大， J ij 越大。
当 p( X | i ) p( X | j ) ，两类分布密度相同， Jij 0 。
（3）错误率分析中，两类概率密度曲线交叠越少，错误率越小。
p(x | i )P(i )
p(x | 2 )P(2 )
p(x | 1 )P(1 )
Jd
1 2
c i 1
P(i
)
c j 1
P(
j
)
1 ni n
j
ni k 1
nj l 1
D2
(
X
i k
,
X
j l
)
（5-8）
式中， P(ωi ) 和 P( j ) ：i 和 ω j 类先验概率；c：类别数；
X
i k
：
i
类的第
k
个样本；
X
j l
：
ω
j
类的第
l
个样本；
ni 和 n j ：i 和 ω j 类的样本数；
② 特征选择：将坐标系按逆时针方向做一旋转变化，或物体按顺时针方向变，并合适平移等。根据物体在轴上投影旳x坐2' 标值旳正负可区别两个物体。
——特征提取，一般用数学旳措施进行压缩。
5.2 类别可分性测度
类别可分性测度：衡量类别间可分性旳尺度。
类别可
分性测度
空间分布：类内距离和类间距离随机模式向量：类概率密度函数错误率与错误率有关旳距离
D2
(
X
i k
,
X
j l
)
：
X
i k
和
X
j l
间欧氏距离的平方。

特征选择提取

特征选择与提取特征的选取是模式识别的基础、关键。

特征选择的好坏将直接影响到分类器设计的好坏。

故从原特征的形成，到特征提取和特征选择，每一步骤都显得尤为重要。

同时特征的选取它也是模式识别的难点，如何获取如何获得在追求最优解的同时代价（计算量或时间）却最小的方法。

一、原特征选择的依据在运用模式识别进行分类器设计之前，毫无疑问，首先要进行广泛采集能够反映研究对象的状态、本质及性质等特征。

比如，就如大家平时的讲话当中，充斥着许多描述性情节，就需从怎样描述其对象才能让大家认知，找出一大堆的描述词来对能反映的特征进行修饰。

就像两个同学在分开多年以后再次遇到，其中的一个人想向另一个人打听一个不在场的同学现况，但是可能由于心奋突然一时之间想不起他的名字，这是他就会向对方提供一堆信息，比如曾用过的绰号、相貌、体型、走路的体态及说话的方式等等。

这些就是泛泛的原特征，可能描述者稍加思索就可以从中找出几个甚至一个关键特征能够让对方明白他讲的是谁。

比如当听者收到“当时班里男生里面个子最高的（班里最高的比其他人高都的很明显，）”或“班里最漂亮的女生（班里其他女生都惨不忍睹）”这样的话时，他就知道说的是谁了。

而其它的许多特征也在描述中起到了一定的作用，一定数量的特征也可能是对方判定。

故原特征选定的好坏对于整个分类器的设计过程起到了第一个瓶颈。

原特征的选定应分两种情况：一种是特征之间主次很明显。

向上面例子中讲的那样设计（描述）对象的特征对于设计者来说，已经比较清楚，哪个特征是最主要特征，最能反映事物的，哪个次之，哪个再次之，排序很明显，没有犯难的。

这时原特征选定就比较简单，只需根据“专家知识”就能定特征。

一种是特征之间的主次不明显，哪个重要哪个不重要让人犹豫不决，这时的原特征不能依赖于“专家知识”来定特征，而应该对犹豫不决的特征都收集起来，交给下个环节运用数学方法进行海选。

同样，上例当中的听者收到“当时班里男生里面个子最高的（但是那时班里个子高的有好几个，而且都差不多）”或“班里最漂亮的女生（班里其他女生都个个漂亮）”的话时却因满足条件的太多了，难以产生联想。

模式识别第六章特征提取与选择

(三) 类内及总体的均值矢量
类的均值矢量：
m (i)

1 Ni
Ni
xk
(i
)
k 1
i 1,2,, c
各类模式的总体均值矢量 m c Pi m (i)
i 1
Pi 为相应类的先验概率，当用统计量代替先验概率时，总体均值矢量可表示为：

m

c i 1
Pi
只考虑连续的情况：
因为f(0)=f(1) = 0 ，当 0 s 1 时
f ’(s) = a-b-asb1-s (ln a - ln b)=0 a=b
从而有 f(s)=0 a=b ，由此有：

JC=0 p(x |1) p(x | 2 )
28
Jc 性质（5）证明：
设P(e)为最小误分概率，则：
由上式进一步可得：
P0 (e) P(1)s P( 2 )1s
p(
x

1
)
s
p(
x

2
)1
s
d
x
W
P(1)s P( 2 )1s exp JC
29
6.2.2基于类的概率密度函数的可分性判据
由JB和JC的定义知：JB=JC(1/2)
对p(两x类都1)是~正N态(分m布(1)情, C况1:)
)
)
T

C1
C2 2

1
(m (1)
m (2) )
p( x
2)
~
N (m (2)
, C2 )
JC

1 s(1 s)(m (1) 2
m (2) )T

模式识别第6章特征的选择和提取

d
– 当特征独立时有可加性：Jij (x1, x2 ,..., xd ) Jij (xk )
– 单调性： Jij (x1, x2 ,..., xd ) Jij (x1, x2 ,..., xdk,1xd 1 ) 常见类别可分离性判据：基于距离、概率分布、熵函数
© 李春权
模式识别
哈尔滨医科大学
200192
‹#›
经典特征选择算法
许多特征选择算法力求解决搜索问题，经典算法有 – 单独最优特征组合法、后退法、前进法(重点) – 分支定界法 – 模拟退火法(重点) – Tabu禁忌搜索法 – 遗传算法(重点)
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
‹#›
穷举法
由原始的D维空间降到d维空间问题。一共有q=CDd种特征组合结果。
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
‹#›
WKEA特征选择
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
‹#›
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
‹#›
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
‹#›
y wT x, w为d r矩阵， x为d维
此时，J 2
(w)
tr[S
* 1 w
Sb*
]
tr[(wT

模式识别特征的选择和提取

上面推导出的特征还有其它意义上的最优性质。
一个分布的熵定义为 H = -E[㏑p(y)] 粗略地说，当分布很平、延伸很广时，熵最大。如果x是零均值的高斯分布，那么可以证明所选择的特征向量具有最大熵。
这些特征向量沿最大方差方向，这样
的方向是最随机的，最不确定的，这些方向应保留下来作为特征。对最不确定的事，若有信息（测量），最有用。
u jT Rku j
，k=1，2，…，c
j m 1
由于Ri是半正定的，且λ max≤1，
∴ εk的大小为下式限定：
0≤ εk≤n-m， k =1，2，…,c
这样，使（**）式最大等价于使下式
最小（k≠i）
n
(n－m)－εk =
ujTuj ujTRkuj
jm1
n
= ujT(I Rk)uj jm1
要选两个特征，应选e1 、e2方向，均方误差是λ3 = 2.
表示模式的特征和用于分类的特征的不同
（1）均值大小的影响若均值较大，均值就会起大作用，特征在
均值方向。当两类问题的均值相差较大时，可以分类；
但若均值差不多，则不会有好的效果。
m
∵ R=Σ+mmT
（2）也可以使用协方差矩阵，以均值为参考点，相对于均值。
2．从两类的特征值中，不管哪一类，选最大的m个特征值所对应的特征向量。
一般地说，这两种方法谁好谁坏和具体
问题有关。
一旦特征向量选好后，则特征变换由
下式确定：
y = Tx =
← ej1T → ← ej2T →
：
STx，
← ej1T →
其中S是满足STQS = I的矩阵。
* 2. C类时的情况

模式识别第六章特征提取

4

三大类特征：物理、结构和数学特征

特征的形成

特征形成 (acquisition)：

信号获取或测量→原始测量原始特征

实例：
数字图象中的各像素灰度值人体的各种生理指标原始特征分析：原始测量不能直观反映对象本质高维原始特征不利于分类器设计：计算量大，冗余，样本分布十分稀疏

5

特征的选择与提取

两类提取有效信息、压缩特征空间的方法：特征提取和特征选择

特征选择(selection) ：从原始特征中挑选出一些最有代表性，分类性能最好的特征；特征提取 (extraction)：用映射（或变换）的方法把原始特征变换为较少的新特征；

特征的选择与提取与具体问题有很大关系，目前没有理论能给出对任何问题都有效的特征选择与提取方法。

类内距离和类内散布矩阵类间距离和类间散布矩阵多类模式向量间的距离和总体散布矩阵
Bhattacharyya判据（JB） Chernoff判据（JC）散度判据（JD）

基于类的概率密度函数的可分性判据

基于熵函数的可分性判据
11
6.2.1 基于距离的可分性判据

基于距离的可分性判据的实质是 Fisher 准则的延伸，即综合考虑不同类样本的类内聚集程度与类间的离散程度这两个因素。判据的优化体现出降维特征空间较好地体现类内密集。一些不能体现类间分隔开的特征很可能被排除掉了。离散度矩阵（散布矩阵）：一种描述数据离散程度的方法。

傅立叶变换、小波变换等用PCA方法作特征压缩
7

模式识别中的特征抽取与选择方法研究

模式识别中的特征抽取与选择方法研究特征抽取与选择在模式识别中扮演着至关重要的角色。

模式识别是一种分析和解释数据的过程，将数据转化为可理解的形式并用于分类、识别、聚类等任务。

特征抽取是指从原始数据中提取出对于模式识别任务有意义的特征，而特征选择是指从抽取出的特征中选择最相关、最有用的特征。

在模式识别任务中，原始数据可能具有很高的维度，包含大量的冗余信息，这会导致模型的复杂性和计算成本的增加。

同时，选择合适的特征也能够帮助提高模型的准确性和可解释性。

因此，研究特征抽取与选择方法对于优化模式识别系统具有重要意义。

特征抽取方法可以分为两大类：基于信号处理的方法和基于机器学习的方法。

基于信号处理的方法主要用于处理信号和图像数据，常见的方法包括小波变换、傅里叶变换、对数变换等。

这些方法能够提取出数据的频域、时域或空域特征，有助于捕捉到数据的局部和全局性质。

基于机器学习的特征抽取方法主要基于统计学原理和机器学习算法。

其中，主成分分析（PCA）是一种常用的降维方法，通过线性变换将高维数据映射到低维空间。

同时，局部特征提取方法，如局部二值模式（LBP）和尺度不变特征变换（SIFT），能够提取出数据的局部纹理和形状特征。

此外，深度学习方法，如卷积神经网络（CNN）和自编码器（AE），也能够自动学习数据的高层抽象特征。

在特征选择方面，常用的方法包括过滤法、包装法和嵌入法。

过滤法主要基于特征与类别之间的相关性进行特征选择，例如相关系数、互信息等。

这些方法简单高效，能够快速筛选出与目标变量相关性较高的特征，但忽略了特征之间的相互作用。

包装法通过训练模型并根据模型的性能选择特征。

常见的方法包括递归特征消除（RFE）和遗传算法等。

这些方法能够考虑特征之间的相互作用，但计算复杂度较高。

嵌入法将特征选择与模型训练过程结合起来，通过优化模型的性能来选择特征。

常见的方法包括L1正则化（L1 regularization）、决策树改进（Decision Tree Improvement）等。

模式识别第6章特征选择与提取

第六章特征选择与提取6.1 引言6.2 类别可分性判据6.3 特征选择6.4 特征提取6.5 图象的特征提取6.1 引言基本任务:如何从多特征中找出那些最有效的特征或:获取一组”少而精”的分类特征压缩⇒⇒研究如何高维特征空间低维特征空间特征分为三类:(1)物理的; (2)结构的; (3)数学的本章研究、讨论：学习样本选择并提取数学特征⎧⎨⎩⎧⎪⎪⎪⎨⎪⎧⎪⎨⎪⎩⎩物理人们直观识别对象特征感觉器官接受结构统计平均值相关系数机器自动识别对象：数学特征本征值协方差阵本征向量基本概念1.特征形成：根据被识别的对象产生一组原始特征⎧⎨⎩传感器的直接测量值模式空间计算值（波形、数字图象）例如：细胞识别⎧⎫⎪⎪⎪⎪⎯⎯⎯→⎨⎬⎪⎪⎪⎪⎩⎭计算通过图象输入得到细胞的数字图象细胞面积总光密度原始特征胞核面积核浆比⎧⎨⇒⎩专家经验和知识方法数学方法筛选比较Y XT E E T ⇒：：特征提取值（变换）器3.特征提取：通过映射或变换的方法，把模式空间的高维特征向量变成特征空间的低维特征。

2.特征选择：从一组特征中挑选出一些最有效的特征(过程)。

⎧⎪⎨⎪⎩特征评估标准解决特征选择与提取特征空间的维数优化过程⇒传感器特征形成特征选择与提取分类器⇒⇒⎯⎯⎯→决策→→→传感器特征形成特征选择与提取分类器⎯→⎯⎯→⎯⎯→⎯321Y Y Y ⎯→⎯⎯→⎯21X X ⎯⎯⎯→决策含有特征选择和提取的模式分类问题框图特征选择/提取降维过程信号6.2 类别可分性判据d D C ⇒特征选择/提取的任务：从D 个特征中选择出d个特征组合哪种组合最好准则衡量⇒找出：分类器错误率最小的那组特征(/)e i P p x ω⎧⎧⎪⎨⎨⎩⎪⎩计算理论上正确最有效的特征未知实际有困难希望找出一些使用的标准以衡量各类之间的可分性希望可分性准则满足下列几条要求：(1)与错误概率(或错误率上下界)有单调关系,这使取极值时其分类错误率也较小。

(2)度量特性：0, , 0, , ij ij ij jiij ij J i j J i j J J J i j J >≠===⎧⎨⎩当时不同类当时同类其中是第类和第类的可分性准则函数，类内分离度小越大，两类的分离程度就越大类间分离度大(3)单调性：加入新的特征时，准则函数不减小。

模式识别的三个步骤

模式识别是人工智能和机器学习领域的一个重要概念，它的主要任务是让计算机能够识别出输入数据的模式，并根据这些模式做出相应的决策或预测。

模式识别的三个主要步骤包括：
1.数据采集和预处理：这是模式识别的第一步，主要是收集原始
数据并进行必要的预处理。

数据可以来自各种传感器、图像、语音、文本等。

预处理包括数据清洗、降维、特征提取等，以便更好地进行后续处理。

这一步的目的是去除数据中的噪声和无关信息，提取出对模式识别有用的特征。

2.特征提取和选择：在数据采集和预处理之后，需要从数据中提
取出能够表征其本质属性的特征。

这些特征可以是一组数值、形状、纹理、颜色等，具体取决于要解决的模式识别问题。

特征提取和选择是模式识别中最关键的一步，因为有效的特征能够大大提高模式识别的准确率。

3.分类器设计和分类决策：在提取出有效的特征之后，需要设计
一个分类器来对不同的模式进行分类。

分类器可以是基于统计的方法、神经网络、支持向量机等。

分类决策是根据分类器的输出对待分类的样本进行决策，例如将某个样本归类到某一类别中。

需要注意的是，以上三个步骤是相互关联、相互影响的。

在实际应用中，可能需要根据具体的问题和数据特点对这三个步骤进行反复的调整和优化，以达到最好的模式识别效果。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

模式识别特征选择与提取中国矿业大学计算机科学与技术学院电子信息科学系班级：信科11-1班，学号：08113545，姓名：褚钰博联系方法（QQ或手机）：390345438，e-mail:****************日期：2014 年06月10日摘要实际问题中常常需要维数约简，如人脸识别、图像检索等。

而特征选择和特征提取是两种最常用的维数约简方法。

特征选择是从某些事物中提取出本质性的功能、应用、优势等，而特征提取是对特征空间进行变换，将原始特征空间映射到低维空间中。

本文是对主成分分析和线性判别分析。

而分类方法与分类器设计，都是在d（变量统一用斜体）维特征空间已经确定的前提下进行的。

因此讨论的分类器设计问题是一个选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题。

对分类器设计方法的研究固然重要，但如何确定合适的特征空间是设计模式识别系统另一个十分重要，甚至更为关键的问题。

反之，如果不同类别的样本在该特征空间中混杂在一起，再好的设计方法也无法提高分类器的准确性。

本文要讨论的问题就是特征空间如何设计的问题。

基于线性判别分析的高维特征选择将单个特征的Fisher准则与其他特征选择算法相结合，分层消除不相关特征与冗余特征。

不相关特征滤波器按照每个特征的Fisher评价值进行特征排序，来去除噪音和不相关特征。

通过对高维数据特征关联性的分析，冗余特征滤波器选用冗余度量方法和基于相关性的快速过滤器算法。

分别在不同情境下进行数据分类实验，验证其性能。

2.原理分析对一原始特征来说，特征选择的方案很多，从N 维特征种选择出M 个特征共有()!!!M N N C M N M =-中选法，其中哪一种方案最佳，则需要有一个原则来进行指导。

我们进行特征选择和特征提取的最终目的还是要进行识别，因此应该是以对识别最有利原则，这样的原则我们称为是类别的可分性判据。

用这样的可分性判据可以度量当前特征维数下类别样本的可分性。

可分性越大，对识别越有利，可分性越小，对识别越不利。

人们对的特征的可分性判据研究很多下面几种常用的判据，我们需要根据实际问题，从中选择出一种。

一般来说，我们希望可分性判据满足以下几个条件：1. 与识别的错误率由直接的联系，当判据取最大值时，识别的错误率最小；2. 当特征独立时有可加性，即：)(),,,(121K NK ij N ij x J x x x J ∑==ij J 是第i 类和第j 类的可分性判据，ij J 越大，两类的可分程度越大，()12,,,N x x x 为N 维特征；3. 应具有某种距离的特点：0ij J >，当i j ≠时； 0ij J =，当i j =时；ij ji J J =；4. 单调性，加入新的特征后，判据不减小：()()12121,,,,,,,ij N ij N N J x x x J x x x x +≤。

但是遗憾的是现在所经常使用的各种判据很难满足上述全部条件，只能满足一个或几个条件。

特征提取又称为特征变换，最常采用的特征变换是线性变换，即若DR x ∈是D 维原始特征，变换后的d 维新特征dR y ∈为x W y T= ，其中，W 是d ⨯D 维矩阵，称作变换阵。

特征提取就是根据训练样本求适当的W ，使得某种特征变换准则最优。

主成分分析方法的出发点是从一组特征中计算出一组按重要性从大到小排序的新特征，他们是原有特征的线性组合，并且相互之间是不相关的。

记p x x x ,,,21 为p 个原始特征，设新特征ξ，i=1, ，p 是这些原始特征的线性组合 x x T i j pj ij i ααξ==∑=1，为了统一i ξ的尺度，要求线性组合的模为1，即1=i T i αα，写成矩阵形式是 x A T=ξ，其中，ξ是由新特征i ξ组成的向量，A 是特征变换矩阵。

要求解的是最优的正交变换A ，它使新特征i ξ的方差达到极值。

3.理论证明或说明特征选择的基本框图为:一个典型的特征选择算法通常包括四个人基本步骤:1.子集产生，这是一个搜索过程，通过一定的搜索策略产生候选的特征子集。

2.子集评价，每一个候选的特征子集都根据一定的评价准则得到，并与先前的最优特征子集进行比较。

3.终止条件，算法结束所需要满足的条件，它与子集的产生过程和评价准则的选用有关。

4.结果验证，就是根据一定的先验知识或通过合成现实数据集的测试来证明所选择的特征子集的性能。

基于特征提取主成分分析变换矩阵的一般过程：训练数据全集4.实现方法或步骤流程特征选择顺序前进法每次从未入选的特征中选择一个特征，使得它与已入选的特征组合到一起所得到的可分性判据最大，直到特征数增加到M 为止。

用k X 表示在第k 步时的特征集合，搜索算法如下：1) 开始时，0X =∅，从N 个特征中选择一个()i J x 最大的特征，加入已选特征集，{}1i X x =； 2) 在第k 步，k X 中包含已经选择的k 个特征，对未入选的N k -个特征计算，{}()kjJ X x ，其中1,2,,j N k =-，并且按照由大到小排序，将可分性判据最大的特征l x 加入k X ，{}1k kl X X x +=；3) 直到所选的特征数等于M 为止。

特征抽取的方法—基于离散K-L 变换(DKLT)的特征抽取：设原始特征为N 为矢量()12,,,TN x x x =X ，均值矢量[]E =m X ，相关矩阵T E ⎡⎤=⎣⎦X R XX ，协方差矩阵()()TE ⎡⎤=--⎣⎦X C X m X m 。

我们可以对X 作如下的标准正交变换，将其变为矢量()12,,,TN y y y =Y :12T T T N ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦T T TY =T X X TY 的每个分量：T i i y =T X ，其中T 为一个N N ⨯的标准正交矩阵，i T 为其第i 个列矢量，1,0,T i j i ji j=⎧=⎨≠⎩T T 。

也就是说Y 的每个分量是X 每一个分量的线性组合。

同样X 可以表示为：()()112121NT N i i i N y y y y -=⎡⎤⎢⎥⎢⎥====⎢⎥⎢⎥⎢⎥⎣⎦∑X T Y TY T T T T我们要进行特征提取，也就是要用Y 的M 项来代替X ，这种代替必然带来误差，下面我们来对这个误差进行估计：令：1ˆMi ii y ==∑X T ，1M N ≤<，引入的均方误差为： ()()()2211N NTTi i i i M i M e M E E y E y y =+=+⎡⎤⎡⎤⎡⎤=--==⎣⎦⎣⎦⎢⎥⎣⎦∑∑X XX X 11NNTTTii ii i M i M E =+=+⎡⎤==⎣⎦∑∑XTXX T T RT这又变成一个优化问题，我们希望寻找到一个标准正交矩阵T ，使得()2e M 最小，因此可以去这样的准则函数：()111NNT T ii iiii M i M J λ=+=+=--∑∑XT RT T T第一项保证均方误差最小，第二项保证T 为标准正交矩阵，i λ为一待定常数。

()i i iJλ∂=-=∂X R I T 0T ，1,,i M N =+即：i i i λ=X R T T ，很明显i λ为相关矩阵X R 的特征值，i T 为对应于i λ的特征矢量，由于X R 是一个实对称矩阵，所以12,,.N T T T 相互正交，T 为一个正交矩阵。

均方无差：()2111NN NT T ii ii iii M i M i M e M λλ=+=+=+===∑∑∑XT RT T T根据矩阵论，有这样的结论：一个N N ⨯的正定实对称矩阵有N 个特征值和特征矢量，这些特征矢量之间是正交的。

相关矩阵X R 就是一个实对称矩阵，当训练样本足够多时，也可以满足正定性，根据上式我们知道，当要从N 维特征中提取出M 维特征时，我们只需要统计出特征相关矩阵X R ，然后计算其特征值和特征矢量，选择对应特征值最大的前M 个特征矢量作成一个N M ⨯特征变换矩阵T ，就可以完成特征提取。

步骤如下：1、利用训练样本集合估计出相关矩阵T E ⎡⎤=⎣⎦X R XX ；2、计算X R 的特征值，并由大到小排序：12N λλλ≥≥≥，以及相应的特征矢量：12,,,N T T T ；3、选择前M 个特征矢量作成一个变换矩阵[]12M =T T T T ；4、在训练和识别时，每一个输入的N 维特征矢量X 可以转换为M 维的新特征矢量：TY =T X 。

这种方法是利用相关矩阵X R 进行变换，同样也可以利用协方差矩阵X C 进行变换，还可以利用样本的散度矩阵W S ，B S ，T S 或者1W B -S S 进行变换。

过程都是一样的，需要计算特征值和特征向量，选择最大的M 个特征值对应的特征矢量作出变换矩阵。

5.实验设计和结果分析基于特征相关性的特征选择算法选择c 均值聚类算法来去除冗余。

C 均值算法的基本思想即是通过迭代寻找c 个聚类的一种划分方案，使得用这c 个聚类的均值来代表相应各类样本时所得到的总体误差最小。

C 均值算法的基础是最小误差平方和准则。

若i N 是第i 聚类i Γ中的样本数目，i m 是这些样本的均值，即∑Γ∈=iy ii y N m 1把iΓ中的各样本y 与均值i m 间的误差平方和对所有类相加后为21e ∑∑=Γ∈-=ci y i im y Je J 是误差平方和聚类准则，它是样本集y 和类别集Ω的函数。

C 均值算法的步骤：1.选择初始划分，并计算每个聚类的均值以及误差平方和；2.选择一个备选样本y ，设y i Γ∈；X1the first results of kmeansX2X 3X1X2X 31.无论在聚类时，初始均值如何选取，在程序结果中总能得到相同的分类结果，同时e J 的结果相差很小。

2．当各聚类设定的初始均值不同时，程序结果经过的步骤不同。

3.e J 是随着聚类数目的增加而单调的减少的，当聚类数目等于样本数时e J =0，即每个样本自己成一类。

模式识别特征选择与提取

合集下载