当前位置:文档之家› 第八讲 特征提取和特征选择(讲义)

第八讲 特征提取和特征选择(讲义)

第八讲 特征提取和特征选择(讲义)
第八讲 特征提取和特征选择(讲义)

第八讲特征提取和特征选择

一、基本概念

1、特征的生成

(1)原始特征的采集和转换

通过对原始特征的信号采集,获得样本的原始表达数据,

从原始数据中选择或计算出对分类任务有用的原始特征,并转换成可用

的形式

原始数据:

像素点RGB值矩阵

可用的原始特征:

轮廓特征

颜色特征

纹理特征

数学特征

(2)有效特征的生成

目的:

降低特征维数,减少信息冗余

提升特征的有效性

方法:

特征提取:提高特征对类别的分辨能力

特征选择:寻找对分类最重要的特征 2、 特征提取

通过某种变换,将原始特征从高维空间映射到低维空间。

A :X →Y ; A 为特征提取器,通常是某种正交变换。

最优特征提取:J(A*)=max J(A), J 是准则函数

3、 特征选择

从一组特征中挑选出一些最有效的特征,以达到降低特征空间维数的目的。

D

d d i S y y y y F x x x S i d D <=∈→;,...,2,1,}

,......,,{:},......,,{:2121

原始特征集合S 中包含D 个特征,目标特征集合F 中包含d 个特征;

最优特征选择:J(F*)=max J(F), J 是准则函数 4、 准则函数的选取

(1) 准则函数的选取原则

分类正确率是最佳的特征提取和特征选择准则函数,但难以计算。

实用的类别可分性准则函数应满足以下要求:

与分类正确率有单调递增关系

当特征独立时具有可加性:∑==d

k k

ij

d ij x J x x x J 1

)()...21,,

,(

具有标量测度特性:??

?

??===≠>ji ij ij ij J J j i J j i J 时

,当时

,当00

对特征具单调性:)

...

)

...1

2

1

2

1+

(d

d

ij

d

ij x

x

x

x

J

x

x

x

J<

(2)类内类间距离

是各类的先验概率。

中的样本数,

中的样本数,

值,称为类内类间距离

向量之间的距离的平均

离,则各类中各特征

)为这两个向量间的距

特征向量,

类中的

类及

分别为

类,令

设一个分类问题共有

定义:

j

i

j

j

i

i

n

k

n

l

j

l

i

k

c

i j

i

c

j

j

i

d

j

l

i

k

j

i

j

l

i

k

P

P

n

n

x

x

n

n

P

P

x

J

x

x

x

x

a

i j

ω

ω

δ

δ

ω

ω

∑∑

∑∑

==

==

=

11

11

1

2

1)(

)

(

)

(

)

(

)

(

)

(

)

(

D

c

.

例:

∑∑∑∑∑∑

∑∑

∑∑

∑∑

∑∑

∑∑

================????????==

======

2

121

222

22

13

1121

23

121

212

13

13

1111111

2

1

2

1

2121111

12

2121321

212

3121331

2112

1

234060212

1k l l k k l l k k l l k k l l k n k n l j l i k i j

i j j

i

d n k n l j l i k c i j

i c

j j

i

d x x

P P x x

P P x x P P x x P P x x n n P P x J n n P P c x x n n P P x J i

j

i

j

,(+)

,(+)

,(+)

,()

,()

,()()()

()()()()()

()()()()()(,,.,.,)(δδδδδδ

对于随机性统计分类,类内类间距离和分类错误率不相关 b.类内类间距离的分解

(

)(

)

()()()()()()

m m m m

n P m x

m x

n P m m m m m x m x n P x J m

P m m x m i m x x x x x x i T

i

c

i i

i n k i i k

T

i

i k

i

c i i

n k i T

i i i k

T

i

i k

i

c

i i d c

i i

i n k i k n i i j l i k j l i k j l i k i

i

i

i

--+

--=

??

?

?

????--+--=

=

=

∑∑∑

∑∑

∑∑

=======1

1

1

1

11

1

1

11

1

)()()()

()()()(T )()()()( )( : 则总均值向量:表示所有各类样本集的用类样本集的均值向量表示第用)

-()-)=(,(则有的距离,

度量两个特征向量之间如采用均方欧氏距离来δ(

)(

)

()()

()b

w b w b w d T

i i

c i i

b n k T

i

i k

i

i k

i

c

i i

w J J S tr S tr S S tr x J m m m m

P S m x m x n P S i

+=+=+=--=

--=∑∑∑

===)()( )( )()(则间离散度矩阵分别为令类内离散度矩阵和类1

1

11

Jw 称为类内平均距离,Jb 称为是类间平均距离

从类别可分性的要求来看,希望Jw 尽可能小, Jb 尽可能大 (3) 概率距离

类间的概率距离可用分布函数之间的距离来度量

完全可分:若p(x|ω1) ≠0时, p(x|ω2)=0;

完全不可分:对任意x ,都有 p(x|ω1) = p(x|ω2);

性的概率距离度量

则可作为两类之间可分;为、当两类完全不可分是取得最大值;、当两类完全可分时;

、满足以下条件:若任何函数

0c b 0a ],),|(),|([)(p p p p J J J dx P P x p x p g J ≥=??

2121ωω

二、 使用类内类间距离进行特征提取

1、 准则函数的构造:

类内类间距离为:Jd=Jw+Jb =tr (Sw +Sb)

其中Jw 是类内平均距离,Jb 是类间平均距离

通常给定一个训练集后,Jd 是固定的,

在特征提取时,需要加大Jb ,减小Jw ,来获得满意的分类效果。

Sw 和Sb 是对称矩阵,迹和行列式值在正交变换下具有不变性,所以常构造以下特征提取准则函数:

()w

b w w b w b

b w

S S S J S tr S tr J S S J S S tr J +=

===5,,,-)()

(]ln[ 4321

2、 特征提取算法:

以准则函数J2为例:

W

S W S W S W S S S S S x

W y ],...,y ,y [y y ],...,x ,x [x x b T b w T w b w b w T T d T D =====****, ,d ,

D 散度矩阵;为变换后特征空间的离度矩阵,

为原始特征空间的离散令其变换关系为:个特征:通过特征提取后压缩为个原始特征:假设有,,2121

()∑=≥≥≥==-d

i i

D b w b T -w T b w W J λλλS S J W]S W W)S tr [(W S S tr J 1

221211

W d ,...W 0W

**

12λ)=

(此时,。量可构成个特征值对应的特征向则前:的特征值按大小排序为设矩阵可得:

,极值时的取来求得其为的各分量求偏导数并令可将此式对:则准则函数在变换后为-

保留了原特征向量中方差最大的特征维度成分

判据的最优特征提取。

求用=,=协方差矩阵是:

和=:类,其均值向量分别为

给定先验概率相等的两例题:

2J ,],,[],,[??

????????∑??????????∑--=-1000210121000410141111312112T T μμ

??

??

?

?????=∑+∑=??

????????----=--==+=∑

=1000310132

1121242121

0102

1212

1

21)())((21S ],,[)(b w i T i i T

S 类内离散度矩阵:

类间离散度矩阵:

解:

μμμμμμμ

T

w w w S S S S S S S S S S S b w b w b w b w b w w

),,(D W ,85181

118168510512

1818000310138111

1

1

1

1

1

-==?????

??????---=??????????--=------最后求出结果为:的特征值应解方程:矩阵,求是只有一个非零特征值,,因此的秩是所以λ

三、 特征选择算法

1、 独立算法

分别计算D 个特征单独使用时的准则函数,选取最优的前d 个特征作为最优特征。

除极特殊情况(各特征相互独立,准则函数满足可加性)外,所得特征组合均不一定是最优特征组合。 2、 穷举算法

从D 个特征中选择所有可能的d 个特征组合,计算其准则函数,寻找其最优值,从而得到最佳特征组合。

计算量太大

若D =100,d =10,则计算次数为:

64401731030945!

)!(!

!)!(!=-=-=

=1010100100d d D D C q d

D

每秒计算一次,需要288505157607分钟,4808419293小时,200350804天,548906年。

3、 分支定界算法 (1)算法原理:

从原特征数D 开始依次减少特征数,直至到达所需的特征数d ;

将过程中所有可能的组合情况组合成一棵搜索树;特征数少的组合作为特征数多的组合的子节点;

按特定路线遍历整个搜索树,计算所遇到的每一个节点的准则函数;

如遇到某个节点的准则函数值比已得到的特征数更少的节点的准则函数值还小,则放弃其下所有节点的计算; (2)搜索树的构造:

根节点为0级,包含D 个特征;

每一级舍弃1个特征;

下一级在上一级基础上继续舍弃特征;

整个搜索树共有D -d 级;

为避免组合重复,从左至右每个子树包含的分支依次减少;

例:原始特征={x1,x2,x3,x4},D=4,d=2

(3)搜索路由:

从根节点开始,沿最右边路径下行,计算每个节点的J值,把第一个遇到的叶节点的J值设为边界初值B;沿原路径回溯,遇到第一个分叉点后沿新路径下行,计算遇到的每个节点的J值;

如遇到某节点的J值小于B,则放弃其下的所有分支的计算,向上回溯;

如遇到下一个叶节点的J值大于B,则更新B为新的叶节点的J值。

遍历整个搜索树,最终得到的B值对应的叶节点,就是最优特征组合。

(4)算法特点:

能否得到最优解,取决于准则函数J对特征数量是否单调

开始(4个特征)

x1

x2 x3

x2

x3

x4

x3

x4 x4

x1 x1 x2 3个特征

2个特征

2 3

x3

4

x4 4

更新B 初始B

构造单调的准则函数时要考虑特征间的相关性

对于独立特征,如果J>0,又满足可加性,则单调性成立

利用准则函数对特征数量的单调性,在穷举算法时可跳过大量计算,是最优算法。

计算次数可能比穷举法多,也可能比穷举法少

d d d D d D d D d D d

d C C C C C D d D d d C 1

3211111+---+++++=--++=--最多计算次数:+最少计算次数:)D (

遍历搜索树可有多种方法

算法一:从右至左依次遍历

算法二:剪枝法

实例:

有一个分类问题,原始特征空间包含5个特征,试选择2个最重要的特征来降低特征空间的维数。

准则函数值

J (

xn )相加得到 计算次数=14次

4、 次优算法

(1)顺序前进法(SFS )

每次从未入选的特征中选择一个特征,使得它与已入选的特征组合所得到的J 值最大。

X 2(J=0.8)

X 3 X 5 X 4

X 4(J=0.9) B=0.9

X 5(J=0.6) X 5(J=0.8) B=0.8 X 3(J=0.7)

X 4

X 5 X 5(J=0.5)

k

i i k k X x D i x X J X J ?=+=+且最优单步方案满足:

,)},(max{)(*11

计算量:

1+1/2((D+1)D-d(d+1))

缺点:不能剔除已入选的特征,无法保证全局最优;

(2)顺序后退法(SBS )

每次从已入选的特征中剔除一个特征,使得仍保留的特征组合所得到的J 值最大。

k

i i k k X x D i x X J X J ∈=-=-且最优单步方案满足:

,)},(max{)(*11

计算量:D ×

d-d(d-1)/2

缺点:不能召回已剔除的特征,无法保证全局最优; (3)动态顺序前进法(l-r 法)

按照单步最优的原则从未入选的特征中选择l 个特征,再从已入选的特征中剔除r 个特征,使得仍保留的特征组合所得到的J 值最大

优点:如能动态调整l 和r ,计算量比分支定界法小,而效果相当

缺点:不能保证获得最优解;

特征选择与特征提取

模式类别的可分性判据 在讨论特征选择和特征压缩之前,我们先要确定一个选择和提取的原则。对一个原始特征来说,特征选择的方案很多,从N 维特征种 选择出M 个特征共有()!!! M N N C M N M = -中选法,其中哪一种方案最佳, 则需要有一个原则来进行指导。同样,特征的压缩实际上是要找到M 个N 元函数,N 元函数的数量是不可数的,这也要有一个原则来指导找出M 个最佳的N 元函数。 我们进行特征选择和特征提取的最终目的还是要进行识别,因此应该是以对识别最有利原则,这样的原则我们称为是类别的可分性判据。用这样的可分性判据可以度量当前特征维数下类别样本的可分性。可分性越大,对识别越有利,可分性越小,对识别越不利。 人们对的特征的可分性判据研究很多,然而到目前为止还没有取得一个完全满意的结果,没有哪一个判据能够完全度量出类别的可分性。下面介绍几种常用的判据,我们需要根据实际问题,从中选择出一种。 一般来说,我们希望可分性判据满足以下几个条件: 1. 与识别的错误率由直接的联系,当判据取最大值时,识别的错误率最小; 2. 当特征独立时有可加性,即: ()()121 ,,,N ij N ij k k J x x x J x ==∑

ij J 是第i 类和第j 类的可分性判据,ij J 越大,两类的可分程度 越大,()12,,,N x x x 为N 维特征; 3. 应具有某种距离的特点: 0ij J >,当i j ≠时; 0 ij J =,当i j =时; ij ji J J =; 4. 单调性,加入新的特征后,判据不减小: ()()12121,,,,,,,ij N ij N N J x x x J x x x x +≤ 。 但是遗憾的是现在所经常使用的各种判据很难满足上述全部条件,只能满足一个或几个条件。 基于矩阵形式的可分性判据 1. 类内散度矩阵 设有M 个类别,1,,M ΩΩ ,i Ω类样本集()()(){}12,,,i i i i N X X X ,i Ω类 的散度矩阵定义为: () ()() ( )()() ( ) 1 1i N T i i i i i w k k k i S N == --∑X m X m 总的类内散度矩阵为: ()() ()() () ()() () () 1 1 1 1 i N M M T i i i i i w i w i k k i i k i S P S P N ==== Ω= Ω--∑∑∑X m X m 2. 类间散度矩阵 第i 个类别和第j 个类别之间的散度矩阵定义为: () () () ( )() () ( ) T ij i j i j B S =--m m m m 总的类间散度矩阵可以定义为:

常见的特征选择或特征降维方法

URL:https://www.doczj.com/doc/9312640210.html,/14072.html 特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 1.减少特征数量、降维,使模型泛化能力更强,减少过拟合 2.增强对特征和特征值之间的理解 拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,选择一种自己最熟悉或者最方便的特征选择方法(往往目的是降维,而忽略了对特征和数据理解的目的)。 在许多机器学习的书里,很难找到关于特征选择的容,因为特征选择要解决的问题往往被视为机器学习的一种副作用,一般不会单独拿出来讨论。本文将介绍几种常用的特征选择方法,它们各自的优缺点和问题。 1 去掉取值变化小的特征Removing features with low variance 这应该是最简单的特征选择方法了:假设某种特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征取值都是1,那就可以认为这个特征作用不大。如果100%都是1,那这个特征就没意义了。当特征值都是离散型变量的时候这种方法才能用,如果是连续型变量,就需要将连续变量离散化之后才能用,而且实际当中,一般不太会有95%以上都取某个值的特征存在,所以这种方法虽然简单但是不太好用。可以把它作为特征选择的预处理,先去掉那些取值变化小的特征,然后再从接下来提到的特征选择方法中选择合适的进行进一步的特征选择。

2 单变量特征选择Univariate feature selection 单变量特征选择能够对每一个特征进行测试,衡量该特征和响应变量之间的关系,根据得分扔掉不好的特征。对于回归和分类问题可以采用卡方检验等方式对特征进行测试。 这种方法比较简单,易于运行,易于理解,通常对于理解数据有较好的效果(但对特征优化、提高泛化能力来说不一定有效);这种方法有许多改进的版本、变种。 2.1 Pearson相关系数Pearson Correlation 皮尔森相关系数是一种最简单的,能帮助理解特征和响应变量之间关系的方法,该方法衡量的是变量之间的线性相关性,结果的取值区间为[-1,1],-1表示完全的负相关(这个变量下降,那个就会上升),+1表示完全的正相关,0表示没有线性相关。 Pearson Correlation速度快、易于计算,经常在拿到数据(经过清洗和特征提取之后的)之后第一时间就执行。 Pearson相关系数的一个明显缺陷是,作为特征排序机制,他只对线性关系敏感。如果关系是非线性的,即便两个变量具有一一对应的关系, Pearson相关性也可能会接近0。 2.2 互信息和最大信息系数Mutual information and maximal information coefficient (MIC)

模式识别特征选择与提取

模式识别特征选择与提取 中国矿业大学计算机科学与技术学院电子信息科学系 班级:信科11-1班,学号:08113545,姓名:褚钰博 联系方法(QQ或手机):390345438,e-mail:390345438@https://www.doczj.com/doc/9312640210.html, 日期:2014 年06月10日 摘要 实际问题中常常需要维数约简,如人脸识别、图像检索等。而特征选择和特征提取是两种最常用的维数约简方法。特征选择是从某些事物中提取出本质性的功能、应用、优势等,而特征提取是对特征空间进行变换,将原始特征空间映射到低维空间中。 本文是对主成分分析和线性判别分析。 关键词:特征选择,特征提取,主成分分析,线性判别分析 1.引言 模式识别的主要任务是利用从样本中提取的特征,并将样本划分为相应的模式类别,获得好的分类性能。而分类方法与分类器设计,都是在d(变量统一用斜体)维特征空间已经确定的前提下进行的。因此讨论的分类器设计问题是一个选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题。对分类器设计方法的研究固然重要,但如何确定合适的特征空间是设计模式识别系统另一个十分重要,甚至更为关键的问题。如果所选用的特征空间能使同类物体分布具有紧致性,即各类样本能分布在该特征空间中彼此分割开的区域内,这就为分类器设计成功提供良好的基础。反之,如果不同类别的样本在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。本文要讨论的问题就是特征空间如何设计的问题。 基于主成分分析的特征选择算法的思想是建立在这样的基础上的:主成分分析方法将原始特征通过线性变换映射到新的低维空间时,获得的主成分是去了新的物理意义,难以理解,并且主成分是所有原始特征的线性组合。所以将主成分分析与特征选择相结合,设计多种相似性度量准则,通过找到与主成分相关的关键特征或者删除冗余、不相关以及没有意义的特征,将主成分又重新映射到原始空间,来理解成主成分的实际意义。 基于线性判别分析的高维特征选择将单个特征的Fisher准则与其他特征选择算法相结合,分层消除不相关特征与冗余特征。不相关特征滤波器按照每个特征的Fisher评价值进行特征排序,来去除噪音和不相关特征。通过对高维数据特征关联性的分析,冗余特征滤波器选用冗余度量方法和基于相关性的快速过滤器算法。分别在不同情境下进行数据分类实验,验证其性能。

特征选择与特征提取-Read

第五章 特征选择与特征提取 5.1 问题的提出 前面主要介绍的是各种分类器的设计方法,实际上我们已经完全可以解决模式识别的问题了。然而在实际应用中,在分类器设计之前,往往需要对抽取出的特征进行一下处理,争取尽量减小特征的维数。在实践中我们发现,特征的维数越大,分类器设计的难度也越大,一维特征的识别问题最容易解决,我们只要找到一个阈值t ,大于t 的为一类,小于t 的为一类。同时特征维数越大,要求的训练样本数量越多,例如在一维的情况下,10个训练样本就可以比较好的代表一个类别了,而在10维空间中,10个训练样本则是远远不够的。这一章中我们就来介绍一下减小特征维数的方法。 一般来说模式识别系统的输入是传感器对实物或过程进行测量所得到的一些数据,其中有一些数据直接可以作为特征,有一些数据经过处理之后可以作为特征,这样的一组特征一般称为原始特征。在原始特征中并不一定每个特征都是有用的,比如在识别苹果和橙子的系统中,我们可以抽取出的特征很多,(体积,重量,颜色,高度,宽度,最宽处高度),同样还有可能抽取出其它更多的特征。在这些特征中对分类有用的是(颜色,高度,最宽处高度),其它特征对识别意义不大,应该去除掉。这样的过程称为是特征选择,也可以称为是特征压缩。 特征选择可以描述成这样一个过程,原始特征为N 维特征()12,,,T N x x x =X ,从中 选择出M 个特征构成新的特征矢量( ) 11,, ,M T i i i Y x x x =,M N <。 同时,特征矢量的每一个分量并不一定是独立的,它们之间可能具有一定的相关性,比如说高度和最宽处的高度,高度值越大,最宽处的高度值也越大,它们之间具有相关性,我们可以通过一定的变换消除掉这种相关性,比如取一个比值:最宽处的高度/高度。这样的过程称为特征提取。 特征提取可以描述为这样一个过程,对特征矢量()12,, ,T N x x x =X 施行变换: ()i i y h =X ,1,2,,i M =,M N <,产生出降维的特征矢量()12,, ,T M Y y y y =。 在一个实际系统的设计过程中,特征的选择和提取过程一般都需要进行,首先进行特征选择,去除掉无关特征,这些特征实践上根本就不需要抽取出来,这部分传感器根本不需要安装,这样也可以减小系统的的成本。然后进行特征提取,降低特征的维数。然后利用降维之后的样本特征来设计分类器。 5.2 模式类别的可分性判据 在讨论特征选择和特征压缩之前,我们先要确定一个选择和提取的原则。对一个原始特

特征提取与选择 总结

第七章特征提取与选择_总结 7.6 特征选择中的直接挑选法 特征的选择除了我们前面学习的变换法外, 也可以在原坐标系中依据某些原则直接选择特征, 即我们这节课要学的直接挑选法。 7.6.1次优搜索法 (一)单独最优的特征选择 单独选优法的基本思路是计算各特征单独使用时的判据值并以递减排序,选取前d个分类效果最好的特征。一般地讲,即使各特征是统计独立的,这种方法选出的d个特征也不一定是最优的特征组合,只有可分性判据J是可分的,即 这种方法才能选出一组最优特征。 (二)增添特征法 该方法也称为顺序前进法(SFS)这是最简单的自下而上搜索方法,每次从未选入的特征中选择一个特征,使它与已选入的特征组合在一起时J值最大,直到选入特征数目达到指定的维数d为止。 设已选入了k个特征,它们记为X k,把未选入的n-k个特征x j(j=1,2,…,n-k)逐个与已选入的特征X k组合计算J 值,若: 则x1选入,下一步的特征组合为X k+1=X k+x1。开始时,k=0,X0=F,该过程一直进行到k=d为止。 该方法比“单独最优的特征选择法”要好,但其缺点也是明显的:即某特征一旦选入,即使后边的n-k特征中的某个从组合讲比它好,也无法把它剔除。 (三)剔减特征法 该方法也称为顺序后退法(SBS)。这是一种自上而下的搜索方法,从全部特征开始每次剔除一个特征,所剔除的特征应使尚保留的特征组合的值最大。 设已剔除了k个特征,剩下的特征组记为,将中的各特征x j (j=1,2,…,n-k)分别逐个剔除,并同时计算值,若: 则在这轮中x1应该剔除。

这里初值,过程直到k=n-d为止。 (四) 增l 减r 法(l-r 法) 为了克服前面方法(二)、(三)中的一旦某特征选入或剔除就不能再剔除或选入的缺点,可在选择过程中加入局部回溯,例如在第k步可先用方法(二)。,对已选入的k个特征再一个个地加入新的特征到k+1个特征,然后用方法(三) 一个个地剔除r个特征,称这种方法为l减r法(l-r法)。 7.6.2最优搜索法 (一)分支定界法(BAB算法) 寻求全局最优的特征选择的搜索过程可用一个树结构来描述,称其为搜索树或解树。总的搜索方案是沿着树自上而下、从右至左进行,由于树的每个节点代表一种特征组合,于是所有可能的组合都可以被考虑。利用可分性判据的单调性采用分支定界策略和值左小右大的树结构,使得在实际上并不计算某些特征组合而又不影响全局寻优。这种具有上述特点的快速搜索方法,称为分支定界算法。 6选2的特征选择问题 (a)搜索树 (b)搜索回溯示意图 树的每个节点表示一种特征组合,树的每一级各节点表示从其父节点的特征 组合中再去掉一个特征后的特征组合,其标号k表示去掉的特征是。由于每一级只舍弃一个特征,因此整个搜索树除根节点的0级外,还需要n-d级,即全树有n-d级。6个特征中选2个,故整个搜索树需4级,第n-d级是叶节点,有

第八讲 特征提取和特征选择(讲义)

第八讲特征提取和特征选择 一、基本概念 1、特征的生成 (1)原始特征的采集和转换 通过对原始特征的信号采集,获得样本的原始表达数据, 从原始数据中选择或计算出对分类任务有用的原始特征,并转换成可用 的形式 原始数据: 像素点RGB值矩阵 可用的原始特征: 轮廓特征 颜色特征 纹理特征 数学特征 (2)有效特征的生成 目的: 降低特征维数,减少信息冗余 提升特征的有效性 方法: 特征提取:提高特征对类别的分辨能力

特征选择:寻找对分类最重要的特征 2、 特征提取 通过某种变换,将原始特征从高维空间映射到低维空间。 A :X →Y ; A 为特征提取器,通常是某种正交变换。 最优特征提取:J(A*)=max J(A), J 是准则函数 3、 特征选择 从一组特征中挑选出一些最有效的特征,以达到降低特征空间维数的目的。 D d d i S y y y y F x x x S i d D <=∈→;,...,2,1,} ,......,,{:},......,,{:2121 原始特征集合S 中包含D 个特征,目标特征集合F 中包含d 个特征; 最优特征选择:J(F*)=max J(F), J 是准则函数 4、 准则函数的选取 (1) 准则函数的选取原则 分类正确率是最佳的特征提取和特征选择准则函数,但难以计算。 实用的类别可分性准则函数应满足以下要求: 与分类正确率有单调递增关系 当特征独立时具有可加性:∑==d k k ij d ij x J x x x J 1 )()...21,, ,( 具有标量测度特性:?? ? ??===≠>ji ij ij ij J J j i J j i J 时 ,当时 ,当00

特征选择、特征提取MATLAB算法实现(模式识别)

6特征选择 6.1问题 对“threethreelarge.m”数据,采用任意一种特征选择算法,选择2个特征 6.2思路 采用简单特征选择法(simple feature selection approach),首先计算每一个特征的分类能力值,再选择出其中最大分类能力的l个特征。 6.3结果 eigs=8.92340.00000.0767 SelectedFeature=13 也就是说,选取x和z坐标作为特征。 6.4代码 %特征选择代码,见FSthrthrlrg.m文件 m1=[0,0,0];m2=[0,0,0];m3=[0,0,0];m=[0,0,0]; for i=1:200 m1(1)=m1(1)+(x1(i,1)-m1(1))/i; m1(2)=m1(2)+(x1(i,2)-m1(2))/i; m1(3)=m1(3)+(x1(i,3)-m1(3))/i; end; for i=1:190 m2(1)=m2(1)+(x2(i,1)-m2(1))/i; m2(2)=m2(2)+(x2(i,2)-m2(2))/i; m2(3)=m2(3)+(x2(i,3)-m2(3))/i; end; for i=1:210 m3(1)=m3(1)+(x3(i,1)-m3(1))/i; m3(2)=m3(2)+(x3(i,2)-m3(2))/i; m3(3)=m3(3)+(x3(i,3)-m3(3))/i; end; m(1)=(m1(1)+m2(1)+m3(1))/3; m(2)=(m1(2)+m2(2)+m3(2))/3; m(3)=(m1(3)+m2(3)+m3(3))/3; sw1=zeros(3,3);sw2=zeros(3,3);sw3=zeros(3,3);sw=zeros(3,3);sb=zeros(3,3); for i=1:200 sw1=sw1+([x1(i,1),x1(i,2),x1(i,3)]-m1)'*([x1(i,1),x1(i,2),x1(i,3)]-m1); end; for i=1:190 sw2=sw2+([x2(i,1),x2(i,2),x2(i,3)]-m2)'*([x2(i,1),x2(i,2),x2(i,3)]-m2); end; for i=1:210 sw3=sw3+([x3(i,1),x3(i,2),x3(i,3)]-m3)'*([x3(i,1),x3(i,2),x3(i,3)]-m3); end; N1=200;N2=190;N3=210;N=N1+N2+N3;

特征选择、特征提取matlab算法实现(模式识别)

6 特征选择 6.1 问题 对“threethreelarge.m”数据,采用任意一种特征选择算法,选择2个特征 6.2 思路 采用简单特征选择法(simple feature selection approach),首先计算每一个特征的分类能力值,再选择出其中最大分类能力的l个特征。 6.3 结果 eigs = 8.9234 0.0000 0.0767 SelectedFeature = 1 3 也就是说,选取x和z坐标作为特征。 6.4 代码 % 特征选择代码,见FSthrthrlrg.m文件 m1=[0,0,0]; m2=[0,0,0]; m3=[0,0,0]; m=[0,0,0]; for i=1:200 m1(1)=m1(1)+(x1(i,1)-m1(1))/i; m1(2)=m1(2)+(x1(i,2)-m1(2))/i; m1(3)=m1(3)+(x1(i,3)-m1(3))/i; end; for i=1:190 m2(1)=m2(1)+(x2(i,1)-m2(1))/i; m2(2)=m2(2)+(x2(i,2)-m2(2))/i; m2(3)=m2(3)+(x2(i,3)-m2(3))/i; end; for i=1:210 m3(1)=m3(1)+(x3(i,1)-m3(1))/i; m3(2)=m3(2)+(x3(i,2)-m3(2))/i; m3(3)=m3(3)+(x3(i,3)-m3(3))/i; end; m(1)=(m1(1)+m2(1)+m3(1))/3; m(2)=(m1(2)+m2(2)+m3(2))/3; m(3)=(m1(3)+m2(3)+m3(3))/3; sw1=zeros(3,3); sw2=zeros(3,3); sw3=zeros(3,3); sw=zeros(3,3); sb=zeros(3,3); for i=1:200 sw1=sw1+([x1(i,1),x1(i,2),x1(i,3)]-m1)'*([x1(i,1),x1(i,2),x1(i,3)]-m1); end; for i=1:190 sw2=sw2+([x2(i,1),x2(i,2),x2(i,3)]-m2)'*([x2(i,1),x2(i,2),x2(i,3)]-m2); end; for i=1:210 sw3=sw3+([x3(i,1),x3(i,2),x3(i,3)]-m3)'*([x3(i,1),x3(i,2),x3(i,3)]-m3); end; N1=200; N2=190; N3=210; N=N1+N2+N3;

模式识别第5章特征选择和提取

第五章 特征选择和提取 特征选择和提取是模式识别中的一个关键问题 前面讨论分类器设计的时候,一直假定已给出了特征向量维数确定的样本集,其中各样本的每一维都是该样本的一个特征;这些特征的选择是很重要的,它强烈地影响到分类器的设计及其性能;假若对不同的类别,这些特征的差别很大,则比较容易设计出具有较好性能的分类器。 特征选择和提取是构造模式识别系统时的一个重要课题 在很多实际问题中,往往不容易找到那些最重要的特征,或受客观条件的限制,不能对它们进行有效的测量;因此在测量时,由于人们心理上的作用,只要条件许可总希望把特征取得多一些;另外,由于客观上的需要,为了突出某些有用信息,抑制无用信息,有意加上一些比值、指数或对数等组合计算特征;如果将数目很多的测量值不做分析,全部直接用作分类特征,不但耗时,而且会影响到分类的效果,产生“特征维数灾难”问题。为了设计出效果好的分类器,通常需要对原始的测量值集合进行分析,经过选择或变换处理,组成有效的识别特征;在保证一定分类精度的前提下,减少特征维数,即进行“降维”处理,使分类器实现快速、准确和高效的分类。为达到上述目的,关键是所提供的识别特征应具有很好的可分性,使分类器容易判别。为此,需对特征进行选择。应去掉模棱两可、不易判别的特征;所提供的特征不要重复,即去掉那些相关性强且没有增加更多分类信息的特征。 说明:实际上,特征选择和提取这一任务应在设计分类器之前进行;从通常的模式识别教学经验看,在讨论分类器设计之后讲述特征选择和提取,更有利于加深对该问题的理解。 所谓特征选择,就是从n 个度量值集合{x1, x2,…, xn}中,按某一准则选取出供分类用的子集,作为降维(m 维,m

电子鼻数据的特征选择

电子鼻数据的数据处理方法报告: 电子鼻是模仿生物鼻工作原理的一种电子系统,其工作过程可以简单的归纳为:气敏传感器阵列对待测气体进行信号采集,经信号预处理单元整理采集的数据,然后送入模式识别单元进行训练学习,学习完成后即可实现对待测气体成分的定性或定量的识别。典型的电子鼻系统结构如下图所示: 信号预处理模块主要是对传感器采集的数据进行一些预处理,减少各种各样的干扰措施,并对处理之后的信号进行特征采集,采集的特征应用于模式识别模块。 模式识别模块是整个系统的核心。用于电子鼻系统的常见的模式识别方法有统计模式识别方法和人工神经网络方法。前者主要有Bayes、线性判别函数、非线性判别函数、SVM、K-近邻法等;后者主要有感知器算法、BP网络、径向基函数RBF神经网络等。 下面就信号的预处理和数据的特征提取进行相关的总结。 数据的预处理 对同一种样品,传感器对其需要测量多次。在测量中,很难保证每次测量的条件是一致的。因此,为了采集正确的特征,并消除影响,需要对数据进行相应的预处理,常见的预处理方法主要有: 1、标准化处理方法 标准化方法的思想是将样本数据的样本方差归一,这样处理可以便于对特征进行提取并对特征进行降维,这样的处理方法对信号的线性漂移(平移和比例漂移)具有很好的适应性。 处理过程为:设为样本i的第k个测量数据,则 其中,。 2、差分法 差分法的思想是补偿传感器的温度效应,其形式为

X(i)=x(i)-x(min) 3、相对差分:X(i)=x(i)/x(min) 4、分式差分:X(i)={x(i)-x(min)}/x(min) 5、归一化:X(i)={x(i)-x(min)}/{x(max)-x(min)} 6、采取信号变换方法 可以对采样信号进行DFT变换,得到变换后的数据,并进行特征提取。这种方法少见于文献,应用的较少。 数据的特征提取 对于原始数据,信息保持最完整的特征是原始特征。但是,原始特征的数量很大,会造成“维数灾难”,在这种情况下,为提高计算效率,需要在尽量不丢失有用信息的前提下,对原始特征进行合理的选择,产生出对分类识别最有效、数目最少的特征,以降低维数,这也就是特征提取的基本任务。 1、PCA降维法 主成分分析法在保持数据大部分信息的情况下,对原有具有信息重叠的多个指标进行线性组合,这样使得得到后的综合指标间即互不相关,又尽可能反应原来指标的信息。 不过PCA法有一些缺点。首先,PCA算法要求样本数据的相应时间是一样的,也就是说传感器从开始响应到结束响应的时间是一样的,但是在实际中,传感器对不同样本的响应时间是不同的;其次,PCA算法对样本的依赖较大,当对待测样本进行判别的时候,容易出现误判。 2、数据的重采样 对样本数据进行重采样,如隔t0时刻采样一个数据点,这样在保持原有数据变化形状的情况下,可以适量减少特征的维数。而且这样还可以减少对样本的依赖性。 设样本数据为x0,x1,x2,……,x1000,如果隔5个点采样,那么特征为(x0,x5,x10,……,x995,x1000)。 3、提取样本数据的统计量作为特征 常见的特征提取方法是采用样本数据的某些统计量作为样本特征。常见的统计量有: (1)响应曲线的最大响应值 (2)响应曲线的均值

相关主题
文本预览
相关文档 最新文档