第八章-特征选择与提取
- 格式:pptx
- 大小:2.42 MB
- 文档页数:73
特征的提取和选择
特征提取和选择是机器学习中非常重要的环节,它既可以减少计算量,又可以提高模型的性能。
选择较好的特征可以让模型更加简单,更加容易
和快速的训练出最佳参数,从而使得模型更加精确、效果更好。
一般来说,特征提取和选择有以下几步:
1.特征提取。
特征提取关注的是利用现有特征生成新的特征。
它可以
是特征融合(如结合多个特征生成更强大的特征),也可以是特征变换
(如离散特征变换成连续特征)。
2.无关特征删除。
把没有帮助的特征删除,有助于减少模型的运行时间,提高模型的效果。
3.有关特征选择。
把与目标值有很强关联的特征选择出来,这些特征
被称为有关特征,它们可以帮助模型训练出更好的结果。
4.特征降维。
为了减少特征之间的相关性,减少计算量,与有关特征
相关性比较低的特征可以被删除。
5.特征加权。
调整特征的权重,使得有关特征拥有更大的影响力,从
而帮助模型更好的进行预测。
通过这种特征提取和选择的过程,可以把训练集中拥有相关性比较高
的有用特征保留下来,把没用的特征抛弃,有效的提高模型的性能。
分类:根据对象的观察值确定对象的类别属性。
分类的一般过程:特征的发现与提取(特征提取的好坏将直接影响到分类的结果。
特征选取的原则包括:明显有区分意义(同一类别样本的特征值比较相近,而不同类别的样本特征值有较显著的差异);容易提取;对不相关因素变化保持稳定;对噪声不敏感等);确定决策函数特征发现:将先验知识和实验数据有机结合起来,通过对学习样本(实验数据)的分析,发现并提取有效的特征。
•根据特定的问题领域(包括实验数据)的性质,提出可能特征的假设•利用已有的实验数据,验证假设是否正确特征处理:在已经得到数据样本之后如何用数学的办法对数据进行必要的选择和变换使得特征更易于分类,求出一组对分类最有效的特征1.高维特征带来的问题实际应用中,通常发现当特征个数增加到某一个临界点后,继续增加反而会导致分类器的性能变差。
1)概率模型与实际情况不匹配2)训练样本数有限→概率分布的估计不准确3)训练样本数有限→过拟合4)训练过程中的计算复杂度、时间-空间复杂度太大。
2.特征选择:1)概念:特征选择是从数量为D的原始特征中挑选出一组(d个)最有代表性,分类性能最好的特征;每个特征的状态是离散的-选与不选;从N个特征中选取k个,共C N k种组合;若不限定个数,则共2N种;这是一个典型的组合优化问题。
(思路)2)方法:Filter方法:不考虑所使用的学习算法。
通常给出一个独立于分类器的指标μ(可分离性判据)来评价所选择的特征子集S,然后在所有可能的特征子集中搜索出使得μ最大的特征子集作为最优特征子集;Wrapper方法:将特征选择和分类器结合在一起,即特征子集的好坏标准是由分类器决定的,在学习过程中表现优异的特征子集被选中;另外,按照最优特征组的构成可以分为“自下而上”法(特征数从0渐增)和“自上而下”法(特征数从D递减)。
3)可分离性判据:衡量特征对分类的有效性(关键问题)要求:A.与错误概率(或者错误概率的上界及下界)有单调关系,一般使判据取最大值时对应较小错误概率B.当特征(x1, x2, …, xd)相互独立时有可加性,即:;其中Jij是第i类和第j类的可分性准则函数。
特征提取与特征选择的区别与联系在机器学习和数据挖掘领域,特征提取和特征选择是两个重要的概念。
它们在数据预处理和模型构建中起着至关重要的作用。
本文将探讨特征提取与特征选择的区别与联系,并从理论和实践角度进行深入分析。
1. 特征提取的定义与意义首先,我们来看看特征提取的定义与意义。
特征提取是指从原始数据中提取出具有代表性的特征,以便进行后续的数据分析和建模。
在实际应用中,原始数据往往包含大量的冗余信息和噪声,特征提取的目的就是通过某种算法或方法,对原始数据进行转换或映射,得到更加有用和有效的特征表示。
这样可以提高模型的准确性和泛化能力,同时减少计算复杂度和存储空间的消耗。
特征提取的方法有很多种,比如主成分分析(PCA)、独立成分分析(ICA)、线性判别分析(LDA)等。
这些方法都是通过对原始数据进行变换,得到新的特征表示,从而达到降维、去噪或增强特征的目的。
2. 特征选择的定义与意义接下来,我们再来看看特征选择的定义与意义。
特征选择是指从原始特征中选择出最具有代表性和重要性的特征子集,以用于后续的建模和预测。
在实际应用中,原始特征往往包含很多冗余和无关的信息,特征选择的目的就是找出对目标变量影响最大的特征,从而简化模型、提高预测性能和可解释性。
特征选择的方法有很多种,比如过滤式、包裹式和嵌入式等。
过滤式方法是直接对特征进行评估和排序,选择最高分的特征子集;包裹式方法是把特征选择看作一个搜索问题,通过试验不同的特征子集来找到最佳组合;嵌入式方法则是在模型训练过程中,通过正则化或增加惩罚项的方式来选择特征。
3. 特征提取与特征选择的区别特征提取与特征选择虽然都是对原始数据或特征进行处理,但它们在目的和方法上有着明显的区别。
首先,特征提取是通过某种变换或映射,得到新的特征表示,目的是降维、去噪或增强特征;而特征选择是从原始特征中选择出最具有代表性和重要性的特征子集,目的是简化模型、提高预测性能和可解释性。
第八讲特征提取和特征选择一、基本概念1、特征的生成(1)原始特征的采集和转换通过对原始特征的信号采集,获得样本的原始表达数据,从原始数据中选择或计算出对分类任务有用的原始特征,并转换成可用的形式原始数据:像素点RGB值矩阵可用的原始特征:轮廓特征颜色特征纹理特征数学特征(2)有效特征的生成目的:降低特征维数,减少信息冗余提升特征的有效性方法:特征提取:提高特征对类别的分辨能力特征选择:寻找对分类最重要的特征 2、 特征提取通过某种变换,将原始特征从高维空间映射到低维空间。
A :X →Y ; A 为特征提取器,通常是某种正交变换。
最优特征提取:J(A*)=max J(A), J 是准则函数3、 特征选择从一组特征中挑选出一些最有效的特征,以达到降低特征空间维数的目的。
Dd d i S y y y y F x x x S i d D <=∈→;,...,2,1,},......,,{:},......,,{:2121原始特征集合S 中包含D 个特征,目标特征集合F 中包含d 个特征;最优特征选择:J(F*)=max J(F), J 是准则函数 4、 准则函数的选取(1) 准则函数的选取原则分类正确率是最佳的特征提取和特征选择准则函数,但难以计算。
实用的类别可分性准则函数应满足以下要求:与分类正确率有单调递增关系当特征独立时具有可加性:∑==dk kijd ij x J x x x J 1)()...21,,,(具有标量测度特性:⎪⎩⎪⎨⎧===≠>ji ij ij ij J J j i J j i J 时,当时,当00对特征具单调性:)...)...12121+,,,,(,,,(ddijdij xxxxJxxxJ<(2)类内类间距离是各类的先验概率。
,中的样本数,为中的样本数,为),(:值,称为类内类间距离向量之间的距离的平均离,则各类中各特征)为这两个向量间的距,(特征向量,维类中的类及分别为,类,令设一个分类问题共有定义:jijjiinknljlikci jicjjidjlikjijlikPPnnxxnnPPxJxxxxai jωωδδωω∑∑∑∑=====1111121)()()()()()()(Dc.例:∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑================⨯⨯⨯⨯⨯⨯⨯⨯========2121222221311212312121213131111111212121211111221213212123121331211212340602121k l l k k l l k k l l k k l l k n k n l j l i k i ji j jid n k n l j l i k c i ji cj jid x xP P x xP P x x P P x x P P x x n n P P x J n n P P c x x n n P P x J ijij),(+),(+),(+),(),(),()()()()()()()()()()()()()(,,.,.,)(δδδδδδ对于随机性统计分类,类内类间距离和分类错误率不相关 b.类内类间距离的分解()()()()()()()()m m m mn P m xm xn P m m m m m x m x n P x J mP m m x m i m x x x x x x i Tici ii n k i i kTii kic i in k i Ti i i kTii kici i d ci ii n k i k n i i j l i k j l i k j l i k iiii--+--=⎥⎥⎦⎤⎢⎢⎣⎡--+--===∑∑∑∑∑∑∑=======11111111111)()()()()()()(T )()()()( )( : 则总均值向量:表示所有各类样本集的用类样本集的均值向量表示第用)-()-)=(,(则有的距离,度量两个特征向量之间如采用均方欧氏距离来δ()()()()()bw b w b w d Ti ic i ib n k Tii kii kici iw J J S tr S tr S S tr x J m m m mP S m x m x n P S i+=+=+=--=--=∑∑∑===)()( )( )()(则间离散度矩阵分别为令类内离散度矩阵和类1111Jw 称为类内平均距离,Jb 称为是类间平均距离从类别可分性的要求来看,希望Jw 尽可能小, Jb 尽可能大 (3) 概率距离类间的概率距离可用分布函数之间的距离来度量完全可分:若p(x|ω1) ≠0时, p(x|ω2)=0;完全不可分:对任意x ,都有 p(x|ω1) = p(x|ω2);性的概率距离度量则可作为两类之间可分;为、当两类完全不可分是取得最大值;、当两类完全可分时;、满足以下条件:若任何函数0c b 0a ],),|(),|([)(p p p p J J J dx P P x p x p g J ≥=∙⎰2121ωω二、 使用类内类间距离进行特征提取1、 准则函数的构造:类内类间距离为:Jd=Jw+Jb =tr (Sw +Sb)其中Jw 是类内平均距离,Jb 是类间平均距离通常给定一个训练集后,Jd 是固定的,在特征提取时,需要加大Jb ,减小Jw ,来获得满意的分类效果。