武汉大学模式识别特征选择和提取
- 格式:pptx
- 大小:2.62 MB
- 文档页数:25
特征的提取和选择
特征提取和选择是机器学习中非常重要的环节,它既可以减少计算量,又可以提高模型的性能。
选择较好的特征可以让模型更加简单,更加容易
和快速的训练出最佳参数,从而使得模型更加精确、效果更好。
一般来说,特征提取和选择有以下几步:
1.特征提取。
特征提取关注的是利用现有特征生成新的特征。
它可以
是特征融合(如结合多个特征生成更强大的特征),也可以是特征变换
(如离散特征变换成连续特征)。
2.无关特征删除。
把没有帮助的特征删除,有助于减少模型的运行时间,提高模型的效果。
3.有关特征选择。
把与目标值有很强关联的特征选择出来,这些特征
被称为有关特征,它们可以帮助模型训练出更好的结果。
4.特征降维。
为了减少特征之间的相关性,减少计算量,与有关特征
相关性比较低的特征可以被删除。
5.特征加权。
调整特征的权重,使得有关特征拥有更大的影响力,从
而帮助模型更好的进行预测。
通过这种特征提取和选择的过程,可以把训练集中拥有相关性比较高
的有用特征保留下来,把没用的特征抛弃,有效的提高模型的性能。
第六章特征选择与提取6.1 引言6.2 类别可分性判据6.3 特征选择6.4 特征提取6.5 图象的特征提取6.1 引言基本任务:如何从多特征中找出那些最有效的特征或:获取一组”少而精”的分类特征压缩⇒⇒研究如何高维特征空间低维特征空间特征分为三类:(1)物理的; (2)结构的; (3)数学的本章研究、讨论:学习样本选择并提取数学特征⎧⎨⎩⎧⎪⎪⎪⎨⎪⎧⎪⎨⎪⎩⎩物理人们直观识别对象特征感觉器官接受结构统计平均值相关系数机器自动识别对象:数学特征本征值协方差阵本征向量基本概念1.特征形成:根据被识别的对象产生一组原始特征⎧⎨⎩传感器的直接测量值模式空间计算值(波形、数字图象)例如:细胞识别⎧⎫⎪⎪⎪⎪⎯⎯⎯→⎨⎬⎪⎪⎪⎪⎩⎭计算通过图象输入得到细胞的数字图象细胞面积总光密度原始特征胞核面积核浆比⎧⎨⇒⎩专家经验和知识方法数学方法筛选比较Y XT E E T ⇒::特征提取值(变换)器3.特征提取:通过映射或变换的方法,把模式空间的高维特征向量变成特征空间的低维特征。
2.特征选择:从一组特征中挑选出一些最有效的特征(过程)。
⎧⎪⎨⎪⎩特征评估标准解决特征选择与提取特征空间的维数优化过程⇒传感器特征形成特征选择与提取分类器⇒⇒⎯⎯⎯→决策→→→传感器特征形成特征选择与提取分类器⎯→⎯⎯→⎯⎯→⎯321Y Y Y ⎯→⎯⎯→⎯21X X ⎯⎯⎯→决策含有特征选择和提取的模式分类问题框图特征选择/提取降维过程信号6.2 类别可分性判据d D C ⇒特征选择/提取的任务:从D 个特征中选择出d个特征组合哪种组合最好准则衡量⇒找出:分类器错误率最小的那组特征(/)e i P p x ω⎧⎧⎪⎨⎨⎩⎪⎩计算理论上正确最有效的特征未知实际有困难希望找出一些使用的标准以衡量各类之间的可分性希望可分性准则满足下列几条要求:(1)与错误概率(或错误率上下界)有单调关系,这使取极值时其分类错误率也较小。
(2)度量特性:0, , 0, , ij ij ij jiij ij J i j J i j J J J i j J >≠===⎧⎨⎩当时不同类当时同类其中是第类和第类的可分性准则函数,类内分离度小越大,两类的分离程度就越大类间分离度大(3)单调性:加入新的特征时,准则函数不减小。