模式识别第三章
- 格式:docx
- 大小:19.99 KB
- 文档页数:2
3 回归的线性模型至此,本书都聚焦在无监督学习,包括的议题有密度估计和数据聚类。
我们现在转向监督学习,并从回归开始。
回归的目的是:对给定的输入变量的D 维向量x 值,预测一个或更多连续目标变量t 值。
我们在第一章考虑多项式曲线拟合时,已经遇到过一个回归问题的例子。
多项式是线性回归模型的一大类函数中一个具体的例子,它也有含可调参数的线性函数的性质,并将组成本章的焦点。
最简单的线性回归模型也是输入变量的线性函数。
但是,通过取输入变量的一组给定的非线性函数的线性组合,我们可以获得更有用的函数类,称为基函数。
这样的模型是参数的线性函数,它们有简单的解析性,并且关于输入变量仍是非线性的。
给定一个训练数据集合,它有N 个观察值{}n x ,其中n=1,…,N ,以及对应的目标值{}n t ,目的是给定一个新的x 预测t 的值。
最简单方法是直接构造一个适当的函数()y x ,对一个新输入x ,它的值组成对应的t 的预测值。
更一般地,从概率角度考虑,我们想建立一个预测分布()p t x ,因为它表示了对x 的每一个值,t 值的不确定性。
由这个条件分布,我们可以为任意的新x 值预测t ,这相当于最小化一个适当选择的损失函数的期望。
如在第1.5.5所讨论的,通常选择损失函数的平方作为实值变量的损失函数,因为它的最优解由t 的条件期望给出。
对模式识别来说,虽然线性模型作为实用的技术有显著的限制,特别是涉及到高维输入空间的问题,但是它们具有好的解析性质,并且是以后章节要讨论的更复杂模型的基础。
3.1 线性基函数模型最简单的线性回归模型是输入变量的线性组合:011(,)D D y w w x w x =+++x w L (3.1) 其中1(,,)T D x x =x L ,这就是通常简称的线性回归。
此模型的关键特征是:它是参数0,,D w w L 的一个线性函数。
但同时它也是输入变量i x 的一个线性函数,这对模型产生了很大的限制。
模式识别(山东联盟)智慧树知到课后章节答案2023年下青岛大学青岛大学第一章测试1.关于监督模式识别与非监督模式识别的描述正确的是答案:非监督模式识别对样本的分类结果是唯一的2.基于数据的方法适用于特征和类别关系不明确的情况答案:对3.下列关于模式识别的说法中,正确的是答案:模式可以看作对象的组成成分或影响因素间存在的规律性关系4.在模式识别中,样本的特征构成特征空间,特征数量越多越有利于分类答案:错5.在监督模式识别中,分类器的形式越复杂,对未知样本的分类精度就越高答案:错第二章测试1.下列关于最小风险的贝叶斯决策的说法中正确的有答案:条件风险反映了对于一个样本x采用某种决策时所带来的损失;最小风险的贝叶斯决策考虑到了不同的错误率所造成的不同损失;最小错误率的贝叶斯决策是最小风险的贝叶斯决策的特例2.我们在对某一模式x进行分类判别决策时,只需要算出它属于各类的条件风险就可以进行决策了。
答案:对3.下面关于贝叶斯分类器的说法中错误的是答案:贝叶斯分类器中的判别函数的形式是唯一的4.当各类的协方差矩阵相等时,分类面为超平面,并且与两类的中心连线垂直。
答案:错5.当各类的协方差矩阵不等时,决策面是超二次曲面。
答案:对第三章测试1.概率密度函数的估计的本质是根据训练数据来估计概率密度函数的形式和参数。
答案:对2.参数估计是已知概率密度的形式,而参数未知。
答案:对3.概率密度函数的参数估计需要一定数量的训练样本,样本越多,参数估计的结果越准确。
答案:对4.下面关于最大似然估计的说法中正确的是答案:在最大似然函数估计中,要估计的参数是一个确定的量。
;在最大似然估计中要求各个样本必须是独立抽取的。
;最大似然估计是在已知概率密度函数的形式,但是参数未知的情况下,利用训练样本来估计未知参数。
5.贝叶斯估计中是将未知的参数本身也看作一个随机变量,要做的是根据观测数据对参数的分布进行估计。
答案:对第四章测试1.多类问题的贝叶斯分类器中判别函数的数量与类别数量是有直接关系的。
第三章概率密度函数的估计1.概率密度函数的估计方法及分类概率密度函数估计方法分为两大类:参数估计和非参数估计。
参数估计中,一直概率密度函数的形式,但其中部分或全部参数未知,概率密度函数的估计就是用样本来估计这些参数。
主要方法又有两类:最大似然估计和贝叶斯估计。
非参数估计,就是概率密度函数的形式也未知,或者概率密度函数不符合目前研究的任何分布模型,因此不能仅仅估计几个参数,而是用样本把概率密度函数数值化地估计出来。
主要方法有:直方图法、K N 近邻估计法、Parzen 窗口。
2.最大似然估计假定一个随机试验有若干个可能的结果。
如果在一次试验后出现了结果,那么,一般认为试验条件对“结果出现”有利,即这个试验中“出现”的概率(站在试验前的立场上考察)最大。
3.贝叶斯估计与最大似然估计区别在这两种估计中,都是假设样本概率密度函数形式已知,需要估计的是是概率密度函数中的参数。
虽然使用贝叶斯方法和最大似然估计的结果很相似,但这两个方法在本质上有很大的不同。
在最大似然估计方法中,我们把需要估计的参数向量看作是一个确定而未知的参数。
而在贝叶斯学习方法中,我们把参数向量看成是一个随机变量,已有的训练样本使我们把对于参数的初始密度估计转化为厚颜概率密度。
4.直方图方法a. 把样本x 的每个分量在其取值范围内分成k 个等间隔的小窗。
如果x 是d 维向量,则会得到k d 个小体积或者称作小舱,每个小舱的体积记作V ;b. 统计落入小舱内的样本数目q ic. 把每个小舱内的概率密度看作是常数,并用q i /(NV)作为其估计值,其中N 为样本总数。
在上述直方图估计中,采用的是把特征空间在样本范围内等分的做法。
小舱的体积选择应该与样本总数相适应。
避免小舱过宽或过窄,随样本数的增加,小舱体积应尽可能小,同时又必须保证小舱内有足够充分逗得样本,但每个小舱内的样本数有必须是总样本数中很小的一部分。
5.K N 近邻估计方法K N 近邻估计就是一种采用可变大小的小舱的密度估计方法,基本做法是:根据总样本确定一个参数K N ,即在总样本数为N 时要求每个小舱内拥有的样本个数。
第三章概率密度函数的估计
1.概率密度函数的估计方法及分类
概率密度函数估计方法分为两大类:参数估计和非参数估计。
参数估计中,一直概率密度函数的形式,但其中部分或全部参数未知,概率密度函数的估计就是用样本来估计这些参数。
主要方法又有两类:最大似然估计和贝叶斯估计。
非参数估计,就是概率密度函数的形式也未知,或者概率密度函数不符合目前研究的任何分布模型,因此不能仅仅估计几个参数,而是用样本把概率密度函数数值化地估计出来。
主要方法有:直方图法、K N 近邻估计法、Parzen 窗口。
2.最大似然估计
假定一个随机试验有若干个可能的结果。
如果在一次试验后出现了结果,那么,一般认为试验条件对“结果出现”有利,即这个试验中“出现”的概率(站在试验前的立场上考察)最大。
3.贝叶斯估计与最大似然估计区别
在这两种估计中,都是假设样本概率密度函数形式已知,需要估计的是是概率密度函数中的参数。
虽然使用贝叶斯方法和最大似然估计的结果很相似,但这两个方法在本质上有很大的不同。
在最大似然估计方法中,我们把需要估计的参数向量看作是一个确定而未知的参数。
而在贝叶斯学习方法中,我们把参数向量看成是一个随机变量,已有的训练样本使我们把对于参数的初始密度估计转化为厚颜概率密度。
4.直方图方法
a. 把样本x 的每个分量在其取值范围内分成k 个等间隔的小窗。
如果x 是d 维向量,则会得到k d 个小体积或者称作小舱,每个小舱的体积记作V ;
b. 统计落入小舱内的样本数目q i
c. 把每个小舱内的概率密度看作是常数,并用q i /(NV)作为其估计值,其中N 为样本总数。
在上述直方图估计中,采用的是把特征空间在样本范围内等分的做法。
小舱的体积选择应该与样本总数相适应。
避免小舱过宽或过窄,随样本数的增加,小舱体积应尽可能小,同时又必须保证小舱内有足够充分逗得样本,但每个小舱内的样本数有必须是总样本数中很小的一部分。
5.K N 近邻估计方法
K N 近邻估计就是一种采用可变大小的小舱的密度估计方法,基本做法是:根据总样本确定一个参数K N ,即在总样本数为N 时要求每个小舱内拥有的样本个数。
再求x 处的密度估计P ^(x)时,调整包含x 的小舱体积,直到小舱内恰好落入k N 个样本,P ^(x)=(k N /N)/V ,这样小舱体积根据样本密度自动调整。
与直方图不同的是,K N 近邻估计并不是把x 的取值范围划分为若干个区域,而是在x 的取值范围内以每一点为小舱中心进行估计。
6.Parzen 窗口
在采用固定小舱体积下,可以采用像K N 近邻估计那样用滑动的小舱来估计每个点上的概率密度,而不像直方图中那样仅在每个小舱内估计平均密度。
第七章特征选择
1.基于类内类间距离的可分性判据
Fisher 线性判别采用了使样本投影到一维后类内离散度尽可能小,类间离散度尽可能大的准则来确定最佳的投影方向,这就是一个直观的类别可分性判别。
这一思想可以可用来定义一系列基于类内类间距离的判别。
2.基于熵的可分性判据,熵J E 越小,可分性越好
3.特征选择的最优算法
x
一种不需要进行穷举法但仍能取得最优解的方法是分支定界法,基本思想是:设法将所有可能特征选择组合构建成一个树状的结构,按照特定的规律对树进行搜索,使得搜索过程尽可能早地可以达到最优解而不必遍历整个树。
4.特征选择的次优算法
单独最优特征的组合;顺序前进法;顺序后退法;增l减r法。
5.把分类器与特征选择集成来一起、利用分类器进行特征选择的方法通常被称作包裹法;于此对应,利用单独的可分性准则来选择特征在进行分类的方法为过滤法。