中科院模式识别第三次(第五章)_作业_答案_更多
- 格式:docx
- 大小:372.33 KB
- 文档页数:6
模式识别习题集答案解析1、PCA和LDA的区别?PCA是⼀种⽆监督的映射⽅法,LDA是⼀种有监督的映射⽅法。
PCA只是将整组数据映射到最⽅便表⽰这组数据的坐标轴上,映射时没有利⽤任何数据部的分类信息。
因此,虽然做了PCA后,整组数据在表⽰上更加⽅便(降低了维数并将信息损失降到了最低),但在分类上也许会变得更加困难;LDA在增加了分类信息之后,将输⼊映射到了另外⼀个坐标轴上,有了这样⼀个映射,数据之间就变得更易区分了(在低纬上就可以区分,减少了很⼤的运算量),它的⽬标是使得类别的点距离越近越好,类别间的点越远越好。
2、最⼤似然估计和贝叶斯⽅法的区别?p(x|X)是概率密度函数,X是给定的训练样本的集合,在哪种情况下,贝叶斯估计接近最⼤似然估计?最⼤似然估计把待估的参数看做是确定性的量,只是其取值未知。
利⽤已知的样本结果,反推最有可能(最⼤概率)导致这样结果的参数值(模型已知,参数未知)。
贝叶斯估计则是把待估计的参数看成是符合某种先验概率分布的随机变量。
对样本进⾏观测的过程,把先验概率密度转化为后验概率密度,利⽤样本的信息修正了对参数的初始估计值。
当训练样本数量趋于⽆穷的时候,贝叶斯⽅法将接近最⼤似然估计。
如果有⾮常多的训练样本,使得p(x|X)形成⼀个⾮常显著的尖峰,⽽先验概率p(x)⼜是均匀分布,此时两者的本质是相同的。
3、为什么模拟退⽕能够逃脱局部极⼩值?在解空间随机搜索,遇到较优解就接受,遇到较差解就按⼀定的概率决定是否接受,这个概率随时间的变化⽽降低。
实际上模拟退⽕算法也是贪⼼算法,只不过它在这个基础上增加了随机因素。
这个随机因素就是:以⼀定的概率来接受⼀个⽐单前解要差的解。
通过这个随机因素使得算法有可能跳出这个局部最优解。
4、最⼩错误率和最⼩贝叶斯风险之间的关系?基于最⼩风险的贝叶斯决策就是基于最⼩错误率的贝叶斯决策,换⾔之,可以把基于最⼩错误率决策看做是基于最⼩风险决策的⼀个特例,基于最⼩风险决策本质上就是对基于最⼩错误率公式的加权处理。
第5章:线性判别函数第一部份:计算与证明1.有四个来自于两个类别的二维空间中的样本,其中第一类的两个样本为(1,4)T和(2,3)T,第二类的两个样本为(4,1)T和(3,2)T。
那个地址,上标T表示向量转置。
假设初始的权向量a=(0,1)T,且梯度更新步长k固定为1。
试利用批处置感知器算法求解线性判别函数g(y)=a T y的权向量。
解:第一对样本进行标准化处置。
将第二类样本更改成(4,1)T和(3,2)T. 然后计算错分样本集:g(y1) = (0,1)(1,4)T = 4 > 0 (正确)g(y2) = (0,1)(2,3)T = 3 > 0 (正确)g(y3) = (0,1)(-4,-1)T = -1 < 0 (错分)g(y4) = (0,1)(-3,-2)T = -2 < 0 (错分)因此错分样本集为Y={(-4,-1)T , (-3,-2)T }.接着,对错分样本集求和:(-4,-1)T+(-3,-2)T = (-7,-3)T第一次修正权向量a,以完成一次梯度下降更新:a=(0,1)T+ (-7,-3)T=(-7,-2)T再次计算错分样本集:g(y1) = (-7,-2)(1,4)T = -15 < 0 (错分)g(y2) = (-7,-2)(2,3)T = -20 < 0 (错分)g(y3) = (-7,-2)(-4,-1)T = 30 > 0 (正确)g(y4) = (-7,-2)(-3,-2)T = 25 > 0 (正确)因此错分样本集为Y={(1,4)T , (2,3)T }.接着,对错分样本集求和:(1,4)T +(2,3)T = (3,7)T第二次修正权向量a ,以完成二次梯度下降更新:a=(-7,-2)T + (3,7)T =(-4,5)T 再次计算错分样本集:g(y 1) = (-4,5)(1,4)T = 16 > 0 (正确) g(y 2) = (-4,5)(2,3)T = 7 > 0 (正确) g(y 3) = (-4,5)(-4,-1)T = 11 > 0 (正确) g(y 4) = (-4,5)(-3,-2)T = 2 > 0 (正确)现在,全数样本均被正确分类,算法终止,所得权向量a=(-4,5)T 。
1.简述模式的概念及其直观特性,模式识别的分类,有哪几种方法。
(6’)答(1):什么是模式?广义地说,存在于时间和空间中可观察的物体,如果我们可以区别它们是否相同或是否相似,都可以称之为模式。
模式所指的不是事物本身,而是从事物获得的信息,因此,模式往往表现为具有时间和空间分布的信息。
模式的直观特性:可观察性;可区分性;相似性。
答(2):模式识别的分类:假说的两种获得方法(模式识别进行学习的两种方法):●监督学习、概念驱动或归纳假说;●非监督学习、数据驱动或演绎假说。
模式分类的主要方法:●数据聚类:用某种相似性度量的方法将原始数据组织成有意义的和有用的各种数据集。
是一种非监督学习的方法,解决方案是数据驱动的。
●统计分类:基于概率统计模型得到各类别的特征向量的分布,以取得分类的方法。
特征向量分布的获得是基于一个类别已知的训练样本集。
是一种监督分类的方法,分类器是概念驱动的。
●结构模式识别:该方法通过考虑识别对象的各部分之间的联系来达到识别分类的目的。
(句法模式识别)●神经网络:由一系列互相联系的、相同的单元(神经元)组成。
相互间的联系可以在不同的神经元之间传递增强或抑制信号。
增强或抑制是通过调整神经元相互间联系的权重系数来(weight)实现。
神经网络可以实现监督和非监督学习条件下的分类。
2.什么是神经网络?有什么主要特点?选择神经网络模式应该考虑什么因素?(8’)答(1):所谓人工神经网络就是基于模仿生物大脑的结构和功能而构成的一种信息处理系统(计算机)。
由于我们建立的信息处理系统实际上是模仿生理神经网络,因此称它为人工神经网络。
这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
人工神经网络的两种操作过程:训练学习、正常操作(回忆操作)。
答(2):人工神经网络的特点:●固有的并行结构和并行处理;●知识的分布存储;●有较强的容错性;●有一定的自适应性;人工神经网络的局限性:●人工神经网络不适于高精度的计算;●人工神经网络不适于做类似顺序计数的工作;●人工神经网络的学习和训练往往是一个艰难的过程;●人工神经网络必须克服时间域顺序处理方面的困难;●硬件限制;●正确的训练数据的收集。
大学模式识别考试题及答案详解HUA system office room 【HUA16H-TTMS2A-HUAS8Q8-HUAH1688】一、填空与选择填空(本题答案写在此试卷上,30分)1、模式识别系统的基本构成单元包括:模式采集、特征提取与选择和模式分类。
2、统计模式识别中描述模式的方法一般使用特真矢量;句法模式识别中模式描述方法一般有串、树、网。
3、聚类分析算法属于(1);判别域代数界面方程法属于(3)。
(1)无监督分类 (2)有监督分类(3)统计模式识别方法(4)句法模式识别方法4、若描述模式的特征量为0-1二值特征量,则一般采用(4)进行相似性度量。
(1)距离测度(2)模糊测度(3)相似测度(4)匹配测度5、下列函数可以作为聚类分析中的准则函数的有(1)(3)(4)。
(1)(2) (3)(4)6、Fisher线性判别函数的求解过程是将N维特征矢量投影在(2)中进行。
(1)二维空间(2)一维空间(3)N-1维空间7、下列判别域界面方程法中只适用于线性可分情况的算法有(1);线性可分、不可分都适用的有(3)。
(1)感知器算法(2)H-K算法(3)积累位势函数法8、下列四元组中满足文法定义的有(1)(2)(4)。
(1)({A, B}, {0, 1}, {A01, A 0A1 , A 1A0 , B BA , B 0}, A)(2)({A}, {0, 1}, {A0, A 0A}, A)(3)({S}, {a, b}, {S 00S, S 11S, S 00, S 11}, S)(4)({A}, {0, 1}, {A01, A 0A1, A 1A0}, A)二、(15分)简答及证明题(1)影响聚类结果的主要因素有那些?(2)证明马氏距离是平移不变的、非奇异线性变换不变的。
答:(1)分类准则,模式相似性测度,特征量的选择,量纲。
(2)证明:(2分)(2分)(1分)设,有非奇异线性变换:(1分)(4分)三、(8分)说明线性判别函数的正负和数值大小在分类中的意义并证明之。
一、(15分)设有两类正态分布的样本集,第一类均值为T1μ=(2,0),方差11⎡⎤∑=⎢⎥⎣⎦11/21/2,第二类均值为T2μ=(2,2),方差21⎡⎤∑=⎢⎥⎣⎦1-1/2-1/2,先验概率12()()p p ωω=,试求基于最小错误率的贝叶斯决策分界面。
解 根据后验概率公式()()()()i i i p x p p x p x ωωω=, (2’)及正态密度函数11/21()exp[()()/2]2T i i i i nip x x x ωμμπ-=--∑-∑ ,1,2i =。
(2’) 基于最小错误率的分界面为1122()()()()p x p p x p ωωωω=, (2’) 两边去对数,并代入密度函数,得1111112222()()/2ln ()()/2ln T T x x x x μμμμ----∑--∑=--∑--∑ (1) (2’)由已知条件可得12∑=∑,114/3-⎡⎤∑=⎢⎥⎣⎦4/3-2/3-2/3,214/3-⎡⎤∑=⎢⎥⎣⎦4/32/32/3,(2’)设12(,)Tx x x =,把已知条件代入式(1),经整理得1221440x x x x --+=, (5’)二、(15分)设两类样本的类内离散矩阵分别为11S ⎡⎤=⎢⎥⎣⎦11/21/2, 21S ⎡⎤=⎢⎥⎣⎦1-1/2-1/2,各类样本均值分别为T 1μ=(1,0),T2μ=(3,2),试用fisher 准则求其决策面方程,并判断样本Tx =(2,2)的类别。
解:122S S S ⎡⎤=+=⎢⎥⎣⎦200 (2’) 投影方向为*112-2-1()211/2w S μμ-⎡⎤⎡⎤⎡⎤=-==⎢⎥⎢⎥⎢⎥--⎣⎦⎣⎦⎣⎦1/200 (6’)阈值为[]*0122()/2-1-131T y w μμ⎡⎤=+==-⎢⎥⎣⎦(4’)给定样本的投影为[]*0-12241T y w x y ⎡⎤===-<⎢⎥-⎣⎦, 属于第二类 (3’)三、 (15分)给定如下的训练样例实例 x0 x1 x2 t(真实输出) 1 1 1 1 1 2 1 2 0 1 3 1 0 1 -1 4 1 1 2 -1用感知器训练法则求感知器的权值,设初始化权值为0120w w w ===;1 第1次迭代(4’)2 第2次迭代(2’)3 第3和4次迭代四、 (15分)i. 推导正态分布下的最大似然估计;ii. 根据上步的结论,假设给出如下正态分布下的样本{}1,1.1,1.01,0.9,0.99,估计该部分的均值和方差两个参数。
第一章 绪论1.什么是模式?具体事物所具有的信息。
模式所指的不是事物本身,而是我们从事物中获得的___信息__。
2.模式识别的定义?让计算机来判断事物。
3.模式识别系统主要由哪些部分组成?数据获取—预处理—特征提取与选择—分类器设计/ 分类决策。
第二章 贝叶斯决策理论1.最小错误率贝叶斯决策过程? 答:已知先验概率,类条件概率。
利用贝叶斯公式得到后验概率。
根据后验概率大小进行决策分析。
2.最小错误率贝叶斯分类器设计过程?答:根据训练数据求出先验概率类条件概率分布 利用贝叶斯公式得到后验概率如果输入待测样本X ,计算X 的后验概率根据后验概率大小进行分类决策分析。
3.最小错误率贝叶斯决策规则有哪几种常用的表示形式? 答:4.贝叶斯决策为什么称为最小错误率贝叶斯决策?答:最小错误率Bayes 决策使得每个观测值下的条件错误率最小因而保证了(平均)错误率 最小。
Bayes 决策是最优决策:即,能使决策错误率最小。
5.贝叶斯决策是由先验概率和(类条件概率)概率,推导(后验概率)概率,然后利用这个概率进行决策。
6.利用乘法法则和全概率公式证明贝叶斯公式答:∑====mj Aj p Aj B p B p A p A B p B p B A p AB p 1)()|()()()|()()|()(所以推出贝叶斯公式7.朴素贝叶斯方法的条件独立假设是(P(x| ωi) =P(x1, x2, …, xn | ωi)⎩⎨⎧∈>=<211221_,)(/)(_)|()|()(w w x w p w p w x p w x p x l 则如果∑==21)()|()()|()|(j j j i i i w P w x P w P w x P x w P 2,1),(=i w P i 2,1),|(=i w x p i ∑==21)()|()()|()|(j j j i i i w P w x P w P w x P x w P ∑===Mj j j i i i i i A P A B P A P A B P B P A P A B P B A P 1)()|()()|()()()|()|(= P(x1| ωi) P(x2| ωi)… P(xn| ωi))8.怎样利用朴素贝叶斯方法获得各个属性的类条件概率分布?答:假设各属性独立,P(x| ωi) =P(x1, x2, …, xn | ωi) = P(x1| ωi) P(x2| ωi)… P(xn| ωi) 后验概率:P(ωi|x) = P(ωi) P(x1| ωi) P(x2| ωi)… P(xn| ωi)类别清晰的直接分类算,如果是数据连续的,假设属性服从正态分布,算出每个类的均值方差,最后得到类条件概率分布。
第5章:线性判别函数第一部分:计算与证明1. 有四个来自于两个类别的二维空间中的样本,其中第一类的两个样本为(1,4)T 和(2,3)T ,第二类的两个样本为(4,1)T 和(3,2)T 。
这里,上标T 表示向量转置。
假设初始的权向量a=(0,1)T ,且梯度更新步长ηk 固定为1。
试利用批处理感知器算法求解线性判别函数g(y)=a T y 的权向量。
解:首先对样本进行规范化处理。
将第二类样本更改为(4,1)T 和(3,2)T . 然后计算错分样本集:g(y 1) = (0,1)(1,4)T = 4 > 0 (正确) g(y 2) = (0,1)(2,3)T = 3 > 0 (正确) g(y 3) = (0,1)(-4,-1)T = -1 < 0 (错分) g(y 4) = (0,1)(-3,-2)T = -2 < 0 (错分) 所以错分样本集为Y={(-4,-1)T , (-3,-2)T }.接着,对错分样本集求和:(-4,-1)T +(-3,-2)T = (-7,-3)T第一次修正权向量a ,以完成一次梯度下降更新:a=(0,1)T + (-7,-3)T =(-7,-2)T 再次计算错分样本集:g(y 1) = (-7,-2)(1,4)T = -15 < 0 (错分) g(y 2) = (-7,-2)(2,3)T = -20 < 0 (错分) g(y 3) = (-7,-2)(-4,-1)T = 30 > 0 (正确) g(y 4) = (-7,-2)(-3,-2)T = 25 > 0 (正确) 所以错分样本集为Y={(1,4)T , (2,3)T }.接着,对错分样本集求和:(1,4)T +(2,3)T = (3,7)T第二次修正权向量a ,以完成二次梯度下降更新:a=(-7,-2)T + (3,7)T =(-4,5)T 再次计算错分样本集:g(y 1) = (-4,5)(1,4)T = 16 > 0 (正确) g(y 2) = (-4,5)(2,3)T = 7 > 0 (正确) g(y 3) = (-4,5)(-4,-1)T = 11 > 0 (正确) g(y 4) = (-4,5)(-3,-2)T = 2 > 0 (正确)此时,全部样本均被正确分类,算法结束,所得权向量a=(-4,5)T 。
1=填空题1、模式识别系统的基本构成单元包括:模式采集、特征选择与提取和模式分类。
2、统计模式识别中描述模式的方法一般使用特征矢量;句法模式识别中模式描述方法一般有串、树、网。
3、影响层次聚类算法结果的主要因素有计算模式距离的测度、聚类准则、类间距离门限、预定的类别数目。
4、线性判别函数的正负和数值大小的几何意义是正(负)表示样本点位于判别界面法向量指向的正(负)半空间中;绝对值正比于样本点到判别界面的距离。
5、感知器算法丄。
(1 )只适用于线性可分的情况;(2)线性可分、不可分都适用。
6、在统计模式分类问题中,聂曼-皮尔逊判决准则主要用于某一种判决错误较另一种判决错误更为重愛情况;最小最大判别准则主要用于先验概率未知的情况。
7、“特征个数越多越有利于分类”这种说法正确吗?错误。
特征选择的主要目的是从n个特征中选出最有利于分类的的m个特征(m<n),以降低特征维数。
一般在可分性判据对特征个数具有单调性和(C n m»n )的条件下,可以使用分支定界法以减少计算量。
& 散度Jij越大,说明。
类模式与3j类模式的分布差别越大;当3类模式与(Oj类模式的分布相同时,Jij=_O_.选择题1、影响聚类算法结果的主要因素有(BCD ).A.已知类别的样本质量B.分类准则C.特征选取D.模式相似性测度2、模式识别中,马式距离较之于欧式距离的优点是(CD )。
A.平移不变性B.旋转不变性C.尺度不变性D.考虑了模式的分布3、影响基本K-均值算法的主要因素有(DAB )。
A.样本输入顺序B.模式相似性测度C.聚类准则D.初始类中心的选取4、在统计模式分类问题中,当先验概率未知时,可以使用(BD )。
A.最小损失准则B.最小最大损失准则C.最小误判概率准则D.N-P判决5、散度环是根据(C )构造的可分性判据。
A.先验概率B.后验概率C.类概率密度D.信息燔E.几何距离6、如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的主要因素有(B C )。
可编辑修改精选全文完整版题1:设有如下三类模式样本集ω1,ω2和ω3,其先验概率相等,求Sw 和Sb ω1:{(1 0)T, (2 0) T, (1 1) T} ω2:{(—1 0)T, (0 1) T , (-1 1) T}ω3:{(-1 -1)T , (0 -1) T , (0 -2) T }解:由于本题中有三类模式,因此我们利用下面的公式:b S =向量类模式分布总体的均值为C ,))()((00031m m m m m P t i i i i --∑=ω,即:i 31i i 0m )p(E{x }m ∑===ωi m 为第i 类样本样本均值⎪⎪⎪⎪⎭⎫⎝⎛=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡⎪⎪⎪⎪⎭⎫ ⎝⎛+⎪⎪⎪⎪⎭⎫ ⎝⎛--+⎪⎪⎪⎪⎭⎫⎝⎛=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡⎪⎭⎫ ⎝⎛--⎪⎪⎪⎪⎭⎫⎝⎛--+⎪⎭⎫⎝⎛-⎪⎪⎪⎪⎭⎫ ⎝⎛-+⎪⎭⎫ ⎝⎛⎪⎪⎪⎪⎭⎫ ⎝⎛=--=⎪⎪⎪⎪⎭⎫ ⎝⎛-=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-+--=⎪⎪⎪⎪⎭⎫⎝⎛--=⎥⎦⎤⎢⎣⎡---++-=⎪⎪⎪⎪⎭⎫ ⎝⎛-=⎥⎦⎤⎢⎣⎡++-+-=⎪⎪⎪⎪⎭⎫ ⎝⎛=⎥⎦⎤⎢⎣⎡++++=∑=81628113811381628112181448144811681498149814981498116814481448112131911949119497979797949119491131)m m )(m m ()(P S 919134323131323431m 343121100131m 323211010131m ;313410012131m t 0i 0i 31i i b10321ω;333t(i)(i)k k w i i i i i i i i 1i 11111S P()E{(x-m )(x-m )/}C [(x m )(x m )33361211999271612399279Tk ωω====•==--⎡⎤⎡⎤--⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎢⎥--⎢⎥⎢⎥⎣⎦⎣⎦∑∑∑题2:设有如下两类样本集,其出现的概率相等: ω1:{(0 0 0)T , (1 0 0) T , (1 0 1) T , (1 1 0) T }ω2:{(0 0 1)T , (0 1 0) T , (0 1 1) T , (1 1 1) T }用K-L 变换,分别把特征空间维数降到二维和一维,并画出样本在该空间中的位置.解:把1w 和2w 两类模式作为一个整体来考虑,故0 1 1 1 0 0 0 1 0 0 0 1 0 1 1 1 0 0 1 0 1 0 1 1x ⎛⎫ ⎪= ⎪ ⎪⎝⎭0.5{}0.50.5m E x ⎛⎫⎪== ⎪ ⎪⎝⎭协方差矩阵0.25 0 0{()()} 0 0.25 0 0 0 0.25x C E x m x m ⎛⎫ ⎪'=--= ⎪ ⎪⎝⎭从题中可以看出,协方差矩阵x C 已经是个对角阵,故x C 的本征值1230.25λλλ===其对应的本征向量为: 1231000,1,0001φφφ⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪=== ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭若要将特征空间维数降到二维,因本题中三个本征值均相等,所以可以任意选取两个本征向量作为变换矩阵,在这里我们取1φ和2φ,得到100100⎛⎫⎪Φ= ⎪ ⎪⎝⎭。
大学模式识别考试题及答案详解精编W O R D版IBM system office room 【A0816H-A0912AAAHH-GX8Q8-GNTHHJ8】一、填空与选择填空(本题答案写在此试卷上,30分)1、模式识别系统的基本构成单元包括:模式采集、特征提取与选择和模式分类。
2、统计模式识别中描述模式的方法一般使用特真矢量;句法模式识别中模式描述方法一般有串、树、网。
3、聚类分析算法属于(1);判别域代数界面方程法属于(3)。
(1)无监督分类 (2)有监督分类(3)统计模式识别方法(4)句法模式识别方法4、若描述模式的特征量为0-1二值特征量,则一般采用(4)进行相似性度量。
(1)距离测度(2)模糊测度(3)相似测度(4)匹配测度5、下列函数可以作为聚类分析中的准则函数的有(1)(3)(4)。
(1)(2) (3)(4)6、Fisher线性判别函数的求解过程是将N维特征矢量投影在(2)中进行。
(1)二维空间(2)一维空间(3)N-1维空间7、下列判别域界面方程法中只适用于线性可分情况的算法有(1);线性可分、不可分都适用的有(3)。
(1)感知器算法(2)H-K算法(3)积累位势函数法8、下列四元组中满足文法定义的有(1)(2)(4)。
(1)({A, B}, {0, 1}, {A?01, A ? 0A1 , A ? 1A0 , B ? BA , B ? 0}, A)(2)({A}, {0, 1}, {A?0, A ? 0A}, A)(3)({S}, {a, b}, {S ? 00S, S ? 11S, S ? 00, S ? 11}, S)(4)({A}, {0, 1}, {A?01, A ? 0A1, A ? 1A0}, A)二、(15分)简答及证明题(1)影响聚类结果的主要因素有那些?(2)证明马氏距离是平移不变的、非奇异线性变换不变的。
答:(1)分类准则,模式相似性测度,特征量的选择,量纲。
(完整word版)模式识别试题答案模式识别非学位课考试试题考试科目:模式识别考试时间考生姓名:考生学号任课教师考试成绩一、简答题(每题6分,12题共72分):1、监督学习和非监督学习有什么区别?参考答案:当训练样本的类别信息已知时进行的分类器训练称为监督学习,或者由教师示范的学习;否则称为非监督学习或者无教师监督的学习。
2、你如何理解特征空间?表示样本有哪些常见方法?参考答案:由利用某些特征描述的所有样本组成的集合称为特征空间或者样本空间,特征空间的维数是描述样本的特征数量。
描述样本的常见方法:矢量、矩阵、列表等。
3、什么是分类器?有哪些常见的分类器?参考答案:将特征空中的样本以某种方式区分开来的算法、结构等。
例如:贝叶斯分类器、神经网络等。
4、进行模式识别在选择特征时应该注意哪些问题?参考答案:特征要能反映样本的本质;特征不能太少,也不能太多;要注意量纲。
5、聚类分析中,有哪些常见的表示样本相似性的方法?参考答案:距离测度、相似测度和匹配测度。
距离测度例如欧氏距离、绝对值距离、明氏距离、马氏距离等。
相似测度有角度相似系数、相关系数、指数相似系数等。
6、你怎么理解聚类准则?参考答案:包括类内聚类准则、类间距离准则、类内类间距离准则、模式与类核的距离的准则函数等。
准则函数就是衡量聚类效果的一种准则,当这种准则满足一定要求时,就可以说聚类达到了预期目的。
不同的准则函数会有不同的聚类结果。
7、一种类的定义是:集合S 中的元素x i 和x j 间的距离d ij 满足下面公式:∑∑∈∈≤-S x S x ij i jh d k k )1(1,d ij ≤ r ,其中k 是S 中元素的个数,称S 对于阈值h ,r 组成一类。
请说明,该定义适合于解决哪一种样本分布的聚类?参考答案:即类内所有个体之间的平均距离小于h ,单个距离最大不超过r ,显然该定义适合团簇集中分布的样本类别。
8、贝叶斯决策理论中,参数估计和非参数估计有什么区别?参考答案:参数估计就是已知样本分布的概型,通过训练样本确定概型中的一些参数;非参数估计就是未知样本分布概型,利用Parzen 窗等方法确定样本的概率密度分布规律。
第三次作业(四,五章)1.为简单起见,针对两类问题,1/w w 21)给出正态分布下的错误率结果,并分析总的错误率与不同类别间马氏距离的关系。
2)给出K-近邻法的错误率上,下界,并讨论K 值的选择。
2. 设有二维随机样本的分布如图a、b、c 所示的三种情况,协方差矩阵表示成,试问这三种分布分别对应哪种情况(A. a12>0 B. a12<0 C. a12≈0),并给出理由?Σ⎟⎟⎠⎞⎜⎜⎝⎛22211211a a a aa b c3.已知两类样本,, , 类概率密度函数是正态的,且''''1:{(0,0),(2,0),(2,2),(0,2)}w '''2:{(4,4),(6,4),(6,6),(4,6)}w '1()1/3P w =,2()2/3P w =,如果按照Bayes 判决中最小误分概率准则设计分类器,求此时总的分类错误率。
4. 对于C-均值动态聚类算法,定义其类内误差平方和为:2,1i n ii m m J X Z ==−∑i ,设两个聚类的数据分别为{}t t t )1,1(,)0,2(,)0,1(与{}tt t )1,1(,)0,1(,)1,0(−− 试求:1) 两个聚类的均值。
2) 若将数据从第一个聚类转移至第二个时,总的准则函数值J t )1,1(0的变化量。
3)第二步的移动是否合理。
5. 假设有二维样本:x1 = (4, 4)’,x2 = (2, 4)’,x3 = (0, 1)’ x4 = (5, 1)’, 存在以下三种划分:(i){}211x ,x =ω,{}432x ,x =ω(ii){}114x ,x ω=,{}322x ,x =ω(iii){}3211x ,x ,x =ω,{}42x =ω问:(a)若采用误差平方和准则,则哪种划分最好 e J (b)若采用行列式准则,则哪种划分是最好的。
(行列式准则:若采用类内离散度矩阵的行列式值作为准则函数,即w S w J w w S J =,那么使最小即为最好的划分)w J6.现有六维样本:按照最小距离法试用层次聚类法进行聚类分析。
第5章:线性判别函数第一部分:计算与证明1. 有四个来自于两个类别的二维空间中的样本,其中第一类的两个样本为(1,4)T 和(2,3)T ,第二类的两个样本为(4,1)T 和(3,2)T 。
这里,上标T 表示向量转置。
假设初始的权向量a=(0,1)T ,且梯度更新步长ηk 固定为1。
试利用批处理感知器算法求解线性判别函数g(y)=a T y 的权向量。
解:首先对样本进行规范化处理。
将第二类样本更改为(4,1)T 和(3,2)T . 然后计算错分样本集:g(y 1) = (0,1)(1,4)T = 4 > 0 (正确) g(y 2) = (0,1)(2,3)T = 3 > 0 (正确) g(y 3) = (0,1)(-4,-1)T = -1 < 0 (错分) g(y 4) = (0,1)(-3,-2)T = -2 < 0 (错分) 所以错分样本集为Y={(-4,-1)T , (-3,-2)T }.接着,对错分样本集求和:(-4,-1)T +(-3,-2)T = (-7,-3)T第一次修正权向量a ,以完成一次梯度下降更新:a=(0,1)T + (-7,-3)T =(-7,-2)T 再次计算错分样本集:g(y 1) = (-7,-2)(1,4)T = -15 < 0 (错分) g(y 2) = (-7,-2)(2,3)T = -20 < 0 (错分) g(y 3) = (-7,-2)(-4,-1)T = 30 > 0 (正确) g(y 4) = (-7,-2)(-3,-2)T = 25 > 0 (正确) 所以错分样本集为Y={(1,4)T , (2,3)T }.接着,对错分样本集求和:(1,4)T +(2,3)T = (3,7)T第二次修正权向量a ,以完成二次梯度下降更新:a=(-7,-2)T + (3,7)T =(-4,5)T 再次计算错分样本集:g(y 1) = (-4,5)(1,4)T = 16 > 0 (正确) g(y 2) = (-4,5)(2,3)T = 7 > 0 (正确) g(y 3) = (-4,5)(-4,-1)T = 11 > 0 (正确) g(y 4) = (-4,5)(-3,-2)T = 2 > 0 (正确)此时,全部样本均被正确分类,算法结束,所得权向量a=(-4,5)T 。
2. 在线性感知算法中,试证明引入正余量b 以后的解区(a T y i ≥b)位于原来的解区之中(a T y i >0),且与原解区边界之间的距离为b/||y i ||。
证明:设a*满足a T y i ≥b,则它一定也满足a T y i >0,所以引入余量后的解区位于原来的解区a T y i >0之中。
注意,a T y i ≥b 的解区的边界为a T y i =b,而a T y i >0的解区边界为a T y i =0。
a T y i =b 与a T y i =0两个边界之间的距离为b/||y i ||。
(因为a T y i =0过坐标原点,相关于坐标原点到a T y i =b 的距离。
) 3. 试证明感知器准则函数正比于被错分样本到决策面的距离之和。
证明:感知器准则函数为:()()TYJ ∈=-∑y a a y决策面方程为a T y=0。
当y 为错分样本时,有a T y ≤0。
此时,错分样本到决策面的距离为a T y/||a||。
所有样本到决策面的距离之和为()T Yr ∈=-∑y a y a结论得证。
4. 对于多类分类情形,考虑one -vs -all 技巧,即构建 c 个线性判别函数:0(),1,2,...,T i i i g w i c =+=x w x , 此时的决策规则为:对 j ≠ i , 如果 g i (x ) > g j (x ), x 则被分类 ωi 类。
现有三个二维空间内的模式分类器,其判别函数为g 1(x ) = -x 1 + x 2g 2(x ) = x 1 + x 2 -1 g 3(x ) = -x 2试画出决策面,指出为何此时不存在分类不确定性区域。
解:根据上述决策规则,属于第一类 ω1的区域应满足:g 1(x ) > g 2(x ) 且g 1(x ) > g 3(x ) 所以ω1的决策界面为: g 1(x ) - g 2(x ) = -2x 1 + 1 = 0。
g 1(x ) - g 3(x ) = -x 1 + 2x 2 = 0。
同样地,属于第二类 ω2的区域应满足:g 2(x ) > g 1(x ) 且g 2(x ) > g 3(x ) 所以ω2的决策界面为: g 2(x ) - g 1(x ) = 2x 1 - 1 = 0。
g 2(x ) - g 3(x ) = x 1 + 2x 2 - 1 = 0。
属于第三类 ω3的区域应满足:g 3(x ) > g 1(x ) 且g 3(x ) > g 2(x ) 所以ω2的决策界面为: g 3(x ) - g 1(x ) = x 1 - 2x 2 = 0。
g 2(x ) - g 3(x ) = -x 1 - 2x 2 + 1 = 0。
由于三个决策边界交于一点,因此,不存在不确定性区域。
这是因为直线g 1(x )-g 2(x )=0x ) - g 1(x ) - 2x 2 = 0g 2(x ) - g 3(x ) =x 1 + 2x 2-ω1与直线g 1(x )-g 3(x )=0的交点一定位于 g 1(x )-g 2(x ) - (g 1(x )-g 3(x )) = g 2(x )-g 3(x ) =0的直线上,即g 2(x )-g 3(x ) =0过它们的交点。
5. 已知模式样本集:ω1 = {(0,0)T , (1,1)T }, ω2 = {(0,1)T , (1,0)T }。
采用误差平方准则算法(即Ho -kashyap 算法)验证它是线性不可分的。
(提示:迭代时ηk 固定取1,初始b=(1,1,1,1)T )解:首先对第二类样本,进行齐次表示,然后再进行规范化表示,得到如下规范化增广训练数据矩阵:001111011101⎛⎫ ⎪⎪= ⎪-- ⎪--⎝⎭Y Y 的伪逆矩阵为:122221()222243111T T+---⎛⎫⎪==-- ⎪ ⎪---⎝⎭Y Y Y Y进行第一次迭代a=Y +b=(0,0,0)T 计算误差e=Ya -b=(-1,-1,-1,-1) T此时,不必再更新b 即可知道不等式组Ya>0无解。
因为e 中部分元素为负(此时全为负)。
根据Ho -kashyap 算法相关(收敛性)原理,可知原样本集线性不可分。
6. Consider the hyperplane used in discrimination:(a) Show that the distance from the hyperplane g (x ) = w T x + w 0 = 0 to the point x a is|g (x a )|/||w || by minimizing ||x -x a ||2 subject to the constraint g (x ) = 0. (提示需要证明两点:其一,点x a 到超平面g (x ) = 0的距离为|g (x a )|/||w ||;其二,该距离是位于超平面g (x ) = 0上使目标函数||x -x a ||2最小的点x 到点x a 的距离。
)(b) Show that the projection of x a onto the hyperplane is given by (即证明点x a 到超平面g (x )= 0的投影x p 为如下公式):2()||||a p a g =-x x x w w 证明注意,在以下表达中,x要换成x a(b) 根据对(a)的证明的第二个公式,结论显然成立。
第二部分:计算机编程题本章所使用的数据:1.Write a program to implement the “batch perception” algorithm (see page 44 or 45 in PPT).(a). Starting with a = 0, apply your program to the training data from ω1 and ω2. Notethat the number of iterations required for convergence(即记录下收敛的步数)。
(b). Apply your program to the training data from ω3and ω2. Again, note that thenumber of iterations required for convergence.(c). Explain the difference between the iterations required in the two cases.2. Implement the Ho-Kashyap algorithm and apply it to the training data from ω1 and ω3. Repeat to apply it to the training data from ω2and ω4. Point out the training errors, and give some analyses.3. Consider relaxation methods as described in the PPT. (See the slides for the "Batch Relaxation with Margin" algorithm and page 62 in PPT for the "Single Sample Relaxation with Margin" algorithm):(a) Implement the batch relaxation with margin, set b = 0.1 and initialize a = 0, and apply it to the data in ω1and ω3. Plot the criterion function as a function of the number of passes through the training set.(b) Repeat for b = 0.5 and a0= 0(namely, initialize a= 0). Explain qualitatively any differences you find in the convergence rates.(c) Modify your program to use single sample learning. Again, Plot the criterion function as afunction of the number of passes through the training set.。