清华大学模式识别往年考题
- 格式:doc
- 大小:23.50 KB
- 文档页数:4
2006~2007学年第二学期期末考试《模式识别及其应用》试卷(A)标准答案一、结合自己的理解对如下基本概念作出解释(每小题4分, 共20分)(1)模式识别和模式(2)样本的规范化(3)最近邻法(4)非监督参数估计(5)特征的选择与特征提取答:(1)模式识别就是要用机器去完成人类智能中通过视觉听觉触觉等感官去识别外界环境的自然信息的这些工作。
存在于时间和空间中可观察的事物,如果我们可以区别它们是否相同或是相似,都可以称为模式,但模式所指的不是事物本身,而是我们从事物获得的信息, 因此, 模式往往表现为具有时间和空间分布的信息。
(2)如果样本集,,……,时线性可分的,则必存在某个或某些权向量,使得对于任何都有,而对于任何,都有,如果在来自的样本前面加上一个负号,即令,有则,我们称这一过程为样本的规范化。
(3)最近邻法就是对待识别的模式向量,只要比较与所有已知类别的样本之间的欧式距离,并决策与离它最近的样本同类。
(4)非监督参数估计已知总体概率密度函数的形式但未知样本所属类别,要求推断出概率密度函数的某些参数。
(5)特征提取在原始特征的维数很高的情况下,基于某种类别可分离性判据通过变换的方法用低维空间来表示样本,这个过程叫特征提取。
特征选择基于某种类别可分离性判据,从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的,称为特征选择。
二、问答题(每小题5分, 共35分)(1)指出在Fisher线性判别中,的比例因子对Fisher判别结果无影响的原因。
(2)对于同一个决策规则判别函数可定义成不同形式,从而有不同的决策面方程,指出决策区域是不变的。
(3)类别可分离性判据应满足的基本条件是什么?(4)应用线性判别函数方法和Bayes决策方法进行模式分类各自的前提是什么?(5)试说明Mahalanobis距离平方的定义,到某点的Mahalanobis距离平方为常数的轨迹的几何意义,它与欧氏距离的区别与联系。
模式识别试卷及答案一、选择题(每题5分,共30分)1. 以下哪一项不是模式识别的主要任务?A. 分类B. 回归C. 聚类D. 预测答案:B2. 以下哪种算法不属于监督学习?A. 支持向量机(SVM)B. 决策树C. K最近邻(K-NN)D. K均值聚类答案:D3. 在模式识别中,以下哪一项是特征选择的目的是?A. 减少特征维度B. 增强模型泛化能力C. 提高模型计算效率D. 所有上述选项答案:D4. 以下哪种模式识别方法适用于非线性问题?A. 线性判别分析(LDA)B. 主成分分析(PCA)C. 支持向量机(SVM)D. 线性回归答案:C5. 在神经网络中,以下哪种激活函数常用于输出层?A. SigmoidB. TanhC. ReLUD. Softmax答案:D6. 以下哪种聚类算法是基于密度的?A. K均值聚类B. 层次聚类C. DBSCAND. 高斯混合模型答案:C二、填空题(每题5分,共30分)1. 模式识别的主要任务包括______、______、______。
答案:分类、回归、聚类2. 在监督学习中,训练集通常分为______和______两部分。
答案:训练集、测试集3. 支持向量机(SVM)的基本思想是找到一个______,使得不同类别的数据点被最大化地______。
答案:最优分割超平面、间隔4. 主成分分析(PCA)是一种______方法,用于降维和特征提取。
答案:线性变换5. 神经网络的反向传播算法用于______。
答案:梯度下降6. 在聚类算法中,DBSCAN算法的核心思想是找到______。
答案:密度相连的点三、简答题(每题10分,共30分)1. 简述模式识别的基本流程。
答案:模式识别的基本流程包括以下几个步骤:(1)数据预处理:对原始数据进行清洗、标准化和特征提取。
(2)模型选择:根据问题类型选择合适的模式识别算法。
(3)模型训练:使用训练集对模型进行训练,学习数据特征和规律。
机器视觉与模式识别试题一、简答题(每题10分,共10题)1. 请简要解释机器视觉的概念,并举例说明其在实际应用中的作用。
2. 什么是图像分割?请简要介绍常用的图像分割方法。
3. 请解释什么是特征提取,并描述至少两种常用的特征提取方法。
4. 什么是机器学习?简要描述监督学习和无监督学习的区别。
5. 请简要介绍常见的分类器,并说明它们的优缺点。
6. 什么是物体检测?请简要介绍常用的物体检测算法。
7. 请解释什么是模式识别,并举例说明其应用领域。
8. 简要介绍支持向量机(SVM)的原理及其应用。
9. 什么是深度学习?简要解释深度学习与传统机器学习的区别。
10. 简要介绍卷积神经网络(CNN)及其在图像分类中的应用。
二、分析题(共20分)1. 请分析图像分割的难点和挑战,并提出解决方案。
2. 请分析特征提取的关键问题,并探讨如何改进现有的特征提取方法。
3. 请分析支持向量机(SVM)的优势和不足,并提出使用SVM解决模式识别问题的注意事项。
4. 以人脸识别为例,分析深度学习模型相较于传统机器学习模型的优势和局限性。
三、应用题(共30分)1. 设计一个图像分类系统,能够将手写数字图像分为0~9十个类别。
请详细描述你的设计思路并给出实现代码。
2. 以目标检测为任务,设计一个基于卷积神经网络(CNN)的物体检测系统。
请详细描述你的设计思路并给出实现代码。
四、论述题(共40分)请综合所学的机器视觉与模式识别相关知识,自选一个课题进行深入探讨,并撰写一篇论文。
论文应包括问题定义、相关工作综述、解决方案设计和实验结果分析等内容。
请确保论文结构合理,逻辑清晰,表达准确。
以上是机器视觉与模式识别试题,根据题目要求,正文不再重复。
请根据试题内容自行判断和格式化撰写。
一、填空与选择填空(本题答案写在此试卷上,30分)1、模式识别系统的基本构成单元包括:模式采集、特征提取与选择和模式分类。
2、统计模式识别中描述模式的方法一般使用特真矢量;句法模式识别中模式描述方法一般有串、树、网。
3、聚类分析算法属于(1);判别域代数界面方程法属于(3)。
(1)无监督分类 (2)有监督分类(3)统计模式识别方法(4)句法模式识别方法4、若描述模式的特征量为0-1二值特征量,则一般采用(4)进行相似性度量。
(1)距离测度(2)模糊测度(3)相似测度(4)匹配测度5、下列函数可以作为聚类分析中的准则函数的有(1)(3)(4)。
(1)(2) (3)(4)6、Fisher线性判别函数的求解过程是将N维特征矢量投影在(2)中进行。
(1)二维空间(2)一维空间(3)N-1维空间7、下列判别域界面方程法中只适用于线性可分情况的算法有(1);线性可分、不可分都适用的有(3)。
(1)感知器算法(2)H-K算法(3)积累位势函数法8、下列四元组中满足文法定义的有(1)(2)(4)。
(1)({A, B}, {0, 1}, {A→01, A→ 0A1 , A→ 1A0 , B→BA , B→ 0}, A) (2)({A}, {0, 1}, {A→0, A→ 0A}, A)(3)({S}, {a, b}, {S → 00S, S → 11S, S → 00, S → 11}, S)(4)({A}, {0, 1}, {A→01, A→ 0A1, A→ 1A0}, A)9、影响层次聚类算法结果的主要因素有(计算模式距离的测度、(聚类准则、类间距离门限、预定的类别数目))。
10、欧式距离具有( 1、2 );马式距离具有(1、2、3、4 )。
(1)平移不变性(2)旋转不变性(3)尺度缩放不变性(4)不受量纲影响的特性11、线性判别函数的正负和数值大小的几何意义是(正(负)表示样本点位于判别界面法向量指向的正(负)半空间中;绝对值正比于样本点到判别界面的距离。
模式识别期末试题及答案正文:模式识别期末试题及答案1. 选择题1.1 下列关于机器学习的说法中,正确的是:A. 机器学习是一种人工智能的应用领域B. 机器学习只能应用于结构化数据C. 机器学习不需要预先定义规则D. 机器学习只能处理监督学习问题答案:A1.2 在监督学习中,以下哪个选项描述了正确的训练过程?A. 通过输入特征和预期输出,训练一个模型来进行预测B. 通过输入特征和可能的输出,训练一个模型来进行预测C. 通过输入特征和无标签的数据,训练一个模型来进行预测D. 通过输入特征和已有标签的数据,训练一个模型来进行分类答案:D2. 简答题2.1 请解释什么是模式识别?模式识别是指在给定一组输入数据的情况下,通过学习和建模,识别和分类输入数据中的模式或规律。
通过模式识别算法,我们可以从数据中提取重要的特征,并根据这些特征进行分类、聚类或预测等任务。
2.2 请解释监督学习和无监督学习的区别。
监督学习是一种机器学习方法,其中训练数据包含了输入特征和对应的标签或输出。
通过给算法提供已知输入和输出的训练样本,监督学习的目标是学习一个函数,将新的输入映射到正确的输出。
而无监督学习则没有标签或输出信息。
无监督学习的目标是从未标记的数据中找到模式和结构。
这种学习方法通常用于聚类、降维和异常检测等任务。
3. 计算题3.1 请计算以下数据集的平均值:[2, 4, 6, 8, 10]答案:63.2 请计算以下数据集的标准差:[1, 3, 5, 7, 9]答案:2.834. 综合题4.1 对于一个二分类问题,我们可以使用逻辑回归模型进行预测。
请简要解释逻辑回归模型的原理,并说明它适用的场景。
逻辑回归模型是一种用于解决二分类问题的监督学习算法。
其基本原理是通过将特征的线性组合传递给一个非线性函数(称为sigmoid函数),将实数值映射到[0,1]之间的概率。
这个映射的概率可以被解释为某个样本属于正类的概率。
逻辑回归适用于需要估计二分类问题的概率的场景,例如垃圾邮件分类、欺诈检测等。
《模式识别》试题(2006年春季学期,本科生,理论考核部分)姓名:学号:一、(50分)填空与选择填空(本题答案写在此试卷上)1、模式识别的三大核心问题是:、、。
2、句法模式识别中模式描述方法有:。
(1)符号串(2)树(3)图(4)特征向量3、欧式距离具有。
马式距离具有。
(1)平移不变性(2)旋转不变性(3)尺度缩放不变性(4)不受量纲影响的特性4、描述模式相似的测度有:。
(1)距离测度(2)模糊测度(3)相似测度(4)匹配测度5、利用两类方法处理多类问题的技术途径有:(1);(2);(3)。
其中最常用的是第个技术途径。
6、判别函数的正负和数值大小在分类中的意义是:,。
7、感知器算法。
(1)只适用于线性可分的情况;(2)线性可分、不可分都适用。
8、积累位势函数法的判别界面一般为。
(1)线性界面;(2)非线性界面。
9、基于距离的类别可分性判据有:。
(1)1[]w BTr S S-(2)BWSS(3)BW BSS S+二、(10分)证明感知器算法在训练模式是线性可分的情况下,经过有限次迭代后可以收敛到正确的解矢量*w。
三、(15分)假设在某个地区的细胞识别中正常1ω和异常 2ω两类的先验概率分别为 正常状态 :1()0.9P ω= 异常状态:2()0.1P ω=现有一待识的细胞,其观测值为x ,从类条件概率密度分布曲线上查得12()0.2,()0.4p x p x ω== 并且已知111221220,6,1,0λλλλ====试对该细胞以以下两种方法进行分类:①基于最小错误概率准则的贝叶斯判决;②基于最小损失准则的贝叶斯判决。
请分析两种分类结果的异同及原因。
四、(10分)试用最大似然估计的方法估计单变量正态分布的均值μ和方差 2σ。
五、(15分)综合分析题在描述一个完整的模式识别系统的基础上, 给出你所了解的一种模式识别应用实例,并对其中可能用到的模式识别典型理论和方法进行简要说明。
模式识别张长水2007.7.1 14:00-16:001 (15分)两类分类问题,P(w1)=1/4,P(w2)=3/4。
样本有两个特征,分别是x和y。
两类?的概率密度函数:w1,在0<=x<=3、0<=y<=3中均匀分布,其余为0;w2,在2<=x<=5、1<=y<=7中均匀分布,其余为0。
请设计做小错误率贝叶斯分类器,并计算误分率。
2 (20分)支持向量机通过二次最优化得到支持向量。
现在有一个两类分类问题,共有N 个样本,样本有d维特征空间,样本集合是线性可分的。
试使用遗传算法求解支持向量,说明算法步骤和使用的遗传算子。
使用遗传算法求解支持向量有什么优缺点?3 (20分)两类分类问题,有3个特征x,y,z,共有N个样本。
通过经验知道将3个特征进行加权相加得到的特征将具有更好的分类性能,但是不知道如何得到各个特征的权重。
试回答?如何得到各个特征的权重。
给出必要的计算和推导过程。
4 (15分)使用多级聚类算法对下面的样本进行聚类,使用最近距离量度。
给出计算过程,多级聚类树。
问应该分成几类,为什么?举例说明使用最近距离量度聚类和使用最远距离量度聚类各自的优缺点。
(1,0) (2,0) (0,2) (1,3) (0,5)5 (20分)距离是模式识别中的重要概念,试说明贝叶斯分类器、近邻法、Fisher投影法、C均值算法是否受不同距离量度选择的影响。
如果不是,说明原因;如果是,举例说明受什么影响。
6 (10分)一个袋子中装有红、绿、蓝三种颜色的球,采用有放回的取球方法,取出N个球,其中有n1个红色球、n2个绿色球和n3个蓝色球的概率为p(n1,n2,n3)=(N!/(n1!n2!n3!))*p1^n1*p2^n2*p3^n3其中n1+n2+n3=N,p1+p2+p3=1已知概率模型如下:p1=1/4 p2=1/4+p/4 p3=1/2-p/4如果一个人是红绿色盲,分不清红色球和绿色球,那么他只能知道他取了m1=n1+n2个红/绿球,和m2=n3个蓝色球。
《模式识别》试题库一、基本概念题1.1 模式识别的三大核心问题:是:、、。
1.2、模式分布为团状时,选用聚类算法较好。
1.3欧式距离具有o 马式距离具有o(1)平移不变性(2)旋转不变性(3)尺度缩放不变性(4)不受量纲影响的特性1.4描述模式相似的测度有:=(1)距离测度(2)模糊测度(3)相似测度(4)匹配测度1.5利用两类方法处理多类问题的技术途径有:(1);(2);(3) o其中最常用的是第个技术途径。
1.6判别函数的正负和数值大小在分类中的意义是:,__________________________________________________________________________________1.7感知器算法=(1)只适用于线性可分的情况;(2)线性可分、不可分都适用。
1.8积累位势函数法的判别界面一般为o(1)线性界面;(2)非线性界面。
1.9基于距离的类别可分性判据有:oS B S B(1)『「[,”咒](2)(3)1.10作为统计判别问题的模式分类,在()情况下,可使用聂曼-皮尔逊判决准则。
1.11确定性模式非线形分类的势函数法中,位势函数K(x,xQ与积累位势函数K(x)的关系为()O1.12用作确定性模式非线形分类的势函数法,通常,两个n维向量X和Xk的函数K(x,xD若同时满足下列三个条件,都可作为势函数。
①();②();③K(x, x k)是光滑函数,且是x和珏之间距离的单调下降函数。
1.13散度J”越大,说明。
类模式与①」类模式的分布( )。
当。
类模式与®类模式的分布相同时,Jij=()。
1.14若用Parzen窗法估计模式的类概率密度函数,窗口尺寸hl过小可能产生的问题是( ),hl过大可能产生的问题是( )01.15信息炳可以作为一种可分性判据的原因是:。
1.16作为统计判别问题的模式分类,在( )条件下,最小损失判决规则与最小错误判决规则是等价的。
模式识别期末考试试题# 模式识别期末考试试题## 一、选择题(每题2分,共20分)1. 模式识别中,特征提取的目的是什么?A. 降低数据维度B. 提高计算效率C. 增强数据的可解释性D. 以上都是2. 在K-近邻算法中,K值的选择对结果的影响是什么?A. 无影响B. 影响分类的准确性C. 影响算法的运行时间D. 影响数据的可读性3. 决策树算法中,信息增益的计算是基于以下哪个概念?A. 熵B. 互信息C. 条件熵D. 联合熵4. 支持向量机(SVM)的主要思想是?A. 寻找数据点之间的最大间隔B. 寻找数据点之间的最小间隔C. 寻找数据点的平均间隔D. 寻找数据点的中心点5. 以下哪个算法属于聚类算法?A. K-近邻B. 决策树C. K-均值D. 支持向量机## 二、简答题(每题10分,共30分)1. 描述主成分分析(PCA)的基本原理及其在模式识别中的应用。
2. 解释什么是过拟合(Overfitting)现象,并给出避免过拟合的几种常用方法。
3. 给出神经网络在模式识别中的基本工作原理,并说明其优缺点。
## 三、计算题(每题25分,共50分)1. 给定以下数据点,使用K-均值算法将它们分为两个簇,并说明算法的步骤:- 数据点:(1, 2), (2, 3), (5, 6), (8, 7), (9, 8)2. 假设有一个二维数据集,其中包含两类数据点,分别用圆形和三角形表示。
数据点的特征如下表所示:| 特征1 | 特征2 | 类别 || | | - || 1.5 | 2.5 | 圆形 || 2.0 | 3.0 | 圆形 || 3.5 | 4.5 | 三角形 || 4.0 | 5.0 | 三角形 |使用线性判别分析(LDA)方法,找出最佳线性边界,并将数据点分为两类。
## 四、论述题(共30分)1. 论述深度学习在图像识别领域的应用,并讨论其与传统机器学习方法相比的优势和局限性。
## 五、案例分析题(共30分)1. 假设你是一名数据科学家,你的团队正在开发一个用于识别手写数字的系统。
一、(15分)设有两类正态分布的样本集,第一类均值为T1μ=(2,0),方差11⎡⎤∑=⎢⎥⎣⎦11/21/2,第二类均值为T2μ=(2,2),方差21⎡⎤∑=⎢⎥⎣⎦1-1/2-1/2,先验概率12()()p p ωω=,试求基于最小错误率的贝叶斯决策分界面。
解 根据后验概率公式()()()()i i i p x p p x p x ωωω=, (2’)及正态密度函数11/21()exp[()()/2]2T i i i i nip x x x ωμμπ-=--∑-∑ ,1,2i =。
(2’) 基于最小错误率的分界面为1122()()()()p x p p x p ωωωω=, (2’) 两边去对数,并代入密度函数,得1111112222()()/2ln ()()/2ln T T x x x x μμμμ----∑--∑=--∑--∑ (1) (2’)由已知条件可得12∑=∑,114/3-⎡⎤∑=⎢⎥⎣⎦4/3-2/3-2/3,214/3-⎡⎤∑=⎢⎥⎣⎦4/32/32/3,(2’)设12(,)Tx x x =,把已知条件代入式(1),经整理得1221440x x x x --+=, (5’)二、(15分)设两类样本的类内离散矩阵分别为11S ⎡⎤=⎢⎥⎣⎦11/21/2, 21S ⎡⎤=⎢⎥⎣⎦1-1/2-1/2,各类样本均值分别为T 1μ=(1,0),T2μ=(3,2),试用fisher 准则求其决策面方程,并判断样本Tx =(2,2)的类别。
解:122S S S ⎡⎤=+=⎢⎥⎣⎦200 (2’) 投影方向为*112-2-1()211/2w S μμ-⎡⎤⎡⎤⎡⎤=-==⎢⎥⎢⎥⎢⎥--⎣⎦⎣⎦⎣⎦1/200 (6’)阈值为[]*0122()/2-1-131T y w μμ⎡⎤=+==-⎢⎥⎣⎦(4’)给定样本的投影为[]*0-12241T y w x y ⎡⎤===-<⎢⎥-⎣⎦, 属于第二类 (3’)三、 (15分)给定如下的训练样例实例 x0 x1 x2 t(真实输出) 1 1 1 1 1 2 1 2 0 1 3 1 0 1 -1 4 1 1 2 -1用感知器训练法则求感知器的权值,设初始化权值为0120w w w ===;1 第1次迭代(4’)2 第2次迭代(2’)3 第3和4次迭代四、 (15分)i. 推导正态分布下的最大似然估计;ii. 根据上步的结论,假设给出如下正态分布下的样本{}1,1.1,1.01,0.9,0.99,估计该部分的均值和方差两个参数。
2013–2014 学年度第 一 学期 模式识别原理 课程期末考试试题(考试方式:□√开卷 □闭卷;考试时间: 120 分钟)一、计算题 (共20分)在目标识别中,假定类型1ω为敌方目标,类型2ω为诱饵(假目标),已知先验概率P (1ω)=0.2和P (2ω)=0.8,类概率密度函数如下:⎪⎩⎪⎨⎧≤≤-<≤=其它021210)(1x x x xx p ω⎪⎩⎪⎨⎧≤≤-<≤=其它0323211-)(2x x x x x p ω1、求贝叶斯最小误判概率准则下的判决域,并判断样本x =1.5属于哪一类;2、求总错误概率p (e );3、假设正确判断的损失λ11=λ22=0,误判损失分别为λ12和λ21,若采用最小损失判决准则,λ12和λ21满足怎样的关系时,会使上述对x =1.5的判断相反?解:(1)应用贝叶斯最小误判概率准则如果)()()(2112ωω=x p x p x l <>)()(12ωωP P 则判 ⎩⎨⎧ωω∈21x (2分)得 l 12(1.5)=1 <)()(12ωωP P =4,故 x=1.5属于ω2 。
(2分)(2)P(e)= 212121)()()(εω+εω=P P e P⎰⎰ΩΩωω+ωω=12)()()()(2211xd x p P x d x p P=dxx x x ⎰⎰-+- 1.2121.210.8d )2(0.2)(=0.08(算式正确2分,计算错误扣1~2分)(3) 两类问题的最小损失准则的似然比形式的判决规则为:如果))(())(()()(111212221221λ-λωλ-λω<>ωωP P x p x p则判⎩⎨⎧ωω∈21x 带入x=1.5得到 λ12≥4λ21(算式正确2分,计算错误扣1~2分)二、证明题(共20分)设p(x)~N (μ,σ),窗函数ϕ(x)~N (0,1),试证明Parzen 窗估计11ˆ()()NiN i NNx x p x Nh h ϕ=-=∑有如下性质:22ˆ[()](,)N N E p x N h μσ+。
一、填空与选择填空(本题答案写在此试卷上,30分)1、模式识别系统的基本构成单元包括:模式采集、特征提取与选择和模式分类。
2、统计模式识别中描述模式的方法一般使用特真矢量;句法模式识别中模式描述方法一般有串、树、网。
3、聚类分析算法属于(1);判别域代数界面方程法属于(3)。
(1)无监督分类 (2)有监督分类(3)统计模式识别方法(4)句法模式识别方法45、(3)(4)6、7(4)({A}, {0, 1}, {A?01, A? 0A1, A? 1A0}, A)二、(15分)简答及证明题(1)影响聚类结果的主要因素有那些?(2)证明马氏距离是平移不变的、非奇异线性变换不变的。
答:(1)分类准则,模式相似性测度,特征量的选择,量纲。
(2)证明:(2分)(2分)(1分)设,有非奇异线性变换:(1分)三、(8答:(1分)的绝对值正比于到超平面的距离平面的方程可以写成式中。
于是是平面的单位法矢量,上式可写成设是平面中的任一点,是特征空间中任一点,点到平面的距离为差矢量在上的投影的绝对值,即(1-1)上式中利用了在平面中,故满足方程式(1-1)的分子为判别函数绝对值,上式表明,的值正比于到超平面的距离,一个特征矢量代入判别函数后所得值的绝对值越大表明该特征点距判别界面越远。
(2)(4分)的正(负)反映在超平面的正(负)侧夹角小于时,即指向的那个半空间中,>0和时,在背向的那个半空间中,<0由于,和在指向的半空间中时,;当在五、(12::(1)(2)(3)表1解:由题可知:,,,,(1)(4分)根据贝叶斯最小误判概率准则知:,则可以任判;,则判为;,则判为;(2)(4分)由题可知:则,判为;(3已知,有,则拒判;,则拒判;,拒判。
1.如聚类,确定其分布的主分量等。
(实例:道路图)就道路图像的分割而言,监督学习方法则先在训练用图像中获取道路象素与非道路象素集,进行分类器设计,然后用所设计的分类器对道路图像进行分割。
一、填空与选择填空(本题答案写在此试卷上,30分)1、模式识别系统的基本构成单元包括:模式采集、特征提取与选择和模式分类。
2、统计模式识别中描述模式的方法一般使用特真矢量;句法模式识别中模式描述方法一般有串、树、网。
3、聚类分析算法属于(1);判别域代数界面方程法属于(3)。
(1)无监督分类(2)有监督分类(3)统计模式识别方法(4)句法模式识别方法4、若描述模式的特征量为0-1二值特征量,则一般采用(4)进行相似性度量。
(1)距离测度(2)模糊测度(3)相似测度(4)匹配测度5、下列函数可以作为聚类分析中的准则函数的有(1)(3)(4)。
(1)(2)(3)(4)6、Fisher线性判别函数的求解过程是将N维特征矢量投影在(2)中进行。
(1)二维空间(2)一维空间(3)N-1维空间7、下列判别域界面方程法中只适用于线性可分情况的算法有(1);线性可分、不可分都适用的有(3)。
(1)感知器算法(2)H-K算法(3)积累位势函数法8、下列四元组中满足文法定义的有(1)(2)(4)。
(1)({A, B}, {0, 1}, {A01, A 0A1 , A 1A0 , B BA , B 0}, A)(2)({A}, {0, 1}, {A0, A 0A}, A)(3)({S}, {a, b}, {S 00S, S 11S, S 00, S 11}, S)(4)({A}, {0, 1}, {A01, A 0A1, A 1A0}, A)9、影响层次聚类算法结果的主要因素有(计算模式距离的测度、(聚类准则、类间距离门限、预定的类别数目))。
10、欧式距离具有(1、2 );马式距离具有(1、2、3、4 )。
(1)平移不变性(2)旋转不变性(3)尺度缩放不变性(4)不受量纲影响的特性11、线性判别函数的正负和数值大小的几何意义是(正(负)表示样本点位于判别界面法向量指向的正(负)半空间中;绝对值正比于样本点到判别界面的距离。
(完整word版)模式识别试题答案模式识别非学位课考试试题考试科目:模式识别考试时间考生姓名:考生学号任课教师考试成绩一、简答题(每题6分,12题共72分):1、监督学习和非监督学习有什么区别?参考答案:当训练样本的类别信息已知时进行的分类器训练称为监督学习,或者由教师示范的学习;否则称为非监督学习或者无教师监督的学习。
2、你如何理解特征空间?表示样本有哪些常见方法?参考答案:由利用某些特征描述的所有样本组成的集合称为特征空间或者样本空间,特征空间的维数是描述样本的特征数量。
描述样本的常见方法:矢量、矩阵、列表等。
3、什么是分类器?有哪些常见的分类器?参考答案:将特征空中的样本以某种方式区分开来的算法、结构等。
例如:贝叶斯分类器、神经网络等。
4、进行模式识别在选择特征时应该注意哪些问题?参考答案:特征要能反映样本的本质;特征不能太少,也不能太多;要注意量纲。
5、聚类分析中,有哪些常见的表示样本相似性的方法?参考答案:距离测度、相似测度和匹配测度。
距离测度例如欧氏距离、绝对值距离、明氏距离、马氏距离等。
相似测度有角度相似系数、相关系数、指数相似系数等。
6、你怎么理解聚类准则?参考答案:包括类内聚类准则、类间距离准则、类内类间距离准则、模式与类核的距离的准则函数等。
准则函数就是衡量聚类效果的一种准则,当这种准则满足一定要求时,就可以说聚类达到了预期目的。
不同的准则函数会有不同的聚类结果。
7、一种类的定义是:集合S 中的元素x i 和x j 间的距离d ij 满足下面公式:∑∑∈∈≤-S x S x ij i jh d k k )1(1,d ij ≤ r ,其中k 是S 中元素的个数,称S 对于阈值h ,r 组成一类。
请说明,该定义适合于解决哪一种样本分布的聚类?参考答案:即类内所有个体之间的平均距离小于h ,单个距离最大不超过r ,显然该定义适合团簇集中分布的样本类别。
8、贝叶斯决策理论中,参数估计和非参数估计有什么区别?参考答案:参数估计就是已知样本分布的概型,通过训练样本确定概型中的一些参数;非参数估计就是未知样本分布概型,利用Parzen 窗等方法确定样本的概率密度分布规律。
模式识别张长水2007.7.1 14:00-16:00
1 (15分)两类分类问题,P(w1)=1/4,P(w2)=3/4。
样本有两个特征,分别是x和y。
两类?的概率密度函数:w1,在0<=x<=3、0<=y<=3中均匀分布,其余为0;w2,在2<=x<=5、1<=y<=7
中均匀分布,其余为0。
请设计做小错误率贝叶斯分类器,并计算误分率。
2 (20分)支持向量机通过二次最优化得到支持向量。
现在有一个两类分类问题,共有N 个
样本,样本有d维特征空间,样本集合是线性可分的。
试使用遗传算法求解支持向量,说明算法步骤和使用的遗传算子。
使用遗传算法求解支持向量有什么优缺点?
3 (20分)两类分类问题,有3个特征x,y,z,共有N个样本。
通过经验知道将3个特征进行加权相加得到的特征将具有更好的分类性能,但是不知道如何得到各个特征的权重。
试回答?
如何得到各个特征的权重。
给出必要的计算和推导过程。
4 (15分)使用多级聚类算法对下面的样本进行聚类,使用最近距离量度。
给出计算过程,多级聚类树。
问应该分成几类,为什么?举例说明使用最近距离量度聚类和使用最远距离量度聚类各自的优缺点。
(1,0) (2,0) (0,2) (1,3) (0,5)
5 (20分)距离是模式识别中的重要概念,试说明贝叶斯分类器、近邻法、Fisher投影法、C均值算法是否受不同距离量度选择的影响。
如果不是,说明原因;如果是,举例说明受什么影响。
6 (10分)一个袋子中装有红、绿、蓝三种颜色的球,采用有放回的取球方法,取出N个球
,其中有n1个红色球、n2个绿色球和n3个蓝色球的概率为
p(n1,n2,n3)=(N!/(n1!n2!n3!))*p1^n1*p2^n2*p3^n3
其中n1+n2+n3=N,p1+p2+p3=1
已知概率模型如下:p1=1/4 p2=1/4+p/4 p3=1/2-p/4
如果一个人是红绿色盲,分不清红色球和绿色球,那么他只能知道他取了m1=n1+n2个红/绿
球,和m2=n3个蓝色球。
试通过这些数据估计概率模型中的p,并估计红色球和绿色球的数?。
--------------------------------
不出意外的话应该是在清华最后一门考试了,复习的时候又极其痛苦,500+张ppt,
很多公式要理解要背,所以得纪念一下,粗略回忆一下今天考的内容,给后面的同
学留点参考吧
(这里研究生的考试题实在有点稀少)
模式识别林行刚(电子系)期末闭卷2008.6.27
一、判断对错40*0.5 = 20分
[1m [0;37m考的题很细,涉及了各个方面,比如[m
[1m [0;37m简单模式匹配、K-L变换(2题)、最小欧氏距离、权向量定义、近邻函数定义、[m
单个神经元分类是否是线性的、子空间(1题)、
“最小马氏距离分类器的错误概率一定不会比最小欧氏距离分类器的错误率大”。
二、对现有算法的理解5*5=25
1、s个类,可以用s(s-1)/2个线性分类器分开,称为这个样本集成对线性可分。
举例
二、对现有算法的理解5*5=25
1、s个类,可以用s(s-1)/2个线性分类器分开,称为这个样本集成对线性可分。
举例
说明,成对线性可分不一定线性可分。
2、定义相似度为20-min (d{Xi,Xj})(Xi属于类wi,Xj属于类wj),其中d{Xi,Xj}表示
两个样本之间的欧氏距离,给了一组样本10个数据,
{-2.2,-2.0,-0.3,0.1,0.2,0.4,1.6,1.7,1.9,2.0}(好像是这样),请画出层次
聚类算法的分类树,并说明最终聚为几个类比较好。
3、KMP算法,对于在字符串text[1,2,...,n]中查找字串pat[1,2,...,m],当匹配到
pat中的p[j]发现不匹配时,
1)应该怎样确定下一个pat开始查找的位置next[j];
2)给出4个pat形式,写出对于所有j值写出next[j]的值。
四个形式大概是abcd,abca aaad,abcadbab(最后一个不确定)
3)什么情况是最坏情况,最坏要进行多少次比较
4、给定字符串abbc和abcbc,给出求解编辑距离的步骤图并给节点标上最小费用,求编
辑距离,画出最小路径,简要说明寻找最小费用路径的步骤。
4、给定字符串abbc和abcbc,给出求解编辑距离的步骤图并给节点标上最小费用,求编
辑距离,画出最小路径,简要说明寻找最小费用路径的步骤。
5、(似作业题)设有符合正态分布的两类样本,p(w1)=p(w2)=0.5,
w1={(3,4),(3,8),(2,6),(4,6)},w2={(3,0),(3,-4),(1,-2),(5,-2)},求:
1)识别函数
2)识别界面,画出示意图
3)如果p(w1)=0.1,p(w2)=0.9,请问识别界面会有什么变化?
4)如果要使识别界面成为双曲线,那么样本应该做怎样的调整?
三、实验设计15
各省都有简称,比如京、津、鄂、鲁、豫等,共达三十余个类,需要用楷、行等6 种字体进行印刷,请设计分类器识别省市简称。
印刷中,字体不同,质量不同,有粗细差别甚至缺失。
1)为了设计分类器,你将怎样搜集和准备数据
2)你将怎样对对象进行描述,即怎样进行特征抽取和选择
3)你怎样设计分类器和确定参数
4)怎样测试数据和评估精度
三、实验设计15
各省都有简称,比如京、津、鄂、鲁、豫等,共达三十余个类,需要用楷、行等6 种字体进行印刷,请设计分类器识别省市简称。
印刷中,字体不同,质量不同,有粗细差别甚至缺失。
1)为了设计分类器,你将怎样搜集和准备数据
2)你将怎样对对象进行描述,即怎样进行特征抽取和选择
3)你怎样设计分类器和确定参数
4)怎样测试数据和评估精度
结语:时间很紧,得快,另外概念的东西考的很细,需要确实的理解。
期末占60%,平? 小作业20%,大实验20%,号称成绩是以82为期望的正态分布。
总的来说林行刚老师还是比自动化的张长水的模式识别正常一点,如果要上模式识别? 话建议选他的。
------------07
模式识别林行刚2007.6
bow to: zhouguangyip@free,在此基础上修改完善的:)
另外,这门课的给分:平均分80,正态分布,90以上和70以下的各占10%.
一,判断对错题(40*0.5=20)
考得很细…
课件要仔细看,不过感觉有好多都是老师上课时讲解的,课件上并没写,可惜没仔细听课…?
二.问答计算(4*6=24)
1.一个二次判决函数d(x)=7+3x+15x^2
(1)将它化成一个广义齐次线性判决函数;
(2)简述对于一般的高次判决函数怎样化成广义齐次线性判决函数。
2.s个类,可以用s(s-1)/2个线性分类器分开,称为这s个类成对线性可分。
举例说明,成对线性可分不一定线性可分。
3.模糊数学问题:
依据经验定义“凌晨”“白天”“夜晚”在X属于[0,24]时间内的模糊隶属度函数。
以此例说明一下隶属度函数和概率的区别。
4.关于Bayes分类器
(1)为什么Bayes分类器得到的是最小错误概率分类。
4.关于Bayes分类器
(1)为什么Bayes分类器得到的是最小错误概率分类。
(2)写出A.P(w1)=P(w2);N.P(X|w1)=P(X|w2)两种情况下的Bayes分类函数。
(3)什么情况下Bayes分类器与最小欧氏距离分类器错误概率相同。
(4)什么情况下最小马氏举例分类器比最小欧氏距离分类器错误概率小。
5.SVM,给了两类六个点:w1:(0,0)(1,0)(0,1);w2:(1,1)(2,0)(2,2)
(1)画图给出最优界面的权向量
(2)标出支持向量
6.有穷状态机问题
(1)给出有穷状态机的5个元素
(2)说明为什么有穷状态机能解决“无穷个对象”的问题。
(3)给3个字符串的例子,并画出相应的有穷状态机
(4)给2个不能用有穷状态机解决的例子
三.实验设计(16分)
给出了10个人的照片,某实验室只允许这10个人进入,做一个人脸识别的分类器。
(1)写出分类器的设计方法,包括模式选取,设计步骤,判决过程。
(2)如何检测设计的分类器的分类错误率。
(3)怎样解决由于光照、拍摄角度、发型变化等因素对分类器的影响。
(4)对于不是这10个人的第11个人来,怎样处理。