7.朴素贝叶斯方法的条件独立假设是(
P(x| 3 i) =P(x1, x2,…,xn | co i)
第一章绪论
1 ?什么是模式?具体事物所具有的信息。
模式所指的不是事物本身,而是我们从事物中获得的
2?模式识别的定义? 让计算机来判断事物。 3?模式识别系统主要由哪些部分组成?
数据获取一预处理一特征提取与选择一分类器设计
/
分类决策。
第二章贝叶斯决策理论
P ( W 2 ) / P ( W 1 ) _,贝V X
1. 最小错误率贝叶斯决策过程?
答:已知先验概率,类条件概率。利用贝叶斯公式 得到后
验概率。根据后验概率大小进行决策分析。
2. 最小错误率贝叶斯分类器设计过程?
答:根据训练数据求出先验概率
P ( W i ),
>
类条件概率分布P ( X | W i ), i 1 , 2 利用贝叶斯公式得到后验概率 P (W i 1 x)
1
如果输入待测样本 X ,计算X 的后验概率根据后验概率大小进行分类决策分析。
3. 最小错误率贝叶斯决策规则有哪几种常用的表示形式?
决策规则的4- I-J 形工战< d
x +) — max 爪'(vr I A *), MJ A * 匚 w.
如SI 卫(A *叫)厂)= 如果lg=上心lw) py %)
心li M/ JC ) = —1IL | /( A *)J = — hi JC | 讥.j + 111 | i r 2 )
>
尸(“空)
I MJ
4 .贝叶斯决策为什么称为最小错误率贝叶斯决策?
答:最小错误率Bayes 决策使得每个观测值下的条件错误率最小因而保证了 (平均)错误率
最小。Bayes 决策是最优决策:即,能使决策错误率最小。
5. 贝叶斯决策是 由先验概率和(类条件概率)概率,推导(后验概率)概率,然后利用这 个概率进行决策。
6. 利用乘法法则和全概率公式证明贝叶斯公式
p(AB) p(A|B)p(B) p(B|A)p(A)
P (A
」B )
答:
m
所以推出贝叶斯公式
p(B) p(B|Aj)p(Aj)
j 1
P(W i |x)
P (x | W i ) P(W i )
2
P(x | W j ) P (w j )
j 1
1 , 2
.信息__。
如果 I (x)
P (X | W i ) P (W i )
P(X | W j )P(W j )
max />(A' |
t
),则
时 P(B |A i )P(AJ P ( B ) P ( B | A i ) P ( A i ) 7M
P ( B | A j ) P ( A j )
2
=P (x1| 3 i ) P (x2| 3 i )…P (xn| 3 i )) 8?怎样利用朴素贝叶斯方法获得各个属性的类条件概率分布?
答:假设各属性独立,
P (x| 3 i ) =P (x1, x2,…,xn | 3 i ) = P (x1| 3 i ) P (x2| 3 i )…P (xn| 3
i )
后验概率: P(3 i|x) = P( 3 i) P(x1| 3 i) P(x2| 3 i)…P(xn| 3 i)
类别清晰的直接分类算,如果是数据连续的,假设属性服从正态分布,算出每个类的均值方 差,最后得到类条件概率分布。
9?计算属性Marital Status 的类条件概率分布
给表格计算,婚姻状况几个类别和分类几个就求出多少个类条件概率。
10,朴素贝叶斯分类器的优缺点?
答:分类器容易实现。
面对孤立的噪声点,朴素贝叶斯分类器是健壮的。因为在从数据中估计条件概率时。 这些 点被平均。面对无关属性,该分类器是健壮的。相关属性可能降低分类器的性能。 因为对这
些属性,条件独立的假设已不成立。
11.我们将划分决策域的边界称为
(决策面),在数学上用可以表示成 (决策面方程)
12?用于表达决策规则的函数称为(判别函数)
13?判别函数与决策面方程是密切相关的,且它们都由相应的决策规则所确定 14.写出多元正态概率下的最小
错误率贝叶斯决策的判别函数,即
2(x
山)i (X 山)
d In 2 2
15?多元正态概率下的最小错误率贝叶斯决策的决策面方程为 16?多元正态
概率下的最小错误率贝叶斯决策,当类条件概率分布的协方差矩阵为
2 时,每类的协方差矩阵相等,且类内各特征间(相互独立)
,并具有相等的
方差。
17?多元正态概率下的最小错误率贝叶斯决策,如果先验概率相等,并 i
2且
i=1,2,…c ,那么分类问题转化为只要计算待测样本 x 到各类均值的(欧式距离),然后把x 归
于具有(最小距离平方)的类。这种分类器称为(最小距离分类器)
。
18.
I 己知样車类条件概率密度.ZX 划径)心儿二、 j =-l Q 其中砂=? J 〉*# 宀=#
貝吗)=0.7” 刊马)= > V 如果用最小锚i 吴率贝叶斯决策
2丿
来行分类器设计,决策而将 ________________ 不通过 ______ C 通过*不通过》刈 和从连线的中点。决策向宀向虽 19吗-小
______________ 正仝 ____ (.1疋交*不止交)O I W .
多元正态概率下的最小错误率贝叶斯决策,类条件
概率密度各类的协方差矩阵不相等时,决策面是(超二次曲面)
均值:mean (x )
XI
方差:var (x ) m 1n (xI
x)A 2
g i (x) ln( p(x | |)P( |))
g i (x) g j (x) 0
In P( I )
,判别函数是(二次型)
证明:多元正态概率下的最小错误率贝叶斯决策,对于&二土人r = L
2 …”*c
的特殊情况.最终的决策而方理为超平而.
证明:多元正态槪率下的最小错误率贝叶斯决策,对于r 二Y j 二1 2 c 的特殊情况,最终的决策而方程为:
艸辽"仙十)
多尤止态槪率卜'的虽小错溟率贝叶斯抉策号对丁
二=trV, z = L 2 ________ c
I
的特殊情况*证明先验概率相等时*形成的分类器是最小即离分类器。
多元正态槪率卜的毘小错误率贝叶斯决策,对于
Y 二二7 —…疋
的特殊惰况*证明判别雷融是线杵的“
2.6砸筑题甩朋朋险轴瞅策删可舫为
呼岡)J兀-仏)卩的r r J W'
7?(叭=叫 | x)—人| x) + A2P((t?2| x)
2—少z | x) = A21P (叫| x) + A22P(ti)2| x)
i用Bayes公式展开,最小凤险贝叶斯决策决策得到:
如果P(丫叫)、血][FWj)贝1] , X € f
旳
0(耳1叫)(4 -亀)P(?)'
如果"(工的)
丿(兀-亦戸㈣)
则丁x € ro. P(卞1叫)〔広
2】-
占]円?)
第三章概率密度函数的估计
i?类条件概率密度估计的两种主要方法(参数估计)和(非参数估计)
2?类条件概率密度估计的非参数估计有两种主要的方法 们的基本原理都是基于样本对分布的(未知)原则。
4. 假设正常细胞和癌细胞的样本的类条件概率服从多元正态分
布
,使用最大似然估计方法,对概
率密度的参数估计的结果为。
证明:使用最大似然估计方法,对一元正态概率密度的参数估计的结果如下:
X k
k 1
5?已知5个样本和2个属性构成的数据集中, w1类有3个样本,w2类有两个样本。如果使 用贝叶斯方法设计分类
器,需要获得各类样本的条件概率分布, 现假设样本服从多元正态分 布p (x| i ) N (山,J i 1,2 则只需获得分布的参数均值向量和协方差矩阵即可,
那么采用最大似然估计获得的 w1类的
第四章 线性判别函数
1?已知两类问题的样本集中,有两个样本。
X 1 (1, 3,2)T 属于类,X 2
(1,2, 3/ 属
于类,对它们进行增广后,这两个样本的增广样本分别为
[y1 =(1,1,-3,2)T,y2 =(-1,-1,-2,3)T ]
2广义线性判别函数主要是利用(映射)原理解决(普通函数不能解决的高次判别函数)
问题,
利用广义线性判别函数设计分类器可能导致(维数灾难)
。
3?线性分类器设计步骤?
主要步骤:
1?收集训练数据集 D={x1,x2,…,xN}
2?按需要确定一个准则函数 J (D,w,wO )或J (D,a ),其值反映分类器的性能,其极值解对应于
“最好”决策。
3.用最优化技术求准则函数 J 的极值解w* , w*或a*。 T T 4?最终,得到线性判别函数,完成分类器设计
g (x ) (w*) x W o ,g (x ) (a*) y
5. 线性判别函数g (x )的几何表示是:点 x 到决策面H 的(距离的一种代数度量)。
6. 增广样本向量使特征空间增加了(一)维,但样本在新的空间中保持了样本间的(欧氏距
离)不变,对于分类效果也与原决策面相同。
在新的空间中决策面 H 通过坐标(原点)
10.利用Lagrange 乘子法使Fisher 线性判别的准则函数极大化,最终可以得到的判别函数
(Parzen 窗法)和(KN 近邻法)。它
3?如果有N 个样本,可以计算样本邻域的体积
V ,然后获得V 中的样本数
(X k
k 1
?)2
类条件概率密度均值向量为(
2,3转置)
2 0 2 ,以及协方差矩阵为(
0 2 2 )。
2
2
4
7?Fisher 准则的基本原理为: 找到一个最合适的投影轴, 使_(类间)在该轴上投影之间的距离
尽可能远,而(类内)的投影尽可能紧凑,从而使分类效果为最佳。
8.Fisher 准则函数的定义为
J F (w)
9Fisher 方法中,样本类内离散度矩阵
S i
(x mj (x mJ T , i
x D i
烬
w T S b w S
比
w S w w
Si 与总类内离散度矩阵 Sw 分别为
1,2 S w S 1 S 2
* A
权向量w S w (m 1 m 2)
11?叙述Fisher算法的基本原理。
Fisher准则的基本原理:找到一个最合适的投影轴,使两类样本在该轴上投影之间的距离尽可能远,而每一类样本的投影尽可能紧凑,从而使分类效果为最佳。
12
Fisher公式的推导
疋函数:L(w, 4) = —- c)
Ak 一广一=Ew - = 0
zw = S; S,w = S; W* = —S v l[m l-m2')^S v~}(in}_ni;) 」”丄T 13. 已知两类问题的样本集中,有两个样本°X[ 属于W1类,x2(1,2, 3)T属于w2类,对它们进行增广规范化后,这两个样本的 规范化增广样本分别为y1=(1,1,-3,2)转置和y2=(1,-1,-2,3)转置。 14. 叙述感知准则的梯度下降算法的基本过程。答:1.初值:任意给定一向量初始值a(1) 2. 迭代:第k+1次迭代时的权向量a(k+1)等于第k次的权向量a(k)加上被错分类的所有样本之和与pk的乘积 3. 终止:对所有样本正确分类 ( y Y k 16线性判别函数g(x)的几何表示是:点 x 到决策面H 的(距离的代数度量) 17?感知机方法主要有两种,批量样本修正法与单样本修正法。它们之间的区别是什么? 答 单样本修正法:样本集视为不断 重复出现的序列,逐个样本检查,修正权向量 证明使用梯度下降算法的迭代过程公式 a(1)任意 21.下列哪种分类方法最不适用于样本集线性不可分情况 A ? Fisher 线性判别的Lagrange 乘子法 B .感知准则的梯度下降算法 数准则的共轭梯度法 D .最小平方误差准则的梯度下降法 22?多类问题可以利用求两类问题的方法来求解。 这样做的缺点是会造成(无法确定类别的区 域增大),需要训练的(子分类器及参数增多)。 23?利用最小平方误差准则函数进行分类器设计,主要是求极小化时的权向量。当 b (1, (1) 时,最小平方误差准则函数的解等价于 (Bayes)线性判别的解。 '' 24?叙述分类器错误率估计中的留一法的运算过程。 答:1.N 个样本,取N-1个样本作为训练集,设计分类器。 2?剩下的一个样本作为测试集,输入到分类器中,检验是否错分。 3?然后放回样本,重复上述过程,直到 N 次,即每个样本都做了一次测试。 k 4?统计被错分的次数 k, ? 作为错误率的估计率。 25利用两类问题的线性分类器解决多类问题常用的两种方法的优缺点。 答:优点:设计思想简单,容易实现。 缺点:(1)需要训练的子分类器或参数多,效率低。 (2)无法确定类别的区域多。【造成该问题的根本原因是将多类问题看成了多个 两类问题来解决。这样必然造成阴影区域的出现。解决办法用多类问题的分类器】 26线性分类器设计中的最小平方准则函数方法采用的准则函数公式是什么?当利用伪 逆解方法求解时,遇到计算量过大时,可以代替采用何种方法来训练分类器参数?叙述你 所使用方法的基本原理,并解释为什么你的方法可以降低计算量。 N 2 2 答:因为 e=Ya 七,Js (a) IIe ||丫 a b || (a T y i b i )2 常用梯度下降法来降低计算复杂度 i 1 N J s (a) 2(a T y i b" 2Y T (Ya b) 批量样本修正法:样本成批或全部检查后, 18. 感知准则特点是随意确定权向量(初始值) 量直 至最终确定。 19. 对于感知准则函数,满足( 而是由无穷多个解向量组成的解, 20.感知准则函数为j p (a) 修正权向量 ,在对样本分类训练过程中(逐步修正)权向 T a y 称这样的区域为(解区域) ( k y 丫 0 )的权向量称为解向量,解向量不止一个, a T y) o 极小值时的a 为最优解 a(k 1) a(k) 证明:J p (a) J p (a) y Y k a(k 1) a(k) J P (a) a(k) k yY k y C ?最小错分样本 a(1),任意初始化 批量样本修正法: a(k 1) a(k) k Y T (Y a(k) b) a(1)任意初始化 a(k 1) a(k) @ a(k)T y k )y k 27利用两类别的线性分类器如何解决多类别的分类问题? 3 i/~ 3 i 法:将C 类别问题化为(C-1)个两类(第i 类与所有非i 类)问题,按两类问题确定 其判别函数与决策面方程 3 i/3 j 法:将C 类中的每两类别单独设计其线性判别函数, 因此总共有C(C-1)/2个线性判 别函数 28?叙述分类器错误率估计中的 m-重交叉验证方法的运算过程,并说明什么情况下该方法将 退化为留一法。 N 个样本被划分成 m 个不相交的集合,每组有 个样本。 当m=N 时,退化为留一法。 第五章近邻法 近邻法性能 优点: 设计简单 分类性能优良 适用于线性不可分情况 第六章特征的选择与提取 1?叙述用于特征选择的增 I 减r 搜索算法的算法步骤。并考虑 I 值大于(或小于)r 值时, 增I 减r 算法步骤应做出怎样的修改,以及该情况下,增 I 减r 搜索算法的特点? 答步骤一:用SFS 法在未入选特征组中逐个选入 L 个特征,形成新特征组 Xk+L ,设置 k=k+L ,步骤二:用 SBS 法从特征组Xk 中逐个剔除r 个最差的特征,形成新特征组 Xk-r , 设置k=k-r ,若k=d ,则终止算法,否则设置 xk=xk-r ,转向第一步。 (1 )当L>r 时,L-r 法是一种自下而上的算法,先执行第一步,然后执行第二步,开始时, 设置k=0 , x0=空 (2 )当L xO={x1 ,…,xD} 2模拟退火法采用 Metropolis 接受准则,冷却进度表的主要参数包括(温度 T 的初始值, 控制参数T 的衰 减函数,Mapkob 链的长度,停止准则)。 3.遗传算法的运算过程主要分四个阶段: 包括编码阶段、 选择阶段、 交叉阶段、(变异阶段) 其中, (选择)阶段可以加入最优保留策略,该策略的优点是(保留有利的,不利的淘汰) 遗传算法的初始群体 (2) (3) (4) (5) 在m 个样本中取 m-1个组的样本作为训练集,设计分类器。 剩下的一组样本作为测试集,输入到分类器中检验,统计错分数 然后放回,重复上述过程,直到 m 次。 设ki (i=1,…,m)是第i 次测试的错分数,则 1 k i k. k i 单样本修正法: (1) (2) (3) 缺 点: (1) 计算量大,存储量大