四线性判别函数
- 格式:pdf
- 大小:782.25 KB
- 文档页数:64
Fisher判别函数,也称为线性判别函数(Linear Discriminant Function),是一种经典的模式识别方法。
它通过将样本投影到一维或低维空间,将不同类别的样本尽可能地区分开来。
一、算法原理:Fisher判别函数基于以下两个假设:1.假设每个类别的样本都服从高斯分布;2.假设不同类别的样本具有相同的协方差矩阵。
Fisher判别函数的目标是找到一个投影方向,使得同一类别的样本在该方向上的投影尽可能紧密,而不同类别的样本在该方向上的投影尽可能分开。
算法步骤如下:(1)计算类内散度矩阵(Within-class Scatter Matrix)Sw,表示每个类别内样本之间的差异。
Sw = Σi=1 to N (Xi - Mi)(Xi - Mi)ᵀ,其中Xi 表示属于类别i 的样本集合,Mi 表示类别i 的样本均值。
(2)计算类间散度矩阵(Between-class Scatter Matrix)Sb,表示不同类别之间样本之间的差异。
Sb = Σi=1 to C Ni(Mi - M)(Mi - M)ᵀ,其中 C 表示类别总数,Ni 表示类别i 中的样本数量,M 表示所有样本的均值。
(3)计算总散度矩阵(Total Scatter Matrix)St,表示所有样本之间的差异。
St =Σi=1 to N (Xi - M)(Xi - M)ᵀ(4)计算投影方向向量w,使得投影后的样本能够最大程度地分开不同类别。
w= arg max(w) (wᵀSb w) / (wᵀSw w),其中w 表示投影方向向量。
(5)根据选择的投影方向向量w,对样本进行投影。
y = wᵀx,其中y 表示投影后的样本,x 表示原始样本。
(6)通过设置一个阈值或使用其他分类算法(如感知机、支持向量机等),将投影后的样本进行分类。
二、优点和局限性:Fisher判别函数具有以下优点:•考虑了类别内和类别间的差异,能够在低维空间中有效地区分不同类别的样本。
第一章 绪论1.什么是模式?具体事物所具有的信息。
模式所指的不是事物本身,而是我们从事物中获得的___信息__。
2.模式识别的定义?让计算机来判断事物。
3.模式识别系统主要由哪些部分组成?数据获取—预处理—特征提取与选择—分类器设计/ 分类决策。
第二章 贝叶斯决策理论1.最小错误率贝叶斯决策过程? 答:已知先验概率,类条件概率。
利用贝叶斯公式得到后验概率。
根据后验概率大小进行决策分析。
2.最小错误率贝叶斯分类器设计过程?答:根据训练数据求出先验概率类条件概率分布 利用贝叶斯公式得到后验概率如果输入待测样本X ,计算X 的后验概率根据后验概率大小进行分类决策分析。
3.最小错误率贝叶斯决策规则有哪几种常用的表示形式? 答:4.贝叶斯决策为什么称为最小错误率贝叶斯决策?答:最小错误率Bayes 决策使得每个观测值下的条件错误率最小因而保证了(平均)错误率 最小。
Bayes 决策是最优决策:即,能使决策错误率最小。
5.贝叶斯决策是由先验概率和(类条件概率)概率,推导(后验概率)概率,然后利用这个概率进行决策。
6.利用乘法法则和全概率公式证明贝叶斯公式答:∑====mj Aj p Aj B p B p A p A B p B p B A p AB p 1)()|()()()|()()|()(所以推出贝叶斯公式7.朴素贝叶斯方法的条件独立假设是(P(x| ωi) =P(x1, x2, …, xn | ωi)⎩⎨⎧∈>=<211221_,)(/)(_)|()|()(w w x w p w p w x p w x p x l 则如果∑==21)()|()()|()|(j j j i i i w P w x P w P w x P x w P 2,1),(=i w P i 2,1),|(=i w x p i ∑==21)()|()()|()|(j j j i i i w P w x P w P w x P x w P ∑===Mj j j i i i i i A P A B P A P A B P B P A P A B P B A P 1)()|()()|()()()|()|(= P(x1| ωi) P(x2| ωi)… P(xn| ωi))8.怎样利用朴素贝叶斯方法获得各个属性的类条件概率分布?答:假设各属性独立,P(x| ωi) =P(x1, x2, …, xn | ωi) = P(x1| ωi) P(x2| ωi)… P(xn| ωi) 后验概率:P(ωi|x) = P(ωi) P(x1| ωi) P(x2| ωi)… P(xn| ωi)类别清晰的直接分类算,如果是数据连续的,假设属性服从正态分布,算出每个类的均值方差,最后得到类条件概率分布。
判别分析判别分析(discriminant analysis)是一种分类技术。
它通过一个已知类别的“训练样本”来建立判别准则,并通过预测变量来为未知类别的数据进行分类。
判别分析的方法大体上有三类,即Fisher判别(线性判别)、Bayes判别和距离判别。
Fisher判别思想是投影降维,使多维问题简化为一维问题来处理。
选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。
对这个投影轴的方向的要求是:使每一组内的投影值所形成的组内离差尽可能小,而不同组间的投影值所形成的类间离差尽可能大。
Bayes判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。
距离判别思想是根据已知分类的数据计算各类别的重心,对未知分类的数据,计算它与各类重心的距离,与某个重心距离最近则归于该类。
接下来将通过例题展示不同的判别方法。
例1:在某市场抽取20种牌子的电视机中,5种畅销,8种平销,另外7种滞销。
按电视质量评分、功能评分和销售价格三项指标衡量,销售状态:1为畅销,2为平销,3为滞销。
数据集:d6.3> X=read.table("clipboard",header=T) #读取数据存入X中> plot(X$Q, X$C); #做横坐标为Q,纵坐标为C的散点图> text(X$Q, X$C, X$G,adj=-0.8,cex=0.75) #在上一句的散点图中为每个点加文本;Q,C,G表示依据Q和C加上G的文本名字;adj为调整文字与点距离的选项,+为向左,-为向右;cex为调整文字的大小;>plot(X$Q, X$P);text(X$Q, X$P, X$G,adj=-0.8,cex=0.75) #同上> plot(X$C, X$P);text(X$C, X$P, X$G,adj=-0.8,cex=0.75) #同上1.线性判别(等方差)R中线性判别和贝叶斯判别的函数为lda()。
模式识别[填空题]1模式识别系统的基本构成单元包括()()()参考答案:模式采集;特征选择与提取;模式分类[填空题]2统计模式识别中描述模式的方法一般使用();句法模式识别中模式描述方法一般有()、()、()。
参考答案:特征矢量;串;树;网[填空题]3影响层次聚类算法结果的主要因素有()()()()参考答案:计算模式距离的测度;聚类准则;类间距离门限;预定的类别数目[填空题]4线性判别函数的正负和数值大小的几何意义是()()参考答案:正(负)表示样本点位于判别界面法向量指向的正(负)半空间中;绝对值正比于样本点到判别界面的距离[填空题]5感知器算法适用于()的情况参考答案:线性可分[填空题]6在统计模式分类问题中,聂曼-皮尔逊判决准则主要用于()情况;最小最大判别准则主要用于()情况。
参考答案:某一种判决错误较另一种判决错误更为重要;先验概率未知的[多项选择题]7、影响聚类算法结果的主要因素有()。
A. 已知类别的样本质量B. 分类准则C. 特征选取D. 模式相似性测度参考答案:B,C,D[多项选择题]8、影响基本K-均值算法的主要因素有()。
A. 样本输入顺序B. 模式相似性测度C. 聚类准则D. 初始类中心的选取参考答案:A,B,D[多项选择题]9、在统计模式分类问题中,当先验概率未知时,可以使用()。
A. 最小损失准则B. 最小最大损失准则C. 最小误判概率准则D. N-P判决参考答案:B,D[单项选择题]10、散度是根据()构造的可分性判据。
A. 先验概率B. 后验概率C. 类概率密度D. 信息熵E. 几何距离参考答案:C[多项选择题]11、如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的主要因素有()。
A.已知类别样本质量B.分类准则C.特征选取D.量纲参考答案:B,D[多项选择题]12、欧式距离具有()A.平移不变性B.旋转不变性C.尺度缩放不变性D.不受量纲影响的特性参考答案:A,B[多项选择题]13、马式距离具有()。