第五讲 判别分析
- 格式:ppt
- 大小:4.44 MB
- 文档页数:94
判别分析的基本原理和模型一、判别分析概述 (一)什么是判别分析判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。
判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。
所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。
常用的有,距离准则、Fisher 准则、贝叶斯准则等。
判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。
判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。
(二)判别分析的种类按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。
二、判别分析方法 (一)距离判别法1.基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,距离判别准则是对于任给一新样品的观测值,若它与第i 类的重心距离最近,就认为它来自第i 类。
因此,距离判别法又称为最邻近方法(nearest neighbor method )。
距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。
2.两组距离判别两组距离判别的基本原理。
设有两组总体B A G G 和,相应抽出样品个数为21,n n ,n n n =+)(21,每个样品观测p 个指标得观测数据如下,总体A G 的样本数据为:()()()()()()()()()A x A x A x A x A x A x A x A x A x p n n n p p 111212222111211该总体的样本指标平均值为:()()()A x A x A x p 21,总体B G 的样本数据为:()()()()()()()()()B x B x B x B x B x B x B x B x B x p n n n p p 222212222111211该总体的样本指标平均值为:()()()B x B x B x p 21,现任取一个新样品X ,实测指标数值为X =(p x x x ,,,21 ),要求判断X 属于哪一类?首先计算样品X 与A G 、B G 两类的距离,分别记为()A G X D ,、()B G X D ,,然后按照距离最近准则判别归类,即样品距离哪一类最近就判为哪一类;如果样品距离两类的距离相同,则暂不归类。
目录定义和应用判别分析和分类分析介绍两群体Fisher线性判别分析多群体Fisher线性判别分析判别分析:分类规则两群体Fisher分类两群体贝叶斯分类多群体分类分类分析:分类结果分类分析判别分析旨在寻找一种分类规则,而分类分析更进一步:将新的观察对象分到一个合适的类别——即在分析过程中进行的预测回想前面贷款的例子,银行需要决定是否同意申请者的贷款,最终目标是判断新申请者是属于“按时还款组”还是“倾向违约组”假设:分类思想:两个群体 和 有相同的协方差矩阵 ,并且基于Fisher判别函数 ,比较新个体转化后所得 与均值转化后 和 的距离,如果那么 和 更近,应被归为 ,反之,应被归为 .定理:如果那么将新观察对象 分为类别如果那么将 分为类别真实数据中,任何分类法则通常都不能完全正确地分类。
我们可以用如下表格表示总错分率(Total probability of misclassification, TPM)例:“今天”和“昨天”的湿度差( )和温度差( )是用来预测“明天”是否会下雨的两个很重要的因素雨天组别晴天组别绘制数据散点图:用Fisher‘s LDA分类:因此,判别函数为我们可以用模型回测现有样本计算总错分率(TPM)从箱线图可以看出Fisher‘s LDA分类效果很好如果我们得知今天的数据是 ,如何预测明天的天气?按照Fisher's LDA模型的结果,明天应该是雨天从数学角度来看,很容易发现Fisher分配法则在做的事情,实际上是在比较新观测对象 与 、 间的马氏距离。
即如果相较于 , 与 更近,那么把 分到 :反之,分到由于我们没有对分布作假设,因此 Fisher 法则是一种非参数方法,但是当样本是正态分布或者有线性趋势,LDA能表现的更好。
如下非线性分类问题中,Fisher判别分析就失效了。
目录定义和应用判别分析和分类分析介绍两群体Fisher线性判别分析多群体Fisher线性判别分析判别分析:分类规则两群体Fisher分类两群体贝叶斯分类多群体分类分类分析:分类结果贝叶斯分类动机•通常,一家公司陷入财务困境并最终破产的(先验)概率很小,所以我们应该首先默认一家随机选择的公司不会破产,除非数据压倒性地支持公司将会破产这一事件。