判别分析(2)费希尔判别
- 格式:ppt
- 大小:3.54 MB
- 文档页数:58
费歇尔判别法费歇尔判别法(Fisher's Discriminant Analysis)是一种统计学中的方法,用于寻找两个或多个分类变量中最能有效区分它们的线性组合。
这种方法最初是由英国统计学家罗纳德·费歇尔(Ronald A. Fisher)在1936年所提出。
费歇尔判别法的目标是通过将数据投影到低维空间来确定样本类别之间最明显的分离平面。
这个方法假设所有数据员来自正态分布,这使得它的结果具有很高的概率。
此外,这种方法特别适用于小样本数据,在这种情况下,其它多变量方法往往受到数据不足或对角线矩阵估计的影响。
费歇尔判别法通过将多维数据投影到一维空间上,找到最能表示数据差异的线性变量。
具体步骤如下:1. 定义问题在进行费歇尔判别分析之前,首先需要定义问题。
这个问题可以是不同的变量之间的分类问题,或者是同一变量在不同条件下的分类问题。
例如,可以通过费歇尔判别分析找到两个组的区别,这两个组的特征可以用来预测其他类似两个组。
2. 构造分类变量在对数据进行投影之前,需要将分类变量定义为正态分布。
这种变量通常为两个或更多个。
3. 计算均值和方差计算每个分类变量的均值和方差,以用于后面的投影计算。
4. 计算类内离散度矩阵类内离散度矩阵是指每个类别内所有点与该类别均值之间的距离的累加和。
这个矩阵用来衡量类的内部分散程度,通常使用矩阵的矩阵乘法来进行计算。
5. 计算类间离散度矩阵类间离散度矩阵是指不同类别均值之间的距离的累加和。
这个矩阵用来衡量类别之间的分散程度,也通常使用矩阵的矩阵乘法来进行计算。
6. 计算特征值和特征向量计算类内离散度矩阵和类间离散度矩阵的特征值和特— 1 —征向量。
这些值可以使用线性代数中的方法计算。
一般来说,特征向量是正交(perpendicular)的。
7. 选取最大特征值从计算出的特征值中找到最大特征值,找到最大特征值所对应的特征向量。
这个特征向量就是数据的主要方向,也被称为“判别变量”。
判别分析公式Fisher线性判别二次判别判别分析是一种常用的数据分析方法,用于根据已知的类别信息,将样本数据划分到不同的类别中。
Fisher线性判别和二次判别是两种常见的判别分析方法,在实际应用中具有广泛的应用价值。
一、Fisher线性判别Fisher线性判别是一种基于线性变换的判别分析方法,该方法通过寻找一个合适的投影方向,将样本数据投影到一条直线上,在保持类别间离散度最大和类别内离散度最小的原则下实现判别。
其判别函数的计算公式如下:Fisher(x) = W^T * x其中,Fisher(x)表示Fisher判别函数,W表示投影方向的权重向量,x表示样本数据。
具体来说,Fisher线性判别的步骤如下:1. 计算类别内离散度矩阵Sw和类别间离散度矩阵Sb;2. 计算Fisher准则函数J(W),即J(W) = W^T * Sb * W / (W^T * Sw * W);3. 求解Fisher准则函数的最大值对应的投影方向W;4. 将样本数据投影到求得的最优投影方向上。
二、二次判别二次判别是基于高斯分布的判别分析方法,将样本数据当作高斯分布的观测值,通过估计每个类别的均值向量和协方差矩阵,计算样本数据属于每个类别的概率,并根据概率大小进行判别。
二次判别的判别函数的计算公式如下:Quadratic(x) = log(P(Ck)) - 0.5 * (x - μk)^T * Σk^-1 * (x - μk)其中,Quadratic(x)表示二次判别函数,P(Ck)表示类别Ck的先验概率,x表示样本数据,μk表示类别Ck的均值向量,Σk表示类别Ck的协方差矩阵。
具体来说,二次判别的步骤如下:1. 估计每个类别的均值向量μk和协方差矩阵Σk;2. 计算每个类别的先验概率P(Ck);3. 计算判别函数Quadratic(x);4. 将样本数据划分到概率最大的类别中。
判别分析公式Fisher线性判别和二次判别是常见的判别分析方法,它们通过对样本数据的投影或概率计算,实现对样本数据的判别。
Fisher判别分析对案例中小企业的破产模型做Fisher判别分析江义114113001059一问题:对企业的运行状态利用Fisher判别进行分类选取四个经济指标用于判断企业处于破产状态还是正常运行状态,具体数据如下,其中类别1表示破产状态,类别2表示正常运行状态X1总负债率X2收益率指标X3短期支付能力X4生产效率指标类别-0.45 -0.41 1.09 0.45 1 -0.56 -0.31 1.51 0.16 10.06 0.02 1.01 0.4 1-0.07 -0.09 1.45 0.26 10.38 0.11 3.27 0.55 20.19 0.05 2.25 0.33 20.32 0.07 4.24 0.63 20.04 0.01 1.5 0.71 2-0.06 -0.06 1.37 0.4 10.07 -0.01 1.37 0.34 2-0.13 -0.14 1.42 0.44 10.15 0.06 2.23 0.56 20.16 0.05 2.31 0.2 20.29 0.06 1.84 0.38 带测定0.54 0.11 2.33 0.48 带测定二、程序如下:(R语言)> data=read.table("E:/bac/qiye.txt",header=T)> data1=c(rep(1,6),rep(2,7))> data2=as.factor(data1)> data$class=data2> attach(data)> names(data)[1] "X1" "X2" "X3" "X4" "class"> library(MASS)> data.lda=lda(class~X1+X2+X3+X4)> data.ldaCall:lda(class ~ X1 + X2 + X3 + X4)Prior probabilities of groups:1 20.4615385 0.5384615Group means:X1 X2 X3 X41 -0.07500000 -0.105000000 1.763333 0.35833332 0.07857143 -0.002857143 2.062857 0.4685714Coefficients of linear discriminants:LD1X1 -7.9358690X2 15.8747840X3 0.1653748X4 5.0408074>newdata=data.frame(X1=c(0.29,0.54),X2=c(0.06,0.11),X3=c(1.84, 2.33),X4=c(0.38,0.48))> predict(data.lda,newdata=newdata)三、运行结果$class[1] 1 1Levels: 1 2$posterior1 21 0.6249180 0.37508202 0.7540681 0.2459319$xLD11 -0.69812362 -1.3032372四、$class显示,最后两组数据均属于第一类别,如下表:X1 X2 X3 X4 类别0.29 0.06 1.84 0.38 10.54 0.11 2.33 0.48 1四、总结判别分析是多元统计分析中较为成熟的一种分类方法,根据已知类别的若干样本数据,总结出客观事物分类的规律性。
判别分析——Fisher判别Fisher判别和CANDISC过程(典型判别过程)简介应用举例:例5.3.2:对表5.2中的胃癌检验的生化指标值用FISHER判别的方法进行判别归类。
先调用CANDISC(典型判别)过程求出2个典型变量,然后再使用DISCRIM过程对15个观测进行判别归类。
SAS程序如下:data d522;input group x1-x4 @@;cards;1 228 134 20 11 1 245 134 10 401 200 167 12 27 1 170 150 7 81 100 167 20 142 225 125 7 142 130 100 6 12 2 150 117 7 62 120 133 10 26 2 160 100 5 103 185 115 5 19 3 170 125 6 43 165 142 5 3 3 135 108 2 123 100 117 7 2;proc candisc data=d522 out=can532 ncan=2 distance;class group; var x1-x4;run;proc gplot data=can532;plot can2*can1 = group;run;proc discrim data=can532 distance list;class group; var can1 can2;run;proc discrim data=can532 pool=no distance list;class group; var can1 can2;run程序解释说明:(1)proc candisc调用candisc(典型判别)分析过程,“out=can532”定义一个输出数据集 can532,包括输入数据集及典型变量。
(2)“ncan=2”要求系统仅计算2个典型变量(典型变量的个数不能超过变量个数和分类个数减1的最小值);(3)Gplot过程要求绘制两个典型变量的散点图,以便了解分类情况;(4)第三、四个过程以典型变量can1 can2为变量建立判别函数。
fisher判别法Fisher判别分析的基本思想:选取适当的投影方向,将样本数据进行投影,使得投影后各样本点尽可能分离开来,即:使得投影后各样本类内离差平方和尽可能小,而使各样本类间的离差平方和尽可能大。
为了克服“维数灾难”,人们将高维数据投影到低维空间上来,并保持必要的特征,这样,一方面数据点变得比较密集一些,另一方面,可以在低维空间上进行研究。
fisher判别法是判别分析的方法之一,它是借助于方差分析的思想,利用已知各总体抽取的样品的p维观察值构造一个或多个线性判别函数y=l′x其中l= (l1,l2…lp)′,x= (x1,x2,…,xp)′,使不同总体之间的离差(记为B)尽可能地大,而同一总体内的离差(记为E)尽可能地小来确定判别系数l=(l1,l2…lp)′。
数学上证明判别系数l恰好是|B-λE|=0的特征根,记为λ1≥λ2≥…≥λr>0。
所对应的特征向量记为l1,l2,…lr,则可写出多个相应的线性判别函数,在有些问题中,仅用一个λ1对应的特征向量l1所构成线性判别函数y1=l′1x不能很好区分各个总体时,可取λ2对应的特征向量l′2建立第二个线性判别函数y2=l′2x,如还不够,依此类推。
有了判别函数,再人为规定一个分类原则(有加权法和不加权法等)就可对新样品x判别所属。
Fisher判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法,由Fisher在1936年提出。
该判别方法对总体的分布不做任何要求。
Fisher判别法是一种投影方法,把高维空间的点向低维空间投影。
在原来的坐标系下,可能很难把样品分开,而投影后可能区别明显。
一般说,可以先投影到一维空间(直线)上,如果效果不理想,在投影到另一条直线上(从而构成二维空间),依此类推。
每个投影可以建立一个判别函数。
判别分析--费希尔判别、贝叶斯判别、距离判别判别分析⽐较理论⼀些来说,判别分析就是根据已掌握的每个类别若⼲样本的数据信息,总结出客观事物分类的规律性,建⽴判别公式和判别准则;在遇到新的样本点时,再根据已总结出来的判别公式和判别准则,来判断出该样本点所属的类别。
1 概述三⼤类主流的判别分析算法,分别为费希尔(Fisher)判别、贝叶斯(Bayes)判别和距离判别。
具体的,在费希尔判别中我们将主要讨论线性判别分析(Linear Discriminant Analysis,简称LDA)及其原理⼀般化后的衍⽣算法,即⼆次判别分析(Quadratic Discriminant Analysis,简称QDA);⽽在贝叶斯判别中将介绍朴素贝叶斯分类(Naive Bayesian Classification)算法;距离判别我们将介绍使⽤最为⼴泛的K最近邻(k-Nearest Neighbor,简称kNN)及有权重的K最近邻( Weighted k-Nearest Neighbor)算法。
1.1 费希尔判别费希尔判别的基本思想就是“投影”,即将⾼维空间的点向低维空间投影,从⽽简化问题进⾏处理。
投影⽅法之所以有效,是因为在原坐标系下,空间中的点可能很难被划分开,如下图中,当类别Ⅰ和类别Ⅱ中的样本点都投影⾄图中的“原坐标轴”后,出现了部分样本点的“影⼦”重合的情况,这样就⽆法将分属于这两个类别的样本点区别开来;⽽如果使⽤如图8-2中的“投影轴”进⾏投影,所得到的“影⼦”就可以被“类别划分线”明显地区分开来,也就是得到了我们想要的判别结果。
原坐标轴下判别投影轴下判别我们可以发现,费希尔判别最重要的就是选择出适当的投影轴,对该投影轴⽅向上的要求是:保证投影后,使每⼀类之内的投影值所形成的类内离差尽可能⼩,⽽不同类之间的投影值所形成的类间离差尽可能⼤,即在该空间中有最佳的可分离性,以此获得较⾼的判别效果。
对于线性判别,⼀般来说,可以先将样本点投影到⼀维空间,即直线上,若效果不明显,则可以考虑增加⼀个维度,即投影⾄⼆维空间中,依次类推。