判别分析的基本原理讲课稿
- 格式:doc
- 大小:1.00 MB
- 文档页数:18
______________________________________________________________________________________________________________判别分析的基本原理和模型一、判别分析概述(一)什么是判别分析判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。
判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。
所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。
常用的有,距离准则、Fisher准则、贝叶斯准则等。
判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。
判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。
(二)判别分析的种类按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。
二、判别分析方法(一)距离判别法1.基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,距离判别准则是对于任给一新样品的观测值,若它与第i类的重心距离最近,就认为它来自精品资料第i 类。
因此,距离判别法又称为最邻近方法(nearest neighbor method )。
距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。
2.两组距离判别两组距离判别的基本原理。
设有两组总体B A G G 和,相应抽出样品个数为21,n n ,n n n =+)(21,每个样品观测p 个指标得观测数据如下,总体A G 的样本数据为:()()()()()()()()()A x A x A x A x A x A x A x A x A x p n n n p p 111212222111211该总体的样本指标平均值为:()()()A x A x A x p 21,总体B G 的样本数据为:()()()()()()()()()B x B x B x B x B x B x B x B x B x p n n n p p 222212222111211该总体的样本指标平均值为:()()()B x B x B x p 21,现任取一个新样品X ,实测指标数值为X =(p x x x ,,,21 ),要求判断X 属于哪一类?首先计算样品X 与A G 、B G 两类的距离,分别记为()A G X D ,、()B G X D ,,然后按照距离最近准则判别归类,即样品距离哪一类最近就判为哪一类;如果样品距离两类的距离相同,则暂不归类。
判别分析的基本原理判别分析的基本原理和模型一、判别分析概述 (一)什么是判别分析判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。
判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。
所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。
常用的有,距离准则、Fisher 准则、贝叶斯准则等。
判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。
判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。
(二)判别分析的种类按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。
二、判别分析方法 (一)距离判别法1.基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,距离判别准则是对于任给一新样品的观测值,若它与第i 类的重心距离最近,就认为它来自第i 类。
因此,距离判别法又称为最邻近方法(nearest neighbor method )。
距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。
2.两组距离判别两组距离判别的基本原理。
设有两组总体B A G G 和,相应抽出样品个数为21,n n ,n n n =+)(21,每个样品观测p 个指标得观测数据如下,总体A G 的样本数据为:()()()()()()()()()A x A x A x A x A x A x A x A x A x p n n n p p 111212222111211ΛΛMΛΛΛΛ该总体的样本指标平均值为:()()()A x A x A x p Λ21,总体B G 的样本数据为:()()()()()()()()()B x B x B x B x B x B x B x B x B x p n n n p p 222212222111211ΛΛMΛΛΛΛ该总体的样本指标平均值为:()()()B x B x B x p Λ21,现任取一个新样品X ,实测指标数值为X =(p x x x ,,,21Λ),要求判断X 属于哪一类?首先计算样品X 与A G 、B G 两类的距离,分别记为()A G X D ,、()B G X D ,,然后按照距离最近准则判别归类,即样品距离哪一类最近就判为哪一类;如果样品距离两类的距离相同,则暂不归类。
判别准则写为:A G X ∈,如果()A G X D ,<()B G X D ,, B G X ∈,如果()A G X D ,>()B G X D ,,X 待判,如果()A G X D ,=()B G X D ,。
其中,距离D 的定义很多,根据不同情况区别选用。
如果样品的各个变量之间互不相关或相关很小时,可选用欧氏距离。
采用欧氏距离时,()A G X D ,=∑=-pA x x 12))((ααα()B G X D ,=∑=-pB x x 12))((ααα然后比较()A G X D ,和()B G X D ,的大小,按照距离最近准则判别归类。
但实际应用中,考虑到判别分析常涉及到多个变量,且变量之间可能相关,故多用马氏距离。
马氏距离公式为:()()()()()A AA A X X S X X G X d -'-=-12,()()()()()B BB B X X S X X G X d -'-=-12, 其中()A X 、()B X 、A S 、B S 分别是A G 、B G 的均值和协方差阵。
这时的判别准则分两种情况给出: (1)当A S =B S =S 时()()A B G X d G X d ,,22-=()()()()()()()()AAABBBX X S X X X X S X X -'---'---11=()()()()()()B A B A X X S X X X -'⎥⎦⎤⎢⎣⎡+--1212令()()()B A X X X +=21,同时记()=X W 2)),(),((22A B G X d G X d - 则()()()()()BAX X SX X X W --=-1所以判别准则写成:A G X ∈,如果()0>X W ,B G X ∈,如果()0<X W ,X 待判,如果()0=X W 。
该规则取决于()X W 的值,因此()X W 被称为判别函数,也可以写成:()()X X X W -=α,其中()()()B A X X S -=-1α。
()X W 被称为线性判别函数。
作为特例,当1=p 时,两个总体的分布分别是()21,σμN 和()22,σμN ,判别函数为()()2122112μμσμμ-⎪⎭⎫ ⎝⎛+-=X X W或()()2122112x x s x x X X W -⎪⎭⎫ ⎝⎛+-=(使用样本资料代替总体参数时)不妨设21μμ<,这时()X W 的符号取决于μ>X 或μ<X 。
μ<X 时,判A G X ∈;μ>X 时,判B G X ∈。
两组距离判别法,简单容易理解,判别准则也是合理的,但是有时也会出现错判。
如下图6.1,如果X 来自A G ,但却落入2D ,被错判为B G 组,错判的概率为图中阴影的面积,记为)1/2(P ,类似有)2/1(P ,显然)1/2(P =)2/1(P =)2(121σμμ-Φ-。
图6.1当两总体靠的比较近时,即两总体的均值差异较小的时候,无论用何种判别方法,错判的概率都比较大,这时的判别分析也是没有意义的。
因此只有当两总体的均值有显著差异时,进行判别分析才有意义,为此,要对两总体的均值差异性进行检验,对此在下文中叙述。
(2)当A S ≠B S 时按照距离最近准则,类似地有:A G X ∈,如果()A G X D ,〈()B G X D ,, B G X ∈,如果()A G X D ,〉()B G X D ,,X待判,如果()A G X D ,=()B G X D ,。
仍然用=)(X W ()B G X d,2()A G X d ,2-()()()()B BB X X S X X -'-=-1()()()()A A A X X S X X -'---1作为判别函数,此时的判别函数是X 的二次函数。
(3)关于两组判别分析的检验由于判别分析是假设两组样品是取自不同总体,如果两个总体的均值向量在统计上差异不显著,则进行判别分析意义不大。
所以,两组判别分析的检验,实际就是要经验两个正态总体的均值向量是否相等,为此,检验的统计量为:()()()1,~2122122121--+-++--+=p n n p F Tpn n p n n F其中:()()()⎪⎪⎭⎫ ⎝⎛-+'⎪⎪⎭⎫ ⎝⎛-+-+=-)()()()(2212112121212B X A X n n n n S B X A X n n n n n n T B A S S S +=给定检验水平,查F 分布表使{}αα=>F F ,可得出αF ,再由样本值计算F ,若αF F >,则否定原假设,认为两个总体的均值向量在统计上差异显著,否则两个总体的均值向量在统计上差异不显著。
3、多个总体的距离判别法类似两个总体的讨论推广到多个总体。
设有k 个总体k G G Λ1,相应抽出样品个数为k n n Λ1n n n k =++)(1Λ,每个样品观测p 个指标得观测数据如下,总体1G 的样本数据为:()()()()()()()()()111111111111212222111211p n n n p p x x x x x x x x x ΛΛMΛΛΛΛ该总体的样本指标平均值为: ()()()11,121p x x x ΛM总体k G 的样本数据为:()()()()()()()()()k x k x k x k x k x k x k x k x k x p n n n p p 222212222111211ΛΛMΛΛΛΛ该总体的样本指标平均值为: ()()()k x k x k x p Λ21,它们的样本均值和协方差阵分别为: ()Λ1X ()k X 、Λ1S k S 。
一般的,记总体的样本指标平均值为:=)(i X (()()()i x i x i x p Λ21,),k i Λ2,1=。
(1)当Λ=1S S S k ==时 此时()()()()()i i i i X X S X X G X d-'-=-12,,k i Λ2,1=判别函数为())],(),([2122i j ij G X d G X d X W -=()j i j i X X S X X X -⎪⎪⎭⎫ ⎝⎛+-=212,k j i Λ2,1,= 相应的判别准则为:i G X ∈, 当()0>X W ij 时,对于一切i j ≠ 待判, 若有一个()0=X W ij (2)当Λ1S k S 不相等时 此时判别函数为()()()()()()()()()i i i j j j ji X X S X X X X S X X X W -'---'-=--11相应的判别准则为:i G X ∈, 当()0>X W ij 时,对于一切i j ≠ 待判, 若有一个()0=X W ij (二)费舍判别法费舍判别法是1936年提出来的,该方法对总体分布未提出什么特定的要求。
1.基本思想费舍判别法是基于统计上的费舍准则,即判别的结果应该使两组间区别最大,使每组内部离散性最小。
在费舍准则意义下,确定线性判别函数:p p x c x c x c y +++=Λ2211其中p c c c Λ21,为待求的判别函数的系数。
判别函数的系数的确定原则是使两组间区别最大,使每组内部离散性最小。
有了判别函数后,对于一个新的样品,将p 个指标的具体数值代入判别式中求出y 值,然后与判别临界值进行比较,并判别其应属于哪一组。
2.两组判别分析 (1)方法原理设有两组总体B A G G 和,相应抽出样品个数为21,n n n n n =+)(21,每个样品观测p 个指标得观测数据如下,总体A G 的样本数据为:()()()()()()()()()A x A x A x A x A x A x A x A x A x p n n n p p 111212222111211ΛΛMΛΛΛΛ第1个总体的样本指标平均值为:()()()A x A x A x p Λ21,总体B G 的样本数据为:()()()()()()()()()B x B x B x B x B x B x B x B x B x p n n n p p 222212222111211ΛΛMΛΛΛΛ第2个总体的样本指标平均值为:()()()B x B x B x p Λ21,根据判别函数,用()()∑==pk kkA x c A y 1表示AG组样品的重心,以()()∑==pk kkB x c B y 1表示B G 组样品的重心。