当前位置:文档之家› 多个总体距离判别法

多个总体距离判别法

多个总体距离判别法
多个总体距离判别法

多个总体距离判别法

及其应用

课程名:

年级:

专业:

姓名:

学号:

目录

一、摘要 (1)

二、引言 (1)

三、原理 (1)

3.1定义 (1)

3.2思想 (1)

3.3判别分析过程 (1)

四、具体应用 (3)

4.1判别分析在医学上的应用 (3)

4.2距离判别法在居民生活水平方面的应用 (9)

4.3判别分析软件的使用 (12)

五、参考文献 (14)

六、附录 (15)

一、 摘要

近年来随着信息化社会的进行,数据分析对我们来说日趋重要,为了对数据的分类进行判别,本文介绍了数据分类判别的一种方法:距离判别法。本文从多个总体距离判别法理论出发并结合例题详细介绍了多个总体距离判别法的在医学领域以及居民生活水平方面的应用,同时也简单介绍了spss 软件一般判别法的具体操作。

关键词: 距离判别法 判别分析 一般判别分析

二、 引言

随着科技的发展,判别分析在经济,医学等很多领域以及气候分类,农业区划,土地类型划分等有着重要的应用, 本文从多个总体距离判别分析理论出发,介绍了多个总体距离判别法在医学以及人民生活方面的应用,并介绍了spss 一般判别分析的应用。

三、 原理

3.1 定义

距离判别法:距离判别分析方法是判别样品所属类别的一应用性很强的多因素决方法,其中包括两个样本总体距离判别法,多个样本距离判别法。

多个总体距离判别法:多个总体距离判别法是距离判别法的一种,是两个总体距离判别法的推广,具有多个总体,将待测样本归为多个样本中的一类。 3.2 思想

计算待测样本与各总体之间的距离,将待测样本归为与其距离最进的一类。 3.3 判别分析过程

对于k 个总体k 21G G G ?,

,,假设其均值分别为:k 21u u u ,,,?,协方差阵

分别为:∑)

(i ,(其中i=1,2,…k ),待测样本为),,,(p 21x x x X ?= ,其中p 21x x x ,,,?为样本X 的p 个检测指标,假设X

的均值为)x ,x ,x (X p 21,?=,协

方差为∑

,判断X

属于哪个总体。

3.3.1 步骤:

从k 21G G G ?,

,,k 个总体中,取n 个样本,分别记为k 21G G G ?,,总体样本,再结合上面p 个指标,这k 个样本可以表述如下:

第j 个总体样本(j=1,2…k)

(1)当待测样本与各总体样本的均值相等时,即

∑)

(1 = ∑)(2……=∑)

(k =∑;

则相应的判别函数为:

)()](2

1[]G X D -)G ([21X W )()(1')()(j

2

j 2ij 'j i j i u u u u X X D -+-==∑-),(,)( (其中i,j=1,2…k,)G (X,D j 2表示X 与j G 的马氏距离);

判断准则:如果对所有i ≠j 有0W ij >成立,则i G X ∈,若存在i 和j 使得0W ij =成立,则待判。

当各样本总体的均值i u 和协方差阵∑未知时,可以从i G 中抽取

)

(n

)

(2)

(1X ,X i i i X ?,i=1,2…k;则i u 和∑)

(i 的无偏估计∑

^i ^u ,可以表示为:

∑===n j i j i i X n X

1

)

()

(^

1u (i=1,2…,k ) ∑∑=-=^

1

n 1k

i i

S

k

(其中n=1+2+……+n ,)')((S )()

(1

j )()

(i i i n

n

i i n

X X X X --=∑=)

(2)当各样本总体样本的均值不相等时,相应的判别函数为:

)u -(X ][V )'u -(X -)u -(X ][V 'u -X X W (i)-1(i)(j)(j)-1(j)(j)ji )()

(= 判别准则:若对所有i ≠j 有0W ij >则i G X ∈,若存在i 和j 使得0W ij =成立,则待判。

四、 具体应用

4.1 判别分析在医学上的应用

为了研究某地区人口死亡状况,已按某种方法将15个已知样品分为三类(如下表所示),指标及原始数据见下表,试建立判别函数并判定另外4个待判样品分别属于哪类。

我们假设两样本的协方差相等;

本题中变两个数p=6,三类总体各有5个样本,故n1=n2=n3=5; 利用Matlab 软件并结合Excel 表格进行下列计算(具体计算见附录) 4.1.1 计算各组的样本的均值为:

1X =(37.94 11.90 1.50 12.25 100.06 67.46)'

2X =(39.54 11.50 2.94 27.83 151.02 66.05 )' 3X =(38.50 10.12 0.68

10.33 93.95 67.42)'

4.1.2 计算样本协方差:

∑=--=n

1k )

1(1)1()1(1)

1(k

1)'(*S X X X X )(

=

'*)(S 1

k )

2(2)

2()

2(2)

2(2∑=--=n

k

k

X X X X )(

=

')(*)(S

k )

3(2)

3()

3(2)

3(3∑=--=n

k k

X X X X

= 从而

222.23 197.45

22.06 204.82 216.83 -78.73 197.45 184.16 19.95 189.14 202.76 -72.48 22.06 19.95 2.31 20.64 22.12 -7.70 204.82 189.14 20.64 194.65 208.18 -74.58 216.83 202.76 22.12 208.18 223.65 -79.32 -78.73 -72.48

-7.70

-74.58 -79.32 29.09

根据公式:∑∑=-=

^

1

1

k

i i

S

k

n 计算得:

∑=^

从而可求得其逆为:

1

-^

=

4.1.3 求判别函数)(X W ij

,解线性方程组∑-=^

)()()(j i X X a ,得

=1i a

1

-^

=

从而可以求得

)](2

1

[)(X W )2()1(111112X X X a X X a +-=-=)(

52.23983.328.069.369.042.1x 62.3654321+---+-=x x x x x

)](2

1

[)()(W )3()1(121213X X X a X X a X +-=-=

56.9297.115.084.050.012.2x 28.2-654321-+++-+=x x x x x

)](2

1

[)(X W )1()2(212121X X X a X X a +-=-=)(

52.392-83.328.0x 69.3x 69.0-x 42.1x 62.3-654321x x ++++=

)](2

1

[)(X W )3()2(222223X X X a X X a +-=-=)(

=332.08-79.543.053.419.153.3x 90.5-654321x x x x x +++-+

)](2

1

[)()(W )1()3(313131X X X a X X a X +-=-=

56.9297.1-15.0-84.0-50.012.2-x 28.2654321++=x x x x x

)](2

1

[)()(W )2()3(323232X X X a X X a X +-=-=

=332.0879.5-43.0-53.4-19.153.3-x 90.5654321++x x x x x 从而:

(X W ij =

= 将题目中表格中个数据代入上述方程组中可得:

从上表中可知判对率为100%。

4.1.5 对待测样本进行判断,通过EXcel 表格计算的下表

从表格中可以看出待判样本1属于第3组,待判样本2属于第1组,带判样本3属于第

2组,带判样本4属于第3组。

4.2距离判别法在居民生活水平方面的应用

数据来源及说明:

本例的数据来源于国家统计局网站,选择了全国20省市进行分析,数据为我国2010年城镇生活的6项重要指标,包括食品,衣着,燃料,住房及生活用品和文化生活。

由于数据未进行分类,故先对其进行聚类分析,我们选择前21个省市利用spss 进行K-均值聚类分析,为后面计算方便,将其分成3类,结果如下:

建立表格如下:

本例中变两个数为p=6;第一类有9个样本,第二类有8个样本,第三类有4个样本,即n1=9,n2=8,n3=4;

4.2.1 三类地区个变量的均值:

1X =(107.75 21.16 8.64 12.49 16.82 3.80)'; 2X =(142.98 24.30 14.45 17.04 20.41 5.13)';

3X =(141.66 33.19 13.30 38.12 35.90 4.07)';

4.2.2 计算样本协差阵:

=∑

^

=∑

-^

1

4.2.3 求判别函数:

=

ij W

4.2.4

对已知样本进行回判:

根据判别准则,并计算可的下表

从上表中可知回判率为100%;故可对带判样本进行判别分析。

4.2.5对待判样本进行判别归类,计算结果如下

从表中可以看出新疆属于第一组,湖南和黑龙江属于第二组,江苏属于第三组。

4.3判别分析软件的使用

从上面的两个例子中可发现,对于3个样本的距离判别分析计算量很大,如果对于更多的样本的情况,计算将非常复杂,下面我们以例二为例简单介绍使用spss 进行一般判别分析

4.3.1将数据输入spss数据视图中。

4.3.2一般判别分析spss操作

选择菜单分析→分类→判别,出现下图(1),本例中将类别选入分组变量中,并定义其变量范围为1到3(下图(2)),将食品,衣着等其他变量选入自变量

中,再按需要选择其他统计量和分类等,本题中这些选项选择默认,在单击保存,并勾选预测组成员(下图(3)).

(1)

(2)

(3)

单击确认就可得到本题的结果。

4.3.3结果分析:

我们可以从数据视图中看到分类的结果:(即表格中最后一列)

Wilks的Lambda检验结果可以用于检验各个判别函数有无统计学上的显著意义,由于本例中两个sig均小于0.05,说明判别函数的作用都是显著的。

从结果中还可以得到标准化函数的系数。如下表所示

其余的结果在这里不再详述,有兴趣的读者可以参阅《spss统计分析与数据挖掘》(谢龙汉尚涛)。

五、参考文献

[1] 王静龙,梁小筠定性数据统计分析北京:中国统计出版社,2008.7

[2] 任雪松,于秀林多元统计分析北京:中国统计出版社,2010.12

[3] 谢龙汉,尚涛spss统计分析与数据挖掘北京:电子工业出版社,2012.1

[4] 袁志发多元统计分析北京:科学出版社,2009.7

[5] 朱建平应用多元统计分析北京:科学出版社,2012.6

六、附录

6.1均值计算如下表:

6.2

S的计算计算:

i

6.3系数矩阵a以及常数b求解的matlab程序:

clear,clc

A1=[-3.782 -4.46 -0.38 -4.376 -4.868 1.84;

-4.882 -5.56 -0.42 -5.476 -5.978 2.24;

-5.682 -2.66 -0.46 -3.276 -2.758 1.34;

2.228 1.55 -0.07 1.634 1.142 -1.26;

12.118 11.13 1.33 11.494 12.462 -4.16]';

S1=A1*A1';

A2=[-6.296 -5.256 -1.758 -4.93 8.986 -0.65;

-7.316 -7.276 -1.878 -7.13 -26.324 2.65;

1.614 -1.416 -0.618 5.01 21.036 -0.2;

13.504 14.244 1.122 7.04 1.006 -2.55;

-1.506 -0.296 3.132 0.01 -4.704 0.75]';

S2=A2*A2';

A3=[-4.47 -4.708 -0.614 -5.132 -3.846 2.08;

-6.39 -7.098 -0.594 -7.192 -8.796 3.38;

5.62 5.002 0.396 4.818 9.174 -2.62;

15.67 14.912 1.426 14.818 16.194 -3.72;

-10.43 -8.108 -0.614 -7.312 -12.726 0.88]';

S3=A3*A3';

S=S1+S2+S3;

X1=(1/12)*S; %协方差

X=inv(X1) ; %协方差的逆

X1=[37.942 11.9 1.5 12.246 100.058 67.46]'; %X1的均值; X2=[39.536 11.496 2.938 27.83 151.024 66.05]'; %X2的均值; X3=[38.5 10.118 0.684 10.332 93.946 67.42]'; %X3的均值;

a12=X*(X1-X2);

b1=a12'*(-0.5*(X1+X2));

a13=X*(X1-X3);

b2=a13'*(-0.5*(X1+X3));

a21=X*(X2-X1);

b3=a21'*(-0.5*(X2+X1));

a23=X*(X2-X3);

b4=a23'*(-0.5*(X2+X3));

a31=X*(X3-X1);

b5=a31'*(-0.5*(X3+X1));

a32=X*(X3-X2);

b6=a32'*(-0.5*(X3+X2));

A=[a12';a13';a21';a23';a31';a32'] %系数矩阵A

b=[b1;b2;b3;b4;b5;b6] %常数矩阵b

F=[50.22 6.66 1.08 22.54 170.6 65.2;

34.64 7.33 1.11 7.78 95.16 69.3; 33.42 6.22 1.12 22.95 160.31 68.3; 44.02 15.36 1.07 16.45 105.3 64.2;]'; B=[b b b b];

W=A*F+B

多元统计分析期末复习

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: )',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变),(~∑μP N X μ∑μ p X X X ,,,21Λ),(~∑μP N X ) ,('A A d A N s ∑+μ)()1(,, n X X ΛX )',,,(21p X X X Λ)')(()()(1X X X X i i n i --∑=n 1 X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

距离判别法及其应用

距离判别法及其应用 一、什么是距离判别 (一)定义 距离判别分析方法是判别样品所属类别的一应用性很强的多因素决策方法,根据已掌握的、历史上每个类别的若干样本数据信息,总结出客观事物分类的规律性,建立判别准则,当遇到新的样本点,只需根据总结得出的判别公式和判别准则,就能判别该样本点所属的类别。 距离判别分析的基本思想是:样本和哪个总体的距离最近,就判它属于哪个总体。 (二)作用 判别个体所属类型。例如在经济学中,可根据各国的人均国人民收入、人均工农业产值和人均消费水平等多种指标来判定一个国家经济发展程度的怕属类型医学上根据口才的体温、白血球数目以及其他病理指标来判断患者所患何病等。 二、距离判别分析原理 (一)欧氏距离 欧氏距离(Euclidean distance )是一个通常采用的距离定义,最多的应用是对距离的测度。大多情况下,人们谈到距离的时候,都会很自然的想到欧氏距离。从数学的角度来讲,它是在m 维空间中两个点之间的真实距离。 在二维空间中其公式为: 2 21221)()(y y x x d -+-=

推广到n 维空间其公式为: 2 1) (1 i n i i y x d -=∑= (二)马氏距离 在判别分析中,考虑到欧氏距离没有考虑总体分布的分散性信息,印度统计学家马哈诺必斯(Mahalanobis )于1936年提出了马氏距离的概念。 设总体T m X X X G },...,,{21=为m 维总体(考察m 个指标),样本 T m i x x x X },...,,{21=。令μ=E(i X )(i=1,2, …,m),则总体均值向量为 T m },,{21μμμμ???=。总体G 的协方差矩阵为: ]))([()(T G G E G COV μμ--==∑。 设X ,Y 是从总体G 中抽取的两个样本,则X 与Y 之间的平方马氏距离为: )()(),(12Y X Y X Y X d T -∑-=- 样本X 与总体G 的马氏距离的平方定义为: )()(),(12μμ-∑-=-X X G X d T 1.两总体距离判别。设有两总体1G 和2G 的均值分别为1μ和2μ,协方差矩阵分别为1∑和2∑(1∑,2∑>0),1?m X 是一个新样本,判断其属于哪个总体。定义1?m X 到1G 和2G 的距离为),(12 G X d 和),(22 G X d , 则按如下判别规则进行判断: 1G X ∈,若),(12G X d ≤),(22G X d 2G X ∈,若),(22G X d ﹤),(12G X d (1)当1∑=2∑时,该判别式可进行如下简化: ),(12G X d -),(22G X d =)()(111μμ-∑--X X T -)()(212μμ-∑--X X T

多个总体距离判别法(DOC)

多个总体距离判别法 及其应用 课程名: 年级: 专业: 姓名: 学号:

目录 一、摘要 (1) 二、引言 (1) 三、原理 (1) 3.1定义 (1) 3.2思想 (1) 3.3判别分析过程 (1) 四、具体应用 (3) 4.1判别分析在医学上的应用 (3) 4.2距离判别法在居民生活水平方面的应用 (9) 4.3判别分析软件的使用 (12) 五、参考文献 (14) 六、附录 (15)

一、 摘要 近年来随着信息化社会的进行,数据分析对我们来说日趋重要,为了对数据的分类进行判别,本文介绍了数据分类判别的一种方法:距离判别法。本文从多个总体距离判别法理论出发并结合例题详细介绍了多个总体距离判别法的在医学领域以及居民生活水平方面的应用,同时也简单介绍了spss 软件一般判别法的具体操作。 关键词: 距离判别法 判别分析 一般判别分析 二、 引言 随着科技的发展,判别分析在经济,医学等很多领域以及气候分类,农业区划,土地类型划分等有着重要的应用, 本文从多个总体距离判别分析理论出发,介绍了多个总体距离判别法在医学以及人民生活方面的应用,并介绍了spss 一般判别分析的应用。 三、 原理 3.1 定义 距离判别法:距离判别分析方法是判别样品所属类别的一应用性很强的多因素决方法,其中包括两个样本总体距离判别法,多个样本距离判别法。 多个总体距离判别法:多个总体距离判别法是距离判别法的一种,是两个总体距离判别法的推广,具有多个总体,将待测样本归为多个样本中的一类。 3.2 思想 计算待测样本与各总体之间的距离,将待测样本归为与其距离最进的一类。 3.3 判别分析过程 对于k 个总体k 21G G G ?, ,,假设其均值分别为:k 21u u u ,,,?,协方差阵

判别分析-四种方法

第六章 判别分析 §6.1 什么是判别分析 判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。 在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。 判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。 正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。 判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别方法即距离判别法、Fisher 判别法、Bayes 判别法和逐步判别法。 §6.2 距离判别法 基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第i 类。 距离判别法,对各类(或总体)的分布,并无特定的要求。 1 两个总体的距离判别法 设有两个总体(或称两类)G 1、G 2,从第一个总体中抽取n 1个样品,从第二个总体中抽取n 2个样品,每个样品测量p 个指标如下页表。 今任取一个样品,实测指标值为),,(1'=p x x X ,问X 应判归为哪一类? 首先计算X 到G 1、G 2总体的距离,分别记为),(1G X D 和),(2G X D ,按距离最近准则

多元统计分析课后习题解答_第四章

第四章判别分析 简述欧几里得距离与马氏距离的区别和联系。 答:设p维欧几里得空间中的两点X= 和Y=。则欧几里得距离为 。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。 设X,Y是来自均值向量为,协方差为 的总体G中的p维样本。则马氏距离为D(X,Y)= 。当 即单位阵时,

D(X,Y)==即欧几里得距离。 因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。 试述判别分析的实质。 答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk是p维空间R p的k个子集,如果 它们互不相交,且它们的和集为,则称为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间 构造一个“划分”,这个“划分”就构成了一个判别规则。 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。

①两个总体的距离判别问题 设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是 1 和 2, 对于一个新的样品X ,要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2(X ,G 2),则 X ,D 2(X ,G 1)D 2(X ,G 2) X ,D 2(X ,G 1)> D 2(X ,G 2, 具体分析, 2212(,)(,) D G D G -X X 111122111111 111222********* ()()()() 2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2() 22()2() ---''=-++-' +? ?=--- ??? ''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为 X ,W(X)

判别分析实例

例:人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量指标应当以人生的三大要素为重点。衡量人生的三大要素的指标分别为:实际人均GDP指数、出生时的预期寿命指数、受教育程度指数(由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得),将一生三个指数合成为一个指数就是人文发展指数。今从2007年世界各国人文发展指数(2005年)的排序中,选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品,另选四个国家作为待判样品,资料如下表所示。试用判别分析过程对以下数据资料进行判别分析,并据此对待选的四个国家进行判别归类。

data develop; input type gdp life rate zhrate@@; cards; 1 41890 77.9 99.5 93.3 1 29461 79.1 99. 2 88 1 23381 78.9 96 99 1 29663 79.4 92.5 87.3 1 28529 80.3 98.4 90.6 1 22029 77.9 99 96 2 6000 77.7 99.8 87.6 2 9060 71.9 97. 3 76.8 2 8402 71.7 88.6 87.5 2 8677 69.6 92.6 71.2 2 5137 71 92.6 81.1 2 8407 71.4 87.4 68.7 3 1550 62.6 48.6 58.1 3 1128 46.5 69.1 56.2 3 2299 49.8 67.9 62.3 3 2370 64.6 49.9 40 3 3071 73.7 90.3 63.9 3 3843 69.7 90. 4 68.2 . 31267 82.3 99 85.9 . 3452 63.7 61 63.8 . 6757 72.5 90.9 69.1 . 11110 50.8 82.4 77 ; proc discrim simple wcov distance list;/*simple:要求技术各类样品的简单描述统计量;选项WCOV要求计算类内协方差阵;选项DISTANCE要求计算马氏距离;选项LIST要求输出重复替换归类结果。由于没有给出方法选项,所以系统按缺省时的正态分布进行有关参数的估计和归类。*/ class type; var gdp life rate zhrate; run; proc discrim pool=test slpool=0.05list; /*simple: */ class type; priors'1'=0.3'2'=0.4'3'=0.3 ; run; proc discrim method=npar k=2list; /*simple: */ class type; run; proc candisc out=result ncan=2; /*simple: */

多元统计分析课后习题解答_第四章知识讲解

第四章判别分析 4.1 简述欧几里得距离与马氏距离的区别和联系。 答:设p维欧几里得空间中的两点X=和Y=。则欧几里得距离为 。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。 设X,Y是来自均值向量为,协方差为 的总体G中的p维样本。则马氏距离为D(X,Y)= 。当 即单位阵时, D(X,Y)==即欧几里得距离。 因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。 4.2 试述判别分析的实质。

答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk 是p 维空 间R p 的k 个子集,如果它们互不相交,且它们的和集为,则称为的一 个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划 分”,这个“划分”就构成了一个判别规则。 4.3 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ①两个总体的距离判别问题 设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是μ1和μ 2,对于一个新的样品X , 要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2 (X ,G 2),则 X ,D 2 (X ,G 1) D 2(X ,G 2) X ,D 2(X ,G 1)> D 2 (X ,G 2, 具体分析, 2212(,)(,) D G D G -X X 111122111111 111222********* ()()()() 2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2() 22()2() ---''=-++-' +? ?=--- ?? ?''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为

判别分析实例汇总

判别分析实例汇总

例:人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量指标应当以人生的三大要素为重点。衡量人生的三大要素的指标分别为:实际人均GDP指数、出生时的预期寿命指数、受教育程度指数(由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得),将一生三个指数合成为一个指数就是人文发展指数。今从2007年世界各国人文发展指数(2005年)的排序中,选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品,另选四个国家作为待判样品,资料如下表所示。试用判别分析过程对以下数据资料进行判别分析,并据此对待选的四个国家进行判别归类。

data develop; input type gdp life rate zhrate@@; cards; 1 41890 77.9 99.5 93.3 1 29461 79.1 99. 2 88 1 23381 78.9 96 99 1 29663 79.4 92.5 87.3 1 28529 80.3 98.4 90.6 1 22029 77.9 99 96 2 6000 77.7 99.8 87.6 2 9060 71.9 97. 3 76.8 2 8402 71.7 88.6 87.5 2 8677 69.6 92.6 71.2 2 5137 71 92.6 81.1 2 8407 71.4 87.4 68.7 3 1550 62.6 48.6 58.1 3 1128 46.5 69.1 56.2

3 2299 49.8 67.9 62.3 3 2370 64.6 49.9 40 3 3071 73.7 90.3 63.9 3 3843 69.7 90. 4 68.2 . 31267 82.3 99 85.9 . 3452 63.7 61 63.8 . 6757 72.5 90.9 69.1 . 11110 50.8 82.4 77 ; proc discrim simple wcov distance list;/*simple:要求技术各类样品的简单描述统计量;选项WCOV要求计算类内协方差阵;选项DISTANCE要求计算马氏距离;选项LIST要求输出重复替换归类结果。由于没有给出方法选项,所以系统按缺省时的正态分布进行有关参数的估计和归类。*/ class type; var gdp life rate zhrate; run; proc discrim pool=test slpool=0.05list; /*simple: */ class type; priors'1'=0.3'2'=0.4'3'=0.3 ; run; proc discrim method=npar k=2list; /*simple: */ class type; run; proc candisc out=result ncan=2; /*simple: */ class type; var gdp life rate zhrate; run; proc gplot data=reult; plot can1*can2=type; run; proc discrim data=result distance list; class type; var can1 can2; run; 表1 已知样本分类水平信息

SPSS操作方法:判别分析例题

为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区.分为三种类型。试建立判别函数,判定广东、西藏分别属于哪个收入类型。判别指标及原始数据见表9-4。 1991年30个省、市、自治区城镇居民月平均收人数据表 单位:元/人 x1:人均生活费收入 x6:人均各种奖金、超额工资(国有+集体) x2:人均国有经济单位职工工资 x7:人均各种津贴(国有+集体) x3:人均来源于国有经济单位标准工资 x8:人均从工作单位得到的其他收入 x4:人均集体所有制工资收入 x9:个体劳动者收入 5

贝叶斯判别的SPSS操作方法: 1. 建立数据文件 2.单击Analyze→ Classify→ Discriminant,打开Discriminant Analysis 判别分析对话框如图1所示: 图1 Discriminant Analysis判别分析对话框 3.从对话框左侧的变量列表中选中进行判别分析的有关变量x1~x9进入Independents 框,作为判别分析的基础数据变量。 从对话框左侧的变量列表中选分组变量Group进入Grouping Variable 框,并点击Define Range...钮,在打开的Discriminant Analysis: Define Range对话框中,定义判别原始数据的类别数,由于原始数据分为3类,则在Minimum(最小值)处输入1,在Maximum(最大值)处输入3(见图2)。。 选择后点击Continue按钮返回Discriminant Analysis主对话框。 图2 Define Range对话框 4、选择分析方法 ?Enter independent together 所有变量全部参与判别分析(系统默 认)。本例选择此项。 ?Use stepwise method 采用逐步判别法自动筛选变量。

实验报告10 距离判别

实验十 距离判别 一、实验目的和要求 掌握距离判别分析的理论与方法、模型的建立与误差率估计;掌握利用判别分析的SAS 过程解决有关实际问题. 实验要求:编写程序,结果分析. 实验内容: 要求:1题必做,2,3,4题可选1-2题 1.写出几种距离公式,两总体距离判别准则; p 维空间两点T p x x x ),,,(21 =x ,T p y y y ),,,(21 =y 1.欧氏距离 ∑=-= p i i i y x d 1 2)()(y x, 2.明氏距离 m p i m i i y x d 11 ])([)(∑=-=y x, 3.马氏距离 2 1 1 )]()[()(y x Σy x y x,--=-T d 线性判别函数)(),(),(21x x x W W W 的估计 ??? ? ?????+=--=+=+=-----) (21)(?),(?)(?)(21b ?,??)(?)(2 1b ?,??)(?)2()1()2()1(1)2(1)2(2 )2(12222)1(1)1(1)1(11111 x x x x x S a x x a x x S x x S a x a x x S x x S a x a x ,==-,==-,=其中T T T T T W b W b W (5.5) 两个总体的距离判别准则 ???<∈≥∈) (? )(?,)(?)(?,2122 1x x G x x x G x 1W W W W 若若 (5.6) 或 ? ??<∈≥∈0)(?,0)(?,2x G x x G x 1W W 若若 2.书上5.3 (1) 两总体之间的广义平方距离 线性判别函数 ∧ ∧∧ +=j T j j b W x a (x))

多元统计复习题 附问题详解

复习题 原文: 答案: 4.2 试述判别分析的实质。 4.3 简述距离判别法的基本思想和方法。 4.4 简述贝叶斯判别法的基本思想和方法。 4.5 简述费希尔判别法的基本思想和方法。 4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。 4.2 试述判别分析的实质。 答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互不相交,且它 们的和集为,则称为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空

间构造一个“划分”,这个“划分”就构成了一个判别规则。 4.3 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ①两个总体的距离判别问题 设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是m 1和m 2,对于一个新的样品X ,要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2 (X ,G 1)和D 2 (X ,G 2),则 X ,D 2 (X ,G 1) D 2(X ,G 2) X ,D 2(X ,G 1)> D 2 (X ,G 2, 具体分析, 2212(,)(,) D G D G -X X 111122111111 111222111 211122 ()()()()2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2() 22()2() ---''=-++-' +??=--- ???''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为 X ,W(X) X ,W(X)<0 ②多个总体的判别问题。 设有k 个总体k G G G ,,,21 ,其均值和协方差矩阵分别是k μμμ,,,21 和k ΣΣΣ,,,21 ,且 ΣΣΣΣ====k 21。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。 具体分析,21 (,)()()D G ααα-'=--X X μΣX μ

费希尔判别法理论

费希尔判别 费希尔判别(或称典型判别)的基本思想是投影(或降维):用p 维向量12(,,)p x x x x '=???的少数几个线性组合(称为费希尔判别函数或典型变量)1122,,r r y a x y a x y a x '''==???=(一般r 明显小于p )来代替原始的p 个变量12,,p x x x ???,以达到降维的目的,并根据这r 个判别函数12,,r y y y ???对样品的归属做出判别或将各组分离。成功的降维将使样品的归类或组的分离更为方便和有效,并且可以对前三个判别函数作图,从直观的几何图像上区别各组。 在降维的过程中难免会有部分有用信息的损失,但只要使用的方法得当,我们可以最大限度地减少这种损失,从而保留尽可能多的有用信息,即关于能够反应组之间差异的信息。为便于理解,我们以下用一个简单的二维例子来加以说明。 图投影到某个方向再判别 如图所示,两个组的所有样品都测量了两个变量1x 和2x ,将所有(12,x x )点画于直角坐标系上,一组的样品点用“×”表示,另一组的样品点用“○”表示。假定我们希望将二维空间的点投影到某个一维空间,即一条直线上,然后再对两组进行判别,则投影到不同的直线上,判别的效果一般是不同的。从图中可见,如果两组的点都投影到直线z 上则这两组的投影点在该直线上的分布几乎无任何差异,他们完全混合在一起,我们无法将这两组的点区别开来,这样的降维把反应两组间差异的信息都给损失了,显然是不可取的。事实上,最好的投影是投影

到直线y 上,因为它把两组的投影点很清楚地区分了开来,这种降维把有关两组差异的信息很好地保留了下来,几乎没有任何损失,如此就完全可以在一维的直线上作判别分析。 我们现考虑在p R 中将k 组的p 维数据向量投影到某个具有最佳方向的a 上,即投影到a 上的点能最大限度地显现出各组之间的差异。 设来自组i π的p 维观测值为ij x ,1,2,,i j=n ???,1,2,,i=k ???,将它们共同投影 到某一p 维常数向量a 上,得到的投影点可分别对应线性组合i j i j y =a x ',1,2,,i j=n ???,1,2,,i=k ???。这样,所有的p 维观测值就简化为一维观测值。下面我们用i y 表示组i π中ij y 的均值,y 表示所有组k 组的ij y 的总均值,即 11i n i ij i j i y y a x n ='==∑ 11 1i n k i ij i j y y a x n =='==∑∑ 式中1 k i i n n ==∑,11i n i ij j i x x n ==∑,11k i i i x n x n ==∑。 对于任一用来投影的a ,我们需要给出一个能反映组之间分离程度的度量。比较图中的上、下半图,上半图三组均值之间的差异程度与下半图是相同的,而前者组之间的分离程度却明显高于后者,原因就在于前者的组内变差要远小于后者,后者组之间有较多重叠。因此,可以考虑将组之间的分离程度度量为相对其组内变差的组间变差。在以下的讨论中,我们需假定各组的协方差矩阵相同,即12k ∑=∑=???=∑=∑。

判别分析三种方法

作业一: 为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区.分为两种类型。试建立判别函数,判定广东、西藏分别属于哪个收入类型。判别指标及原始数据见表9-4。 1991年30个省、市、自治区城镇居民月平均收人数据表 单位:元/人 x1:人均生活费收入 x6:人均各种奖金、超额工资(国有+集体) x2:人均国有经济单位职工工资 x7:人均各种津贴(国有+集体) x3:人均来源于国有经济单位标准工资 x8:人均从工作单位得到的其他收入 x4:人均集体所有制工资收入 x9:个体劳动者收入 x5:人均集体所有制职工标准工资

一、距离判别法 解:变量个数p=9,两类总体各有11个样品,即n1=n2=11 ,有2个待判样品,假定两总体协差阵相等。由spss可计算出:协方差和平均值

合计x1 123.2881 23.27817 22 22.000 x2 80.4895 22.04796 22 22.000 x3 50.8709 6.14867 22 22.000 x4 10.1450 3.11887 22 22.000 x5 6.0659 2.72297 22 22.000 x6 14.6060 6.73264 22 22.000 x7 15.7215 6.64603 22 22.000 x8 8.7895 3.02700 22 22.000 x9 1.5291 1.31496 22 22.000 知道了均值和协方差可利用matlab计算线性判别函数W(x)的判别系数a和判别常数。程序如下: v=[1.000,0.217,0.299,0.045,-0.054,0.688,0.212,0.121,-0.245;.217,1,.102,-.234,-.211,. 136,-.052,.116,.154;.299,.102,1,-.296,-.062,.091,-.017,-.607,-.034;.045,-.234,-.296,1,. 762,-.172,-.297,.103,-.554;-.054,-.211,-.062,.762,1,-.156,-.342,.022,-.654;.688,.136,.0 91,-.172,-.156,1,.235,.384,-.098;.212,-.052,-.017,-.297,-.342,.235,1,-.040,.424;.121,.1 16,-.607,.103,.022,.384,-.040,1,-.071;-.245,.154,-.034,-.554,-.654,-.098,.424,-.071,1]; >> m1=[139.2664;93.0918;53.9882;11.2073;6.7645;17.9345;17,8327;11.0018;1.6736];m 2=[107.3099;67.8873;47.7536;9.0827;5.3673;11.2775;13.6102;6.5773;1.3845]; >> m=(m1+m2)/2; >> arfa=inv(v)*(m1-m2);

SPSS操作方法:判别分析例题95239

实验指导之二 判别分析的SPSS软件的基本操作 [实验例题]为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区.分为三种类型。试建立判别函数,判定广东、西藏分别属于哪个收入类型。判别指标及原始数据见表9-4。 1991年30个省、市、自治区城镇居民月平均收人数据表 单位:元/人 x1:人均生活费收入 x6:人均各种奖金、超额工资(国有+集体) x2:人均国有经济单位职工工资 x7:人均各种津贴(国有+集体) x3:人均来源于国有经济单位标准工资 x8:人均从工作单位得到的其他收入 x4:人均集体所有制工资收入 x9:个体劳动者收入 x5:人均集体所有制职工标准工资

6 湖南124.00 84.66 44.05 13.5 7.4 7 19.11 20.49 10.3 1.76 待判1 广东211.30 114.0 41.44 33.2 11.2 48.72 30.77 14.9 11.1 2 西藏175.9 3 163.8 57.89 4.22 3.37 17.81 82.32 15.7 0.00 贝叶斯判别的SPSS操作方法: 1. 建立数据文件 2.单击Analyze→Classify→Discriminant,打开Discriminant Analysis判别分析对话框如图1所示: 图1 Discriminant Analysis判别分析对话框 3.从对话框左侧的变量列表中选中进行判别分析的有关变量x1~x9进入Independents 框,作为判别分析的基础数据变量。 从对话框左侧的变量列表中选分组变量Group进入Grouping Variable 框,并点击Define Range...钮,在打开的Discriminant Analysis: Define Range 对话框中,定义判别原始数据的类别数,由于原始数据分为3类,则在Minimum(最小值)处输入1,在Maximum(最大值)处输入3(见图2)。。 选择后点击Continue按钮返回Discriminant Analysis主对话框。 图2 Define Range对话框 4、选择分析方法

R语言中的多元统计之判别分析

前言 判别分析(discriminant analysis)是多元统计分析中较为成熟的一种分类方法,它的核心思想是“分类与判断”,即根据已知类别的样本所提供的信息,总结出分类的规律性,并建立好判别公式和判别准则,在此基础上,新的样本点将按照此准则判断其所属类型。例如,根据一年甚至更长时间的每天的湿度差及压差,我们可以建立一个用于判别是否会下雨的模型,当我们获取到某一天(建立模型以外的数据)的湿度差及压差后,使用已建立好的模型,就可以得出这一天是否会下雨的判断。 根据判别的组数来区分,判别分析可以分为两组判别和多组判别。接下来,我们将学习三种常见的判别分析方法,分别是: ?距离判别 ?Bayes判别 ?Fisher判别 一、距离判别基本理论 假设存在两个总体和,另有为一个维的样本值,计算得到该样本到两个总体的距离和,如果大于,则认为样本属于总体,反之样本则属于总体;若等于,则该样本待判。这就是距离判别法的基本思想。

在距离判别法中,最核心的问题在于距离的计算,一般情况下我们最常用的是欧式距离,但由于该方法在计算多个总体之间的距离时并不考虑方差的影响,而马氏距离不受指标量纲及指标间相关性的影响,弥补了欧式距离在这方面的缺点,其计算公式如下: ,为总体之间的协方差矩阵 二、距离判别的R实现(训练样本) 首先我们导入数据 # 读取SAS数据 > library(sas7bdat) > data1 <- read.sas7bdat('disl01.sas7bdat') # 截取所需列数据,用于计算马氏距离 > testdata <- data1[2:5] > head(testdata,3) X1 X2 X3 X4 1 -0.45 -0.41 1.09 0.45 2 -0.56 -0.31 1.51 0.16 3 0.06 0.02 1.01 0.40 # 计算列均值 > colM <- colMeans(testdata) > colM

判别分析-四种方法

第六章 判别分析 § 什么是判别分析 判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。 在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。 判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。 正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。 判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别方法即距离判别法、Fisher 判别法、Bayes 判别法和逐步判别法。 § 距离判别法 基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第i 类。 距离判别法,对各类(或总体)的分布,并无特定的要求。 1 两个总体的距离判别法 设有两个总体(或称两类)G 1、G 2,从第一个总体中抽取n 1个样品,从第二个总体中抽取n 2个样品,每个样品测量p 个指标如下页表。 今任取一个样品,实测指标值为),,(1'=p x x X ,问X 应判归为哪一类 首先计算X 到G 1、G 2总体的距离,分别记为),(1G X D 和),(2G X D ,按距离最近准则

距离判别法及其应用

距离判别法及其应用 一、什么是距离判别 (一)定义 距离判别分析方法是判别样品所属类别的一应用性很强的多因素决策方法,根据已掌握的、历史上每个类别的若干样本数据信息,总结出客观事物分类的规律性,建立判别准则,当遇到新的样本点,只需根据总结得出的判别公式和判别准则,就能判别该样本点所属的类别。 距离判别分析的基本思想是:样本和哪个总体的距离最近,就判它属于哪个总体。 (二)作用 判别个体所属类型。例如在经济学中,可根据各国的人均国人民收入、人均工农业产值和人均消费水平等多种指标来判定一个国家经济发展程度的怕属类型医学上根据口才的体温、白血球数目以及其他病理指标来判断患者所患何病等。 二、距离判别分析原理 (一)欧氏距离 欧氏距离(Euclidean distance )是一个通常采用的距离定义,最多的应用是对距离的测度。大多情况下,人们谈到距离的时候,都会很自然的想到欧氏距离。从数学的角度来讲,它是在m 维空间中两个点之间的真实距离。 在二维空间中其公式为: 2 21221)()(y y x x d -+-=

推广到n 维空间其公式为: 21) (1i n i i y x d -=∑= (二)马氏距离 在判别分析中,考虑到欧氏距离没有考虑总体分布的分散性信息,印度统计学家马哈诺必斯(Mahalanobis )于1936年提出了马氏距离的概念。 设总体T m X X X G },...,,{21=为m 维总体(考察m 个指标),样本 T m i x x x X },...,,{21=。令μ=E(i X )(i=1,2, …,m),则总体均值向量为 T m },,{21μμμμ???=。总体G 的协方差矩阵为: ]))([()(T G G E G COV μμ--==∑。 设X ,Y 是从总体G 中抽取的两个样本,则X 与Y 之间的平方马氏距离为: )()(),(12Y X Y X Y X d T -∑-=- 样本X 与总体G 的马氏距离的平方定义为: )()(),(12μμ-∑-=-X X G X d T 1.两总体距离判别。设有两总体1G 和2G 的均值分别为1μ和2μ,协方差矩阵分别为1∑和2∑(1∑,2∑>0),1?m X 是一个新样本,判断其 属于哪个总体。定义1?m X 到1G 和2G 的距离为),(12G X d 和 ),(22G X d ,则按如下判别规则进行判断: 1G X ∈,若),(12G X d ≤),(22G X d 2G X ∈,若),(22G X d ﹤),(12G X d (1)当1∑=2∑时,该判别式可进行如下简化:

相关主题
文本预览
相关文档 最新文档