当前位置:文档之家› Bayes 判别分析及应用 201009014119

Bayes 判别分析及应用 201009014119

Bayes 判别分析及应用  201009014119
Bayes 判别分析及应用  201009014119

Bayes 判别分析及应用

班级:计算B101姓名:孔维文 学号201009014119

指导老师:谭立云教授

【摘 要】判别分析是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方

法,在社会生产和科学研究上应用十分广泛。在判别分析之前,我们往往已对各总体有一定了解,样品的先验概率也对其预测起到一定作用,因此进行判别时应考虑到各个总体出现的先验概率;由于在实际问题中,样品错判后会造成一定损失,故判别时还要考虑到预报的先验概率及错判造成的损失,Bayes 判别就具有这些优点;然而当样品容量大时计算较复杂,故而常借助统计软件来实现。本文着重于Bayes 判别分析的应用以及SPSS 的实现。

【关键词 】 判别分析 Bayes 判别 Spss 实现 判别函数 判别准则

Class: calculation B101 name: KongWeiWen registration number 201009014119

Teacher: TanLiYun professor

.【Abstract 】Discriminant analysis is based on the study of certain indicators of individual observations to infer that the individual belongs as a type of statistical methods in social production and scientific research is widely used. In discriminant analysis, we often have a certain understanding of the overall sample of the a priori probability of its prediction play a role, it should be taken into account to determine the overall emergence of various prior probability; because of practical problems, samples will result in some loss of miscarriage of justice, so identification must be considered when the prior probability and wrongly predicted loss, Bayes discriminant to have these advantages; However, when the sample is large computing capacity of more complex, often using statistical software Guer to achieve. This article focuses on the application of Bayes discriminant analysis, and implementation of SPSS.

【Key words 】 Discriminant analysis; Bayes discriminant; Spss achieve; Discriminant

function; Criteria;

1.1.1 判别分析的概念

在科学研究中,经常会遇到这样的问题:某研究对象以某种方式(如先前的结果或经验)已划分成若干类型,而每一种类型都是用一些指标T p X X X X ),,(21 来表征的,即不同类型的X 的观测值在某种意义上有一定的差异。当得到一个新样品(或

个体)的关于指标X 的观测值时,要判断该样品(或个体)属于这几个已知类型中的哪一个,这类问题通常称为判别分析。也就是说,判别分析是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法。

判别分析的目的是得到体现分类的函数关系式,即判别函数。基本思想是在已知观测对象的分类和特征变量值的前提下,从中筛选出能提供较多信息的变量,并建立判别函数;目标是使得到的判别函数在对观测量进行判别其所属类别时的错判率最小。

判别函数的一般形式是:1122n n Y a x a x a x =+++ .

其中,Y 为判别函数判别值;n x x x ,,,21 为反映研究对象特征的变量;n a a a ,,,21 为各变量的系数,即判别系数。常用的判别法有距离判别法、Fisher 判别法和Bayes 判别法。

用统计语言来描述判别分析,就是已知有g 个总体g G G G ,,,21 (每个总体i G 可认为是属于i G 的指标T p X X X X ),,,(21 =取值的全体),它们的分布函数

)(,),(),(21x F x F x F g 均为p 维函数,对于任一给定的新样品关于指标X 的观测值

T p x x x x ),,,(21 =,我们要判断该样品应属于这g 个总体中的哪一个。

1.1.2 判别分析的应用及意义

判别分析的应用十分广泛。例如,在工业生产中,要根据某种产品的一些非破坏性测量指标判别产品的质量等级;在经济分析中,根据人均国民收入、人均工农业产值、人均消费水平等指标判断一个国家、某个省市经济发展程度所属的类型;在考古研究中,根据挖掘的古人头盖骨的容量、周长等判断此人的性格;在地质勘探中,根据某地的地质结构、化探和物探等各项指标来判断该地的矿化类型;在医学诊断中,医生要根据某病人的化验结果和病情征兆判定病人患哪一种疾病,等等。值得注意的是,作为一种统计方法,判别分析所处理的问题一般都是机理不甚清楚或基本不了解的复杂问题,如果样品的某些观测指标和其所属类型有必然的逻辑关系,也就没有必要应用判别分析方法了。

在实际应用中,通常由取自各总体的关于指标X 的样本为该总体的代表,该样本称为训练样本,判别分析即提取训练样本中各总体的信息以构造一定的准则来决定新样品的归属感。训练样本往往是历史上对某现象长期观察或者是用昂贵的试验手段得到的,因此对当前的新样品,我们自然希望将其指标中的信息同各总体训练样本中的信息作比较,使可在一定程度上判定新样品的所属类型。概括起来,下述几方面体现了判别分析的重要意义。

第一,为未来的决策和行动提供参考。例如,以前对一些公司在破产前两年观测到某些重要的金融指标值。现在,要根据另一个同类型公司的这些指标的观测值,预测该公司两年后是否将频临破产的危险,这便是一种判别,其结论可以帮助该公司决策人员及早采取措施,防止将来可能破产的结局。

第二,避免产品的破坏。例如,一只灯泡的寿命只有将它用坏时才能得知;一种材料的强度只有将它压坏时才能获得。一般地,我们希望根据一些非破坏性的测量指标,便可将产品分出质量等级,这也要用到判别分析。

第三,减少获得直接分类信息的昂贵代价。例如在医学诊断中,一些疾病可用代价昂贵的化验或手术得到确诊,但通常人们往往更希望通过便于观测的一些外部症状来诊断,以避免过大的开支和患者不必要的损伤。

第四,在直接分类信息不能获得的情况下可用判别分析。例如,要判断某未署名的文学作品是否出自某已故作家之手,很显然,我们不能直接去问他。这是可以用判别分析方法在一定程度上判定该署名作品是否由该作家所作。

从以上例子也可以清楚地看出,如果不是利用直接明确的分类信息来判断某新样品的归属问题,难免会出现误判的情况,判别分析的任务是依据训练样本所提供的信息,建立在某种意义下最优(如误判概率最小或误判损失最小)的准则来判定一个新样品属于哪一个总体。

2.1 Bayes 判别分析的前提假设

在介绍具体判别方法前首先来看判别分析的假设条件。这一点非常重要,如果数据不满足分析的前提条件,分析的结果是值得怀疑的。

(1)各个判别变量服从正态分布,由各个判别变量的联合分布是多元正态分布。只有在这个条件下,我们才可以进行有关的显著性检验。

(2)各判别变量不能存在多重共线性。这样变量组成的矩阵将不存在逆,判别分析的计算不能进行。

(3)每个变量在各类中的取值应存在显著性差异。只有在这个假设下才能通过变量建立有效地判别函数将各类区分出来。

2.2 Bayes 判别的基本思想

Bayes 统计是现代统计学的重要分支,其基本思想[1]是:假定对所研究的对象(总体)在抽样前已有一定的认识,常用先验分布来描述这种认识,然后给予抽取的样本再对先验认识作修正,得到后验分布,而各种统计推断均基于后验分布进行。将Bayes 统计的思想用于判别分析,就得到Bayes 判别方法。

用统计的语言来描述Bayes 判别分析[2]: 已知有g 个p 维总体g G G G ,,,21 (每个总体i G 可认为是属于i G 的指标g X X X X ,,,21 =取值的全体),它们的先验概率分别为g q q q ,,,21 (他们可由经验给出也可以估计出),显然应有),,2,1(0g i q i =≥且

11

=∑=g

i i

q

。各总体分别具有互不相同的p 维密度函数()x f x f x f g ,),(),(21 (在离散情形

是概率函数),在观测到一个样本x 的情形下,可用著名的Bayes 公式计算它来自第k 总

体的后验概率(相对先验概率来说,将它又称为后验概率):

∑==

g

i i i

k k x f q

x f q x k P 1

)

()

()/( g k ,,2,1 = (2-2-1)

并且当 )/(max )/(1x k P x h P g

k ≤≤= 时,则判X 来自第h 个总体.

有时还可以使用错判损失最小的概念作判别函数。这时把x 错判归第h 总体的平均损失定义为

()

k h L x f q

x f q x h E h

k g

i i i

k k /)

()

()/(1

?=∑

∑≠= (2-2-2)

其中)/(k h L 称为损失函数。它表示本来是第k 总体的样品错判为第h 总体的损失。显然上式是对损失函数依概率加权平均或称为错判的平均损失。当k h =时,有

)/(k h L =0,当k h ≠时,有)/(k h L >0.建立判别准则为

如果 )/(min )/(1x k E x h E g

k ≤≤= ,则判x 来自第h 个总体.

原则上说,考虑损失函数更为合理,但是在实际应用中)/(k h L 不容易确定,因此常常在数学模型中就假设各种错判的损失皆相等,即

??

?=10

)/(x k L k h k h ≠= (2-2-3) 这样一来,寻找h 使后验概率最大和使错判的平均损失最小是等价的,即

min )/(max )/(?→???→?h

h x h E x h p

2.3 两正态分布的Bayes 判别[6]

2.3.1马氏 (Mahalanobis ) 距离和判别函数

设G 是p 维总体,数学期望为μ,协方差矩阵为∑,p 维样本x 到总体G 的马氏距离定义为

2

1

1)]()[(?),(μμ--=∑-x x G x d T (2-3-1)

设1G ,2G 为不同的两个p 维总体,数学期望分别为1μ和2μ,协方差矩阵分别为1

∑和2∑, 考察样品x 到两总体的马氏距离的平方差,并根据式(1)可得

2/)(,)()(2),(),(212111222μμμμμμ+=--=-∑-T x G x d G x d (2-3-2)

)(x W 为判别函数, 令

∑--=-)()()(211μμμT x x W (2-3-3)

2.3.2 Bayes 判别函数

设21,G G 为两个不同的p 维正态总体,这时其概率密度为

2,1,)()(21exp )

2()(12

12

=?

??

???-∑--∑=--

-

i x x x f i i T i i

p i μμπ (2-3-4)

其中i μ和i ∑(2,1=i )为两总体的均值向量和协方差矩阵,i ∑表示矩阵i ∑的行列式(2,1=i )。假设两正态总体的协方差矩阵相等,即∑=∑=∑21。这时可得

[]

?

??

???-∑---∑-=--)()()()(21exp )()(11121221μμμμx x x x x f x f T T ()()[]

?

?????-=1222,,21exp G x d G x d

(){}x W exp =, 其中 ())(]2

1

[)(21121μμμμ-∑+-

=-T x x W (2-3-5) 实际应用中,若1μ,2μ和∑未知,则用训练样本作估计,即以1?μ

=)1(x ,2?μ=)2(x 和2

)1()1(?212211-+-+-=∑

n n S n S n 代替式(5)中的1μ和2μ和∑. 2.4 多正态总体的 Bayes 判别

将两正态总体的 Bayes 判别推广到多正态总体的判别分析中.设g 个p 维正态总体g G G G ,,,21 其概率密度函数同式(4).

假设各正态总体的协方差矩阵相等,即∑=∑==∑=∑g 21, 则判别函数为()i i T i T i q x x W ln 2

11

11+∑-

∑=--μμμ,其中g i ,,3,2,1 =. 实际应用中,若i μ,i ∑未知,则以训练样本作估计,即以训练样本的样本均值)(i x 和样本方差i S 作为i μ和i ∑的估计,此时

()()()[]

)/(111212211g n n n S n S n S n g g g -+++-++-+-=∑ . 2.5 判别准则

在此介绍错判的平均损失最小原则的理论。

(1)两正态总体的Bayes 判别准则.设总体21,G G 的先验概率分布分别为1q 和2q , 误判损失分别为)1|2(c 和)2|1(c .对给定的样品x ,计算两总体的概率密度函数在x 处的函数值,其Bayes 判别准则为

()()()(),,1|22|1ln )(,,1|22|1ln )(2

12

11

2???

????

∈<∈≥G x c q c q x W G x c q c q x W 若若 (2-3-6)

(2)多正态总体的Bayes 判别准则.设总体g G G G ,,,21 的先验概率分布分别为

g q q q ,,,21 ,误判损失为),,,2,1,)(|(j i g j i i j c ≠= . 记)|(i j c =0在等误判损失下, 其 Bayes 判别准则为

若 {

})()(max 1x W x W i k g

k =≤≤,则i G x ∈ (2-3-7) 2.6 判别准则的评价[1]

当一个判别分析提出后,很自然的问题就是它们的优良性如何。通常,一个判别准则的优势,用它的误判率来衡量。以两个总体为例,一个判别准则的误判率即x 属于1G 而判归2G 后的概率,但只有当总体的分布完全已知时,才有可能精确计算误判概率。在实际应用中,这种情况是很少见的,因为在大多数情况下,我们可利用的资料只是来自各总体的训练样本,而总体的分布是未知的。下面我们以两个总体为例,介绍两种以训练样本为基础的评价判别准则优劣的方法。它们很容易推广到多个总体的情况。

1.貌似误判率方法

当利用各总体的训练样本构造出判别准则后,评估此准则优劣的一个可行的办法是通过对训练样本中的各样品逐个回判(即将各样品代入判别准则中进行再判别),利用回判的误判率来衡量判别准则的效果,具体办法如下:

设1G ,2G 为两个总体,()2,1,,,)

()(2)(1=k x x x k n

k k k

为来自1G 和2G 的容量分别为1n 和2n 的训练样本,

以此按一定方法(如Bayes 判别法)构造一个判别准则(或判别函数),以全体训练样本作为21n n +个新样品,逐个代入已建立的判别准则中判别其归属,这个过程称为回判,为明了起见,将回判结果连同其实际分类列成如下的四格表2-6-1。

表1 两总体回判结果

回判情况

实际归类 1G 2G

合计

1G 2G

11n 12n

21n 22n

1n 2n

其中

11n :属于1G 的样品被正确判归1G 的个数,

12n :属于1G 的样品被正确判归2G 的个数,

21n :属于2G 的样品被正确判归1G 的个数,

22n :属于2G 的样品被正确判归2G 的个数。 很显然有

11n +12n =1n , 21n +22n =2n 。

定义貌似误判率为回判中判错样品的比例,记为a

?,即 2

121

12?n n n n a

++= (2-3-8)

a

?在一定程度上反映了某判别准则的误判率且对任何判别准则都易于计算。但是,a ?是由建立判别函数的数据反过来又用作评估准则优劣的数据而得到的,因此a

?作为真实误判率的估计是有偏的,往往要比真实的误判率来的小。但作为误判概率的一种近似,当训练样本容量较大时,还是具有一定的参考价值。

2.刀切法

刀切法也称为交叉确认法(Cross-Validation )。其基本思想: 每次剔除训练样本中的一个样品, 利用其余容量为-+21n n 1的训练样本建立判别函数,再用所建立的判别函数对删除的那个样品作判别。对训练样本中的每个样品重复上述步骤 , 以其误判的比例作为误判概率的估计。具体步骤如下:

(1)从总体1G 的容量为1n 的训练样本开始, 剔除其中的一个样品, 用剩余的-1n 1个训练样本和总体2G 的容量为2n 的训练样本建立判别函数;

(2)用步骤(1)中建立的判别函数对剔除的样品作判别;

(3)重复步骤(1)和(2),直到总体1G 的训练样本中的1n 个样品依次被剔除和判别,

用)

(1J M n 记误判样品个数;

(4)对总体2G 的容量为2n 的训练样本重复步骤(1)~(3),用)

(2J M n 记误判的样品个

数.则总的误判比例为

2

1)

(2)(1?n n n n J M

J M J ++?

α . 可以证明它是实际误判概率的渐进无偏估计。

刀切法比貌似误判率方法要更合理些,但缺点是计算量大。

3. 实例分析

为研究舒张期血压和血浆胆固醇对冠心病的作用[5],某医师测定了50—59岁冠心病人15例和正常人16例的舒张压和胆固醇指标,结果如表3-3所示。试做判别分析,建立判别函数以便在临床中用于筛选在临床中用于筛选冠心病人。

表:2数据表

冠心病人组 正常人组

编号 舒张压 胆固醇 编号

舒张压 胆固醇 1

9.86 5.18 16 10.66 2.07

2 13.3

3 3.73 17 12.53 4.45 3 14.66 3.89 18 13.33 3.06

4 9.33 7.1 19 9.33 3.94

5 12.8 5.49 20 10.6

6 4.45 6 10.66 4.09 21 10.66 4.92

7 10.66 4.45 22 9.33 3.6

8 8 13.33 3.63 23 10.66 2.77

9 13.33 5.96 24 10.66 3.21 10 13.33 5.7 25 10.66 5.02 11 12 6.19 26 10.4 3.94 12 14.66 4.01 27 9.33 4.92 13 13.33 4.01 28 10.66 2.69 14 12.8 3.63 29 10.66 2.43 15 13.33

5.96

30 11.2 3.42

31 9.33 3.63

4.判别分析的结果

1.各组的描述统计量和对各组均值是否相等的检验。

表3: 分析个案综合统计量

表3反映的是有效样本量及变量缺失的情况;按变量“组别”分组共有31个样本为判别基础数据进入分析,其中第一组十五例,第二组十六例

表4: 分组统计量

Analysis Case Processing Summary

31 100.0

0 .0 0

.0

0 .0 0 .0 31

100.0

Unweighted Cases Valid

Missing or out-of-range

group codes

At least one missing discriminating variable Both missing or

out-of-range group codes and at least one missing discriminating variable Total

Excluded Total

N Percent

表4是各组变量的描述统计分析列表;表中给出分组变量和合计的均数(means )、标准差(standard deviation )和有效个案的例数。

表5: 各组均值相等性检验

表5是对各组均值是否相等的检验,F 值越大,Wilks ’Lsmbda 越小,平均数的差异越大;由sig 值可以看出,在0.01的显著性水平上拒绝变量在两组的均值相等的假设,即认为变量在两组的均值是有极显著性差异的。

2.对各组协方差矩阵是否相等的Box's M 检验。

表6: Log Determinants 表

表:6反映协方差矩阵的秩和行列式的对数值。由行列式值可以看出协方差矩阵不是病态矩阵。

表:7: Test 表

Group Statistics

12.4940 1.6406 15 15.000 4.8680 1.1295 15 15.000 10.6287 1.0968 16 16.000 3.6625 .9247 16 16.000 11.5313 1.6600 31 31.000 4.2458

1.1823

31 31.000

舒张压

胆固醇 舒张压 胆固醇 舒张压 胆固醇

类别

冠心病人组 正常人组 Total

Mean Std. Deviation

Unweighted Weighted

Valid N (listwise) Tests of Equality of Group Means

.674 14.017 1 29 .001 .732

10.633

1

29

.003

舒张压

胆固醇

Wilks' Lambda

F df1

df2 Sig. Log Determinants

2 1.048 2 .004 2

.605

类别

冠心病人组 正常人组

Pooled within-groups

Rank

Log Determinant

The ranks and natural logarithms of determinants printed are those of the group covariance matrices.

表7是对各总体协方差阵是否相等的统计检验。又F 值及其显著性水平,我们在0.05的显著性水平下拒绝原假设(原假设假定各总体协方差阵相等),即变量遵从正态分布。所以认为选取的变量是满足判别分析的假定的。

3.典型判别函数的分析

表8: 典型判别函数的特征值表

表:8所示是典型判别函数的特征值表,其特征(Eigenvalue )为组间平方和与组内平方和之比,计算得1.239,典型相关系数(Canonical Corr )为0.744。

表9: Wilks 检验

表9是对第一个判别函数的显著性检验。其中Wilks 值为0.447,卡方检验统计量的观测值为22.571,概率sig 值为0.001,小于0.05,认为判别函数在0.01的显著性水平上是极显著的。

4.判别函数系数表

表10: 标准化典型判别函数系数

Eigenvalues

1.239 a 100.0

100.0

.744

Function

1

Eigenvalue % of Variance

Cumulative %

Canonical Correlation

First 1 canonical discriminant functions were used in the analysis.

a. Test Results

2.815 .868

3 17795

2.8 .457 Box's

M Approx

. df 1 df

2 Si

g. F Tests null

hypothesis of equal population covariance matrices.

Wilks' Lambda

.447 22.571

2

.000

Test of Function(s) 1

Wilks' Lambda Chi-square

df

Sig.

表:10给出典型判别函数的标准化系数,其标准化函数为:21823.0884.0x x f += 判别函数方程的标准化系数就是前面提到的判别权重,即根据判别函数方程的标准化系数,可以确定各变量对结果的作用大小,本例舒张压的标准化系数为0.884大于胆固醇的标准化系数0.823,因而舒张压对冠心病的影响作用大于胆固醇。

表:11: 典型判别函数系数

表11所示为典型判别函数的系数,其典型函数为:218.0638.0753.10x x f ++-= 5.以下输出结果是分类的统计结果

表12 分类过程摘要表

表12概括了分类过程,说明31个观测都参与分类。

表13: 先验概率表

.638 .800 -10.753

舒张压 胆固醇 (Constant)

1 Function

Unstandardized coefficients

Standardized Canonical Discriminant Function Coefficients

.884 .823

舒张压 胆固醇

1 Function Classification Processing Summary

31 0 0 31

Processed

Missing or out-of-range group codes

At least one missing discriminating variable

Excluded

Used in Output

Canonical Discriminant Function Coefficients

表13包括各类别和全部对应的先验概率(Prior )和参与分析的未加权(Unweighted )和经过加权(weighted )的个案数(Cases Used in Analysis )。各类别的先验概率等于1除以类别数。本例中,我们在Classify 选项中选择的是所有组的先验概率相等,类别数等于2,所以各类别的先验概率等于0.5。

表14 费歇尔线性判别函数系数表

利用该表得到两个类别的分类判别函数为:

冠心病人组:211181.8418.8191.73x x f ++-= 正常人组:212043.7457.6948.49x x f ++-=

我们可以计算出每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中。例如某个个案的指标为12、6.19.代入函数得到,1f =78.459,2f =71.132,可以看出1f 较大,所以将此个案归入冠心病人组。

表15: 分类矩阵表

Prior Probabilities for Groups

.500 15 15.000 .500 16 16.000 1.000

31 31.000

类别

冠心病人组 正常人组 Total

Prior Unweighted Weighted

Cases Used in Analysis Classification Function Coefficients

8.418 7.043 8.181 6.457 -73.191 -49.948

舒张压

胆固醇 (Constant)

冠心病人组 正常人组

类别

Fisher's linear discriminant functions

表中Predicted Group Membership 表示预测的所属组关系,Original 表示原始数据的所属组关系,Cross-validated 表示交叉验证的所属组关系,这里交叉验证是采用“留一个在外”的原则,即每个观测是通过除了这个观测以外的其他观测推导出来的判别函数来分类的。

由表15可以看出,通过判别函数预测,有25个观测是分类正确的,其中y =1组15个观测中有12个观测被判对,y =2组16个观测中有13个观测被判对,从而有25/31=80.6%的原始观测被判对。在交叉验证中,y =1组15个观测中有12个观测被判对,y =2组16个观测中有12个观测被判对,从而有24/31=77.4%的原始观测被判对。还可以通过分类结果分析判对和判错的百分比。最后系统对回代判别情况做出评价,即病人组正确率为80.0%,正常人组为81.3%,总判别正确率为80.65%;交叉验证法的正确率为77.4%,说明该判别函数的正确率还是较高的。

Classification Results

b,c

12 3 15 3 13 16 80.0 20.0 100.0 18.8 81.3 100.0 12 3 15 4 12 16 80.0 20.0 100.0 25.0 75.0

100.0

类别

冠心病人组 正常人组 冠心病人组 正常人组 冠心病人组 正常人组 冠心病人组 正常人组

Count %

Count %

Original Cross-validated

a 冠心病人组 正常人组

Predicted Group Membership Total

Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case. a. 80.6% of original grouped cases correctly classified. b. 77.4% of cross-validated grouped cases correctly classified.

c.

参考文献

[1] 梅长林、周家良.实用统计方法[M].北京:科学出版社,2002.86-110

[2] 茆诗松、王静龙、濮晓龙.高等数理统计[M].北京:高等教育出版社;海德堡:

施普林格出版社,1998.7.362-381

[3] 于秀林、任雪松.多元统计分析[M].北京:中国统计出版社,1995.5.128-152

[4] 米红、张文璋.实用统计分析方法与SPSS应用[M].2000.10

[5] 苏金明.统计软件SPSS for Windows实用指南[M].2000.9. 478-492

[6] 李静萍、谢邦昌.多元统计分析方法与应用[M].北京:中国人民大学出版

社,2008.71-87

13

Bayes 判别分析及应用 201009014119

Bayes 判别分析及应用 班级:计算B101姓名:孔维文 学号201009014119 指导老师:谭立云教授 【摘 要】判别分析是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方 法,在社会生产和科学研究上应用十分广泛。在判别分析之前,我们往往已对各总体有一定了解,样品的先验概率也对其预测起到一定作用,因此进行判别时应考虑到各个总体出现的先验概率;由于在实际问题中,样品错判后会造成一定损失,故判别时还要考虑到预报的先验概率及错判造成的损失,Bayes 判别就具有这些优点;然而当样品容量大时计算较复杂,故而常借助统计软件来实现。本文着重于Bayes 判别分析的应用以及SPSS 的实现。 【关键词 】 判别分析 Bayes 判别 Spss 实现 判别函数 判别准则 Class: calculation B101 name: KongWeiWen registration number 201009014119 Teacher: TanLiYun professor .【Abstract 】Discriminant analysis is based on the study of certain indicators of individual observations to infer that the individual belongs as a type of statistical methods in social production and scientific research is widely used. In discriminant analysis, we often have a certain understanding of the overall sample of the a priori probability of its prediction play a role, it should be taken into account to determine the overall emergence of various prior probability; because of practical problems, samples will result in some loss of miscarriage of justice, so identification must be considered when the prior probability and wrongly predicted loss, Bayes discriminant to have these advantages; However, when the sample is large computing capacity of more complex, often using statistical software Guer to achieve. This article focuses on the application of Bayes discriminant analysis, and implementation of SPSS. 【Key words 】 Discriminant analysis; Bayes discriminant; Spss achieve; Discriminant function; Criteria; 1.1.1 判别分析的概念 在科学研究中,经常会遇到这样的问题:某研究对象以某种方式(如先前的结果或经验)已划分成若干类型,而每一种类型都是用一些指标T p X X X X ),,(21 来表征的,即不同类型的X 的观测值在某种意义上有一定的差异。当得到一个新样品(或

SPSS操作方法:判别分析例题

为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区.分为三种类型。试建立判别函数,判定广东、西藏分别属于哪个收入类型。判别指标及原始数据见表9-4。 1991年30个省、市、自治区城镇居民月平均收人数据表 单位:元/人 x1:人均生活费收入 x6:人均各种奖金、超额工资(国有+集体) x2:人均国有经济单位职工工资 x7:人均各种津贴(国有+集体) x3:人均来源于国有经济单位标准工资 x8:人均从工作单位得到的其他收入 x4:人均集体所有制工资收入 x9:个体劳动者收入 5

贝叶斯判别的SPSS操作方法: 1. 建立数据文件 2.单击Analyze→ Classify→ Discriminant,打开Discriminant Analysis 判别分析对话框如图1所示: 图1 Discriminant Analysis判别分析对话框 3.从对话框左侧的变量列表中选中进行判别分析的有关变量x1~x9进入Independents 框,作为判别分析的基础数据变量。 从对话框左侧的变量列表中选分组变量Group进入Grouping Variable 框,并点击Define Range...钮,在打开的Discriminant Analysis: Define Range对话框中,定义判别原始数据的类别数,由于原始数据分为3类,则在Minimum(最小值)处输入1,在Maximum(最大值)处输入3(见图2)。。 选择后点击Continue按钮返回Discriminant Analysis主对话框。 图2 Define Range对话框 4、选择分析方法 Enter independent together 所有变量全部参与判别分析(系统默 认)。本例选择此项。 Use stepwise method 采用逐步判别法自动筛选变量。

判别分析-四种方法

第六章 判别分析 §6.1 什么是判别分析 判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。 在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。 判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。 正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。 判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别方法即距离判别法、Fisher 判别法、Bayes 判别法和逐步判别法。 §6.2 距离判别法 基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第i 类。 距离判别法,对各类(或总体)的分布,并无特定的要求。 1 两个总体的距离判别法 设有两个总体(或称两类)G 1、G 2,从第一个总体中抽取n 1个样品,从第二个总体中抽取n 2个样品,每个样品测量p 个指标如下页表。 今任取一个样品,实测指标值为),,(1'=p x x X ,问X 应判归为哪一类? 首先计算X 到G 1、G 2总体的距离,分别记为),(1G X D 和),(2G X D ,按距离最近准则

贝叶斯判别习题

1. 办公室新来了一个雇员小王,小王是好人还是 坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。 解:A :小王是个好人 a :小王做好事 B :小王是个坏人 B :小王做坏事 ()(/)(/)()(/)()(/)P A P a A P A a P A P a A P B P a B = +0.5*0.9 0.820.5*0.90.5*0.2==+ ()(/)0.5*0.2 (/)()(/)()(/)0.5*0.90.5*0.2 P B P a B P B b P A P a A P B P a B = =++=0.18 0.82>0.18 所以小王是个好人、 2. 设 m = 1,k = 2 ,X 1 ~ N (0,1) ,X 2 ~ N (3,2 2 ) ,试就C(2 | 1) = 1,C(1 | 2) = 1,且不考虑先验概率的情况下判别样品

2,1 属于哪个总体,并求出 R = (R1, R2 ) 。 解: 2222 121/821 ()()/}1,2 21(2)(20)}0.05421(2)(23)/4}0.176 2i i i P x x i P P μσ--= --== --===--== 由于1(2)P <2(2)P ,所以2属于2π 21/2 121/221(1)(10)}0.242 21(1)(13)/4}0.120 2P P --= --===--== 1(1)P >2(1)P ,所以1属于1π 由 1()P x 22211 }()(3)/4}22x P x x -==-- 即221 exp{}2x -=21exp{(69)}8 x x --+ 2211 ln 2(69)28 x x x -=--+ 解得 1 x =1.42 2 x =-3.14.所以 R=([-3.41,1.42],(-∞,-3.41)U(1.42,+∞)). 3.已知1π,2π的先验分布分别为1q =3 5,2q =25 ,C(2|1)=1,C(1|2)=1,且 11,01()2,120,x x f P x x x <≤??==-<≤???其他 22 (1)/4,13()(5)/4,350,x x f P x x x -<≤?? ==-<≤??? 其他 使判别1x = 95 ,2x =2所属总体。 解:1p (9/5)=2-9/5=1/5 1p (2)=2-2=0 2p (9/5)=(9/5-1)/4=1/5

Bayes判别

§5.2Bayes 判别 1. Bayes 判别的基本思想 假设已知对象的先验概率和“先验条件概率”, 而后得到后验概率, 由后验概率作出判别. 2. 两个总体的Bayes 判别 (1) 基本推导 设概率密度为1()f x 和2()f x 的p 维总体12,G G 出现的先验概率为

1122(),()p P G p P G ==(121p p +=) 先验概率的取法: (i) 121 2 p p == , (ii) 12 121212 ,n n p p n n n n ==++, 一个判别法 = 一个划分=12(,)R R =R 1212,,p R R R R =?=?=?R 距离判别中

112212{|(,)(,)} {|(,)(,)} R d G d G R d G d G =≤=>x x x x x x 判别R 下的误判情况讨论 2 1(2|1,)()d R P f =?R x x , 或 1 2(1|2,)()d R P f =?R x x 代价分别记为 (2|1),(1|2),(1|1)0,(2|2)0c c c c ==,

在得新x 后, 后验概率为 1111122() (|)()()p f P G p f p f = +x x x x 2221122() (|)()() p f P G p f p f = +x x x x (i) 当(1|2)(2|1)c c c ==时, 最优划分是 112212{:(|)(|)} {:(|)(|))} R P G P G R P G P G =≥?? =

SPSS操作方法:判别分析例题

实验指导之二 判别分析的SPSS软件的基本操作 [实验例题]为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区.分为三种类型。试建立判别函数,判定广东、西藏分别属于哪个收入类型。判别指标及原始数据见表9-4。 1991年30个省、市、自治区城镇居民月平均收人数据表 单位:元/人 x1:人均生活费收入 x6:人均各种奖金、超额工资(国有+集体) x2:人均国有经济单位职工工资 x7:人均各种津贴(国有+集体) x3:人均来源于国有经济单位标准工资 x8:人均从工作单位得到的其他收入 x4:人均集体所有制工资收入 x9:个体劳动者收入 x5:人均集体所有制职工标准工资

贝叶斯判别的SPSS操作方法: 1. 建立数据文件 2.单击Analyze→Classify→Discriminant,打开Discriminant Analysis判别分析对话框如图1所示: 图1 Discriminant Analysis判别分析对话框 3.从对话框左侧的变量列表中选中进行判别分析的有关变量x1~x9进入Independents 框,作为判别分析的基础数据变量。 从对话框左侧的变量列表中选分组变量Group进入Grouping Variable 框,并点击Define Range...钮,在打开的Discriminant Analysis: Define Range 对话框中,定义判别原始数据的类别数,由于原始数据分为3类,则在Minimum(最小值)处输入1,在Maximum(最大值)处输入3(见图2)。。 选择后点击Continue按钮返回Discriminant Analysis主对话框。 图2 Define Range对话框 4、选择分析方法

spss进行判别分析步骤

spss进行判别分析步骤1.Discriminant Analysis判别分析主对话框 图1-1 Discriminant Analysis 主对话框

(1)选择分类变量及其范围 在主对话框中左面的矩形框中选择表明已知的观测量所属类别的变量(一定是离散变量), 按上面的一个向右的箭头按钮,使该变量名移到右面的Grouping Variable 框中。 此时矩形框下面的Define Range 按钮加亮,按该按钮屏幕显示一个小对话框如图1-2 所示,供指定该分类变量的数值范围。 图1-2 Define Range 对话框 在Minimum 框中输入该分类变量的最小值在Maximum 框中输入该分类变量的最大值。按Continue 按钮返回主对话框。 (2)指定判别分析的自变量 图1-3 展开Selection Variable 对话框的主对话框 在主对话框的左面的变量表中选择表明观测量特征的变量,按下面箭头按钮。

把选中的变量移到Independents 矩形框中,作为参与判别分析的变量。(3)选择观测量 图1-4 Set Value 子对话框 如果希望使用一部分观测量进行判别函数的推导而且有一个变量的某个值可以作为这些观测量的标识, 则用Select 功能进行选择,操作方法是单击Select 按钮展开Selection Variable。选择框如图1-3 所示。 并从变量列表框中选择变量移入该框中再单击Selection Variable 选择框右侧的Value按钮, 展开Set Value(子对话框)对话框,如图1-4 所示,键入标识参与分析的观测量所具有的该变量值, 一般均使用数据文件中的所有合法观测量此步骤可以省略。 (4)选择分析方法

判别分析三种方法

作业一: 为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区.分为两种类型。试建立判别函数,判定广东、西藏分别属于哪个收入类型。判别指标及原始数据见表9-4。 1991年30个省、市、自治区城镇居民月平均收人数据表 单位:元/人 x1:人均生活费收入 x6:人均各种奖金、超额工资(国有+集体) x2:人均国有经济单位职工工资 x7:人均各种津贴(国有+集体) x3:人均来源于国有经济单位标准工资 x8:人均从工作单位得到的其他收入 x4:人均集体所有制工资收入 x9:个体劳动者收入 x5:人均集体所有制职工标准工资

一、距离判别法 解:变量个数p=9,两类总体各有11个样品,即n1=n2=11 ,有2个待判样品,假定两总体协差阵相等。由spss可计算出:协方差和平均值

合计x1 123.2881 23.27817 22 22.000 x2 80.4895 22.04796 22 22.000 x3 50.8709 6.14867 22 22.000 x4 10.1450 3.11887 22 22.000 x5 6.0659 2.72297 22 22.000 x6 14.6060 6.73264 22 22.000 x7 15.7215 6.64603 22 22.000 x8 8.7895 3.02700 22 22.000 x9 1.5291 1.31496 22 22.000 知道了均值和协方差可利用matlab计算线性判别函数W(x)的判别系数a和判别常数。程序如下: v=[1.000,0.217,0.299,0.045,-0.054,0.688,0.212,0.121,-0.245;.217,1,.102,-.234,-.211,. 136,-.052,.116,.154;.299,.102,1,-.296,-.062,.091,-.017,-.607,-.034;.045,-.234,-.296,1,. 762,-.172,-.297,.103,-.554;-.054,-.211,-.062,.762,1,-.156,-.342,.022,-.654;.688,.136,.0 91,-.172,-.156,1,.235,.384,-.098;.212,-.052,-.017,-.297,-.342,.235,1,-.040,.424;.121,.1 16,-.607,.103,.022,.384,-.040,1,-.071;-.245,.154,-.034,-.554,-.654,-.098,.424,-.071,1]; >> m1=[139.2664;93.0918;53.9882;11.2073;6.7645;17.9345;17,8327;11.0018;1.6736];m 2=[107.3099;67.8873;47.7536;9.0827;5.3673;11.2775;13.6102;6.5773;1.3845]; >> m=(m1+m2)/2; >> arfa=inv(v)*(m1-m2);

典型判别分析与贝叶斯判别的区别

典型判别分析与贝叶斯判别的区别 1.原理不同 典型判别是根据方差分析思想,进行投影,将原来一个维度空间的自变量组合投影到另一维度空间,寻找一个由原始变量组成的线性函数使得组间差异和组内差异的比值最大化。根据样本点计算判别函数,计算判别函数到各类中心的欧式距离,取距离最小的类别。 贝叶斯判别是是利用已知的先验概率去推证将要发生的后验概率,就是计算每个样本的后验概率及其判错率,用最大后验概率来划分样本的分类并使得期望损失达到最小 2.前提条件不同 典型判别不考虑样本的具体分布,只求组间差异和组内差异的比值最大化 贝叶斯判别从样本的多元分布出发,充分利用多元正态分布的概率密度提供的信息计算后验概率,因此需要样本数据服从多元正态分布,方差齐性等。 3.产生的判别函数不同 典型判别根据K类最多产生K-1个判别函数 贝叶斯判别根据K类最多可产生K个判别函数 先验概率在判别分析中的作用 1.所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度,是根据以往经验和分析得到的概率。所谓后验概率,就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果,它是更接近于实际情况的概率估计。贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断 2.样品的先验概率对预测有一定的作用,反应样本分布的总体趋向性。被判断的个案应该属于先验概率最大总体的概率应该高一些,贝叶斯考虑了先验概率的影响提高判别的敏感度,同时利用先验概率可以求出后验概率(基于平均损失函数)和误判率,从而进行判别分析,充分利用数据的概率密度分布,判别效率高。样品归于概率大的类别。 3.这样使误判平均损失最小。既考虑到不同总体出现机会的差异、各错误判断造成损失的不同,又充分尊重了每个总体的分布状态 判别准则的评价 刀切法:基本思想是每次剔除训练样本中的一个样本,利用其余容量的训练样本建立判别函数,再用所建立的判别函数对删除的那个样本做判别,对训练样本中的每个样品重复上述步骤,已其误判的比例作为误判概率的估计。 判别分析结果 Eigenvalues a First 2 canonical discriminant functions were used in the analysis. 1.判别函数的特征根,方差百分比,累计方差百分比

判别分析报告中Fisher判别法的应用

1 绪论 1.1课题背景 随着社会经济不断发展,科学技术的不断进步,人们已经进入了信息时代,要在大量的信息中获得有科学价值的结果,从而统计方法越来越成为人们必不可少的工具和手段。多元统计分析是近年来发展迅速的统计分析方法之一,应用于自然科学和社会各个领域,成为探索多元世界强有力的工具。 判别分析是统计分析中的典型代表,判别分析的主要目的是识别一个个体所属类别的情况下有着广泛的应用。潜在的应用包括预测一个公司是否成功;决定一个学生是否录取;在医疗诊断中,根据病人的多种检查指标判断此病人是否有某种疾病等等。它是在已知观测对象的分类结果和若干表明观测对象特征的变量值的情况下,建立一定的判别准则,使得利用判别准则对新的观测对象的类别进行判断时,出错的概率很小。而Fisher判别方法是多元统计分析中判别分析方法的常用方法之一,能在各领域得到应用。通常用来判别某观测量是属于哪种类型。在方法的具体实现上,采用国广泛使用的统计软件SPSS (Statistical Product and Service Solutions),它也是美国SPSS公司在20世纪80年代初开发的国际上最流行的视窗统计软件包之一 1.2 Fisher判别法的概述 根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。Fisher 判别法是判别分析中的一种,其思想是投影,Fisher判别的基本思路就是投影,针对P维空间中的某点x=(x1,x2,x3,…,xp)寻找一个能使它降为一维数值的线性函数y(x):()j j x y = x∑ C 然后应用这个线性函数把P维空间中的已知类别总体以及求知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。这个线性函数应该能够在把P维空间中的所有点转化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。在这里借用了一元方差分析的思想,即依据组间均方差与组均方差之比最大的原则来进行判别。 1.3 算法优缺点分析

贝叶斯判别、费希尔判别法的计算机操作及结果分析

贝叶斯判别、费希尔判别法的计算机 操作及结果分析 一、实验内容、目标及要求 (一)实验内容 选取140家上市公司作为样本,其中70家为由于“财务状况异常”而被交易所对其股票实行特别处理(Special Treatment,简称ST)的公司,另外70家为财务正常的公司。为了研究上市公司发生财务困境的可能性,以“是否被ST”为分组变量,选择资产负债率、总资产周转率和总资产利润率几个财务指标作为判别分析变量,这三个指标分别从上市公司的偿债能力、资产管理能力和获利能力三个不同的角度反映了企业的财务状况。 (二)实验目标 贝叶斯判别、费希尔判别法的计算机操作及结果分析。 (三)实验要求 要求学生能熟练应用计算机软件进行判别分析并对结果进行分析,培养实际应用能力。 二、实验准备 (一)运行环境说明 电脑操作系统为Windows XP及以上版本,所需软件为SPSS 16.0。 (二)基础数据设置说明 将数据正确导入SPSS,设置相应的变量值。

三、实验基本操作流程及说明 (一)系统界面及说明 同实验一。 (二)操作步骤 1. 选择菜单项Analyze→Classify→Discriminate,打开Discriminate Analysis对话框,如图4-1。将分组变量st移入Grouping V ariable列表框中,将自变量x1-x3选入Independents 列表框中。 选择Enter independents together单选按钮,即使用所有自变量进行判别分析。若选择了Use stepwise method单选按钮,则可以根据不同自变量对判别贡献的大小进行变量筛选,此时,对话框下方的Method按钮被激活,可以通过点击该按钮设置变量筛选的方法及变量筛选的标准。 图4-1 Discriminate Analysis对话框 2. 单击Define Range按钮,在打开的Define Range子对话框中定义分组变量的取值范围。本例中分类变量的取值范围为0到1,所以在Minimum和Maximum输入框中分别输入0和1。单击Continue按钮,返回主对话框。 3. 如果不想使用全部的样本进行分析,单击Select按钮,则Discriminate Analysis对话框下方会跳出一个Selection Variable列表框,将一个选择变量移入Selection Variable列表框,并单击Rule按钮,设置选择条件。这样,只有满足选择条件的观测才能参与判别分析。 4. 单击Statistics按钮,在跳出的Statistics子对话框中指定输出的描述统计量和判别函数系数。该对话框中各选项的含义如下: Descriptives选项栏:输出原始数据的描述性统计量 ◆Means:输出各类中所有自变量的均值、组内标准差以及总样本的均值和标准差; ◆Univariate ANOV A:进行单因素方差分析,检验的原假设为不同类别中自变量的均 值不存在显著差异; ◆Box’s M:对各类的协方差矩阵是否相等进行检验。 Matrices选项栏:输出各种不同的协差阵和相关系数矩阵 ◆Within-groups correlation matrix:平均组内相关系数矩阵,它是由平均组内协差阵

SPSS操作方法:判别分析例题

SPSS操作方法:判别分析例题

实验指导之二 判别分析的SPSS软件的基本操作 [实验例题] 为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方 距离、离差平方和聚类方法将30个省、市、自治区.分为三种类型。试建立判别函数,判定广东、西藏分别属于哪个收入类型。判别指标及原始数据见表9-4。 1991年30个省、市、自治区城镇居民月平均收人数据表 单位:元/人 x 1 :人均生活费收入 x 6 :人均各种奖金、超额工资(国有+集体) x 2 :人均国有经济单位职工工资 x 7 :人均各种津贴(国有+集体) x 3 :人均来源于国有经济单位标准工资 x 8 :人均从工作单位得到的其他收入 x 4 :人均集体所有制工资收入 x 9 :个体劳动者收入 x 5 :人均集体所有制职工标准工资 样品序地区x 1x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 类序 G 11 北京170.03110.259.768.38 4.4926.8016.4411.90.41 2 天津141.5582.5850.9813.49.3321.3012.369.21 1.05 3 河北119.4083.3353.3911.07.5217.3011.7912.00.70 4 上海194.53107.860.2415.68.8831.0021.0111.80.16 5 山东130.4686.2152.3015.910.520.6l12.149.610.47 6 湖北119.2985.4153.0213.18.4413.8716.478.380.51 7 广西134.46 98.6148.188.90 4.3421.4926.1213.6 4.56 8 海南143.79 99.97 45.60 6.30 1.56 18.67 29.49 11.8 3.82 9 四川128.05 74.96 50.13 13.9 9.62 16.14 10.18 14.5 1.21 10 云南127.41 93.54 50.57 10.5 5.87 19.41 21.20 12.6 0.90

实验报告Bayes判别

实验报告Bayes判别 部门: xxx 时间: xxx 整理范文,仅供参考,可下载自行编辑

实验十一Bayes判别 实验目的和要求 掌握Bayes判别分析的理论与方法、模型的建立与误差率估计;掌握利用判别分析的SAS 过程解决有关实际问题. 实验要求:编写程序,结果分析. 实验内容:5.4 5.5 选一题 data examp5_4。 input group $ x1-x7 @@。 cards。 G1 6.6 39 1.0 6.0 6 0.12 20 G1 6.6 39 1.0 6.0 12 0.12 20 G1 6.1 47 1.0 6.0 6 0.08 12 G1 6.1 47 1.0 6.0 12 0.08 12 G1 8.4 32 2.0 7.5 19 0.35 75 G1 7.2 6 1.0 7.0 28 0.30 30 G1 8.4 113 3.5 6.0 18 0.15 75 G1 7.5 52 1.0 6.0 12 0.16 40 G1 7.5 52 3.5 7.5 6 0.16 40 G1 8.3 113 0.0 7.5 35 0.12 180 G1 7.8 172 1.0 3.5 14 0.21 45 G1 7.8 172 1.5 3.0 15 0.21 45

G2 8.4 32 2.0 9.0 10 0.35 75 G2 8.4 32 2.5 4.0 10 0.35 75 G2 6.3 11 4.5 7.5 3 0.20 15 G2 7.0 8 4.5 4.5 9 0.25 30 G2 7.0 8 6.0 7.5 4 0.25 30 G2 7.0 8 1.5 6.0 1 0.25 30 G2 8.3 161 1.5 4.0 4 0.08 70 G2 8.3 161 0.5 2.5 1 0.08 70 G2 7.2 6 3.5 4.0 12 0.30 30 G2 7.2 6 1.0 3.0 3 0.30 30 G2 7.2 6 1.0 6.0 5 0.30 30 G2 5.5 6 2.5 3.0 7 0.18 18 G2 8.4 113 3.5 4.5 6 0.15 75 G2 8.4 113 3.5 4.5 8 0.15 75 G2 7.5 52 1.0 6.0 6 0.16 40 G2 7.5 52 1.0 7.5 8 0.16 40 G2 8.3 97 0.0 6.0 5 0.15 180 G2 8.3 97 2.5 6.0 5 0.15 180 G2 8.3 89 0.0 6.0 10 0.16 180 G2 8.3 56 1.5 6.0 13 0.25 180 G2 7.8 172 1.0 3.5 6 0.21 45

判别分析中Fisher判别法的应用

1 绪 论 1.1课题背景 随着社会经济不断发展,科学技术的不断进步,人们已经进入了信息时代,要在大量的信息中获得有科学价值的结果,从而统计方法越来越成为人们必不可少的工具和手段。多元统计分析是近年来发展迅速的统计分析方法之一,应用于自然科学和社会各个领域,成为探索多元世界强有力的工具。 判别分析是统计分析中的典型代表,判别分析的主要目的是识别一个个体所属类别的情况下有着广泛的应用。潜在的应用包括预测一个公司是否成功;决定一个学生是否录取;在医疗诊断中,根据病人的多种检查指标判断此病人是否有某种疾病等等。它是在已知观测对象的分类结果和若干表明观测对象特征的变量值的情况下,建立一定的判别准则,使得利用判别准则对新的观测对象的类别进行判断时,出错的概率很小。而Fisher 判别方法是多元统计分析中判别分析方法的常用方法之一,能在各领域得到应用。通常用来判别某观测量是属于哪种类型。在方法的具体实现上,采用国内广泛使用的统计软件SPSS (Statistical Product and Service Solutions ),它也是美国SPSS 公司在20世纪80年代初开发的国际上最流行的视窗统计软件包之一 1.2 Fisher 判别法的概述 根据判别标准不同,可以分为距离判别、Fisher 判别、Bayes 判别法等。Fisher 判别法是判别分析中的一种,其思想是投影,Fisher 判别的基本思路就是投影,针对P 维空间中的某点x=(x1,x2,x3,…,xp)寻找一个能使它降为一维数值的线性函数y(x): ()j j x C x ∑=y

然后应用这个线性函数把P 维空间中的已知类别总体以及求知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。这个线性函数应该能够在把P 维空间中的所有点转化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。在这里借用了一元方差分析的思想,即依据组间均方差与组内均方差之比最大的原则来进行判别。 1.3 算法优缺点分析 优点:(1)一般对于线性可分的样本,总能找到一个投影方向,使得降维后样本仍然线性可分,而且可分性更好即不同类别的样本之间的距离尽可能远,同一类别的样本尽可能集中分布。 (2)Fisher 方法可直接求解权向量*w ; (3)Fisher 的线性判别式不仅适用于确定性模式分类器的训练,而且对于随机模式也是适用的,Fisher 还可以进一步推广到多类问题中去 缺点: (1)如果21M M =,0*=w ,则样本线性不可分; 21M M ≠,未必线性可分; w S 不可逆,未必不可分。 (2)对线性不可分的情况,Fisher 方法无法确定分类 2 实验原理 2.1 线性投影与Fisher 准则函数

聚类分析与判别分析操作及案例

北京航空航天大学研究生课程 《数理统计B》论文 地区生产总值的聚类分析与判别分析 姓名:王青云 学号:SY1001243 授课教师:冯伟 日期:2011-1-2

地区生产总值的聚类分析与判别分析 姓名:王青云学号:SY1001243 摘要:为了了解全国各地区的经济类型,需要对地区进行分类,可以利用社会科学统计软件包(简称SPSS)对地区经济情况进行聚类分析和判别分析。该工作依据地区生产总值、第一产业、工业、建筑业、交通运仓储及邮电通讯业、批发零售贸易及餐饮业、金融保险业、房地产业八个指标对2009年全国31个省和直辖市的经济类型进行了聚类分析,将不同地区的经济类型划分类别;并随机抽取了北京、福建、山东三省进行判别分析。 关键词:经济类型,聚类分析,判别分析,SPSS 一引言 人们认识事物时往往先把被认识的对象进行分类,以便寻找其中同与不同的特征,因而分类学是人们认识世界的基础科学。统计学中常用的分类统计方法主要是聚类分析与判别分析。聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。判别分析则先根据已知类别的事物的性质,利用某种技术建立函数式,然后对未知类别的新事物进行判断以将之归入已知的类别中。聚类分析与判别分析有很大的不同,聚类分析事先并不知道对象类别的面貌,甚至连共有几个类别也不确定;判别分析事先已知对象的类别和类别数,它正是从这样的情形下总结出分类方法,用于对新对象的分类[1]。二分析方法 问题:根据地区各行业收入对全国各地区经济类型进行分类。 方法:先进行聚类分析,再进行判别分析,采用SPSS软件进行。 2009年全国31个省市的地区总产值、第一产业、工业、建筑业、交通运仓储及邮电通讯业、批发零售贸易及餐饮业、金融保险业、房地产业、其他行业表1所示[2]。 2.1聚类分析 (1)在SPSS数据编辑窗口中输入表1中数据: 表1 2009年地区生产收入

Bayes_判别分析及应用论文

Bayes判别分析及应用 班级:计算B101姓名:孔维文学号201009014119 指导老师:谭立云教授 【摘要】判别分析是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法,在社会生产和科学研究上应用十分广泛。在判别分析之前,我们往往已对各总体有一定了解,样品的先验概率也对其预测起到一定作用,因此进行判别时应考虑到各个总体出现的先验概率;由于在实际问题中,样品错判后会造成一定损失,故判别时还要考虑到预报的先验概率及错判造成的损失,Bayes判别就具有这些优点;然而当样品容量大时计算较复杂,故而常借助统计软件来实现。本文着重于Bayes判别分析的应用以及SPSS的实现。 论文共分三部分。首先简单地介绍了判别分析的意义、主要应用及SPSS的优点;其次详细讲解了Bayes判别分析理论,举例说明利用SPSS实现Bayes判别分析的操作及结果分析;最后,在09年统计年鉴收集到“各地区农村居民家庭平均每人生活消费支出”数据资料,研究各地区经济发展程度说明Bayes判别分析在经济学方面的应用。 【关键词】判别分析Bayes判别Spss实现判别函数判别准则 Class: calculation B101 name: KongWeiWen registration number 201009014119 Teacher: TanLiYun professor .【Abstract】Discriminant analysis is based on the study of certain indicators of individual observations to infer that the individual belongs as a type of statistical methods in social production and scientific research is widely used. In discriminant analysis, we often have a certain understanding of the overall sample of the a priori probability of its prediction play a role, it should be taken into account to determine the overall emergence of various prior probability; because of practical problems, samples will result in some loss of miscarriage of justice, so identification must be considered when the prior probability and wrongly predicted loss, Bayes discriminant to have these advantages; However, when the sample is large computing capacity of more complex, often using statistical software Guer to achieve. This article focuses on the application of Bayes discriminant analysis, and implementation of SPSS. Thesis is divided into three parts. First, a brief overview of the significance of discriminant analysis, the main applications and advantages of Spss; followed by detailed explanation of the Bayes discriminant analysis theory, an example implementation using Spss Bayes discriminant analysis and results of operations; finally, in the 2009 Statistical Yearbook of the collected " all areas of life of rural residents per capita household

判别分析实例汇总

例:人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中 公布的。该报告建议,目前对人文发展的衡量指标应当以人生的三大要素为重点。衡量人生 的三大要素的指标分别为:实际人均GDP指数、出生时的预期寿命指数、受教育程度指数 (由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得),将一生三个指数合成为一个指数就是人文发展指数。今从2007年世界各国人文发展指数(2005年)的排序中, 选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品,另选四个国家作为待判样品,资料如下表所示。试用判别分析过程对以下数据资料进行判别分析,并据此对待 选的四个国家进行判别归类。

data develop; in put type gdp life rate zhrate@@; cards ; 1 4189077.999.593.3 1 2946179.199.288 1 2338178.99699 1 2966379.492.587.3 1 2852980.398.490.6 1 2202977.99996 2 6000 77.799.887.6 2 9060 71.997.376.8 2 8402 71.788.687.5 2 8677 69.692.671.2 2 5137 7192.681.1 2 8407 71.487.468.7 3 1550 62.648.658.1 3 1128 46.569.156.2 3 2299 49.867.962.3 3 2370 64.649.940 3 3071 73.790.363.9 3 3843 69.790.468.2 .3126782.39985.9 .3452 63.76163.8 .6757 72.590.969.1 .1111050.882.477 proc discrim simple wcov dista nee list ; /*simple: 要求技术各类样品的简单描述 统计量;选项WCOV要求计算类内协方差阵;选项DISTANCE要求计算马氏距离;选项LIST要求输出重复替换归类结果。由于没有给出方法选项,所以系统按缺省时的正态分布进行有关参数的 估计和归类。*/ class type; run ; proc discrim poo匸test slpool =0.05 list ; /*simple: */ class type; priors '1' =0.3 2 =0.4 3 =0.3 ; run ; proc discrim method =npar k = 2 list ; /*simple: */ class type; run ; proc can disc out =result ncan =2; /*simple: */

相关主题
文本预览
相关文档 最新文档