当前位置:文档之家› 数学建模多元统计分析

数学建模多元统计分析

数学建模多元统计分析
数学建模多元统计分析

实验报告

一、实验名称

多元统计分析作业题。

二、实验目的

(一)了解并掌握主成分分析与因子分析的基本原理和简单解法。

(二)学会使用matlab编写程序进行因子分析,求得特征值、特征向量、载荷矩阵等值。(三)学会使用排序、元胞数组、图像表示最后的结果,使结果更加直观。

三、实验内容与要求

四、实验原理与步骤

(一)第一题:

1、实验原理:

因子分析简介:

(1) 1.1 基本因子分析模型

设p维总体x=(x1,x2,....,xp)'的均值为u=(u1,u2,....,u3)',因子分析的一般模型为

x1=u1+a11f1+a12f2+........+a1mfm+ε 1

x2=u2+a21f1+a22f2+........+a2mfm+ε 2

.........

xp=up+ap1f1+fp2f2+..........+apmfm+εp

其中,f1,f2,.....,fm为m个公共因子;εi是变量xi(i=1,2,.....,p)所独有的特殊因子,他们都是不可观测的隐变量。称aij(i=1,2,.....,p;j=1,2,.....,m)为变量xi的公共因子fi上的载荷,它反映了公共因子对变量的重要程度,对解释公共因子具有重要的作用。上式可以写为矩阵形式

x=u+Af+ε

其中A=(aij)pxm 称为因子载荷矩阵;f=(f1,f2,....,fm)'为公共因子向量;ε=(ε1,ε2,.....εp)称为特殊因子向量

(2) 1.2 共性方差与特殊方差

xi的方差var(xi)由两部分组成,一个是公共因子对xi方差的贡献,称为共性方差;一个是特殊因子对xi方差的贡献,称为特殊方差。每个原始变量的方差都被分成了共性方差和特殊方差两部分。

(3) 1.3 因子旋转

因子分析的主要目的是对公共因子给出符合实际意义的合理解释,解释的依据就是因子载荷阵的个列元素的取值。当因子载荷阵某一列上各元素的绝对值差距较大时,并且绝对值大的元素较少时,则该公共因子就易于解释,反之,公共因子的解释就比较困难。此时可以考虑对因子和因子载荷进行旋转(例如正交旋转),使得旋转后的因子载荷阵的各列元素的绝对值尽可能量两极分化,这样就使得因子的解释变得容易。

因子旋转方法有正交旋转和斜交旋转两种,这里只介绍一种普遍使用的正交旋转法:最大方差旋转。这种旋转方法的目的是使因子载荷阵每列上的各元素的绝对值(或平方值)尽可能地向两极分化,即少数元素的绝对值(或平方值)取尽可能大的值,而其他元素尽量接近于0.

(4) 1.4 因子得分

在对公共因子做出合理解释后,有时还需要求出各观测所对应的各个公共因子的得分,就比如我们知道某个女孩是一个美女,可能很多人更关心该给她的脸蛋、身材等各打多少分,常用的求因子得分的方法有加权最小二乘法和回归法。

注意:因子载荷矩阵和得分矩阵的区别:

因子载荷矩阵是各个原始变量的因子表达式的系数,表达提取的公因子对原始变量的影响程度。因子得分矩阵表示各项指标变量与提取的公因子之间的关系,在某一公因子上得分高,表明该指标与该公因子之间关系越密切。简单说,通过因子载荷矩阵可以得到原始指标变量的线性组合,如X1=a11*F1+a12*F2+a13*F3,其中X1为指标变量1,a11、a12、a13分别为与变量X1在同一行的因子载荷,F1、F2、F3分别为提取的公因子;通过因子得分矩阵可以得到公因子的线性组合,如F1=a11*X1+a21*X2+a31*X3,字母代表的意义同上。

(5) 1.5 因子分析中的Heywood(海伍德)现象

如果x的各个分量都已经标准化了,则其方差=1。即共性方差与特殊方差的和为1。也就是说共性方差与特殊方差均大于0,并且小于1。但在实际进行参数估计的时候,共性方差

的估计可能会等于或超过1,如果等于1,就称之为海伍德现象,如果超过1,称之为超海伍德线性。超海伍德现象意味着某些特殊因子的方差为负,表明肯定存在问题。造成这种现象的可能原因包括:

共性方差本身估计的问题;

太多的共性因子,出现了过拟合;

太少的共性因子,造成拟合不足;

数据太少,不能提供稳定的估计;

因子模型不适合这些数据。

当出现海伍德现象或超海伍德现象时,应对估计结果保持谨慎态度。可以尝试增加数据量,或改变公共因子数目,让公共因子数目在一个允许的范围内变动,观察估计结果是否有改观;还可以尝试用其他多元统计方法进行分析,比如主成分析。

2、实验步骤:

(1)将原始数据标准化处理;

(2)建立相关系数矩阵并计算其特征值和特征向量;

将题目所给的相关系数矩阵输入并设为PHO,利用[x,y]=eig(PHO)求得PHO的特征值和特征向量。

(3)选择特征值大于等于1的特征值个数为公共因子数,或者根据特征值累计贡献率大于80%来确定公共因子。

从y表(特征值表)中我们可以看出大于等于1的特征值个数为4,所以公共因子数也为4。

(4)求得正交或斜交因子载荷矩阵;

①通过上一步,我们得到了因子载荷矩阵lambda。

②因子分析,公共因子数为4,设置特殊方差的下限为0,使用factoran函数进行因子旋转。

③设置表头与变量名,计算贡献率与累计贡献率。将lambda、Contribut、CumCont 放在一起,转为元胞数组,并显示最后的结果。

(5)计算公因子得分和综合得分。

计算因子得分方法是:用每个共因子的方差贡献率做权数,对每个因子进行加权,然后加总得到每个项目的总因子得分按总得分的多少进行排序,以反映不同免死方面对结果的影响。

根据第3步我们可以得到因子1~4的贡献率分别为: [29.1129] [ 27.3303] [ 10.7644] [ 7.2713],即为它们的权重。再由不同面试方面所对应的因子数我们可以得到公因子得分和综合得分。

(二)第二题:

1、实验原理:

主成分分析是由皮尔逊在1901年首先对非随机变量引入的,后来由霍特林在1933年推广到随机向量的情形。主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的多元统计方法,这些主成分能够反映原始变量的大部分信息,且新主成分之间相关性低、重叠少。

主成分分析在很多领域都有广泛的应用,一般来说,当研究的问题涉及多个变量,并且变量间相关性明显,即包含的信息有所重叠时,可以考虑用主成分分析的方法,这样更容易抓住事物的主要矛盾,使问题简化。

具体做法是:

①对原始数据进行标准化处理 用12,,

,m x x x 表示主成分分析指标的m 个变量,评价对象有n 个,ij a 表示第i 个评价对

象对应于第j 个指标的取值。将每个指标值ij a 转化为标准化指标ij a ,即

,(1,2,,;1,2,,)ij j

ij j

a a i n j m s μ-=

==

式中:11n j ij i a n μ==∑,21

1()1n j ij j i s a n μ==--∑ 相应地,标准化指标变量为

,(1,2,,)j j

j j

x x j m s μ-=

=

②计算相关系数矩阵R

()ij m m R r ?=

1

,(,1,2,

,)1

n

ki

kj

k ij a

a r i j m n =?=

=-∑

其中:1,ii ij ji r r r ==,ij r 是第i 个指标和第j 指标之间的相关系数。 ③计算相关系数矩阵的特征值与特征向量 解特征方程0=-R I λ,得到特征值(1,2,,)i i m λ=12,0m λλλ≥≥≥≥;再求出相

对应的特征值i λ的特征向量(1,2,,)i u i m =,其中12(,,,)T j j j mj u u u u =,由特征向量组成

的m 个新的指标变量为

11112121212122221122m m

m m

m m m mm m

y u x u x u x y u x u x u x y u x u x u x =+++??=+++??

??=+++? 其中:1y 为第1主成分,2y 为第1主成分,?,m y 为第m 主成分 ④选择p (p ≤m )个主成分,计算综合评价值。 (1)计算特征值(1,2,

,)j j m λ=的信息贡献率和累积贡献率

用j b 表示主成分i y 的信息贡献率,则有

1

(1,2,

,)j

j m

k

k b j m λλ

==

=∑

用p a 表示主成分12,,,p y y y 的累积贡献率,则有

1

1p

k

k p m

k

k a λλ

===

∑∑

若p a 接近于1(一般p a 的范围为85%—95%)时,则用前p 个指标变量12,,,p

y y y 作为p 个主成分,代替原来m 个指标变量,再对p 个主成分进行综合分析。 ⑤计算综合得分

用j b 表示第j 个主成分的信息贡献率,则有

1

p

j j j Z b y ==∑

根据综合得分值进行评价。

2、实验步骤:

本题使用的是调用pcacov函数做主成分分析的方法。

(1)首先我们定义相关系数矩阵PHO,并输入题目中所给的数据。

(2)设置pcacov函数的返回,分别为:主成分表达式的系数矩阵x;相关系数矩阵的特征

值向量y;主成分贡献率向量z。

(3)接下来就可以调用pcacov函数根据相关系数矩阵作主成分分析。

(4)为了使结果更加直观,我们选择用元胞数组形式(result1)显示结果。在横轴方向分

别写出“特征值”、“差值”、“贡献率”和“累积贡献率”。其中,diff函数式用于求导数与差分;comsum函数用于计算一个数组各行的累加值。

(5)从result1我们可以看出,前两个主成分累积功效率为 [ 97.7680],因此我们用前

两个主成分进行后续分析。

(6)我们再次使用元胞数组形式(result2)显示前3个主成分表达式的系数矩阵,即z矩

阵的前2列,以使结果更加直观。

(7)通过以上我们得到了2个主成分的公式以及主成分综合评价模型。

(8)接下来利用公式>> df=PHO*x(:,[1:num])和>> tf=df*z(1:num)/100;以

及>>[stf,ind]=sort(tf,'descend')进行综合得分和各个主成分的得分,再把得分按从高到低的次序排列,即可得到公司的综合排序。

四、程序及其运行结果

(一)第一题:

1、程序1(特征值与特征向量的计算):>> [x,y]=eig(PHO)

运行结果1:

x =

Columns 1 through 10

0.0152 -0.0777 0.1196 0.0819 0.1754 -0.0031 0.4403 0.1378 -0.1450 0.6108

-0.0149 0.0797 -0.2294 0.2167 -0.1166 -0.0039 -0.0556 0.0003 -0.0059 -0.0478

-0.0616 -0.0222 -0.0813 -0.1235 -0.2265 -0.2841 -0.0169 -0.0438 -0.3104 0.2316

0.3235 -0.1245 -0.0627 0.0067 0.3866 -0.2352 -0.3941 -0.2815 0.0974 0.1127

0.2671 0.3150 -0.3168 -0.3625 0.3504 -0.2379 0.1629 0.3807 -0.1128 0.0054

-0.4623 -0.1824 -0.3547 0.3107 0.0196 -0.1979 0.1087 -0.0142 0.5137 0.1688

-0.1806 -0.2084 0.2690 -0.0078 -0.0131 0.0238 0.4513 0.3024 -0.1115 -0.3103

0.1256 0.1762 0.6224 0.2938 -0.0938 -0.4950 0.0089 -0.1606 -0.0167 -0.0900

0.0136 -0.0165 0.0046 0.1987 0.0755 -0.0537 -0.3044 0.6008 0.1152 -0.3732

0.2237 -0.2027 -0.3208 0.4173 0.0078 0.2546 0.1339 -0.2384 -0.5057 -0.2522

-0.2654 -0.5552 0.2292 -0.3332 0.1303 0.1459 -0.3789 0.0808 -0.2133 0.1088

0.5406 -0.1258 0.0899 -0.1343 -0.4357 0.3595 0.0603 0.0929 0.4208 0.1465

-0.2965 0.5796 0.1974 0.0301 0.2446 0.5242 -0.1141 -0.1208 0.0062 0.0671

-0.2086 0.2500 -0.1729 -0.1643 -0.5916 -0.1372 -0.2239 0.0768 -0.2447 0.0850

-0.1151 -0.0288 -0.0643 -0.4961 0.0186 -0.1037 0.2905 -0.4290 0.1796 -0.4213

Columns 11 through 15

0.1181 -0.1105 0.3106 0.4310 0.1631

0.8732 0.2562 -0.0165 -0.0350 0.2128

-0.2101 0.6493 -0.4082 0.2362 0.0398

-0.1150 0.3247 0.4785 -0.1264 0.2252

0.0003 -0.1631 -0.2471 -0.2480 0.2913

-0.2069 -0.0630 -0.1520 -0.1292 0.3165

-0.0703 0.4053 0.2974 -0.4053 0.1582

0.0344 -0.2072 -0.2049 -0.0393 0.3221

-0.1045 0.0676 0.0764 0.5533 0.1334

-0.2039 -0.1514 -0.0825 0.0481 0.3149

0.1591 -0.1905 -0.2110 -0.0685 0.3183

-0.0738 0.0885 -0.1110 -0.0211 0.3314

-0.1218 0.1986 -0.0605 0.0226 0.3333

-0.1170 -0.2137 0.4606 -0.0799 0.2593

0.0745 -0.0263 0.0882 0.4205 0.2358

y =

Columns 1 through 10

0.0344 0 0 0 0 0 0 0 0 0

0 0.0577 0 0 0 0 0 0 0 0

0 0 0.0763 0 0 0 0 0 0 0

0 0 0 0.0933 0 0 0 0 0 0

0 0 0 0 0.1509 0 0 0 0 0

0 0 0 0 0 0.2057 0 0 0 0

0 0 0 0 0 0 0.2597 0 0 0

0 0 0 0 0 0 0

0.3103 0 0

0 0 0 0 0 0 0 0 0.3441 0

0 0 0 0 0 0 0 0 0 0.4840

0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0

Columns 11 through 15

0 0 0 0 0

0 0 0 0 0

0 0 0 0 0

0 0 0 0 0

0 0 0 0 0

0 0 0 0 0

0 0 0 0 0

0 0 0 0 0

0 0 0 0 0

0 0 0 0 0

0.7414 0 0 0 0

0 1.2091 0 0 0

0 0 1.4677 0 0

0 0 0 2.0615 0

0 0 0 0 7.5040

2.程序2(求因子载荷矩阵、贡献率和累计贡献率):

>>[lambda,psi,T]=factoran(PHO,4,'xtype','covariance','delta',0,'rotate','none') head = {'变量', '因子f1', '因子f2','因子f3','因子f4'};

varname = {'申请信的形式','外貌','专业能力','讨人喜欢的能力','自信心','洞察力','

诚实','推销能力','经验','驾驶汽车本领','抱负','理解能力','潜力能力','对工作要求

强烈程度','适应性','<贡献率>','<累积贡献率>'}';

Contribut = 100*sum(lambda.^2)/15;

CumCont = cumsum(Contribut);

result1 = num2cell([lambda; Contribut; CumCont]);

result1 = [head; varname, result1]

运行结果2:

lambda =

0.4700 0.0673 0.5437 -0.2229

0.2800 0.4627 0.0609 0.1335

-0.3200 0.4393 0.3591 0.2256

0.6900 0.1179 0.1652 0.5313

0.4800 0.7026 -0.3997 -0.0685

0.5300 0.7141 -0.1244 0.0505

0.4500 0.1388 -0.2327 0.6354

0.5500 0.7115 -0.1032 -0.2257

0.2100 0.2098 0.6947 -0.2423

0.6100 0.6062 0.0850 -0.1585

0.5500 0.7099 -0.1390 -0.1806

0.5500 0.7253 0.0819 0.1132

0.5400 0.7330 0.2086 0.2147

1.0000 -0.0000 -0.0000 -0.0000

0.4000 0.4078 0.5997 -0.2296

psi =

0.4293 0.6860 0.5248 0.2004 0.1115 0.1912 0.3203 0.1297 0.3700 0.2281 0.1417 0.1519 0.0815

0.0000 0.2614

T =

1 0 0 0

0 1 0 0

0 0 1 0

0 0 0 1

result1 =

'变量' '因子f1' '因子f2' '因子f3' '因子f4'

'申请信的形式' [ 0.4700] [ 0.0673] [ 0.5437]

[ -0.2229]

'外貌' [ 0.2800] [ 0.4627] [ 0.0609]

[ 0.1335]

'专业能力' [-0.3200] [ 0.4393] [ 0.3591]

[ 0.2256]

'讨人喜欢的能力' [ 0.6900] [ 0.1179] [ 0.1652]

[ 0.5313]

'自信心' [ 0.4800] [ 0.7026] [ -0.3997]

[ -0.0685]

'洞察力' [ 0.5300] [ 0.7141] [ -0.1244]

[ 0.0505]

'诚实' [ 0.4500] [ 0.1388] [ -0.2327]

[ 0.6354]

'推销能力' [ 0.5500] [ 0.7115] [ -0.1032]

[ -0.2257]

'经验' [ 0.2100] [ 0.2098] [ 0.6947]

[ -0.2423]

'驾驶汽车本领' [ 0.6100] [ 0.6062] [ 0.0850]

[ -0.1585]

'抱负' [ 0.5500] [ 0.7099] [ -0.1390]

[ -0.1806]

'理解能力' [ 0.5500] [ 0.7253] [ 0.0819] [ 0.1132]

'潜力能力' [ 0.5400] [ 0.7330] [ 0.2086] [ 0.2147]

'对工作要求强烈程度' [ 1.0000] [-4.5688e-06] [-1.7616e-07] [-3.2322e-07]

'适应性' [ 0.4000] [ 0.4078] [ 0.5997] [ -0.2296]

'<贡献率>' [29.1129] [ 27.3303] [ 10.7644] [ 7.2713]

'<累积贡献率>' [29.1129] [ 56.4431] [ 67.2075] [ 74.4788]

3.运行结果3:

4个因子的权重分别为:0.3901 0.3670 0.1445 0.0976

所以对应的因子得分与综合得分为(最后一列为综合得分)

’申请信的形式’[ 0.1833] [ 0.0247] [ 0.0786] [ -0.0218] [ 0.2650]

’外貌’[ 0.1092] [ 0.1698] [ 0.0088] [ -0.0218] [ 0.2660]

’专业能力’[ 0.1248] [ 0.1612] [ 0.0519] [ 0.2013]

[ 0.5392]

’讨人喜欢的能力’[ 0.2692] [ 0.0433] [ 0.0239] [ 0.0220]

[ 0.3584]

’自信心’[ 0.1872] [ 0.2579] [ -0.0570] [ 0.0519] [ 0.440]

’洞察力’[ 0.2068] [ 0.2612] [ -0.0180] [ -0.0067]

[ 0.4433]

’诚实’[ 0.1755] [ 0.0509] [ -0.0336] [ 0.0049] [ 0.1977]

’推销能力’[ 0.2146] [ 0.2611] [ -0.0180] [ -0.0067] [ 0.451]

’经验’[ 0.0819] [ 0.0707] [ 0.1004] [ -0.0220] [ 0.2310]

’驾驶汽车本领’[ 0.2380] [ 0.2248] [ 0.0123] [ -0.0236] [ 0.4987]

’抱负’[ 0.2146] [ 0.2605] [ -0.0201] [ -0.0176] [ 0.4374]

’理解能力’[ 0.2146] [ 0.2662] [ 0.0118] [ 0.0110] [ 0.5036]

’潜力能力’[ 0.2107] [ 0.2690] [ 0.0301] [ 0.0210] [ 0.5308]

’对工作要求强烈程度’[ 0.3901] --- --- --- [ 0.3901]

’适应性’[ 0.1560] [ 0.1497] [ 0.0867] [ -0.0224] [ 0.3700]

(二)第二题:

1.程序1:

>> clear all

PHO=[43.31 7.39 8.73 54.89

17.11 12.13 17.29 44.25

21.11 6.03 7 89.37

29.55 8.62 10.13 73

11 8.41 11.83 25.22

17.63 13.86 15.41 36.44

2.73 4.22 17.16 9.96

29.11 5.44 6.09 56.26

20.29 9.48 12.97 82.23

3.99

4.64 9.35 13.04

22.64 11.13 14.3 50.51

4.43 7.3 14.36 29.04

5.4 8.9 12.53 65.5

7.06 2.79 5.24 19.79

19.82 10.53 18.55 42.04

7.26 2.99 6.99 22.72];

>> PHO=zscore(PHO);

>> r=corrcoef(PHO);

>> [x,y,z]=pcacov(r)

运行结果1:

x =

0.5306 -0.4122 -0.7018 -0.2366

0.5938 0.4045 -0.0229 0.6952

0.2606 0.7207 -0.0097 -0.6423

0.5458 -0.3835 0.7119 -0.2196

y =

1.8971 1.5496 0.3930 0.1602

z =

47.4282 38.7411 9.8253 4.0053

2.程序2:

>> result1(1,:)={'特征值','差值','贡献率','累积贡献率'}; result1(2:5,1)=num2cell(y);

result1(2:4,2) = num2cell(-diff(y));

result1(2:5,3:4) = num2cell([z, cumsum(z)])

运行结果2:

'特征值' '差值' '贡献率' '累积贡献率'

[1.8971] [0.3475] [47.4282] [ 47.4282]

[1.5496] [1.1566] [38.7411] [ 86.1693]

[0.3930] [0.2328] [ 9.8253] [ 95.9947]

[0.1602] [] [ 4.0053] [ 100.0000]

3. 程序3:

>> s={'标准化变量';'x1:销售净利率';'x2:资产净利率';'x3:净资产收益率';'x4:销售毛

利率'};

result2(:,1)=s;

result2(1, 2:3) = {'Prin1', 'Prin2'};

result2(2:5, 2:3) = num2cell(x(:,1:2))

运行结果3:

result2 =

'标准化变量' 'Prin1' 'Prin2'

'x1:销售净利率' [0.5306] [-0.4122]

'x2:资产净利率' [0.5938] [ 0.4045]

'x3:净资产收益率' [0.2606] [ 0.7207]

'x4:销售毛利率' [0.5458] [-0.3835]

4. 程序4:

>> df=PHO*x(:,[1:num]);

>> tf=df*z(1:num)/100;

>> [stf,ind]=sort(tf,'descend')

运行结果4:

stf =

1.1091 1.1066 1.0029 0.7506 0.6340 0.3611 0.2014 0.0481 -0.0570 -0.2014 -0.2444 -0.3367 -0.7301 -0.8998 -1.2651 -1.4791

ind =

2 6 15 11 9 1

3

4 12

5 1 7 3 8 10 1

6 14

五、实验结果分析

(一)第一题:

1.从因子载荷矩阵x我们可以看出来,前2列个元素的取值差距较大,也就是说前2

个因子易于解释,而后2列元素取值都比较小,后两个因子很难给出合理的解释。

2.从特殊方差矩阵的估计psi来看,各变量的特殊方差都比较小,并没有出现海伍

德现象,这说明因子模型的拟合效果非常好。

3.从贡献率和累积贡献率来看,4个因子对原始数据总方差的贡献率分别为29.1129、

27.3303、10.7644和7.2713,累积贡献率达到了74.4788%,这说明因子模型中只考虑

4个公共因子应该是比较合适的。

4.从最后的因子得分和综合得分我们可以看出,在面试的过程中,专业能力、理解能

力、潜力能力是最重要的三项,而诚实、经验和申请信的形式则为最不重要的三项。

(一)第二题

1.分析result1的结果,我们可以看出前2个主成分的累积贡献率达到了86.1693%,因此

可以只用前2个主成分进行后续的分析,这样虽然会有一定的信息损失,但是损失不大。

result2中列出了前2个主成分的相关结果,可知前2个主成分的表达式分布为:

y1=0.5306x1+0.5938x2+0.2606x3+0.5458x4

y2=-0.41221x1+0.4045x2+0.7207x3-0.3835x4

2.从第一主成分y1的表达式来看,x4销售毛利率这个标准变化量对y1的重要性最大。

当销售净利率x1,资产净利率x2,净资产收益率x3,销售毛利率x4都比较大时,此时y1的值就比较大;反之,x1,x2,x3,x4都比较小,此时y1的值就比较小,所以可以认为第一主成分y1是利润的综合成分。

3.从第二主成分y2的表达式来看,x1销售净利率这个标准变化量对y2的正影响最

大,同时x4销售毛利率对y2的负影响较大,所以可以认为第二主成分y2是利润的销售净利率和销售毛利率的协调成分。

4.最后两个主成分的贡献率比较小,分别只有 [ 9.8253]和[ 4.0053],可以不用对

其做出解释。

5.分别以两个主成分的贡献率为权重,我们可以得到主成分评价模型

Z=47.4282y1+38.7411y2

6.通过计算得到的排序的结果,对比原始公司表格,我们可以看出贵州茅台公司的综合评

价是最高的,而湖北宣化公司的综合排序最低。

七、实验体会

本文主要运用了主层分分析和因子分析来解决问题。主成分分析将多因子纳入同一系统进行定量化研究,是比较完善的多元统计分析方法。两种分析方法在日常生活中的各个领域都得到了广泛的应用——经济效益指标、内部运营指标和发展潜力指标进行综合评价等。

实验让我们了解到了通过因子分析和主成分分析,可以将我们的分析过程大大简化,试分析由繁至简,使结果更形象、更直观。

应用多元统计分析课后答案

2.1.试叙述多元联合分布和边际分布之间的关系。 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=L 的联合分布密 度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=L 的子向量的概率分布,其概率密度 函数的维数小于p 。 2.2设二维随机向量1 2()X X '服从二元正态分布,写出其联合分布。 解:设1 2()X X '的均值向量为()1 2μμ'=μ,协方差矩阵为21 122212σσσσ?? ? ?? ,则其联合分布密度函数为 1/2 12 2 2112112222122121()exp ()()2f σσσσσσσσ--???????? '=---?? ? ??? ?????? x x μx μ。 2.3已知随机向量12()X X '的联合密度函数为 12121222 2[()()()()2()()] (,)()()d c x a b a x c x a x c f x x b a d c --+-----= -- 其中1a x b ≤≤,2c x d ≤≤。求 (1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断 1X 和2X 是否相互独立。 (1)解:随机变量 1X 和2X 的边缘密度函数、均值和方差; 11212122 2[()()()()2()()] ()()()d x c d c x a b a x c x a x c f x dx b a d c --+-----=--? 1221222222 2()()2[()()2()()]()()()() d d c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----? 121 222202()()2[()2()]()()()() d d c c d c x a x b a t x a t dt b a d c b a d c ------= +----? 221212222 2()()[()2()] 1()()()()d c d c d c x a x b a t x a t b a d c b a d c b a ------=+= ----- 所以 由于1X 服从均匀分布,则均值为2b a +,方差为 ()2 12 b a -。

多元统计分析模拟考题及答案.docx

一、判断题 ( 对 ) 1 X ( X 1 , X 2 ,L , X p ) 的协差阵一定是对称的半正定阵 ( 对 ( ) 2 标准化随机向量的协差阵与原变量的相关系数阵相同。 对) 3 典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4 多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据 分析方法。 ( 错)5 X (X 1 , X 2 , , X p ) ~ N p ( , ) , X , S 分别是样本均值和样本离 差阵,则 X , S 分别是 , 的无偏估计。 n ( 对) 6 X ( X 1 , X 2 , , X p ) ~ N p ( , ) , X 作为样本均值 的估计,是 无偏的、有效的、一致的。 ( 错) 7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对) 8 因子载荷阵 A ( ij ) ij 表示第 i 个变量在第 j 个公因子上 a 中的 a 的相对重要性。 ( 对 )9 判别分析中, 若两个总体的协差阵相等, 则 Fisher 判别与距离判别等价。 (对) 10 距离判别法要求两总体分布的协差阵相等, Fisher 判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、 样本相关系数矩阵. 2、 设 是总体 的协方差阵, 的特征根 ( 1, , ) 与相应的单 X ( X 1,L , X m ) i i L m 位 正 交 化 特 征 向 量 i ( a i1, a i 2 ,L ,a im ) , 则 第 一 主 成 分 的 表 达 式 是 y 1 a 11 X 1 a 12 X 2 L a 1m X m ,方差为 1 。 3 设 是总体 X ( X 1, X 2 , X 3, X 4 ) 的协方差阵, 的特征根和标准正交特征向量分别 为: 1 2.920 U 1' (0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U 2' (0.9544, 0.0984,0.2695,0.0824) 3 0.049 U 3' (0.2516,0.7733, 0.5589, 0.1624) 4 0.007 U 4' ( 0.0612,0.2519,0.5513, 0.7930) ,则其第二个主成分的表达式是

应用多元统计分析SAS作业审批稿

应用多元统计分析S A S 作业 YKK standardization office【 YKK5AB- YKK08- YKK2C- YKK18】

5-9 设在某地区抽取了14块岩石标本,其中7块含矿,7块不含矿。对每块岩石测定了Cu,Ag,Bi三种化学成分的含量,得到的数据如表1。 表1 岩石化学成分的含量数据 (1)假定两类样本服从正态分布,使用广义平方距离判别法进行判别归类(先验概率取为相等,并假定两类样本的协方差阵相等); (2)今得一块标本,并测得其Cu,Ag,Bi的含量分别为2.95,2.15和1.54,试判断该标本是含矿还是不含矿? 问题求解 1 使用广义平方距离判别法对样本进行判别归类 用SAS软件中的DISCRIM过程进行判别归类。 SAS程序及结果如下。 data d59; input group x1-x3@@; cards; 1 2.58 0.9 0.95 1 2.9 1.23 1 1 3.55 1.15 1 1 2.35 1.15 0.79 1 3.54 1.85 0.79 1 2.7 2.23 1.3 1 2.7 1.7 0.48 2 2.25 1.98 1.06 2 2.16 1.8 1.06 2 2.3 3 1.7 4 1.1 2 1.96 1.48 1.04

2 1.94 1.4 1 2 3 1.3 1 2 2.78 1.7 1.48 ; proc print data =d59; run ; proc discrim data =d59 pool =yes distance list ; class group; var x1-x3; run ; 由输出结果可知,两总体间的广义平方距离为D 2=3.19774。还可知两个三元总体均值相等的检验结果:D =3.19774,F =3.10891,p =0.0756<0.10,故在显着性水平=0.10α时量总体的均值向量有显着差异,即认为讨论这两个三元总体的判别问题是有意义的。 线性判别函数为: 判别结果为含矿的6号样本错判为不含矿;不含矿的13号样本错判为含矿。 2 对给定样本判别归类 将Cu ,Ag ,Bi 的含量数值2.95、2.15、1.54分别代入线性判别函数得: 1244.674246.978882Y Y ==,。 贝叶斯判别的解{}***1, ,k D D D = 为 {}*|()(),,1, ,(1, ,)t t j D X Y X Y X j t j k t k =>≠==, 由于1244.6742246.97888Y Y =<=,因此待判的样品判为不含矿。 5-10 已知某研究对象分为三类,每个样品考察4项指标,各类的观测样品数分别为7,4,6;类外还有3个待判样品(所有观测数据见表2)。假定样本均来自正态总体。 表2 判别分类的数据

多元统计分析期末复习

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: )',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变),(~∑μP N X μ∑μ p X X X ,,,21Λ),(~∑μP N X ) ,('A A d A N s ∑+μ)()1(,, n X X ΛX )',,,(21p X X X Λ)')(()()(1X X X X i i n i --∑=n 1 X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

03第三篇 多元统计分析作业题

第三篇 多元统计分析作业题 1 证明题 1)已知ψ==A X E X Z T T T ,这里用到关系1-ψ=E A 。以二变量为例证明: 12*-Λ=ψ=A X A X Z T T T 1)(-=T T A X 。 式中X 为标准化原始变量矩阵,A 为载荷矩阵,Z 为非标准化主成分得分,Z *为标准化的因子得分,E 为单位化特征向量构成的矩阵即正交矩阵,Ψ为特征根的平方根的倒数构成的对角阵,Λ为特征根构成的对角阵,对于二变量有 ?????? ??=ψ21 /10 /1λλ, ?? ? ???=Λ21 00λλ. 2)对于二变量因子模型,我们有 ?? ?++=++=222221122 112211111εεu f a f a x u f a f a x . 试以 x 1为例证明1 2 22==+j x j j u h σ ,这里∑== p k kj j a h 1 2 22 21 211a a +=。 2 计算题 1)现有一组古生物腕足动物贝壳标本的两个变量:长度x 1和宽度x 2。所测数据如下(表2.1)。 要求: ① 利用Excel 对数据进行主成分分析。 ② 借助SPSS 对该数据进行主成分分析,并计算结果与Excel 的计算结果进行对比,理解各个表格所给参数的含义。 ③ 用本例数据验证证明题?的推导结果。 表2.1 古生物腕足动物贝壳标本数据 样品编号 长度x 1 宽度x 2 样品编号 长度x 1 宽度x 2 1 3 2 14 12 10 2 4 10 15 12 11 3 6 5 16 13 6 4 6 8 17 13 14 5 6 10 18 13 15 6 7 2 19 13 17 7 7 13 20 14 7 8 8 9 21 15 13 9 9 5 22 17 13

(完整word版)实用多元统计分析相关习题

练习题 一、填空题 1.人们通过各种实践,发现变量之间的相互关系可以分成(相关)和(不相关)两种类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相关系数。 2.总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。3.回归方程显著性检验时通常采用的统计量是(S R/p)/[S E/(n-p-1)]。 4.偏相关系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的)的相关系数。 5.Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。 6.主成分分析是通过适当的变量替换,使新变量成为原变量的(线性组合),并寻求(降维)的一种方法。 7.主成分分析的基本思想是(设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来替代原来的指标)。 8.主成分表达式的系数向量是(相关系数矩阵)的特征向量。 9.样本主成分的总方差等于(1)。 10.在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献度)。主成分的协方差矩阵为(对称)矩阵。主成分表达式的系数向量是(相关矩阵特征值)的特征向量。 11.SPSS中主成分分析采用(analyze—data reduction—facyor)命令过程。 12.因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子),另一部分为(特殊因子)。 13.变量共同度是指因子载荷矩阵中(第i行元素的平方和)。 14.公共因子方差与特殊因子方差之和为(1)。 15.聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏程度)进行科学的分类。 16.Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。 17.Q型聚类统计量是(距离),而R型聚类统计量通常采用(相关系数)。 18.六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。 19.快速聚类在SPSS中由(k-均值聚类(analyze—classify—k means cluster))过程实现。 20.判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。 21.用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。 22.进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有(Fisher准则)、(贝叶斯准则)。 23.类内样本点接近,类间样本点疏远的性质,可以通过(类与类之间的距离)与(类内样本的距离)的大小差异表现出来,而两者的比值能把不同的类区别开来。这个比值越大,说明类与类间的差异越(类与类之间的距离越大),分类效果越(好)。24.Fisher判别法就是要找一个由p个变量组成的(线性判别函数),使得各自组内点的

应用多元统计分析试题及答案

一、填空题: 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立,则样本均值向量x服从的分布 为_x~N(μ,Σ/n)_。 二、简答 1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。 相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A

和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。 从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数: 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设 和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI : /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S

实用多元统计分析相关习题学习资料

实用多元统计分析相 尖习题 练习题 一、填空题 1?人们通过各种实践,发现变量之间的相互矢系可以分成(相尖)和(不相尖)两种 类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相尖系数。 2?总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。 3 ?回归方程显著性检验时通常采用的统计量是(S R/P)/[S E/ (n-p-1) ]O 4?偏相尖系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的) 的相尖系数。 5. Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。

6 ?主成分分析是通过适当的变量替换,使新变量成为原变量的(线性组合),并寻求 (降维)的一种方法。 7 ?主成分分析的基本思想是(设法将原来众多具有一定相尖性(比如P个指标),重 新组合成一组新的互相无矢的综合指标来替代原来的指标)。 8 ?主成分表达式的系数向量是(相尖系数矩阵)的特征向量。 9 ?样本主成分的总方差等于(1)。 10 ?在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献度)。主成分的协方差矩阵为(对称)矩阵。主成分表达式的系数向量是(相尖矩阵特征值)的特征向量。 11. SPSS 中主成分分析采用(analyze—data reduction — facyor)命令过程。 12?因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子),另一部

分为(特殊因子)。 13 ?变量共同度是指因子载荷矩阵中(第i行元素的平方和)。 14 ?公共因子方差与特殊因子方差之和为(1) o 15 ?聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏 程度)进行科学的分类。 16. Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。 17. Q型聚类统计量是(距离),而R型聚类统计量通常采用(相尖系数)。 18. 六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。 19?快速聚类在SPSS中由(k■均值聚类(analyze— classify— k means cluste))过程实 现。 20. 判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。 21. 用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。 22. 进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有 (Fisher准则)、(贝叶斯准则)。 23. 类内样本点接近,类间样本点疏

应用多元统计分析习题解答_第五章

第五章 聚类分析 判别分析和聚类分析有何区别 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 对样品和变量进行聚类分析时, 所构造的统计量分别是什么简要说明为什么这样构造 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()() p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1)p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 21/2 1 (2)() p ij ik jk k d X X ==-∑ (3)切比雪夫距离(q =∞) 1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p 维空间的向量,一般用 2 1()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-=+∑

应用多元统计分析SAS作业第六章资料

6-10 今有6个铅弹头,用“中子活化”方法测得7种微量元素的含量数据(见表1)。 (1) 试用多种系统聚类法对6个弹头进行分类;并比较分类结果; (2) 试用多种方法对7种微量元素进行分类。 问题求解 1对6个弹头进行分类 对数据进行标准化变换,样品间距离定义为欧式距离,系统聚类的方法分别使用类平均法(A VE )、中间距离法(MID )、可变类平均法(FLE )和离差平方合法(WARD )。使用SAS 软件CLUSTER 过程对数据进行聚类分析(程序见附录1)。 1.1类平均法 图1 类平均聚类法相关矩阵特征值图 图2 类平均聚类分析法聚类历史图 由图2可知,NCL=1时半偏R 2最大且伪F 统计量在NCL=2,5时和伪t 方统计量在NCL=1,4时较大。因此,将6个弹头分为两类{}{}(2) (2) 121,2,4,6,3,5G G ==。SAS 绘制的谱系聚类图如图 3所示。

图3 类平均聚类分析法谱系聚类图 1.2中间距离法 图4 中间距离聚类法相关矩阵特征值图 图5 中间距离聚类法聚类历史图 由图5可知,中间距离法与类平均法结果一致。因此,也将6个弹头分为两类 {}{}(2)(2) 121,2,4,6,3,5G G ==。 SAS 绘制的谱系聚类图如图6所示。

图6中间距离聚类法谱系聚类图 1.3可变类平均法 图7可变类平均聚类法分析结果图 图8 可变类平均聚类法聚类历史图 由图8可知,可变类平均法(=0.25 β-)输出结果与前两种方法稍有不同,NCL=1时半偏R2最大且伪F统计量在NCL=2时次大,NCL=5时最大;而伪t方统计量在NCL=1时最大。因此,分

多元统计分析简答题..

1、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设H0和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2/21exp 2np n e tr n λ????=-?? ?????S S 00p H =≠ΣΣI : /2/2**1exp 2np n e tr n λ????=-?? ????? S S 检验12k ===ΣΣΣ012k H ===ΣΣΣ: 统计量/2/2/2/211i i k k n n pn np k i i i i n n λ===∏∏S S 2. 针对一个总体均值向量的检验而言,在协差阵已知和未知的两种情形下,如何分别构造的统计量? 3. 作多元线性回归分析时,自变量与因变量之间的影响关系一定是线性形式的吗?多元线性回归分析中的线性关系是指什么变量之间存在线性关系? 答:作多元线性回归分析时,自变量与因变量之间的影响关系不一定是线性形式。当自变量与因变量是非线性关系时可以通过某种变量代换,将其变为线性关系,然后再做回归分析。 多元线性回归分析的线性关系指的是随机变量间的关系,因变量y 与回归系数βi 间存在线性关系。 多元线性回归的条件是: (1)各自变量间不存在多重共线性; (2)各自变量与残差独立; (3)各残差间相互独立并服从正态分布; (4)Y 与每一自变量X 有线性关系。 4.回归分析的基本思想与步骤 基本思想:

应用多元统计分析课后答案

应用多元统计分析课后答案 第五章 聚类分析 5.1 判别分析和聚类分析有何区别? 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 5.2 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造? 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1()()p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1)p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 21/2 1 (2)() p ij ik jk k d X X ==-∑ (3)切比雪夫距离(q =∞) 1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 21()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-= +∑

数学建模多元统计分析

实验报告 一、实验名称 多元统计分析作业题。 二、实验目的 (一)了解并掌握主成分分析与因子分析的基本原理和简单解法。 (二)学会使用matlab编写程序进行因子分析,求得特征值、特征向量、载荷矩阵等值。(三)学会使用排序、元胞数组、图像表示最后的结果,使结果更加直观。 三、实验内容与要求

四、实验原理与步骤 (一)第一题: 1、实验原理: 因子分析简介: (1) 1.1 基本因子分析模型 设p维总体x=(x1,x2,....,xp)'的均值为u=(u1,u2,....,u3)',因子分析的一般模型为 x1=u1+a11f1+a12f2+........+a1mfm+ε 1 x2=u2+a21f1+a22f2+........+a2mfm+ε 2 ......... xp=up+ap1f1+fp2f2+..........+apmfm+εp 其中,f1,f2,.....,fm为m个公共因子;εi是变量xi(i=1,2,.....,p)所独有的特殊因子,他们都是不可观测的隐变量。称aij(i=1,2,.....,p;j=1,2,.....,m)为变量xi的公共因子fi上的载荷,它反映了公共因子对变量的重要程度,对解释公共因子具有重要的作用。上式可以写为矩阵形式 x=u+Af+ε

其中A=(aij)pxm 称为因子载荷矩阵;f=(f1,f2,....,fm)'为公共因子向量;ε=(ε1,ε2,.....εp)称为特殊因子向量 (2) 1.2 共性方差与特殊方差 xi的方差var(xi)由两部分组成,一个是公共因子对xi方差的贡献,称为共性方差;一个是特殊因子对xi方差的贡献,称为特殊方差。每个原始变量的方差都被分成了共性方差和特殊方差两部分。 (3) 1.3 因子旋转 因子分析的主要目的是对公共因子给出符合实际意义的合理解释,解释的依据就是因子载荷阵的个列元素的取值。当因子载荷阵某一列上各元素的绝对值差距较大时,并且绝对值大的元素较少时,则该公共因子就易于解释,反之,公共因子的解释就比较困难。此时可以考虑对因子和因子载荷进行旋转(例如正交旋转),使得旋转后的因子载荷阵的各列元素的绝对值尽可能量两极分化,这样就使得因子的解释变得容易。 因子旋转方法有正交旋转和斜交旋转两种,这里只介绍一种普遍使用的正交旋转法:最大方差旋转。这种旋转方法的目的是使因子载荷阵每列上的各元素的绝对值(或平方值)尽可能地向两极分化,即少数元素的绝对值(或平方值)取尽可能大的值,而其他元素尽量接近于0. (4) 1.4 因子得分 在对公共因子做出合理解释后,有时还需要求出各观测所对应的各个公共因子的得分,就比如我们知道某个女孩是一个美女,可能很多人更关心该给她的脸蛋、身材等各打多少分,常用的求因子得分的方法有加权最小二乘法和回归法。 注意:因子载荷矩阵和得分矩阵的区别: 因子载荷矩阵是各个原始变量的因子表达式的系数,表达提取的公因子对原始变量的影响程度。因子得分矩阵表示各项指标变量与提取的公因子之间的关系,在某一公因子上得分高,表明该指标与该公因子之间关系越密切。简单说,通过因子载荷矩阵可以得到原始指标变量的线性组合,如X1=a11*F1+a12*F2+a13*F3,其中X1为指标变量1,a11、a12、a13分别为与变量X1在同一行的因子载荷,F1、F2、F3分别为提取的公因子;通过因子得分矩阵可以得到公因子的线性组合,如F1=a11*X1+a21*X2+a31*X3,字母代表的意义同上。 (5) 1.5 因子分析中的Heywood(海伍德)现象 如果x的各个分量都已经标准化了,则其方差=1。即共性方差与特殊方差的和为1。也就是说共性方差与特殊方差均大于0,并且小于1。但在实际进行参数估计的时候,共性方差

应用多元统计分析习题解答_朱建平_第九章

Abbo无私奉献,只收1个金币,BS收5个金币的… 何老师考简单点啊……

第九章 典型相关分析 9.1 什么是典型相关分析?简述其基本思想。 答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。用于揭示两组变量之间的内在联系。典型相关分析的目的是识别并量化两组变量之间的联系。将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。 基本思想: (1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。即: 若设(1) (1)(1) (1)12(,,,)p X X X =X 、(2) (2)(2)(2) 12(,,,)q X X X =X 是两组相互关联的随机变量, 分别在两组变量中选取若干有代表性的综合变量Ui 、Vi ,使是原变量的线性组合。 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大。(2)选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。 (3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。 9.2 什么是典型变量?它具有哪些性质? 答:在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。具体来说, ()(1) ()(1)()(1)()(1) 11 22i i i i i P P U a X a X a X ' =+++a X ()(2) ()(2)()(2) ()(2) 11 22i i i i i q q V b X b X b X ' =+++b X 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大,则称 (1)(1)'a X 、(1)(2) 'b X 是(1)X 、(2)X 的第一对典型相关变量。 典型变量性质: 典型相关量化了两组变量之间的联系,反映了两组变量的相关程度。 1. ()1,()1 (1,2,,)k k D U D V k r === (,)0, (,)0 ()i j i j C ov U U C ov V V i j ==≠ 2. 0 (,1,2,,)(,)0()0()i i j i j i r C ov U V i j j r λ≠==?? =≠??>? 9.3 试分析一组变量的典型变量与其主成分的联系与区别。 答:一组变量的典型变量和其主成分都是经过线性变换计算矩阵特征值与特征向量得出的。主成分分析只涉及一组变量的相互依赖关系而典型相关则扩展到两组变量之间的相互依赖关系之中,度量了这两组变量之间联系的强度。 ()(1)()(1)()(1)()(1) 1122i i i i i P P U a X a X a X '=+++a X ()(2)()(2)()(2)()(2) 1122i i i i i q q V b X b X b X '=+++b X (1)(1)(1)(1)1 2 (,,,)p X X X = X 、(2)(2)(2)(2)1 2 (,,,)q X X X = X

应用多元统计分析习题解答_因子分析

第七章 因子分析 7.1 试述因子分析与主成分分析的联系与区别。 答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。 因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。 7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。 7.3 简述因子模型中载荷矩阵A 的统计意义。 答:对于因子模型 1122i i i ij j im m i X a F a F a F a F ε=++ ++ ++ 1,2, ,i p = 因子载荷阵为1112 121 22212 12 (,, ,)m m m p p pm a a a a a a A A A a a a ????? ?==?????? ? ?A i X 与j F 的协方差为: 1Cov(,)Cov(,)m i j ik k i j k X F a F F ε==+∑ =1 Cov( ,)Cov(,)m ik k j i j k a F F F ε=+∑ =ij a 若对i X 作标准化处理,=ij a ,因此 ij a 一方面表示i X 对j F 的依赖程度;另一方面也反映了

应用多元统计分析习题解答-主成分分析

主成分分析 6.1 试述主成分分析的基本思想。 答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取止。这就是主成分分析的基本思想。 6.2 主成分分析的作用体现在何处? 答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数” 6.3 简述主成分分析中累积贡献率的具体含义。 答:主成分分析把p 个原始变量12,, ,p X X X 的总方差()tr Σ分解成了p 个相互独立的变量p 个主成分的,忽略 一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们()m p <个主成分,则称1 1 p m m k k k k ψλλ ===∑∑ 为主成分1, ,m Y Y 的累计贡献率,累计贡献率表明1,,m Y Y 综合12,, ,p X X X 的能力。通常取m ,使得累计贡 献率达到一个较高的百分数(如85%以上)。 答:这个说法是正确的。 即原变量方差之和等于新的变量的方差之和 6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。 答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵出发的,其结果受变量单位的影响。主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。实际表明,这种差异有时很大。我 6.6 已知X =()’的协差阵为 试进行主成分分析。 解:=0 计算得 当 时 ,

多元统计分析上机作业

多远统计上机作业 指标的原始数据取自《中国统计年鉴, 1995》和《中国教育统计年鉴, 1995》除以各地区相应的人口数得到十项指标值见表 1。其中: X1 X2 X3 X4 X5 X6:为每百万人口高等院校数; :为每十万人口高等院校毕业生数; :为每十万人口高等院校招生数; :为每十万人口高等院校在校生数; :为每十万人口高等院校教职工数; :为每十万人口高等院校专职教师数; X7: 为高级职称占专职教师的比例; X8 :为平均每所高等院校的在校生数; X9 :为国家财政预算内普通高教经费占 国内生产总值的比重; X10: 为生均教育经费。 表 1 我国各地区普通高等教育发展状况数据 地区X1X2X3X4X5X6X7X8X9X10北京 5.96310461155793131944.362615 2.2013631上海 3.39234308103549816135.023052.9012665天津 2.3515722971329510938.403031.869385陕西 1.35811113641505830.452699 1.227881辽宁 1.50881284211445834.302808.547733吉林 1.67861203701535833.532215.767480黑龙江 1.1763932961174435.222528.588570湖北 1.0567922971154332.892835.667262江苏.9564942871023931.543008.397786广东.693971205612434.502988.3711355四川.564057177612332.623149.557693山东.575864181572232.953202.286805甘肃.714262190662628.132657.737282湖南.744261194612433.062618.476477浙江.864271204662629.942363.257704新疆 1.2947732651144625.932060.375719福建 1.045371218632629.012099.297106山西.855365218763025.632555.435580河北.814366188612329.822313.315704安徽.593547146462032.832488.335628云南.663640130441928.551974.489106江西.774363194672328.812515.344085海南.703351165471827.342344.287928内蒙古.844348171652927.652032.325581西藏 1.692645137753312.10810 1.0014199河南.553246130441728.412341.305714广西.602843129391731.932146.245139宁夏 1.394862208773422.701500.425377贵州.64233293371628.121469.345415青海 1.483846151633017.871024.387368

相关主题
文本预览
相关文档 最新文档