当前位置:文档之家› 多元统计分析课程设计

多元统计分析课程设计

多元统计分析课程设计
多元统计分析课程设计

《多元统计分析》

课程设计指导书

一、课程设计的目的

掌握用统计软件利用主成分分析的方法对涉及众多变量的某一问题进行分析

二、设计名称:用统计软件利用主成分分析法对涉及进行众多变量的

问题进行分析

三、设计要求

掌握用统计软件利用主成分分析的方法对涉及进行众多变量的问题进行分析的方法

掌握利用SPSS软件求初始变量的协方差阵或相关阵的特征根与相应标准特征向量判断是否存在明显的多重共线性

掌握利用SPSS软件求得主成分

四、设计过程

1、收集数据

2、根据研究问题选取初始分析变量

3、求协方差阵或相关阵的特征根与相应标准特征向量

4、判断是否存在明显的多重共线性,若存在,则回到第一步

5、得到主成分的表达式并确定主成分的个数,选取主成分

6、对主成分进行分析得出结果,完成设计报告

五、设计细则

1.注意对数据的采集,不要过于繁杂,不要过少

2.吸取他人的经验,总结自己的教训,有条不紊的进行

3.上机前先作好准备,上机时积极改进方法

六、说明

为了培养自己的上机操作方法,所以我尽量运用SPSS软件上的检验方法

课程设计任务书

课程设计报告

课程:多元统计分析学号:

姓名:

班级:

教师:

设计名称:用统计软件利用主成分分析法对涉及进行众多变量的问题进行分析设计内容:在企业经济效益的评价中,设计的指标往往很多。为了简化系统结构,抓住经

济效益评价中的主要问题,我们可由原始数据矩阵出发求主成分。在对我国部分省、市、自治区独立核算的工业企业的经济效益评价中,设计9项指标,原始数据见下表样品数n=28,变量数p=9

100固定资产原值实现值(%)100元固定

资产原值

实现利税

(%)

100元

资金

实现

利税

(%)

100元工

业总产

值实现

利税(%)

100元销售

收入实现

利税(%)

每吨标准

煤实现工

业产值

(元)

每千瓦

时电力

实现工

业产值

(元)

全员劳动

生产率(元

/人.年)

100元流

动资金

实现产

值(元)

北京(1)119.29 30.98 29.92 25.97 15.48 2178 3.41 21006 296.7

天津(2)143.98 31.59 30.21 21.94 12.29 2852 4.29 20254 363.1 河北(3)94.8 17.2 17.95 18.14 9.37 1167 2.03 12607 322.2 山西(4)65.8 11.08 11.06 12.15 16.84 8.82 1.65 10166 284.7 内蒙(5)54.79 9.24 9.54 16.86 6.27 894 1.8 7564 225.4 辽宁(6)94.51 21.12 22.83 22.35 11.28 1416 2.36 13.386 311.7 吉林(7)80.49 13.36 13.76 16.6 7.14 1306 2.07 9400 274.1 黑龙江

(8)75.86 15.82 16.67 20.86 10.37 1267 2.26 9830 267 上海(9)187.79 45.9 39.77 24.44 15.09 4346 4.11 31246 418.6 江苏(10)205.96 27.65 22.58 13.42 7.81 3202 4.69 23377 407.2 浙江(11)207.46 33.06 25.78 15.94 9.28 3811 4.19 22054 385.5 安徽(12)110.78 20.7 20.12 18.69 6.6 1468 2.23 12578 341.1 福建(13)122.76 22.52 19.93 18.34 8.35 2200 2.63 12164 301.2 江西

(14)94.94 14.7 14.18 15.49 6.69 1669 2.24 10463 274.4 山东(15)117.58 21.93 20.89 18.65 9.1 1820 2.8 17829 331.1 河南(16)85.98 17.3 17.18 20.12 7.67 1306 1.89 11247 276.5 湖北(17)103.96 19.5 18.48 18.77 9.16 1829 2.75 15745 308.9 湖南(18)104.03 21.47 21.28 20.63 8.72 1272 1.98 13161 309 广东(19)136.44 23.64 20.83 17.33 7.85 2959 3.71 16259 334 广西(20)100.72 22.04 20.9 21.88 9.67 1732 2.13 12441 296.4 四川(21)84.73 14.35 14.17 16.93 7.96 1310 2.34 11703 242.5 贵州(22)59.05 14.48 14.35 24.53 8.09 1068 1.32 9710 206.7 云南(23)73.72 21.91 22.7 29.72 9.38 1447 1.94 12517 295.8 陕西(24)78.02 13.13 12.57 16.83 9.19 1731 2.08 11369 220.3 甘肃(25)59.62 14.07 16.24 23.59 11.34 926 1.13 13084 246.8 青海(26)51.66 8.32 8.26 16.11 7.05 1055 1.31 9246 176.49 宁夏(27)52.95 8.25 8.82 15.57 6.58 834 1.12 10406 245.4 新疆(28)60.29 11.26 13.14 18.68 8.39 1041 2.9 10983 266

设计目的与要求:

掌握用统计软件利用主成分分析的方法对涉及众多变量的某一问题进行分析 设计环境或器材、原理与说明: 机房spss 软件

设()

1,,p X X '=x 是一个p 维随机向量,有二阶矩存在,记()E =μx ,()D =Σx 。

考虑它的线性变换:

11

11121212212122221122p p p p

p

p p p pp p Y a X a X a X Y a X a X a X Y a X a X a X

'==+++??

'==+++??

?

?'==+++?a x a x a x (5.1) 易见

()()()(),,,,

i i i i i j i j i j Var Y Var Cov Y Y Cov ''=='''==a x a Σa a x a x a Σa 1,,i p = (5.2)

假如我们希望用1Y 来代替原来的p 个变量1,,p X X ,这就要求1Y 尽可能地反映原来p 个变量的信息,这里“信息”用什么来表达?最经典的方法是用1Y 的方差来表达。()1Var Y 越大,表示1Y 包含的信息越多。由(5.2)可以看出,对1a 必须有某种限制,否则可使()1Var Y →∞,常用的限制是

1,1

,,i i i p '==a a (5.3) 故我们希望在约束(5.3)下找1a ,使得()1Var Y 1

1'=a Σa 达到极大,1Y 就称为第一主成分。如果一个主成分不足以代表原p 个变量,可再考虑采用2Y ,为了最有效地代表原变量的信息,

1Y 已有的信息就不需要出现在2Y 中,用数学语言来讲,就是

()12,0Cov Y Y = (5.4)

于是,求2Y 就是在约束(5.3)和(5.4)下求2a ,使()2Var Y 达到极大,所求的2Y 称为第二主成分。类似地,我们可以定义第三主成分、第四主成分、…。一般地讲,x 的第i 个主成分i i Y '=a x 是指:在约束

1,1

,,i i i p '==a a ()()(),,0i k i k Cov Y Y Cov k i ''==

下求i a ,使得()i Var Y i i '=a Σa 达到极大。

令10p λλ≥≥≥ 表示()D =Σx 的特征根,1,,p t t 为相应的单位特征向量。若特征根有重根,对应于这个特征根的特征向量组成一个p

R 的子空间,子空间的维数等于重根的次数。在子空间中任取一组正交的坐标系,这个坐标系的单位向量就可用来作为它的特征向量。显然,这时特征向量的取法不唯一,有无穷多种取法,在下面的讨论中,我们总假定已选定的某一种取法。

设计过程(步骤)或程序代码:

1、将原始数据标准化,标准化的数据见下表

0.423523 1.338405 1.590282 1.687556 2.239634 0.481971 0.954746 1.260371 0.04880.995199 1.409649 1.631453 0.667228 1.065873 1.188758 1.855394 1.133844 1.2001-0.14352 -0.271 -0.10906 -0.29487 -0.00854 -0.57821 -0.45763 -0.15279 0.490-0.81499 -0.98577 -1.08721 -1.81143 2.740046 -1.79273 -0.84655 -0.56349 -0.159-1.06992 -1.20067 -1.303 -0.61894 -1.14919 -0.86449 -0.69303 -1.00129 -1.187-0.15024 0.186827 0.583737 0.771033 0.694243 -0.3171 -0.11989 -2.2717 0.3089-0.47486 -0.71949 -0.7039 -0.68477 -0.82907 -0.43245 -0.4167 -0.69238 -0.343-0.58206 -0.43218 -0.29078 0.39379 0.359408 -0.47334 -0.22224 -0.62003 -0.4662.009583 3.080956 2.988656 1.300186 2.096133 2.755433 1.671171 2.983284 2.16252.430294 0.949485 0.548246 -1.48989 -0.58254 1.555783 2.26478 1.659299 1.96482.465025 1.581335 1.002539 -0.85187 -0.04166 2.194408 1.753048 1.4367 1.58850.226481 0.137774 0.199007 -0.15562 -1.02776 -0.26257 -0.25294 -0.15767 0.81860.503868 0.350337 0.172033 -0.24423 -0.38385 0.505041 0.156444 -0.22732 0.1268-0.14028 -0.56298 -0.64428 -0.9658 -0.99465 -0.05179 -0.24271 -0.51352 -0.3370.383929 0.281429 0.308322 -0.16574 -0.10789 0.106557 0.330433 0.72583 0.6452-0.34774 -0.25932 -0.21838 0.206435 -0.63406 -0.43245 -0.60092 -0.38161 -0.3010.068569 -0.00238 -0.03382 -0.13536 -0.08581 0.115994 0.27926 0.37519 0.26030.07019 0.227705 0.363689 0.335558 -0.24771 -0.4681 -0.50881 -0.05958 0.26200.820617 0.481145 0.299804 -0.49995 -0.56783 1.300963 1.261785 0.461673 0.6955-0.00645 0.294277 0.309741 0.652037 0.101843 0.014276 -0.35529 -0.18072 0.0436-0.37669 -0.60386 -0.6457 -0.60122 -0.52735 -0.42825 -0.14036 -0.30489 -0.891-0.97128 -0.58868 -0.62014 1.322972 -0.47952 -0.68202 -1.18429 -0.64022 -1.511-0.63161 0.279093 0.565282 2.636993 -0.00486 -0.28459 -0.54975 -0.16793 0.0331-0.53205 -0.74635 -0.87284 -0.62654 -0.07477 0.013227 -0.40646 -0.36109 -1.275-0.95809 -0.63656 -0.35182 1.08498 0.71632 -0.83093 -1.37875 -0.07253 -0.816-1.14239 -1.30812 -1.48472 -0.80883 -0.86219 -0.69566 -1.19453 -0.71829 -2.035-1.11252 -1.3163 -1.40522 -0.94555 -1.03512 -0.92741 -1.38899 -0.52311 -0.840-0.94257 -0.96475 -0.79192 -0.15815 -0.36913 -0.71034 0.432779 -0.42603 -0.483

2、将以上数据导入spss 软件,依次点击分析—降维—因子分析

点击 按钮,在弹出的对话框中,在 中选择。回到原对话框点击右侧的确定。即可得到以下输出结果

由输出结果看到前面两个主成分y1,y2的方差和占全部方差的比例为84.7%。我们就选取y1为第一主成分,y2为第二主成分。且这两个主成分占全部方差的84.7%,即基本上保留了原来指标的信息,这样由原来的9个指标转化为2个新的指标,起到了降维的作用

2、spss软件得到主成分系数矩阵如下:

3、由以上结果得到前两个主成分的线性组合为

y1=0.931x1+0.976x2+0.931x30.232x4+0.433x5+0.923x6+0.897x7+0.871x8+0.8 99x9

y2=-0.315x1+0.163x2+0.322x3+0.863x4+0.596x5-0.2x6-0.274x7-0.064x8-0.1 54x9

4、对所选主成分做经济解释:第一主成分的线性组合中除了100元工业总产值实

现利税和100元销售收入实现利税外,其余变量的系数相当所以第一主成分可以看成是x1,x2,x3,x6,x7,x8,x9的综合变量。可以解释为第一主成分反映了工业生产中投入的资金、劳动力所产生的效果,他是投入和产出之比。第一主成分所占信息总量为68.3%,在我国目前的工业企业中,经济效益首先反映在投入与产出之比上,其中固定资产所产生的经济效益更大一些。第二主成分是把工业生产中所得产量(即工业总产值和销售收入)与局部量(即利税)进行比较,反映了产出对国家所做的贡献。这样,在抓企业经济效益活动中,就应注重投入与产出之比和产出对国家所做的贡献,抓住了这两个方面,经济效益一定会提高

5、通常为了分析各样品在主成分所反映的经济意义方面的情况,还将标准化后

的原始数据代入主成分表达式计算各样品的主成分得分

6.99 2.94

9.27 0.65

-1.21 -0.12

-5.01 0.47

-7.38 -0.89

-1.04 1.54

-4.00 -0.98

-2.58 0.84

17.45 1.67

9.78 -3.41

10.83 -2.21

0.18 -0.73

1.27 -0.63

-2.95 -1.52

2.44 -0.44

-2.55 0.12

0.88 -0.36

-0.11 0.47

4.51 -1.60

0.34 0.87

-3.50 -0.74

-5.57 1.60

-0.05 2.91

-4.03 -0.49

-4.08 2.12

-8.45 -0.72

-7.61 -1.02

-3.83 -0.35

6、由各样品的主成分得分就可在二维空间中描述出各样品的分布情况

由上图可知,分布在第一象限的是上海、北京、天津、广西4个省区,这四个省区的经济效益在全国来说比较好的,其中,上海的经济效益最好。分布在第四象限的是江苏、浙江、安徽、福建、山东、湖北、广东7个省区。因为第四象限的主要特征是第一主成分,第一主成分占信息总量的比重最大,所以这7个省区的经济效益也算较好。分布在第二和第三象限的地区可属同一类,经济效益较差设计结果与分析(可以加页):

设计体会与建议:

经过了两周的课程设计,深有感触啊,从本次课程设计的目的来看,收获也是不少的,它使我们对课本以及以前学过的知识有了一个更好的总结与理解,也让我们知道了,光分开使用是不够的,从书本上学到的知识要自己整理归纳形成自己的想法,然后进行构思设计,这很好的训练对对开发一个项目,应该有怎样的思路和准备更清晰。来学校三年了,从最早的实验报告到现在的课程设计,每一个自己都觉得有一个进步,虽然有时有些方面我自己做不

出,但可以从老师和其他同学那里学到更好更多的东西,他们从另一个方面透析了我自己的困难,这是很重要的,它让我学会了怎样学习别人的长处并把它变成自己的长处。有这样的机会和收获,要感谢老师的辅导以及同学的帮助,是他们让我对自己有了一个更好的认识,无论是学习还是生活,生活是实在的,要踏实走路,虽然自己走出来的路要崎岖的多,但觉得踏实、放心。

最后建议软件应该更完善些,有些检验完成不了,希望我们以后能有更多的机会接触此类型的软件,帮助我们更全面的掌握跟统计有关的知识和具体操作。

设计成绩:教师签名:

年月日

应用多元统计分析课后答案

2.1.试叙述多元联合分布和边际分布之间的关系。 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=L 的联合分布密 度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=L 的子向量的概率分布,其概率密度 函数的维数小于p 。 2.2设二维随机向量1 2()X X '服从二元正态分布,写出其联合分布。 解:设1 2()X X '的均值向量为()1 2μμ'=μ,协方差矩阵为21 122212σσσσ?? ? ?? ,则其联合分布密度函数为 1/2 12 2 2112112222122121()exp ()()2f σσσσσσσσ--???????? '=---?? ? ??? ?????? x x μx μ。 2.3已知随机向量12()X X '的联合密度函数为 12121222 2[()()()()2()()] (,)()()d c x a b a x c x a x c f x x b a d c --+-----= -- 其中1a x b ≤≤,2c x d ≤≤。求 (1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断 1X 和2X 是否相互独立。 (1)解:随机变量 1X 和2X 的边缘密度函数、均值和方差; 11212122 2[()()()()2()()] ()()()d x c d c x a b a x c x a x c f x dx b a d c --+-----=--? 1221222222 2()()2[()()2()()]()()()() d d c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----? 121 222202()()2[()2()]()()()() d d c c d c x a x b a t x a t dt b a d c b a d c ------= +----? 221212222 2()()[()2()] 1()()()()d c d c d c x a x b a t x a t b a d c b a d c b a ------=+= ----- 所以 由于1X 服从均匀分布,则均值为2b a +,方差为 ()2 12 b a -。

多元统计分析期末试题

一、填空题(20分) 1、若),2,1(),,(~)(n N X p 且相互独立,则样本均值向量X 服从的分布 为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ,总体),(~ p N X ,对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ,兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是: x y 10,多元回归的数学模型是: p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 二、计算题(60分) 1、设三维随机向量),(~3 N X ,其中 200031014,问1X 与2X 是否独立?),(21 X X 和3X 是否独立?为什么? 解: 因为1),cov(21 X X ,所以1X 与2X 不独立。 把协差矩阵写成分块矩阵 22211211,),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ,而012 ,所以),(21 X X 和3X 是不相关的,而正态分布不相关与相互

应用多元统计分析习题解答典型相关分析Word版

第九章 典型相关分析 9.1 什么是典型相关分析?简述其基本思想。 答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。用于揭示两组变量之间的内在联系。典型相关分析的目的是识别并量化两组变量之间的联系。将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。 基本思想: (1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。即: 若设(1) (1)(1) (1)12(,, ,)p X X X =X 、(2)(2)(2) (2) 12(,, ,)q X X X =X 是两组相互关联的随机变量, 分别在两组变量中选取若干有代表性的综合变量Ui 、Vi ,使是原变量的线性组合。 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大。(2)选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。 (3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。 9.2 什么是典型变量?它具有哪些性质? 答:在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。具体来说, ()(1)()(1) ()(1) ()(1)1122i i i i i P P U a X a X a X '=++ +a X ()(2)()(2) ()(2) ()(2)1122i i i i i q q V b X b X b X '=+++b X 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大,则称 (1)(1)'a X 、(1)(2)'b X 是(1)X 、(2)X 的第一对典型相关变量。 典型变量性质: 典型相关量化了两组变量之间的联系,反映了两组变量的相关程度。 1. ()1,()1 (1,2,,)k k D U D V k r === (,)0,(,)0()i j i j Cov U U Cov V V i j ==≠ 2. 0(,1,2,,) (,)0 ()0() i i j i j i r Cov U V i j j r λ≠==?? =≠??>? 9.3 试分析一组变量的典型变量与其主成分的联系与区别。 答:一组变量的典型变量和其主成分都是经过线性变换计算矩阵特征值与特征向量得出的。主成分分析只涉及一组变量的相互依赖关系而典型相关则扩展到两组变量之间的相互依赖关系之中 ()(1)()(1)()(1)()(1) 1122i i i i i P P U a X a X a X '=+++a X ()(2)()(2)()(2)()(2)1122i i i i i q q V b X b X b X '=+++b X (1)(1)(1)(1)1 2 (,,,)p X X X =X 、(2)(2)(2)(2)1 2 (,,,)q X X X =X

多元统计分析模拟试题教学提纲

多元统计分析模拟试 题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐 步判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、 极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 = 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转 化为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

应用多元统计分析习题解答_第五章

第五章 聚类分析 判别分析和聚类分析有何区别 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 对样品和变量进行聚类分析时, 所构造的统计量分别是什么简要说明为什么这样构造 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()() p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1)p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 21/2 1 (2)() p ij ik jk k d X X ==-∑ (3)切比雪夫距离(q =∞) 1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p 维空间的向量,一般用 2 1()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-=+∑

多元统计分析期末试题及答案

22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92, 3216___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立? (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

多元统计分析模拟考题及答案

一、判断题 ( 对 )112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵 ( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。 ( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。 ( 错)5),(~),,,(21∑'=μp p N X X X X Λ,,X S 分别是样本均值和样本离差阵,则, S X n 分别是,μ∑的无偏估计。 ( 对)6),(~),,,(21∑'=μp p N X X X X Λ,X 作为样本均值μ的估计,是 无偏的、有效的、一致的。 ( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。 ( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等 价。 (对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设∑是总体1(,,)m X X X =L 的协方差阵,∑的特征根(1,,)i i m λ=L 与相应的单 位正交化特征向量 12(,,,)i i i im a a a α=L ,则第一主成分的表达式是 11111221m m y a X a X a X =+++L ,方差为 1λ。 3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别 为:' 112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- ' 221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--

应用多元统计分析习题解答_因子分析

第七章 因子分析 7.1 试述因子分析与主成分分析的联系与区别。 答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。 因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。 7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。 7.3 简述因子模型中载荷矩阵A 的统计意义。 答:对于因子模型 1122i i i ij j im m i X a F a F a F a F ε=++++ ++ 1,2, ,i p = 因子载荷阵为11 12121 22212 1 2 (,, ,)m m m p p pm a a a a a a A A A a a a ????? ?==???????? A i X 与j F 的协方差为: 1Cov(,)Cov(,)m i j ik k i j k X F a F F ε==+∑ =1 Cov( ,)Cov(,)m ik k j i j k a F F F ε=+∑ =ij a

应用多元统计分析试题及答案

一、填空题: 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立,则样本均值向量x服从的分布 为_x~N(μ,Σ/n)_。 二、简答 1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。 相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A

和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。 从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数: 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设 和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI : /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S

多元统计分析期末复习试题

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: )',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的),(~∑μP N X μ∑μp X X X ,,,21Λ),(~∑μP N X ) ,('A A d A N s ∑+μ)()1(,, n X X ΛX )',,,(21p X X X Λ)')(()()(1X X X X i i n i --∑=n 1X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

应用多元统计分析习题解答-主成分分析

主成分分析 6.1 试述主成分分析的基本思想。 答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取止。这就是主成分分析的基本思想。 6.2 主成分分析的作用体现在何处? 答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数” 6.3 简述主成分分析中累积贡献率的具体含义。 答:主成分分析把p 个原始变量12,, ,p X X X 的总方差()tr Σ分解成了p 个相互独立的变量p 个主成分的,忽略 一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们()m p <个主成分,则称1 1 p m m k k k k ψλλ ===∑∑ 为主成分1, ,m Y Y 的累计贡献率,累计贡献率表明1,,m Y Y 综合12,, ,p X X X 的能力。通常取m ,使得累计贡 献率达到一个较高的百分数(如85%以上)。 答:这个说法是正确的。 即原变量方差之和等于新的变量的方差之和 6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。 答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵出发的,其结果受变量单位的影响。主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。实际表明,这种差异有时很大。我 6.6 已知X =()’的协差阵为 试进行主成分分析。 解:=0 计算得 当 时 ,

多元统计分析期末复习试题

第一章: 多元统计分析研究的容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X均值向量: 随机向量X与Y的协方差矩阵: 当X=Y时Cov(X,Y)=D(X);当Cov(X,Y)=0 ,称X,Y不相关。 随机向量X与Y的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X,Y为随机向量,A,B 为常数矩阵 E(AX)=AE(X); E(AXB)=AE(X)B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ

Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。 4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。 三、样品间相近性的度量 研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

应用多元统计分析习题解答_朱建平_第九章

Abbo无私奉献,只收1个金币,BS收5个金币的… 何老师考简单点啊……

第九章 典型相关分析 9.1 什么是典型相关分析?简述其基本思想。 答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。用于揭示两组变量之间的内在联系。典型相关分析的目的是识别并量化两组变量之间的联系。将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。 基本思想: (1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。即: 若设(1) (1)(1) (1)12(,,,)p X X X =X 、(2) (2)(2)(2) 12(,,,)q X X X =X 是两组相互关联的随机变量, 分别在两组变量中选取若干有代表性的综合变量Ui 、Vi ,使是原变量的线性组合。 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大。(2)选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。 (3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。 9.2 什么是典型变量?它具有哪些性质? 答:在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。具体来说, ()(1) ()(1)()(1)()(1) 11 22i i i i i P P U a X a X a X ' =+++a X ()(2) ()(2)()(2) ()(2) 11 22i i i i i q q V b X b X b X ' =+++b X 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大,则称 (1)(1)'a X 、(1)(2) 'b X 是(1)X 、(2)X 的第一对典型相关变量。 典型变量性质: 典型相关量化了两组变量之间的联系,反映了两组变量的相关程度。 1. ()1,()1 (1,2,,)k k D U D V k r === (,)0, (,)0 ()i j i j C ov U U C ov V V i j ==≠ 2. 0 (,1,2,,)(,)0()0()i i j i j i r C ov U V i j j r λ≠==?? =≠??>? 9.3 试分析一组变量的典型变量与其主成分的联系与区别。 答:一组变量的典型变量和其主成分都是经过线性变换计算矩阵特征值与特征向量得出的。主成分分析只涉及一组变量的相互依赖关系而典型相关则扩展到两组变量之间的相互依赖关系之中,度量了这两组变量之间联系的强度。 ()(1)()(1)()(1)()(1) 1122i i i i i P P U a X a X a X '=+++a X ()(2)()(2)()(2)()(2) 1122i i i i i q q V b X b X b X '=+++b X (1)(1)(1)(1)1 2 (,,,)p X X X = X 、(2)(2)(2)(2)1 2 (,,,)q X X X = X

多元统计分析期末考试考点整理共5页

多元统计分析 题型一定义、名词解释 题型二计算(协方差阵、模糊矩阵) 题型三解答题 一、定义 二名词解释 1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广 2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。使类内对象的同质性最大化和类间对象的异质性最大化 3、随机变量:是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向量。类似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量 三、计算题 解: 答:

答: 题型三解答题 1、简述多元统计分析中协差阵检验的步骤 答: 第一,提出待检验的假设和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 2、简述一下聚类分析的思想 答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 3、多元统计分析的内容和方法 答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等 2、分类与判别,对所考察的变量按相似程度进行分类。(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。(2)判别分析:判别样本应属何种类型的统计方法。

应用多元统计分析课后答案

应用多元统计分析课后答案 第五章 聚类分析 判别分析和聚类分析有何区别 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 对样品和变量进行聚类分析时, 所构造的统计量分别是什么简要说明为什么这样构造 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()() p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1)p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 21/2 1 (2)() p ij ik jk k d X X ==-∑ (3)切比雪夫距离(q =∞)

1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p 维空间的向量,一般用 (一)夹角余弦 (二)相关系数 在进行系统聚类时,不同类间距离计算方法有何区别选择距离公式应遵循哪些原则 答: 设d ij 表示样品X i 与X j 之间距离,用D ij 表示类G i 与G j 之间的距离。 (1). 最短距离法 ,min i k j r kr ij X G X G D d ∈∈= min{,}kp kq D D = (2)最长距离法 ,max i p j q pq ij X G X G D d ∈∈= 21 ()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-=+∑ cos p ik jk ij X X θ= ∑ ()() p ik i jk j ij X X X X r --= ∑ ij G X G X ij d D j j i i ∈∈= ,min

多元统计分析模拟考题及答案

、判断题 (对)1X (兀公2丄,X p)的协差阵一定是对称的半正定阵 (对)2标准化随机向量的协差阵与原变量的相关系数阵相同。 (对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 (对)4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。(错)5X (X-X2,,X p) ~ N p( , ),X,S分别是样本均值和样本离 S 差阵,则X,—分别是,的无偏估计。 n (对)6X (X「X2, ,X p) ~ N p( , ),X作为样本均值的估计,是无偏的、有效的、一致的。 (错)7因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 (对)8因子载荷阵A (a j)中的a ij表示第i个变量在第j个公因子上的相对重要性。 (对)9判别分析中,若两个总体的协差阵相等,则Fisher判别与距离判别等价。(对)10距离判别法要求两总体分布的协差阵相等,Fisher判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设是总体X (X」,X m)的协方差阵,的特征根i(i 1,L ,m)与相应的单 位正交化特征向量i (盼无丄,a m),则第一主成分的表达式是 y1 Q1X1 812X2 L QmX m 方差为1。 3设是总体X (X1,X2,X3, X4)的协方差阵,的特征根和标准正交特征向量分别为: 1 2.920 U;(0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U2(0.9544, 0.0984,0.2695,0.0824) 3 0.049 U3(0.2516,0.7733, 0.5589, 0.1624) 0.007U4 ( 0.0612,0.2519,0.5513, 0.7930),则其第二个主成分的表达式是 4

多元统计分析期末考试考点整理

二名词解释 1、 多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理 论和方法,是一元统计学的推广 2、 聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方 法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 使类内对象的同质性最大化和类间对象的异质性最大化 3、 随机变量:是指变量的值无法预先确定仅以一定的可能性 (概率)取值的量。它是由于随 机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向 量。类 似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题 ,为了了解总体的特征,通过对总体抽样得到代表 总体的样本,但因为信息是分散在每个样本上的 ,就需要对样本进行加工,把样本的信息浓缩 到不包含未知量的样本函数中,这个函数称为统计量 二、计算题 ^16 -4 2 k 设H = 其中启= (1Q —纣眉=-4 4-1 [― 试判断叼+ 2吟与 「花一? [是否独立? 解: "10 -6 -15 -6 1 a 2U -16 20 40 故不独立口 -r o 2丿 按用片的联合分帚再I -6 lti 20 -1G 20 ) -1V16 -4 0 -4 A 2 丿"-1

2.对某地区农村的百名2周宙男翌的身高、胸圉、上半骨圉进行测虽,得相关数据如下』根据汶往资料,该地区城市2周岁男婴的遠三个指标的均值血二(90Q乩16庆现欲在多元正态性的假定下检验该地区农村男娶是否与城市男婴有相同的均值?伽厂43107-14.62108.946^1 ]丼中乂=60.2x^)-1=(115.6924)-1-14.6210 3.172-37 3760 、8.9464-37 376035.S936」= 0.01, (3,2) = 99.2, 03) =293 隔亠4) =16.7) 答: 2、假设检验问题:比、# =险用‘//H地 r-8.o> 经计算可得:X-^A 22 厂 「3107 -14.6210 ST1=(23J3848)-1 -14.6210 3.172 8 9464 -37 3760 E9464 -37.3760 35.5936 构造检验统计量:尸=旳(丟-間)〃丿(巫-角) = 6x70.0741=420.445 由题目已知热“(3,)= 295由是 ^I =^W3,3)^147.5 所以在显著性水平ff=0.01下,拒绝原设尽即认 为农村和城市的2周岁男婴上述三个指标的均 值有显著性差异 (] 4、设盂=(耳兀.昂工/ ~M((XE),协方差阵龙=P P (1)试从匸出发求X的第一总体主成分; 答: (2)试|可当卩取多大时才链主成分册贡蕭率达阳滋以上.

相关主题
文本预览
相关文档 最新文档