当前位置:文档之家› 应用多元统计分析习题解答_第五章

应用多元统计分析习题解答_第五章

应用多元统计分析习题解答_第五章
应用多元统计分析习题解答_第五章

第五章 聚类分析

判别分析和聚类分析有何区别

答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。

试述系统聚类的基本思想。

答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。

对样品和变量进行聚类分析时, 所构造的统计量分别是什么简要说明为什么这样构造 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1

()()

p

q q

ij ik jk k d q X X ==-∑

q 取不同值,分为 (1)绝对距离(1q =)

1

(1)p

ij ik jk k d X X ==-∑

(2)欧氏距离(2q =)

21/2

1

(2)()

p

ij ik jk k d X X ==-∑

(3)切比雪夫距离(q =∞)

1()max ij ik jk

k p

d X X ≤≤∞=-

(二)马氏距离

(三)兰氏距离

对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p 维空间的向量,一般用

2

1()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk

ij k ik jk X X d L p X X =-=+∑

(一)夹角余弦

(二)相关系数

在进行系统聚类时,不同类间距离计算方法有何区别选择距离公式应遵循哪些原则 答: 设d ij 表示样品X i 与X j 之间距离,用D ij 表示类G i 与G j 之间的距离。 (1). 最短距离法

,min

i k j r

kr ij X G X G D d ∈∈=

min{,}kp kq D D =

(2)最长距离法

,max

i p j q

pq ij X G X G D d ∈∈=

,max

i k j r

kr ij X G X G D d ∈∈=

max{,}kp kq D D =

(3)中间距离法

其中

(4)重心法

2()()pq p q p q D X X X X '=-- )(1

q q p p r

r

X n X n n X +=

22

2

2

2

p q p q kr kp kq pq r

r

r n n n n D D D D n n n =

+

-

12

21

1

cos ()()

p

ik

jk

k ij

p p

ik jk k k X

X X X θ====

∑∑∑

12211()()()()p

ik i jk j k ij p p

ik i jk j k k X X X X r X X X X ===--=--∑∑∑

ij G X G X ij d D j

j i i ∈∈=

,min

2

2222

121pq kq kp kr D D D D β++=

(5)类平均法

221

i p j j

pq

ij

X G X G p q

D d n n ∈∈=

∑∑ 221

i k j r

kr

ij

X G X G k r D d

n n ∈∈=∑∑22p q kp

kq

r

r

n n D D n n =

+

(6)可变类平均法

其中?是可变的且? <1

(7)可变法

2222

1()2

kr kp kq pq D D D D ββ-=

++ 其中?是可变的且? <1 (8)离差平方和法

1

()()t

n t it t it t t S X X X X ='=--∑

2

222

k p k q

k kr

kp

kq

pq r k r k r k

n n n n n D D D D n n n n n n ++=+-+++

通常选择距离公式应注意遵循以下的基本原则:

(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。

(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。

(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。

试述K 均值法与系统聚类法的异同。

答:相同:K —均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。

不同:系统聚类对不同的类数产生一系列的聚类结果,而K —均值法只能产生指定类数的聚类结果。

2

222

(1)()p

q kr kp kq pq

r

r

n n D D D D n n ββ=-+

+

具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K —均值法确定类数的参考。

试述K 均值法与系统聚类有何区别试述有序聚类法的基本思想。

答:K 均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。系统聚类对不同的类数产生一系列的聚类结果,而K —均值法只能产生指定类数的聚类结果。具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K 均值法确定类数的参考。

有序聚类就是解决样品的次序不能变动时的聚类分析问题。如果用)()2()1(,,,n X X X Λ表示

n 个有序的样品,则每一类必须是这样的形式,即)()1()(,,,j i i X X X Λ+,其中,1n i ≤≤且

n j ≤,简记为},,1,{j i i G i Λ+=。在同一类中的样品是次序相邻的。一般的步骤是(1)

计算直径{D (i,j )}。(2)计算最小分类损失函数{L[p(l,k)]}。(3)确定分类个数k 。(4)最优分类。

检测某类产品的重量, 抽了六个样品, 每个样品只测了一个指标,分别为1,2,3,6,9,11.试用最短距离法,重心法进行聚类分析。 (1)用最短距离法进行聚类分析。 采用绝对值距离,计算样品间距离阵

0 1 0 2 1 0 5 4 3 0 8 7 6 3 0 10 9 8 5 2 0

由上表易知 中最小元素是 于是将,,聚为一类,记为

计算距离阵

3 0

6 3 0

8 5 2 0

中最小元素是=2 于是将,聚为一类,记为

计算样本距离阵

3 0

6 3 0

中最小元素是于是将,聚为一类,记为因此,

(2)用重心法进行聚类分析

计算样品间平方距离阵

1 0

4 1 0

25 16 9 0

64 49 36 9 0

100 81 64 25 4 0

易知中最小元素是于是将,,聚为一类,记为

计算距离阵

16 0

49 9 0

81 25 4 0

注:计算方法,其他以此类推。

中最小元素是=4 于是将,聚为一类,记为

计算样本距离阵

16 0

64 16 0

中最小元素是于是将,聚为一类,记为

因此,

下表是15个上市公司2001年的一些主要财务指标,使用系统聚类法和K-均值法分别对这些公司进行聚类,并对结果进行比较分析。

公司编号净资产

收益率

每股净

利润

总资产

周转率

资产负

债率

流动负

债比率

每股净

资产

净利润

增长率

总资产

增长率

1

2

30100

4

5

61086

7

8100

9

10100

11

12100

13

14

15

解:令净资产收益率为X1,每股净利润X2,总资产周转率为X3,资产负债率为X4,流动负债比率为X5,每股净资产为X6,净利润增长率为X7,总资产增长率为X8,用spss对公司聚类分析的步骤如下:

a)系统聚类法:

1.在SPSS窗口中选择Analyze→Classify→Hierachical Cluster,调出

系统聚类分析主界面,并将变量X8

-

X1移入Variables框中。在Cluster 栏中选择Cases单选按钮,即对样品进行聚类(若选择Variables,则

对变量进行聚类)。在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。

图系统分析法主界面

2.点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计量。

我们选择Agglomeration schedule与Cluster Membership中的Range of solution 2-4,如图所示,点击Continue按钮,返回主界面。

(其中,Agglomeration schedule表示在结果中给出聚类过程表,显示系统聚类的详细步骤;Proximity matrix 表示输出各个体之间的距离矩阵;Cluster Membership 表示在结果中输出一个表,表中显示每个个体被分配到的类别,Range of solution 2-4即将所有个体分为2至4类。)3.点击Plots按钮,设置结果输出窗口中给出的聚类分析统计图。选中

Dendrogram复选框和Icicle栏中的None单选按钮,如图,即只给出聚类树形图,而不给出冰柱图。单击Continue按钮,返回主界面。

图Statistics子对话框图Plots子对话框

4.点击Method按钮,设置系统聚类的方法选项。Cluster Method下拉列

表用于指定聚类的方法,这里选择Between-group inkage(组间平均数连接距离);Measure栏用于选择对距离和相似性的测度方法,选择Squared Euclidean distance(欧氏距离);单击Continue按钮,返回主界面。

图Method子对话框图Save子对话框

5.点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新变量。

None表示不保存任何新变量;Single solution表示生成一个分类变量,在其后的矩形框中输入要分成的类数;Range of solutions表示生成多

个分类变量。这里我们选择Range of solutions,并在后面的两个矩形

框中分别输入2和4,即生成三个新的分类变量,分别表明将样品分为2

类、3类和4类时的聚类结果,如图。点击Continue,返回主界面。

6.点击OK按钮,运行系统聚类过程。

聚类结果分析:

下面的群集成员表给出了把公司分为2类,3类,4类时各个样本所属类别的情况,另外,从右边的树形图也可以直观地看到,若将15个公司分为2类,则13独自为一类,其余的为一类;若分为3类,则公司8分离出来,自成一类。以此类推。

表各样品所属类别表

图聚类树形图

b)K均值法的步骤如下:

1.在SPSS窗口中选择Analyze→Classify→K-Means Cluster,调出K均

值聚类分析主界面,并将变量X1-X8移入Variables框中。在Method

框中选择Iterate classify,即使用K-means算法不断计算新的类中心,并替换旧的类中心(若选择Classify only,则根据初始类中心进行聚

类,在聚类过程中不改变类中心)。在Number of Cluster后面的矩形框中输入想要把样品聚成的类数,这里我们输入3,即将15个公司分为3类。

(Centers按钮,则用于设置迭代的初始类中心。如果不手工设置,则系统会自动设置初始类中心,这里我们不作设置。)

图 K均值聚类分析主界面

2.点击Iterate按钮,对迭代参数进行设置。Maximum Iterations参数框

用于设定K-means算法迭代的最大次数,输入10,Convergence Criterion参数框用于设定算法的收敛判据,输入0,只要在迭代的过程中先满足了其中的参数,则迭代过程就停止。单击Continue,返回主界面。

图Iterate子对话框

3.点击Save按钮,设置保存在数据文件中的表明聚类结果的新变量。我们

将两个复选框都选中,其中Cluster membership选项用于建立一个代表聚类结果的变量,默认变量名为qcl_1;Distance from cluster center 选项建立一个新变量,代表各观测量与其所属类中心的欧氏距离。单击Continue按钮返回。

图 Save子对话框

4.点击Options按钮,指定要计算的统计量。选中Initial cluster centers

和Cluster information for each case复选框。这样,在输出窗口中将给出聚类的初始类中心和每个公司的分类信息,包括分配到哪一类和该公司距所属类中心的距离。单击Continue返回。

图 Options子对话框

5.点击OK按钮,运行K均值聚类分析程序。

聚类结果分析:

以下三表给出了各公司所属的类及其与所属类中心的距离,聚类形成的类的中心的各变量值以及各类的公司数。由以上表格可得公司13与公司8各自成一类,其余的公司为一类。

通过比较可知,两种聚类方法得到的聚类结果完全一致。

下表是某年我国16个地区农民支出情况的抽样调查数据,每个地区调查了反映每人平均生活消费支出情况的六个经济指标。试通过统计分析软件用不同的方法进行系统聚类分析,并比较何种方法与人们观察到的实际情况较接近。

地区食品衣着燃料住房交通和

通讯

娱乐教

育文化

北京

天津

河北

山西

内蒙

辽宁

吉林

黑龙江

上海

江苏

浙江5

安徽

福建

江西

山东

河南

解:令食品支出为X1,衣着支出为X2,燃料支出为X3,住房支出为X4,交通和通讯支出为X5,娱乐教育文化支出为X6,用spss对16各地区聚类分析的步骤如题,不同的方法在第4个步骤的Method子对话框中选择不同的Cluster method。

1.Between-group inkage(组间平均数连接距离)

上表给出了把全国16个地区分为2类、3类和4类时,各地区所属的类别,另外从右边的树形图也可以直观地观察到,若用组间平均数连接距离将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。

2.Within-group linkage(组内平均连接距离)

若用组内平均数连接距离将这些地区分为3类,则9(上海)独自为一类,1(北京)独自为一类,剩余地区为一类。

3.Nearest neighbor(最短距离法)

若用最短距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)独自为一类,剩余地区为一类。

4.Furthest neighbor(最远距离法)

若用最远距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。

5.Centroid cluster(重心法)

若用重心法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。

6.Median cluster(中位数距离)

若用中位数距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。

7.Ward method(离差平方和)

若用离差平方和法将这些地区分为3类,则9(上海),1(北京)和11(浙江)为一类,2(天津)、6(辽宁)、7(吉林)、10(江苏)、12(安徽)、13(福建)和14(江西)为一类,剩余地区为一类。

根据上题数据通过SPSS 统计分析软件进行快速聚类运算,并与系统聚类分析结果进行比较。

解:快速聚类运算即K 均值法聚类,具体步骤同,聚类结果如下:

聚类的结果为9(上海)独自为一类,1(北京)、2(天津)、6(辽宁)、7(吉林)、10(江苏)、11(浙江)、13(福建)和14(江西)为一类,剩余地区为一类。

下表是2003年我国省会城市和计划单列市的主要经济指标:人均GDP 1x (元)、人均工业产值2x (元)、客运总量3x (万人)、货运总量4x (万吨)、地方财政预算内收入5x (亿元)、固定资产投资总额6x (亿元)、在岗职工占总人口的比例7x (%)、在岗职工人均工资额8x (元)、城乡居民年底储蓄余额9x (亿元)。试通过统计分析软件进行系统聚类分析,

并比较何种方法与人们观察到的实际情况较接近。

资料来源:《中国统计年鉴2004》

解:用spss对37个地区聚类分析的步骤如题,不同的方法在第4个步骤的Method子对话框中选择不同的Cluster method。

inkage(组间平均数连接距离)

从上面的树形图可以直观地观察到,若用组间平均数连接距离将这些地区分为3类,则24(深圳)独自为一类,10(上海)和16(厦门)为一类,剩余地区为一类。

linkage(组内平均连接距离)

若用组内平均数连接距离将这些地区分为3类,则24(上海)独自为一类,27(重庆)和28(成都)为一类,剩余地区为一类。

3. Nearest neighbor(最短距离法)

若用最短距离法将这些地区分为2类,则24(深圳)独自为一类,剩余地区为一类。

neighbor(最远距离法)

若用最远距离法将这些地区分为3类,则24(深圳)独自为一类,1(北京)、2(天津)、7(大连)、10(上海)、11(南京)、12(杭州)、13(宁波)、16(厦门)、19(青岛)、23(广州)、36(海宁)和37(海口)为一类,剩余地区为一类。

cluster(重心法)

若用重心法将这些地区分为3类,则24(深圳)独自为一类,10(上海)和16(厦门)为一类,剩余地区为一类。

cluster(中位数距离)

若用中位数距离法将这些地区分为3类,则24(深圳)独自为一类,1(北京)、2(天津)、7(大连)、10(上海)、11(南京)、12(杭州)、13(宁波)、16(厦门)、19(青岛)、23(广州)、36(海宁)和37(海口)为一类,剩余地区为一类。

method(离差平方和)

若用离差平方和法将这些地区分为3类,则24(深圳)独自为一类,1(北京)、2(天津)、7(大连)、10(上海)、11(南京)、12(杭州)、13(宁波)、16(厦门)、19(青岛)、23(广州)、36(海宁)和37(海口)为一类,剩余地区为一类。

经过比较,各种方法得到的结果又相似点也有不同点。笔者认为,其中最远距离法、中位数距离、离差平方和这三种方法所得到的结果与现实生活中人们的感觉比较相近。

下表是我国1991-2003年的固定资产投资价格指数,试对这段时期进行分段,并据此

年份1991199219931994199519961997

指数

年份199819992000200120022003

指数

应用多元统计分析试题及答案

一、填空题: 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立,则样本均值向量x服从的分布 为_x~N(μ,Σ/n)_。 二、简答 1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。 相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A

和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。 从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数: 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设 和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI : /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S

多元统计分析模拟考题及答案.docx

一、判断题 ( 对 ) 1 X ( X 1 , X 2 ,L , X p ) 的协差阵一定是对称的半正定阵 ( 对 ( ) 2 标准化随机向量的协差阵与原变量的相关系数阵相同。 对) 3 典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4 多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据 分析方法。 ( 错)5 X (X 1 , X 2 , , X p ) ~ N p ( , ) , X , S 分别是样本均值和样本离 差阵,则 X , S 分别是 , 的无偏估计。 n ( 对) 6 X ( X 1 , X 2 , , X p ) ~ N p ( , ) , X 作为样本均值 的估计,是 无偏的、有效的、一致的。 ( 错) 7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对) 8 因子载荷阵 A ( ij ) ij 表示第 i 个变量在第 j 个公因子上 a 中的 a 的相对重要性。 ( 对 )9 判别分析中, 若两个总体的协差阵相等, 则 Fisher 判别与距离判别等价。 (对) 10 距离判别法要求两总体分布的协差阵相等, Fisher 判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、 样本相关系数矩阵. 2、 设 是总体 的协方差阵, 的特征根 ( 1, , ) 与相应的单 X ( X 1,L , X m ) i i L m 位 正 交 化 特 征 向 量 i ( a i1, a i 2 ,L ,a im ) , 则 第 一 主 成 分 的 表 达 式 是 y 1 a 11 X 1 a 12 X 2 L a 1m X m ,方差为 1 。 3 设 是总体 X ( X 1, X 2 , X 3, X 4 ) 的协方差阵, 的特征根和标准正交特征向量分别 为: 1 2.920 U 1' (0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U 2' (0.9544, 0.0984,0.2695,0.0824) 3 0.049 U 3' (0.2516,0.7733, 0.5589, 0.1624) 4 0.007 U 4' ( 0.0612,0.2519,0.5513, 0.7930) ,则其第二个主成分的表达式是

多元统计分析期末试题

一、填空题(20分) 1、若),2,1(),,(~)(n N X p 且相互独立,则样本均值向量X 服从的分布 为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ,总体),(~ p N X ,对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ,兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是: x y 10,多元回归的数学模型是: p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 二、计算题(60分) 1、设三维随机向量),(~3 N X ,其中 200031014,问1X 与2X 是否独立?),(21 X X 和3X 是否独立?为什么? 解: 因为1),cov(21 X X ,所以1X 与2X 不独立。 把协差矩阵写成分块矩阵 22211211,),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ,而012 ,所以),(21 X X 和3X 是不相关的,而正态分布不相关与相互

多元统计分析试题(A卷)

广西科技大学 2013 — 2014 学年第 2 学期课程考核试题 考核课程 多元统计分析 ( A 卷)考核班级 统计101、102班 学生数 114 印数 120 考核方式 闭卷 考核时间 120 分钟 一、填空题(每空3分,共15分) 1、设 2~(,) X N μ∑,其中 12(,)X x x ' =, 12(,)μμμ' =, 2 11ρσρ ?? ∑= ??? ,则 1212ov(,)C x x x x +-= 。 2、设A 和B 为常数矩阵,ov(,)C x y =∑,则ov(,)C Ax By = 。 3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。根据分类对象的不同,聚类分析分为 聚类和 聚类。 4、因子分析中,因子载荷矩阵A 中元素ij a 的统计意义 是 。 5、为研究两组变量12,,,p x x x L 和 12,,,q y y y L 之间的相关关系,一般采用 方法。 二、简述题(每小题10分,共20分) 1、简述系统聚类法的基本思想。 2、简述主成分分析和因子分析的基本思想,并比较二者的异同点。 三、(10分)设随机向量X 的协方差矩阵为 1643()442329V X -?? ? =-- ? ?-?? 求其相关系数矩阵R 。 四、(15分)设3121~(,),110X N A μ-?? ∑= ?-?? ,其中 ()1642111,441214μ-?? ? =-∑=-- ? ?-?? , 求Y AX =的分布.

五、(15分)已知两个总体1π,2π的概率密度分别为1()f x 和2()f x ,且总体的先验概率分布为120.6,0.4p p ==,误判损失为(1|2)12c =个单位, (2|1)4c =个单位。 (1) 建立最小平均误判代价()判别规则; (2) 设有一新样品0x 满足1020()0.36,()0.24f x f x ==,判定0x 的归属问题。 六、(10分)设三元总体123(,,)X x x x '= 的协方差矩阵为 4121932325?? ? ∑=- ? ?-?? 试求总体的主成分以及各主成分的贡献率。 七、(15分)某学校体检中获得的30位学生身体的四项指标,数据见下表。 对数据做主成分分析,利用软件运行,得到如下输出结果:

多元统计分析模拟试题教学提纲

多元统计分析模拟试 题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐 步判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、 极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 = 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转 化为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

多元统计分析期末试题及答案

22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92, 3216___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立? (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

多元统计分析模拟考题及答案

一、判断题 ( 对 )112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵 ( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。 ( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。 ( 错)5),(~),,,(21∑'=μp p N X X X X Λ,,X S 分别是样本均值和样本离差阵,则, S X n 分别是,μ∑的无偏估计。 ( 对)6),(~),,,(21∑'=μp p N X X X X Λ,X 作为样本均值μ的估计,是 无偏的、有效的、一致的。 ( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。 ( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等 价。 (对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设∑是总体1(,,)m X X X =L 的协方差阵,∑的特征根(1,,)i i m λ=L 与相应的单 位正交化特征向量 12(,,,)i i i im a a a α=L ,则第一主成分的表达式是 11111221m m y a X a X a X =+++L ,方差为 1λ。 3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别 为:' 112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- ' 221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--

多元统计分析试题(2012)

近几年,中国房地产业得到了长足的发展,但房地产价格的上涨一直饱受争议,甚至有逃离“北、上、广”的言论,这也从侧面反映了房地产价格的区域性特征,下表为2008年中国31个省、市、自治区房地产业的相关统计数据,试根据这些数据进行聚类分析。 表1中指标说明如下: X1:房屋平均销售价格; X2:住宅平均销售价格; X3:别墅、高档公寓平均销售价格; X4:经济适用房平均销售价格; X5:办公楼平均销售价格; X6:商业营业用房平均销售价格 X7:其他平均销售价格; X8:商品房销售面积; X9:住宅销售面积 表1

为研究某地区人口死亡状况,已按某种方法将15个已知样品分为3类,指标及原始数据见表2,试建立判别函数,并判定另外4个待判样品属于哪类? 表2 X1:0岁组死亡概率X4:55岁组死亡概率 X2:1岁组死亡概率X5:80岁组死亡概率 X3:10岁组死亡概率X6:平均预期寿命 题3 利用主成分分析综合评价全国重点水泥企业的经济效益。原始数据见表3。 表3

题4 反映城镇居民消费支出状况的指标主要有食品、衣着、居住、家庭设备用品及服务、医疗保健、交通和通信以及教育文化娱乐服务等八项消费支出指标,数据如下表4所示。以2008年为例进行说明。选取反映我国各省、市、自治区的城镇居民人均消费支出8个指标作为原始变量,运用SPSS软件,对全国31个中心城市的人均消费水平水平作因子分析。

题5、在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量。自变量如下:x 1 ——农业增 加值(亿元),x 2——工业增加值(亿元),x 3 ——建筑业增加值(亿元),x 4 ——人口数(万人),x 5 ——社会 消费总额(亿元),x 6 ——受灾面积(万公顷)。据《中国统计年鉴》获得1979—1998共20个年分的统计数据,见表5。由定性分析知,所选自变量都与变量y有较强的相关性,试做出一个较为理想的回归方程。 表5

多元统计分析期末复习试题

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: )',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的),(~∑μP N X μ∑μp X X X ,,,21Λ),(~∑μP N X ) ,('A A d A N s ∑+μ)()1(,, n X X ΛX )',,,(21p X X X Λ)')(()()(1X X X X i i n i --∑=n 1X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

多元统计分析期末考试考点整理

二名词解释 1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广 2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。使类内对象的同质性最大化和类间对象的异质性最大化 3、随机变量:是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向量。类似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量 三、计算题 解:

答: 答:

题型三解答题 1、简述多元统计分析中协差阵检验的步骤 答: 第一,提出待检验的假设和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 2、简述一下聚类分析的思想 答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 3、多元统计分析的内容和方法 答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等

多元统计分析期末复习试题

第一章: 多元统计分析研究的容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X均值向量: 随机向量X与Y的协方差矩阵: 当X=Y时Cov(X,Y)=D(X);当Cov(X,Y)=0 ,称X,Y不相关。 随机向量X与Y的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X,Y为随机向量,A,B 为常数矩阵 E(AX)=AE(X); E(AXB)=AE(X)B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ

Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。 4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。 三、样品间相近性的度量 研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

多元统计分析模拟考题及答案

、判断题 (对)1X (兀公2丄,X p)的协差阵一定是对称的半正定阵 (对)2标准化随机向量的协差阵与原变量的相关系数阵相同。 (对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 (对)4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。(错)5X (X-X2,,X p) ~ N p( , ),X,S分别是样本均值和样本离 S 差阵,则X,—分别是,的无偏估计。 n (对)6X (X「X2, ,X p) ~ N p( , ),X作为样本均值的估计,是无偏的、有效的、一致的。 (错)7因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 (对)8因子载荷阵A (a j)中的a ij表示第i个变量在第j个公因子上的相对重要性。 (对)9判别分析中,若两个总体的协差阵相等,则Fisher判别与距离判别等价。(对)10距离判别法要求两总体分布的协差阵相等,Fisher判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设是总体X (X」,X m)的协方差阵,的特征根i(i 1,L ,m)与相应的单 位正交化特征向量i (盼无丄,a m),则第一主成分的表达式是 y1 Q1X1 812X2 L QmX m 方差为1。 3设是总体X (X1,X2,X3, X4)的协方差阵,的特征根和标准正交特征向量分别为: 1 2.920 U;(0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U2(0.9544, 0.0984,0.2695,0.0824) 3 0.049 U3(0.2516,0.7733, 0.5589, 0.1624) 0.007U4 ( 0.0612,0.2519,0.5513, 0.7930),则其第二个主成分的表达式是 4

多元统计分析期末考试考点整理共5页

多元统计分析 题型一定义、名词解释 题型二计算(协方差阵、模糊矩阵) 题型三解答题 一、定义 二名词解释 1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广 2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。使类内对象的同质性最大化和类间对象的异质性最大化 3、随机变量:是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向量。类似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量 三、计算题 解: 答:

答: 题型三解答题 1、简述多元统计分析中协差阵检验的步骤 答: 第一,提出待检验的假设和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 2、简述一下聚类分析的思想 答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 3、多元统计分析的内容和方法 答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等 2、分类与判别,对所考察的变量按相似程度进行分类。(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。(2)判别分析:判别样本应属何种类型的统计方法。

多元统计分析期末考试考点整理

二名词解释 1、 多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理 论和方法,是一元统计学的推广 2、 聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方 法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 使类内对象的同质性最大化和类间对象的异质性最大化 3、 随机变量:是指变量的值无法预先确定仅以一定的可能性 (概率)取值的量。它是由于随 机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向 量。类 似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题 ,为了了解总体的特征,通过对总体抽样得到代表 总体的样本,但因为信息是分散在每个样本上的 ,就需要对样本进行加工,把样本的信息浓缩 到不包含未知量的样本函数中,这个函数称为统计量 二、计算题 ^16 -4 2 k 设H = 其中启= (1Q —纣眉=-4 4-1 [― 试判断叼+ 2吟与 「花一? [是否独立? 解: "10 -6 -15 -6 1 a 2U -16 20 40 故不独立口 -r o 2丿 按用片的联合分帚再I -6 lti 20 -1G 20 ) -1V16 -4 0 -4 A 2 丿"-1

2.对某地区农村的百名2周宙男翌的身高、胸圉、上半骨圉进行测虽,得相关数据如下』根据汶往资料,该地区城市2周岁男婴的遠三个指标的均值血二(90Q乩16庆现欲在多元正态性的假定下检验该地区农村男娶是否与城市男婴有相同的均值?伽厂43107-14.62108.946^1 ]丼中乂=60.2x^)-1=(115.6924)-1-14.6210 3.172-37 3760 、8.9464-37 376035.S936」= 0.01, (3,2) = 99.2, 03) =293 隔亠4) =16.7) 答: 2、假设检验问题:比、# =险用‘//H地 r-8.o> 经计算可得:X-^A 22 厂 「3107 -14.6210 ST1=(23J3848)-1 -14.6210 3.172 8 9464 -37 3760 E9464 -37.3760 35.5936 构造检验统计量:尸=旳(丟-間)〃丿(巫-角) = 6x70.0741=420.445 由题目已知热“(3,)= 295由是 ^I =^W3,3)^147.5 所以在显著性水平ff=0.01下,拒绝原设尽即认 为农村和城市的2周岁男婴上述三个指标的均 值有显著性差异 (] 4、设盂=(耳兀.昂工/ ~M((XE),协方差阵龙=P P (1)试从匸出发求X的第一总体主成分; 答: (2)试|可当卩取多大时才链主成分册贡蕭率达阳滋以上.

多元统计分析试题(A卷)(答案)

《多元统计分析》试卷 1、若),2,1(),,(~)(n N X p =∑αμα 且相互独立,则样本均值向量X 服从的分布为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__ 距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ==,总体), (~∑μp N X ,对样品进行分类 常用的距离有:明氏距离,马氏距离 2 ()ij d M =)()(1 j i j i x x x x -∑'--,兰氏距离()ij d L = 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是:εββ++=x y 10,多元回归的数学模型 是: εββββ++++=p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 一、填空题(每空2分,共40分) 二、计算题(每小题10分,共40分)

1、设三维随机向量),(~3∑μN X ,其中??? ?? ??=∑200031014,问1X 与2X 是否独立? ),(21'X X 和3X 是否独立?为什么? 解: 因为1),cov(21=X X ,所以1X 与2X 不独立。 把协差矩阵写成分块矩阵??? ? ??∑∑∑∑=∑22211211 ,),(21'X X 的协差矩阵为11∑因为12321),),cov((∑='X X X ,而012=∑,所以),(21'X X 和3X 是不相关的,而正态分布不 相关与相互独立是等价的,所以),(21'X X 和3X 是独立的。 2、设抽了五个样品,每个样品只测了一个指标,它们分别是1 ,2 ,4.5 ,6 ,8。若样 本间采用明氏距离,试用最长距离法对其进行分类,要求给出聚类图。 解:样品与样品之间的明氏距离为:????????? ? ??=02 5 .36 7 05.14505 .25.30 105 432154 321) 0(x x x x x x x x x x D 样品最短距离是1,故把21X X 与合并为一类,计算类与类之间距离(最长距离法) 得距离阵 ??????? ? ?? =025.3705.1505.30} ,{},{54 32154321) 1(x x x x x x x x x x D 类与类的最短距离是 1.5,故把43X X 与合并为一类,计算类与类之间距离(最长距

多元统计分析试题及答案.doc

xxx 大学期末试卷(A 卷) 考试科目:多元统计分析 考试类型:(闭卷) 考试时间:120 分钟 一、填空题(5×6=30) 22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92,32 16___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 (), 123设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111 X σ = 的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.83511 00.4170.8940.02700.8940.44730.8350.4470.1032013 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 二、计算题(5×11=50) 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立?

多元统计分析期末试题

1 、填空题(20分) 1、 若X Q ~ N p (g ,(a =1,2,…n)且相互独立,则样本均值向量X 服从的分布为X ~ N p (g^|。 2、 变量的类型按尺度划分有 _间隔尺度_、_有序尺度_、名义尺度_。 3、 判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有 —距离判别法_、Fisher 判别法、 Bayes 判别法、逐步判别法。 4、 Q 型聚类是指对_样品-进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、 设样品X i =(X i1,X i2^ X ip )',(i =1,2,…n),总体X~N p (」「),对样品进行分类常用的距离有: 明氏距离d j (q)=(壬|Xy q i j i j 6、 因子分析中因子载荷系数a j 的统计意义是—第i 个变量与第j 个公因子的相关系数。 7、 一元回归的数学模型是:y 曆x 童,多元回归的数学模型是 8、 对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、 典型相关分析是研究两组变量之间 相关关系的一种多元统计方法。 、计算题(60分) '4 1 1、设三维随机向量X~N 3(?2),其中送=1 3 e 0 独立?为什么? 解:因为cov(X 1,X 2^1,所以X 1与X 2不独立。 把协差矩阵写成分块矩阵瓦=f 11 ;12丨,(X 1,X 2/的协差矩阵为瓦 11 因为 —21 - 22 cov((X 1,X 2),X 3)=為12,而' 12 =0,所以(X 1, X 2)和X 3是不相关的,而正态分布不相关与相互独 立是等价的,所以(X 1,X 2)和X 3是独立的。 0,问X 1与X 2是否独立? 2> (X 1,X 2)和X 3是否

多元统计分析模拟考试试题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1) 判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐步判别法。 2) Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3) 主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4) 因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、极大似然法 5) 聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6) 分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7) 误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为P P=√P?P P 8) 最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9) 主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转化为几个综 合指标的多元统计方法。 10) 在进行主成分分析时,我们认为所取的m(m

14) 将每个原始变量分解为两部分因素,一部分是由所有变量共同具有的少数几个公共 因子组成的,另一部分是每个变量独自具有的因素,即特殊因子 15) 判别分析的最基本要求是分组类型在两组之上,每组案例的规模必须至少一个以上, 解释变量必须是可测量的 16) 当被解释变量是属性变量而解释变量是度量变量时判别分析是合适的统计分析方法 17) 多元正态分布是一元正态分布的推广 18) 多元分析的主要理论都是建立在多元正态总体基础上的,多元正态分布是多元分析的 基础 19) 因子分析中,把变量表示成各因子的线性组合,而主成分分析中,把主成分表示成各 变量的线性组合。 20) 统计距离包括欧氏距离和马氏距离两类 1) 因子负荷量是指因子结构中原始变量与因子分析时抽取出的公共因子的相关程度。 (√)(p147) 2) 主成分分析是将原来较少的指标扩充为多个新的综合指标的多元统计方法。(×)(p24) 3) 判别分析其被解释变量为属性变量,解释变量是度量变量。(√)(p90) 4) Logistic回归对于自变量有要求,度量变量或者非度量变量都不可以进行回归。(×) (p220) 5) 在系统聚类过程中,聚合系数越大,合并的两类差异越小。(×) (P59)

相关主题
文本预览
相关文档 最新文档