应用多元统计分析试题及答案
- 格式:doc
- 大小:332.50 KB
- 文档页数:4
22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑、设则=服从。
()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪ ⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵4、__________, __________,________________。
215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。
(),123设X=x x x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫ ⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝⎭12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立?11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-⎛⎫ ⎪==-- ⎪ ⎪⎝⎭0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。
22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.答案:010312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑、设则=服从。
答案:W 3(10,∑)()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵答案:211342113611146R ⎛⎫-⎪ ⎪ ⎪=-- ⎪ ⎪ ⎪- ⎪⎝⎭4、__________, __________,(),123设X=xx x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫ ⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝⎭________________。
答案:0.872 1 1.743215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。
答案:T 2(15,p )或(15p/(16-p))F (p ,n-p )12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立?答案:2312131231112213312121,2,10021021210001102231642100102x x y y x x x x x x y x x y x x x y E y y V y -⎛⎫==+ ⎪⎝⎭-⎛⎫⎛⎫⎛⎫⎛⎫ ⎪ ⎪ ⎪== ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪+⎝⎭⎝⎭⎝⎭⎛⎫⎛⎫⎛⎫⎛⎫⎪⎪ ⎪== ⎪ ⎪⎪ ⎪⎝⎭ ⎪⎪ ⎪-⎝⎭⎝⎭⎝⎭-⎛⎫⎛⎫⎪=- ⎪ ⎪⎝⎭ ⎪⎝⎭、令则01-101-101-11234411002141021061661620162040210616(1,61620)3162040y y N ⎛⎫⎛⎫⎪⎪- ⎪⎪ ⎪⎪-⎝⎭⎝⎭--⎛⎫ ⎪=- ⎪⎪-⎝⎭--⎛⎫⎛⎫ ⎪ ⎪- ⎪ ⎪⎪ ⎪--⎝⎭⎝⎭1-1故,的联合分布为故不独立。
第七章 因子分析7.1 试述因子分析与主成分分析的联系与区别。
试述因子分析与主成分分析的联系与区别。
试述因子分析与主成分分析的联系与区别。
答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。
②简化数据的技术。
②两种分析的求解过程是类似的,两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。
因都是从一个协方差阵出发,利用特征值、特征向量求解。
因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。
因子分析也可以说成是主成分分析的逆问题。
析也可以说成是主成分分析的逆问题。
如果说主成分分析是将原指标综合、如果说主成分分析是将原指标综合、如果说主成分分析是将原指标综合、归纳,归纳,那么因子分析可以说是将原指标给予分解、演绎。
分析可以说是将原指标给予分解、演绎。
因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,变换到变异程度大的方向上为止,突出数据变异的方向,突出数据变异的方向,突出数据变异的方向,归纳重要信息。
归纳重要信息。
而因子分析是从显在变量去提炼潜在因子的过程。
此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。
子模型。
7.2 因子分析主要可应用于哪些方面?因子分析主要可应用于哪些方面?因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。
目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。
具体来说,①因子分析可以用于分类。
如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。
即是探索未能观察的或不能观测的的潜在因素是什么,测的的潜在因素是什么,起的作用如何等。
起的作用如何等。
第五章聚类剖析5.1鉴别剖析和聚类剖析有何差别?答:即依据必定的鉴别准则,判断一个样本归属于哪一类。
详细而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类型(或整体)中的某一类,经过找出一个最优的区分,使得不一样类其余样本尽可能地域别开,并鉴别该样本属于哪个整体。
聚类剖析是剖析怎样对样品(或变量)进行量化分类的问题。
在聚类以前,我们其实不知道整体,而是经过一次次的聚类,使邻近的样品(或变量)聚合形成整体。
平常来讲,鉴别剖析是在已知有多少类及是什么类的状况下进行分类,而聚类剖析是在不知道类的状况下进行分类。
5.2试述系统聚类的基本思想。
答:系统聚类的基本思想是:距离邻近的样品(或变量)先聚成类,距离相远的后聚成类,过程向来进行下去,每个样品(或变量)总能聚到适合的类中。
5.3对样品和变量进行聚类剖析时,所结构的统计量分别是什么?简要说明为何这样结构?答:对样品进行聚类剖析时,用距离来测定样品之间的相像程度。
由于我们把n 个样本看作 p 维空间的 n 个点。
点之间的距离即可代表样品间的相像度。
常用的距离为pq)1/ q(一)闵可夫斯基距离: d ij (q) ( X ik X jkk 1q取不一样值,分为( 1)绝对距离(( 2)欧氏距离(q 1)q 2 )( 3)切比雪夫距离( q) (二)马氏距离(三)兰氏距离对变量的相像性, 我们更多地要认识变量的变化趋向或变化方向, 所以用有关性进行权衡。
将变量看作 p 维空间的向量,一般用(一)夹角余弦(二)有关系数5.4 在进行系统聚类时,不一样类间距离计算方法有何差别?选择距离公式应按照哪些原则?答: 设 d ij 表示样品 X i 与 X j 之间距离,用 D ij 表示类 G i 与 G j 之间的距离。
( 1) . 最短距离法( 2)最长距离法( 3)中间距离法D kr 21D kp21D kq 2D pq 22 2此中(4)重心法(5)类均匀法(6)可变类均匀法D kr2 (1 )( np D kp2nq D kq2 )D pq2 n r? <1n r此中 ?是可变的且( 7)可变法D kr21(D kp2 D kq2 )D pq2 此中 ?是可变的且 ? <12(8)离差平方和法往常选择距离公式应注意按照以下的基根源则:(1)要考虑所选择的距离公式在实质应用中有明确的意义。
第七章 因子分析7.1 试述因子分析与主成分分析的联系与区别。
答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。
②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。
因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。
因子分析也可以说成是主成分分析的逆问题。
如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。
因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。
而因子分析是从显在变量去提炼潜在因子的过程。
此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。
7.2 因子分析主要可应用于哪些方面?答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。
目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。
具体来说,①因子分析可以用于分类。
如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。
即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。
对我们进一步研究与探讨指示方向。
在社会调查分析中十分常用。
③因子分析的另一个作用是用于时空分解。
如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。
7.3 简述因子模型中载荷矩阵A 的统计意义。
答:对于因子模型1122i i i ij j im m i X a F a F a F a F ε=++++++ 1,2,,i p =因子载荷阵为11121212221212(,,,)m m m p p pm a a a a a a A A A a a a ⎡⎤⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎣⎦Ai X 与j F 的协方差为:1Cov(,)Cov(,)mi j ik k i j k X F a F F ε==+∑=1Cov(,)Cov(,)mikk j i j k aF F F ε=+∑=ij a若对i X 作标准化处理,=ij a ,因此 ij a 一方面表示i X 对j F 的依赖程度;另一方面也反映了变量iX对公共因子jF的相对重要性。
多元统计分析习题与答案多元统计分析是一种在社会科学研究中广泛应用的方法,它通过同时考虑多个变量之间的关系,帮助研究者更全面地理解和解释现象。
在本文中,我将分享一些多元统计分析的习题和答案,希望能够帮助读者更好地掌握这一方法。
习题一:相关分析假设你正在研究一个学生的学习成绩和他们每天花在学习上的时间之间的关系。
你收集了100个学生的数据,学习成绩用分数表示,学习时间用小时表示。
以下是你的数据:学习成绩(X):75, 80, 85, 90, 95, 70, 65, 60, 55, 50学习时间(Y):5, 6, 7, 8, 9, 4, 3, 2, 1, 0请计算学习成绩和学习时间之间的相关系数,并解释其含义。
答案一:首先,我们需要计算学习成绩和学习时间之间的协方差和标准差。
根据公式,协方差可以通过以下公式计算:协方差= Σ((X - X平均) * (Y - Y平均)) / (n - 1)其中,X和Y分别表示学习成绩和学习时间,X平均和Y平均表示它们的平均值,n表示样本数量。
标准差可以通过以下公式计算:标准差= √(Σ(X - X平均)² / (n - 1))根据以上公式,我们可以得出学习成绩和学习时间之间的协方差为-22.5,标准差分别为18.03和2.87。
然后,我们可以通过以下公式计算相关系数:相关系数 = 协方差 / (X标准差 * Y标准差)根据以上公式,我们可以得出相关系数为-0.93。
由于相关系数接近于-1,可以得出结论:学习成绩和学习时间之间存在强烈的负相关关系,即学习时间越长,学习成绩越低。
习题二:多元线性回归假设你正在研究一个人的身高(X1)、体重(X2)和年龄(X3)对其收入(Y)的影响。
你收集了50个人的数据,以下是你的数据:身高(X1):160, 165, 170, 175, 180, 185, 190, 195, 200, 205体重(X2):50, 55, 60, 65, 70, 75, 80, 85, 90, 95年龄(X3):20, 25, 30, 35, 40, 45, 50, 55, 60, 65收入(Y):5000, 5500, 6000, 6500, 7000, 7500, 8000, 8500, 9000, 9500请利用多元线性回归分析,建立一个预测人的收入的模型,并解释模型的结果。
精品文档
一、填空题:
1、多元统计分析是运用 数理统计 方法来研究解决 多指标 问题的理论和方
法.
2、回归参数显著性检验是检验 解释变量 对 被解释变量 的影响是否著.
3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分
析分为 Q型 聚类和 R型 聚类。
4、相应分析的主要目的是寻求列联表 行因素A 和 列因素B 的基本分析特征
和它们的最优联立表示。
5、因子分析把每个原始变量分解为两部分因素:一部分为 公共因子 ,另一部
分为 特殊因子 。
6、若
()(,),P
xN
=1,2,3….n
且相互独立,则样本均值向量x服从的分布
为
_x~N(μ,Σ/n)_。
二、简答
1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。
在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关
系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取
相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选
出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。
2、简述相应分析的基本思想。
相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,
其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调
查,得到一个rc的二维列联表,记为 。要寻求列联表列因素A和行因素B的
基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A
精品文档
和因素B具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情
况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,
从而得到因素A、B的联系。
3、简述费希尔判别法的基本思想。
从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一
个线性判别函数
系数:
确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样
品的p个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就
可以判别新的样品属于哪个总体。
5、简述多元统计分析中协差阵检验的步骤
第一,提出待检验的假设 和H1;
第二,给出检验的统计量及其服从的分布;
第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定
域;
第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判
假设做出决策(拒绝或接受)。
协差阵的检验
检验
0
ΣΣ
0p
HΣI:
/2/21exp2npnetrnSS
00p
HΣΣI:
/2/2**1exp2npnetrnSS
精品文档
检验
12kΣΣΣ012k
HΣΣΣ:
统计量
/2/2/2/211iikknn
pn
np
kii
iinn
SS
6、在进行系统聚类分析时,不同的类间距离计算方法有何区别?请举例说明。
设dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。
(1). 最短距离法
,minikjrkrijXGXGDd
min{,}kpkqDD
(2)最长距离法
,maxipjqpqijXGXGDd
,maxikjrkrijXGXGDd
max{,}kpkqDD
(3)中间距离法
其中
(4)重心法
2
()()pqpqpqDXXXX
)(1qqpprrXnXnnX
2222
2
pqpq
krkpkqpq
rrr
nnnn
DDDDnnn
(5)类平均法
22
1
ipjj
pqij
XGXGpqDdnn
22
1
ikjr
krij
XGXGkrDdnn
22
pq
kpkq
rr
nn
DDnn
(6)可变类平均法
其中b是可变的且b <1
(7)可变法
ijGXGXij
dDjjii,min
2222
212
1
pqkqkpkr
DDDD
2222(1)()pqkrkpkqpqrrnnDDDDnn
精品文档
2222
1()2krkpkqpqDDDD
其中b是可变的且b <1
(8)离差平方和法
1()()tntittitttSXXXX
2222
kpkq
k
krkpkqpq
rkrkrk
nnnnnDDDDnnnnnn
7、比较主成分分析与因子分析的异同点。
相同点:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解
过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子
分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分
析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指
标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。
主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度
大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在
变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分
析要构造因子模型。
9、进行相应分析时在对因素A和因素B进行相应分析之前没有必要进行独立性
检验?为什么?
有必要,如果因素A和因素B独立,则没有必要进行相应分析;如果因素A和因
素B不独立,可以进一步通过相应分析考察两因素各个水平之间的相关关系。