2012年秋北方工业大学多元统计分析期末及答案
- 格式:pdf
- 大小:420.27 KB
- 文档页数:21
复习题原文:答案:4.2 试述判别分析的实质。
4.3 简述距离判别法的基本思想和方法。
4.4 简述贝叶斯判别法的基本思想和方法。
4.5 简述费希尔判别法的基本思想和方法。
4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。
4.2 试述判别分析的实质。
答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互不相交,且它们的和集为,则称为的一个划分。
判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划分”,这个“划分”就构成了一个判别规则。
4.3 简述距离判别法的基本思想和方法。
答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。
其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。
①两个总体的距离判别问题设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是μ1和μ 2,对于一个新的样品X ,要判断它来自哪个总体。
计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2(X ,G 2),则X ,D2(X ,G 1)D 2(X ,G 2)X ,D2(X ,G 1)> D 2(X ,G 2,具体分析,2212(,)(,)D G D G -X X111122111111111222111211122()()()()2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2()22()2()---''=-++-'+⎛⎫=--- ⎪⎝⎭''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为X ,W(X)X ,W(X)<0②多个总体的判别问题。
多元统计分析课后练习答案第1章多元正态分布1、在数据处理时,为什么通常要进⾏标准化处理?数据的标准化是将数据按⽐例缩放,使之落⼊⼀个⼩的特定区间。
在某些⽐较和评价的指标处理中经常会⽤到,去除数据的单位限制,将其转化为⽆量纲的纯数值,便于不同单位或量级的指标能够进⾏⽐较和加权。
其中最典型的就是0-1标准化和Z 标准化。
2、欧⽒距离与马⽒距离的优缺点是什么?欧⽒距离也称欧⼏⾥得度量、欧⼏⾥得度量,是⼀个通常采⽤的距离定义,它是在m 维空间中两个点之间的真实距离。
在⼆维和三维空间中的欧⽒距离的就是两点之间的距离。
缺点:就⼤部分统计问题⽽⾔,欧⽒距离是不能令⼈满意的。
每个坐标对欧⽒距离的贡献是同等的。
当坐标表⽰测量值时,它们往往带有⼤⼩不等的随机波动,在这种情况下,合理的⽅法是对坐标加权,使变化较⼤的坐标⽐变化较⼩的坐标有较⼩的权系数,这就产⽣了各种距离。
当各个分量为不同性质的量时,“距离”的⼤⼩与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这⼀点有时不能满⾜实际要求。
没有考虑到总体变异对距离远近的影响。
马⽒距离表⽰数据的协⽅差距离。
为两个服从同⼀分布并且其协⽅差矩阵为Σ的随机变量与的差异程度:如果协⽅差矩阵为单位矩阵,那么马⽒距离就简化为欧⽒距离,如果协⽅差矩阵为对⾓阵,则其也可称为正规化的欧⽒距离。
优点:它不受量纲的影响,两点之间的马⽒距离与原始数据的测量单位⽆关。
由标准化数据和中⼼化数据计算出的⼆点之间的马⽒距离相同。
马⽒距离还可以排除变量之间的相关性的⼲扰。
缺点:夸⼤了变化微⼩的变量的作⽤。
受协⽅差矩阵不稳定的影响,马⽒距离并不总是能顺利计算出。
3、当变量X1和X2⽅向上的变差相等,且与互相独⽴时,采⽤欧⽒距离与统计距离是否⼀致?统计距离区别于欧式距离,此距离要依赖样本的⽅差和协⽅差,能够体现各变量在变差⼤⼩上的不同,以及优势存在的相关性,还要求距离与各变量所⽤的单位⽆关。
如果各变量之间相互独⽴,即观测变量的协⽅差矩阵是对⾓矩阵, 则马⽒距离就退化为⽤各个观测指标的标准差的倒数作为权数的加权欧⽒距离。
统计期末考试试题及答案分析统计期末综合测试一、单项选择题(每项1分,XXXX某一地区年末城市人均居住面积合计为XXXX 1月份超出计划3%,2月份刚刚完成计划,3月份超出12%,当年第一季度工厂超出计划()。
A3% b4% c5% d无法计算6.A组和B组工人基本时期的平均日产量分别为70件和50件。
如果两组工人的平均日产量在报告期内保持不变,而B组工人在两组工人总数中所占的比例上升,则报告期内两组工人的平均日产量总和为()。
a上升b下降c不变d可能上升或下降。
7、同等金额的货币,报告期只能购买基准期商品数量的90%,因为价格()。
上涨10.0%,下跌11.1%,下跌11.1%,下跌10.0%8、为了消除季节变化的影响而计算的发展速度指数是()。
月环比增长率b同比增长率c固定基础增长率d平均增长率9、计算无关标记排队等距抽样的抽样误差,一般采用()。
简单随机抽样的误差公式分层抽样的误差公式等距抽样的误差公式群集抽样的误差公式10、中国统计调查方法体系改革的目标模式是以()为主体。
抽样调查;人口普查;统计报表;关键调查1、设置总体分布形式和总体方差未知时,进行总体均值假设检验,如果取一个容量为100的样本,可以使用()。
测试一2、通过移动平均法得到趋势值,消除季节变化,移动平均数()。
a应该选择奇数b应该与季节周期长度一致c应该选择偶数d 应该是4或121。
3.回归估计的标准差越小,说明()。
均值的表示越好,b均值的表示越差,c回归方程的表示越好,d回归方程的表示越好-一、单项选择题(每项1分,XXXX某一地区年末城市人均居住面积合计为XXXX 1月份超出计划3%,2月份刚刚完成计划,3月份超出12%,当年第一季度工厂超出计划()。
A3% b4% c5% d无法计算6.A组和B组工人基本时期的平均日产量分别为70件和50件。
如果两组工人的平均日产量在报告期内保持不变,而B组工人在两组工人总数中所占的比例上升,则报告期内两组工人的平均日产量总和为()。
复习题原文:答案:4.2 试述判别分析的实质。
4.3 简述距离判别法的基本思想和方法。
4.4 简述贝叶斯判别法的基本思想和方法。
4.5 简述费希尔判别法的基本思想和方法。
4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。
4.2 试述判别分析的实质。
答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互不相交,且它们的和集为,则称为的一个划分。
判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划分”,这个“划分”就构成了一个判别规则。
4.3 简述距离判别法的基本思想和方法。
答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。
其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。
①两个总体的距离判别问题设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是μ1和μ 2,对于一个新的样品X ,要判断它来自哪个总体。
计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2(X ,G 2),则X ,D2(X ,G 1)D 2(X ,G 2)X ,D2(X ,G 1)> D 2(X ,G 2,具体分析,2212(,)(,)D G D G -X X111122111111111222111211122()()()()2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2()22()2()---''=-++-'+⎛⎫=--- ⎪⎝⎭''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为X ,W(X)X ,W(X)<0②多个总体的判别问题。
填空题:1、费希尔(Fisher)判别法是1936年提出来的,该方法的主要思想是通过将多维数据投影到某个方向上。
2、因子分析的内容非常丰富,常用的因子分析类型是R型因子分析和Q型因子分析。
3、K均值聚类分析的基本思想是将每一个样品分配给最接近业壶些直的类中。
4、对应分析是将R型因子分析Q型因子分析结合起来进行的统计分析方法。
5、总体方差未知的情况下,采用样本方差代替总体方差的方法进行计算。
6、主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转7、设X、N2 ( U , N),其中X=(》1,》2),号),则CovQq +》2,*1 - *2)= _0__8、判别分析是判别样品所属类型的一种统计方法,常用的判别方法有距离判别法、Fisher 判另U法、Bayes判另U法、逐步判另U法9 多元正态分布的任何边缘分布为正态分布10、应用多元统计分析方法用于解决多指标问题,聚类分析就是分析如何对样品(或变量)进行量化分类的问题。
通常聚类分析分为Q型聚类和R型聚类。
11、总离差平方和可以分解为回归离差平方和和剩余离差平方和两个部分,各自的自由度为(P )和(n-p-1),其中回归离差平方和在总离差平方和中所占比重越大,则线性回归效果越显著。
12、系统聚类分析方法有最短距离法、最长距离法、中间距离法、重心法、类平均统和可变类平均法。
13、典型相关分析是研究两组变量之间相关关系的一种多元统计方法14、因子分析中因子载荷系数叫,•的统计意义是:(第i个变量与第j个公因子的相关系数)15、相应分析的特点是研究的变量是定性的16、公共因子方差与特殊因子方差之和为o17、设Z 是总体X=(X”…,乂皿)的协方差阵,X 的特征根人。
=1,2,..・田)与对应的单位正交化特征向量% =(%,%2,,则第一主成分的表达式=% ]X| + %2、2 + ・•• + /mX"],方差为2]18、相应分析的主要目的是寻求列联表行因素A和列因素B的基本分析特征和它们的最优联立表示19聚类分析一是分析如何对样品或变量进行量化分类的问题。
一、填空题(20分)1、若),2,1(),,(~)(n N X p =∑αμα 且相互独立,则样本均值向量X2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。
3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。
4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。
5、设样品),2,1(,),,('21n i X X X X ip i i i ==,总体),(~∑μp N X ,对样品进行分类常用的距离有:明氏距离,马氏距离2()ijd M =)()(1j i j i x x x x -∑'--,兰氏距离()ij d L=6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。
7、一元回归的数学模型是:εββ++=x y 10,多元回归的数学模型是:εββββ++++=p p x x x y 22110。
8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。
9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。
二、计算题(60分)1、设三维随机向量),(~3∑μN X ,其中⎪⎪⎪⎭⎫⎝⎛=∑200031014,问1X 与2X 是否独立?),(21'X X 和3X 是否独立?为什么?解: 因为1),cov(21=X X ,所以1X 与2X 不独立。
把协差矩阵写成分块矩阵⎪⎪⎭⎫⎝⎛∑∑∑∑=∑22211211,),(21'X X 的协差矩阵为11∑因为12321),),cov((∑='X X X ,而012=∑,所以),(21'X X 和3X 是不相关的,而正态分布不相关与相互独立是等价的,所以),(21'X X 和3X 是独立的。
2、设抽了五个样品,每个样品只测了一个指标,它们分别是1 ,2 ,4.5 ,6 ,8。
复习题原文:, 复习题I4.2试述判别分析的实质............................ 8-4.3简述距离判别法的基本思想和方法• ............... &4.4简述贝叶斯判别法的基本思想和方法.............. %4.5简述费希尔判别法的基本思想和方法..............10.4.6试析距离判别法、贝叶斯判别法和费希尔判别法的异同 ............................................. 11“4.8某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销.下表是这十种品牌饮料的销售价格〈元)和顾客对各种饮料的口味评分、信任度评分的平均数.12。
5.1判别分析和聚类分析有何区别?................ 18.答案:4.2试述判别分析的实质。
4.3简述距离判别法的基本思想和方法。
4.4简述贝叶斯判别法的基本思想和方法。
4.5简述费希尔判别法的基本思想和方法。
4.6试析距离判别法、贝叶斯判别法和费希尔判别法的异同。
4. 2试述判别分析的实质。
答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。
设Rl, R2,…,Rk是p维空间R p的k个子集,如果它们互不相交,且它们的和集为RP,则称Ri,R2-R P^R P的一个划分。
判别分析问题实质上就是在某种意义上,以最优的性质对P维空间Rp构造一个“划分”,这个“划分”就构成了一个判别规则。
4. 3简述距离判别法的基本思想和方法。
答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。
其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一•类。
①两个总体的距离判别问题设有协方差矩阵E相等的两个总体G和Q,其均值分别是卬和#2,对于一个新的样品X,要判断它来自哪个总体。
多元数据分析练习题第二章多元正态的参数估计一. 判断题(1)若∑∑=),,(~),,,(21μp T p N X X X X 是对角矩阵,则p X X X ,,,21 相互独立。
( )(2)多元正态分布的任何边缘分布为正态分布,反之也成立。
( )(3)对任意的随机向量T p X X X X ),,,(21 =来说,其协方差矩阵∑是对称矩阵,并且总是半正定的。
( )(4)对标准化的随机向量来说,它的协方差矩阵与原来变量的相关系数阵相同。
( ) (5)若),,(~),,,(21∑=μp T p N X X X X S X ,分别为样本均值和样本协差阵,则S nX 1,分别为∑,μ的无偏估计。
( ) 二.计算题1. 假设随机向量TX X X X ),,(321=的协方差矩阵为⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡---=∑9232443416,试求相关系数矩阵R 。
⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎣⎡----=131413112141211R 2. 假设随机向量Tx x x ),(21=的协方差矩阵为⎥⎦⎤⎢⎣⎡=∑20119,令212211,2x x y x x y -=+=,试求T y y y ),(21=的协方差矩阵。
⎥⎦⎤⎢⎣⎡--=∑2733603.假设⎥⎦⎤⎢⎣⎡---=∑5.005.05.015.0),,(~3A N X μ,其中T)1,2,1(-=μ,⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--=∑411121112,试求Ax y =的分布。
)2224,02(2⎪⎪⎭⎫ ⎝⎛--⎪⎪⎭⎫ ⎝⎛-N 三.证明题1.设)()2()1(,,,n X X X 是来自),(∑μp N 的随机样本,X 为样本均值。
试证明:μ=)(X E ,∑=nX D 1)(。
2.设)()2()1(,,,n X X X 是来自),(∑μp N 的随机样本,S n 11-为样本协差阵。
试证明:∑=-)11(S n E 。
3.证明:若p 维正态随机向量),,,(21'=p X X X X 的协差阵为对角矩阵,则X 的各分量是相互独立的随机变量。
22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑、设则=服从。
()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪ ⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵4、__________, __________,________________。
215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。
(),123设X=x x x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫ ⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝⎭12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立?11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-⎛⎫ ⎪==-- ⎪ ⎪⎝⎭0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。
复习题原文:答案:4.2 试述判别分析的实质。
4.3 简述距离判别法的基本思想和方法。
4.4 简述贝叶斯判别法的基本思想和方法。
4.5 简述费希尔判别法的基本思想和方法。
4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。
4.2 试述判别分析的实质。
答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互不相交,且它们的和集为,则称为的一个划分。
判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划分”,这个“划分”就构成了一个判别规则。
4.3 简述距离判别法的基本思想和方法。
答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。
其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。
①两个总体的距离判别问题设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是μ1和μ 2,对于一个新的样品X ,要判断它来自哪个总体。
计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2(X ,G 2),则X ,D2(X ,G 1)D 2(X ,G 2)X ,D2(X ,G 1)> D 2(X ,G 2,具体分析,2212(,)(,)D G D G -X X111122111111111222111211122()()()()2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2()22()2()---''=-++-'+⎛⎫=--- ⎪⎝⎭''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为X ,W(X)X ,W(X)<0②多个总体的判别问题。
1 、设 X ~ N2 ( ,), 其中 X( x1 , x 2 ),( 1 ,212 ),,1则 Cov( x1x 2 , x1x 2 )=____.102、设X i ~N 3 (,), i 1, L,10,则 W =( X i)( X i)i 1服从_________。
4433、设随机向量X x1x2x3, 且协方差矩阵 4 9 2 ,3 2 16则它的相关矩阵R___________________4、设 X= x1x2x3,的相关系数矩阵通过因子分析分解为112330.93400.1280.4171R100.4170.9340.83530.8940.8940.027 0.83500.4472010.4470.10332__________,__________,X1的共性方差 h1X1的方差11公因子 f 1对 X的贡献 g12________________。
5、设 X i , i 1,L ,16 是来自多元正态总体N p (, ), X 和 A分别为正态总体N p ( ,)的样本均值和样本离差矩阵 , 则T 215[4( X)] A 1[4( X)] ~ ___________。
1642、设( x1 , x2 , x3) ~ N3(, ),其中(1,0, 2) ,44 1 ,1X214试判断 x12 x3与x2x3是否独立?x12、对某地区农村的 6 名 2 周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下 , 根据以往资料 , 该地区城市 2周岁男婴的这三个指标的均值0(90,58,16), 现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。
82.0 4.310714.62108.9464其中 X60.2 ,(5 S ) 1( 115.6924)114.6210 3.17237. 376014.58.946437.376035.5936 (0.01,F 0.01 (3, 2)99.2, F 0.01 (3,3)29.5,F0.01 (3, 4)16.7)、设已知有两正态总体G与 G,且12,24,1211,3126219而其先验概率分别为q1q20.5,误判的代价C (2 1)4;e ,C(1 2)e试用判别法确定样本X 3属于哪一个总体?Bayes514、设X( X1 , X2 , X3 , X4 )T,协方差阵1~ N (0, ),0111(1)试从Σ出发求 X 的第一总体主成分;(2)试问当取多大时才能使第一主成分的贡献率达95%以上。
多元统计思考题及答案《多元统计分析思考题》第一章回归分析1、回归分析是怎样的一种统计方法,用来解决什么问题?答:回归分析作为统计学的一个重要分支,基于观测数据建立变量之间的某种依赖关系,用来分析数据的内在规律,解决预报、控制方面的问题。
2、线性回归模型中线性关系指的是什么变量之间的关系?自变量与因变量之间一定是线性关系形式才能做线性回归吗?为什么?答:线性关系是用来描述自变量x 与因变量y 的关系;但是反过来如果自变量与因变量不一定要满足线性关系才能做回归,原因是回归方程只是一种拟合方法,如果自变量和因变量存在近似线性关系也可以做线性回归分析。
3、实际应用中,如何设定回归方程的形式?答:通常分为一元线性回归和多元线性回归,随机变量y 受到p 个非随机因素x1、x2、x3……xp 和随机因素?的影响,形式为:011p p y x x βββε=++++01p βββ是p+1个未知参数,ε是随机误差,这就是回归方程的设定形式。
4、多元线性回归理论模型中,每个系数(偏回归系数)的含义是什么?答:偏回归系数01p βββ是p+1个未知参数,反映的是各个自变量对随机变量的影响程度。
5、经验回归模型中,参数是如何确定的?有哪些评判参数估计的统计标准?最小二乘估计法有哪些统计性质?要想获得理想的参数估计值,需要注意一些什么问题?答:经验回归方程中参数是由最小二乘法来来估计的;评判标准有:普通最小二乘法、岭回归、主成分分析、偏最小二乘法等;最小二乘法估计的统计性质:其选择参数满足正规方程组,(1)选择参数01ββ分别是模型参数01ββ的无偏估计,期望等于模型参数;(2)选择参数是随机变量y的线性函数要想获得理想的参数估计,必须注意由于方差的大小表示随机变量取值的波动性大小,因此自变量的波动性能够影响回归系数的波动性,要想使参数估计稳定性好,必须尽量分散地取自变量并使样本个数尽可能大。
6、理论回归模型中的随机误差项的实际意义是什么?为什么要在回归模型中加入随机误差项?建立回归模型时,对随机误差项作了哪些假定?这些假定的实际意义是什么?答:随机误差项?的引入使得变量之间的关系描述为一个随机方程,由于因变量y很难用有限个因素进行准确描述说明,故其代表了人们的认识局限而没有考虑到的偶然因素。
多元复习1、多元统计分析是运用数理统计方法来解决多指标问题的理论和方法。
2、多元分析研究的是多个随机变量及相关关系的统计总体。
3、如果A与B是两个P×P维的方阵,则AB与BA有完全相同的特征值。
4、随机向量X的协方差矩阵一定是非负定矩阵。
5、若A为P阶对称矩阵,则存在正交矩阵T与对角矩阵∧,则三者的关系有A=T∧T’。
6、设x是多元向量,服从正太分布即X~,a为P维常熟向量,则其线性型a’x服从一元正态分布,即a’x~。
7、方差相同的两个随机变量的差与和是不相关关系。
8、协方差和相关系数是变量间离散程度的一种变量,并不能刻画变量间可能存在的关联程度的关系。
9、变量的类型按尺度划分为间隔变量、有序变量、名义变量类型。
10、公共因子方差与特殊因子方差之和为1。
11、聚类分析是建立一种分析方法,它将一批样品或变量按照它们在性质上的亲疏关系进行科学的分类。
12、聚类分析是分析如何对样品或变量进行量化分析,通常分为Q型聚类和R型聚类。
13、聚类分析中Q型聚类是对样品进行聚类,R型聚类是对变量进行聚类。
14、进行判别分析时,通常指定一种判别规则用来判定新样品的归属,常见的判别准则有:费希尔判别准则、贝叶斯判别准则。
15、费希尔判别法就是要找P个变量组成的线性判别函数使得各组内点的离差尽可能接近,而不同组间的点尽可能疏远。
16、当X~,则-)服从卡方分布,即-) ~。
17、威尔克斯统计量表达式:∧=。
18、霍特林统计量表达式:。
19、两个变量间的平方马氏距离:;总体的马氏距离:。
20、方差相等的两个随机变量的关系:。
21、几个变量间服从正态分布,各自独立,样品的均值向量服从正态分布。
22、从代数观点看主成分是P个原始相关变量的线性组合。
23、变量共同度是指因子载荷矩阵中的第i行元素的平方和。
24、因子分析是指把每个原始变量分为两部分因素,一部分是公共因子,另一部分是特殊因子。
1、判别分析的目标。
答:判别分析的目标有两个:一是根据已知所属组的样本给出判别函数,并制定判别规则,再依此判断(或预测)每一新样品应归属的组别。
1. 设随机向量 X = ( X , X , X )' ,且其协方差阵为 ∑ = -49 -2 ⎪ ,则它的相关 3 -2 16⎪⎭ 1 - 2 矩阵 R = - 1 - 1 ⎪ 。
1 ⎪ 3(α) ~ N ( μ, ∑),( α = 1,2, n) 且相互独立,样本均值向量为 X ,样本离差阵为n - 1 B ⎢11 0⎥ 22 0⎥ D = C D ⎢13 24 19 0⎥- X )' , 则 X ~N (μ , 1 ∑) , L ~ W (n - 1,∑) 。
L =∑( X- X )( X5. 设三维随机向量 X ~ N (μ , ∑) ,其中 ∑ = 1 3 0 ⎪ ,则 X 与 X 不独立 ; 0 0 2 ⎪⎢ A 0⎥ 11 0⎥ 12 22 0 ⎥C (0) =⎢解:样品与样品之间的明氏距离为: D ⎢ E 10 23 5 6 0 ⎥ ⎭n⎣ ⎦学 号精品文档东 北 大 学 秦 皇 岛 分 校课程名称: 多元统计分析 试卷类型: A 答案 考试形式:闭卷授课专业: 信科、应数、统计 考试日期: 2013 年 7 月 9 日 试卷:共 3 页( X , X )' 和 X 独立(填独立或不独立)。
1 2 36. 变量的类型按尺度划分有间隔尺度 、有序尺度 、名义尺度 。
二、判断题(每小题 3 分,共 15 分) 1. [×] 因子载荷矩阵 A 是对称阵。
2. [×] 方差分析是检验多个正态总体的方差或协方差阵是否相等的统计分析方法。
班 级题号得分阅卷人一 二 三 四 总分3. [√] 聚类分析中快速聚类法指的就是 k -均值法。
4. [√] 判别分析中,“留一个观测在外”的原则是指在交叉验证时,某个观测不参与估计判别函数,但要根据除这个观测以外的其他观测估计的判别函数来预测该观测的所属类,从而使这个 观测得到验证。
姓 名装订线内不要答题装订线一、填空题:(每空 2 分,共 32 分)⎛ 4 -4 3 ⎫ ⎪ 1 2 3 ⎝⎛ 3 ⎫3 8 ⎪2 3 6 ⎪⎝ 8 - 61 ⎪⎪2. 系统聚类分析的方法很多,其中的五种分别为最长距离法、最短距离法、重心法、类 平均法、离差平方和法。
复习题原文:答案:4.2 试述判别分析的实质。
4.3 简述距离判别法的基本思想和方法。
4.4 简述贝叶斯判别法的基本思想和方法。
4.5 简述费希尔判别法的基本思想和方法。
4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。
4.2 试述判别分析的实质。
答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互不相交,且它们的和集为,则称为的一个划分。
判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划分”,这个“划分”就构成了一个判别规则。
4.3 简述距离判别法的基本思想和方法。
答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。
其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。
①两个总体的距离判别问题设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是μ1和μ 2,对于一个新的样品X ,要判断它来自哪个总体。
计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2(X ,G 2),则X ,D2(X ,G 1)D 2(X ,G 2)X ,D2(X ,G 1)> D 2(X ,G 2,具体分析,2212(,)(,)D G D G -X X111122111111111222111211122()()()()2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2()22()2()---''=-++-'+⎛⎫=--- ⎪⎝⎭''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为X ,W(X)X ,W(X)<0②多个总体的判别问题。
h i=为变量 X i的共同度。
说明变量共同度 h 的统计1、设 X 与 Y 是从协差阵为 Σ 的总体 G 中抽取的样品,则 X 与 Y 之间的马氏距离的具体表现形式是什么?它与欧氏距离有什么区 别?2、判别分析的实质问题是什么?3、常用的判别分析方法有哪些?请简述它们的思想。
4、在什么情况下距离判别是 Bayes 判别的特例?5、对样品和变量进行聚类分析时,所构造的统计量分别是什么?简单说明为什么要这样构造?6、简述判别分析的步骤。
判别分析和聚类分析有何区别?7、简述主成分分析的思想。
8、试述主成分分析的几何意义。
简述主成分分析中累积贡献率的具体含义。
9、分别说明由协差阵和相关阵出发求解主成分的适用情形。
一般的,两种情形下得到的主成分相同吗?为什么?10、简述主成分分析和因子分析的联系和区别。
11、因子载荷阵是唯一的吗?证明之。
并说明因子载荷的统计意义。
12 、 设因子 载荷矩阵 为 A ,称第 i 行 元素的 平方和, 即,2m∑ aj = 12 iji = 1, 2,, p2i意义。
13、列举聚类分析中常用的方法,并简述每种方法的主要思想。
14、为什么要进行因子旋转?因子旋转的方法有哪些?= ⎢ ⎥ ⎢ ⎥ , Σ 1 = = , μ ⎪ , Σ 2 = 试用距离判别法判断:样品: X = ⎢ ⎣ ⎦⎢15、什么是相应分析? 什么是典型相关分析16、相应分析的基本思想。
典型相关分析的基本思想和步骤17、简述相应分析的步骤。
在进行相应分析时,应注意哪些问题?18、距离判别是 Bayes 判别的一种特例吗?为什么?19.简述常见的结构方程模型有哪些20.欧式距离和马氏距离的优缺点21 方差分析的前提条件、分析内容和基本步骤22.Logistic 回归模型应用的原理23 有两个正态总体 G 1和 G 2,已知:μ(1)⎡10 ⎤ ⎡ 20 ⎤ ⎛ 18 (2)⎣15 ⎦ ⎣ 25 ⎦ ⎝ 1212 ⎫ ⎛ 20 32 ⎭ ⎝ - 7- 7 ⎫ ⎪ , 5 ⎭⎡ 20 ⎤⎥ 20 24 面是 5 个样品两两间的距离矩阵,应归属于哪一类?D(0)⎡ 0 ⎢4 = ⎢ 6 ⎢⎢ 1⎢⎣ 6 0 9 7 310 58⎤ ⎥ ⎥ ⎥ ⎥ ⎥0 ⎥⎦试用最长距离法作系统聚类,并画出谱系聚类图。