2011多元统计分析课程卷
- 格式:doc
- 大小:181.00 KB
- 文档页数:8
《多元统计分析》课程试卷答案A 卷2009年秋季学期开课学院:理考试方式:√闭卷、开卷、一纸开卷、其它 考试时间:120 分钟班级 姓名 学号散卷作废。
一、(15分)设()∑⎪⎪⎪⎭⎫ ⎝⎛=,~3321μN x x x X ,其中⎪⎪⎪⎭⎫ ⎝⎛-=132μ,⎪⎪⎪⎭⎫ ⎝⎛=∑221231111,1.求32123x x x +-的分布;2. 求二维向量⎪⎪⎭⎫ ⎝⎛=21a a a ,使3x 与⎪⎪⎭⎫⎝⎛'-213x x a x 相互独立。
解:1.32123x x x +-()CX x x x ∆⎪⎪⎪⎭⎫⎝⎛-=321123,则()C C C N CX '∑,~μ。
(2分)其中:μC ()13132123=⎪⎪⎪⎭⎫ ⎝⎛--=,()9123221231111123=⎪⎪⎪⎭⎫ ⎝⎛-⎪⎪⎪⎭⎫ ⎝⎛-='∑C C 。
(4分)所以32123x x x +-()9,13~N (1分)2. ⎪⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛'-2133x x a x x =AX x x x a a ∆⎪⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛--321211100,则()A A A N AX '∑,~2μ。
(1分)其中:订线装μA ⎪⎪⎭⎫ ⎝⎛++-=⎪⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛--=132113211002121a a a a,(1分) ⎪⎪⎭⎫ ⎝⎛+--+++--+--='⎪⎪⎭⎫ ⎝⎛--⎪⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛--='∑2422322222110022123111111002121222121212121a a a a a a a a a a a a a a A A (2分)要使3x 与⎪⎪⎭⎫⎝⎛'-213x x a x 相互独立,必须02221=+--a a ,即2221=+a a 。
因为2221=+a a 时2422321212221+--++a a a a a a 0>。
填空题:1、费希尔(Fisher)判别法是1936年提出来的,该方法的主要思想是通过将多维数据投影到某个方向上。
2、因子分析的内容非常丰富,常用的因子分析类型是R型因子分析和Q型因子分析。
3、K均值聚类分析的基本思想是将每一个样品分配给最接近业壶些直的类中。
4、对应分析是将R型因子分析Q型因子分析结合起来进行的统计分析方法。
5、总体方差未知的情况下,采用样本方差代替总体方差的方法进行计算。
6、主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转7、设X、N2 ( U , N),其中X=(》1,》2),号),则CovQq +》2,*1 - *2)= _0__8、判别分析是判别样品所属类型的一种统计方法,常用的判别方法有距离判别法、Fisher 判另U法、Bayes判另U法、逐步判另U法9 多元正态分布的任何边缘分布为正态分布10、应用多元统计分析方法用于解决多指标问题,聚类分析就是分析如何对样品(或变量)进行量化分类的问题。
通常聚类分析分为Q型聚类和R型聚类。
11、总离差平方和可以分解为回归离差平方和和剩余离差平方和两个部分,各自的自由度为(P )和(n-p-1),其中回归离差平方和在总离差平方和中所占比重越大,则线性回归效果越显著。
12、系统聚类分析方法有最短距离法、最长距离法、中间距离法、重心法、类平均统和可变类平均法。
13、典型相关分析是研究两组变量之间相关关系的一种多元统计方法14、因子分析中因子载荷系数叫,•的统计意义是:(第i个变量与第j个公因子的相关系数)15、相应分析的特点是研究的变量是定性的16、公共因子方差与特殊因子方差之和为o17、设Z 是总体X=(X”…,乂皿)的协方差阵,X 的特征根人。
=1,2,..・田)与对应的单位正交化特征向量% =(%,%2,,则第一主成分的表达式=% ]X| + %2、2 + ・•• + /mX"],方差为2]18、相应分析的主要目的是寻求列联表行因素A和列因素B的基本分析特征和它们的最优联立表示19聚类分析一是分析如何对样品或变量进行量化分类的问题。
2011年《新高考全案》高考总复习配套测评卷单元检测卷(十二)统计及统计案例时间:90分钟,满分:150分一、选择题(共8小题,每小题7分,满分56分)1.在10000个有机会中奖的号码(编号为0000~9999)中,有关部门按照随机抽样的方式确定后两位数字是68的号码为中奖号码,这是运用哪种抽样方式来确定中奖号码的?( )A .抽签法B .系统抽样C .随机数表法D .分层抽样 由题意知中奖号码为0068,0168,0268,…,9968,符合系统抽样. B2.一个容量为20的样本数据分组后,组距与频率如下:(10,20),2;(20,30),3;(30,40),4;(40,50),5;(50,60),4,(60,70),2.则样本在区间(-∞,50)上的频率是( )A .0.20B .0.25C .0.50D .0.70 频率=频数样本容量=2+3+4+520=1420=0.7.D3.某高中在校学生2000人,高一级与高二级人数相同并都比高三级多1人.为了响应“阳光体育运动”号召,学校举行了“元旦”跑步和登山比赛活动.每人都参加而且只参与其中a ∶b ∶c =2∶3∶5,全校参与登山的人数占总人数的25.为了了解学生对本次活动的满意程度,从中抽取一个200人的样本进行调查,则高二级参与跑步的学生中应抽取( )A .36人B .60人C .24人D .30人全校参与跑步有2000×35=1200人,高二级参与跑步的学生=1200×32+3+5×2002000=36.A4.为了了解1200名学生对学校某项教改试验的意见,打算从中抽取一个容量为30的样本,考虑采用系统抽样,则分段的间隔(抽样距)K 为( )A .40B .30C .20D .12抽样距=120030=40.A5.线性回归方程y ∧=bx +a 必过点( )A .(0,0)B .(x ,0)C .(0,y )D .(x ,y )因为a =y -b ·x ,所以y ∧b 2-4ac =bx +y -b x ,当x =x 时,y =y ,所以回归方程过点(x ,y ).D6.如图表示甲、乙两名篮球运动员每场比赛得分情况的茎叶图,则甲和乙得分的中位数的和是( )A.56分 B .57分 C .58分D .59分甲的中位数是32,乙的中位数是26,故中位数之和是58分. C7.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A .若k 2的观测值为k =6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病C .若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D .以上三种说法都不正确 C8.(2009·四川高考题)设矩形的长为a ,宽为b ,其比满足b ∶a =5-12≈0.618,这种矩形给人以美感称为黄金矩形.黄金矩形常应用于工艺品设计中.下面是某工艺品厂随机抽取两个批次的初加工矩形宽度与长度的比值样本:甲批次:0.598 0.625 0.628 0.595 0.639 乙批次:0.618 0.613 0.592 0.622 0.620根据上述两个样本来估计两个批次的总体平均数,与标准值0.618比较,正确结论是( )A .甲批次的总体平均数与标准值更接近B .乙批次的总体平均数与标准值更接近C .两个批次总体平均数与标准值接近程度相同D .两个批次总体平均数与标准值接近程度不能确定用以上各数据与0.618(或0.6)的差进行计算,以减少计算量,说明多思则少算.甲批次的平均数为0.617,乙批次的平均数为0.613.A二、填空题(共6小题,每小题7分,满分42分) 9.(2009·湖北高考题)下图是样本容量为200的频率分布直方图.根据样本的频率分布直方图估计,样本数落在内的频数为________,数据落在(2,10)内的概率约为________.观察直方图易得频数为200×0.08×4=64,频率为0.1×4=0.4. 64 0.4 10.(2009·重庆高考题)从一堆苹果中任取5只,称得它们的质量为(单位:克): 125 124 121 123 127,则该样本标准差s =________(克)(用数字作答).因为样本平均数x =15(125+124+121+123+127)=124,则样本方差s 2=15(12+02+32+12+32)=4,所以s =2211.(2009·辽宁高考题)某企业有3个分厂生产同一种电子产品,第一、二、三分厂的产量之比为1∶2∶1,用分层抽样方法(每个分厂的产品为一层)从3个分厂生产的电子产品中共抽取100件作使用寿命的测试,由所得的测试,由所得的测试结果算得从第一、二、三分厂取出的产品的使用寿命的平均值分别为 980h,1020h,1032h ,则抽取的100件产品的使用寿命的平均值为________h.从第一、二、三分厂的抽取的电子产品数量分别为25,50,25,则抽取的100件产品的使用寿命的平均值为980+2×1020+10324=1013.101312.在研究硝酸钠的可溶性程度时,观测它在不同温度的水中的溶解度,得观测结果如下表:若y 与x x =30,y=93.6, 5i =1x 2i =7900, 5i =1x i y i =17035,∴回归直线的斜率 b = 5i =1x i y i -5x y5i =1x 2i -5x 2=17035-5×30×93.67900-4500≈0.8809.0.8809 13.(2009·广东高考题)某篮球队6名主力队员在最近三场比赛中投进的三分球个数如下表所示:则图中判断框应填________,输出的s =________.(注:框图中的赋值符号“=”也可以写成“←”或“:=”)该程序框图是统计该6名队员在最近三场比赛中投进的三分球总数,所图中判断框应填i≤6,输出的s=a1+a2+…+a6.i≤6;a1+a2+…+a614.给出下列命题:①命题“∃x∈R,使得x2+x+1<0”的非命题是“对∀x∈R,都有x2+x+1>0”;②独立性检验显示“患慢性气管炎和吸烟有关”,这就是“有吸烟习惯的人,必定会患慢性气管炎”;③某校有高一学生300人,高二学生270人,高三学生210人,现教育局欲用分层抽样的方法,抽取26名学生进行问卷调查,则高三学生被抽到的概率最小.其中错误的命题序号是________(将所有错误命题的序号都填上).本题三个命题重点考查简易逻辑用语、统计案例和统计等基本概念.①中原命题的非命题是“对∀x∈R,都有x2+x+1≥0”,所以①错误;②中说法不正确,“患慢性气管炎和吸烟有关”只是说明“患慢性气管炎”和“吸烟”有一定的相关关系,但不是确定关系,所以“有吸烟习惯的人,未必患慢性气管炎”;③中,由于抽样比为26300+270+210=1 30,所以高一学生被抽到的人数为130×300=10人,高二学生被抽到的人数为130×270=9人,高三学生被抽到的人数为130×210=7人,尽管高三学生抽到的人数少,但每个学生被抽到的机会均等,所以“高三学生被抽到的概率最小”这种说法错误.①②③三、解答题(共4小题,满分52分)15.(2009·广东高考题)(本小题满分12分)随机抽取某中学甲乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图如下图.(1)根据茎叶图判断哪个班的平均身高较高;(2)计算甲班的样本方差.(1)由茎叶图可知:甲班身高集中于160∶179之间,而乙班身高集中于170∶180之间。
2010-2011学年第一学期信息与计算专业《多元统计分析》(课程)试卷一、计算(每小题8+10+6分,共24分)1、(共2+6=8分)设X ~),(3∑μN ,其中),,(321'=X X X X ,)2,0,1('=μ,⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=∑221241111试求:1)计算1X 和2X 的相关系数2) ⎪⎪⎭⎫⎝⎛++=⎪⎪⎭⎫ ⎝⎛=322121X X X X Y Y Y 的分布。
2、(共5+5=10分)、设一个容量为n=4的随机样本取自二维正态总体),(2∑μN ,其数据矩阵为⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=4031-2231-X , 1)计算样本均值x ,样本自方差2S2). 对]2,2[='μ计算统计量2T 的值,并将其变为F 统计量,同时在显著水平为0.05下检验0μμ=。
(19)05.0(,5.199)05.0(2,21,2==F F )3、(共6分)已知五个样品的之间的距离矩阵如下:D=⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡082101109360730605432154321 类间距采用最长距离法,将五个对象分为3类。
二、简答(每小题5分,共20分)1、马氏距离相对欧式距离有什么优点。
2、快速聚类分析的步骤。
3、主成分分析和因子分析的区别。
4、简述典型相关分析模型(用数学形式表示,并解释每个符号的意义)。
三、(每小题6+4+4分,共14分) 为了为了考虑鸡的头(X)和腿(Y)的关系,头观察了两个指标颅骨宽(X1)和颅骨长(X2),腿观察了股骨长(Y1)和胫骨长(Y2),利用spss得到以下结果:Canonical Correlations(表一)1 .6312 .057Raw Canonical Coefficients for Set-1(表二)V1 V2X1 0.781 -.856X2 0.345 1.106Raw Canonical Coefficients for Set-2(表三)W1 W2Y1 0.060 -2.648Y2 0.944 2.475Canonical StructureCorrelations Between the set-1 Variables and Their Canonical Variables(表四)V1 V2X1 0.9548 -0.2974X2 0.7388 0.6739Correlations Between the set-2 Variables and Their Canonical Variables(表五)W1 W2Y1 0.9343 -0.3564Y2 0.9997 0.0227Correlations Between the set-1 Variables and the Canonical Variables of the set-2 Variables(表六)W1 W2X1 0.6025 -0.0169X2 0.4663 0.0383Correlations Between the set-2 Variables and the Canonical Variables of the VAR Variables(表七)V1 V2Y1 0.5897 -0.0202Y4 0.6309 0.0013根据上面结果,试回答以下问题:1、这两组经济变量间的典型相关系数分别是多少,并写出相应的典型相关变量。
多元统计分析期末试题及答案作者: 日期:的样本均值和样本离差矩阵,则T 21、设 X(Xi,X2,X 』〜2(,),其中试判断人2X3与X"3是否独立?Xi15[4(X)]A 1[4( X)〕〜°16 4 2(1,0, 2),4 4 1 ,2 1 410,),i1 丄,10,则 W = (Xi)(Xi)i 1则它的相矢矩阵R八设X= Xi X2X3,的相尖系数矩阵通过因子分析分解为公因子匚对X 的贡献gj5、设Xi,i 1丄,16是来自多元正态总体Np( ,), X 和A 分别为正态总体 Np(,)N2(),其中 X(Xi,X 2), (1,2),则 Cov( Xi \2, xiX2)=服从3、设随机向量XX1 X2 X3,且协方差矩阵44 3 49 232 162、设 Xi - Na(R 11 0 32n 130.9340 417 0.8350 0 894 0.4470.934 00.417 0 8940.835 0 4470.1280 0270.103X1的共性方差hl.......... 方差2、对某地区农村的6名2周岁男婴的身高、胸围、上半臂围进行测量,得相尖数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值。
(90,58,16), 现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。
82.0 4.310714.62108.9464其中X60.2 ,(5 s)1( 115.6924)114.6210 3.17237. 376014.58.946437.376035.5936 ( 0.01,F0.01 (3, 2) 99.2, F0.01 (3,3)29.5, F0.01 (3, 4)16.7)3、设已知有两正态总体G与G,且I而其先验概率分别为q q2 0.5,误判的代价C(2|1) e4,C(112) e;3试用Bayes判别法确定样本X 属于哪一个总体?14、设X (Xi,X2,X3,X4)丁 ~ N4(0,),协方差阵I 畀1(1)试从工出发求X的第一总体主成分;(2)试问当取多大时才能使第一主成分的贡献率达95%以上5、设X (Xi ,X2)T3Y(Y,X2)丁为标准化向量,令Z1、设随机向量X的均值向量、协方差矩阵分别为试证:E(XX) ,且其协方差阵V(Z)100000 1112010.950 212200.9510000100求其第一对典型相尖变量和它们的典型相尖系数?2、设随机向量X~N P(J,又设丫=A P X+bn,试证:丫~ N r(A b,A A)。
课程名称:多元统计回归分析
实验项目:边远及少数民族聚居区和会经济发展水平实验类型:验证性
学生学号:
学生姓名:
学生班级:
课程教师:
实验日期: 2016-03-28
)做出统计判断,最后对统计判断作出具体的解释
模块可以完成多元正态分布有关均值与方差的检验。
依次点选
、第三产业比重、人均消费支出、人口自然增长率及文盲半文盲
,由此我们可以知道边远及少数民族聚居区社会经济发展水平与全国平均发展水平中的人均消费存在显著差别,即全国的平均人均消费大于边远及少数民族聚居区人均消费,相差值为
均大于显著性水平
发展水平与全国平均发展水平中的人均
盲半文盲等指标无明显差别。
注:验证性实验仅上交电子文档,设计性试验需要同时上交电子与纸质文档进行备份存档。
北方工业大学
《多元统计分析》课程试卷
A 卷
2011年秋季学期
开课学院:理
考试方式:√闭卷、开卷、一纸开卷、其它 考试时间:120 分钟
班级 姓名 学号
一、(15分)设()∑⎪⎪⎪⎭⎫ ⎝⎛=,~3321μN X X X X ,其中⎪⎪⎪⎭
⎫ ⎝⎛-=413μ,⎪⎪⎪
⎭⎫
⎝⎛--=∑20005
2021。
试判断下列5对随机变量是否独立。
(1)1X 与22X ; (2)2X 与3X ; (3)),(21X X 与3X ; (4))(2121X X +与3X ; (5)2X 与3122
5
X X X --。
订
线
装
二、(15分)设一个容量为n=5的随机样本取自二维正态总体,其数据矩阵为
⎪⎪⎪⎪⎪
⎪⎭
⎫
⎝⎛=9.73.112.03.210.93.8
8.04.79.33.7
X ,给定显著性水平05.0=α, 试检验
,104:H 0⎪⎪⎭⎫ ⎝⎛=μ .104:H 1⎪⎪⎭
⎫
⎝⎛≠μ (已知F 分布的上α分位数为19)2,2(F ,16.19)2,3(F ,55.9)3,2(F 0.050.050.05===)
三、(20分)在某年级44名学生的期末考试中,有的课程采用闭卷,有的课程采用开卷。
考试成绩见表3.1。
表3.1 44名学生闭卷与开卷考试的成绩表
基于相关矩阵对上述数据进行因子分析,运算结果如下。
表3.2 Descriptive Statistics
表3.3 KMO and Bartlett's Test
表3.4 Rotated Component Matrix
表3.5 Component Score Coefficient Matrix 求:1. 请说明表3.3的作用,并对结果做出评价; 2. 请解释共同度及累积贡献率的含义;
3. 根据上述运算结果,试填写下表
4. 说明为什么要进行因子旋转并对两个旋转因子的含义做出解释;
5. 写出两个旋转因子的因子得分表达式。
四、(15分)1. 请写出聚类分析的基本思想; 2.五个样品间的距离矩阵如下
⎪⎪⎪⎪⎪⎪⎭
⎫ ⎝⎛08
5
3
6
1071096040543215
43 2 1
试用最长距离法对样品进行聚类。
画出聚类图,并给出聚为三类时的结果。
五、(15分)为了研究人体的心肺功能,对31个成年男子测量了肺活量(OXY ),并记录了他们的年龄(age )、体重(weight )、以及简单训练后的测试数据:跑1.5英里的时间(time )、休息时的脉搏(spulse )、跑步时的脉搏(rpulse )和跑步时记录的最大脉搏(mpulse )共7项指标。
以肺活量(OXY )为因变量,其它六个变量为自变量进行多元线性回归分析,所得结果如下。
表5.1 Model Summary
表5.2 ANOVA
表5.3 Coefficients
1. 请写出多元线性回归模型的一般形式;
2. 请写出表5.2所检验的原假设和备择假设,当显著性水平05.0=α时,给出检验的结论;
3. 请写出的回归系数t 检验的原假设和备择假设,给定检验的显著性水平05.0=α,是否显著,解释原因;
4. 请写出最小二乘法的思想及多元线性回归方程。
六、(20分)设在某地区抽取了14块岩石标本,其中7块含矿,7块不含矿。
对每块岩石测定了Cu,Ag,Bi三种化学成分的含量,得到的数据如表6.1。
表6.1 岩石化学成分的含量数据
对此数据进行判别分析,结果如下。
表6.2 Tests of Equality of Group Means
表6.3 Functions at Group Centroids
表6.4 Classification Function Coefficients
表6.5 Canonical Discriminant Function Coefficients
求:1. 请说明表6.2中检验的意义,并给出检验结论; 2. 请写出Fisher 判别法的线性判别函数; 3. 请写出Bayes 判别法的分类函数;
4. 请写出距离判别的思想,据表6.3及6.5给出距离判别法则。
5. 今测得Cu ,Ag ,Bi 三种化学成分的含量分别为54.115.2,95.2和,请运用Fisher 判别法及Bayes 判别法判断该标本是含矿还是不含矿?。