多元统计分析上机作业
- 格式:docx
- 大小:109.43 KB
- 文档页数:9
均值协方差估计1.通过SPSS将产业数据命名:V1:第一产业;V2:第二产业;V3:第三产业。
2. 求X=(V1,V2,V3)’的均值向量估计(给出SPSS的相关输出表格及结果)。
通过SPSS从表1中得知所求向量的样本均值为(554.0797, 2142.4481, 1675.703)‘。
3. 求D(X)的估计量(给出SPSS的相关输出表格及结果)。
通过SPSS的相关中的双变量模块,得到如下输出表格。
通过表2得知随机向量的样本协差阵为:4.根据Pearson相关系数,试判断三个产业中,哪两个产业的相关性最高?通过表2得知,V2与V3的Pearson相关系数为0.968,即第二产业与第三产业相关程度最高。
均值向量比较及方差分析数据描述:数据中给出了不同民族(1,2,3)、城乡(1,2)居民的收入及文化程度信息,试根据数据回答以下问题。
1.就城乡居民来讲,收入及文化收入服从二元正态分布吗(为什么,请列明理由)?服从二维正态分布。
2.城乡的居民收入及文化程度存在着差异吗?(请通过均值向量检验作出回答,要求写明假设检验,检验统计的选择及依据,检验结果及依据。
)表2:Box's 共變異數矩陣等式檢定aBox's M 共變異等式檢定.112F .034df1 3df2 87120.000顯著性.992檢定因變數的觀察到的共變異數矩陣在群組內相等的空假設。
a. 設計:截距 + 城乡城乡的居民收入及文化程度不存在着差异。
3. 该数据适合通过方差分析来比较不同民族的收入及文化程度差异吗(请列明理由及依据【正态性及方差齐性检验】)。
表5:Box's 共變異數矩陣等式檢定aBox's M 共變異等式檢定2.354F .338df1 6df2 10991.077顯著性.917檢定因變數的觀察到的共變異數矩陣在群組內相等的空假設。
a. 設計:截距 + 民族数据通过了正态性及方差齐性检验,所以该数据适合通过方差分析来比较不同民族的收入及文化程度差异.4. 如果该数据适合做方差分析,初步的检验结果是什么?需要进一步做两两比较吗?表6:多變數檢定a效果數值 F 假設 df 錯誤 df 顯著性截距Pillai's 追蹤.995 2046.322b 2.000 20.000 .000Wilks' Lambda.005 2046.322b 2.000 20.000 .000 (λ)Hotelling's 追蹤 204.632 2046.322b 2.000 20.000 .000Roy's 最大根204.632 2046.322b 2.000 20.000 .000 民族Pillai's 追蹤.898 8.561 4.000 42.000 .000Wilks' Lambda.103 21.166b 4.000 40.000 .000 (λ)Hotelling's 追蹤 8.702 41.332 4.000 38.000 .000Roy's 最大根8.700 91.352c 2.000 21.000 .000a. 設計:截距 + 民族b. 確切的統計資料c. 統計資料是 F 的上限,其會產生顯著層次上的下限。
内蒙古农业大学理学院多元统计实验作业姓名刘高飞学号121413849班级统计一班第1题:某研究者检测了某山区16名健康成年男性的血红蛋白含量(g/L ),检测结果见下表。
问:该山区健康成年男性的血红蛋白含量与一般健康成年男性血红蛋白含量的总体均数132 g/L 是否有差别。
编号 血红蛋白含量(g/L ) 1 145 2 150 3 138 4 126 5 140 6 145 7 135 8 115 9 135 10 130 11 120 12 133 13 147 14 125 15 114 16 165解答:⑴.提出原假设:0H :0μμ=。
⑵.选择检验统计量:X tSPSS 程序:Analyze-compare-one_sample T test(test value 填比较值132)由表可得P=0.264 大于显著性水平0.05,所以该山区健康成年男性的血红蛋白含量与一般健康成年男性血红蛋白含量的总体均数132 g/L 之间无显著性差别。
第2题:为了解内毒素对肌酐的影响,将20只雌性中年大鼠随机分为甲组和乙组。
甲组中的每只大鼠不给予内毒素,乙组中的每只大鼠则给予3mg/kg 的内毒素。
分别测得两组大鼠的肌酐(mg/L)结果如表8-3。
问:内毒素是否对肌酐有影响?甲组 乙组 6.2 8.5 3.7 6.8 5.8 11.3 2.7 9.4 3.9 9.3 6.1 7.3 6.7 5.6 7.8 7.9 3.8 7.2 6.98.2解答:⑴提出原假设: 0H :021=-μμ,1μ,2μ分别为第一个和第二个总体的均值。
⑵选择检验统计量2122121)(σμμ---=X X t当两总体方差未知且相等是,t 统计量服从221-+n n 个自由度的t 分布;当两总体方差未知且不相等时,t 统计量服从修正自由度的t 分布,修正的自由度定义为:2222121212222121)()()(n nS n n S n S n S f ++=SPSS 程序:1、 输入两列数据:组别(甲组=1,乙组=2);肌酐。
多元统计分析实验报告实验课程名称多元统计分析实验项目名称多元统计理论的计算机实现年级 2013专业应用统计学学生姓名侯杰成绩理学院实验时间:2015 年05 月07 日学生所在学院:理学院专业:应用统计学班级:9131137001代码及运行结果分析1、均值检验问题重述:某医生观察了16名正常人的24小时动态心电图,分析出早晨3小时各小时的低频心电频谱值(LF)、高频心电频谱值(HF),数据见压缩包,试分析这两个指标的各次重复测定均值向量是否有显著差异。
代码如下:Tsq.test<-function(data,alpha=0.05){data<-as.matrix(read.table("ch37.csv",header=TRUE,sep=",")) #读取数据xdat<-data[,2:4];xbar<-apply(xdat,2,mean); #计算LF指标的均值ydat<-data[,5:7];ybar<-apply(ydat,2,mean); #计算HF指标数据xcov<-cov(xdat); #计算LF样本协差阵ycov<-cov(ydat); #计算HF样本协差阵sinv<-solve(xcov+ycov);#求逆矩阵Tsq<-(16+16-2)*t(sqrt(16*16/(16+16)*(xbar-ybar)))%*%sinv%*%sqrt(16*16/(16+16)*(xbar-ybar)); #计算T统计量Fstat<-((16+16-2)-3+1)/((16+16-2)*3)*Tsq; #计算F统计量pvalue<-as.numeric(1-pf(Fstat,3,16+16-3-1));cat("p值=",pvalue,"\n");if(pvalue>0.05) #结果输出cat('均值向量不存在差异')elsecat('均值向量存在差异');}运行结果及分析:通过运行程序,我们可以得到如下结果:> Tsq.test()p值= 1.632028e-14均值向量存在差异即LF与HF这两个指标的各次重复测定均值向量存在显著差异。
多元统计分析作业海洋地球化学多元统计分析作业一、预备工作:数据的输出管理首先设置File output manager output manager中,选中individual wind。
Also send to Report wind中,选中single report。
二、数据的导入数据表(data.xls)为一个深海沉积物柱中30个样品分析结果。
第1列为样品编号,第2列为样品的采样深度(单位),第三列起为分析的各元素含量。
将data.xls 数据导入Statistica worksheet中 (操作步骤为菜单Fileopen …data.xls)三、数据(图表)的输出统计分析过程中生成的结果都可以输出到Word文档中(菜单as …或PrtSc,粘贴到word中)。
对生成的图表,还可先菜单File Add to report,再粘贴到word中。
本项上机实习需完成以下统计分析一、相关及回归分析(Correlation matrices)1、分析两组分Co-Ni, CaO-Sr,Fe2O3-MnO,的相关关系,做出相关关系图,拟合出回归方程。
图1 Co-Ni 相关关系图图2 CaO-Sr 相关关系图图3 Fe2O3-MnO 相关关系图2、做出三组分Cu-Pb-Zn;Sr-Cu-CaO之间的散点图 (scatterplot) 。
图4 Cu-Co-Ni 散点图图5 Sr-Cu-CaO 散点图3、计算CaO、Co、Cu、Fe2O3、MnO、Ni、Sr之间的相关关系矩阵。
表1 沉积物中元素相关关系矩阵 (n=30,p<0.05)CaO Fe2O3MnO Co Cu Ni SrCaO 1.00Fe2O3-0.23 1.00MnO 0.18 0.18 1.00Co -0.21 0.85 0.41 1.00Cu -0.02 -0.01 0.36 0.26 1.00Ni -0.10 0.96 0.24 0.88 -0.03 1.00Sr 0.97 -0.25 0.23 -0.20 0.09 -0.13 1.00二、聚类分析(Cluster analysis)1、首先将数据进行标准化(分别进行和列的标准化),得到标准化的数据集。
多元统计分析作业2-1(中学生身体四项指标的主成分分析)在某中学随机抽取某年级30名学生,测量其身高X1、体重X2、胸围X3、和坐高X4,数据如下,试对这30名中学生身体四项指标数据做主成分分析序号x1 x2 x3 x41 148 41 72 782 139 34 71 763 160 49 77 864 149 36 67 795 159 45 80 866 142 31 66 767 153 43 76 838 150 43 77 799 151 42 77 8010 139 31 68 7411 140 29 64 7412 161 47 78 8413 158 49 78 8314 140 33 67 7715 137 31 66 7316 152 35 73 7917 149 47 82 7918 145 35 70 7719 160 47 74 8720 156 44 78 8521 151 42 73 82 聚类分析●表一案例处理汇总a案例有效缺失总计N 百分比N 百分比N 百分比30 100.0 0 .0 30 100.0此表显示了数据的缺失情况,经过整理缺失值的个数为0。
●表二此表是样品聚类过程。
样品10和29在第一步合并为一类,他们之间的非相关系数最小,为2.000.在下一次合并是第10步。
6 10 29合并为一类。
在第四7步的时候,样品1 22 组成一类,在第11步时1 4 22和为一类,样品个数为3,如此类推,可以解释表格。
表三聚类表阶 群集组合系数 首次出现阶群集 下一阶群集 1群集 2群集 1群集 21 10 29 2.000 0 0 62 6 28 3.000 0 0 83 8 9 3.000 0 0 174 16 26 4.000 0 0 245 18 27 7.000 0 0 226 10 15 9.000 1 0 107 22 30 10.000 0 0 118 6 14 10.000 2 0 109 3 12 10.000 0 0 12 10 6 10 10.000 8 6 16 11 1 22 11.000 0 7 18 12 3 19 14.000 9 0 13 13 3 13 14.000 12 0 19 14 7 21 15.000 0 0 17 15 5 20 15.000 0 0 19 16 6 11 15.000 10 0 23 17 7 8 15.000 14 3 21 18 1 4 15.000 11 0 22 19 3 5 16.000 13 15 20 20 3 25 17.000 19 0 21 21 3 7 18.000 20 17 25 22 1 18 19.000 18 5 24 23 2 6 19.000 0 16 26 24 1 16 25.000 22 4 25 25 1 3 27.000 24 21 26 26 1 2 27.000 25 23 27 27 1 24 28.000 26 0 28 28 1 17 42.000 27 0 29 2912367.00028冰柱图从上往下看,用白纸挡住对应分的类,与x轴平行。
《多元统计分析》实验教学上机指导书(共70页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--《多元统计分析》实验教学上机指导书数学与统计学学院信息与计算科学教研室第一章聚类分析一、实验目的与要求1.通过上机操作使学生掌握系统聚类分析方法在SAS和SPSS软件中的实现,熟悉系统聚类的用途和操作方法,了解各种距离,能按要求将样本进行分类;2.要求学生重点掌握该方法的用途,能正确解释软件处理的结果,尤其是冰柱图和树形图结果的解释;3.要求学生阅读一定数量的文献资料,掌握系统聚类分析方法在写作中的应用。
二、实验内容与步骤SAS部分(一)SAS程序语言简介SAS系统强大的数据管理能力、计算能力、分析能力依赖于作为其基础的SAS语言。
SAS语言是一个专用的数据管理与分析语言,它的数据管理功能类似于数据库语言(如FoxPro),但又添加了一般高级程序设计语言的许多成分(如分支、循环、数组),以及专用于数据管理、统计计算的函数。
SAS系统的数据管理、报表、图形、统计分析等功能都可以用SAS语言程序来调用,只要指定要完成的任务就可以由SAS系统按照预先设计好的程序去进行,所以SAS 语言和FoxPro等一样是一种第四代计算机语言。
SAS语言有它自己的对变量、常量、表达式的一系列规定,有一系列标准函数,有它自己的语句、语法,可以按一定规则构成SAS程序。
SAS语言程序由数据步(DATA步)和过程步(PROC步)组成。
数据步用来生成数据集、计算、整理数据,过程步用来对数据进行分析、报告。
SAS语言的基本单位是语句,每个SAS语句一般由一个关键字(如DATA,PROC,INPUT,CARDS,BY)开头,包含SAS名字、特殊字符、运算符等,以分号结束。
SAS关键字是用于SAS语句开头的特殊单词。
SAS名字在SAS程序中标识各种SAS成分,如变量、数据集、数据库,等等。
SAS 名字由1到8个字母、数字、下划线组成,第一个字符必须是字母或下划线。
上机实习一P 75l例3-5已知描述我国各省居民消费的八项指标,请同学们用SPSS 软件完成如下任务1) 通过求相关系数,用系统聚类法完成对八个指标的聚类。
2) 通过用类平均法,用系统聚类法完成对省份的聚类。
复习问题1将p G 类q G 与合并成r G ,其中样品数分别为,,p q r n n n 且r p q n n n =+,用重心法求某k G 与r G 的距离为2222(,)()()(,)(,)(,)c k r k r p q p q cccrrr rD k r X X X X n n n n D k p D k q D q p n n n n ¢=--=+-问题2将p G 类q G 与合并成r G ,其中样品数分别为,,p q r n n n 且r p q n n n =+,用类平均法求某k G 与r G 的距离为222221(,)(,)(,)(,)p qG iji G j G p q p q G G G rrD p q d n n n n D k r D k p D k q n n 挝==+邋问题11.试叙述多元联合分布和边际分布之间的关系。
解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=的联合分布密度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=的子向量的概率分布,其概率密度函数的维数小于p 。
2设二维随机向量12()X X '服从二元正态分布,写出其联合分布。
解:设12()X X '的均值向量为()12μμ'=μ,协方差矩阵为21122212σσσσ⎛⎫ ⎪⎝⎭,则其联合分布密度函数为1/21222112112222122121()exp ()()2f σσσσσσσσ--⎧⎫⎛⎫⎛⎫⎪⎪'=---⎨⎬ ⎪ ⎪⎝⎭⎝⎭⎪⎪⎩⎭x x μx μ。
3已知随机向量12()X X '的联合密度函数为121212222[()()()()2()()](,)()()d c x a b a x c x a x c f x x b a d c --+-----=--其中1a x b ≤≤,2c x d ≤≤。
2008级《医学多元统计分析》上机考试试卷(30分)任意选3题(每题10分)一、29例儿童的血液中血红蛋白(Y,μg)与钙(X1)、镁(X2)、铁(X3)、锰(X4)及铜(X5)的含量见数据文件PAN.sav。
请回答:1:试用强迫引入法建立多元线性回归方程;2:在微量元素中,哪个对血红蛋白的作用最大?并请排出个作用大小顺序;3:回归模型中,决定系数、调整决定系数、剩余标准差分别为多少?二、某研究调查了169名妇女吸烟和使用口服避孕药对血栓形成的影响,见表1。
表妇女吸烟和使用口服避孕药对血栓形成的影响病人类别吸烟用避孕药不用避孕药不吸烟用避孕药不用避孕药血栓14 7 12 25对照 2 22 8 84请回答:1、建立SPSS数据文件,用logistic回归方法建立logistic回归方程,并解释回归系数和OR 的关系;2、吸烟和使用口服避孕药对血栓的形成是否有影响?判断依据是什么?三、研究舒张期血压与血浆胆固醇对冠心病的作用,在某工厂测定了50-59岁女工冠心病2.对两个指标为黑色的字体的个体进行判别,并列出判断所在类别2.根据聚类结果,6个民族聚成几类较为适合。
四、30名儿童生长发育的数据如下表.利用主成分分析找出少数几个相互独立的主成分,对他们的生长发育情况进行综合评价.编号身高(cm) 坐高(cm) 体重(kg) 胸围(cm) 肩宽(cm) 肺活量(ml)1 120.1 66.3 23.8 61 27.3 12102 120.7 67.6 23.4 59.8 27.1 12103 121.2 66.5 22.9 59 26 10404 121.5 67.8 24.6 59.5 26.4 16205 122.5 69.2 24.4 60.7 26.4 16906 122.7 69.1 27.2 64.5 28.4 11507 123.2 64.3 20 56.1 26.1 11508 123.3 69 24.9 58.4 27.2 14609 123.4 67.4 21.8 59 27.1 119010 123.9 67.1 23.5 60.2 28.4 184011 124.5 67.8 25.2 63 27.8 125012 124.8 67.9 22.3 58.1 27.3 148013 124.9 67.8 22 58 26.8 131014 125.3 69.3 24.7 60 28 166015 125.6 69.1 22.8 59 26.5 158016 125.8 69.6 25.7 61 27 146017 126 67.1 30.2 68 28.8 124018 126.2 68.4 25.2 60.5 27.2 110019 126.8 67.5 23.6 58.5 27.4 125020 127.1 69.8 23 57.7 27.8 127021 127.6 67.9 24.3 59 28.4 130022 127.7 69.7 24.1 60 27.7 135023 128.3 68.5 21.6 55.5 27 125024 128.5 71.2 27.1 62 27.5 172025 128.5 67.3 22.6 57.4 28.3 148026 129.4 69.8 24.9 60.5 27.6 138027 129 67.4 26.7 63.7 29.8 117028 129.8 71 26.1 62 28.4 164029 131.6 70.7 28.7 62.8 28.9 164030 130.2 71.8 25 58.6 27.8 1150五、从30例手术后的大肠癌患者随访资料可以了解影响术后生存情况的因素。
多元统计分析上机习题1. 下面的表,分别为某企业1991年~1995年5年中各季度计划完成和实际完成的产量(单位:万吨)数据资料,试建立一个SPSS数据文件保存这两个表中的数据。
年份一季度二季度三季度四季度计划数实际数计划数实际数计划数实际数计划数实际数19911412.51821.41818.52020.419921717.21819.81719.22022.5 19931616.52016.81817.72119.6 19941818.42019.22020.52220.8 19952020.52125.82522.52524.5 19911412.51821.41818.52020.4然后对建立的数据文件分别按季度、年汇总各季度和各年度的计划产量和实际完成的产量、平均产量。
2. 用四种不同的饲料喂养大白鼠,每组4只,然后测其肝重占体重的比值(肝/体重比值,%),数据如下。
试比较四组均数间有无差异?表14 四组资料的肝重占体重比值(%)的测定结果A饲料B饲料C饲料D饲料2.62 2.82 2.913.922.23 2.763.02 3.002.36 2.433.28 3.322.40 2.733.18 3.043. 对12份血清分别用原方法(检测时间20分钟)和新方法(检测时间10分钟)测谷-丙转氨酶,结果见表。
问两法所得结果有无差别?表18 12份血清用原法和新法测血清谷-丙转氨酶(nmol·S-1/L)结果的比较编号原法新法1 60 802 142 1523 195 2434 80 825 242 2406 220 2207 190 2058 25 38 9 212 243 10 38 44 11 236 200 12951005. 让10个失眠患者分别服用甲乙两种安眠药,观察延长睡眠时间的情况,得到如下配对数据:甲药延时量 1.90 0.80 1.10 0.10 -0.10 4.40 5.50 1.60 4.60 3.40 乙药延时量 0.70 -1.60 -0.20 -1.2 -0.10 3.40 3.70 0.80 0.00 2.20 在显著检验性水平α= 0.05下,试用配对样本的T 检验过程,检验两种药物的疗效有无显著差异?6. 一工厂的两个化验员每天同时从工厂的冷却水中取样,测量一次水中的含氯量(ppm ),下面列出10天的记录:化验员A : 1.15 1.86 0.75 1.82 1.14 1.65 1.90 0.89 1.12 1.09 化验员B : 1.00 1.90 0.90 1.80 1.20 1.70 1.95 1.87 1.69 1.92 设各化验员的化验结果服从正态分布,试选用适当的检验过程,检验两个化验员测量的结果之间是否有显著差异? (α= 0.05、0.01)4. 将手术要求基本相同的15名患者随机分3组,在手术过程中分别采用A ,B ,C 三种麻醉诱导方法,在T 0(诱导前)、T 1、T 2、T 3,T 4 五个时相测量患者的收缩压,数据记录见表。
多元统计分析上机实验指导第一部分 SPSS软件基本操作当用户安装SPSS软件后,点击快捷图标,将会出现以下界面:图1.1 启动SPSS后出现的对话框对话框包括一个六选一单选对话框和一个复选对话框,其内容为:●Run the tutorial 运行操作指南;●Type in data 输入数据选项,建立新的数据集时可选择此项;●Run an existing query 运行一个已经存在的数据文件选项;●Create new query using Database Wizard 用数据库处理工具建立新文件;●Open an existing date source 打开一个已经存在的数据文件;●Open another type of file 打开其他类型的文件。
●Don’t show this dialog in the future 是一复选对话框,选中该复选项后,下次启动SPSS时将不会显示对话框,直接显示数据编辑窗口。
如果只是利用该软件做一般性的统计分析,不做高级开发工作,可以在“Don’t show this dialog in the future”左方的小方块里打钩,以后启动SPSS时将不会显示对话框,直接显示数据编辑窗口。
§1.1 数据文件的建立SPSS 软件包的数据编辑主窗口类似于EXCEL ,数据文件的建立就是在数据编辑窗口中完成的。
数据编辑窗口可以显示两张表,分别是Data View (见图1.2)和Variable View (见图1.3),通过点击下端的2个同名窗口标签按钮实现相互切换。
数据编辑区是SPSS 的主要操作窗口,是一个二维平面表格,用于对数据进行各种编辑;标尺栏由纵向标尺栏和横向标尺栏,横向标尺栏显示数据变量,纵向标尺栏显示数据顺序(如时间顺序)。
Data View 表可以直接输入观测数据值或存放数据,表的左端列边框显示观测个体的序号,最上端行边框显示变量名。
多远统计上机作业指标的原始数据取自《中国统计年鉴, 1995》和《中国教育统计年鉴, 1995》除以各地区相应的人口数得到十项指标值见表 1。
其中:X1 X2 X3 X4 X5 X6:为每百万人口高等院校数;:为每十万人口高等院校毕业生数;:为每十万人口高等院校招生数;:为每十万人口高等院校在校生数;:为每十万人口高等院校教职工数;:为每十万人口高等院校专职教师数;X7: 为高级职称占专职教师的比例;X8 :为平均每所高等院校的在校生数;X9 :为国家财政预算内普通高教经费占国内生产总值的比重;X10: 为生均教育经费。
表 1 我国各地区普通高等教育发展状况数据地区X1X2X3X4X5X6X7X8X9X10北京 5.96310461155793131944.362615 2.2013631上海 3.39234308103549816135.023052.9012665天津 2.3515722971329510938.403031.869385陕西 1.35811113641505830.452699 1.227881辽宁 1.50881284211445834.302808.547733吉林 1.67861203701535833.532215.767480黑龙江 1.1763932961174435.222528.588570湖北 1.0567922971154332.892835.667262江苏.9564942871023931.543008.397786广东.693971205612434.502988.3711355四川.564057177612332.623149.557693山东.575864181572232.953202.286805甘肃.714262190662628.132657.737282湖南.744261194612433.062618.476477浙江.864271204662629.942363.257704新疆 1.2947732651144625.932060.375719福建 1.045371218632629.012099.297106山西.855365218763025.632555.435580河北.814366188612329.822313.315704安徽.593547146462032.832488.335628云南.663640130441928.551974.489106江西.774363194672328.812515.344085海南.703351165471827.342344.287928内蒙古.844348171652927.652032.325581西藏 1.692645137753312.10810 1.0014199河南.553246130441728.412341.305714广西.602843129391731.932146.245139宁夏 1.394862208773422.701500.425377贵州.64233293371628.121469.345415青海 1.483846151633017.871024.387368根据上面数据回答以下问题:(一) 计算10个变量的相关系数矩阵,并找出相关性最强的 5 组变量;1.利用 SPSS 软件,依次选中 Analysis---correlate---bivariable ,得结果整理得1.000.940.950.960.970.980.410.070.870.660.94 1.000.990.990.970.970.610.350.800.600.950.99 1.00 1.000.980.980.630.340.820.620.960.99 1.00 1.000.990.990.610.330.830.610.970.970.980.99 1.00 1.000.560.240.860.62rxy0.970.980.99 1.00 1.000.550.220.870.620.980.410.610.630.610.560.55 1.000.780.370.150.070.350.340.330.240.220.78 1.000.110.050.870.800.820.830.860.870.370.11 1.000.680.660.600.620.610.620.620.150.050.68 1.0025组变量:X 2和,X2和X4,和X4,X4和及和。
应用多元统计分析R实验上机讲义应用多元统计分析 (4)Applied Multivariate Statistical Analysis (4)第一章绪论 (4)第二章矩阵 (4)2.1矩阵的建立 (5)2.2矩阵的下标(index)与子集(元素)的提取 (7)2.3 矩阵四则运算 (8)2.3.1 矩阵的加减运算 (8)2.3.2 矩阵的相乘 (8)2.3.3 矩阵的求逆 (8)2.4矩阵的其他一些代数运算 (8)2.4.1 求转置矩阵 (8)2.4.2 提取对角元素 (9)2.4.3矩阵的合并与拉直 (9)2.4.4方阵的行列式 (9)2.4.5 矩阵的特征根和特征向量 (10)2.4.6 其它函数 (10)2.5 矩阵的统计运算 (11)2.5.1 求均值 (12)2.5.2 标准化 (12)2.5.3 减去中位数 (12)第三章多元正态分布及参数的估计 (12)3.1 绘制二元正态密度函数及其相应等高线图 (12)3.2 多元正态分布的参数估计 (14)3.2.1 多元正态总体的相关量 (14)3.2.2 极大似然估计 (15)第四章多元正态总体参数的假设检验 (16)4.1 几个重要统计量的分布 (16)4.2 单总体均值向量的检验及置信域 (16)4.2.1均值向量的检验 (16)4.2.2样本协方差阵的特征值和特征向量 (17)4.3多总体均值向量的检验 (18)4.3.1 两正态总体均值向量的检验 (18)4.3.2 多个正态总体均值向量的检验-多元方差分析 (19)4.4协方差阵的检验 (20)4.4.2 多总体协方差阵的检验 (20)4.5独立性检验 (20)4.6正态性检验 (21)第五章判别分析 (22)5.1距离判别 (23)5.1.1 马氏距离 (23)5.1.2 两总体的距离判别 (23)5.1.3 多个总体的距离判别 (26)5.2贝叶斯判别法及广义平方距离判别法 (26)5.2.1 先验概率(先知知识) (26)5.2.2 广义平方距离 (27)5.2.3 后验概率(条件概率) (27)5.2.4 贝叶斯判别准则 (27)5.3费希尔(Fisher)判别 (30)第六章聚类分析 (31)6.2距离和相似系数 (31)6.2.1距离 (31)6.2.2数据中心化与标准化变换 (31)6.2.3相似系数 (32)6.3 系统聚类法 (32)6.4类个数的确定 (34)6.5动态聚类法 (36)6.7变量聚类方法 (36)第七章主成分分析 (37)7.2 样本的主成分 (38)7.3 主成分分析的应用 (39)第八章因子分析 (42)8.3 参数估计方法 (42)8.4 方差最大的正交旋转 (45)8.5 因子得分 (46)第九章对应分析方法 (46)第十章典型相关分析 (48)应用多元统计分析Applied Multivariate Statistical Analysis第一章绪论在实际问题中,很多随机现象涉及到的变量不是一个,而是经常是多个变量,并且这些变量间又存在一定的联系。
j q e n i A A A多元统计分析作
业一(第三题)
-标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII
课程名称:多元统计回归分析
实验项目:边远及少数民族聚居区和会经济发展水平
实验类型:验证性
学生学号:
学生姓名:
学生班级:
课程教师:
实验日期: 2016-03-28
1.实验目的:
利用spss软件验证一下边远及少数民族聚居区的社会经济发展水平与全国平均水平有无显著差异。
2.实验内容:
现选取内蒙古、广西、贵州、云南、西藏、宁夏、新疆、甘肃和青海等9个内陆边远省区。
选取人均GDP、第三产业比重、人均消费支出、人口自然增长率及文盲半文盲人口占15岁以上人口等五项能够较好的说明各地区社会经济发展水平的指标,验证一下边远及少数民族聚居区的社会经济发展水平与全国平均水平有无
)做出统计判断,最后对统计判断作出具体的解释
模块可以完成多元正态分布有关均值与方差的检验。
依次点选
、第三产业比重、人均消费支出、人口自然增长率及文盲半文盲
可以知道边远及少数民族聚居区社会经济发展水平与全国平均发展水平中的人均消费存在显著差别,即全国的平均人均消费大于边远及少数民族聚居区人均消费,相GDP、三产比重、人口增长率、文盲半文盲等指标无明显差别。
注:验证性实验仅上交电子文档,设计性试验需要同时上交电子与纸质文档进行备份存档。
多元统计分析实验学院:理学院班级:统计15-2学号:201511081066姓名:孙瑶第1章多元正态分布1.1 从某企业全部职工中随机抽取一容量为6的样本,该样本中个职工的设职工总体的以上变量服从多元正态分布,根据样本资料利用SPSS软件求出均值向量和协方差矩阵的最大似然估计。
注1:最大似然估计公式为:11ˆ===∑n iinμX X,11ˆ()()='=--∑n i iinΣX X X X;1,建立数据集1-12,利用SPSS“分析”—>“描述统计”—>“描述”可计算样本均值向量分析后结果如下3,利用SPSS“分析”—>“相关”—>“双变量”可计算样本协方差阵与样本相关系数,设置如下图:输出结果:结果分析:=(29650 12.3333 37125 152.5) 样本协方差矩阵Σ=接下来可以根据题目给出的公式11ˆ===∑ni i n μX X ,11ˆ()()='=--∑ni ii n ΣX X X X ; 求出最大似然估计了。
第3章 聚类分析实验原理:1.聚类分析:首先,每个样品(或变量)先聚成一块,然后,选择距离公式计算类与类之间的距离,把距离相近的样品(或变量)先聚成类,距离较远的后聚成类,该过程一直进行下去,每个样品(或变量)总能聚到合适的类中,最后,所有的样品(或变量)聚成一类。
2.K-均值聚类法:与系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的,但是两者的差别也是很明显的:系统聚类对不同的类数产生一系列的聚类结果。
而K 均值法只能产生指数类数的聚类结果。
具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K 均值法确定类数的参考。
3.1 下表是15个上市公司2001年的一些主要财务指标,使用系统聚类法和K系统聚类分析:1,录入数据,建立数据集3.1。
利用SPSS“分析”—>“分类”命令→“系统聚类分析”,绘制勾选树状图,其余默认。
多远统计上机作业指标的原始数据取自《中国统计年鉴, 1995》和《中国教育统计年鉴, 1995》除以各地区相应的人口数得到十项指标值见表 1。
其中:X1 X2 X3 X4 X5 X6:为每百万人口高等院校数;:为每十万人口高等院校毕业生数;:为每十万人口高等院校招生数;:为每十万人口高等院校在校生数;:为每十万人口高等院校教职工数;:为每十万人口高等院校专职教师数;X7: 为高级职称占专职教师的比例;X8 :为平均每所高等院校的在校生数;X9 :为国家财政预算内普通高教经费占国内生产总值的比重;X10: 为生均教育经费。
表 1 我国各地区普通高等教育发展状况数据地区X1X2X3X4X5X6X7X8X9X10北京 5.96310461155793131944.362615 2.2013631上海 3.39234308103549816135.023052.9012665天津 2.3515722971329510938.403031.869385陕西 1.35811113641505830.452699 1.227881辽宁 1.50881284211445834.302808.547733吉林 1.67861203701535833.532215.767480黑龙江 1.1763932961174435.222528.588570湖北 1.0567922971154332.892835.667262江苏.9564942871023931.543008.397786广东.693971205612434.502988.3711355四川.564057177612332.623149.557693山东.575864181572232.953202.286805甘肃.714262190662628.132657.737282湖南.744261194612433.062618.476477浙江.864271204662629.942363.257704新疆 1.2947732651144625.932060.375719福建 1.045371218632629.012099.297106山西.855365218763025.632555.435580河北.814366188612329.822313.315704安徽.593547146462032.832488.335628云南.663640130441928.551974.489106江西.774363194672328.812515.344085海南.703351165471827.342344.287928内蒙古.844348171652927.652032.325581西藏 1.692645137753312.10810 1.0014199河南.553246130441728.412341.305714广西.602843129391731.932146.245139宁夏 1.394862208773422.701500.425377贵州.64233293371628.121469.345415青海 1.483846151633017.871024.387368根据上面数据回答以下问题:(一) 计算10个变量的相关系数矩阵,并找出相关性最强的 5 组变量;1.利用 SPSS 软件,依次选中 Analysis---correlate---bivariable ,得结果整理得1.000.940.950.960.970.980.410.070.870.660.94 1.000.990.990.970.970.610.350.800.600.950.99 1.00 1.000.980.980.630.340.820.620.960.99 1.00 1.000.990.990.610.330.830.610.970.970.980.99 1.00 1.000.560.240.860.62rxy0.970.980.99 1.00 1.000.550.220.870.620.980.410.610.630.610.560.55 1.000.780.370.150.070.350.340.330.240.220.78 1.000.110.050.870.800.820.830.860.870.370.11 1.000.680.660.600.620.610.620.620.150.050.68 1.0025组变量:X 2和,X2和X4,和X4,X4和及和。
.其中:变量最强的X 3X 3X 5X 5X 6[注: SPSS运行结果见附件(一 )] (二) 对上面数据进行主成分分析,要求写出:a)方差分解表(特征值,累积贡献率);解答:7.50275.02275.0221.57715.77090.791.536 5.36296.154.206 2.06498.217.145 1.45099.667Initial Eigenvalue s.22299.889.022.007.07199.960.003.02799.987.001.00799.994.001.006100.000b)要求累积贡献率大于等于85%,选取主成分个数,并用原始的10 个变量表示每个主成分;解答: n=2 时,贡献率达到90.791%;原始的 10个变量表示每个主成分F1和F2:F 10.349766X 10.358893X 20.362179X 30.362179 X 40.360353 X 50.359988 X 6 0.224171X 7 0.120118 X 8 0.319097X 9 0.245347 X 10F 2-0.19749X 10.034241X 20.029464X 30.013537X 40.05096 X 50.0645X 60.582902X 70.702349X 80.1943X 90.28667 X 10c)计算每个省份相应的主成分值,并对主成分值进行标准化。
北京上海天津陕西辽宁吉林黑龙江湖北江苏广东11.70 5.94 3.50 1.010.830.800.240.12-0.16-0.31-0.890.10 1.030.030.88-0.020.580.85 1.020.93四川山东甘肃湖南浙江新疆福建山西河北安徽-0.70-0.86-0.74-0.86 -0.98-0.82-0.96-1.07 -1.22-1.351.29 1.640.200.850.19-0.51-0.190.150.330.87云南江西海南内蒙古西藏河南广西宁夏贵州青海-1.18-1.36-1.35-1.40-0.67-1.64-1.68-1.27-1.97-1.60-0.650.65-0.10-0.23-4.720.270.47-1.48-0.80-2.75【注: SPSS 运行结果见附录二】(三) 利用2)中的标准化后主成分值对30 个省市进行聚类分析,要求,a)分别用系统聚类和快速聚类把30 个省市分成 3 类,并比较这两种聚类结果异同(系统聚类给出你选择的聚类方法及谱系图)Rescaled Distance Cluster CombineCASE 0510152025Label Num +---------+---------+---------+---------+---------+15─┐18─┤19─┤13─┤23─┤24─┤16─┤17─┤21─┤26─┤27─┤20─┤22─┤14─┤11─┤12─┼─┐9─┤│10─┤│7─┤│8─┤├─────┐4─┤││6─┤││5─┘│├─┐28─┐││ │29─┼─┘│ ├─────────────────────────────────────┐30─┘│ ││25─────────┘││2───┬───────┘│3───┘│1─────────────────────────────────────────────────┘聚类情况:第一类:北京第二类:上海、天津第三类:其他快速聚类法:Initial Cluster CentersCluster123 VAR0001211.70 5.94-.67 VAR00013-.89.10-4.72Iteration History aIterati Change in Cluster Centerson1231.000 3.147 4.6772.000.674.0763.000 1.249.0694.000.000.000a. Convergence achieved due tono or small change in clustercenters. The maximum absolutecoordinate change for any centeris .000. The current iteration is 4.The minimum distance betweeninitial centers is 5.843.Cluster Membership Cluster MembershipCase Case CaseNumber Number Cluster Distance Number Cluster 11.000 163.498 22 1.307 173.255 32 1.307 183.324 43 1.795 193.551 53 1.843 203 1.046 63 1.585 213.757 73 1.181 223.871 83 1.247 233.574 93 1.199 243.654 103 1.055 253 4.709 113 1.305 263.902 123 1.647 273 1.020 133.209 283 1.546 143.867 293 1.428 153.276 303 2.860(四) 利用3)中快速聚类的结果及2)标准化后主成分值进行判别分析,要求:a)检验 3类间的均值是否相等; b)检验 3 类间的自协方差阵是否相等(a,b 的结果要求给出原假设和检验结果);c)写出 fisher 和典型判别准则;d)分别利用 c)的检验准则检验青海属于哪一类; e)给出检验判别准则的优劣。
a)建立检验假设为:H0 :三类均值相等 vs H 1 :三类均值不相等Between-Subjects FactorsNCluster Number of Case1122327Multivariate Tests cEffect Value F Hypothesis df Error df Sig. Intercept Pillai's Trace.894 1.092E2a 2.00026.000.000 Wilks' Lambda.106 1.092E2a 2.00026.000.000Hotelling' s Trace8.404 1.092E2a 2.00026.000.000Roy's Largest Root8.404 1.092E2a 2.00026.000.000 QCL_1Pillai's Trace.94212.012 4.00054.000.000 Wilks' Lambda.08531.675 a 4.00052.000.000Hotelling' s Trace10.49965.616 4.00050.000.000Roy's Largest Root10.469 1.413E2b 2.00027.000.000a. Exact statisticb. The statistic is an upper bound on F that yields a lower bound on the significance level.c. Design: Intercept + QCL_1【 SPSS运行结果】由Sig.值可以看到,无论从哪个统计量来看,三类都是与显著差异的,故拒绝原假设,认为三类均值不相等。