多元统计分析作业一
- 格式:doc
- 大小:281.50 KB
- 文档页数:14
1.多元分析研究的是多个随机变量及其相互关系的统计总体。
2.多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相关系数。
3.协方差和相关系数仅仅是变量间离散程度的一种度量,并不能刻画变量间可能存在的关联程度。
4.人们通过各种实践,发现变量之间的相互关系可以分成相关和不相关两种类型。
5.总离差平方和可以分解为回归离差平方和和剩余离差平方和两个部分,各自的自由度为p 和n-p-1,其中回归离差平方和在总离差平方和中所占比重越大,则线性回归效果越显著。
7.偏相关系数是指多元回归分析中,当其他变量固定后,给定的两个变量之间的的相关系数。
8.Spss中回归方程的建模方法有一元线形回归、多元线形回归、岭回归、多对多线形回归等。
9.主成分分析是通过适当的变量替换,使新变量成为原变量的综合变量,并寻求相关性的一种方法。
10.主成分分析的基本思想是:设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
11.主成分的协方差矩阵为对角矩阵。
12.主成分表达式的系数向量是相关系数矩阵的特征向量。
13.原始变量协方差矩阵的特征根的统计含义是原始数据的相关系数。
14.原始数据经过标准化处理,转化为均值为0 ,方差为1 的标准值,且其协方差矩阵与相关系数矩阵相等。
15.样本主成分的总方差等于1 。
16.变量按相关程度为,在相关性很强程度下,主成分分析的效果较好。
17.在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为方差贡献度。
19.因子分析是把每个原始变量分解为两部分因素,一部分是公共因子,另一部分为特殊因子。
20.变量共同度是指因子载荷矩阵中第i行元素的平方和。
21.公共因子方差与特殊因子方差之和为 1 。
22.聚类分析是建立一种分类方法,它将一批样哂或变量按照它们在性质上的亲疏程度进行科学的分类。
23.Q型聚类法是按样品进行聚类,R型聚类法是按变量进行聚类。
多元统计分析实验报告实验课程名称多元统计分析实验项目名称多元统计理论的计算机实现年级 2013专业应用统计学学生姓名侯杰成绩理学院实验时间:2015 年05 月07 日学生所在学院:理学院专业:应用统计学班级:9131137001代码及运行结果分析1、均值检验问题重述:某医生观察了16名正常人的24小时动态心电图,分析出早晨3小时各小时的低频心电频谱值(LF)、高频心电频谱值(HF),数据见压缩包,试分析这两个指标的各次重复测定均值向量是否有显著差异。
代码如下:Tsq.test<-function(data,alpha=0.05){data<-as.matrix(read.table("ch37.csv",header=TRUE,sep=",")) #读取数据xdat<-data[,2:4];xbar<-apply(xdat,2,mean); #计算LF指标的均值ydat<-data[,5:7];ybar<-apply(ydat,2,mean); #计算HF指标数据xcov<-cov(xdat); #计算LF样本协差阵ycov<-cov(ydat); #计算HF样本协差阵sinv<-solve(xcov+ycov);#求逆矩阵Tsq<-(16+16-2)*t(sqrt(16*16/(16+16)*(xbar-ybar)))%*%sinv%*%sqrt(16*16/(16+16)*(xbar-ybar)); #计算T统计量Fstat<-((16+16-2)-3+1)/((16+16-2)*3)*Tsq; #计算F统计量pvalue<-as.numeric(1-pf(Fstat,3,16+16-3-1));cat("p值=",pvalue,"\n");if(pvalue>0.05) #结果输出cat('均值向量不存在差异')elsecat('均值向量存在差异');}运行结果及分析:通过运行程序,我们可以得到如下结果:> Tsq.test()p值= 1.632028e-14均值向量存在差异即LF与HF这两个指标的各次重复测定均值向量存在显著差异。
《多元统计分析》习题分为三部分:思考题、验证题和论文题思考题第一章绪论1﹑什么是多元统计分析?2﹑多元统计分析能解决哪些类型的实际问题?第二章聚类分析1﹑简述系统聚类法的基本思路。
2﹑写出样品间相关系数公式。
3﹑常用的距离及相似系数有哪些?它们各有什么特点?4﹑利用谱系图分类应注意哪些问题?5﹑在SAS和SPSS中如何实现系统聚类分析?第三章判别分析1﹑简述距离判别法的基本思路,图示其几何意义。
2﹑判别分析与聚类分析有何异同?3﹑简述贝叶斯判别的基本思路。
4﹑简述费歇判别的基本思路。
5﹑简述逐步判别法的基本思想。
6﹑在SAS和SPSS软件中如何实现判别分析?第四章主成分分析1﹑主成分分析的几何意义是什么?2﹑主成分分析的主要作用有那些?3﹑什么是贡献率和累计贡献率,其意义何在?4﹑为什么说贡献率和累计贡献率能反映主成分中所包含的原始变量的信息?5﹑为什么要用标准化数据去估计V的特征向量与特征值?6﹑证明:对于标准化数据有S=R。
7﹑主成分分析在SAS和SPSS中如何实现?第五章因子分析1﹑因子得分模型与主成分分析模型有何不同?2﹑因子载荷阵的统计意义是什么?3﹑方差旋转的目的是什么?4﹑因子分析有何作用?5﹑因子模型与回归模型有何不同?6﹑在SAS和SPSS中如何实现因子分析?第六章对应分析1﹑简述对应分析的基本思想。
2﹑简述对应分析的基本原理。
3﹑简述因子分析中Q型与R 型的对应关系。
4﹑对应分析如何在SAS和SPSS中实现?第七章典型相关分析1﹑典型相关分析适合分析何种类型的数据?2﹑简述典型相关分析的基本思想。
3﹑典型变量有哪些性质?4﹑典型相关系数和典型变量有何意义?5﹑典型相关分析有何作用?6 ﹑在SAS和SPSS中如何实现典型相关分析?验证题第二章聚类分析1、为了更深入了解我国人口的文化程度,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。
分析选用了三个指标:(1)大学以上文化程度的人口占全部人口的比例(DXBZ);(2)初中文化程度的人都占全部人口的比例(CZBZ);(3)文盲半文盲人口占全部人口的比例(WMBZ),分别用来反映较高、中等、较低文化程度人口的状况。
一、聚类分析为了研究2010年全国各地区城镇居民家庭平均每人全年消费性支出的分布规律,根据抽样调查资料进行分类处理,共抽取31个省、市、自治区的样本,每个样本有7个指标:食品、衣着、居住、家庭设备用品及服务、医疗保健、交通和通信、教育文化娱乐服务。
这7个指标反映了平均每人生活消费的支出情况,其数据资料见下表1所示。
表1定义变量及标签:设:X1:地区X2:食品支出X3:衣着支出X4:居住支出X5:家庭设备用品及服务支出X6:医疗保健支出X7:交通和通信支出X8:教育文化娱乐服务支出通过SPSS软件操作,得到如下输出结果见表2—表5所示。
表2表3表4表4给出了聚类的凝聚过程情况。
表5给出了样品聚为三类时的样品归类情况。
C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+甘肃 28 -+青海 29 -+新疆 31 -+河北 3 -+---+山西 4 -+ |河南 16 -+ |宁夏 30 -+ |黑龙江 8 -+ +-------+陕西 27 -+ | |云南 25 -+-+ | |西藏 26 -+ | | |广西 20 -+ +-+ |海南 21 -+ | |江西 14 -+-+ |贵州 24 -+ +-----------------------------------+ 湖北 17 -+ | | 湖南 18 -+ | | 四川 23 -+ | | 安徽 12 -+ | | 江苏 10 -+-+ | | 福建 13 -+ | | | 辽宁 6 -+ +---------+ | 吉林 7 -+ | | 山东 15 -+-+ | 重庆 22 -+ | 内蒙古 5 -+ | 天津 2 -+ | 浙江 11 -+-+ | 北京 1 -+ +-+ | 广东 19 ---+ +-------------------------------------------+ 上海 9 -----+图1图1是聚类全过程的树形图。
多元统计分析多元统计分析习题集(⼀)⼀、填空题1.若()(,),(1,2,,)p X N n αµα∑= 且相互独⽴,则样本均值向量X 服从的分布是____________________。
2.变量的类型按尺度划分为___________、____________、_____________。
3.判别分析是判别样品_____________的⼀种⽅法,常⽤的判别⽅法有_____________、_____________、_____________、_____________。
4.Q 型聚类是指对_____________进⾏聚类,R 型聚类指对_____________进⾏聚类。
5.设样品12(,,,),(1,2,,)i i i ip X X X X i n '== ,总体(,)p X N µ∑ ,对样品进⾏分类常⽤的距离有____________________、____________________、____________________。
6.因⼦分析中因⼦载荷系数ij a 的统计意义是_________________________________。
7.主成分分析中的因⼦负荷ij a 的统计意义是________________________________。
8.对应分析是将__________________和__________________结合起来进⾏的统计分析⽅法。
9.典型相关分析是研究__________________________的⼀种多元统计分析⽅法。
⼆、计算题 1.设3(,)X N µ∑ ,其中410130002?? ?∑= ? ??,问1X 与2X 是否独⽴?12(,)X X '与3X 是否独⽴?为什么?2.设抽了5个样品,每个样品只测了⼀个指标,它们分别是1,2,4.5,6,8。
若样品间采⽤绝对值距离,试⽤最长距离法对其进⾏分类,要求给出聚类图。
多元统计学课程设计作业一、教学目标本课程旨在通过多元统计学的学习,让学生掌握多元统计分析的基本概念、原理和方法,培养学生运用多元统计学知识分析和解决实际问题的能力。
具体的教学目标如下:1.知识目标:使学生了解多元统计学的基本概念、原理和方法,包括因子分析、聚类分析、主成分分析等内容。
2.技能目标:培养学生运用多元统计学方法分析数据、解决实际问题的能力。
3.情感态度价值观目标:培养学生对多元统计学的兴趣,使其认识到多元统计学在科学研究和实际工作中的重要性。
二、教学内容本课程的教学内容主要包括以下几个部分:1.多元统计学基本概念:包括多元统计学的基本定义、特点和应用范围。
2.因子分析:介绍因子分析的基本原理、方法及其在实际应用中的例子。
3.聚类分析:讲解聚类分析的基本方法、步骤及其在实际应用中的案例。
4.主成分分析:阐述主成分分析的基本思想、算法及其在数据降维中的应用。
5.案例分析:通过具体案例,使学生掌握多元统计学方法在实际问题分析中的运用。
三、教学方法为了提高教学效果,本课程将采用多种教学方法相结合的方式进行教学。
具体包括:1.讲授法:通过讲解多元统计学的基本概念、原理和方法,使学生掌握相关知识。
2.案例分析法:通过分析实际案例,让学生学会将多元统计学方法应用于解决实际问题。
3.讨论法:学生进行小组讨论,培养学生的合作意识和解决问题的能力。
4.实验法:安排实验课,让学生动手操作,巩固所学知识。
四、教学资源为了支持本课程的教学,我们将准备以下教学资源:1.教材:选用权威、实用的多元统计学教材作为主要教学资料。
2.参考书:推荐学生阅读一些多元统计学的经典著作,以丰富其知识体系。
3.多媒体资料:制作多媒体课件,以便生动、直观地展示课程内容。
4.实验设备:为学生提供必要的实验设备,如计算机、统计软件等。
五、教学评估本课程的教学评估将采取多元化、全面评估的方式进行,主要包括以下几个方面:1.平时表现:通过观察学生在课堂上的参与程度、提问回答等情况,评估学生的学习态度和理解能力。
课程名称:多元统计回归分析
实验项目:边远及少数民族聚居区和会经济发展水平实验类型:验证性
学生学号:
学生姓名:
学生班级:
课程教师:
实验日期: 2016-03-28
)做出统计判断,最后对统计判断作出具体的解释
模块可以完成多元正态分布有关均值与方差的检验。
依次点选
、第三产业比重、人均消费支出、人口自然增长率及文盲半文盲
,由此我们可以知道边远及少数民族聚居区社会经济发展水平与全国平均发展水平中的人均消费存在显著差别,即全国的平均人均消费大于边远及少数民族聚居区人均消费,相差值为
均大于显著性水平
发展水平与全国平均发展水平中的人均
盲半文盲等指标无明显差别。
注:验证性实验仅上交电子文档,设计性试验需要同时上交电子与纸质文档进行备份存档。
多远统计上机作业指标的原始数据取自《中国统计年鉴,1995》和《中国教育统计年鉴,1995》除以各地区相应的人口数得到十项指标值见表1。
其中:X1:为每百万人口高等院校数;X2:为每十万人口高等院校毕业生数;X3:为每十万人口高等院校招生数;X4:为每十万人口高等院校在校生数;X5:为每十万人口高等院校教职工数;X6:为每十万人口高等院校专职教师数;X7:为高级职称占专职教师的比例; X8:为平均每所高等院校的在校生数;X9:为国家财政预算内普通高教经费占国内生产总值的比重;X10:为生均教育经费。
根据上面数据回答以下问题:(一) 计算10个变量的相关系数矩阵,并找出相关性最强的5组变量;1. 利用SPSS 软件,依次选中Analysis---correlate---bivariable ,得结果整理得⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣⎡= 1.000.680.050.150.620.620.610.620.600.66 0.68 1.00 0.11 0.37 0.87 0.86 0.83 0.82 0.80 0.87 0.05 0.11 1.00 0.78 0.220.24 0.33 0.34 0.35 0.07 0.15 0.370.781.00 0.55 0.56 0.61 0.63 0.61 0.41 0.62 0.87 0.220.55 1.00 1.00 0.99 0.98 0.97 0.98 0.62 0.86 0.24 0.56 1.00 1.00 0.99 0.98 0.97 0.97 0.61 0.83 0.33 0.61 0.99 0.99 1.00 1.00 0.99 0.96 0.62 0.82 0.34 0.630.980.981.001.00 0.99 0.95 0.60 0.80 0.35 0.61 0.97 0.97 0.99 0.99 1.00 0.94 0.66 0.87 0.07 0.41 0.98 0.97 0.96 0.950.94 1.00xy r 2.其中:变量最强的5组变量:2X 和3X ,2X 和4X ,3X 和4X ,4X 和5X 及5X 和6X 。
第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是0-1标准化和Z 标准化。
2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。
在二维和三维空间中的欧氏距离的就是两点之间的距离。
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。
每个坐标对欧氏距离的贡献是同等的。
当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。
当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。
没有考虑到总体变异对距离远近的影响。
马氏距离表示数据的协方差距离。
为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。
如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。
第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理数据的标准化是将数据按比例缩放,使之落入一个小的特定区间;在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权;其中最典型的就是0-1标准化和Z 标准化;2、欧氏距离与马氏距离的优缺点是什么欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离;在二维和三维空间中的欧氏距离的就是两点之间的距离;缺点:就大部分统计问题而言,欧氏距离是不能令人满意的;每个坐标对欧氏距离的贡献是同等的;当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离;当各个分量为不同性质的量时,“距离”的大小与指标的单位有关;它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求;没有考虑到总体变异对距离远近的影响;马氏距离表示数据的协方差距离;为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离;优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据计算出的二点之间的马氏距离相同;马氏距离还可以排除变量之间的相关性的干扰; 缺点:夸大了变化微小的变量的作用;受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出;3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关;如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离;4、如果正态随机向量12(,,)p X X X X '=的协方差阵为对角阵,证明X 的分量是相互独立的随机变量;解: 因为12(,,)p X X X X '=的密度函数为 又由于21222p σσσ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭Σ 则1(,...,)p f x x则其分量是相互独立;5.1y 和2y 是相互独立的随机变量,且1y ~)1,0(N ,2y ~)4,3(N ;(a )求21y 的分布;(b )如果⎥⎦⎤⎢⎣⎡-=2/)3(21y y y ,写出y y '关于1y 与2y 的表达式,并写出y y '的分布;(c )如果⎥⎦⎤⎢⎣⎡=21y y y 且y ~∑),(μN ,写出∑-'1y y 关于1y 与2y 的表达式,并写出∑-'1y y 的分布;解:a 由于1y ~)1,0(N ,所以1y ~)1(2χ;b 由于1y ~)1,0(N ,2y ~)4,3(N ;所以232-y ~)1,0(N ;故2221)23(-+='y y y y ,且y y '~)2(2χ 第2章 均值向量和协方差阵的检验1、略2、试谈Wilks 统计量在多元方差分析中的重要意义;3、题目此略多元均值检验,从题意知道,容量为9的样本 ,总体协方差未知假设H0:0μμ= , H1:0μμ≠ n=9 p=5检验统计量/n-1)()(0102μμ-'-=-X S X n T 服从P,n-1的2T 分布 统计量2T 实际上是样本均值与已知总体均值之间的马氏距离再乘以nn-1,这个值越大,相等的可能性越小,备择假设成立时,2T 有变大的趋势,所以拒绝域选择2T 值较大的右侧部分,也可以转变为F 统计量零假设的拒绝区域 {n-p/n-1p}2T >,()p n p F α-1/102T >F5,45μ0= 2972 ’样本均值 ’样本均值-μ0’= Inter-Item Covariance Matrix人均GDP 元 三产比重% 人均消费元 人口增长% 文盲半文盲% 人均GDP 元三产比重%人均消费元人口增长%文盲半文盲%协方差的逆矩阵计算:2T=9s^-1 ’F统计量=> 拒绝零假设,边缘及少数民族聚居区的社会经济发展水平与全国平均水平有显着差异;4、略第3章聚类分析1.、聚类分析的基本思想和功能是什么聚类分析的基本思想是研究的样品或指标之间存着程度不同的相似性,于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合为另外一类,直到把所有的样品聚合完毕,形成一个有小到大的分类系统,最后再把整个分类系统画成一张分群图,用它把所有样品间的亲疏关系表示出来;功能是把相似的研究对象归类;2、试述系统聚类法的原理和具体步骤;系统聚类是将每个样品分成若干类的方法,其基本思想是先将各个样品各看成一类,然后规定类与类之间的距离,选择距离最小的一对合并成新的一类,计算新类与其他类之间的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的样品合为一类为止;具体步骤:1、对数据进行变换处理;不是必须的,当数量级相差很大或指标变量具有不同单位时是必要的2、构造n个类,每个类只包含一个样本;3、计算n个样本两两间的距离ijd;4、合并距离最近的两类为一新类;5、计算新类与当前各类的距离,若类的个数等于1,转到6;否则回4;6、画聚类图;7、决定类的个数,从而得出分类结果;3、试述K-均值聚类的方法原理;K-均值法是一种非谱系聚类法,把每个样品聚集到其最近形心均值类中,它是把样品聚集成K 个类的集合,类的个数k可以预先给定或者在聚类过程中确定,该方法应用于比系统聚类法大得多的数据组;步骤是把样品分为K个初始类,进行修改,逐个分派样品到期最近均值的类中通常采用标准化数据或非标准化数据计算欧氏距离重新计算接受新样品的类和失去样品的类的形心;重复这一步直到各类无元素进出;4、试述模糊聚类的思想方法;模糊聚类分析是根据客观事物间的特征、亲疏程度、相似性,通过建立模糊相似关系对客观事物进行聚类的分析方法,实质是根据研究对象本身的属性构造模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系;基本思想是要把需要识别的事物与模板进行模糊比较,从而得到所属的类别;简单地说,模糊聚类事先不知道具体的分类类别,而模糊识别是在已知分类的情况下进行的;模糊聚类分析广泛应用在气象预报、地质、农业、林业等方面;它有两种基本方法:系统聚类法和逐步聚类法;该方法多用于定性变量的分类;5、略第4章判别分析1、应用判别分析应该具备什么样的条件答:判别分析最基本的要求是,分组类型在两组以上,每组案例的规模必须至少在一个以上,解释变量必须是可测量的,才能够计算其平均值和方差;对于判别分析有三个假设:1每一个判别变量不能是其他判别变量的线性组合;有时一个判别变量与另外的判别变量高度相关,或与其的线性组合高度相关,也就是多重共线性;2各组变量的协方差矩阵相等;判别分析最简单和最常用的的形式是采用现行判别函数,他们是判别变量的简单线性组合,在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显着性检验;3各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布,在这种条件下可以精确计算显着性检验值和分组归属的概率;2、试述贝叶斯判别法的思路;答:贝叶斯判别法的思路是先假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识先验概率分布,得到后验概率分布,各种统计推断都通过后验概率分布来进行;将贝叶斯判别方法用于判别分析,就得到贝叶斯判别;3、试述费歇判别法的基本思想;答:费歇判别法的基本思想是将高维数据点投影到低维空间上来,然而利用方差分析的思想选出一个最优的投影方向;因此,严格的说费歇判别分析本身不是一种判别方法,只是利用费歇统计量进行数据预处理的方法,以使更有利于用判别分析方法解决问题;为了有利于判别,我们选择投影方向a 应使投影后的k个一元总体能尽量分开同一总体中的样品的投影值尽量靠近;k要做到这一点,只要投影后的k个一元总体均值有显着差异,即可利用方差分析的方法使组间平方和尽可能的大;则选取投影方向a使Δa达极大即可;4、什么是逐步判别分析答:具有筛选变量能力的判别方法称为逐步判别分析法;逐步判别分析法就是先从所有因子中挑选一个具有最显着判别能力的因子,然后再挑选第二个因子,这因子是在第一因子的基础上具有最显着判别能力的因子,即第一个和第二个因子联合起来有显着判别能力的因子;接着挑选第三个因子,这因子是在第一、第二因子的基础上具有最显着判别能力的因子;由于因子之间的相互关系,当引进了新的因子之后,会使原来已引入的因子失去显着判别能力;因此,在引入第三个因子之后就要先检验已经引入的因子是否还具有显着判别能力,如果有就要剔除这个不显着的因子;接着再继续引入,直到再没有显着能力的因子可剔除为止,最后利用已选中的变量建立判别函数;5、简要叙述判别分析的步骤及流程答:1研究问题:选择对象,评估一个多元问题各组的差异,将观测个体归类,确定组与组之间的判别函数;2设计要点:选择解释变量,样本量的考虑,建立分析样本的保留样本;3假定:解释变量的正态性,线性关系,解释变量间不存在多重共线性,协方差阵相等;4估计判别函数:联立估计或逐步估计,判别函数的显着性;5使用分类矩阵评估预测的精度:确定最优临界得分,确定准则来评估判对比率,预测精确的统计显着性;6判别函数的解释:需要多少个函数;评价单个函数主要从判别权重、判别载荷、偏F值几个方面;评价两个以上的判别函数,分为评价判别的函数和评价合并的函数;7判别结果的验证:分开样本或交叉验证,刻画组间的差异;6、略第5章主成分分析1、主成分的基本思想是什么在对某一事物进行实证研究时,为更全面、准确地反映事物的特征及其发展规律,往往考虑与其有关的多个指标,在多元统计中也称为变量;一方避免遗漏重要信息而考虑尽可能多的指标看,另一方面考虑指标的增多,又难以避免信息重叠;希望涉及的变量少,而得到的信息量有较多;主成分的基本思想是研究如何通过原来的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法;研究某一问题涉及的众多变量之间有一定的相关性,必然存在着支配作用的公共因素;通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个无关的综合指标主成分来代替原来的指标;通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标;最经典的做法就是用F1选取的第一个线性组合,即第一个综合指标的方差来表达,即VarF1越大,表示F1包含的信息越多;因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分,如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求CovF1,F2=0则称F2为第二主成分,依此类推可以构造出第三、第四······,第P个主成分;2、主成分在应用中的主要作用是什么作用:利用原始变量的线性组合形成几个综合指标主成分,在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾;通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量数据进行定量分析,解释变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入;主成分分析能降低所研究的数据空间的维数,有时可通过因子载荷aij的结论,弄清X变量间的某些关系,多维数据的一种图形表示方法,用主成分分析筛选变量,可以用较少的计算量来选择,获得选择最佳变量子集合的效果;3.由协方差阵出发和由相关阵出发求主成分有什么不同1由协方差阵出发设随即向量X=X1,X2,X3,……Xp’的协方差矩阵为Σ,1≥2≥……≥p为Σ的特征值,γ1,γ2,……γp为矩阵A各特征值对应的标准正交特征向量,则第i个主成分为Yi=γ1iX1+γ2iX2+……+γpiXp,i=1,2,……,p此时VARYi=i,COVYi,Yj=0,i≠j我们把X1,X2,X3,……Xp的协方差矩阵Σ的非零特征根1≥2≥……≥p>0向量对应的标准化特征向量γ1,γ2,……γp分别作为系数向量,Y1=γ1’X, Y2=γ2’X,……, Yp=γp’X分别称为随即向量X的第一主成分,第二主成分……第p主成分;Y的分量Y1,Y2,……,Yp依次是X的第一主成分、第二主成分……第p主成分的充分必要条件是:1Y=P’X,即P为p阶正交阵,2Y的分量之间互不相关,即DY=diag1,2,……,p,3Y的p个分量是按方差由大到小排列,即1≥2≥……≥p;2由相关阵出发对原始变量X进行标准化,Z=Σ^1/2^-1X-μ covZ=R原始变量的相关矩阵实际上就是对原始变量标准化后的协方差矩阵,因此,有相关矩阵求主成分的过程与主成分个数的确定准则实际上是与由协方差矩阵出发求主成分的过程与主成分个数的确定准则相一致的;λi,γi 分别表示相关阵R的特征根值与对应的标准正交特征向量,此时,求得的主成分与原始变量的关系式为:Yi=γi’Z=γi’Σ^1/2^-1X-μ在实际研究中,有时单个指标的方差对研究目的起关键作用,为了达到研究目的,此时用协方差矩阵进行主成分分析恰到好处;有些数据涉及到指标的不同度量尺度使指标方差之间不具有可比性,对于这类数据用协方差矩阵进行主成分分析也有不妥;相关系数矩阵计算主成分其优势效应仅体现在相关性大、相关指标数多的一类指标上;避免单个指标方差对主成分分析产生的负面影响,自然会想到把单个指标的方差从协方差矩阵中剥离,而相关系数矩阵恰好能达到此目的;4、略第6章 因子分析1、因子分析与主成分分析有什么本质不同答:1因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成,因此,我们的目的就是要从数据中探查能对变量起解释作用的公共因子和特殊因子,以及公共因子和特殊因子的线性组合;主成分分析则简单一些,它只是从空间生成的角度寻找能解释诸多变量绝大部分变异的几组彼此不相关的新变量2因子分析中,把变量表示成各因子的线性组合,而主成分分析中,把主成分表示成各变量的线性组合3主成分分析中不需要有一些专门假设,因子分析则需要一些假设,因子分析的假设包括:各个因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关;4在因子分析中,提取主因子的方法不仅有主成分法,还有极大似然法等,基于这些不同算法得到的结果一般也不同;而主成分分析只能用主成分法提取;5主成分分析中,当给定的协方差矩阵或者相关矩阵的特征根唯一时,主成分一般是固定;而因子分析中,因子不是固定的,可以旋转得到不同的因子;6在因子分析中,因子个数需要分析者指定,结果随指定的因子数不同而不同;在主成分分析中,主成分的数量是一定的,一般有几个变量就有几个主成分; 7与主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势;而如果想把现有的变量变成少数几个新的变量新的变量几乎带有原来所有变量的信息来进行后续的分析,则可以使用主成分分析;2、因子载荷ij a 的统计定义是什么它在实际问题的分析中的作用是什么答:1因子载荷ij a 的统计定义:是原始变量i X 与公共因子j F 的协方差,i X 与j F ),...,2,1;,...,2,1(m j p i ==都是均值为0,方差为1的变量,因此ij a 同时也是i X 与j F 的相关系数;(2)记),,...,2,1(...222212m j a a a g pjj j j =+++=则2j g 表示的是公共因子j F 对于X 的每一分量),...,2,1(p i X i =所提供的方差的总和,称为公共因子j F 对原始变量X 的方贡献,它是衡量公共因子相对重要性的指标;2j g 越大,表明公共因子j F 对i X 的贡献越大,或者说对X 的影响作用就越大;如果因子载荷矩阵对A 的所有的),...,2,1(2m j g j =都计算出来,并按大小排序,就可以依此提炼出最有影响的公共因子;3、略第7章 对应分析1、试述对应分析的思想方法及特点;思想:对应分析又称为相应分析,也称R —Q 分析;是因子分子基础发展起来的一种多元统计分析方法;它主要通过分析定性变量构成的列联表来揭示变量之间的关系;当我们对同一观测数据施加R 和Q 型因子分析,并分别保留两个公共因子,则是对应分析的初步;对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来;它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性;另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数主因子以及分类的依据,是一种直观、简单、方便的多元统计方法;特点:对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来;它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性;另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主z |Uz |V 要参数主因子以及分类的依据,是一种直观、简单、方便的多元统计方法;2、试述对应分析中总惯量的意义;总惯量不仅反映了行剖面集定义的各点与其重心加权距离的总和,同时与2x 统计量仅相差一个常数,而2x 统计量反映了列联表横联与纵联的相关关系,因此总惯量也反映了两个属性变量各状态之间的相关关系;对应分析就是在对总惯量信息损失最小的前提下,简化数据结构以反映两属性变量之间的相关关系;3、略第8章 典型相关分析1、试述典型相关分析的统计思想及该方法在研究实际问题中的作用;答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法;用于揭示两组变 量之间的内在联系;典型相关分析的目的是识别并量化两组变量之间的联系;将两组变量相 关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系;基本思想:1在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数; 即:XX 1, X 2, , , X p 、XX 1, X 2, , , X q 是两组相互关联的随机变量,分别在两组变量中选取若干有代表性的综合变量 U i 、Vi,使是原变量的线性组合;U i a 1X 1 a 2 X 2..... a P X P ≡ a ‘XV i b 1Y 1 b 2 Y 2 .... b q Y q ≡ b‘Y 在 D aX D bX 1 的条件下,使得 aX , bX 达到最大;2选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对;(3)如此继续下去,直到两组变量之间的相关性被提取完毕为此;其作用为:进行两组变量之间的相关性分析,用典型相关系数衡量两组变量之间的相关性;2、简述典型相关分析中冗余分析的内容及作用;答:典型型冗余分析的作用即分析每组变量提取出的典型变量所能解释的该组样本总方差的比 例,从而定量测度典型变量所包含的原始信息量;第一组变量样本的总方差为 t r R 11 p ,第二组变量样本的总方差为 t r R 22 q ;*A ˆz和*B ˆz 是样本典型相关系数矩阵,典型系数向量是矩阵的行向量, Z z z **A ˆU ˆ=,Z z z **B ˆV ˆ= 前 r 对典型变量对样本总方差的贡献为则第一组样本方差由前 r 个典型变量解释的比例为:第二组样本方差由前 r 个典型变量解释的比例为:3、典型变量的解释有什么具体方法实际意义是什么答:主要使用三种方法:1典型权重标准相关系数:传统的解释典型函数的方法包括观察每个原始变量在它的典型变量中的典型权重,即标准化相关系数Standardized Canonical Coefficients 的符号和大小;有较大的典型权重,则说明原始变量对它的典型变量的贡献较大,反之则相反;原始变量的典型权重有相反的符号说明变量之间存在一种反面关系,反之则有正面关系;但是这种解释遭到了很多批评;这些问题说明在解释典型相关的时候应慎用典型权重;(2)典型载荷结构系数:由于典型载荷逐步成为解释典型相关分析结果的基础;典型载荷分析,即典型结构分析Canonical Structure Analyse,是原始变量自变量或者因变量与它的典型变量间的简单线性相关系数;典型载荷反映原始变量与典型变量的共同方差,它的解释类似于因子载荷,就是每个原始变量对典型函数的相对贡献;(3)典型交叉载荷交叉结构系数:它的提出时作为典型载荷的替代,也属于典型结构分析;计算典型交叉载荷包括每个原始因变量与自变量典型变量直接相关,反之亦然;交叉载荷提供了一个更直接地测量因变量组与自变量组之间的关系的指标;实际意义:即使典型相关系数在统计上是显着的,典型根和冗余系数大小也是可接受的,研究者仍需对结果做大量的解释;这些解释包括研究典型函数中原始变量的相对重要性;4.、略。
3-6 (均值向量各分量间的结构关系的检验)设总体),0(),(~>∑∑μp N X))(,,1()(p n n X >= αα为来自p 元正态总体X 的样本,记)',,(1p μμμ =.C 为p k ⨯常数)(p k <,r k C rank ,)(=为已知k 维向量.试给出检验r C H =μ:0的检验统计量与分布.解:令),,2,1()()(n CX Y ==μαα则),,1()(n Y =αα为来自k 维正态总体Y 的样本,且)',(~)(C C C N Y k ∑μα;记',C C C y y ∑=∑=μμ.检验:r H r C H y =⇐⇒=μμ::00这是单个k 维正态总体均值向量的检验问题.当'C C C y ∑∑=未知时均值向量的检测取检验统计量:),(~)1(2k n k F T kn kn F ---=其中).()(),(]'[)'()1()(][)'()1()(1)(112X X X XA r X C CAC r X C n n r Y A r Y n n T i ni i y --=---=---=∑=--3-11 表3.4给出15名2周岁婴儿的身高)(1X ,胸围)(2X 和上半臀围)(3X 的测量数据,假设男婴的测量数据)6,,1)(( =ααX 位来自总体),()2(3∑μN 的随机样本.试利用表3.4中的数据检验).05.0(:)2()1(0==αμμH表3.4某地区农村两周岁婴儿的体格测量数据解:这是两总体均值向量的检验问题.检验统计量取为:)9,6,3(===m n p)1,(~)2(102--+-+--+=p m n p F T pm n p m n F H 下其中)()()'()2(1212Y X A A Y X mn nmm n T -+-+-+=- 故检验统计量为))(()'(121Y X A A Y X mn nmp p m n F -+-+⨯--+=用观测数据代入计算可得:.4982.1,3117.52==F T显著性概率值 α=>=05.02693.0p故)05.0(:)2()1(0==αμμH 相容.4-3 设Y 与321,,x x x 有相关关系,其8组观测数据见表4.5.表4.5 观测数据(1)设εββββ++++=3322110x x x Y ,试求回归方程及决定系数2R 和均方误差2s ; (2)考虑二次回归模型:.3293182362252143322110εβββββββββ+++++++++=x x x x x x x x x x Y用逐步回归法筛选变量)05.0(==out in αα,并写出决定系数2R 和均方误差s .解:回归结果如下 Call:lm(formula 321~x x x y ++=)Residuals:1 2 3 4 5 6 7 81.4358 -0.4862 -2.2616 1.3942 1.0674 -2.6678 -0.8347 2.3528Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) -106.7267 13.5136 -7.898 0.001390 **1x 3.2518 0.4486 7.248 0.001923 ** 2x 1.3313 0.1491 8.927 0.000871 *** 3x -0.6746 0.3910 -1.725 0.159579---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 2.442 on 4 degrees of freedom Multiple R-squared: 0.9909, Adjusted R-squared: 0.9841 F-statistic: 145.4 on 3 and 4 DF, p-value: 0.0001543由回归分析结果可以看出回归方程为106.73 3.251 1.3320.673y x x x =-++-对应的回归系数为 99.02=R 均方误差计算得22.98s =5-1 已知总体)1(=m G i 的分布为)2,1)(,(2)(=i N i i σμ,按距离判别准则为(不防设21)2()1(,σσμμ<>)⎪⎩⎪⎨⎧≥≤∈<<∈.,,,,**2**1μμμμx x G x x G x 若若其中21)1(2)2(1*σσμσμσμ++=试求错判概率)1|2(P 和)2|1(P解:}{}{)},(~|{)},(~|{)1|2(111)1(11*1)1(21)1(21)1(***σμμσμσμμσμσμμσμμ-≥-+-≤-=≥+≤=X P X P N X X P N X X P P记.,12)1()2(1)1(12)2(1)1(21)1(21)1()2(1)1(21)1(2)2(11)1(**σσμμσμσσμσμσσμμσσμμσμσσμσμσσμμ--=⎥⎦⎤⎢⎣⎡--+=-=+-=⎥⎦⎤⎢⎣⎡-++=-=a b{}{})()()},(~|{)2|1(21)2()1(12)2()1(2)2(2)2(2)2(*2)2(22)2(***a b b U P a U P X P X P N X X P P Φ-Φ=⎪⎪⎭⎫⎝⎛+-Φ-⎪⎪⎭⎫ ⎝⎛--Φ=-≤--<=⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧-≤--⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧-<-=<<=∴σσμμσσμμσμμσμσμμσμσμμμ)1,0(~(}{}{)1|2(N U a U P b U P P -≥+≤=)()(a b Φ+Φ=5-2 设三个总体321,G G G 和的分布分别为:)5.0,2(2N ,)1,3()2,0(22N N 和.试问样品5.2=x 应判归哪一类?(1)按距离判别准则;(2)按贝叶斯判别准则.,0,1)|(,31321⎪⎪⎭⎫ ⎝⎛⎩⎨⎧=≠====j i j i i j L q q q 取解: (1)按距离判别准则,当样品5.2=x 时,.25.01)35.2()(,5625.12)05.2()(,15.0)25.2()(222322222221=-==-==-=x d x d x d因为5625.1125.0<<,所以样品5.2=x 判归给3G .(2)按后验概率判别法(贝叶斯判别准则)计算样品x 属t G 的后验概率:)3,2,1()()()|(31==∑=t x f q x f q x t P i i i t t当样品5.2=x 时,经计算可得.3798.01172.00304.01613.01174.0)5.2|1(,0984.01172.00304.01613.00304.0)5.2|2(,5218.01172.00304.01613.01613.0)5.2|1(=++===++===++==x p x p x p因0984.03798.05218.0>>,所以样品判归给1G .8-2 已知题8-1中R 的特征值和特征向量分别为)'.1772.0,6379.0,7494.0(,3672.0,)'8432.0,4911.0,2186.0(,6795.0,)'5075.0,5932.0,6250.0(,9633.1332211--==--====l l l λλλ(1)取公共因子个数1=m 时,求因子模型的主成分解,并计算误差平方和)1(Q ; (2)取公共因子个数2=m 时,求因子模型的主成分解,并计算误差平方和)2(Q ; (3)试求误差平方和1.0)(<m Q 的主成分解.解:(1)1=m 的因子模型的主成分解为:.4943.00003091.00002331.0,7111.08312.08757.0)(11⎪⎪⎪⎭⎫ ⎝⎛=⎪⎪⎪⎭⎫ ⎝⎛==D l A λ⎪⎪⎪⎭⎫ ⎝⎛---=⎪⎪⎪⎭⎫ ⎝⎛-⎪⎪⎪⎭⎫ ⎝⎛=+-=02411.001727.00979.0015911.016227.07279.01135.0145.063.01)'(1D AA R E 故1951.0)2411.01727.00979.0(2)1(22231312=++⨯==∑∑==i j ijQ ε(2)2=m 的因子模型的主成分解为:.01131.00001452.00002007.0,6950.07111.04048.08312.01802.08757.0)(2211⎪⎪⎪⎭⎫ ⎝⎛=⎪⎪⎪⎭⎫ ⎝⎛--==D l l A λλ,⎪⎩⎪⎨⎧+-=+-=+-=3213221212116950.07111.04048.08312.01802.08757.0εεεF F X F F X F F X⎪⎪⎪⎭⎫ ⎝⎛---=⎪⎪⎪⎭⎫ ⎝⎛-⎪⎪⎪⎭⎫ ⎝⎛=+-=00403.000475.01708.0013097.014975.08008.01135.0145.063.01)'(1D AA R E06611.0)0403.00475.01708.0(2)2(22231312=++⨯==∑∑==i j ijQ ε(3)因1.006611.0)2(<=Q ,故1=m 的主成分解满足要求.。
1.已知n=4,p=3的一个样本数据阵143X =626,X S 833534ρ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦计算,,v,2.已知23514241130010322X ⎡⎤⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦,用最短、最长、中间距离法聚类,并画出聚类树形图3.已知52=22⎡⎤∑⎢⎥⎣⎦,要求: ①求特征根12λλ, ②求特征向量12μμ,③构造主成分12,F F④计算1F 的方差Var(F 1)和2F 的方差Var(F 2)⑤计算()()()()11122122,,,,;;;F X F X F X F X ρρρρ4.设有12,G G 两个总体,从中分别抽取容量为3的样品如下:要求:(1)样本的均值向量()()12,XX 及离差阵12,S S(2)假定()()12==∑∑∑,用12,S S 联合估计∑(3)已知待判样品(27)X T=,分别用距离判别法、Fisher 判别法、Bayes 判别法判定X 的归属。
5.设111=n 个和122=n 个的观测值分别取自两个随机变量1X 和2X 。
假定这两个变量服从二元正态分布,且有相同的协方差阵。
样本均值向量和联合协方差阵为:⎥⎦⎤⎢⎣⎡--=111X ,⎥⎦⎤⎢⎣⎡=122X ,⎥⎦⎤⎢⎣⎡--=∑8.41.11.13.7。
新样品⎥⎦⎤⎢⎣⎡=21X ,要求用Bayes 法和Fisher 进行判别分析。
6.已知2变量协方差阵⎥⎦⎤⎢⎣⎡=∑3224,要求:(1)求∑的特征根及其对应的单位特征向量;(2)组建主成分1F 、2F ;(3)验证j j F Var λ=)(;(4)计算11x F ρ、21x F ρ。
7、试分析某海运学院100名新生的性别与来自的区域有无相关关系。
(20.05(1) 3.84χ=)8、已知4个样品3个数据的数据如下:44068644363X ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦,试求均值向量X 、协方差阵∑、相关阵R 。
9、已知随机向量X=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡321x x x ,具有均值向量826X ⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦和协方差阵,⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--=∑411161113。
海洋地球化学多元统计分析作业一、预备工作:数据的输出管理首先设置File output manager output manager中,选中individual wind。
Also send to Report wind中,选中single report。
二、数据的导入数据表(data.xls)为一个深海沉积物柱中30个样品分析结果。
第1列为样品编号,第2列为样品的采样深度(单位m),第三列起为分析的各元素含量。
将data.xls 数据导入Statistica worksheet中 (操作步骤为菜单File open …data.xls)三、数据(图表)的输出统计分析过程中生成的结果都可以输出到Word文档中(菜单File Save as …或PrtSc,粘贴到word中)。
对生成的图表,还可先菜单File Add to report,再粘贴到word中。
本项上机实习需完成以下统计分析一、相关及回归分析(Correlation matrices)1、分析两组分Co-Ni, CaO-Sr,Fe2O3-MnO,的相关关系,做出相关关系图,拟合出回归方程。
图1 Co-Ni 相关关系图图2 CaO-Sr 相关关系图图3 Fe2O3-MnO 相关关系图2、做出三组分Cu-Pb-Zn;Sr-Cu-CaO之间的散点图 (scatterplot) 。
图4 Cu-Co-Ni 散点图图5 Sr-Cu-CaO 散点图3、计算CaO、Co、Cu、Fe2O3、MnO、Ni、Sr之间的相关关系矩阵。
表1 沉积物中元素相关关系矩阵 (n=30,p<0.05)CaO Fe2O3MnO Co Cu Ni SrCaO 1.00Fe2O3-0.23 1.00MnO0.180.18 1.00Co-0.210.850.41 1.00Cu-0.02-0.010.360.26 1.00Ni-0.100.960.240.88-0.03 1.00Sr0.97-0.250.23-0.200.09-0.13 1.00二、聚类分析(Cluster analysis)1、首先将数据进行标准化(分别进行和列的标准化),得到标准化的数据集。
北方民族大学多元统计分析作业题目:主成分分析应用一、题目:研究31个省市自治区九项经济指标的主成分析2013年全国各地区经济发展状况的分布规律,我们对全国31个省市自治区的经济发展基本情况进行主成分分析,每个样本有9个指标:GDP、居民消费水平、固定资产投资、职工平均工资、货物周转量、社会消费品零售总额、居民消费价格指数、商品零售价格指数、工业总产值。
根据上述指标体系,选取2013年我国各地区对应指标的数据,数据来源于《2014年中国统计年鉴》。
其数据资料见下表1所示。
表1二、对指标数据的主成分分析定义变量及标签:X1 : GDPX2 :居民消费水平X3 :固定资产投资X4 :职工平均工资X5 :货物周转量X6 :社会消费品零售总额X7 :居民消费价格指数X8 :商品零售价格指数X9 :工业总产值三、分析过程按照主成分分析方法的实现步骤,运用SPSS统计分析软件,首先对数据资料是否符合主成分分析方法的要求进行判断,采用软件中KMO and Bartlett’s Test检验方法。
表2KMO and Bartlett's TestKaiser-Meyer-Olkin Measure of Sampling.756Adequacy.Approx. Chi-Square 389.427Bartlett's Test ofSphericitydf 36Sig. .000表2知:KMO =0.756>0.5,KMO表示偏相关较小。
and Bartlett's Test检验的p=0.000<0.05,即变量间不独立,存在相关关系。
综上述而言适合于主成分分析。
表3 Correlation MatrixGDP(亿元)x1 居民消费水平(元)x2固定资产投资(亿元)x3职工平均工资(元)x4货物周转量(亿吨)x5社会消费品零售总额(亿元)x6居民消费价格指数x7商品零售价格指数x8工业总产值(亿元)x9Correlation GDP(亿元)x1 1.000 .421 .882 .065 .654 .992 -.554 -.412 .973居民消费水平(元)x2.421 1.000 .133 .844 .466 .420 -.266 -.692 .481 固定资产投资(亿元)x3.882 .133 1.000 -.232 .638 .860 -.555 -.218 .854 职工平均工资(元)x4.065 .844 -.232 1.000 .164 .067 .087 -.515 .159 货物周转量(亿吨)x5.654 .466 .638 .164 1.000 .630 -.549 -.382 .659 社会消费品零售总额(亿元)x6.992 .420 .860 .067 .630 1.000 -.553 -.440 .960居民消费价格指数x7-.554 -.266 -.555 .087 -.549 -.553 1.000 .676 -.475 商品零售价格指数x8-.412 -.692 -.218 -.515 -.382 -.440 .676 1.000 -.393 工业总产值(亿元)x9.973 .481 .854 .159 .659 .960 -.475 -.393 1.000由表3知:相关系数矩阵(Correlation Matrix),由相关系数矩阵可以看到,除了商品零售价格指数与居民消费价格指数两指标与其他指标的相关性较低外,其他指标之间均有很强的相关性,可以尝试进行主成分分析。
安徽省经济综合实力的评价指标体系(因子分析)一.原始数据及指标解释我们选取了反映安徽省经济综合实力的12个指标体系,分别为:x1--生产总值(亿元)X2---人均生产总值(元)X3--地方财政收入(万元)X4--人均地方财政收入(元) X5--财政支出 X6--就业人员平均工资(元)X7--规模以上工业增加值(亿元)X8--人均工业增加值(元)X9-农林牧渔业总产值(万元)X10--人均农林牧渔业总产值(元)X11-农民人均可支配收入(元) X12-社会消费品零售总额(万元)X13-人均社会消费品零售总额(元)数据来源于统计局数据,数据如表一:二.特征值及方差贡献率--确定因子个数按照特征值大于1的原则,选入3个公共因子,其累积方差贡献率为90.320%,特征值及累计贡献率,碎石图,因子载荷阵见表二:三.旋转后的因子载荷阵--1.给出因子模型 2.给出因子命名由于得到的未旋转的公共因子的实际意义不好解释,因此,对公共因子进行方差最大化正交旋转,得到表三:计算因子得分,以各因子的方差贡献率占三个因子总方差贡献率的比重做为权重进行加权汇总,得出各省市县的综合得分F,既得F=(41.361*F1+37.392*F2+11.567*F3)/90.320以F1因子为X轴,F2因子为Y轴,画出各市县的因子得分图:四.结果分析由旋转后的因子载荷矩阵可以看出,公共因子F1在X2(人均生产总值),X4(人均地方财政收入),X6(就业人员平均工资),X8(人均工业增加值),X11(农民人均可支配收入),X13(社会消费品零售总额)上的载荷值都很大。
X6,X11是反映人均可支配收入的指标;X2是反映人均生产总值的指标;X8是反映工业发展规模的指标;X13是反映消费水平的指标;X4是反映地方财政的指标,政府作为国家的管理者和国有资产的所有者而获得的收入,在一定程度上反映了居民的收入水平。
因而F1为反映城市的工业化规模与人均收入和消费的关系的公共因子,在这个因子上得分越高,城市经济发展水平越高,城市工业化程度越高,人们的生活水平越高。
课程名称:多元统计分析方法与SAS软件题目:运用多元统计分析某市综合医院的经营状况评价及发展战略日前,为适应进一步深化医药卫生体制改革的要求,加强对公立医院综合改革试点的指导,国家卫计委先后发布了《国务院办公厅关于全面推开县级公立医院综合改革的实施意见》和《国务院办公厅关于城市公立医院综合改革试点的指导意见》,要求公立医院充分发挥公益性质和主体作用,努力满足广大人民群众的医疗服务需求,这也敦促公立医院在医疗管理、医疗服务方面进行积极的调整和改革,以更大发挥各自的优势,并确定其主要的医疗发展方向与服务定位,使其在日趋激烈的医疗服务竞争中取得更好的社会效益。
各级医院及医疗单位的发展与定位需要对其现有的医疗管理水平、医疗服务经营状况进行恰当、实事求是的认识与评价,并进行相互比较,从而制定相应的发展战略。
目前,各级医院对其医疗管理水平、医疗服务水准及相互间的医疗服务定位比较缺乏科学,定量的分析。
因此,本课题设计选取某市有代表性的县级及县级以上综合医院,采用多元统计的因子分析与聚类分析,分析各个医院的医疗经营状况,从而更好的反应管理水平,明确各自地位,为继续深化体制改革提供参考。
一、指标体系的建立。
医院的经营状况是一个涵盖内容很广的概念,统计分析需要首先对众多指标进行科学的筛选,挑选出具有代表性、灵敏性、可靠性的指标,组成综合评价的指标体系。
医院的业务工作量反映一个医院接纳患者的人数;平均每个医生的负担体现医生工作量;业务收支比率反映医院的财务状况;病人负担表现医院接纳的病人所负担的各项费用。
按照以上筛选指标的标准,建立如下指标体系:X1---医院门急诊诊疗人次(人次),X2----医院出院人数(人),X3----医院实际占用总床日(床日),X4----平均每个医生负担的诊疗人次(人次),X5---平均每个医生负担的住院总床日(床日),X6---平均每个医生年业务收入(元),X7---医院业务收支比率(%),X8---平均每诊疗人次医疗费(元),X9---平均每一出院者住院医疗费(元),X10----出院者平均每天住院医疗费(元)二、经营状况的统计分析根据2013年某市卫生计财信息资料汇编,获得某市部分县级及县级以上综合医院的主要经营指标。