多元统计(操作步骤)
- 格式:docx
- 大小:115.05 KB
- 文档页数:10
多元统计实验报告一、实验目的多元统计分析是统计学的一个重要分支,它能够处理多个变量之间的复杂关系。
本次实验的主要目的是通过实际操作和数据分析,深入理解多元统计分析的基本原理和方法,并掌握其在实际问题中的应用。
二、实验数据本次实验使用了一组来自某市场调研公司的数据集,包含了消费者的年龄、性别、收入、消费习惯等多个变量,共计_____个样本。
三、实验方法1、主成分分析(PCA)主成分分析是一种降维方法,它通过将多个相关变量转换为一组较少的不相关变量(即主成分),来简化数据结构并提取主要信息。
2、因子分析因子分析用于发现潜在的公共因子,这些因子能够解释多个观测变量之间的相关性。
3、聚类分析聚类分析将数据对象分组,使得同一组内的对象具有较高的相似性,而不同组之间的对象具有较大的差异性。
四、实验过程1、数据预处理首先,对原始数据进行了清洗和预处理,包括处理缺失值、异常值和数据标准化等操作,以确保数据的质量和可用性。
2、主成分分析使用统计软件进行主成分分析,计算出特征值、贡献率和累计贡献率。
根据特征值大于 1 的原则,确定了保留的主成分个数。
通过主成分载荷矩阵,解释了主成分的实际意义。
3、因子分析运用因子分析方法,提取公共因子,并通过旋转因子载荷矩阵,使得因子的解释更加清晰和具有实际意义。
计算因子得分,用于进一步的分析和应用。
4、聚类分析采用 KMeans 聚类算法,根据选定的变量对样本进行聚类。
通过不断调整聚类中心和重新分配样本,最终得到了较为合理的聚类结果。
五、实验结果与分析1、主成分分析结果提取了_____个主成分,它们累计解释了_____%的方差。
第一个主成分主要反映了_____,第二个主成分主要与_____相关,以此类推。
这为我们理解数据的主要结构提供了重要的线索。
2、因子分析结果成功提取了_____个公共因子,它们能够较好地解释原始变量之间的相关性。
每个因子所代表的潜在因素也得到了清晰的解释,有助于深入了解消费者的行为特征和市场结构。
一、实验背景随着社会经济的发展和科学技术的进步,数据量日益庞大,如何从大量数据中提取有价值的信息,成为统计学研究的热点问题。
多元统计分析作为统计学的一个重要分支,通过对多个变量之间的关系进行分析,为决策者提供有力的数据支持。
本实验旨在通过实际操作,让学生熟练掌握多元统计分析方法,提高数据分析能力。
二、实验目的1. 掌握多元统计分析的基本概念和方法;2. 学会运用多元统计分析方法解决实际问题;3. 提高数据分析能力,为后续课程打下坚实基础。
三、实验内容本次实验以某城市居民消费数据为例,运用多元统计分析方法对其进行分析。
四、实验步骤1. 数据导入首先,将实验数据导入统计软件(如SPSS、R等)。
本实验采用SPSS软件,数据集包含以下变量:(1)收入(y):居民年收入;(2)教育程度(x1):居民最高学历;(3)年龄(x2):居民年龄;(4)家庭人口(x3):家庭人口数量;(5)住房面积(x4):家庭住房面积。
2. 描述性统计分析对数据集进行描述性统计分析,包括各变量的均值、标准差、最大值、最小值等。
3. 相关性分析运用皮尔逊相关系数、斯皮尔曼等级相关系数等方法,分析变量之间的相关关系。
4. 主成分分析运用主成分分析方法,提取主要成分,降低数据维度。
5. 聚类分析运用K-means聚类分析方法,将居民划分为不同的消费群体。
6. 随机森林回归分析运用随机森林回归分析方法,预测居民收入。
五、实验结果与分析1. 描述性统计分析根据描述性统计分析结果,可知居民年收入、教育程度、年龄、家庭人口、住房面积的平均值、标准差、最大值、最小值等。
2. 相关性分析通过相关性分析,发现收入与教育程度、年龄、家庭人口、住房面积之间存在显著的正相关关系。
3. 主成分分析根据主成分分析结果,提取出两个主成分,累计方差贡献率为84.95%,可以解释大部分的变量信息。
4. 聚类分析通过K-means聚类分析,将居民划分为3个消费群体。
多元统计分析(1)题目:多元统计分析知识点研究生专业指导教师完成日期 2013年 12月目录第一章绪论 (1)§1.1什么是多元统计分析 ....................................................................................................... 1 §1.2多元统计分析能解决哪些实际问题 ............................................................................... 2 §1.3主要内容安排 ................................................................................................................... 2 第二章多元正态分布 .. (2)§2.1基本概念 ........................................................................................................................... 2 §2.2多元正态分布的定义及基本性质 .. (8)1.(多元正态分布)定义 ................................................................................................ 9 2.多元正态变量的基本性质 (10)§2.3多元正态分布的参数估计12(,,,)p X X X X '= (11)1.多元样本的概念及表示法 (12)2. 多元样本的数值特征 ................................................................................................ 123.μ和∑的最大似然估计及基本性质 (15)4.Wishart 分布 (17)第五章 聚类分析 (18)§5.1什么是聚类分析 ............................................................................................................. 18 §5.2距离和相似系数 . (19)1.Q —型聚类分析常用的距离和相似系数 ................................................................ 20 2.R 型聚类分析常用的距离和相似系数 ...................................................................... 25 §5.3八种系统聚类方法 (26)1.最短距离法 .................................................................................................................. 27 2.最长距离法 .................................................................................................................. 30 3.中间距离法 .................................................................................................................. 32 4.重心法 .......................................................................................................................... 35 5.类平均法 ...................................................................................................................... 37 6.可变类平均法 .............................................................................................................. 38 7.可变法 .......................................................................................................................... 38 8.离差平方和法(Word 方法) (38)第六章判别分析 (39)§6.1什么是判别分析 ............................................................................................................. 39 §6.2距离判别法 (40)1、两个总体的距离判别法 (40)2.多总体的距离判别法 (45)§6.3费歇(Fisher)判别法 (46)1.不等协方差矩阵两总体Fisher判别法 (46)2.多总体费歇(Fisher)判别法 (51)§6.4贝叶斯(Bayes)判别法 (58)1.基本思想 (58)2.多元正态总体的Bayes判别法 (59)§6.5逐步判别法 (61)1.基本思想 (61)2.引入和剔除变量所用的检验统计量 (62)3.Bartlett近似公式 (63)第一章绪论§1.1什么是多元统计分析在自然科学、社会科学以及经济领域中,常常需要同时观察多个指标。
因子分析+聚类分析:一.对数据进行因子分析,实验步骤:1在SPSS窗口中选择:分析-降维-因子分析,在因子分析主界面将变量X1 移入变量框2点击“描述”,在对话框中,统计量选择:原始分析结果,相关矩阵选择:系数,以描述相关系数,点击继续3点击“抽取”,在对话框中,方法为主成份,分析选择:相关性矩阵,输出选择:未旋转的因子解和碎石图,抽取中选择基于特征值(特征值大于1)或者因子的固定数量(要提取的因子为2),点击继续4点击“旋转”,在对话框中,方法为最大方差法,在输出中选择旋转解和载荷图(当因子数=2时),点击继续5点击“得分”,在对话框中,选中“保存为变量”和“显示因子得分系数矩阵”,在方法中选择“回归”,点击继续6点击确定实验结果分析:1.特征根和累计贡献率由表中可以看出,因为成份1和2的特征值>1,被提取出来,而且由于第三个特征根相比下降比较快,我们也只选取两个公共因子,对1和2旋转后其累计贡献率为82.488%。
由碎石图,我们也可以看出1和2的特征值大于1,可以被提取出来,其余变量特征值过小,不予提取。
从旋转成份矩阵可以看出,经过旋转的载荷系数产生了明显的区别,横向找到最大的一个数,如上表中黄色部分画出,第一个公因子在v1,v3,v5上占有较大载荷,说明于这三个指标有较大的相关性,命名为;第二个公因子在v2,v4,v6上有较大载荷,有较大相关性,归为一类,可命名为。
该表为成分转换矩阵,给出旋转所需的矩阵可以用成份得分系数矩阵写出各个因子关于中心标准化后的变量的表达式。
F1=0.385x1-0.001x2+…..F2=…..(分析的举例:第一个因子在外貌自信心洞察力推销能力工作魄力志向抱负理解能力潜能等变量上有较大的系数,可以抽象为应聘者主客观工作能力因子第二个因子在简历格式工作经验适应力变量上有较大的系数,可抽象为应聘者对客观环境的适应力因子第三个因子在兴趣爱好诚信度求职渴望度变量上有较大的系数,可抽象为应聘者的兴趣和诚信因子。
《多元统计分析分析》实验报告2012 年月日学院经贸学院姓名学号实验实验成绩名称一、实验目的(一)利用SPSS对主成分回归进行计算机实现.(二)要求熟练软件操作步骤,重点掌握对软件处理结果的解释.二、实验内容以教材例题7.2为实验对象,应用软件对例题进行操作练习,以掌握多元统计分析方法的应用三、实验步骤(以文字列出软件操作过程并附上操作截图)1、数据文件的输入或建立:(文件名以学号或姓名命名)将表7.2数据输入spss:点击“文件”下“新建”——“数据”见图1:图1点击左下角“变量视图”首先定义变量名称及类型:见图2:图2:然后点击“数据视图”进行数据输入(图3):图3完成数据输入2、具体操作分析过程:(1)首先做因变量Y与自变量X1-X3的普通线性回归:在变量视图下点击“分析”菜单,选择“回归”-“线性”(图4):图4将因变量Y调入“因变量”栏,将x1-x3调入“自变量”栏(图5):然后选择相关要输出的结果:①点击右上角“统计量(s)”:“回归系数”下选择“估计”;“残差”下选择“D.W”;在右上角选择输出“模型拟合度”、“部分相关和偏相关”“共线性诊断”(后两项是做多重共线性检验)。
选完后点击“继续”(见图6)②如果需要对因变量与残差进行图形分析则需要在“绘制”下选择相关项目(图7),一般不需要则继续③如果需要将相关结果如因变量预测值、残差等保存则点击“保存”(图8),选择要保存的项目④如果是逐步回归法或者设置不带常数项的回归模型则点击“选项”(图9)其他选项按软件默认。
最后点击“确定”,运行线性回归,输出相关结果(见表1-3)图5 图6图7图8图9回归分析输出结果:的协差阵也就是相关阵进行分解做因子分析或主成分分析),如果不需要对变量做标准化处理就选“协方差矩阵”;“输出”中的两项都选,要求输出没有旋转的因子解(主成分分析必选项)和碎石图(用图形决定提取的主成分或因子的个数);“抽取“下,默认的是基于特征值(大于1表示提取的因子或主成分至少代表1个单位标准差的变量信息,因为标准化后的变量方差为1,因子或者主成分作为提取的综合变量应该至少代表1个变量的信息),也可以自选提取的因子个数(即第二项),本例中做主成分回归,选择提取全部可能的3个主成分,所以自选个数填3。
方差分析
例1在饲料养鸡增肥的研究中,某研究所提出三种饲料配方:
A1:以鱼粉为主的饲料,A2:以槐树粉为主的饲料,A3:以苜蓿为主的饲料
为了比较三种饲料的效果,特选24只相似的雏鸡随机分为三组,每组喂一种饲料,60天后观察它们的重量.试验结果下表
试比较分析饲料对鸡的增肥作用是否显著?如若显著,哪种饲料更好?
例2一位经济学家对生产电子计算机设备的企业收集了在一年内生产力提高的指数(用0—100内的数表示),并按过去三年间在科研和开发上的平均花费分为三类:
A1:花费少,A2:花费中等,A3花费多
生产力提高的指数如下表所示:
请列出方差分析表,并进行比较。
(取α=0.05)
例3茶是世界上分布最为广泛的一种饮料,但很少人知道其营养价值.任何一种茶叶都含有叶酸,它是一种维生素B,如今已有测定茶叶中叶酸含量的方法.选四个产地的绿茶,其中用A1制作了7个样品,用A2制作了5个样品,用A3与A4各制作了6个样品.按随机次序测试其叶酸含量(单位:mg),测试结果如下表:
试分析四种绿茶的叶酸平均含量是否有显著差异?(取α=0.05)
例4一火箭是用四种燃料,三种推进器作射程试验.每种燃料与每种推进器的组合各发射火箭两次,得射程如下表所示(以海里计).
试分析推进器类型和燃料种类对火箭射程有无显著影响?(取 =0.05)
均值向量和协方差的检验
例5 1999年财政部、国家经贸委、人事部和国家计委联合发布了《国有资本金效绩评价规则》。
其中,对竞争性工商企业的评价指标体系包括下面八大基本指标:净资产收益率、总资产报酬率、总资产周转率、流动资产周转率、资产负债率、已获利息倍数、销售增长率和资本积累率。
下面我们借助于这一指标体系对我国上市公司的运营情况进行分析,以下数据为35家上市公司2008年年报数据,这35家上市公司分别来自于电力、煤气及水的生产和供应业,房地行业,信息技术业。
试对三个行业的上市公司的经营能力进行比较。
(当数据量较大且没有明显证据表明所得数据不遵从多元正态分布时,通常认为数据来自多元正态总体。
)
1、(SPSS16.0)Analyze→Descriptive Statistics→Explore→将“净资产收益率、总资产报酬率、资产负债率、总资产周转率、流动资产周转率、已获利息倍数、销售增长率、资本积累率”8个变量选入“Dependent”框中→Plots→选中“Normality plots with tests”复选框(为了输出有关正态性检验的图
由sig.值(p值)可以看出“总资产周转率、流动资产周转率、已获利息倍数、资本积累率”均明显不遵从正态分布。
其余四个变量(即指标:净资产收益率、总资产报酬率、资产负债率、销售增长率)可以认为遵从正态分布,只需从剩下的四个变量分析公司的运营能力(如:获利能力、资本结构及成长能力)。
2、(SPSS16.0)(GLM模块可以完成多元正态分布有关均值和方差的检验)
Analyze→General Linear Multivariate→将“净资产收益率、总资产报酬率、资产负债率、销售增长率”4个指标选入“Depandant列表框”→将“行业”指标选入“Fixed Factor(s)”框→Ok
该表给出了来自三个行业的样本数据个数。
由sig.值(p值)可以看出,无论从哪个统计量来看,三个行业的运营能力(净资产收益率、总资产报酬率、资产负债率、销售增长率)都是有显著差别的。
本例只有一个因素即行业,由四个指标的sig.值0.028, 0.049, 0.514, 0.133可以看出,三个行业在“净值产收益率(0.028)、总资产报酬率(0.049,)”两个财务指标上存在显著差异。
如要获知差别主要来自哪些行业,或者不同行业运营能力的比较,可做如下操作:
3、(SPSS16.0)Analyze→General Linear Multivariate→Multivariate→Contrast→在“Change Contrasts”框中打开Contrast右侧的下拉框,并选择Simple(此时,下侧的Reference Category被激活,默认是Last被选中,表示第一、二行业均与第三行业作比较,若选中First,则将做第二、三行业与第一行业的比较。
)→Change→Continue→Ok
在0.05水下下,第一行业与第三行业的总资产报酬率指标存在显著差异(Sig.值=0.043),其他指标
见没有明显差别。
从第一栏还可以看出第一行业在“净资产收益率、总资产报酬率、销售增长率”上均低于第三行业,资产负债率高于第三行业,似乎说明第三行业(信息技术)作为新兴行业有更高的
成长能力。
从第二栏可以看出,第二行业(房地产业)在销售增长率(Sig.值=0.046)指标上明显低于第三行业(信息技术),说明信息技术也在获利能力上高于房地产,而再其他三个指标上没有显著差别(净资产收益率、总资产报酬率、资产负债率)。
4、(SPSS16.0)Analyze→General Linear Multivariate→Multivariate→Options→在“Estimated Marginal Means”框中把“行业(chany)”选入“Display Means for”列表框(将输出不同行业各财务指标比较的结果)→选中“Homogeneity tests”(进行各行业数据协方差阵相等的检验)→Continue→Ok
上表中Sig.=0 .269>>0.05,可以认为三个行业的协方差阵是相等的(没有显著差别)。
Estimated Marginal Means
上表给出了每一行业各财务指标描述统计的估计(置信区间)。
聚类分析
1、在World95.sav数据中筛选出亚洲国家和地区:Data→Select casese → if condition is satisfied→if→将“region or economic”选入右上框,并令其等于3(如region=3)→continue→Ok(选出25个数据)。
2、Analyze→Classify→ Hierarchical cluster(系统聚类)→Cases→将“Urban(城市人口比例),Lifeexpf (女性平均寿命),Lifeexpm(男性平均寿命),Literacy(有读写能力的人所占比例),Gdp_cap(人均国内生产总值)”选入Variables→将“county”选入“Label Cases by”。
→勾选“Cases”→勾选“Statistics”和“Plots”→Statistics→Agglomeration Schedule→ Continue→Method→在“Cluser Method”框内选择“Within-group linkage”→在“Standardize”框内选择“Z Scores”→Continue→Ok
(利用上述5个变量进行Q型聚类分析)
Average Linkage (Between Groups)
判别分析(费歇判别)
回归模型普及的基础在于它去预测和解释度量变量,但是,对于非度量变量,一般的多元回归不适合解释此类问题,判别分析适用于被解释变量是非度量的情形。
在这种情形下,人们对于预测和解释影响一个对象所属类别的关系感兴趣,比如为什么某人是或者不是消费者,一家公司是成功还是失败等。
判别分析在主要目的是识别一个个体所属类别情况下有着广泛的应用。
潜在应用包括预测新产品的开发是否成功,一个学生是否被录取,按职业兴趣对学生分组,确定某人信用风险的种类等等。
在每种情况下,将对象进行分组,并且要求使用这两种方法中的一种可以通过人们选择的解释变量来预测或者解释每个对象的所属类别。
2008年31个省、市、自治区农村居民家庭平均每人生活消费支出
x1 人均食品支出(元/人)x5 人均交通和通信支出(元/人)
x2 人均衣着支出(元/人)x6 人均文教娱乐用品及服务支出(元/人)
x3 人均住房支出(元/人)x7 人均医疗保健支出(元/人)
资料来源:中国统计年鉴2008
操作步骤(费歇判别)
Analyze→Classify→Discriminant→左侧的“Grouping Variable”中选入“group”→Define Range→在“Minimum”处输入1,“Maximum”处输入2→Contiune→将八个变量选入“Independents”→Statistics→在“Descriptive”中选“Means”(对各组的各变量作均值和标准差的描述)→在“Function Coefficients”中选“Unstandardized”(要求显示费歇判别法建立非标准化系数)→Continue→Save→Predicteded group membership(将回判的结果存入原始数据库)→Continue→Ok
操作步骤(贝叶斯判别)与上述的区别在于:
(1)把在“Function Coefficients”中选“Unstandardized”改为选“Fisher’s”
(2)在Save项增加“Probabilities of group member”
操作步骤(逐步判别)与操作步骤(费歇判别)的区别在于:
把在“Enter independents together”项改为“Use stepwise method”→Method→选中“Mahalanobis distance”(采用马氏距离)。