第9章统计实验统计实验(对应分析)
- 格式:doc
- 大小:514.50 KB
- 文档页数:6
篇一:统计学实验心得体会统计学实验心得体会为期半个学期的统计学实验就要结束了,这段以来我们主要通过excl软件对一些数据进行处理,比如抽样分析,方差分析等。
经过这段时间的学习我学到了很多,掌握了很多应用软件方面的知识,真正地学与实践相结合,加深知识掌握的同时也锻炼了操作能力,回顾整个学习过程我也有很多体会。
统计学是比较难的一个学科,作为工商专业的一名学生,统计学对于我们又是相当的重要。
因此,每次实验课我都坚持按时到实验室,试验期间认真听老师讲解,看老师操作,然后自己独立操作数遍,不懂的问题会请教老师和同学,有时也跟同学商量找到更好的解决方法。
几次实验课下来,我感觉我的能力确实提高了不少。
统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。
它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。
可见统计学的重要性,认真学习显得相当必要,为以后进入社会有更好的竞争力,也为多掌握一门学科,对自己对社会都有好处。
几次的实验课,我每次都有不一样的体会。
个人是理科出来的,对这种数理类的课程本来就很感兴趣,经过书本知识的学习和实验的实践操作更加加深了我的兴趣。
每次做实验后回来,我还会不定时再独立操作几次为了不忘记操作方法,这样做可以加深我的记忆。
根据记忆曲线的理论,学而时习之才能保证对知识和技能的真正以及掌握更久的掌握。
就拿最近一次实验来说吧,我们做的是“平均发展速度”的问题,这是个比较容易的问题,但是放到软件上进行操作就会变得麻烦,书本上只是直接给我们列出了公式,但是对于其中的原理和意义我了解的还不够多,在做实验的时候难免会有很多问题。
不奇怪的是这次试验好多人也都是不明白,操作不好,不像以前几次试验老师讲完我们就差不多掌握了,但是这次似乎遇到了大麻烦,因为内容比较多又是一些没接触过的东西。
实验五对应分析1.实验目的:本实验讨论利用对应分析从众多变量和样品信息中找出变量间、样品间、变量与样品间的本质联系。
通过该实验,能够起到如下的效果:(1) 理解对应分析的作用、思想、数学基础、方法和步骤;(2) 熟悉如何利用对应分析,提出问题、分析问题、解决问题、得出结论;(3)会调用SAS软件实现对应分析的各个步骤,根据计算的结果进行分析,得出正确的结论,解决实际的问题。
2.知识准备:对应分析是从众多变量和样品信息中找出变量间、样品间、变量与样品间的本质联系。
其思想是:对于某份数据(n份样品、p维数据),其变量点(n维空间的点,坐标为该变量在各个样品处的值)的协差阵和样品点(p维空间的点,坐标为该样品在各个变量处的值)的协差阵有本质的联系,而且有相同的特征值,特征向量也具有某种联系。
利用该联系进行适当的、尽量保留较多信息的降维,就会既反映变量间、样品间的本质联系,又反映变量与样品间的本质联系。
对应分析的步骤大体分为:首先把指标进行正向化;然后计算过渡矩阵,消除原始数据量纲的影响,使样品和变量具有某种意义下的对等性,以便可以在同一坐标轴中进行描述;然后对数据进行R型因子分析,根据过渡矩阵的相关阵的特征根和累计贡献率选取适当的公因子,计算出R型(变量点对应的)因子载荷和Q型(样品点对应的)因子载荷;然后把样品点和变量点根据它们变换后的坐标(R型因子得分或Q型因子的得分),描述到同一坐标轴中;最后根据样品点和变量点间的距离进行分析,得出结论。
3.实验内容:下面表1的数据是2009年广东省城镇居民家庭平均每人全年消费性支出构成的基本数据,其中的单位是百分比,数据来源于《广东省2009统计年鉴》:表1 广东省城镇居民家庭平均每人全年消费性支出构成的基本数据居民经济成份食品衣着居住家庭设备用品医疗保健交通和通讯教育文化娱乐服务其他消费最低收入户52.84 3.64 14.97 4.15 5.53 10.36 6.24 2.27 困难户54.52 3.43 15.24 4.65 5.55 8.63 5.70 2.28 低收入户52.77 4.78 13.03 4.56 4.67 10.29 7.57 2.33 中等偏下户46.92 5.46 11.20 5.69 4.91 13.49 9.68 2.65 中等收入户39.23 6.37 10.26 5.83 5.97 16.72 11.92 3.70 中等偏上户35.55 6.59 9.65 6.36 5.56 18.77 13.46 4.06 高收入户29.56 6.58 12.08 7.04 5.08 20.35 15.39 3.92 最高收入户28.70 7.17 9.86 7.05 5.91 21.10 15.71 4.50 利用对应分析对该数据进行处理,给出R型、Q型因子载荷,并结合该数据,给出适当的结论。
4.实验步骤:SAS程序:1.读入数据:Data consumption;input type X1-X8;cards;1 52.84 3.64 14.97 4.15 5.53 10.36 6.24 2.272 54.52 3.43 15.24 4.65 5.55 8.63 5.70 2.283 52.77 4.78 13.03 4.56 4.67 10.29 7.57 2.334 46.92 5.46 11.20 5.69 4.91 13.49 9.68 2.655 39.23 6.37 10.26 5.83 5.97 16.72 11.92 3.706 35.55 6.59 9.65 6.36 5.56 18.77 13.46 4.067 29.56 6.58 12.08 7.04 5.08 20.35 15.39 3.928 28.70 7.17 9.86 7.05 5.91 21.10 15.71 4.50;run;2.进行对应分析,并画出散点图:Proc corresp data=consumption out=result;var X1-X8;id type;Proc plot data=result;plot dim1*dim2="*"$type/ haxis=-0.06 to 0.1 by 0.02vaxis=-0.35 to 0.35 by 0.1vspace=3hspace=10HREF=0VREF=0;run;语句解释:“Proc corresp”指调用对应分析程序;“var X1-X8;”指变量是“X1-X8”;“id type;”指样品名是变量“type”;“Proc plot”指调用作图程序;“plot dim1*dim2="*"$type”指作以“dim1”为纵坐标、以“dim2”为横坐标的平面坐标图,坐标点用“*”和样品名“type”标出,其中符号“$”指后面变量“type”是字符型;“/ haxis=-0.06 to 0.1 by 0.02 vaxis=-0.35 to 0.35 by 0.1”中“/”指后面的语句是对坐标轴进行补充说明,“haxis=-0.06 to 0.1 by 0.02”指横轴上的刻度是从“-0.06”到“0.1”,每格代表“0.02”,“vaxis=-0.35 to 0.35 by 0.1”指横轴上的刻度是从“-0.35”到“0.35”,每格代表“0.1”;“vspace=3 hspace=10”指定图中纵坐标、横坐标单位格在图中的实际长度;“HREF=0 VREF=0”在横坐标等于“0”、纵坐标等于“0”的地方分别划一条平行与纵轴、横轴的参考线,其它更多的语句参见书【2】。
运行结果及解释:图1中数据“Singular Value”是过渡矩阵的奇异值,“Principal Inertia”是过渡矩阵的奇异值的特征值,“Chi-Square”是卡方检验值,“Percent”是特征值的贡献率,“Cumulative Percent”是特征值的累计贡献率;图1中重点的信息在于“特征值”及其“贡献率”,根据图1的数据知道:第一特征值的贡献率为96.47%,基本上反映了所有的信息,前两个特征值的累计贡献率为98.92%,因此选用前两个公因子就基本上反映了所有的信息;图2是样品点在两个公因子下的载荷,即R型因子载荷,也可以认为是样品点在新坐标系(以Dim1、Dim2为坐标轴)中的坐标;图1惯量和卡方分解图图2样品点的新坐标图3样品点的统计量图4 样品点对公因子贡献图3中数据“Quality”是前两个公因子对样品的共同度(如果保留所有的8个公因子,则共同度应该等于1),“Mass”是原始数据中各行数据之和占总数据之和的比,“Inertia”指各样品对总特征值的贡献率;图3中重点信息在于“Quality”的值。
由图3中数据知道:前两个公因子对每个样品的共同度都达到了0.89以上,基本上反映了每个样品的信息;图4是每个样品对公因子的贡献率,各列之和应该等于1。
由据图4中数据知道:样品1、2、3、7、8(最低收入户、困难户、低收入户、高收入户、最高收入户)对第一个公因子贡献比较大,样品1、2、4、5、7(最低收入户、困难户、中等偏下户、中等收入户、高收入户、最高收入户)对第二个公因子贡献比较大;图5对样品点贡献最大的公因子图5是各样品点的坐标对特征值贡献多少的说明,其中0、1、2分别代表贡献少、中、多;图6样品点余弦平方值图6是前两个公因子各自对样品的贡献率,各行的数值和应该等于图3中“Quality”的数值;根据图6的数据知道:第一个公因子对除4(中等偏下户)外的其他样品的贡献率都达到了0.81以上,基本上反映了除4外的其他样品的信息;图7 变量点的新坐标图8 变量点的统计量图9 变量点对公因子贡献图10 对变量点贡献最大的公因子图11 变量点余弦平方值图7-图11的数据是对变量点情况的说明,类似与图2-图6;根据图11的数据知道:第一个公因子对除X3(居住消费)、X5(医疗保健消费)外的其他变量的贡献率都达到了0.92以上,基本上反映了除X3、X5外的其他变量的信息;又根据图8中“Quality”的数据知道:前两个公因子对X3的共同度达到了0.99以上,基本上反映了X3的信息;图12 散点图实验结论:从图1的数据知道:第一公因子反映了绝大部分信息,前两个公因子基本上反映了所有的信息;而且从图6和图11的数据知道:第一个公因子(Dim1)基本上反映了除4(中等偏下户)、X3(居住消费)、X5(医疗保健消费)外的其他样品及变量的信息;前两个公因子基本上反映了除X5(居住消费)外的其他样品及变量的信息;因此以Dim1为纵轴、以Dim2为横轴的坐标轴基本上能反映样品和变量的信息,特别是纵轴的信息更为重要;从散点图上分析:(1)X1(食品)、X3(居住)纵轴坐标为负,而且X3与1(最低收入户)和2(困难户)距离最近,X1与3(低收入户)和4(中等偏下户)距离最近。
这说明X1和X3是最低端的生活必须品,经济条件差的居民与该消费关系最为密切,政府应该关心低收入人群的食品和居住费用,控制食品的价格,提供价格便宜的廉租房。
(2)X2(衣着)、X4-X8(家庭设备用品、医疗保健、交通和通讯、教育文化娱乐服务、其他消费)纵轴坐标为正,而且X2与5(中等收入户)和6(中等偏上户)距离最近,X4-X8与7(高收入户)和8(最高收入户)距离最近。
这说明衣着消费与中等收入的居民关系密切,中等收入的居民有了一定的生活保证,开始通过购买服装来追求时尚、体现个性。
家庭设备用品、医疗保健、交通和通讯、教育文化娱乐服务、其他消费是属于相对高端的消费,只有高收入的人群才有较大的消费比重。
(3)从上面的分析可以看到,目前收入中等偏上的居民主要的消费还只是与衣着消费密切,交通和通讯、教育文化娱乐服务等还属于高收入人群的消费。
这说明虽然广东省的人民生活水平步入了小康阶段,但与发达国家相比还是有不少的差距,有待提高。
5. 思考与练习:⑴运用对应分析研究我国近些年的社会消费品零售额的构成。
⑵运用对应分析尝试研究我国各省市国民生产总值的收入和支出的情况,并进行适当的分析。
⑶运用对应分析尝试研究我国各省市住房有关指标的情况,并进行适当的分析。
参考文献【1】于秀林、任雪松(1999):《多元统计分析》,中国统计出版社。
【2】汪远征、徐雅静(2007):《SAS软件与统计应用教程》,机械工业出版社。
【3】林海明:《因子分析模型的改进和应用》,数理统计与管理,28,2009,998-1012。
【4】林海明:《对主成分分析法运用中十个问题的解析》,统计与决策,16,2007,16-18。