第8章因子分析与聚类分析含SPSS ppt课件
- 格式:ppt
- 大小:2.07 MB
- 文档页数:57
第8章聚类分析在自然与社会科学研究中,存在着大量分类研究的问题,如病虫害种群消长演替规律的研究中,需要从生态系统出发,构造其数量、时间和空间关系的分类模式,以此来研究病虫害的发生规律。
聚类分析就是其分类研究的方法之一。
聚类分析是根据事物本身的特性研究个体分类的方法。
聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。
根据分类对象的不同可分为样品聚类和变量聚类。
1)样品聚类 样品聚类在统计学中又称为Q型聚类。
用SPSS的术语来说就是对事件(Cases)进行聚类,或是说对观测量进行聚类。
是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分类。
2)变量聚类 变量聚类在统计学又称为R型聚类。
反映同一事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。
由于人类对客观事物的认识是有限的,往往难以找出彼此独立的有代表性的变量,而影响对问题的进一步认识和研究。
例如在回归分析中,由于自变量的共线性导致偏回归系数不能真正反映自变量对因变量的影响等。
因此往往先要进行变量聚类,找出彼此独立且有代表性的自变量,而又不丢失大部分信息。
8.1快速聚类过程(K-Means Cluster ) 调用此过程可完成由用户指定类别数的大样本资料的逐步聚类分析。
所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终分类。
[例子8-1]根据1962年至1988年积累的三化螟有关资料进行聚类分析,研究三化螟种群消长规律。
数据见表8-1,其中发生期是指卵盛孵高峰期(2代以5月31日和3代7月20日为零计算天数),F2-F3为2代至3代的增殖系数,F3-F4为3代至4代的增殖系数。
对幼虫发生量和发生期数据进行快速聚类,分析各年的发生程度。
109表8-1幼虫发生量发生期增殖系数年份第2代第3代第2代第3代F2-F3 F3-F4 1962 344 3333 29 9 9.69 1.911963 121 1497 27 19 12.37 1.341964 187 1813 32 18 9.70 1.061965 500 4000 34 14 8.00 1.821966 441 3750 36 14 8.50 1.871967 404 4600 33 16 11.39 1.521968 328 986 35 18 3.01 1.261969 806 1790 32 15 2.22 2.141970 730 1970 36 20 2.70 2.641971 263 333 29 15 1.27 1.071972 486 600 32 19 1.23 1.471973 248 585 33 20 2.36 1.081974 2100 2700 22 14 1.28 1.331975 333 287 38 19 .86 .701976 90 77 40 24 .86 1.871977 19 25 40 27 1.32 2.881978 230 2525 39 20 10.96 .551979 1392 1041 33 18 .75 4.171980 308 41 31 28 .13 3.341981 415 916 36 18 2.21 1.091982 34 401 38 29 11.79 .991983 267 803 37 26 3.01 .091984 1043 3500 39 26 3.36 .071985 2243 7452 31 20 3.32 .121986 236 599 35 26 2.54 .001987 558 1061 33 24 1.90 .001988 162 2817 34 21 2.64 .008.1.1 操作方法1)数据准备在数据管理窗口,定义变量名:年份、幼虫2、幼虫3、发生期2、发生期3、增殖23、增殖34,分别代表年份、第2代幼虫发生量、第3代幼虫发生量、第2代发生期、第3代发生期、F2-F3增殖系数、F3-F4增殖系数。
实验四 R型因子分析1.实验目的:本实验讨论利用R型因子分析从具有错综复杂关系的变量中,找出数量较少的几个公因子来描述原始的变量,并且尽量减少信息的损失。
通过该实验,能够起到如下的效果:(1) 理解因子分析的作用、思想、数学基础、方法和步骤;(2) 熟悉如何利用因子分析,提出问题、分析问题、解决问题、得出结论;(3)会调用SAS软件实现因子分析的各个步骤,根据计算的结果进行分析,得出正确的结论,解决实际的问题。
2.知识准备:R型因子分析是从具有错综复杂关系的变量中,找出数量较少的几个公因子来描述原始的变量,并且尽量减少信息的损失。
其思想是:找出少量的不相关的若干个随机变量(公因子),))尽最大信息的描述原始众多的关系复杂的变量。
其数学模型有很多,如正交因子模型【1】,因子分析模型L【4】等,它们的数学模型和方法均有不相同。
我们下面采用因子分析模型L 来进行分析。
R型因子分析的步骤大体分为:首先正向化指标;然后计算样本相关阵的特征值、单位特征向量和方差贡献率,根据方差贡献率选取适当数量的初始因子,并得到初始因子载荷阵;再对初始因子进行旋转,选用行及列的元素的绝对值向0、1分化严重的旋转因子载荷阵对应的旋转因子作为最终的公因子;最后利用因子载荷阵求出因子得分函数。
3.实验内容:表1的数据是全国30个省市自治区经济发展基本情况,其中X1- GDP ,X2-居民消费水平,X3-固定资产投资,X4-职工平均工资,X5-货物周转量,X6-居民消费价格指数,X7-商品零售价格指数,X8-工业总产值,数据来源:1996年《中国统计年鉴》;见【1】表1 全国30个省市自治区经济发展基本情况序号省市X1 X2 X3 X4 X5 X6 X7 X81 北京1394.89 2505 519.01 8144 373.9 117.3 112.6 843.432 天津920.11 2720 345.46 6501 342.8 115.2 110.6 582.513 河北2849.52 1258 704.87 4839 2033.3 115.2 115.8 1234.854 山西1092.48 1250 290.9 4721 717.3 116.9 115.6 697.255 内蒙832.88 1387 250.23 4134 781.7 117.5 116.8 419.396 辽宁2793.37 2397 387.99 4911 1371.1 116.1 114 1840.557 吉林1129.2 1872 320.45 4430 497.4 115.2 114.2 762.478 黑龙江2014.53 2334 435.73 4145 824.8 116.1 114.3 1240.379 上海2462.57 5343 996.48 9279 207.4 118.7 113 1642.9510 江苏5155.25 1926 1434.95 5943 1025.5 115.8 114.3 2026.6411 浙江3524.79 2249 1006.39 6619 754.4 116.6 113.5 916.5912 安徽2003.58 1254 474 4609 908.3 114.8 112.7 824.1413 福建2160.52 2320 553.97 5857 609.3 115.2 114.4 433.6714 江西1205.11 1182 282.84 4211 411.7 116.9 115.9 571.8415 山东5002.34 1527 1229.55 5145 1196.6 117.6 114.2 2207.6916 河南3002.74 1034 670.35 4344 1574.4 116.5 114.9 1367.9217 湖北2391.42 1527 571.68 4685 849 120 116.6 1220.7218 湖南2195.7 1408 422.61 4797 1011.8 119 115.5 843.83 19广东5381.7226991639.838250656.5114 111.6 1396.35续表序号省市X1 X2 X3 X4 X5 X6 X7 X820 广西1606.15 1314 382.59 5105 556 118.4 116.4 554.9721 海南364.17 1814 198.35 5340 232.1 113.5 111.3 64.3322 四川3534 1261 822.54 4645 902.3 118.5 117 1431.8123 贵州630.07 942 150.84 4475 301.1 121.4 117.2 324.7224 云南1206.68 1261 334 5149 310.4 121.3 118.1 716.6525 西藏55.98 1110 17.87 7382 4.2 117.3 114.9 5.5726 陕西1000.03 1208 300.27 4396 500.9 119 117 600.9827 甘肃553.35 1007 114.81 5493 507 119.8 116.5 468.7928 青海165.31 1445 47.76 5753 61.6 118 116.3 105.829 宁夏169.75 1355 61.98 5079 121.8 117.1 115.3 114.430 新疆834.57 1469 376.95 5348 339 119.7 116.7 428.76 (1)利用因子分析模型L进行分析,找出适当的公共因子及相应的因子得分函数;(2)利用上面的因子得分函数对样品进行聚类分析,并给出适当的结论。