(整理)基于SPSS的多元统计分析三种算法的实例研究.
- 格式:doc
- 大小:478.50 KB
- 文档页数:16
多元统计剖析实例院系 : 商学院学号 :姓名 :多元统计剖析实例本文采集了 2012 年 31 个省市自治区的农林牧渔和有关农业数据 , 经过对对采集的数据进行比较剖析对 31 个省市自治区进行分类 . 选用了 6个指标农业产值 , 林业产值 . 牧业总产值 , 渔业总产值 , 乡村居民家庭拥有生产性固定财产原值 , 乡村居民家庭经营耕地面积 .数据以下表 :一. 聚类法设定 4 个群聚 , 采纳了系统聚类法 . 下表为 spss 剖析以后的结果 .聚类表群集组合初次出现阶群集阶群集 1 群集 2 系数群集 1 群集 2 下一阶1 5 7 226.381 0 0 132 2 9 1715.218 0 0 53 22 24 1974.098 0 0 74 1 29 5392.690 0 0 65 2 30 6079.755 2 0 66 1 2 11120.902 4 5 87 4 22 21528.719 0 3 118 1 26 23185.444 6 0 149 12 20 26914.251 0 0 1910 27 31 35203.443 0 0 2011 4 28 50321.121 7 0 2212 11 13 65624.068 0 0 2413 5 25 114687.756 1 0 1714 1 21 169600.075 8 0 2215 8 18 188500.814 0 0 2116 17 19 204825.463 0 0 2117 5 14 268125.103 13 0 2018 3 23 387465.457 0 0 2619 6 12 425667.984 0 9 2320 5 27 459235.019 17 10 2321 8 17 499195.430 15 16 2522 1 4 559258.810 14 11 2823 5 6 708176.881 20 19 2424 5 11 854998.386 23 12 2825 8 10 1042394.608 21 0 2626 3 8 1222229.597 18 25 2927 15 16 1396048.280 0 0 2928 1 5 1915098.014 22 24 3029 3 15 3086204.552 26 27 3030 1 3 6791755.637 28 29 0Rescaled Distance Cluster CombineCASE 0 5 1015 20 25 Label Num +--------- +--------- +--------- +--------- +---------+内蒙 5 -+吉林7 -+云南25 -+-+江西14 -+ +-+陕西27 -+-+ |新疆31 -+ +-+安徽12 -+-+ | |广西20 -+ +-+ +------- +辽宁 6 ---+ | |浙江11 -+----- + |福建13 -+ |重庆22 -+ +--------------------------------- +贵州24 -+ | |山西 4 -+--- + | |甘肃28 -+ | | |北京 1 -+ | | |青海29 -+ +--------- + |天津 2 -+ | |上海9 -+ | |宁夏30 -+--- + |西藏26 -+ |海南21 -+ |河北 3 ---+----- + |四川23 ---+ | |黑龙江8 -+-+ +------------- + |湖南18 -+ +--- + | | |湖北17 -+-+ +-+ +------------------------- + 广东19 -+ | |江苏10 ------- + |山东15 ----------- +----------- +河南16 ----------- +群集成员事例 4 群集1: 北京 12: 天津 13: 河北 14: 山西 15: 内蒙 26: 辽宁 17: 吉林 28: 黑龙江 29: 上海 110: 江苏 111: 浙江 112: 安徽 113: 福建 114: 江西 115: 山东 316: 河南 117: 湖北 118: 湖南 119: 广东 120: 广西 121: 海南 122: 重庆 123: 四川 124: 贵州 125: 云南 126: 西藏 427: 陕西 128: 甘肃 129: 青海 130: 宁夏 131: 新疆 2从 SPSS剖析结果能够获得 , 内蒙 , 吉林 , 黑龙江 , 新疆为第 2族群 , 这一族群的特色是农业收入可能不高 , 可是农民的固定财产 , 和耕地面积特别高 , 农民的充裕程度或许机械化程度较高; 山东是第 3族群 , 这一族群中六个指标都处于较高水平,农林牧渔四项收入都处于较高水平并且农民充裕; 西藏处于第 4族群 , 这是因为 , 西藏人员较少 , 自然条件恶劣 , 可使用耕地少 , 可是 , 因为国家的扶助 , 农民的固定 财产许多 , 农民相对而言比较富裕 ; 大部分省份属于第 1族群 , 这一族群的特色在 于六项指标都没有较为突出的一项, 或许农林牧渔收入的原来就少, 或许是农民 的固然比较辛苦 , 整体的农业收入较高 , 可是农民的收入水平比较低, 固定财产较 少 .三. 鉴别法X 1,X 2,X 3,X 4,X 5,X 6分别代表农业产值 , 林业产值 . 牧业总产值 , 渔业总产值 , 乡村居民家庭拥有生产性固定财产原值, 乡村居民家庭经营耕地面积 .剖析事例办理纲要未加权事例N百分比有效31 100.0清除的缺失或越界组代码 0 .0 起码一个缺失鉴别变量 0 .0 缺失或越界组代码还有起码一 0.0个缺失鉴别变量共计 0 .0 共计31 100.0实验结果剖析 :组统计量有效的 N (列表状态)Average Linkage (Between Groups) 均值 标准差 未加权的已加权的1农业总产值 1463.8900 1062.0348625 25.000 林业总产值 118.5768 87.02052 25 25.000 牧业总产值 830.3664 671.10440 25 25.000渔业总产值291.4128346.719022525.000乡村居民家庭拥有生产性固定14432.3400 5287.92950 25 25.000 财产原值乡村居民家庭经营耕地面积 1.5496 .88484 25 25.000 2 农业总产值1582.2975 543.92851 4 4.000林业总产值93.3500 37.71131 4 4.000 牧业总产值1021.3175 372.88255 4 4.000 渔业总产值38.3500 27.49067 4 4.000 乡村居民家庭拥有生产性固定30226.4175 4233.77839 4 4.000 财产原值乡村居民家庭经营耕地面积9.4975 3.30626 4 4.000 3 农业总产值3960.6200 . a 1 1.000林业总产值107.0100a1 1.000 .牧业总产值2285.9200 . a 1 1.000 渔业总产值1267.0700 . a 1 1.000 乡村居民家庭拥有生产性固定19168.1400 . a 1 1.000 财产原值乡村居民家庭经营耕地面积 1.6400 . a 1 1.000 4 农业总产值53.3900 . a 1 1.000林业总产值 2.5600 . a 1 1.000牧业总产值59.0200a1 1.000 .渔业总产值.2200 . a 1 1.000乡村居民家庭拥有生产性固定52935.0700 . a 1 1.000财产原值乡村居民家庭经营耕地面积 1.8900 . a 1 1.000 从表上能够看出 , 组均值之间差值很大 . 各个分组 , 在 6 项指标上均值有较明显的差别 .组均值的均等性的查验Wilks 的 Lambda F df1 df2 Sig.农业总产值.773 2.640 3 27 .070林业总产值.928 .699 3 27 .561牧业总产值.801 2.238 3 27 .107渔业总产值.691 4.019 3 27 .017乡村居民家庭拥有生产性固定.253 26.538 3 27 .000财产原值组均值的均等性的查验Wilks 的 Lambda F df1 df2 Sig.农业总产值.773 2.640 3 27 .070林业总产值.928 .699 3 27 .561牧业总产值.801 2.238 3 27 .107渔业总产值.691 4.019 3 27 .017乡村居民家庭拥有生产性固定.253 26.538 3 27 .000财产原值乡村居民家庭经营耕地面积.190 38.263 3 27 .000 由表中能够知道 ,13456 指标之间的 sig 值较小 ,2 指标 sig 值有 0.561 较大 ,可是仍说明接受原假定 , 各指标族群间差别较大 .汇聚的组内矩阵农业总产值林业总产值牧业总产值渔业总产值有关性农业总产值 1.000 .449 .895 .400 林业总产值.449 1.000 .489 .481牧业总产值.895 .489 1.000 .294渔业总产值.400 .481 .294 1.000乡村居民家庭拥有生产性固定-.093 -.262 -.052 -.040财产原值乡村居民家庭经营耕地面积.056 -.033 .181 -.104汇聚的组内矩阵乡村居民家庭拥有生产性固定资乡村居民家庭经产原值营耕地面积有关性农业总产值-.093 .056林业总产值-.262 -.033牧业总产值-.052 .181渔业总产值-.040 -.104乡村居民家庭拥有生产性固定 1.000 .326财产原值乡村居民家庭经营耕地面积.326 1.000从表中能够知道 , 查验结果 p 值>0.05, 此时 , 说明协方差矩阵相等,能够进行 bayes 查验 .Fisher剖析法协方差矩阵的均等性的箱式查验对数队列式AverageLinkage(BetweenGroups) 秩对数队列式1 6 61.1252 . a . b3 . c . b4 . c . b汇聚的组内 6 62.351打印的队列式的秩和自然对数是组协方差矩阵的秩和自然对数。
对一所重点学校某个班成绩的综合分析摘要随着社会竞争的越来越激烈,家长和老师对于学生成绩的态度愈加重视,对于学生将来的发展与前途也同样感到一丝忧虑,因此及时公布学生的学习成绩并且能够增其长补其短对于学生将会有很大的帮助。
本文利用某所重点学校某个班的成绩单来分析这个班学生成绩的优劣,以达到取长补短的目的,主要应用了SPSS软件对成绩进行了综合性的分析。
关键词:综合分析;SPSS软件;成绩目录1.对应分析的概述 (1)2.聚类分析的概述 (3)2.1聚类分析的定义 (3)2.2聚类的方法分类 (3)2.3系统聚类法的基本步骤 (3)3.判别分析的概述 (4)3.1判别分析的基本思想 (4)3.2判别分析与聚类分析的关系 (4)4.在SPSS软件上的操作步骤 (5)4.1对应分析的操作步骤 (5)4.2聚类分析与判别分析的操作步骤 (6)5.结果分析 (7)5.1对应表 (7)5.2汇总 (7)5.3概述行点和概述列点 (8)5.6 特征值 (11)5.7 显著性检验 (11)5.8 标准化典型判别式函数系数 (11)5.9 结构矩阵 (12)5.10 群组重心的函数 (12)5.11 分类函数系数 (13)6.结论 (14)7.对创新的认识 (15)参考文献 (16)附录 (17)1.对应分析的概述对应分析(correspondence analysis )又称为相应分析,是一种目的在于揭示变量和样品之间或者定性变量资料中变量与其类别之间的相互关系的多元统计分析方法。
根据分析资料的类型不同,对应分析分为定性资料(分类资料)的对应分析和连续性资料的对应分析(基于均数的对应分析)。
其中,根据分析变量个数的多少,定性资料的对应分析又分为简单对应分析和多重对应分析。
对两个分类变量进行的对应分析称为简单对应分析,对两个以上的分类变量进行的对应分析称为多重对应分析。
对应分析实际是在R 型因子分析和Q 型因子分析的基础上发展起来的一种方法。
摘要本文主要应用多元统计中的多元回归分析模型、因子分析模型、判别分析模型解决三个有关经济方面的问题,从而能更深的理解多元统计分析这门课程,并熟悉SPSS软件的一些基本操作。
关键词:多元回归分析,因子分析,判别分析,SPSS第一章 多元线性回归分析1.1 研究背景消费是宏观经济必不可少的环节,完善的消费模型可以为宏观调控提供重要的依据。
根据不同的理论可以建立不同的消费函数模型,而国内的许多学者研究的主要是消费支出与收入的单变量之间的函数关系,由于忽略了对消费支出有显著影响的变量,其所建立的方程必与实际有较大的偏离。
本文综合考察影响消费的主要因素,如收入水平、价格、恩格尔系数、居住面积等,采用进入逐步、向前、向后、删除、岭回归方法,对消费支出的多元线性回归模型进行研究,找出能较准确描述客观实际结果的最优模型。
1.2 问题提出与描述、数据收集按照经济学理论,决定居民消费支出变动的因素主要有收入水平、居民消费意愿、消费环境等。
为了符合我国经济发展的不平衡性的现状,本文主要研究农村居民的消费支出模型。
文中取因变量Y 为农村居民年人均生活消费支出(单位:元),自变量为农村居民人均纯收入X 1(单位:元)、商品零售价格定基指数X 2(1978年的为100)、消费价格定基指数X 3(1978年的为100)、家庭恩格尔系数X 4(%)、人均住宅建筑面积X 5(单位:m 2)。
本文取1900年至2009年的数据(数据来源:中华人民共和国国家统计局网公布的1996至2010年中国统计年鉴)列于附录的表一中。
1.3 模型建立 1.3.1 理论背景多元线性回归模型如下:εββββ+++++=p p X X X Y (22110)Y 表示因变量,X i (i=1,…,p )表示自变量,ε表示随机误差项。
对于n 组观测值,其方程组形式为εβ+=X Y 即模型假设: ⑴零均值假设:()0i E ε= i=1,2,…,n⑵同方差:()2i Var εσ=⑶无自相关:⑷误差与自变量不相关:(),0ik i Cov X ε= i=1,2,…,n , k=0,1,…,p ⑸自变量之间无多重共线性 ()1rank X p =+1.3.2模型建立及SPSS 运算结果分析假设因变量Y (农村居民年人均生活消费支出)与自变量X 1(农村居民人均纯收入)、X 2(商品零售价格定基指数)、X 3(消费价格定基指数)、X 4(家庭恩格尔系数)、X 5(人均住宅建筑面积)满足下述等式:01122334455y X X X X X ββββββ=+++++强行回归:在SPSS 中进行强行回归,会得到如下表格:⑴输入变量从表1-1中可以看到,本文先强行将五个自变量与因变量进行线性拟合,希望得到一个线性函数。
SPSS中多元回归分析实例解析多元回归分析是一种统计方法,用于研究一个因变量与多个自变量之间的关系。
在SPSS中,可以使用该方法来构建、估计和解释多元回归模型。
下面将以一个实例来解析SPSS中的多元回归分析。
假设我们想要研究一个教育投资项目的效果,该项目包括多个自变量,例如教育资金、教育设施、学生人数等,并且我们希望预测该项目对学生学习成绩的影响。
首先,我们需要准备好数据并导入SPSS中。
数据应包含每个教育投资项目的多个观测值,以及与之相关的自变量和因变量。
例如,可以将每个项目作为一个观测值,并将教育资金、教育设施、学生人数等作为自变量,学生学习成绩作为因变量。
在SPSS中,可以通过选择“Analyze”菜单中的“Regression”选项来打开回归分析对话框。
然后,选择“Linear”选项来进行多元回归分析。
接下来,可以将自变量和因变量添加到对话框中。
在自变量列表中,选择教育资金、教育设施、学生人数等自变量,并将它们移动到“Independent(s)”框中。
在因变量框中,选择学生学习成绩。
然后,点击“OK”按钮开始进行分析。
SPSS将输出多元回归的结果。
关键的统计指标包括回归系数、显著性水平和拟合度。
回归系数表示每个自变量对因变量的影响程度,可以根据系数的大小和正负来判断影响的方向。
显著性水平表示自变量对因变量的影响是否显著,一般以p值小于0.05为标准。
拟合度指示了回归模型对数据的拟合程度,常用的指标有R方和调整后的R方。
在多元回归分析中,可以通过检查回归系数的符号和显著性水平来判断自变量对因变量的影响。
如果回归系数为正且显著,表示该自变量对因变量有正向影响;如果回归系数为负且显著,表示该自变量对因变量有负向影响。
此外,还可以使用其他方法来进一步解释和验证回归模型,例如残差分析、模型诊断等。
需要注意的是,在进行多元回归分析时,需要满足一些前提条件,例如自变量之间应该独立、与因变量之间应该是线性关系等。
spss多元回归分析案例SPSS多元回归分析是一种常用的统计方法,可以通过分析多个自变量对一个或多个因变量的影响程度,帮助研究者理解变量之间的关系以及预测变量之间的变化情况。
以下是一个关于人们消费意愿的多元回归分析的案例。
假设我们想研究人们的消费意愿受到收入水平、年龄和受教育水平的影响程度。
我们收集了100个参与者的数据,包括他们的收入、年龄、受教育水平以及消费意愿。
下面将介绍如何使用SPSS进行多元回归分析。
首先,在SPSS软件中打开数据文件,并选择"回归"菜单下的"线性回归"选项。
然后将因变量(消费意愿)拉入"因变量"框中,将自变量(收入、年龄、受教育水平)拉入"自变量"框中。
其次,点击"统计"按钮,在弹出的对话框中勾选"无多重共线性检验"、"离群值"和"样本相关矩阵"选项,并点击"确定"按钮。
接下来,点击"模型"按钮,在弹出的对话框中选择"全量"和"因素样本相关系数"选项,并点击"确定"按钮。
然后,点击"保存"按钮,在弹出的对话框中输入保存路径和文件名,并勾选"标准化残差"、"标准化预测值"和"离群值的DFITS"选项,并点击"确定"按钮。
最后,点击"OK"按钮开始进行多元回归分析。
在分析结果中,我们可以查看每个自变量的回归系数、标准误、t值以及显著性水平。
还可以查看整体模型的解释力、统计显著性和调整R 平方。
根据分析结果,我们可以得出结论:收入水平、年龄和受教育水平对消费意愿有显著影响。
收入水平对消费意愿的影响最大,其次是受教育水平,年龄对消费意愿的影响较小。
多元回归分析在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问题为多元回归分析。
可以建立因变量y与各自变量x j(j=1,2,3,…,n)之间的多元线性回归模型:其中:b0是回归常数;b k(k=1,2,3,…,n)是回归参数;e是随机误差。
多元回归在病虫预报中的应用实例:某地区病虫测报站用相关系数法选取了以下4个预报因子;x1为最多连续10天诱蛾量(头);x2为4月上、中旬百束小谷草把累计落卵量(块);x3为4月中旬降水量(毫米),x4为4月中旬雨日(天);预报一代粘虫幼虫发生量y(头/m2)。
分级别数值列成表2-1。
预报量y:每平方米幼虫0~10头为1级,11~20头为2级,21~40头为3级,40头以上为4级。
预报因子:x1诱蛾量0~300头为l级,301~600头为2级,601~1000头为3级,1000头以上为4级;x2卵量0~150块为1级,15l~300块为2级,301~550块为3级,550块以上为4级;x3降水量0~10.0毫米为1级,10.1~13.2毫米为2级,13.3~17.0毫米为3级,17.0毫米以上为4级;x4雨日0~2天为1级,3~4天为2级,5天为3级,6天或6天以上为4级。
表2-1x1 x2 x3 x4 y年蛾量级别卵量级别降水量级别雨日级别幼虫密度级别1960102241121 4.3121101 1961300144030.111141 196269936717.511191 196318764675417.1474554 1965431801 1.912111 19664222201010131 19678063510311.8232283 1976115124020.612171 197171831460418.4442454 19728033630413.4332263 19735722280213.224216219742641330342.243219219751981165271.84532331976461214017.515328319777693640444.7432444197825516510101112数据保存在“DATA6-5.SAV”文件中。
基于SPSS的多元统计分析三种算法的实例研究摘要本文主要应用多元统计中的多元回归分析模型、因子分析模型、判别分析模型解决三个有关经济方面的问题,从而能更深的理解多元统计分析这门课程,并熟悉SPSS软件的一些基本操作。
关键词:多元回归分析,因子分析,判别分析,SPSS第一章 多元线性回归分析1.1 研究背景消费是宏观经济必不可少的环节,完善的消费模型可以为宏观调控提供重要的依据。
根据不同的理论可以建立不同的消费函数模型,而国内的许多学者研究的主要是消费支出与收入的单变量之间的函数关系,由于忽略了对消费支出有显著影响的变量,其所建立的方程必与实际有较大的偏离。
本文综合考察影响消费的主要因素,如收入水平、价格、恩格尔系数、居住面积等,采用进入逐步、向前、向后、删除、岭回归方法,对消费支出的多元线性回归模型进行研究,找出能较准确描述客观实际结果的最优模型。
1.2 问题提出与描述、数据收集按照经济学理论,决定居民消费支出变动的因素主要有收入水平、居民消费意愿、消费环境等。
为了符合我国经济发展的不平衡性的现状,本文主要研究农村居民的消费支出模型。
文中取因变量Y 为农村居民年人均生活消费支出(单位:元),自变量为农村居民人均纯收入X 1(单位:元)、商品零售价格定基指数X 2(1978年的为100)、消费价格定基指数X 3(1978年的为100)、家庭恩格尔系数X 4(%)、人均住宅建筑面积X 5(单位:m 2)。
本文取1900年至2009年的数据(数据来源:中华人民共和国国家统计局网公布的1996至2010年中国统计年鉴)列于附录的表一中。
1.3 模型建立 1.3.1 理论背景多元线性回归模型如下:εββββ+++++=p p X X X Y ......22110 Y 表示因变量,X i (i=1,…,p )表示自变量,ε表示随机误差项。
对于n 组观测值,其方程组形式为εβ+=X Y 即模型假设: ⑴零均值假设:()0i E ε= i=1,2,…,n⑵同方差:()2i Var εσ=⑶无自相关:⑷误差与自变量不相关:(),0ik i Cov X ε= i=1,2,…,n , k=0,1,…,p ⑸自变量之间无多重共线性 ()1r a n k X p =+1.3.2模型建立及SPSS 运算结果分析假设因变量Y (农村居民年人均生活消费支出)与自变量X 1(农村居民人均纯收入)、X 2(商品零售价格定基指数)、X 3(消费价格定基指数)、X 4(家庭恩格尔系数)、X 5(人均住宅建筑面积)满足下述等式:01122334455y X X X X X ββββββ=+++++强行回归:在SPSS 中进行强行回归,会得到如下表格:⑴输入变量从表1-1中可以看到,本文先强行将五个自变量与因变量进行线性拟合,希望得到一个线性函数。
表1-1 输入的变量输入/移去的变量模型输入的变量移去的变量方法1X5, X2, X4, X1, X3a. 输入a. 已输入所有请求的变量。
描述性统计量均值标准偏差N Y 1847.2585 983.03837 20 X1 2391.890 1292.8874 20 X2 335.255 59.9815 20 X3 298.050 69.4300 20 X4 50.952 6.3407 20 X5 24.943 4.8762 20⑵拟合优度检验表1-2 拟合优度检验模型汇总b模型RR方调整 R方标准估计的误差更改统计量Durbin-WatsonR 方更改 F 更改df1df2Sig. F 更改1 .999a .998.997 56.89386 .998 1131.6725 14 .000 1.197a. 预测变量: (常量), X5, X2, X4, X1, X3。
b. 因变量: Y表1-2是对回归方程的拟合优度检验的说明样本决定系数20.998R ,说明自变量可以解释因变量99.8%的变化,而调整后的样本决定系数2211(1)0.9971n R R n p -=--=--,这两个值非常接近1,所以拟合程度比较高。
⑶方程显著性检验表1-3 方程显著性检验Anova b模型平方和 df 均方 F Sig. 1回归 1.832E7 5 3663121.534 1131.672.000a 残差 45316.766 14 3236.912总计1.836E719a. 预测变量: (常量), X5, X2, X4, X1, X3。
b. 因变量: Y表1-3是对回归方程显著性检验的说明统计量1131.672F =,对应的概率值0.000p =,说明回归方程显著成立(我们给定显著水平为0.05)。
⑷参数求解及其显著性检验表1-4 参数求解及显著性检验系数a模型非标准化系数标准系数 tSig.相关性共线性统计量B标准 误差 试用版 零阶 偏 部分 容差 VIF 1(常量) -1457.646 936.744-1.556 .142X1 .836.065 1.100 12.808 .000 .998 .960 .170 .024 41.819 X23.417 3.837 .209 .891 .388 .755 .232.012 .003310.892 X3 -5.293 4.780 -.374 -1.107 .287 .888 -.284 -.015 .002 646.608X4 16.657 11.904 .107 1.399 .184 -.896 .350.019 .030 33.443X5 35.611 24.308 .177 1.465 .165 .969 .365.019 .012 82.463a. 因变量: Y表1-4是对参数的求解及显著性检验的说明我们可以从上表看出系数向量()012345,,,,,Tβββββββ=的估计值,其中01457.646β∧=-,10.836β∧=,2 3.417β∧=,3 5.293β∧=-,416.657β∧=,535.611β∧= 则拟合的回归方程为123451457.6460.836 3.417 5.29316.65735.611Y X X X X X =-++-++另外,由上表中的t 检验(我们给定显著水平为0.10)知:只有自变量X 1(其对应的概率p=0.000)与因变量Y 在总体上存在比较显著的线性关系,其余自变量与因变量的线性关系不显著。
⑸多重共线性检验表1-5 共线性检验共线性诊断a模型 维数 特征值 条件索引方差比例(常量) X1 X2 X3 X4 X5 11 5.782 1.000 .00 .00 .00 .00 .00 .00 2.201 5.357 .00 .01 .00 .00 .00 .00 3 .014 20.626 .00 .04 .00 .00 .00 .00 4 .003 44.800 .00 .36 .00 .00 .04 .06 5 .000218.270.88 .29 .01 .01 .49 .87 63.947E-5 382.720.12.29.99.99.47.06a. 因变量: Y关于多重共线性的检测,我们采用计算条件索引或方差膨胀因子的方式。
当条件索引小于30的时候,说明共线性不明显。
从表1-5中可以看出,X 3、X 4、X 5所对应的条件索引都大于30,说明有一定的共线性。
另外从表1-4中可以看出方差膨胀因子VIF i (一般认为该值小于10时,说明不存在共线性)都大于10,说明变量之间存在严重的共线性。
⑹自相关检验从表1-2的Durbin-Watson 列我们得到回归模型的 1.197DW =,在(0,2)区间范围内,属于部分正自相关。
1.4 模型修正再运算与结果分析虽然上述的强行回归建立的线性回归方程具有很好的拟合度,并且方程的显著性也很高,但是部分参数的显著性并不高且具有比较严重的多重共线性关系。
所以本文又分别用逐步回归、向前回归、向后回归、岭回归对模型进行一定的修正,所得结果如下。
㈠逐步回归所谓逐步回归就是在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,然后从两端分别将影响显著的自变量选入和将影响不显著的变量剔除。
通过SPSS对附表一中的数据做逐步回归分析,得到下列数据表格:表1-6输入/移去的变量a模型输入的变量移去的变量方法1 X1 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
2 X4 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
3 X3 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
a. 因变量: Y表1-7模型汇总d模型R R 方调整 R 方标准估计的误差Durbin-Watson1 .998a.995 .995 70.621792 .998b.996 .996 63.892823 .999c.997 .997 57.49027 1.045a. 预测变量: (常量), X1。
b. 预测变量: (常量), X1, X4。
c. 预测变量: (常量), X1, X4, X3。
d. 因变量: Y表1-8Anova d模型平方和df 均方 F Sig.1 回归 1.827E7 1 1.827E7 3663.434 .000a 残差89773.881 18 4987.438总计 1.836E7 192 回归 1.829E7 2 9145762.730 2240.350 .000b 残差69398.978 17 4082.293总计 1.836E7 193 回归 1.831E7 3 6102680.780 1846.426 .000c 残差52882.098 16 3305.131总计 1.836E7 19a. 预测变量: (常量), X1。
b. 预测变量: (常量), X1, X4。
c. 预测变量: (常量), X1, X4, X3。
d. 因变量: Y表1-9系数a模型非标准化系数标准系数t Sig.相关性共线性统计量B标准误差试用版零阶偏部分容差VIF1 (常量)33.053 33.879 .976 .342X1 .758 .013 .998 60.526 .000 .998 .998 .998 1.000 1.0002 (常量)-741.801348.188-2.130 .048X1 .815 .028 1.071 29.525 .000 .998 .990 .440 .169 5.923 X4 12.569 5.626 .081 2.234 .039 -.896 .476 .033 .169 5.9233 (常量)-605.786319.15-1.898 .076X1 .866 .034 1.138 25.696 .000 .998 .988 .345 .092 10.903 X4 13.275 5.072 .086 2.617 .019 -.896 .548 .035 .168 5.946 X3 -.985 .441 -.070 -2.235 .040 .888 -.488 -.030 .186 5.385a. 因变量: Y表1-10共线性诊断a模型维数特征值条件索引方差比例(常量) X1 X4 X3 11 1.885 1.000 .06 .062 .115 4.044 .94 .942 1 2.805 1.000 .00 .00 .002 .194 3.800 .00 .13 .003 .001 53.599 1.00 .87 1.003 1 3.793 1.000 .00 .00 .00 .002 .200 4.359 .00 .06 .00 .003 .007 24.004 .01 .54 .02 .994 .001 62.482 .99 .40 .98 .01a. 因变量: Y从上述表格可以看出,SPSS在做逐步回归的时候,共得到了三个比较好的回归方程,及三种剔除变量的情况。