SPSS回归模型分析答案及解题思路
- 格式:doc
- 大小:657.69 KB
- 文档页数:9
SPSS—回归—多元线性回归结果分析(二),最近一直很忙,公司的潮起潮落,就好比人生的跌岩起伏,眼看着一步步走向衰弱,却无能为力,也许要学习“步步惊心”里面“四阿哥”的座右铭:“行到水穷处”,”坐看云起时“。
接着上一期的“多元线性回归解析”里面的内容,上一次,没有写结果分析,这次补上,结果分析如下所示:结果分析1:由于开始选择的是“逐步”法,逐步法是“向前”和“向后”的结合体,从结果可以看出,最先进入“线性回归模型”的是“price in thousands"建立了模型1,紧随其后的是“Wheelbase"建立了模型2,所以,模型中有此方法有个概率值,当小于等于0.05时,进入“线性回归模型”(最先进入模型的,相关性最强,关系最为密切)当大于等0.1时,从“线性模型中”剔除结果分析:1:从“模型汇总”中可以看出,有两个模型,(模型1和模型2)从R2 拟合优度来看,模型2的拟合优度明显比模型1要好一些(0.422>0.300)2:从“Anova"表中,可以看出“模型2”中的“回归平方和”为115.311,“残差平方和”为153.072,由于总平方和=回归平方和+残差平方和,由于残差平方和(即指随即误差,不可解释的误差)由于“回归平方和”跟“残差平方和”几乎接近,所有,此线性回归模型只解释了总平方和的一半,3:根据后面的“F统计量”的概率值为0.00,由于0.00<0.01,随着“自变量”的引入,其显著性概率值均远小于0.01,所以可以显著地拒绝总体回归系数为0的原假设,通过ANOVA方差分析表可以看出“销售量”与“价格”和“轴距”之间存在着线性关系,至于线性关系的强弱,需要进一步进行分析。
结果分析:1:从“已排除的变量”表中,可以看出:“模型2”中各变量的T检的概率值都大于“0.05”所以,不能够引入“线性回归模型”必须剔除。
从“系数a” 表中可以看出:1:多元线性回归方程应该为:销售量=-1.822-0.055*价格+0.061*轴距但是,由于常数项的sig为(0.116>0.1) 所以常数项不具备显著性,所以,我们再看后面的“标准系数”,在标准系数一列中,可以看到“常数项”没有数值,已经被剔除所以:标准化的回归方程为:销售量=-0.59*价格+0.356*轴距2:再看最后一列“共线性统计量”,其中“价格”和“轴距”两个容差和“vif都一样,而且VIF 都为1.012,且都小于5,所以两个自变量之间没有出现共线性,容忍度和膨胀因子是互为倒数关系,容忍度越小,膨胀因子越大,发生共线性的可能性也越大从“共线性诊断”表中可以看出:1:共线性诊断采用的是“特征值”的方式,特征值主要用来刻画自变量的方差,诊断自变量间是否存在较强多重共线性的另一种方法是利用主成分分析法,基本思想是:如果自变量间确实存在较强的相关关系,那么它们之间必然存在信息重叠,于是就可以从这些自变量中提取出既能反应自变量信息(方差),而且有相互独立的因素(成分)来,该方法主要从自变量间的相关系数矩阵出发,计算相关系数矩阵的特征值,得到相应的若干成分。
SPSS作业6:回归分析(一)回归分析多元线性回归模型的基本操作:(1)选择菜单Analyze-Regression-Linear;(2)选择被解释变量(能源消费标准煤总量)和解释变量(国内生产总值、工业增加值、建筑业增加值、交通运输邮电业增加值、人均电力消费、能源加工转换效率)到对应框中;(3)在Method框中,选择Enter方法;在Statistics框中,选择Estimates、Model fit、Covariancematrix、Collinearity diagnostics选项;在Plots框中,选择ZRESED到Y框,ZPRED到X框,再选择Histogram和Normal plot;(4)选择菜单Analyze-Non Test-1-Sanple K-S;选择菜单Analyze-Correlate-Brivariate;结果如下:Regression能源消费需求的多元线性回归分析结果(强制进入策略)(一)Model Summary bModel R R Square Adjusted R Square Std. Error of the Estimate1 .990a.980 .973 8480.38783a. Predictors: (Constant), 能源加工转换效率/%, 交通运输邮电业增加值/亿元, 工业增加值/亿元, 人均电力消费/千瓦时, 建筑业增加值/亿元, 国内生产总值/亿元b. Dependent Variable: 能源消费标准煤总量/万吨分析:被解释变量和解释变量的复相关系数为0.990,判定系数为0.980,调整的判定系数为0.973,回归方程的估计标准误差为8480.38783。
该方程有6个解释变量,调整的判定系数为0.973,,接近于1,所以拟合优度较高,被解释变量可以被模型解释的部分较多,未能解释的部分较少。
分析:由上可知,被解释变量的总离差平方和为5.882E10,回归平方和及均方分别为5.766E10和9.611E9,剩余平方和及均方分别为1.151E9和7.192E7,F检验统计量的观测值为133.636,对应的概率p值近似为0。
第九章spss的回归分析1、利用习题二第4题的数据,任意选择两门课程成绩作为解释变量和被解释变量,利用SPSS 提供的绘制散点图功能进行一元线性回归分析。
请绘制全部样本以及不同性别下两门课程成绩的散点图,并在图上绘制三条回归直线,其中,第一条针对全体样本,第二和第三条分别针对男生样本和女生样本,并对各回归直线的拟和效果进行评价。
选择fore和phy两门成绩做散点图步骤:图形→旧对话框→散点图→简单散点图→定义→将phy导入X轴、将fore导入Y 轴,将sex导入设置标记→确定图标剪辑器内点击元素菜单→选择总计拟合线→选择线性→确定→再次选择元素菜单→点击子组拟合线→选择线性→确定分析:如上图所示,通过散点图,被解释变量y与fore有一定的线性相关关系。
2、线性回归分析与相关性回归分析的关系是怎样的?线性回归分析是相关性回归分析的一种,研究的是一个变量的增加或减少会不会引起另一个变量的增加或者减少。
3、为什么需要对线性回归方程进行统计检验?一般需要对哪些方面进行检验?线性回归方程能够较好地反映被解释变量和解释变量之间的统计关系的前提是被解释变量和解释变量之间确实存在显著的线性关系。
回归方程的显著性检验正是要检验被解释变量和解释变量之间的线性关系是否显著,用线性模型来描述他们之间的关系是否恰当。
一般包括回归系数的检验,残差分析等。
4、SPSS多元线性回归分析中提供了哪几种解释变量筛选策略?包括向前筛选策略、向后筛选策略和逐步筛选策略。
5、先收集到若干年粮食总产量以及播种面积、使用化肥量、农业劳动人数等数据,请利用建立多元线性回归方程,分析影响粮食总产量的主要因素。
数据文件名为“粮食总产量.sav”。
步骤:分析→回归→线性→粮食总产量导入因变量、其余变量导入自变量→确定结果如图:Variables Entered/Removed bModel Variables Entered Variables Removed Method1 农业劳动者人数(百万人),总播种面积(万公顷), 风灾面积比例(%), 粮食播种面积(万公顷), 施用化肥量(kg/公顷), 年份a. Entera. All requested variables entered.b. Dependent Variable: 粮食总产量(y万吨)ANOVA bModel Sum of Squares df Mean Square F Sig.1 Regression 2.025E9 6 3.375E8 414.944 .000aResidual 2.278E7 28 813478.405Total 2.048E9 34a. Predictors: (Constant), 农业劳动者人数(百万人), 总播种面积(万公顷), 风灾面积比例(%),粮食播种面积(万公顷), 施用化肥量(kg/公顷), 年份b. Dependent Variable: 粮食总产量(y万吨)Coefficients aModel UnstandardizedCoefficients StandardizedCoefficientst Sig.B Std. Error Beta1 (Constant) -613605.817 230903.867 -2.657 .013年份304.688 119.427 .402 2.551 .016粮食播种面积(万公顷) .736 .782 .053 .942 .354总播种面积(万公顷) 1.939 .650 .111 2.984 .006施用化肥量(kg/公顷) 141.077 11.186 .755 12.612 .000风灾面积比例(%) -307.209 51.870 -.174 -5.923 .000-5.121 22.286 -.038 -.230 .820 农业劳动者人数(百万人)a. Dependent Variable: 粮食总产量(y万吨)分析:如以上4个表所示,影响程度来由大到小依次是风灾面积、使用化肥量、总播种面积和年份。
上机操作8 曲线回归估计的SPSS分析习题:落叶松林单位面积的蓄积量(V)和胸高断面积(D)的测定数据如下表,V(m3) 46 56 67 65 89 86 103 108 121 118D(m2) 4.7 5.4 6.3 7.2 7.8 8.8 9.9 11.7 11.4 11.8(1)定义变量:打开SPSS数据编辑器,点击“变量视图”,在名称列下输入“V”、“D”,改“类型”栏均为“数字”,“小数”栏分别保留0位和1位。
(2)输入数据:在“数据视图”模式下,在各名称列输入相应的数据,如图所示:二、分析过程分析→回归→曲线估计,将“V”添加到“因变量”中,将“D”添加到“变量”中,勾选模型中的“二次模型”、“复合”、“对数”、“立方模型”、“指数”、“幂”、“”、“Logistic”,→确定。
三、输出结果分析曲线拟合MODEL: MOD_1.Dependent variable.. V Method.. LOGARITH(对数曲线模型)Listwise Deletion of Missing DataMultiple R (负相关系数) .97210R Square(决定系数) .94498Adjusted R Square .93811Standard Error 6.59944Analysis of Variance(方差分析):DF(自由度) Sum of Squares Mean Square(均方)Regression(回归) 1 5984.4787 5984.4787Residuals(残差) 8 348.4213 43.5527F = 137.40787 Signif F = .0000 (小于0.05,具有极显著性)-------------------- Variables in the Equation (方程中的变量)--------------------Variable B(系数) SE B Beta T Sig T(T的显著性水平)D 78.152283 6.667083 .972102 11.722 .0000(小于0.05)(Constant) -77.682919 14.110257 -5.505 .0006(小于0.05)分析可知:蓄积量(V)与胸高段面积(D)的相关性为0.97210,它们的F 检验Sig.<0.01,说明蓄积量(V)与胸高段面积(D)达到极显著水平,即蓄积量(V)与胸高段面积(D)的方程具有统计学意义。
1、 (1)操作:分析-回归-线性,因变量y,自变量x1,x2-确定。
得方程y=209.875+0.292x1-87.647x2。
(2)对回归方程的显著性检验:采用P 值法做检验,提出原假设H 0:β1=β2=0,构造统计量F=1)-p -SSE/(n SSR/p,p 是自变量个数此时是2,n 是样本个数14。
F 服从分布:F~F(2,11)。
从上图最后两列看出,在显著性水平α=0.05的条件下,p 值=sig<α,从而拒绝原假设,即在显著性水平α=0.05的条件下,认为y 与x1,x2有显著的线性关系。
对回归系数的显著性检验:采用P 值法做检验,提出原假设H 0:βi=0(i=1,2),构造统计量)1(t ~iii--=∧∧p n i c t σβ,其中1--=∧p n SSEσ。
从上图最后两列看出,在显著性水平α=0.05的条件下,ti (i=1,2)值(即看p 值=sig<α),从而拒绝原假设,即在显著性水平α=0.05的条件下,认为xi (i=1,2)对因变量y 的线性效果显著。
(3)操作:分析-回归-线性,因变量y,自变量x1,x2-统计量-回归系数-置信区间、估计。
得到βi 的1-α的置信区间为()β1的置信水平为0.95的置信区间是(0.096,0.488);β2的置信水平为0.95的置信区间是(-115.034,-60.261);(4)回归方程的复相关系数SST SSRR2=0.885,比较接近1,说明回归方程拟合效果较好。
(5)操作:先把待预测的数据输入表格,分析-回归-线性,因变量y,自变量x1,x2,保存-预测值、残差项选择“未标准化”-预测区间(“均值”)。
得到E (y )的点估计值是165.9985,置信水平为0.95的置信区间是(150.61813,181.37887)3、(1)操作:分析-回归-线性,因变量y,自变量x,确定。
得方程y=0.004x-0.831。
电视广告费用和报纸广告费用对公司营业收入的回归模型分析SPSS录入数据:1 j income TV paper196.00 5 00 1.50290.00 2.00 2.00395.00 4 00 1.5&492.00 2 50 2.50595.00 3.00 3 30694.00 3.60 2.30794.00 2 50 4.20694.00 3.00 2.50本研究关注的是电视广告费用和报纸广告费用对公司收入的影响。
公司收入样本总数为8,M=93.75 ,SD=1.909 ;电视广告费用(X1 )M=3.19 , SD=0.961 ;报纸广告费用(x2) M=2.48,SD=0.911。
通过皮尔逊相关性分析得出因变量与自变量x1和x2的相关系数分别为(r=0.8,p=0.008)和(r=-0.02, p=0.48),说明公司收入与电视广告费用呈显著性正相关,而公司收入与报纸广告费用相关不显著。
以电视广告费用和报纸广告费用分别作为自变量,以公司收入作为因变量,进行线性回归。
具体结果见表1。
结果发现,电视广告费用对公司收入存在显著的正向影响(卩=0.808 B=1.604, t=3.357, p<0.05,R2=0.653),即电视广告费用的增长会提升公司收入,且该模型能够解释结果的65.3%;报纸广告费用对公司收入不存在显著的正向影响(B=.021,t=-0.05,p=0.96)。
表1:广告费用对公司收入的回归结果表注:表格中呈现了预测变量的非标准化系数,括号内是标准误。
以电视广告费用和报纸广告费用同时作为自变量,以公司收入作为因变量,则两个费用对公司收入存在显著的正向影响(卩电视=1.153, B电视=2.29, t=7.532 , p<0.05;卩报纸=0.621, B报纸=1.301 , t=4.057, p<0.052, R2=0.919),即电视广告和报纸广告费用的同时增长会提升公司收入,且该模型能够解释结果的91.9%。
SPSS--回归-多元线性回归模型案例解析多元线性回归,主要是研究⼀个因变量与多个⾃变量之间的相关关系,跟⼀元回归原理差不多,区别在于影响因素(⾃变量)更多些⽽已,例如:⼀元线性回归⽅程为:毫⽆疑问,多元线性回归⽅程应该为:上图中的 x1, x2, xp分别代表“⾃变量”Xp截⽌,代表有P个⾃变量,如果有“N组样本,那么这个多元线性回归,将会组成⼀个矩阵,如下图所⽰:那么,多元线性回归⽅程矩阵形式为:其中:代表随机误差,其中随机误差分为:可解释的误差和不可解释的误差,随机误差必须满⾜以下四个条件,多元线性⽅程才有意义(⼀元线性⽅程也⼀样)1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。
2:⽆偏性假设,即指:期望值为03:同共⽅差性假设,即指,所有的随机误差变量⽅差都相等4:独⽴性假设,即指:所有的随机误差变量都相互独⽴,可以⽤协⽅差解释。
今天跟⼤家⼀起讨论⼀下,SPSS---多元线性回归的具体操作过程,下⾯以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。
通过分析汽车特征跟汽车销售量的关系,建⽴拟合多元线性回归模型。
数据如下图所⽰:点击“分析”——回归——线性——进⼊如下图所⽰的界⾯:将“销售量”作为“因变量”拖⼊因变量框内,将“车长,车宽,耗油率,车净重等10个⾃变量拖⼊⾃变量框内,如上图所⽰,在“⽅法”旁边,选择“逐步”,当然,你也可以选择其它的⽅式,如果你选择“进⼊”默认的⽅式,在分析结果中,将会得到如下图所⽰的结果:(所有的⾃变量,都会强⾏进⼊)如果你选择“逐步”这个⽅法,将会得到如下图所⽰的结果:(将会根据预先设定的“F统计量的概率值进⾏筛选,最先进⼊回归⽅程的“⾃变量”应该是跟“因变量”关系最为密切,贡献最⼤的,如下图可以看出,车的价格和车轴跟因变量关系最为密切,符合判断条件的概率值必须⼩于0.05,当概率值⼤于等于0.1时将会被剔除)“选择变量(E)" 框内,我并没有输⼊数据,如果你需要对某个“⾃变量”进⾏条件筛选,可以将那个⾃变量,移⼊“选择变量框”内,有⼀个前提就是:该变量从未在另⼀个⽬标列表中出现!,再点击“规则”设定相应的“筛选条件”即可,如下图所⽰:点击“统计量”弹出如下所⽰的框,如下所⽰:在“回归系数”下⾯勾选“估计,在右侧勾选”模型拟合度“ 和”共线性诊断“ 两个选项,再勾选“个案诊断”再点击“离群值”⼀般默认值为“3”,(设定异常值的依据,只有当残差超过3倍标准差的观测才会被当做异常值)点击继续。
0911回归分析例题SPSS求解过程-05应数信管信计D判别:x y 202.0173.2ˆˆˆ1+=+=ββ,且x 与y 的线性相关系数为R=0.951 ,回归方程的F 检验值为75.559,对应F 值的显著性概率是0.000<0.05,表示线性回归方程具有显著性 ,当对应F 值的显著性概率>0.05,表示回归方程不具有显著性。
每个系数的t 检验值分别是3.017与8.692,对应的检验显著性概率分别为:0.017(<0.05)和0.000(<0.05),即否定0H ,也就是线性假设是显著的。
二、一元非线性回归SPSS求解过程:1、Y与X的二次及三次多项式拟合:所以,二次式为:2029.07408.00927.6x x Y -+=三次式为:320046.01534.07068.1118.4x x x Y +-+=2、把Y 与X 的关系用双曲线拟合: 作双曲线变换:xV y U 1,1==判别:V U 131.0082.0-=,xV y U 1,1==,V 与U 的相关系数为R=0.968,回归方程系数的F 检验值为196.227,对应F 值的显著性概率是0.000(<0.05),表示线性回归方程具有显著性 ,每个系数的t 检验值分别是440514与14.008,对应的检验显著性概率分别为:0.000(<0.05)和0.000(<0.05),即否定0H ,也就是线性假设是显著的。
3、把Y 与X 的关系用对数函数拟合:作对数变换(U1=LN (Y ),V1=V ):判别:V U 111.1458.21-=,x V y U /1,ln 1==,V 与1U 的相关系数为R=0.979,回归方程的F 检验值为303.190,对应F 值的显著性概率是0.000(<0.05),表示线性回归方程具有显著性 ,每个系数的t 检验值分别是195.221与-17.412,对应的检验显著性概率分别为:0.000(<0.05)和0.000(<0.05),即否定0H ,也就是线性假设是显著的。
电视广告费用和报纸广告费用对公司营业收入
的回归模型分析
SPSS录入数据:
本研究关注的是电视广告费用和报纸广告费用对公司收入的影响。
公司收入样本总数为8,M=93.75,SD=1.909;电视广告费用(X1)M=3.19,SD=0.961;报纸广告费用(x2)M=2.48,SD=0.911。
通过皮尔逊相关性分析得出因变量与自变量x1和x2的相关系数分别为(r=0.8,p=0.008)和(r=-0.02,p=0.48),说明公司收入与电视广告费用呈显著性正相关,而公司收入与报纸广告费用相关不显著。
以电视广告费用和报纸广告费用分别作为自变量,以公司收入作为因变量,进行线性回归。
具体结果见表1。
结果发现,电视广告费用对公司收入存在显著的正向影响(β=0.808,B=1.604,t=3.357,p<0.05,R2=0.653),即电视广告费用的增长会提升公司收入,且该模型能够解释结果的65.3%;报纸广告费用对公司收入不存在显著的正向影响(β=-0.021,t=-0.05,p=0.96)。
表1:广告费用对公司收入的回归结果表
注: 表格中呈现了预测变量的非标准化系数, 括号内是标准误。
以电视广告费用和报纸广告费用同时作为自变量,以公司收入作为因变量,则两个费用对公司收入存在显著的正向影响(β电视=1.153,B电视=2.29,t=7.532,p<0.05;β报纸=0.621,B报纸=1.301,t=4.057,p<0.052, R2=0.919),即电视广告和报纸广告费用的同时增长会提升公司收入,且该模型能够解释结果的91.9%。
共线性分析:VIF电视广告=1.448,VIF报纸广告=1.448,均小于5,说明电视广告和报纸广告之间共线性可能性较低。
思路及步骤:
1、公司收入样本总数为8,M=93.75,SD=1.909;电视广告费用M=3.19,SD=0.961;
报纸广告费用M=2.48,SD=0.911。
步骤:回归-线性,之后选择如下:【均值、标准差】
2、通过皮尔逊相关性分析得出因变量与自变量x1和x2的相关系数分别为
(r=0.808,p=0.008)和(r=-0.021,p=0.481),说明公司收入与电视广告费用呈显著性正相关,而公司收入与报纸广告费用相关不显著。
步骤,同上【皮尔逊相关性】:
3、以电视广告费用和报纸广告费用分别作为自变量,以公司收入作为因变量,
进行线性回归。
具体结果见表1。
结果发现,电视广告费用对公司收入存在显著的正向影响(β=1.064,t=3.357,p<0.05,R2=0.653),即电视广告费用的增长会提升公司收入,且该模型能够解释结果的65.3%;
步骤:回归-线性,之后如下【因变量分别采用“输入”方式进行回归】:
报纸广告费用对公司收入不存在显著的正向影响(β= -0.043 , t= -0.050, p=0.962)。
步骤:回归-线性,之后如下【因变量分别采用“输入”方式进行回归分析】:
4、
表1:广告费用对公司收入的回归结果表
注: 表格中呈现了预测变量的非标准化系数, 括号内是标准误。
步骤:回归-线性,之后选择如下【因变量共同采用“步进”方式进行回归分析】:
5、以电视广告费用和报纸广告费用同时作为自变量,以公司收入作为因变
=2.290,t=7.532,量,则两个费用对公司收入存在显著的正向影响(β
电视
p<0.05;β报纸=1.301,t=4.057,p<0.05, R2=0.919),即电视广告和报纸广告费用的同时增长会提升公司收入,且该模型能够解释结果的91.9%。
共线性分析:VIF电视广告=1.448,VIF报纸广告=1.448,均小于5,说明电视广告和报纸广告之间共线性可能性较低。
步骤,同上:。