实验7相关及回归分析SPSS应用
- 格式:doc
- 大小:1.47 MB
- 文档页数:20
第七章相关分析【学习提要与目标】客观世界中的许多现象都存在着有机的联系,而且这些联系可以通过一定的数量关系反映出来。
例如,家庭收入与消费之间的关系、产品产量与单位成本之间的关系、广告费与商品销售额之间的关系等等。
这些变量之间就其关系的变化来说,一般可分为两大类型:一是函数关系,二是相关关系。
函数关系是变量之间的一种一一对应的关系,即当自变量x取一定值时,因变量y可以依据确定的函数关系取唯一的值。
客观世界中这种函数关系有很多,比如商品的销售额与销售量之间是一一对应的关系,在单价确定时,给定销售量就能唯一地确定销售额,再比如圆的面积与圆的半径之间的关系,等等。
相关关系是另一类普遍存在的关系。
在实际问题中,变量间往往并不是简单的关系,也就是说,变量之间有着密切的关系,但又不能由一个或几个变量的值确定另一个变量的值,即当自变量x取一定值时,,因变量y的值可能会有很多个。
这种变量之间的非一一对应的、不确定的线性关系,称之为相关关系。
例如,子女身高与父母身高之间的关系,虽然两者之间存在一定的关系,但这种关系却不能像函数关系那样以用一个确定的数学函数描述。
我们可以通过图形和数值两种方式,有效地揭示事务之间相关关系的强弱程度。
通过本章的学习,旨在使学生了解相关关系的概念、分类;掌握相关系数的计算方法和相关系数的取值含义;熟练掌握利用SPSS统计分析软件提供的三种相关分析方法进行相关关系的分析。
§7.1两变量相关分析【实验目的】了解相关关系的概念、分类、相关分析的主要内容以及相关系数的计算方法和取值含义,熟练地利用SPSS统计软件绘制散点图和两变量的相关分析——计算两变量的相关系数。
【实验原理】相关关系的分类两变量相关分析即是研究和分析两个变量之间相关关系的一种常用的统计方法。
现象之间的相互关系是很复杂的,它们以不同的方向、不同的程度相互作用,表现为各种形态,我们可以按不同的标准加以划分。
1.按相关关系的表现形态来划分,可分为线性相关和非线性相关。
数据统计分析软件SPSS的应用(五)——相关分析与回归分析数据统计分析软件SPSS的应用(五)——相关分析与回归分析数据统计分析软件SPSS是目前应用广泛且非常强大的数据分析工具之一。
在前几篇文章中,我们介绍了SPSS的基本操作和一些常用的统计方法。
本篇文章将继续介绍SPSS中的相关分析与回归分析,这些方法是数据分析中非常重要且常用的。
一、相关分析相关分析是一种用于确定变量之间关系的统计方法。
SPSS提供了多种相关分析方法,如皮尔逊相关、斯皮尔曼相关等。
在进行相关分析之前,我们首先需要收集相应的数据,并确保数据符合正态分布的假设。
下面以皮尔逊相关为例,介绍SPSS 中的相关分析的步骤。
1. 打开SPSS软件并导入数据。
可以通过菜单栏中的“File”选项来导入数据文件,或者使用快捷键“Ctrl + O”。
2. 准备相关分析的变量。
选择菜单栏中的“Analyze”选项,然后选择“Correlate”子菜单中的“Bivariate”。
在弹出的对话框中,选择要进行相关分析的变量,并将它们添加到相应的框中。
3. 进行相关分析。
点击“OK”按钮后,SPSS会自动计算所选变量之间的相关系数,并将结果输出到分析结果窗口。
4. 解读相关分析结果。
SPSS会给出相关系数的值以及显著性水平。
相关系数的取值范围为-1到1,其中-1表示完全负相关,1表示完全正相关,0表示没有相关关系。
显著性水平一般取0.05,如果相关系数的显著性水平低于设定的显著性水平,则可以认为两个变量之间存在相关关系。
二、回归分析回归分析是一种用于探索因果关系的统计方法,广泛应用于预测和解释变量之间的关系。
SPSS提供了多种回归分析方法,如简单线性回归、多元线性回归等。
下面以简单线性回归为例,介绍SPSS中的回归分析的步骤。
1. 打开SPSS软件并导入数据。
同样可以通过菜单栏中的“File”选项来导入数据文件,或者使用快捷键“Ctrl + O”。
2. 准备回归分析的变量。
相关分析和回归分析SPSS实现SPSS(统计包统计分析软件)是一种广泛使用的数据分析工具,在相关分析和回归分析方面具有强大的功能。
本文将介绍如何使用SPSS进行相关分析和回归分析。
相关分析(Correlation Analysis)用于探索两个或多个变量之间的关系。
在SPSS中,可以通过如下步骤进行相关分析:1.打开SPSS软件并导入数据集。
2.选择“分析”菜单,然后选择“相关”子菜单。
3.在“相关”对话框中,选择将要分析的变量,然后单击“箭头”将其添加到“变量”框中。
4.选择相关系数的计算方法(如皮尔逊相关系数、斯皮尔曼等级相关系数)。
5.单击“确定”按钮,SPSS将计算相关系数并将结果显示在输出窗口中。
回归分析(Regression Analysis)用于建立一个预测模型,来预测因变量在自变量影响下的变化。
在SPSS中,可以通过如下步骤进行回归分析:1.打开SPSS软件并导入数据集。
2.选择“分析”菜单,然后选择“回归”子菜单。
3.在“回归”对话框中,选择要分析的因变量和自变量,然后单击“箭头”将其添加到“因变量”和“自变量”框中。
4.选择回归模型的方法(如线性回归、多项式回归等)。
5.单击“统计”按钮,选择要计算的统计量(如参数估计、拟合优度等)。
6.单击“确定”按钮,SPSS将计算回归模型并将结果显示在输出窗口中。
在分析结果中,相关分析会显示相关系数的数值和统计显著性水平,以评估变量之间的关系强度和统计显著性。
回归分析会显示回归系数的数值和显著性水平,以评估自变量对因变量的影响。
值得注意的是,相关分析和回归分析在使用前需要考虑数据的要求和前提条件。
例如,相关分析要求变量间的关系是线性的,回归分析要求自变量与因变量之间存在一定的关联关系。
总结起来,SPSS提供了强大的功能和工具,便于进行相关分析和回归分析。
通过上述步骤,用户可以轻松地完成数据分析和结果呈现。
然而,分析结果的解释和应用需要结合具体的研究背景和目的进行综合考虑。
相关分析与回归分析一、试验目标与要求本试验项目的目的是学习并使用SPSS软件进行相关分析与回归分析;具体包括:(1)皮尔逊pearson简单相关系数的计算与分析(2)学会在SPSS上实现一元及多元回归模型的计算与检验..(3)学会回归模型的散点图与样本方程图形..(4)学会对所计算结果进行统计分析说明..(5)要求试验前;了解回归分析的如下内容..参数α、β的估计回归模型的检验方法:回归系数β的显着性检验t-检验;回归方程显着性检验F-检验..二、试验原理1.相关分析的统计学原理相关分析使用某个指标来表明现象之间相互依存关系的密切程度..用来测度简单线性相关关系的系数是Pearson简单相关系数..2.回归分析的统计学原理相关关系不等于因果关系;要明确因果关系必须借助于回归分析..回归分析是研究两个变量或多个变量之间因果关系的统计方法..其基本思想是;在相关分析的基础上;对具有相关关系的两个或多个变量之间数量变化的一般关系进行测定;确立一个合适的数据模型;以便从一个已知量推断另一个未知量..回归分析的主要任务就是根据样本数据估计参数;建立回归模型;对参数与模型进行检验与判断;并进行预测等..线性回归数学模型如下:在模型中;回归系数是未知的;可以在已有样本的基础上;使用最小二乘法对回归系数进行估计;得到如下的样本回归函数:回归模型中的参数估计出来之后;还必须对其进行检验..如果通过检验发现模型有缺陷;则必须回到模型的设定阶段或参数估计阶段;重新选择被解释变量与解释变量及其函数形式;或者对数据进行加工整理之后再次估计参数..回归模型的检验包括一级检验与二级检验..一级检验又叫统计学检验;它是利用统计学的抽样理论来检验样本回归方程的可靠性;具体又可以分为拟与优度评价与显着性检验;二级检验又称为经济计量学检验;它是对线性回归模型的假定条件能否得到满足进行检验;具体包括序列相关检验、异方差检验等..三、试验演示内容与步骤1.连续变量简单相关系数的计算与分析在上市公司财务分析中;常常利用资产收益率、净资产收益率、每股净收益与托宾Q值4个指标来衡量公司经营绩效..本试验利用SPSS对这4个指标的相关性进行检验..操作步骤与过程:打开数据文件“上市公司财务数据连续变量相关分析.sav”;依次选择“分析→相关→双变量”打开对话框如图;将待分析的4个指标移入右边的变量列表框内..其他均可选择默认项;单击ok提交系统运行..图5.1 Bivariate Correlations对话框结果分析:表给出了Pearson简单相关系数;相关检验t统计量对应的p值..相关系数右上角有两个星号表示相关系数在0.01的显着性水平下显着..从表中可以看出;每股收益、净资产收益率与总资产收益率3个指标之间的相关系数都在0.8以上;对应的p值都接近0;表示3个指标具有较强的正相关关系;而托宾Q值与其他3个变量之间的相关性较弱..表5.1 Pearson简单相关分析Correlations每股收益率净资产收益率资产收益率托宾Q值每股收益率PearsonCorrelation1.877.824-.073Sig.2-tailed..000.000.199N315315315315净资产收益率Pearson.8771.808-.001 CorrelationSig..000..000.983 2-tailedN315315315315资产收益率Pearson.824.8081.011 CorrelationSig..000.000..849 2-tailedN315315315315托宾Q值Pearson-.073-.001.0111 CorrelationSig..199.983.849.2-tailedN315315315315 Correlation is significant at the 0.01 level 2-tailed.2.一元线性回归分析实例分析:家庭住房支出与年收入的回归模型在这个例子里;考虑家庭年收入对住房支出的影响;建立的模型如下:其中;yi是住房支出;xi是年收入线性回归分析的基本步骤及结果分析:1绘制散点图打开数据文件;选择图形-旧对话框-散点/点状;如图5.2所示..图5.2 散点图对话框选择简单分布;单击定义;打开子对话框;选择X变量与Y变量;如图5.3所示..单击ok提交系统运行;结果见图5.4所示..图5.3 Simple Scatterplot 子对话框从图上可直观地看出住房支出与年收入之间存在线性相关关系..图5.4 散点图2简单相关分析选择分析—>相关—>双变量;打开对话框;将变量“住房支出”与“年收入”移入variables列表框;点击ok运行;结果如表5.2所示..表5.2 住房支出与年收入相关系数表CorrelationsCorrelation is significant at the 0.01 level 2-tailed.从表中可得到两变量之间的皮尔逊相关系数为0.966;双尾检验概率p值尾0.000<0.05;故变量之间显着相关..根据住房支出与年收入之间的散点图与相关分析显示;住房支出与年收入之间存在显着的正相关关系..在此前提下进一步进行回归分析;建立一元线性回归方程..3 线性回归分析步骤1:选择菜单“分析—>回归—>线性”;打开Linear Regression 对话框..将变量住房支出y移入Dependent列表框中;将年收入x移入Independents列表框中..在Method 框中选择Enter 选项;表示所选自变量全部进入回归模型..图5.5 Linear Regresssion对话框步骤2:单击Statistics按钮;如图在Statistics子对话框..该对话框中设置要输出的统计量..这里选中估计、模型拟合度复选框..图5.6 Statistics子对话框估计:输出有关回归系数的统计量;包括回归系数、回归系数的标准差、标准化的回归系数、t统计量及其对应的p值等..置信区间:输出每个回归系数的95%的置信度估计区间..协方差矩阵:输出解释变量的相关系数矩阵与协差阵..模型拟合度:输出可决系数、调整的可决系数、回归方程的标准误差、回归方程F检验的方差分析..步骤3:单击绘制按钮;在Plots子对话框中的标准化残差图选项栏中选中正态概率图复选框;以便对残差的正态性进行分析..图5.7 plots子对话框步骤4:单击保存按钮;在Save子对话框中残差选项栏中选中未标准化复选框;这样可以在数据文件中生成一个变量名尾res_1 的残差变量;以便对残差进行进一步分析..图5.8 Save子对话框其余保持Spss默认选项..在主对话框中单击ok按钮;执行线性回归命令;其结果如下:表5.3给出了回归模型的拟与优度R Square、调整的拟与优度Adjusted R Square、估计标准差Std. Error of the Estimate以及Durbin-Watson统计量..从结果来看;回归的可决系数与调整的可决系数分别为0.934与0.93;即住房支出的90%以上的变动都可以被该模型所解释;拟与优度较高..表5.4给出了回归模型的方差分析表;可以看到;F统计量为252.722;对应的p值为0;所以;拒绝模型整体不显着的原假设;即该模型的整体是显着的..表5.5给出了回归系数、回归系数的标准差、标准化的回归系数值以及各个回归系数的显着性t检验..从表中可以看到无论是常数项还是解释变量x;其t统计量对应的p值都小于显着性水平0.05;因此;在0.05的显着性水平下都通过了t检验..变量x的回归系数为0.237;即年收入每增加1千美元;住房支出就增加0.237千美元..表5.3 回归模型拟与优度评价及Durbin-Watson检验结果Model Summaryba Predictors: Constant;年收入千美元b Dependent Variable:住房支出千美元表5.4 方差分析表ANOVAba Predictors: Constant; 年收入千美元b Dependent Variable: 住房支出千美元表5.5 回归系数估计及其显着性检验Coefficientsaa Dependent Variable: 住房支出千美元为了判断随机扰动项是否服从正态分布;观察图5.9所示的标准化残差的P-P图;可以发现;各观测的散点基本上都分布在对角线上;据此可以初步判断残差服从正态分布..为了判断随机扰动项是否存在异方差;根据被解释变量y与解释变量x的散点图;如图5.4所示;从图中可以看到;随着解释变量x的增大;被解释变量的波动幅度明显增大;说明随机扰动项可能存在比较严重的异方差问题;应该利用加权最小二乘法等方法对模型进行修正..图5.9 标准化残差的P-P图四、备择试验现有1987~2003年湖南省全社会固定资产投资总额NINV与GDP两个指标的年度数据;见下表..试研究全社会固定资产投资总额与GDP的数量关系;并建立全社会固定资产投资总额与GDP之间的线性回归方程..。
实验7 相关与回归分析
7.1实验目的
熟练掌握一元线性回归分析的SPSS应用技能,掌握一元非线性回归分析的SPSS应用技能,对实验结果做出解释。
7.2相关知识(略)
7.3实验内容
7.3.1一元线性回归分析的SPSS实验
7.3.2一元非线性回归分析的SPSS实验
7.4实验要求
7.4.1准备实验数据
1.线性回归分析数据
(The Wall 美国各航空公司业绩的统计数据公布在《华尔街日报1999年年鉴》
Street Journal Almanac 1999)上。
航班正点到达的比率和每10万名乘客投诉
的次数的数据,见表7-1所示。
表7-1 美国航空公司航空正点率与乘客投诉次数资料
2.非线性回归分析数据
1992~2013年某国保费收入与国内生产总值的数据,试研究保费收入与国内生产
总值的关系的数据,见表7-2所示。
表7-2 1992~2013年某国保费收入与国内生产总值数据 单位:万元
7.4.2完成一元线性回归分析的SPSS 实验,对实验结果作出简要分析。
7.4.3完成一元非线性回归分析的SPSS 实验,对实验结果作出简要分析。
7.5实验步骤
7.5.1 完成一元线性回归分析的SPSS 实验步骤 1.运用SPSS 绘制散点图散点图。
第一步:在excel 中输入数据
图7-1
第二步:将excel 数据导入spss
单击打开数据文档按钮(或选择菜单文件→打开)→选择文件航空公司航班
正点率与投诉率.xls
图7-2
第三步:选择菜单图形→旧对话框→散点/点状,在散点图/点图对话框中,
选择简单分布按钮
图7-3
第三步:在简单散点图对话框中,将候选变量框中的投诉率添加到Y轴,航班正点率添加到X轴,点击确定:
第四步:运行得到:
根据散点图初步判断航班正点率和投诉率呈线性关系
2.计算相关系数,明确变量之间存在的相关关系。
第一步:选择菜单分析(A)相关(C)→双变量相关(B),在双变量相关
对话框中,将候选变量框中的航班正点率和投诉率添加到变量(V)框,点击确
定:
图7-6
第二步:运行得到
根据相关系数判断:航班正点率和投诉率的相关系数为-0.833,显著性水平P为0.002小于0.05,说明航班正点率和投诉率高度负相关。
3.拟合回归方程
第一步:选择菜单分析(A)→回归(R)→线性(L),将候选变量框中的投诉率添加到因变量框(D),航班正点率添加到自变量框(T),点击确定:
图7-7
第二步,运行得到
拟合回归方程为
Y=-0.07 X + 6.018,常数项和自变量t值分别为5.719和-4.967,
显著性水平P分别为0.001和0.002,均小于0.05,说明常数项和自变量X对因变量Y有显著影响。
4.计算回归标准误差,说明回归直线的代表性;计算样本拟合优度,说明模型拟合的效果。
第一步:操作同3
第二步,运行得到
估计标准误差2
)
(2
--=
∑∧
n Y Y S YX =0.16082比较小,说明回归直线代表性较好。
R 2为0.747接近1,表明模型的拟合效果比较好。
5.在不同置信水平下建立回归估计的置信区间
在置信水平
1-α取不同值的情况下,回归估计的置信区间为:
⎥⎦⎤
⎢⎣
⎡++--+-=⎥⎦⎤⎢⎣⎡+-∧∧222216082.0018.67.0,16082.0018.67.0,ααααZ X Z X S Z Y S Z Y YX YX
6.对估计的回归方程的斜率作出解释
回归方程的斜率,即回归系数b=-0.07,表示航班正点率每提高1%,旅客投诉率会降低0.07%。
7.如果航班按时到达的正点率为80%,估计每10万名乘客投诉的次数。
根据回归方程∧
Y =-0.7 X + 6.018,当航班正点率为80%时,每10万名乘客投诉的次数为-0.7×80+6.018=0.418(次)
8.如果航班按时到达的正点率为80%,试在95%可信程度下估计每10万名乘客投诉的置信区间。
如果航班按时到达的正点率为80%,试在95%可信程度下估计每10万名乘客投诉的置信区间为
⎥⎦⎤⎢⎣
⎡++--+-=⎥⎦⎤⎢⎣⎡+-∧∧222216082.0018.67.0,16082.0018.67.0,ααααZ X Z X S Z Y S Z Y YX YX
=[0.1028,0.7332]
7.5.2完成一元非线性回归分析的SPSS实验步骤
1. 画出这些数据的散点图
第一步:在excel中输入数据
图7-1
第二步:将excel数据导入spss
单击打开数据文档按钮(或选择菜单文件→打开)→选择文件国民生产总值与保费收入.xls
图7-2
第三步:选择菜单图形→旧对话框→散点/点状,在散点图/点图对话框中,
选择简单分布按钮
图7-3
第四步:在简单散点图对话框中,将候选变量框中的将保费收入添加到Y轴,
国民生产总值添加到X轴:
第五步:运行得到:
图7-5
根据散点图初步判:国民生产总值与保费收入呈非线性关系。
2.计算不同模型的样本拟合优度,并据此选择拟合效果最好的模型。
第一步:选择菜单分析→回归→曲线估计,在曲线估计对话框中,将候选变量框中的保费收入添加到因变量,将国民生产总值添加到自变量,依次选择模型复选框中的线性、二次项、对数、指数等模型。
图7-6
第二步:依次得到运行结果
图7-7 直线 R2=0.941
图7-8二次曲线 R2=0.973
图7-9 复合 R2=0.789
图7-10 增长 R2=0.789
图7-11 三次曲线 R2=0.990
图7-12 对数 R2=0.772
图7-13 S曲线 R2=0.946
图7-14 指数 R2=0.789
图7-15 反向 R2=0.015
图7-16 幂 R2=0.015
图7-17 Logistic R2=0.829
通过对比上述模型,与观测点变化趋势拟合最好的是三次曲线模型,三次曲线的拟合优度最大(R2=0.990),也说明它是拟合效果最好的模型。
或者在第一步中,将所有模型的复选框全部选定,得到运行结果:
同样,通过对比上述模型,与观测点变化趋势拟合最好的是三次曲线模型,三次曲线的拟合优度最大(R2=0.990),也说明它是拟合效果最好的模型。
3.求解保费收入依国民生产总值的估计回归方程。
第一步:选择菜单分析→回归→曲线估计,在曲线估计对话框中,将候选变量框中的保费收入添加到因变量,将国民生产总值添加到自变量,选择模型复选框中的立方模型
图7-18
第二步:单击曲线估计对话框中的保存按钮,在曲线估计:保存对话框中,选择预测值、残差、预测区间复选框
图7-19
第三步,运行结果
表7-4 模型汇总
R2为0.990非常接近1,表明模型的拟合效果非常好。
表7-5 系数
从表中可知因变量与自变量的三次回归模型为:y=-166.430 + 0.029x - 5.364E-7x2 + 5.022E-12x3
7.6 思考与练习题
7.6.1一元线性回归分析
合金钢的强度Y与碳含量X关系密切,通常根据强度要求来控制碳的含量来达到目的,二者之间关系如下:
(1)画出这些数据的散点图;
(2)根据散点图和相关系数,表明二变量之间存在什么关系?
(3)求出描述钢强度是如何依赖碳含量的估计的回归方程;
(4)计算回归标准误差,说明回归直线的代表性;计算样本拟合优度,说明模型拟合的效果;(5)对估计的回归方程的斜率作出解释;
(6)如果碳含量控制在0.18,试估计钢的强度;
(7)如果碳含量控制在0.18,试在95%可信程度下估计钢强度的置信区间。
7.6.2一元非线性回归分析
处在青春期发育阶段的学生,其年龄与远视率的变化关系入下表:
实验要求:
(1)画出这些数据的散点图;
(2)计算不同模型的样本拟合优度,根据样本拟合优度选择拟合效果最好的模型;
(3)求出描述保费收入是如何依赖国民生产总值的估计的回归方程。