当前位置:文档之家› 利用 SPSS 进行Logistic 回归分析

利用 SPSS 进行Logistic 回归分析

利用 SPSS 进行Logistic 回归分析
利用 SPSS 进行Logistic 回归分析

第8 章利用SPSS 进行Logistic 回归分析

现实中的很多现象可以划分为两种可能,或者归结为两种状态,这两种状态分别用0

和1 表示。如果我们采用多个因素对0-1 表示的某种现象进行因果关系解释,就可能应用到logistic 回归。Logistic 回归分为二值logistic 回归和多值logistic 回归两类。首先用实例讲

述二值logistic 回归,然后进一步说明多值logistic 回归。在阅读这部分内容之前,最好先看看有关SPSS 软件操作技术的教科书。

§8.1 二值logistic 回归

8.1.1 数据准备和选项设置

我们研究2005 年影响中国各地区城市化水平的经济地理因素。城市化水平用城镇人口

比重表征,影响因素包括人均GDP、第二产业产值比重、第三产业产值比重以及地理位置。地理位置为名义变量,中国各地区被分别划分到三大地带:东部地带、中部地带和西部地带。我们用各地区的地带分类代表地理位置。

第一步:整理原始数据。这些数据不妨录入Excel 中。数据整理内容包括两个方面:一

是对各地区按照三大地带的分类结果赋值,用0、1 表示,二是将城镇人口比重转换逻辑值,变量名称为“城市化”。以各地区2005 年城镇人口比重的平均值45.41%为临界值,凡是城镇人口比重大于等于45.41%的地区,逻辑值用Yes 表示,否则用No 表示(图8-1-1)

图8-1-1 原始数据(Excel 中,局部)

将数据拷贝或者导入SPSS 的数据窗口(Data View)中(图8-1-2)。

图8-1-2 中国31 个地区的数据(SPSS 中,局部)

第二步:打开“聚类分析”对话框。

沿着主菜单的“Analyze→Regression→Binary Logistic K”的路径(图8-1-3)打开二值Logistic 回归分析选项框(图8-1-4)。

图8-1-3 打开二值Logistic 回归分析对话框的路径

对数据进行多次拟合试验,结果表明,像二产比重、三产比重等对城市化水平影响不显著。至于反映地区位置的分类变量,不宜一次性的全部引入,至多引入两个,比方说东部和

中部。通过尝试,发现引入中部地带为变量比较合适。因此,为了实例的典型性,我们采用两个变量作为自变量:一是数值变量人均GDP,二是分类变量中部地带。

图8-1-4 Logistic 回归分析选项框

第三步:选项设置。

首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调

入Dependent(因变量)和Covariates(协变量)列表框中(图8-1-5)。在本例中,将名义变量“城市化”调入Dependent(因变量)列表框,将“人均GDP”和“中部”调入Covariates (协变量)列表框中。

在Method(方法)一栏有七个选项。采用第一种方法,即系统默认的强迫回归方法(Enter)。

图8-1-5 Logistic 回归分析的初步设置

接下来进行如下4 项设置:

⒈设置Categorical(分类)选项:定义分类变量(图8-1-6)。

将中部调入Categorical Covariates(分类协变量)列表框,其余选项取默认值即可。完

成后,点击Continue 继续。

图8-1-6 定义分类变量选项

⒉设置Save(保存)选项:决定保存到Data View 的计算结果(图8-1-7)。

选中Leverage values、DfBeta(s)、Standardized 和Deviance 四项。完成后,点击Continue 继续。

图8-1-7 Logistic 回归分析的存储选项

⒊设置Options:有三个选项区(图8-1-5)。

第一个是Statistics and Plots(统计和画图)选项,包括六种可以兼容的选择(复选项)。选中Classification plots、Hosmer-Lemeshow goodness-of-fit 和CI for exp(B)三个选项。

第二个是Display(显示)选项,选择At last step(最后一步),这样,输出结果将仅仅给出最终结果,而省略每一步的计算过程。

由于我们采用强迫回归,Probability for Stepwise(逐步回归概率)选项可以不管。

图8-1-8 Logistic 回归分析的选项设置

此外还有一个选项需要说明。一是Classification cutoff(分类临界值),默认值为0.5,

即按四舍五入的原则将概率预测值化为0 或者1。如果将数值改为0.6,则大于等于0.6 的概率值才表示为1,否则为0。其情况余依此类推。二是Maximum Iterations(最大迭代值),规定系统运算的迭代次数,默认值为20 次,为安全起见,我们将迭代次数增加到50。原因是,有时迭代次数太少,计算结果不能真正收敛。三是Include constant in model(模型中包括常数项),即模型中保留截距。除了迭代次数之外,其余两个选项均采用系统默认值。完成后,点击Continue 继续。

8.1.2 结果解读

全部选项设置完毕以后,点击如图8-1-5 所示的OK 按钮确定,即可得到Logistic 回归

分析结果。输出结果可以分为三大部分,下面逐一说明。

1. Case Processing Summary(样品处理摘要)。在输出结果中,首先给出样品处理摘要

报告,包括如下信息:选择了多少样品,没有选择的有多少样品;在选择的样品里,分析多少样品,缺失了多少样品——缺失样品一般是因为数据中存在缺失值;选择的样品总数以及全体样品总数(图8-1-9)。用N 表示各类样品数目,Percent 表示各类样品的百分比。在正常情况下,这些信息对我们的分析没有什么用处。但是,如果样本很大并且构成很复杂,涉

及到样品的取舍或者数据缺失的时候,这些信息就很重要,会为后面的分析提供很大方便。

图8-1-9 样品处理摘要

2. Dependent Variable Encoding(因变量编码)。这是很重要的信息,告诉我们对不同城

市化水平地区的分类编码结果(图8-1-10)。我们开始根据全国各地区的平均结果45.41 分为两类:大于等于45.41 的地区用Yes 表示,否则用No 表示。现在,图8-1-10 显示,Yes 用0 表示,No 用1 表示。也就是说,在这次SPSS 分析过程中,0 代表城市化水平高于平均

值的状态,1 代表城市化水平低于平均值的状态。记住这个分类。

图8-1-10 因变量编码

3. Categorical Variables Codings(分类变量编码)。我们的自变量中涉及到代表不同地

域类型的名义变量(图8-1-11)。在我们开始的分类中,属于中部用1 表示,否则用0 表示。但是,SPSS 改变了这种编码,原来的0 改用1 表示,原来的1 改用0 表示。也就是说,在这次SPSS 分析过程中,0 代表属于中部的地区,1 代表不属于中部的地区。记住这个分类对后面开展预测分析非常重要。

4. Classification Table(初始分类表)。Logistic 建模如同其他很多种建模方式一样,首先

对模型参数赋予初始值,然后借助迭代计算寻找最佳值。以误差最小为原则,或者以最大似然为原则,促使迭代过程收敛。当参数收敛到稳定值之后,就给出了我们需要的比较理想的参数值。下面是用初始值给出的预测和分类结果(图8-1-12)。这个结果主要用于对比,比较模型参数收敛前后的效果。

图8-1-12 初始预测分类表

5.Variable in the Equation(初始方程中的变量)。从这个表中可以看到系统对模型的最初

赋值方式(图8-1-13)。最开始仅仅对常数项赋值,结果为B=0.598(复制到Excel 可以看来,更精确的数值为0.597837),标准误差为S.E.=0.375(复制到Excel 可以看来,更精确的数值为0.375379),于是Wald 值为

后面的df 为自由度,即df=1;Sig.为P 值,Sig.=0.111。注意Sig.值越低越好,一般要求小

于0.05。当然,对于Sig.值,我们关注的是最终模型的显示结果。Exp(E)是B 还原之后数值,显然

在Excel 里,利用指数函数exp 很容易对B 值进行还原。

6. Variable not in the Equation(不在初始方程中的变量)。人均GDP 和代表地理位置的

中部地带的系数初始值设为0,这相当于,在初始模型中不考虑这两个变量(图8-1-14)。表中给出了Score 检验值及其对应的自由度df 和P 值,即Sig.值。Score 检验是一种初始检验,在建模之初根据变量之间的结构关系判断自变量与因变量之间的密切程度。Score 检验值的计算公式为

因变量为0、1 值,根据图8-1-10 所示的编码原则,令所有的Yes 为0,所有的No 为1,容

易算出

y(1 ?y) = 0.645161(1 ?0.645161) = 0.228928 .

人均GDP 已知,中部的编码法则已知,于是不难算出

将上面的结果代入Score 检验值计算公式,立即得到

可以看到,人均GDP 的Score 检验值满足一般的要求,而中部地带这个变量的数值偏低。

7. Omnibus Tests of Model Coefficients(模型系数的混合检验)。主要是针对步骤、模

块和模型开展模型系数的综合性检验(图8-1-15)。表中给出卡方值及其相应的自由度、P 值即Sig.值。取显著性水平0.05,考虑到自由度数目df=2,在Excel 中的任意单元格输入公式“=CHIINV(0.05,2)”,回车,就可以查出卡方临界值5.991。我们计算的卡方值31.187,大于临界值,并且相应的Sig.值小于0.05,因此在显著性水平为0.05 的情况下,这些检验

都不成问题。

图8-1-15 分类数目统计

8. Model Summary(模型摘要)。模型摘要中给出最大似然平方的对数、Cox-Snell 拟合

优度以及Nagelkerke 拟合优度值(图8-1-16a)。最大似然平方的对数值

(-2loglikelihood=9.137)

用于检验模型的整体性拟合效果,该值在理论上服从卡方分布,上面给出的卡方临界值

5.991,因此,最大似然对数值检验通过。

a 以人均GDP 和中部为自变量的回归模型摘要

为了便于理解,有必要解释一下Cox-Snell 拟合优度以及Nagelkerke 拟合优度值与最大

似然平方对数值的关系。为此,我们需要开展一次特殊的logistic 回归。在图8-1-5 所示的选项中,从协变量(covariates)列表框中剔除人均GDP 和中部两个选项,选中并引入常数项——对应于常系数、所有数值均为1 的变量(参加图8-1-1)。以常数项为唯一的自变量,其他选项不变,开展logistic 回归,结果将会给出特别的模型摘要(图8-1-16b),其

-2loglikelihood=40.324 为未引入任何真正自变量的最大似然对数平方值。然后,我们采用下式计算Cox-Snell 拟合优度

容易算出

更精确的数值为0.634332。至于Nagelkerke 拟合优度,相当于校正后的Cox-Snell 拟合优度,计算公式为

因此

因此,校正后的模型拟合优度可以视为0.872。

9. Hosmer and Lemeshow Test(Hosmer 和Lemeshow 检验)。似然比函数的自然对数值

对样品数目很敏感,作为补充和参照,我们需要Hosmer-Lemeshow 检验(图8-1-17)。该检验依然以卡方分布为标准,但检验的方向与常规检验不同:我们要求其卡方值低于临界值而不是高于临界值。取显著性水平0.05,考虑到自由度数目df=8,在Excel 中的任意单元格输入函数“=CHIINV(0.05,8)”,回车,理解得到卡方临界值15.507。作为Hosmer-Lemeshow 检验的卡方值4.730<15.507,检验通过。后面的Sig.值0.786 大于0.05,据此也可以判知Hosmer-Lemeshow 检验可以通过。

10. Contingency Table for Hosmer and Lemeshow Test(对应于Hosmer-Lemeshow 检验的

列联表)。因变量有两类数值,即0 和1。在正常情况下,我们要求观测值(observed)与期望值(expected)逐渐趋于接近(图8-1-18)。我们的计算结果表明,相应于“城市化=Yes”,期望值逐渐减少到0,与观测值趋于接近;相应于“城市化=No”,期望值逐渐增加到4,

与观测值也趋于接近。这种结果是比较理想的,否则,模型的Hosmer-Lemeshow 检验就不太理想,从而模型的整体拟合效果不是很好。

11. Classification Table(最终预测分类表)。经过迭代运算,模型参数逐渐收敛到稳定

值,于是我们得到最终模型参数。利用最终的logistic 模型,可以对因变量进行预测,预测结果分类列入下表(图8-1-19)。可以看出,观测值Yes 有11 个(Yes=0),相应的预测

值全部是Yes=0,预测正确率为11/11*100%=100%;观测值No 有20 个(No=1),相应的预测值有19 个No=1,一个Yes=0,也就是说,预测失败1 例,预测正确率为19/(1+19)*100%

=95%。总的预测正确率为

全部31 个样品有30 个预测正确,一个预测失败,模型效果良好。

12. Variables in the Equation(最终模型中的变量)。只要理解图8-1-13 的含义,就不难

理解下图所示的结果(图8-1-20)。B 对应的是最终模型参数估计值:常系数为16.365(更精确的结果为16.364888),中部的回归系数为6.917(更精确的结果为6.917073),人均GDP 的回归系数为-0.001(更精确的结果为-0.001251)。S.E.为相应的标准误差。回归系数与标准误差比值的平方就是Wald 值,例如

其余依此类推。由于不知道Wald 的临界值,我们可以考察后面的Sig.值。可以看出,常系数和人均GDP 回归系数的置信度达到90%以上,而中部的回归系数只有80%以上。这个结果可以与前面的Score 检验形成对照。

最后的Exp(B)是对回归系数B 值进行指数运算的结果,例如

其余的数据还原依此类推。

8.1.3 建模与预测

将图8-1-20 所示的结果从SPSS 中复制到Excel 中,可以看到更精确的数值,据此可以

建立如下线性关系

z =16.364888 + 6.917073*中部?0.001*人均GDP .

将上面的关系式代入下式,得到

有了上面的式子,就可以对因变量的发生概率进行预测。

需要再次强调的是,对于名义变量中部,我们用 1 代表“是”,0 代表“非”,而SPSS 改为0 代表“是”,1 代表“非”。对于因变量城市人口比重,我们用Yes 代表1(城市化水

平高于平均值),用No 代表0(城市化水平低于平均值),而SPSS 改为相反的表示。明确了SPSS 的重新编码过程及其含义,就可以检验上述模型的预测效果。

首先,在Excel 中,将因变量中的名义变量转换为0、1 数值。根据SPSS 的编码原则(图8-1-10),所有的Yes 表示为0,所有的No 表示为1。一个快捷的处理方式是利用if 函数。在与因变量并列的第二个单元格中,即H2 中,输入函数“=IF(G2="Yes",0,1)”,回车立即得

到0;将鼠标指向H2 单元格的右下角,待其变成细小黑十字,双击或者下拉,得到全部转换结果(图8-1-21)。

图8-1-21 用于预测的数据的整理与转换结果(部分)

数据整理完成以后,将图8-1-20 所示的表格从SPSS 中复制到Excel 中,放在将要开展

预测的单元格旁边(图8-1-22)

图8-1-22 将SPSS 给出的模型参数估计值复制到Excel 中(局部)

根据数据分布的位置,在I2 单元格中输入如下公式(图8-1-23):

“=1/(1+EXP(-($K$5+$K$4*(1-C2)+$K$3*E2)))”,回车,立即得到0。将鼠标指向H2 单元格的右下角,待其变成细小填充柄,双击或者下拉,

得到全部预测结果(图8-1-24);将这些数值四舍五入,所有的预测值都变成0 或者1。

图8-1-23 预测公式的表达形式

注意上面的计算公式中有一个细节,对应于中部变量的单元格为C2,公式中不是用系

数6.917073(在单元格K4 中)直接乘以C2,而是乘以(1-C2)。这样处理的原因如前所述,SPSS 改变了我们的编码,我们用1 表示“是(中部)”,用0 表示“非(中部)”。而SPSS 将我们的1 改编为0,0 改编为1(图8-1-11)。我们用1-C2 代替C2,相当于将中部变量的0、1互换,使之与SPSS 的编码一致。

图8-1-24 预测值的计算结果(局部)

图8-1-25 四舍五入之后的全部预测结果

比较H 列(城市化)和I 列(预测值)可以看到,观测值为Yes=0 的,预测值全部是0,这样的数值共有11 个;观测值为No=1 的,预测值只有一个错误判别为0,其余19 个全部是0,与观测值一致。预测分类结果与图8-1-19 所示的预测分类结果完全一样。

实验7相关及回归分析SPSS应用

实验7 相关与回归分析 7.1实验目的 熟练掌握一元线性回归分析的SPSS应用技能,掌握一元非线性回归分析的SPSS应用技能,对实验结果做出解释。 7.2相关知识(略) 7.3实验内容 7.3.1一元线性回归分析的SPSS实验 7.3.2一元非线性回归分析的SPSS实验 7.4实验要求 7.4.1准备实验数据 1.线性回归分析数据 (The Wall 美国各航空公司业绩的统计数据公布在《华尔街日报1999年年鉴》 Street Journal Almanac 1999)上。航班正点到达的比率和每10万名乘客投诉 的次数的数据,见表7-1所示。 表7-1 美国航空公司航空正点率与乘客投诉次数资料 2.非线性回归分析数据 1992~2013年某国保费收入与国内生产总值的数据,试研究保费收入与国内生产

总值的关系的数据,见表7-2所示。 表7-2 1992~2013年某国保费收入与国内生产总值数据 单位:万元 7.4.2完成一元线性回归分析的SPSS 实验,对实验结果作出简要分析。 7.4.3完成一元非线性回归分析的SPSS 实验,对实验结果作出简要分析。 7.5实验步骤 7.5.1 完成一元线性回归分析的SPSS 实验步骤 1.运用SPSS 绘制散点图散点图。 第一步:在excel 中输入数据 图7-1 第二步:将excel 数据导入spss 单击打开数据文档按钮(或选择菜单文件→打开)→选择文件航空公司航班

正点率与投诉率.xls 图7-2 第三步:选择菜单图形→旧对话框→散点/点状,在散点图/点图对话框中, 选择简单分布按钮 图7-3 第三步:在简单散点图对话框中,将候选变量框中的投诉率添加到Y轴,航班正点率添加到X轴,点击确定:

相关分析与回归分析SPSS实现

相关分析与回归分析 一、试验目标与要求 本试验项目的目的是学习并使用SPSS 软件进行相关分析和回归分析,具体包括: (1) 皮尔逊pearson 简单相关系数的计算与分析 (2) 学会在SPSS 上实现一元及多元回归模型的计算与检验。 (3) 学会回归模型的散点图与样本方程图形。 (4) 学会对所计算结果进行统计分析说明。 (5) 要求试验前,了解回归分析的如下内容。 ? 参数α、β的估计 ? 回归模型的检验方法:回归系数β的显著性检验(t -检验);回归 方程显著性检验(F -检验)。 二、试验原理 1.相关分析的统计学原理 相关分析使用某个指标来表明现象之间相互依存关系的密切程度。用来测度简单线性相关关系的系数是Pearson 简单相关系数。 2.回归分析的统计学原理 相关关系不等于因果关系,要明确因果关系必须借助于回归分析。回归分析是研究两个变量或多个变量之间因果关系的统计方法。其基本思想是,在相关分析的基础上,对具有相关关系的两个或多个变量之间数量变化的一般关系进行测定,确立一个合适的数据模型,以便从一个已知量推断另一个未知量。回归分析的主要任务就是根据样本数据估计参数,建立回归模型,对参数和模型进行检验和判断,并进行预测等。 线性回归数学模型如下: i ik k i i i x x x y εββββ+++++= 22110 在模型中,回归系数是未知的,可以在已有样本的基础上,使用最小二乘法对回归系数进行估计,得到如下的样本回归函数: i ik k i i i e x x x y +++++=ββββ????22110 回归模型中的参数估计出来之后,还必须对其进行检验。如果通过检验发现模型有缺陷,则必须回到模型的设定阶段或参数估计阶段,重新选择被解释变量

SPSS软件应用于相关分析与回归分析

实验五 SPSS软件应用于 相关分析与回归分析 学院:动物科技学院 班级:动科101 姓名:李貌 学号:2010020407

实验五SPSS软件应用于相关分析与回归分析 一、实验目的: 1、理解线性相关分析和回归分析的意义及应用并对有关数据进行分析。 2、熟悉SPSS软件应用于相关分析和回归分析的操作和步骤。 3、进一步掌握运用SPSS软件处理数据和分析数据的能力。 二、实验内容: 玉米在盐胁迫后的萎焉程度(R)与根中蛋白(R)、叶中蛋白(L)、脯氨酸(pro)之间关系如下,试进行变量间的相关分析、回归分析。 萎焉度(Y)/% 根中蛋白(R)/% 叶中蛋白(L)/% 脯氨酸(pro)/% 0.9300 0.79 0.98 0.093 0.9547 0.99 1.02 0.105 0.9661 0.91 1.58 0.119 0.9678 1.01 1.47 0.155 0.9725 1.14 1.89 0.234 0.9735 1.36 1.32 0.251 0.9856 1.36 1.76 0.217 1.0032 1.19 2.61 0.271 1.0045 1.21 2.33 0.227 1.0075 1.06 2.88 0.270 1.0186 1.58 2.40 0.282 1.0201 1.30 2.40 0.557 1.0245 1.81 2.37 0.650 1.0260 1.88 2.59 0.622 1.0283 1.46 3.10 0.611 1.0364 1.68 3.36 0.657 三、实验步骤: (一、线性回归分析) 1、启动SPSS,进行变量定义和数据录入,如(图1、2)。

相关分析和一元线性回归分析SPSS报告

用下面的数据做相关分析和一元线性回归分析: 选用普通高等学校毕业生数和高等学校发表科技论文数量做相关分析和一元线性回归分析。 一、相关分析 1.作散点图

普通高等学校毕业生数和高等学校发表科技论文数量的相关图 从散点图可以看出:普通高等学校毕业生数和高等学校发表科技论文数量的相关性很大。 2.求普通高等学校毕业生数和高等学校发表科技论文数量的相关系 数

把要求的两个相关变量移至变量中,因为都是定距数据,选择相关系数中的Pearson,点击确定,可以得到下面的结果:

Correlations 普通高等学校毕业生数(万人)高等学校发表科技论文数量(篇) 普通高等学校毕业生数(万人)Pearson Correlation1.998** Sig. (2-tailed).000 N1414 高等学校发表科技论文数量(篇)Pearson Correlation.998**1 Sig. (2-tailed).000 N1414 **. Correlation is significant at the 0.01 level (2-tailed). 两相关变量的Pearson相关系数=0.0998,表示呈高度正相关;相关系数检验对应的概率P值=0.000,小于显著性水平0.05,应拒绝原假设(两变量之间不具有相关性),即毕业生人数好发表科技论文数之间的相关性显著。 3.求两变量之间的相关性 选择相关系数中的全部,点击确定:

Correlations (万人)(篇) Kendall's tau_b(万人)Correlation Coefficient 1.000 1.000** Sig. (2-tailed).. N1414 (篇)Correlation Coefficient 1.000** 1.000 Sig. (2-tailed).. N1414 Spearman's rho(万人)Correlation Coefficient 1.000 1.000** Sig. (2-tailed).. N1414 (篇)Correlation Coefficient 1.000** 1.000 Sig. (2-tailed).. N1414 **. Correlation is significant at the 0.01 level (2-tailed). 注解:两相关变量(毕业生数和发表论文数)的Kendall相关系数=1.000,呈正相关;无相关系数检验对应的概率P值,应接受原假设(两变量之间不具有相关性),即毕业生数与发表论文数之间相关性不显著。 两相关变量(毕业生数和发表论文数)的Spearman相关系数=1.000,呈正相关;无相关系数检验对应的概率P值,应接受原假设(两变量之间不具有相关性),即毕业生数与发表论文数之间相关性不显著。 4.普通高等学校毕业生数和高等学校发表科技论文数量的相关系数

相关分析和回归分析SPSS实现

相关分析和回归分析 S P S S实现 TYYGROUP system office room 【TYYUA16H-TYY-TYYYUA8Q8-

相关分析与回归分析 一、试验目标与要求 本试验项目的目的是学习并使用SPSS软件进行相关分析与回归分析,具体包括: (1)皮尔逊pearson简单相关系数的计算与分析 (2)学会在SPSS上实现一元及多元回归模型的计算与检验。 (3)学会回归模型的散点图与样本方程图形。 (4)学会对所计算结果进行统计分析说明。 (5)要求试验前,了解回归分析的如下内容。 参数α、β的估计 回归模型的检验方法:回归系数β的显着性检验(t-检验);回归 方程显着性检验(F-检验)。 二、试验原理 1.相关分析的统计学原理 相关分析使用某个指标来表明现象之间相互依存关系的密切程度。用来测度简单线性相关关系的系数是Pearson简单相关系数。 2.回归分析的统计学原理 相关关系不等于因果关系,要明确因果关系必须借助于回归分析。回归分析是研究两个变量或多个变量之间因果关系的统计方法。其基本思想是,在相关分析的基础上,对具有相关关系的两个或多个变量之间数量变化的一般关系进行测定,确立一个合适的数据模型,以便从一个已知量推断另一个未知量。回归分析的主要任务就是根据样本数据估计参数,建立回归模型,对参数与模型进行检验与判断,并进行预测等。 线性回归数学模型如下: 在模型中,回归系数是未知的,可以在已有样本的基础上,使用最小二乘法对回归系数进行估计,得到如下的样本回归函数: 回归模型中的参数估计出来之后,还必须对其进行检验。如果通过检验发现模型有缺陷,则必须回到模型的设定阶段或参数估计阶段,重新选择被解释变量与解释变量及其函数形式,或者对数据进行加工整理之后再次估计参数。回归模型的检验包括一级检验与二级检验。一级检验又叫统计学检验,它是利用统计学的抽样理论来检验样本回归方程的可靠性,具体又可以分为拟与优度

第六章 spss相关分析和回归分析

第六章 SPSS相关分析与回归分析 6.1 相关分析和回归分析概述 客观事物之间的关系大致可归纳为两大类,即 ●函数关系:指两事物之间的一种一一对应的关系,如商品的销售额和销售量之间的 关系。 ●相关关系(统计关系):指两事物之间的一种非一一对应的关系,例如家庭收入和 支出、子女身高和父母身高之间的关系等。相关关系又分为线性相关和非线性相关。 相关分析和回归分析都是分析客观事物之间相关关系的数量分析方法。 6.2 相关分析 相关分析通过图形和数值两种方式,有效地揭示事物之间相关关系的强弱程度和形式。 6.2.1 散点图 它将数据以点的的形式画在直角坐标系上,通过观察散点图能够直观的发现变量间的相关关系及他们的强弱程度和方向。 6.2.2 相关系数 利用相关系数进行变量间线性关系的分析通常需要完成以下两个步骤: 第一,计算样本相关系数r; ●相关系数r的取值在-1~+1之间 ●R>0表示两变量存在正的线性相关关系;r<0表示两变量存在负的线性相关关 系 ●R=1表示两变量存在完全正相关;r=-1表示两变量存在完全负相关;r=0表 示两变量不相关 ●|r|>0.8表示两变量有较强的线性关系;|r|<0.3表示两变量之间的线性关系较 弱 第二,对样本来自的两总体是否存在显著的线性关系进行推断。 对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有Pearson简单相关系数、Spearman等级相关系数和Kendall τ相关系数等。 6.2.2.1 Pearson简单相关系数(适用于两个变量都是数值型的数据) Pearson简单相关系数的检验统计量为: 6.2.2.2 Spearman等级相关系数 Spearman等级相关系数用来度量定序变量间的线性相关关系,设计思想与Pearson简 x y,而是利单相关系数相同,只是数据为非定距的,故计算时并不直接采用原始数据(,) i i

相关主题
文本预览
相关文档 最新文档