SPSS统计分析-第7章 回归分析
- 格式:pptx
- 大小:1.75 MB
- 文档页数:74
第七章思考与练习参考答案1.答:函数关系是两变量之间的确定性关系,即当一个变量取一定数值时,另一个变量有确定值与之相对应;而相关关系表示的是两变量之间的一种不确定性关系,具体表示为当一个变量取一定数值时,与之相对应的另一变量的数值虽然不确定,但它仍按某种规律在一定的范围内变化。
2.答:相关和回归都是研究现象及变量之间相互关系的方法。
相关分析研究变量之间相关的方向和相关的程度,但不能确定变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况;回归分析则可以找到研究变量之间相互关系的具体形式,并可变量之间的数量联系进行测定,确定一个回归方程,并根据这个回归方程从已知量推测未知量。
3.答:单相关系数是度量两个变量之间线性相关程度的指标,其计算公式为:总体相关系数,样本相关系数。
复相关系数是多元线性回归分析中度量因变量与其它多个自变量之间的线性相关程度的指标,它是方程的判定系数2R 的正的平方根。
偏相关系数是多元线性回归分析中度量在其它变量不变的情况下两个变量之间真实相关程度的指标,它反映了在消除其他变量影响的条件下两个变量之间的线性相关程度。
4.答:回归模型假定总体上因变量Y 与自变量X 之间存在着近似的线性函数关系,可表示为t t t u X Y ++=10ββ,这就是总体回归函数,其中u t 是随机误差项,可以反映未考虑的其他各种因素对Y 的影响。
根据样本数据拟合的方程,就是样本回归函数,以一元线性回归模型的样本回归函数为例可表示为:tt X Y 10ˆˆˆββ+=。
总体回归函数事实上是未知的,需要利用样本的信息对其进行估计,样本回归函数是对总体回归函数的近似反映。
两者的区别主要包括:第一,总体回归直线是未知的,它只有一条;而样本回归直线则是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归直线。
第二,总体回归函数中的0β和1β是未知的参数,表现为常数;而样本回归直线中的0ˆβ和1ˆβ是随机变量,其具体数值随所抽取的样本观测值不同而变动。
第七章岭回归1. 岭回归估计是在什么情况下提出的?答:当解释变量间出现严重的多重共线性时,用普通最小二乘法估计模型参数,往往参数估计方差太大,使普通最小二乘法的效果变得很不理想,为了解决这一问题,统计学家从模型和数据的角度考虑,采用回归诊断和自变量选择来克服多重共线性的影响,这时,岭回归作为一种新的回归方法被提出来了。
2. 岭回归估计的定义及其统计思想是什么?答:一种改进最小二乘估计的方法叫做岭估计。
当自变量间存在多重共线性,∣X'X ∣≈0 时,我们设想给X'X 加上一个正常数矩阵kI(k>0), 那么X'X+kI 接近奇异的程度小得多,考虑到变量的量纲问题,先对数据作标准化,为了计算方便,标准化后的设计阵仍然用X 表示,定义为? X 'X I X 'y,称为的岭回归估计,其中k称为岭参数。
3. 选择岭参数k 有哪几种主要方法?答:选择岭参数的几种常用方法有1. 岭迹法,2. 方差扩大因子法, 3.由残差平方和来确定k 值。
4. 用岭回归方法选择自变量应遵从哪些基本原则?答:用岭回归方法来选择变量应遵从的原则有:(1)在岭回归的计算中,我们假定设计矩阵X 已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小,我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。
(2)当k 值较小时标准化岭回归系数的绝对值并不是很小,但是不稳定,随着k 的增加迅速趋于零。
像这样的岭回归系数不稳定, 震动趋于零的自变量,x5K我们也可以予以删除。
3) 去掉标准化岭回归系数很不稳定的自变量,如果有若干个岭回归系数不稳 定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某 个变量后重新进行岭回归分析的效果来确定。
5. 对第 5 章习题 9 的数据,逐步回归的结果只保留了 3 个自变量 x1 ,x2 ,x5 ,用 y对这 3 个自变量做岭回归分析。
第八章回归分析回归分析是处理两个及两个以上变量间线性依存关系的统计方法。
在医学领域中,此类问题很普遍,如人头发中某种金属元素的含量与血液中该元素的含量有关系,人的体表面积与身高、体重有关系;等等。
回归分析就是用于说明这种依存变化的数学关系。
第一节Linear过程8.1.1 主要功能调用此过程可完成二元或多元的线性回归分析。
在多元线性回归分析中,用户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法,等)。
8.1.2 实例操作[例8.1]某医师测得10名3岁儿童的身高(cm)、体重(kg)和体表面积(cm2)资料如下。
试用多元回归方法确定以身高、体重为自变量,体表面积为应变量的回归方程。
8.1.2.1 数据准备激活数据管理窗口,定义变量名:体表面积为Y,保留3位小数;身高、体重分别为X1、X2,1位小数。
输入原始数据,结果如图8.1所示。
图8.1 原始数据的输入8.1.2.2 统计分析激活Statistics菜单选Regression中的Linear...项,弹出Linear Regression对话框(如图8.2示)。
从对话框左侧的变量列表中选y,点击 钮使之进入Dependent框,选x1、x2,点击 钮使之进入Indepentdent(s)框;在Method处下拉菜单,共有5个选项:Enter(全部入选法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)。
本例选用Enter法。
点击OK钮即完成分析。
图8.2 线性回归分析对话框用户还可点击Statistics...钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析;点击Plots...钮选择是否作变量分布图(本例要求对标准化Y预测值作变量分布图);点击Save...钮选择对回归分析的有关结果是否作保存(本例要求对根据所确定的回归方程求得的未校正Y预测值和标准化Y预测值作保存);点击Options...钮选择变量入选与剔除的α、β值和缺失值的处理方法。
第7章 岭回归思考与练习参考答案7.1 岭回归估计是在什么情况下提出的?答:当自变量间存在复共线性时,|X’X |≈0,回归系数估计的方差就很大, 估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。
7.2岭回归的定义及统计思想是什么?答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X ’X )-1为奇异时,给X’X 加上一个正常数矩阵D, 那么X’X+D接近奇异的程度就会比X ′X 接近奇异的程度小得多,从而完成回归。
但是这样的回归必定丢失了信息,不满足blue 。
但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。
7.3 选择岭参数k 有哪几种方法?答:最优k 是依赖于未知参数β和2σ的,几种常见的选择方法是: ○1岭迹法:选择0k 的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多; ○2方差扩大因子法:11()()()c k X X kI X X X X kI --'''=++,其对角线元()jj c k 是岭估计的方差扩大因子。
要让()10jj c k ≤;○3残差平方和:满足()SSE k cSSE <成立的最大的k 值。
7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是:1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。
我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;2. 当k 值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着k 的增加迅速趋近于零。
像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除;3. 去掉标准化岭回归系数很不稳定的自变量。
如果有若干个岭回归系数不稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。
回归分析在商品的需求量分析中的运用摘要:本文结合多元统计分析理论中关于多元线性回归分析的应用,对商品需求量与商品价格和人均月收入的关系的线性方程进行探索研究。
回归分析的基本思想是描述若干个变量间的统计关系,以研究一个或多个自变量与因变量之间的内在联系。
而回归分析研究又包括线性回归和非线性回归。
本文就是运用线性回归来分析商品需求量和商品价格,人均月收入之间的关系的。
关键词:线性回归线性方程商品需求量一.引言随着我国经济的快速发展,人们的物质生活条件越来越好,各种各样的商品出现在人们的日常生活中。
随着人们收入水平的不断变化,随着商品价格的不断变化,人们对某种商品的需求量也不同。
如果生产的商品量大于商品的需求量,则会导致资源浪费,商品的价格下降;反之如果商品的生产量少于商品的需求量,则会导致商品供应不足,价格上涨。
以上两种情况都会对经济发展造成不利的影响。
因此,对商品需求量的预测是必要的。
那么,应该如何预测商品的需求量呢?为此,本文在参阅相关文献的基础上,根据东方财富网所提供的某地1996~2995年10年间对某品牌的手表需求量和商品价格,人均月收入的数据采用线性回归的方法进行回归分析,并对模型进行检验,预测。
二.经济理论分析、所涉及的经济变量(1)经济理论分析:1.需求:是指在各种不同价格水平下,消费者愿意且能够购买的商品或服务的数量;2.需求与价格之间存在这需求规律,即“在其它条件不变的条件下,一种商品的价格上升会引起该商品的需求量减少,价格下降会引起该商品的需求量增多”;由此我们引出需求的价格弹性的概念,它是指需求量对价格变动的反应程度,是需求量变化的百分比除以价格变化 的百分比,即公式:价格变动率需求量变得率需求的价格弹性系数=3.同理,需求与收入的关系可以用需求的收入弹性分析,它表示某一商品的需求量对收入变化的反应程度,即公式: 收入变动率需求量变得率需求的收入弹性系数=(2)变量的设定:在经济生活中,我们不难发现价格和收入水平的高低对商品需求量有着直接且密切的影响,故所建立的模型是一个回归模型!其中“商品价格”与“消费者平均收入”分别是自变量x1、x2,“商品需求量”是因变量y 。
第七章回归分析OUTLINE一元线性回归01多元归回02一元线性回归一元线性回归操作过程在SPSS中单击主菜单“Analyze→Regression→Linear…”,进入设置对话框。
从左边变量表列中把因变量学生数学学业成绩(MATH)选入到因变量(Dependent)框中,把自变量学生家庭社会经济地(ESCS)选入到自变量(Independent)框中。
一元线性回归操作过程单击“Statistics…”按钮,可以选择需要输出的一些统计量。
如Regression Coefficients(回归系数)中的Estimates,可以输出回归系数及相关统计量,包括回归系数B、标准误、标准化回归系数BETA、t值及显著性p值等;另外还可以通过勾选“Confidence intervals”得到回归系数置信区间的结果。
“Model fit”项可输出相关系数R,测定系数R2,调整系数,估计标准误及方差分析表。
上述两项为默认选项,请注意保持选中。
此处还可以勾选“Residuals”(残差)下的“Durbin-Watson”检验,可以检验残差与自变量之间是否相互独立;以及对数据中的异常值进行诊断。
一元线性回归操作过程单击“Options…”按钮,打开它的对话框,可以看到中间有一项Include constant in equation可选项。
选中该项可输出对常数的检验。
在“Options”对话框中,还可以定义处理缺失值的方法和设置多元逐步回归中变量进入和排除方程的准则,这里我们采用系统的默认设置,设置完成后点击“Continue”返回主对话框。
一元线性回归的结果输出模型中包含的自变量及进入方式一元线性回归的结果输出模型拟合概述一元线性回归的结果输出回归方程检验方差分析表一元线性回归的结果输出回归系数估计及其检验表多元回归多元回归操作过程(标准多元回归)多元线性回归所用命令语句与一元线性回归相同,同样可以通过单击主菜单“Analyze→Regression→Linear…”,进入设置对话框,如图所示。
第七章思考与练习参考答案1 •答:函数关系是两变量之间的确定性关系,即当一个变量取一定数值时,另一个变量有确定值与之相对应;而相关关系表示的是两变量之间的一种不确定性关系,具体表示为当一个变量取一定数值时,与之相对应的另一变量的数值虽然不确定,但它仍按某种规律在定的范围内变化。
2•答:相关和回归都是研究现象及变量之间相互关系的方法。
相关分析研究变量之间相关的方向和相关的程度,但不能确定变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况;回归分析则可以找到研究变量之间相互关系的具体形式,并可变量之间的数量联系进行测定,确定一个回归方程,并根据这个回归方程从已知量推测未知量。
3•答:单相关系数是度量两个变量之间线性相关程度的指标,其计算公式为:总体相关系数二样本相关系数,「一】。
复相关系数是多元线性回归分析中度量因变量与其它多个自变量之间的线性相关程度的指标,它是方程的判定系数R2的正的平方根。
偏相关系数是多元线性回归分析中度量在其它变量不变的情况下两个变量之间真实相关程度的指标,它反映了在消除其他变量影响的条件下两个变量之间的线性相关程度。
4.答:回归模型假定总体上因变量Y与自变量X之间存在着近似的线性函数关系,可表示为Y^ 11X t u t,这就是总体回归函数,其中u t是随机误差项,可以反映未考虑的其他各种因素对Y的影响。
根据样本数据拟合的方程,就是样本回归函数,以一元线性回归模型的样本回归函数为例可表示为:Y?=耳+弭x t。
总体回归函数事实上是未知的,需要利用样本的信息对其进行估计,样本回归函数是对总体回归函数的近似反映。
两者的区别主要包括:第一,总体回归直线是未知的,它只有一条;而样本回归直线则是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归直线。
第二,总体回归函数中的-0和-1是未知的参数,表现为常数;而样本回归直线中的'?Q和?i是随机变量,其具体数值随所抽取的样本观测值不同而变动。