第八章统计回归模型
- 格式:doc
- 大小:556.50 KB
- 文档页数:25
第八章 相关分析与回归分析习题参考答案一、名词解释函数关系:函数关系亦称确定性关系,是指变量(现象)之间存在的严格确定的依存关系。
在这种关系中,当一个或几个相互联系的变量取一定的数值时,必定有另一个且只有一个变量有确定的值与之对应。
相关关系:是指变量(现象)之间存在着非严格、不确定的依存关系。
在这种关系中,当一个或几个相互联系的变量取一定的数值时,可以有另一变量的若干数值与之相对应。
这种关系不能用完全确定的函数来表示。
相关分析:相关分析主要是研究两个或者两个以上随机变量之间相互依存关系的方向和密切程度的方法,直线相关用相关系数表示,曲线相关用相关指数表示,多元相关用复相关系数表示。
回归分析:回归分析是研究某一随机变量关于另一个(或多个)非随机变量之间数量关系变动趋势的方法。
其目的在于根据已知非随机变量来估计和预测随机变量的总体均值。
单相关:单相关是指仅涉及两个变量的相关关系。
复相关:复相关是指一个变量对两个或者两个以上其他变量的相关关系。
正相关:正相关是指两个变量的变化方向是一致的,当一个变量的值增加(或减少)时,另一变量的值也随之增加(或减少)。
负相关:负相关是指两个变量的变化方向相反,即当一个变量的值增加(或减少)时,另一个变量的值会随之减少(或增加)。
线性相关:如果相关的两个变量对应值在直角坐标系中的散点图近似呈一条直线,则称为线性相关。
非线性相关:如果相关的两个变量对应值在直角坐标系中的散点图近似呈现出某种曲线形式,则为非线性相关。
相关系数:相关系数是衡量变量之间线性相关密切程度及相关方向的统计分析指标。
取值在-1到1之间。
两个变量之间的简单样本相关系数的计算公式为:()()niix x y y r --∑二、单项选择1.B;2.D;3.D;4.C;5.A;6.D 。
三、判断题(正确的打“√”,错误的打“×”) 1.×; 2.×; 3.√; 4.×; 5.×; 6.×; 7.×; 8.√. 四、简答题1、什么是相关关系?相关关系与函数关系有什么区别?答:相关关系,是指变量(现象)之间存在着非严格、不确定的依存关系。
实验:回归分析的SPSS过程
一、实验目的与要求
1.学会在SPSS上实现一元及多元回归模型的计算与检验。
2.学会回归模型的散点图与样本方程图形。
3.学会对所计算结果进行统计分析说明。
4.要求实验前,了解回归分析的如下内容。
(1)参数α、β的估计
(2)回归模型的检验方法:回归系数β的显著性检验(t-检验);回归方程显著性检验(F-检验)。
5. 学会利用回归分析方法解决身边的实际问题。
二、实验原理
相关关系不等于因果关系,要明确因果关系必须借助于回归分析。
回归分析是研究两个变量或多个变量之间因果关系的统计方法。
其基本思想是,在相关分析的基础上,对具有相关关系的两个或多个变量之间数量变化的一般关系进行测定,确立一个合适的数据模型,以便从一个已知量推断另一个未知量。
回归分析的主要任务就是根据样本数据估计参数,建立回归模型,对参数和模型进行检验和判断,并进行预测等。
三、实验内容与步骤
研究青春发育阶段的年龄与远视率的变化关系,测得数据如下表所示,请对年龄与远视率的关系进行曲线估计。
青春发育阶段年龄与远视率的变化关系
年龄(x)6789101112131415161718远视率(y)63.6461.0638.8413.7514.58.07 4.41 2.27 2.09 1.02 2.51 3.12 2.98
(1)对题目的分析:
(2)数据组织:
(3) 主要设置步骤:
(4)主要结果及分析:。
第八章成对数据的统计分析(公式、定理、结论图表)一、成对数据的统计相关性1.变量的相关关系(1)函数关系函数关系是一种确定性关系,常用解析式来表示.(2)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.与函数关系不同,相关关系是一种非确定性关系.2.散点图(1)散点图成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图. (2)正相关和负相关如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.3.线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线性相关.4.样本相关系数(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:(其中,,,和,,,的均值分别为和).①当r >0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.②当r <0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.二、一元线性回归模型及其应用1.线性回归方程:(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:()()()1122,,,,,,n n x y x y x y ,其回归方程为a bx y +=∧,则1221,.ni i i nii x y nx y b x nx a y bx ==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑注意:线性回归直线经过定点(),x y .(3)相关系数:()()()()12211nii i nni i i i xx y y rx x y y ===--=--∑∑∑1222211ni ii n ni i i i x y nxyx nx y ny ===-=⎛⎫⎛⎫-- ⎪⎪⎝⎭⎝⎭∑∑∑.【方法归纳】(1)利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.(2)利用相关系数判定,当r 越趋近于1相关性越强.当残差平方和越小,相关指数2R 越大,相关性越强.(3)在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r 进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(4)正确运用计算 ,ba 的公式和准确的计算,是求线性回归方程的关键.并充分利用回归直线 y bxa =+ 过样本点的中心(),x y 进行求值.2、回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
实用标准文案 精彩文档 第八章 统计回归模型 回归分析是研究一个变量Y与其它若干变量X之间相关关系的一种数学工具.它是在一组试验或观测数据的基础上,寻找被随机性掩盖了的变量之间的依存关系.粗略的讲,可以理解为用一种确定的函数关系去近似代替比较复杂的相关关系.这个函数称为回归函数. 回归分析所研究的主要问题是如何利用变量X、Y的观察值(样本),对回归函数进行统计推断,包括对它进行估计及检验与它有关的假设等. 回归分析包含的内容广泛.此处将讨论多项式回归、多元线性回归、非线性回归以及逐步回归.
一、多项式回归 (1) 一元多项式回归 一元多项式回归模型的一般形式为mmxxy...10. 如果从数据的散点图上发现y与x呈现较明显的二次(或高次)函数关系,则可以选用一元多项式回归. 1. 用函数polyfit估计模型参数,其具体调用格式如下: p=polyfit(x,y,m) p返回多项式系数的估计值;m设定多项式的最高次数;x,y为对应数据点值. [p,S]=polyfit(x,y,m) S是一个矩阵,用来估计预测误差. 2. 输出预估值与残差的计算用函数polyval实现,其具体调用格式如下: Y=polyval(p,X) 求polyfit所得的回归多项式在X处的预测值Y. [Y,DELTA]=polyval(p,X,S) p,S为polyfit的输出,DELTA为误差估计.在线性回归模型中,Y±DELTA以50%的概率包含函数在X处的真值. 3. 模型预测的置信区间用polyconf实现,其具体调用格式如下: [Y,DELTA]=polyconf(p,X,S,alpha) 求polyfit所得的回归多项式在X处的预测值Y及预测值的显实用标准文案 精彩文档 著性为1-alpha的置信区间Y±DELTA,alpha缺省时为0.05. 4. 交互式画图工具polytool,其具体调用格式如下: polytool(x,y,m); polytool(x,y,m,alpha); 用m次多项式拟合x,y的值,默认值为1,alpha为显著性水平,默认值为0.05. 例1 观测物体降落的距离s与时间t的关系,得到数据如下表,求s. t (s) 1/30 2/30 3/30 4/30 5/30 6/30 7/30 s (cm) 11.86 15.67 20.60 26.69 33.71 41.93 51.13 t (s) 8/30 9/30 10/30 11/30 12/30 13/30 14/30 s (cm) 61.49 72.90 85.44 99.08 113.77 129.54 146.48
解 根据数据的散点图,应拟合为一条二次曲线.选用二次模型,具体代码如下: %%%输入数据 t=1/30:1/30:14/30; s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48]; %%%多项式系数拟合 [p,S]=polyfit(t,s,2); 则得回归模型为: 1329.98896.652946.489ˆ2tts.
%%%y的拟合值及预测值y的置信半径delta [y,dalta]=polyconf(p,t,S); 得结果如下: y= Columns 1 through 11 11.8729 15.7002 20.6148 26.6168 33.7060 41.8826 51.1465 61.4978 72.9363 85.4622 99.0754 实用标准文案 精彩文档 Columns 12 through 14 113.7759 129.5637 146.4389 dalta= Columns 1 through 11 0.0937 0.0865 0.0829 0.0816 0.0817 0.0823 0.0827 0.0827 0.0823 0.0817 0.0816 Columns 12 through 14 0.0829 0.0865 0.0937 %%%交互式画图 polytool(t,s,2); polytool所得的交互式图形如图8-1所示.
图8-1 实用标准文案
精彩文档 (2) 多元二项式回归 多元二项式回归模型的一般形式为
mkjkjjkmmxxxxy,1110....
多元二项式回归命令:rstool(x,y,’model’,alpha) x表示nm矩阵;y表示n维列向量;alpha为显著性水平(缺省时为0.05);model表示由下列4个模型中选择1个(用字符串输入,缺省时为线性模型): linear(线性):mmxxy110; purequadratic(纯二次):njjjjmmxxxy12
110
;
interaction(交叉):mkjkjjkmmxxxxy1110
;
quadratic(完全二次):mkjkjjkmmxxxxy,1110
.
例2 设某商品的需求量与消费者的平均收入、商品价格的统计数据如下,建立回归模型,预测平均收入为1000、价格为6时的商品需求量.
需求量 100 75 80 70 50 65 90 100 110 60 收入 1000 600 1200 500 300 400 1300 1100 1300 300
价格 5 7 6 6 8 7 5 4 3 9 解 选择纯二次模型,即22222
11122110xxxxy.
%%%输入数据 x1=[1000 600 1200 500 300 400 1300 1100 1300 300]; x2=[5 7 6 6 8 7 5 4 3 9]; x=[x1' x2']; y=[100 75 80 70 50 65 90 100 110 60]'; %%%多元二项式回归 rstool(x,y,'purequadratic'); 实用标准文案 精彩文档 得如下结果:
图8-2 得到一个如图所示的交互式画面,左边是x1(=1000)固定时的曲线y(x1)及其置信区间,右边是x2(=6)固定时的曲线y(x2)及其置信区间.用鼠标移动图中的十字线,或在图下方窗口内输入,可改变x1,x2.在左边图形下方的方框中输入1000,右边图形下方的方框中输入6,则画面左边的“Predicted Y1”下方的数据变为88.4791,即预测出平均收入为1000、价格为6时的商品需求量为88.4791. 在画面左下方单击”Export”,在出现的窗体中单击”ok”按钮,则beta、rmse和residuals都传送到Matlab工作区中. 在Matlab工作区中输入命令:beta,rmse,得结果: beta=110.5313 0.1464 -26.5709 -0.0001 1.8475 rmse =4.5362 故回归模型为:222
1218475.10001.05709.261464.05313.110xxxxy,
剩余标准差为4.5362,说明此回归模型的显著性较好.
二、多元线性回归 实用标准文案 精彩文档 多元线性回归模型的一般形式为011...mmyxx
.
在Matlab统计工具箱中使用函数regress实现多元线性回归.具体调用格式为: b=regress(Y,X) [b,bint,r,rint,stats]=regress(Y,X,alpha)
其中nYYYY...21,nmnnmmxxxxxxxxxX...1..................1...1212222111211.对于一元线性回归,取1m即可.b为输出向量;b,bint表示回归系数估计值和它们的置信区间;r表示残差;rint表示残差的置信区间;stats表示用于检验回归模型的统计量,有四个数值:相关系数2R、F值、与F值对应的概率P、2s的值.相关系
数2R越接近1,说明回归方程越显著;)1,(1mnmFF时拒绝0H
,F越大,说明回归方程越
显著;与F对应的概率P时拒绝0H
,回归模型成立;alpha表示显著性水平(缺省时为0.05).
残差及其置信区间可以用命令rcoplot(r,rint)画出. 例3 已知某湖泊八年来湖水中COD浓度实测值(y)与影响因素,如湖区工业产值(x1)、总人口数(x2)、捕鱼量(x3)、降水量(x4)的资料,建立y的水质分析模型. 湖水浓度与影响因素数据表 x1 1.376 1.375 1.387 1.401 1.412 1.428 1.445 1.477 x2 0.450 0.475 0.485 0.500 0.535 0.545 0.550 0.575 x3 2.170 2.554 2.676 2.713 2.823 3.088 3.122 3.262 x4 0.8922 1.1610 0.5346 0.9589 1.0239 1.0499 1.1065 1.1387 y 5.19 5.30 5.60 5.82 6.00 6.06 6.45 6.95 解 作出因变量y与各自变量的样本散点图 作散点图的目的主要是观察因变量y与各自变量间是否有比较好的线性关系,以便选择恰当的数学