高中数学 第一章 统计案例 1.1 回归分析 残差分析的相关概念辨析及应用素材 北师大版选修1-2
- 格式:doc
- 大小:96.00 KB
- 文档页数:4
回归分析的基本思想及其初步应用方法总结
1.建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).
(3)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程).
(4)按一定规则(如最小二乘法)估计回归方程中的参数.
(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.
2.分析两个变量相关关系的常用方法有:
(1)利用散点图进行判断:把样本数据表示的点在平面直角坐标系中作出,从而得到散点图,如果这些点大致分布在通过散点图中心的一条直线附近,那么就说这两个变量之间具有线性相关关系.
(2)利用相关指数R2进行判断.
3.对具有相关关系的两个变量进行统计分析时,首先进行相关性检验,在确认具有线性相关关系后,再求回归直线方程.
对于非线性回归问题,可以转化为线性回归问题去解决.。
回归分析的基本思想及其初步应用教材解读(一)重点通过实际操作进一步理解建立两相关变量的线性回归模型的思想,求线性回归方程,判断回归模型拟合的好坏.(二)难点残差变量的解释与分析及指标R 2的理解.(三)知识结构图(四)思维总结(1)求回归直线方程的一般方法.①作出散点图,将问题所给的数据在平面直角坐标系中描点,这样表示出的具有相关关系的两个变量的一组数据的图形就是散点图,从散点图中我们可以看出样本点是否呈条状分布,从而判断两个变量是否线性相关.②求回归系数a ^,b ^,其中称为残差平方和,残差平方和在一定程度上反映了所选回归模型的拟合效果.残差平方和越小,说明模型的拟合效果越好;残差平方和越大,说明拟合效果越差.③通过残差分析判断模型拟合效果:先计算出残差e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,然后横坐标选取为样本编号、解释变量或预报变量,纵坐标为残差,作出残差图.通过图形分析,如果样本点的残差较大,就要分析样本数据的采集是否有错误;另一方面,可以通过残差点分布的水平带状区域的宽窄说明模型拟合效果,反映回归方程的预报精度.带状区域的宽度越窄,说明模型的拟合精度越高,回归方程的预报精度越高.(3)相关指数R 2. ①相关指数的计算公式是R 2=其中为残差平方和.相关指数用来刻画回归模型拟合的效果,R 2的值越大,说明模型的拟合效果越好;R 2的值越小,说明拟合效果越差.②如果某组样本数据可以采取几种不同的回归模型进行回归分析,则可以通过比较R 2的值来作出选择,即选择R 2值大的模型作为这组数据的回归模型.③在线性回归模型中R 2是刻画回归效果的量,即表示回归模型的拟合效果,也表示解释变量和预报变量的线性相关关系.R 2表示解释变量对预报变量变化的贡献率.。
高中数学第一章统计案例1.1 回归分析的基本思想及初步应用2教案新人教 A 版选修12【学情分析】:学生已掌握建立线性回归模型的知识,并能用所学知识解决一些简单的实际问题。
在教学中,要结合实例让学生了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和。
初步了解可以通过求回归模型的相关指数或利用残差分析不同的回归模型的拟合精确度。
在起点低的班级中注重让学生参与实践,鼓励学生通过收集数据,经历数据处理的过程,从而进一步体会回归分析中的数理计算,初步形成运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。
让学生直观的观察、思考,借助于线性回归模型研究呈非线性关系的两个变量之间的关系。
【教学目标】:(1 )知识与技能:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和;了解偏差平方和分解的思想;了解判断刻画模型拟合效果的方法——相关指数和残差分析;了解非线性模型通过变换转化为线性回归模型。
(2 )过程与方法:本节内容先从大学中女大学生的甚高和体重之间的关系入手,求出相应的回归直线方程,从中也找出存在的不足,从而有进行回归分析的必要性,进而学习相关指数,用相关指数来刻画回归的效果。
(3)情感态度与价值观:从实际问题中发现自己已有知识的不足之处,激发学生的好奇心和求知欲,培养学生不满足于已有知识,勇于求知的良好个性品质,引导学生积极进取。
【教学重点】:1、了解判断刻画模型拟合效果的方法——相关指数和残差分析;2、通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型。
【教学难点】:1、解释残差变量的含义;2、了解偏差平方和分解的思想。
【课前准备】:课件【教学过程设计】:教学环节教学活动设计意图一、创设情境二、探究新知1由例1知,预报变量(体重)的值受解释变量(身高)或随机误差的影响。
2.问题一:为了刻画预报变量(体重)的变化在多大程度上与解释变量(身高)有关?在多大程度上与随机误差有关?我们引入了评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和。
回归分析的基本思想及其初步应用
—相关指数和残差分析.
.当一个变量取值改变时,另一个变量的取值随之改变,
这样的两个变量之间的关系叫做相关关系.
知识点2:线性回归分析
.回归分析是处理两个变量之间__________常用的一种统计方法.若两个变
的绝对值越接近
线性相关关系.通常当
__________
.在研究两
数据中是否存在可疑数据,这方面的分析
往
x
负相关
的观测数据的平均值都是
,则回归直线方程是
②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系
有如下的统计:。
高中数学第一章统计案例1.1 回归分析的基本思想及初步应用(1)练习(含解析)新人教A版选修1-2编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(高中数学第一章统计案例1.1 回归分析的基本思想及初步应用(1)练习(含解析)新人教A版选修1-2)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为高中数学第一章统计案例1.1 回归分析的基本思想及初步应用(1)练习(含解析)新人教A版选修1-2的全部内容。
回归分析的基本思想及其初步应用(一)班级:姓名:_____________1.下列命题中正确的是().①任何两个变量都具有相关关系②圆的周长与圆的半径具有相关关系③某商品的需求量与该商品的价格是一种非确定性关系④根据散点图求得的线性回归方程可能是没有意义的⑤两个变量的线性相关关系可以通过线性回归方程,把非确定性问题转化为确定性问题进行研究A.①③④B.②④⑤C.③④⑤D.②③⑤解析显然①是错误的,而②中圆的周长与圆的半径的关系为:C=2πR,是一种确定性的函数关系,故应选C.答案C2.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,那么必有( ).A.b与r的符号相同B.a与r的符号相同C.b与r的符号相反D.a与r的符号相反解析因为b>0时,两变量正相关,此时r>0;b<0时,两变量负相关,此时r<0.答案A3.下面4 个散点图中,不适合用线性回归模型拟合其中两个变量的是( )A. B.C. D.答案A4.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2.已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是().A.l1和l2有交点(s,t)B.l1与l2相交,但交点不一定是(s,t)C.l1与l2必定平行D.l1与l2必定重合解析都过样本中心点(s,t),但斜率不确定.答案A5.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel 软件计算得错误!=0。
残差分析的相关概念辨析及应用在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差^^2^1,,,n e e e 来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.残差分析一般有两种方法:(1)作残差图;(2)利用相关指数R 2来刻画回归效果..,,2,1,^^^^n ia xb y y y e i i i i i ^i e 称为相应于点(x i ,y i )的残差.类比样本方差估计总体方差的思想,可以用)2)(,(2121^^1^2^2nb a Q ne n ni i作为σ2的估计量,其中^a 和^b 由公式x b y a^^, ni ini iix x y y x x b121^)())((给出,Q(^a ,^b )称为残差平方和.可以用^2衡量回归方程的预报精度.通常,^2越小,预报精度越高.例1.设变量x,y 具有线性相关关系,试验采集了5组数据,下列几个点对应数据的采集可能有错误的是( )A 点A B.点B C.点C D.点E思路与技巧由散点图判断出,点A,B,C,D,F 呈线性分布,E 点远离这个区域,说明点E 数据有问题.解答D评析可以用Excel 画散点图,样本的散点图可以形象的展示两个变量的关系,画散点图的目的是用来确定回归模型的形式,若散点图呈条状分布,则x 与y 有较好的线性相关关系,散点图除了条状分布,还有其他形状的分布.例2.为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6根弹簧进行测量,得如下数据:(1)画出散点图.(2)如果散点图中的各点大致分布在一条直线的附近,求y 与x 之间的回归直线方程.(3)求出残差,进行残差分析.思路与技巧可以用Excel 画散点图,由散点图发现x 与y 是否呈线性分布,由此判断x 与y 之间是否有较好的线性相关关系,若有,求出线性回归方程,再画出残差图,进行残。
1.1 回归分析的基本思想及其初步应用学 习 目 标核 心 素 养1.了解随机误差、残差、残差图的概念.(重点)2.会通过分析残差判断线性回归模型的拟合效果.(重点)3.了解常见的非线性回归模型转化为线性回归模型的方法.(难点)1.通过回归分析的学习,培养了学生数据分析的素养.2.借助回归模型的建立,培养学生数学建模、数据分析及数学运算的素养.1.回归分析的相关概念 (1)回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. (2)回归直线方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数,其最小二乘估计分别为:⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x )(y i-y )∑i =1n(x i-x )2=∑i =1nx i y i-n x y ∑i =1nx 2i-n x 2,a ^=y -b ^x ,其中x =1n ∑i =1n x i ,y =1n ∑i =1ny i ,(x ,y )称为样本点的中心.(3)线性回归模型线性回归模型为y =bx +a +e ,其中a 和b 为模型的未知参数,e 称为随机误差,自变量x 称为解释变量,因变量y 称为预报变量.思考:在线性回归模型y =bx +a +e 中,e 产生的原因主要有哪几种?[提示] 随机误差产生的原因主要有以下几种: (1)所用的确定性函数不恰当引起的误差; (2)忽略了某些因素的影响; (3)存在观测误差. 2.残差的概念对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )而言,它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.3.刻画回归效果的方式残差图作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图残差图法残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高残差 平方和残差平方和为∑i =1n(y i -y ^i )2,残差平方和越小,模型的拟合效果越好相关 指数R 2R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2,R 2表示解释变量对于预报变量变化的贡献率,R 2越接近于1,表示模型的拟合效果越好1.在如图所示的四个散点图中,适合用线性回归模型拟合其中两个变量的是( )A .①②B .①③C .②③D .③④B [结合散点图可知①③中的散点大体分布在一条直线的左右两侧,故选B.] 2.在两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25 A [R 2越大拟合效果越好,故选A.]3.已知回归直线方程为y ^=2x +1,而试验得到的一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是( )A .0.01B .0.02C .0.03D .0.04C [当x =2时,y ^=5;当x =3时,y ^=7;当x =4时,y ^=9, ∴e ^1=4.9-5=-0.1,e ^2=7.1-7=0.1,e ^3=9.1-9=0.1. ∴∑3i =1 e ^2i =(-0.1)2+(0.1)2+(0.1)2=0.03,故选C.]求线性回归方程【例1】 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:x 6 8 10 12 y 2 356(1)请画出上表数据的散点图(要求:点要描粗);(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力. [解] (1)如图:(2)∑i =1nx i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9,y =2+3+5+64=4,∑i =1nx 2i =62+82+102+122=344,b ^=158-4×9×4344-4×92=1420=0.7,a ^=y -b ^x =4-0.7×9=-2.3, 故线性回归方程为y ^=0.7x -2.3.(3)由(2)中线性回归方程当x =9时,y ^=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.求线性回归方程的基本步骤(1)列出散点图,从直观上分析数据间是否存在线性相关关系. (2)计算:x ,y,∑i =1nx 2i ,∑i =1n y 2i ,∑i =1n x i y i . (3)代入公式求出y ^=b ^x +a ^中参数b ^,a ^的值. (4)写出线性回归方程并对实际问题作出估计.提醒:只有在散点图大致呈线性分布时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.[跟进训练]1.某种产品的广告费用支出x 与销售额y (单元:百万元)之间有如下的对应数据:x /百万元 2 4 5 6 8 y /百万元3040605070(1)画出散点图;(2)求线性回归方程;(3)试预测广告费用支出为10百万元时的销售额. [解] (1)散点图如图所示:(2)列出下表,并用科学计算器进行有关计算:i 1 2 3 4 5 合计 x i 2 4 5 6 8 25 y i 30 40 60 50 70 250 x i y i 60 160 300 300 560 1 380 x 2i416253664145所以,x =255=5,y =2505=50,∑i =15x 2i =145,∑i =15x i y i =1 380. 于是可得b ^=∑i =15x i y i -5x y∑i =15x 2i -5x2=1 380-5×5×50145-5×52=6.5,a ^=y -b ^x =50-6.5×5=17.5. 所以所求的线性回归方程为y ^=6.5x +17.5.(3)根据(2)中求得的线性回归方程,当广告费用支出为10百万元时, y ^=6.5×10+17.5=82.5(百万元),即广告费用支出为10百万元时,销售额大约为82.5百万元.线性回归分析如下:x15.025.830.036.644.4y 39.4 42.9 42.9 43.1 49.2(1)以x 为解释变量,y 为预报变量,作出散点图;(2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗; (3)计算各组残差,并计算残差平方和; (4)求R 2,并说明残差变量对有效穗的影响占百分之几?(参考数据:∑5i =1x 2i =5 101.56,∑5i =1y 2i =9 511.43,∑5i =1x i y i =6 746.76)[解] (1)散点图如下.(2)由(1)中散点图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.设回归方程为y ^=b ^x +a ^. x =30.36,y =43.5,∑5i =1x 2i =5 101.56,∑5i =1y 2i =9 511.43.x y =1 320.66,x 2=921.729 6, ∑5i =1x i y i =6 746.76.则b ^=∑5i =1x i y i -5x y∑5i =1x 2i -5x2≈0.29,a ^=y -b ^x ≈34.70.故所求的回归直线方程为y ^=0.29x +34.70. 当x =56.7时,y ^=0.29×56.7+34.70=51.143. 估计成熟期有效穗为51.143.(3)由于y ^i =b ^x i +a ^,可以算得e ^i =y i -y ^i 分别为e ^1=0.35,e ^2=0.718,e ^3=-0.5,e ^4=-2.214,e ^5=1.624,残差平方和:∑5i =1e ^2i ≈8.43.(4)∑5i =1(y i -y )2=50.18,故R 2=1-8.4350.18≈0.832.所以解释变量小麦基本苗数对总效应约贡献了83.2%,残差变量贡献了约1-83.2%=16.8%.“相关指数R 2、残差图”在回归分析中的作用(1)相关指数R 2是用来刻画回归效果的,由R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2可知,R 2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.(2)残差图也是用来刻画回归效果的,判断依据是残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报的精度也越高.[跟进训练]2.关于x 与y 有如下数据:x24 5 6 8 y 3040605070有如下的两个线性模型:(1)y ^=6.5x +17.5;(2)y ^=7x +17.试比较哪一个拟合效果更好. [解] 由(1)可得y i -y ^i 与y i -y 的关系如下表:y i -y ^i -0.5 -3.5 10 -6.5 0.5 y i -y-20-101020∴∑i =15(y i -y ^i )2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,∑i =15(y i -y )2=(-20)2+(-10)2+102+02+202=1 000.∴R 21=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2=1-1551 000=0.845.由(2)可得y i -y ^i 与y i -y 的关系如下表:y i -y ^i -1 -5 8 -9 -3 y i -y-20-101020∴∑i =15(y i -y ^i )2=(-1)2+(-5)2+82+(-9)2+(-3)2=180,∑i =15(y i -y )2=(-20)2+(-10)2+102+02+202=1 000.∴R 22=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2=1-1801 000=0.82,由于R 21=0.845,R 22=0.82,0.845>0.82, ∴R 21>R 22.∴(1)的拟合效果好于(2)的拟合效果.非线性回归分析1 已知x 和y 之间的一组数据,则下列四个函数中,模拟效果最好的为哪一个?x 1 2 3 y 35.9912.01①y =3×2x -1;2③y =4x; ④y =x 2.提示:观察散点图中样本点的分布规律,可判断样本点分布在曲线y =3×2x -1附近, 所以模拟效果最好的为①.2.如何将探究1函数变换为线性函数?提示:将y =3×2x -1两边取自然对数得ln y =ln 3+(x -1)ln 2.令⎩⎪⎨⎪⎧y ′=ln y ,x ′=x ,则原方程变为y ′=ln 3+x ′ln 2-ln 2=ln 32+x ′ln 2.这样y ′与x ′成线性函数关系.【例3】 为了研究某种细菌随时间x 变化繁殖的个数,收集数据如下:(1)断:y =a +bx 与y =c 1e c 2x哪一个作为繁殖的个数y 关于时间x 变化的回归方程类型为最佳?(给出判断即可,不必说明理由)其中z i =ln y i ;z =16∑i =16z i ;(2)根据(1)的最佳判断结果及表中的数据,建立y 关于x 的回归方程.参考公式:b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x .思路探究:(1)根据收集数据,可得数据的散点图;(2)由散点图看出样本点分布在一条指数型曲线y =c e bx (c >0)的周围,则ln y =bx +ln c .变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合,即可求出y 对x 的回归方程.[解] (1)作出散点图,如图①所示.① ②由散点图看出样本点分布在一条指数函数y =c 1e c 2x 的周围,于是选择y =c 1e c 2x. (2)令z =ln y , 则z =bx +a .x 1 2 3 4 5 6 z1.792.483.223.894.555.25相应的散点图如图②.从图②可以看出,变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合.由b ^=∑i =16(x i -x )(z i -z )∑i =16(x i -x )2≈0.69,a ^=z -b ^x =1.115, 得z =0.69x +1.115; 则有y ^=e 0.69x +1.115.1.(变结论)在本例条件不变的情况下,试估计第7天细菌繁殖个数.[解] ∵y ^=e 0.69x +1.115, ∴当x =7时,y ^≈382(个). 即第7天细菌繁殖个数约为382个. 2.(变结论)计算相关指数. [解] 残差计算如下表:天数 1 2 3 4 5 6 残差0.080.12-0.83-0.821.061.52则∑i =1ne ^2i =∑i =1n (y i -y ^i )2=4.816 1,∑i =1n (y i -y )2=24 642.8,∴R 2=1-4.816 124 642.8≈0.999 8,即解释变量“天数”对预报变量“细菌繁殖个数”解释了99.98%.解决非线性回归问题的方法及步骤(1)确定变量:确定解释变量为x ,预报变量为y ;(2)画散点图:通过观察散点图并与学过的函数(幂、指数、对数函数、二次函数)作比较,选取拟合效果好的函数模型;(3)变量置换:通过变量置换把非线性回归问题转化为线性回归问题; (4)分析拟合效果:通过计算相关指数等来判断拟合效果; (5)写出非线性回归方程.1.对具有相关关系的两个变量进行回归分析时,首先要进行相关关系的判断(可作散点图),在确定具有相关关系后,再求回归直线方程.2.对于非线性的回归分析问题可以转化为线性回归分析去解决.3.用相关指数R 2来刻画回归的效果,R 2的值越大,说明残差平方和越小,其模型拟合的效果越好.1.判断正误(1)相关指数R 2越小,线性回归方程的拟合效果越好.( )(2)在线性回归模型中,e 是bx +a 预报真实值y 的随机误差,它是一个可观测的量. (3)线性回归方程y ^=b ^x +a ^必过样本点的中心(x ,y ). ( )[答案] (1)× (2)× (3)√2.两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )A .y =a ·x bB .y =a +b ln xC .y =a ·e bxD .y =a ·e b xB [由散点图可知,此曲线类似对数函数型曲线,因此可用函数y =a +b ln x 模型进行拟合.]3.若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =bx i +a +e i (i =1,2,…,n ),且e i 恒为0,则R 2为________.1 [∵e i 恒为0,∴样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )均落在直线y =bx +a 上,∴变量x ,y 成函数关系,即R 2=1.]4.某个服装店经营某种服装,在某周内获纯利y (单位:元),与该周每天销售这种服装件数x 之间的一组数据关系见表:x34 5 6 7 8 9 y 66697381899091已知∑7i =1x 2i =280,∑7i =1y 2i =45 309,∑i =1x i y i =3 487.(1)求x ,y ;(2)已知纯利y 与每天销售件数x 之间线性相关,求出y 关于x 的回归直线方程;(3)求残差平方和、相关指数.[解] (1)x =3+4+5+6+7+8+97=6,y =66+69+73+81+89+90+917≈79.86.(2)由于y 与x 有线性相关关系,可设回归直线方程为y ^=b ^x +a ^, 则b ^=3 487-7×6×79.86280-7×36≈4.75,a ^=79.86-6×4.75=51.36,所以y 关于x 的回归直线方程为y ^=4.75x +51.36. (3)列出残差表如下:所以残差的平方和为0.392+(-1.36)2+(-2.11)2+1.142+4.392+0.642+(-3.11)2=37.107 2.相关指数R 2=1-37.107 2∑7i =1(y i -y )2=1-37.107 2668.857 2≈0.944 6.。
残差分析的相关概念辨析及应用
在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差^
^2^1,,,n e e e 来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.残差分析一般有两种方法:(1)作残差图;(2)利用相关指数R 2来刻画回归效果.
.,,2,1,^^^^n i a x b y y y e i i i i i ^
i e 称为相应于点(x i ,y i )的残差.类比
样本方差估计总体方差的思想,可以用)2)(,(2121^^
1
^2^2
n b a Q n e n n i i 作
为σ2
的估计量,其中^a 和^b 由公式x b y a ^^ ,
n
i i
n
i i i
x x
y y x x
b 1
2
1
^
)()
)((给出,Q(^
a ,
^
b )称为残差平方和.可以用^
2
衡量回归方程的预报精度.通常,^
2 越小,预报
精度越高.
例1.设变量x,y 具有线性相关关系,试验采集了5组数据,下列几个点对应数据的采集可能有错误的是( )
A 点A B.点
B C.点
C D.点E
思路与技巧 由散点图判断出,点A,B,C,D,F 呈线性分布,E 点远离这个区域,说明点E 数据有问题. 解答D
评析 可以用Excel 画散点图,样本的散点图可以形象的展示两个变量的关系,画散点图的目的是用来确定回归模型的形式,若散点图呈条状分布,则x 与y 有较好的线性相关关系,散点图除了条状分布,还有其他形状的分布.
例2.为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6根弹簧进行测量,得如下数据:
(1)画出散点图.
(2)如果散点图中的各点大致分布在一条直线的附近,求y与x之间的回归直线方程.
(3)求出残差,进行残差分析.
思路与技巧可以用Excel画散点图,由散点图发现x与y是否呈线性分布,由此判断x与y之间是否有较好的线性相关关系,若有,求出线性回归方程,再画出残差图,进行残差分析.
解答 (1)由Excel表格画散点图如图
(2)设yˆ=bx+a是线性回归直线方程,
以重量为横坐标,以残差为纵坐标画残差图如图
由残差图看出,这些样本点的残差对应点均匀地落在水平带状区域内,宽度越窄,说明模型拟合精度越高,回归方程预报精度越高.
评析回归模型中,残差变量不能被直接观测到,必须通过模型拟合后计算得到.画残差散点图的目的就是直观观测残差图,发现观测数据中可能出现的错误及所用模型是否恰当,若样本点残差较大,需确认这个点在采集过程中是否存在错误,若有,需重新采集数据,重新利用数据拟合.若采集数据没有错误,就另找原因.若残差点比较均匀地落在水平带状区域内,说明选用模型较合适,带状区域宽度越窄,模型拟合精度越高,回归方程预报精度越高.
同学们学习残差时应明确以下几点:(1)误差e受许多条件的影响,也受所选用的线性模型的影响,因此线性模型往往只是一种近似的模型.(2)作残差图有时不够精确,也难于认定拟合程度的好坏,因而多数情况下,选用计算相关指数R2来说明拟合效果.(3)可以对某组数据采用几种不同的回归方程进行分析,也可以比较几个R2的值,选择R2大的模型作为这组数据的回归模型.(4)回归方程只适用于我们所研究的样本的总体;建立的回归方程一般都有时间性;样本取值的范围会影响回归方程的适用范围,一般不能超过这个范围,否则没有实用价值;不能期望回归方程得到的预报值就是预报变量的精确值,它是预报变量的可能取值的平均值。
练习:
为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6根弹簧进行测量,数据如下表:
(1)画出散点图.
(2)如果散点图中的各点大致分布在一条直线的附近,求y与x之间的回归直线方程.
(3)对x.y两个变量进行相关性检验.
(4)残差平方和是多少?
解:(1)如下图所示.
从散点图看,这是一个属于线性回归模型的问题.
由于r与1非常接近,说明y与x之间存在线性相关关系.
=0.013179,即残差平方和是0.013179.。