回归分析的基本思想及其初步应用(三)
- 格式:doc
- 大小:129.50 KB
- 文档页数:1
回归分析的基本思想及其初步应用1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归直线方程,并用回归直线方程进行预报. 2.线性回归模型(1)在线性回归直线方程y ^=a ^+b ^x 中,b ^=∑ni =1 (x i -x )(y i -y )∑ni =1(x i -x )2,a ^=y --b ^x -,其中x -=1n ∑ni =1x i ,y -=1n∑ni =1y i ,(x ,y )称为样本点的中心,回归直线过样本点的中心. (2)线性回归模型y =bx +a +e ,其中e 称为随机误差,自变量x 称为解释变量,因变量y 称为预报变量.[注意] (1)非确定性关系:线性回归模型y =bx +a +e 与确定性函数y =a +bx 相比,它表示y 与x 之间是统计相关关系(非确定性关系),其中的随机误差e 提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a ,b 的工具.(2)线性回归方程y ^=b ^x +a ^中a ^,b ^的意义是:以a ^为基数,x 每增加1个单位,y 相应地平均增加b ^个单位.3.刻画回归效果的方式方式方法计算公式 刻画效果R 2R 2=1-∑ni =1(y i -y ^i )2∑n i =1(y i -y )2R 2越接近于1,表示回归的效果越好残差图e ^i 称为相应于点(x i ,y i )的残差,e ^i =y i -y ^i残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高残差平方和∑ni =1(y i -y ^i )2 残差平方和越小,模型的拟合效果越好判断正误(正确的打“√”,错误的打“×”) (1)求线性回归方程前可以不进行相关性检验.( )(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号.( )(3)利用线性回归方程求出的值是准确值.( ) 答案:(1)× (2)√ (3)×变量x 与y 之间的回归方程表示( )A .x 与y 之间的函数关系B .x 与y 之间的不确定性关系C .x 与y 之间的真实关系形式D .x 与y 之间的真实关系达到最大限度的吻合 答案:D在两个变量y 与x 的回归模型中,分别选择了4个不同的模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98 B .模型2的相关指数R 2为0.80 C .模型3的相关指数R 2为0.50 D .模型4的相关指数R 2为0.25 答案:A已知线性回归方程y ^=0.75x +0.7,则x =11时,y 的估计值为________. 答案:8.95探究点1 线性回归方程在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y 与腐蚀时间x 之间的一组观察值如下表.x (s) 5 10 15 20 30 40 50 60 70 90 120 y (μm)610101316171923252946(1)画出散点图;(2)求y 对x 的线性回归方程;(3)利用线性回归方程预测时间为100 s 时腐蚀深度为多少. 【解】 (1)散点图如图所示.(2)从散点图中,我们可以看出y 对x 的样本点分布在一条直线附近,因而求回归直线方程有意义.x =111(5+10+15+ (120)=51011,y =111(6+10+10+…+46)=21411,a ^=y -b ^x ≈21411-0.304×51011= 5.36. 故腐蚀深度对腐蚀时间的线性回归方程为y =0.304x + 5.36.(3)根据(2)求得的线性回归方程,当腐蚀时间为100 s 时,y ^=5.36+0.304×100=35.76(μm),即腐蚀时间为100 s 时腐蚀深度大约为35.76 μm.求线性回归方程的三个步骤(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系. (2)求回归系数:若存在线性相关关系,则求回归系数.(3)写方程:写出线性回归方程,并利用线性回归方程进行预测说明.炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时钢水的含碳量x 与冶炼时间y (从炼料熔化完毕到出钢的时间)的数据(x i ,y i )(i =1,2,…,10)并已计算出=1589,i =110y i =1 720,故冶炼时间y 对钢水的含碳量x 的回归直线方程为y ^=1.267x -30.47. 探究点2 线性回归分析假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,今测得5组数据如下:(1)以x 为解释变量,y 为预报变量,作出散点图;(2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗; (3)计算各组残差,并计算残差平方和;(4)求相关指数R 2,并说明残差变量对有效穗的影响占百分之几? 【解】 (1)散点图如下.(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系.设回归方程为y ^=b ^x +a ^,x -=30.36,y -=43.5,(1)该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R 2来分析函数模x 15.0 25.8 30.0 36.6 44.4 y39.442.942.943.149.2型的拟合效果,在此基础上,借助回归方程对实际问题进行分析. (2)刻画回归效果的三种方法①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适; ②残差平方和法:残差平方和 i =1n(y i -y ^i )2越小,模型的拟合效果越好;关于x 与y 有如下数据:x 2 4 5 6 8 y3040605070由(2)可得y i -y ^i 与y i -y -的关系如下表:y i -y ^i -1 -5 8 -9 -3 y i -y --20-101020由于R 21=0.845,R 22=0.82,0.845>0.82, 所以R 21>R 22.所以(1)的拟合效果好于(2)的拟合效果. 探究点3 非线性回归分析某地今年上半年患某种传染病的人数y (人)与月份x (月)之间满足函数关系,模型为y =a e bx ,确定这个函数解析式.月份x /月 1 2 3 4 5 6 人数y /人526168747883【解】 设u =ln y ,c =ln a , 得u ^=c ^+b ^x ,则u 与x 的数据关系如下表:x12 3 4 56u =ln y 3.95 4.114.224.3044.356 7 4.418 8非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程. (4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果. (5)根据相应的变换,写出非线性回归方程.某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:x(千册)1 2 3 5 10 20 30 50 100 200 y (元)10.155.524.082.852.111.621.411.301.211.15检验每册书的成本费y (元)与印刷册数的倒数1x之间是否具有线性相关关系,如有,求出y 对x 的回归方程,并画出其图形.解:首先作变量置换u =1x,题目中所给的数据变成如下表所示的10对数据.u i 1 0.5 0.33 0.2 0.1 0.05 0.03 0.02 0.01 0.005 y i10.155.524.082.852.111.621.411.301.211.15然后作相关性检测.经计算得r ≈0.999 8>0.75,从而认为u 与y 之间具有线性相关关系,由公式得a ^≈1.125,b ^≈8.973,所以y ^=1.125+8.973u ,最后回代u =1x ,可得y ^=1.125+8.973x.这就是题目要求的y 对x 的回归方程.回归方程的图形如图所示,它是经过平移的反比例函数图象的一个分支.1.关于回归分析,下列说法错误的是( ) A .回归分析是研究两个具有相关关系的变量的方法 B .散点图中,解释变量在x 轴,预报变量在y 轴C .回归模型中一定存在随机误差D .散点图能明确反映变量间的关系解析:选D.用散点图反映两个变量间的关系时,存在误差. 2.下列关于统计的说法:①将一组数据中的每个数据都加上或减去同一个常数,方差恒不变; ②回归方程y ^=b ^x +a ^必经过点(x ,y ); ③线性回归模型中,随机误差e =y i -y ^i ;④设回归方程为y ^=-5x +3,若变量x 增加1个单位,则y 平均增加5个单位. 其中正确的为________(写出全部正确说法的序号).解析:①正确;②正确;③线性回归模型中,随机误差的估计值应为e ^i =y i -y ^i ,故错误;④若变量x 增加1个单位,则y 平均减少5个单位,故错误. 答案:①②3.某商场经营一批进价是30元/台的小商品,在市场试销中发现,此商品的销售单价x (x 取整数)(元)与日销售量y (台)之间有如下关系:x 35 40 45 50 y56412811(1)画出散点图,并判断y 与x 是否具有线性相关关系;(2)求日销售量y 对销售单价x 的线性回归方程(方程的斜率保留一个有效数字); (3)设经营此商品的日销售利润为P 元,根据(2)写出P 关于x 的函数关系式,并预测当销售单价x 为多少元时,才能获得最大日销售利润.解:(1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量具有线性相关关系.(2)因为x -=14×(35+40+45+50)=42.5,(3)依题意有P =(161.5-3x )(x -30) =-3x 2+251.5x -4 845=-3⎝⎛⎭⎪⎫x -251.562+251.5212-4 845. 所以当x =251.56≈42时,P 有最大值,约为426元.故预测当销售单价为42元时,能获得最大日销售利润.知识结构深化拓展线性回归模型的模拟效果(1)残差图法:观察残差图,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.(2)残差的平方和法:一般情况下,比较两个模型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果.残差平方和越小的模型,拟合的效果越好.(3)R 2法:R 2的值越大,说明残差平方和越小,也就是说模型拟合的效果越好.[注意] r 的绝对值越大说明变量间的相关性越强,通常认为r 的绝对值大于等于0.75时就是有较强的相关性,同样R 2也是如此,R 2越大拟合效果越好.[A 基础达标]1.废品率x %和每吨生铁成本y (元)之间的回归直线方程为y ^=256+3x ,表明( ) A .废品率每增加1%,生铁成本增加259元 B .废品率每增加1%,生铁成本增加3元 C .废品率每增加1%,生铁成本平均每吨增加3元 D .废品率不变,生铁成本为256元解析:选C.回归方程的系数b ^表示x 每增加一个单位,y ^平均增加b ^,当x 为1时,废品率应为1%,故当废品率增加1%时,生铁成本平均每吨增加3元.2.已知某产品连续4个月的广告费用为x i (i =1,2,3,4)千元,销售额为y i (i =1,2,3,4)万元,经过对这些数据的处理,得到如下数据信息:①x 1+x 2+x 3+x 4=18,y 1+y 2+y 3+y 4=14;②广告费用x 和销售额y 之间具有较强的线性相关关系;③回归直线方程y ^=b ^x +a ^中,b ^=0.8(用最小二乘法求得),那么当广告费用为6千元时,可预测销售额约为( )A .3.5万元B .4.7万元C .4.9万元D .6.5万元解析:选B.依题意得x =4.5,y =3.5,由回归直线必过样本点中心得a ^=3.5-0.8×4.5=-0.1,所以回归直线方程为y ^=0.8x -0.1.当x =6时,y ^=0.8×6-0.1=4.7.3.某化工厂为预测某产品的回收率y ,需要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得的线性回归方程是( )A.y ^=11.47+2.62xB.y ^=-11.47+2.62x C.y ^=2.62+11.47x D.y ^=11.47-2.62x 解析:选A.由题中数据得x =6.5,y =28.5,a ^=y -b ^x =28.5-2.62×6.5=11.47,所以y 与x 的线性回归方程是y ^=2.62x +11.47.故选A.4.若某地财政收入x 与支出y 满足线性回归方程y =bx +a +e (单位:亿元),其中b =0.8,a =2,|e |≤0.5.如果今年该地区财政收入10亿元,则年支出预计不会超过( )A .10亿元B .9亿元C .10.5亿元D .9.5 亿元解析:选C.代入数据y =10+e ,因为|e |≤0.5, 所以9.5≤y ≤10.5,故不会超过10.5亿元.5.某种产品的广告费支出x 与销售额y (单位:万元)之间的关系如下表:y 与x 的线性回归方程为y =6.5x +17.5,当广告支出5万元时,随机误差的效应(残差)为________.解析:因为y 与x 的线性回归方程为y ^=6.5x +17.5,当x =5时,y ^=50,当广告支出5万元时,由表格得:y =60,故随机误差的效应(残差)为60-50=10. 答案:106.若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =bx i +a +e i (i =1,2,…,n ),且e i 恒为0,则R 2为________.解析:由e i 恒为0,知y i =y ^i ,即y i -y ^i =0, 故R 2=1-∑ni =1 (y i -y ^i )2∑n i =1 (y i -y )2=1-0=1.答案:17.某个服装店经营某种服装,在某周内获纯利y (元)与该周每天销售这种服装件数x 之间的一组数据关系见表:已知∑7i =1x 2i =280,∑7i =1x i y i =3 487. (1)求x ,y ;(2)已知纯利y 与每天销售件数x 线性相关,试求出其回归方程. 解:(1)x =3+4+5+6+7+8+97=6,y =66+69+73+81+89+90+917=5597.(2)因为y 与x 有线性相关关系,所以b ^=∑7i =1x i y i-7x y ∑7i =1x 2i -7x 2=3 487-7×6×5597280-7×36=4.75,a ^=5597-6×4.75=71914≈51.36.故回归方程为y ^=4.75 x +51.36.8.已知某校5个学生的数学和物理成绩如下表:(1)假设在对这5名学生成绩进行统计时,把这5名学生的物理成绩搞乱了,数学成绩没出现问题,问:恰有2名学生的物理成绩是自己的实际分数的概率是多少?(2)通过大量事实证明发现,一个学生的数学成绩和物理成绩具有很强的线性相关关系,在上述表格是正确的前提下,用x 表示数学成绩,用y 表示物理成绩,求y 与x 的回归方程; (3)利用残差分析回归方程的拟合效果,若残差和在(-0.1,0.1)范围内,则称回归方程为“优拟方程”,问:该回归方程是否为“优拟方程”?参考数据和公式:y ^=b ^x +a ^,其中.解:(1)记事件A 为“恰有2名学生的物理成绩是自己的实际成绩”, 则P (A )=2C 25A 55=16.(2)因为x =80+75+70+65+605=70,y =70+66+68+64+625=66,学生的编号i 1 2 3 4 5 数学x i 80 75 70 65 60 物理y i7066686462[B 能力提升]9.假设关于某设备的使用年限x和所支出的维修费用y(万元)有如表的统计资料:使用年限x 2 3 4 5 6 维修费用y 2.2 3.8 5.5 6.5 7.010.(选做题)某地区不同身高的未成年男性的体重平均值如表所示:身高x(cm)60708090100110体重y(kg) 6.137.909.9912.1515.0217.50身高x(cm)120130140150160170体重y(kg)20.9226.8631.1138.8547.2555.05 (1)(2)如果体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,那么这个地区一名身高175 cm 、体重82 kg 的在校男生体重是否正常? 解:(1)根据题表中的数据画出散点图如图所示.由图可看出,样本点分布在某条指数函数曲线y =c 1e c 2x的周围, 于是令z =ln y ,得下表:x 60 70 80 90 100 110 z 1.81 2.07 2.30 2.50 2.71 2.86 x 120 130 140 150 160 170 z3.043.293.443.663.864.01作出散点图如图所示:由表中数据可得z 与x 之间的回归直线方程为 z ^=0.662 5+0.020x ,则有y ^=e 0.662 5+0.020x .(2)当x =175时,预报平均体重为y ^=e 0.662 5+0.020×175≈64.23, 因为64.23×1.2≈77.08<82,所以这个男生偏胖.。
3.21 回归分析的基本思想及其初步应用【学习目标】1. 通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤。
2. 能作出散点图,能求其回归直线方程。
3. 会用所学的知识对简单的实际问题进行回归分析。
【要点梳理】要点一、变量间的相关关系1. 变量与变量间的两种关系:(1) 函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确定.例如圆的面积.S 与半径r 之间的关系S=πr 2为函数关系.(2)相关关系:这是一种非确定性关系.当一个变量取值一定时,另一个变量的取值带有一定的随机性,这两个变量之间的关系叫做相关关系。
例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系. 2. 相关关系的分类:(1)在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量; (2)两个变量均为随机变量,如某学生的语文成绩与化学成绩. 3. 散点图:将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图.它直观地描述了两个变量之间有没有相关关系.这是我们判断的一种依据. 4. 回归分析:与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析。
要点二、线性回归方程:1.回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
2.回归直线方程ˆˆˆybx a =+ 对于一组具有线性相关关系的数据11(,)x y ,22(,)x y ,……,(,)n n x y ,其回归直线ˆˆˆybx a =+的截距和斜率的最小二乘法估计公式分别为:121()()ˆ()niii ni i x x y y bx x ==--=-∑∑,ˆˆay bx =- 其中x 表示数据x i (i=1,2,…,n )的均值,y 表示数据y i (i=1,2,…,n )的均值,xy 表示数据x i y i (i=1,2,…,n )的均值.a 、b 的意义是:以a 为基数,x 每增加一个单位,y 相应地平均变化b 个单位.要点诠释:①回归系数121()()ˆ()niii nii x x y y bx x ==--=-∑∑,也可以表示为1221ˆni ii nii x y nx ybxnx==-=-∑∑,这样更便于实际计算。
1.1 回归分析的基本思想及其初步应用1.了解回归分析的思想和方法.(重点)2.掌握相关系数的计算和判断线性相关的方法.(重点)3.了解常见的非线性回归模型转化为线性回归模型的方法.(难点)[基础·初探]教材整理1 线性回归模型阅读教材P 2~P 4“探究”以上内容,完成下列问题.1.在线性回归方程y ^=a ^+b ^x 中b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x -.其中x=1n ∑i =1n x i ,y =1n ∑i =1ny i ,(x ,y )称为样本点的中心,回归直线过样本点的中心.2.线性回归模型y =bx +a +e ,其中a 和b 为模型的未知参数,e 称为随机误差.3.随机误差产生的原因主要有以下几种:(1)所用的确定性函数不恰当引起的误差; (2)忽略了某些因素的影响; (3)存在观测误差.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中正确的是________(填序号).(1)y 与x 具有正的线性相关关系; (2)回归直线过样本点的中心(x ,y );(3)若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg ; (4)若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg. 【解析】 回归方程中x 的系数为0.85>0,因此y 与x 具有正的线性相关关系,(1)正确;由回归方程系数的意义可知回归直线过样本点的中心(x ,y ),(2)正确; 依据回归方程中b ^的含义可知,x 每变化1个单位,y ^相应变化约0.85个单位,(3)正确;用回归方程对总体进行估计不能得到肯定结论,故(4)不正确. 【答案】 (1)(2)(3)教材整理2 刻画回归效果的方式阅读教材P 4“探究”以下至P 6“例2”以上内容,完成下列问题.残差对于样本点(x i ,y i )(i =1,2,…,n )的随机误差的估计值e ^i =y i -y ^i ,称为相应于点(x i ,y i )的残差残差图 利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图残差 图法 残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型的拟合精度越高 残差平 方和残差平方和为∑i =1n (y i -y ^i )2,残差平方和越小,模型的拟合效果越好相关指 数R 2R 2=1-∑i =1n (y i -y ^i )2∑i =1n(y i -y )2,R 2表示解释变量对于预报变量变化的贡献率,R 2越接近于1,表示回归的效果越好甲、乙、丙、丁4位同学各自对A 、B 两变量做回归分析,分别得到散点图与残差平方和∑i =1n (y i -y ^i )2如表所示:甲 乙 丙 丁散点图残差平方和115106124103____(填“甲”“乙”“丙”“丁”)同学的试验结果体现拟合A 、B 两变量关系的模型拟合精度高.【解析】 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R 2表达式中∑i =1n(y i -y )2为确定的数,则残差平方和越小,R 2越大),由回归分析建立的线性回归模型的拟合效果就越好,由试验结果知丁要好些.【答案】 丁[小组合作型]回归分析的有关概念(1)有下列说法:①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归方程y ^=b ^x +a ^,可以估计和观测变量的取值和变化趋势; ④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确命题的个数是( ) A .1 B .2 C .3D .4(2)如果某地的财政收入x 与支出y 满足线性回归方程y ^=b ^x +a ^+e (单位:亿元),其中b ^=0.8,a ^=2,|e |≤0.5,如果今年该地区财政收入10亿元,则今年支出预计不会超过________亿. 【导学号:81092000】【自主解答】 (1)①反映的是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③解释的是回归方程y ^=b ^x +a ^的作用,故也正确.④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系.(2)由题意可得:y ^=0.8x +2+e ,当x =10时,y ^=0.8×10+2+e =10+e ,又|e |≤0.5,∴9.5≤y ^≤10.5.故今年支出预计不会超过10.5亿. 【答案】 (1)C (2)10.51.在分析两个变量的相关关系时,可根据样本数据散点图确定两个变量之间是否存在相关关系,然后利用最小二乘法求出回归直线方程.2.由线性回归方程给出的是一个预报值而非精确值.3.随机误差的主要来源(1)线性回归模型与真实情况引起的误差;(2)忽略了一些因素的影响产生的误差;(3)观测与计算产生的误差.4.残差分析是回归分析的一种方法.[再练一题]1.下列有关线性回归的说法,不正确的是________(填序号).①自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;②在平面直角坐标系中用描点的方法得到表示具有相关关系的两个量的一组数据的图形叫做散点图;③线性回归方程最能代表观测值x,y之间的关系;④任何一组观测值都能得到具有代表意义的回归直线方程.【解析】只有具有线性相关的两个观测值才能得到具有代表意义的回归直线方程.【答案】④线性回归分析为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:x 51015202530y 7.258.128.959.9010.911.8(2)求出R2;(3)进行残差分析.【精彩点拨】 作散点图→得到x ,y 有较好线性关系→代入公式求得线性回归方程→求出R 2进行分析【自主解答】 (1)散点图如图.x =16(5+10+15+20+25+30)=17.5,y =16(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑i =16x 2i =2 275,∑i =16x i y i =1 076.2,计算得,b ^≈0.183,a ^≈6.285, 所求回归直线方程为y ^=0.183x +6.285. (2)列表如下:y i -y ^i 0.05 0.005-0.08 -0.045 0.04 0.025y i -y-2.24 -1.37 -0.540.411.412.31所以∑i =16(y i -y ^i )2≈0.013 18,∑i =16 (y i -y )2=14.678 4.所以,R 2=1-0.013 1814.678 4≈0.999 1, 回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.“相关指数R2、残差图”在回归分析中的作用1.相关指数R2是用来刻画回归效果的,由R2=1-∑i=1n(y i-y^i)2∑i=1n(y i-y)2可知,R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.2.残差图也是用来刻画回归效果的,判断依据是残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报的精度也越高.[再练一题]2.已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:x 1416182022y 121075 3【导学号:81092001】【解】x=15(14+16+18+20+22)=18,y=15(12+10+7+5+3)=7.4,∑i =15x 2i =142+162+182+202+222=1 660,∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5x2=620-5×18×7.41 660-5×182=-1.15.a ^=7.4+1.15×18=28.1,所以所求回归直线方程是y ^=-1.15x +28.1. 列出残差表:y i -y ^i 0 0.3 -0.4 -0.1 0.2 y i -y4.62.6-0.4-2.4-4.4所以,∑i =15(y i -y ^i )2=0.3,∑i =15 (y i -y )2=53.2,R 2=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2≈0.994,所以回归模型的拟合效果很好.[探究共研型]非线性回归分析探究1 数曲线y =ca x (a >0且a ≠1,c >0,a ,c 为常数)的周围,如何进行适当变换化为线性关系?【提示】 对y =ca x 两边取自然对数ln y =ln(ca x ), 即ln y =ln c +x ln a ,令⎩⎪⎨⎪⎧y ′=ln y ,x ′=x ,原方程变为y ′=ln c +x ′ln a , 然后按线性回归模型求出ln a ,ln c 即可.探究2 已知x 和y 之间的一组数据,则下列四个函数中,模拟效果最好的为哪一个?x 1 2 3 y35.9912.01①y =3×2x -1; ②y =log 2x ; ③y =4x; ④y =x 2.【提示】 观察散点图中样本点的分布规律可判断样本点分布在曲线y =3×2x -1附近.所以模拟效果最好的为①.某地区不同身高的未成年男性的体重平均值如下表: 身高x (cm) 60 70 80 90 100 110 体重y (kg)6.137.90 9.99 12.15 15.02 17.50 身高x (cm) 120 130 140 150 160 170 体重y (kg)20.9226.8631.1138.8547.2555.05(2)如果一名在校男生身高为168 cm ,预测他的体重约为多少?【精彩点拨】 先由散点图确定相应的拟合模型,再通过对数变换将非线性相关转化为线性相关的两个变量来求解.【自主解答】 (1)根据表中的数据画出散点图,如下:由图看出,这些点分布在某条指数型函数曲线y =c 1e c 2x 的周围,于是令z =ln y ,列表如下:x 60 70 80 90 100 110 z 1.81 2.07 2.30 2.50 2.71 2.86 x 120 130 140 150 160 170 z3.043.293.443.663.864.01作出散点图,如下:由表中数据可求得z 与x 之间的回归直线方程为z ^=0.693+0.020x ,则有y ^=e 0.693+0.020x .(2)由(1)知,当x =168时,y ^=e 0.693+0.020×168≈57.57,所以在校男生身高为168 cm ,预测他的体重约为57.57 kg.两个变量不具有线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y =c 1e c 2x ,我们可以通过对数变换把指数关系变为线性关系,令z =ln y ,则变换后样本点应该分布在直线z =bx +a (a =ln c 1,b =c 2)的周围.[再练一题]3.在一次抽样调查中测得样本的5个样本点,数据如下表:x 0.25 0.5 1 2 4 y1612521试建立y 与x 之间的回归方程.【解】 作出变量y 与x 之间的散点图如图所示.由图可知变量y 与x 近似地呈反比例函数关系.设y =k x ,令t =1x ,则y =kt .由y 与x 的数据表可得y 与t 的数据表:t 4 2 1 0.5 0.25 y1612521作出y 与t 的散点图如图所示.由图可知y 与t 呈近似的线性相关关系.又t =1.55,y =7.2,∑i =15t i y i =94.25,∑i =15t 2i =21.312 5,b ^=∑i =15t i y i -5t y∑i =15t 2i -5t2=94.25-5×1.55×7.221.312 5-5×1.552≈4.134 4,a ^=y -b ^t =7.2-4.134 4×1.55≈0.8, ∴y ^=4.134 4t +0.8.所以y 与x 的回归方程是y ^=4.134 4x +0.8.1.下列结论正确的是( )①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A .①②B .①②③C .①②④D .①②③④【解析】 函数关系和相关关系的区别是前者是确定性关系,后者是非确定性关系,故①②正确;回归分析是对具有相关关系的两个变量进行统计分析的一种方法,故③错误,④正确.【答案】 C2.下表是x 和y 之间的一组数据,则y 关于x 的线性回归方程必过点( )x 1 2 3 4 y1357C .(2.5,4)D .(2.5,5)【解析】 线性回归方程必过样本点的中心(x ,y ),即(2.5,4),故选C. 【答案】 C3.在两个变量y 与x 的回归模型中,分别选择了4个不同的模型.它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25【解析】 相关指数R 2越接近于1,则该模型的拟合效果就越好,精度越高.【答案】 A4.对具有线性相关关系的变量x 和y ,由测得的一组数据求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.【导学号:81092002】【解析】 由题意知x =2,y =3,b ^=6.5,所以a ^=y -b ^x =3-6.5×2=-10,即回归直线的方程为y ^=-10+6.5x .【答案】 y ^=-10+6.5x5.某零售店近五个月的销售额和利润额资料如下表:(1)(2)用最小二乘法求利润额y 关于销售额x 的线性回归方程;(3)当销售额为4(千万元)时,利用(2)的结论估计该零售店的利润额(百万元). 【解】 (1)散点图如下.两个变量呈正线性相关关系. (2)设线性回归方程是y ^=b ^x +a ^. 由题中的数据可知y =3.4,x =6.所以b ^=∑i =15(x i -x )(y i -y )∑i =15(x i -x )2=-3×(-1.4)+(-1)×(-0.4)+0×(-0.4)+1×0.6+3×1.69+1+1+9=1020=12.a ^=y -b ^x =3.4-12×6=0.4.所以利润额y 关于销售额x 的线性回归方程为y ^=0.5x +0.4. (3)由(2)知,当x =4时,y ^=0.5×4+0.4=2.4,所以当销售额为4千万元时,可以估计该店的利润额为2.4百万元.学业分层测评(建议用时:45分钟)[学业达标]一、选择题1.在画两个变量的散点图时,下面叙述正确的是( ) A .预报变量在x 轴上,解释变量在y 轴上B .解释变量在x 轴上,预报变量在y 轴上C .可以选择两个变量中任意一个变量在x 轴上D .可以选择两个变量中任意一个变量在y 轴上【解析】 结合线性回归模型y =bx +a +e 可知,解释变量在x 轴上,预报变量在y 轴上,故选B.【答案】 B2.在回归分析中,相关指数R 2的值越大,说明残差平方和( ) A .越大 B .越小 C .可能大也可能小D .以上均错【解析】 ∵R 2=1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2,∴当R 2越大时,∑i =1n(y i -y ^i )2越小,即残差平方和越小,故选B. 【答案】 B3.已知x 和y 之间的一组数据则y 与x 的线性回归方程y =b x +a 必过点( )A .(2,2) B.⎝ ⎛⎭⎪⎫32,0 C .(1,2)D.⎝ ⎛⎭⎪⎫32,4 【解析】 ∵x =14(0+1+2+3)=32,y =14(1+3+5+7)=4, ∴回归方程y ^=b ^x +a ^必过点⎝ ⎛⎭⎪⎫32,4.【答案】 D4.已知人的年龄x 与人体脂肪含量的百分数y 的回归方程为y ^=0.577x -0.448,如果某人36岁,那么这个人的脂肪含量( ) 【导学号:81092003】A .一定是20.3%B .在20.3%附近的可能性比较大C .无任何参考数据D .以上解释都无道理【解析】 将x =36代入回归方程得y ^=0.577×36-0.448≈20.3.由回归分析的意义知,这个人的脂肪含量在20.3%附近的可能性较大,故选B.【答案】 B5.若一函数模型为y =ax 2+bx +c (a ≠0),为将y 转化为t 的线性回归方程,则需作变换t =( )A .x 2B .(x +a )2 C.⎝ ⎛⎭⎪⎫x +b 2a 2 D .以上都不对【解析】 y 关于t 的线性回归方程,实际上就是y 关于t 的一次函数,又因为y =a ⎝ ⎛⎭⎪⎫x +b 2a 2+4ac -b 24a ,所以可知选项C 正确.【答案】 C 二、填空题6.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________.【解析】 根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.【答案】 17.已知方程y ^=0.85x -82.71是根据女大学生的身高预报她的体重的回归方程,其中x 的单位是cm ,y ^的单位是kg ,那么针对某个体(160,53)的残差是________.【解析】 把x =160代入y ^=0.85x -82.71, 得y ^=0.85×160-82.71=53.29, 所以残差e ^=y -y ^=53-53.29=-0.29. 【答案】 -0.298.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】 以x +1代x ,得y ^=0.254(x +1)+0.321,与y ^=0.254x +0.321相减可得,年饮食支出平均增加0.254万元.【答案】 0.254 三、解答题9.关于某设备的使用年限x 和所支出的维修费用y (万元),有如下的统计资料:(1)线性回归方程:⎝ ⎛⎭⎪⎪⎫a ^=y -b ^x -,b ^=∑i =1nx i y i -n x -y -∑i =1nx 2i-n (x )2(2)估计使用年限为10年时,维修费用是多少? 【解】 (1)x =2+3+4+5+65=4,y =2.2+3.8+5.5+6.5+7.05=5,∑i =15x 2i =90,∑i =15x i y i =112.3,b^=∑i =15x i y i -5x -y -∑i =15x 2i -5x 2=112.3-5×4×590-5×42=1.23.于是a^=y -b ^ x =5-1.23×4=0.08. 所以线性回归方程为y ^=1.23x +0.08.(2)当x =10时,y ^=1.23×10+0.08=12.38(万元), 即估计使用10年时维修费用是12.38万元. 10.关于x 与y 有如下数据:为了对x ,y 两个变量进行统计分析,现有以下两种线性模型:甲模型y ^=6.5x +17.5,乙模型y ^=7x +17,试比较哪一个模型拟合的效果更好.【解】 R 2甲=1-∑i =15(y i -y ^i )2∑i =15 (y i -y )2=1-1551 000=0.845,R 2乙=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2=1-1801 000=0.82,因为84.5%>82%,所以甲模型拟合效果更好.[能力提升]1.某学生四次模拟考试时,其英语作文的减分情况如下表:归方程为()A.y=0.7x+5.25 B.y=-0.6x+5.25C.y=-0.7x+6.25 D.y=-0.7x+5.25【解析】由题意可知,所减分数y与模拟考试次数x之间为负相关,所以排除A.考试次数的平均数为x=14×(1+2+3+4)=2.5,所减分数的平均数为y=14×(4.5+4+3+2.5)=3.5.即直线应该过点(2.5,3.5),代入验证可知直线y=-0.7x+5.25成立,选D.【答案】 D2.已知x与y之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y=b x+a.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是()A.b^>b′,a^>a′B.b^>b′,a^<a′C.b^<b′,a^>a′D.b^<b′,a^<a′【解析】根据所给数据求出直线方程y=b′x+a′和回归直线方程的系数,并比较大小.由(1,0),(2,2)求b′,a′.b ′=2-02-1=2,a ′=0-2×1=-2. 求b^,a ^时, ∑i =16x i y i =0+4+3+12+15+24=58,x =3.5,y =136,∑i =16x 2i =1+4+9+16+25+36=91,∴b^=58-6×3.5×13691-6×3.52=57,a^=136-57×3.5=136-52=-13, ∴b^<b ′,a ^>a ′. 【答案】 C3.已知x ,y 的取值如下表所示,由散点图分析可知y 与x 线性相关,且线性回归方程为y =0.95x +2.6,那么表格中的数据m 的值为________.【解析】 x =0+1+3+44=2,y =2.2+4.3+4.8+m 4=11.3+m4,把(x -,y -)代入回归方程得11.3+m 4=0.95×2+2.6,解得m =6.7.【答案】 6.74.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100棵种子中的发芽数,得到如下资料:。
选修1-2、选修2-3统计案例
第三课时回归分析的基本思想及其初步应用(3)
学习要求
1.能根据散点分布特点,建立不同的回归模型;知道有些非线性模型通过变换可以转化为线性回归模型;
2.会通过散点图及相关指数比较判断不同模型的拟合效果;
3.通过案例分析,了解回归分析的实际应用. 一.知识梳理
1.建立回归模型的基本步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).
(4)按一定规则(如最小二乘法)估计回归方程中的参数.
(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大或残差呈现不随机的规
律性等).若存在异常,则检查数据是否有误,或模型是否合适等.
2.非线性回归分析
(1)非线性相关关系:样本点分布在某一条曲线的周围,而不是一条直线附近.我们就称这两个变量之间不具有线性相关关系而是非线性相关关系.
(2)非线性回归方程线性化
①y=ax n(其中a,x,y均为正值)(幂函数型函数) lg y=lg a+n lg x,令u=lg y,v=lg x,b=lg a,则u=n v+b,图象为一直线.
②y=ca x(a>0,c>0)(指数型函数)
lg y=x lg a+lg c,令u=lg y,b=lg c,d=lg a,则u=dx+b,图象为一直线.
二.自我评价
1.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之
线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.
2. 两个变量y与x的回归模型中,分别选择了4 个不同模型,它们的相关指数2R如下,其中拟合效果最好的模型是()
A. 模型1 的相关指数2R为0.98
B. 模型2 的相关指数2R为0.80
C. 模型3 的相关指数2R为0.50
D. 模型4 的相关指数2R为0.25
三.典型例题
例1. 一只红铃虫的产卵数y和温度x有关,现收集
了7组观测数据列于下表中,试建立y与x之间的
反思与小结:解决非线性回归问题的方法及步骤:
(1)确定变量:确定解释变量为x,预报变量为y;
(2)画散点图:通过观察散点图并与学过的函数(幂、
指数、对数函数、二次函数)作比较,选取拟合效果
好的函数模型;
(3)变量置换:通过变量置换把非线性问题转化为线
性回归问题;
(4)分析拟合效果:通过计算相关指数等来判断拟合
效果;
(5)写出非线性回归方程.
四.堂上训练
1.已知回归方程0.5ln ln2
y x
=-,则100
x=时,
y的
估计值为.
2.
为了对x、y两个变量进行统计分析,现有以下两种
线性模型:甲模型y
^
=6.5x+17.5,乙模型y
^
=7x+17,
试比较哪一个模型拟合的效果更好.
3.在研究两个变量的相关关系时,观察散点图发现
样本点集中于某一条指数曲线a
bx
e
y+
=的周围,令
ln
z y
=,求得回归直线方程为0.25 2.58
z x
=-,则
该模型的回归方程为.
五.课后作业
1.两个变量y与x的回归模型中,求得回归方程为
32
2.0-
=x
e
y,当预报变量10
x=时().
A. 解释变量30
y e-
= B. 解释变量y大于30
e-
C. 解释变量y小于30
e- D. 解释变量y在30
e-左右
2.为了研究某种细菌随时间x
变化时,繁殖个数y
作出这些数据的散点图;
(2)描述解释变量x与预报变量y之间的关系;
(3)计算相关指数.
3.某工厂为了对新研发的一种产品进行合理定价,
将该产品按事先拟定的价格进行试销,得到如下数
(1)求回归直线方程y=b x+a,其中b=-20,a=y
-b
^
x;
(2)预计在今后的销售中,销量与单价仍然服从(1)
中的关系,且该产品的成本是4元/件,为使工厂获
得最大利润,该产品的单价应定为多少元?(利润=
销售收入-成本).
六.学习资料
1.回归分析的基本思想
回归分析包括线性回归分析和非线性回归分析
两种,而非线性回归分析往往可以通过变量代换转
化为线性回归分析,因此,回归分析的思想主要是
指线性回归分析的思想.
(1)确定线性相关关系
线性相关关系有两层含义:一是具有相关关系,
如广告费用与销售量的关系等在一定条件下具有相
关关系,而气球的体积与半径的关系是函数关系,
而不是相关关系;二是具有线性相关关系.
判断是否线性相关的依据是观察样本点的散点
图.
(2)引起预报误差的因素
对于线性回归模型y=bx+a+e,引起预报变量
y的误差的因素有两个:一个是解释变量x,另一个
是随机误差e.
(3)回归方程的预报精度
判断回归方程的预报精度是通过计算残差平方
和来进行的,残差平方和越小,方程的预报精度越
高.
简单来说,线性回归分析就是通过建立回归直
线方程对变量进行预报,用回归方程预报时,需对
函数值明确理解,它表示当x取值时,真实值在函
数值附近或平均值在函数值附近,不能认为就是真
实值.
(4)回归模型的拟合效果
判断回归模型的拟合效果的过程也叫残差分
析,残差分析的方法有两种,一是通过残差图直观
判断,二是通过计算相关指数2
R的大小判断.
(5) 非线性回归问题
利用回归方程探究非线性回归问题,可按“作
散点图→建模→确定方程”这三个步骤进行,其关
键在于如何通过适当的变换,将非线性回归问题转
化成线性回归问题.。