2015年高中数学 3.2回归分析导学案 苏教版选修2-3
- 格式:doc
- 大小:759.50 KB
- 文档页数:6
3.2回归分析(1)教学目标(1)通过实例引入线性回归模型,感受产生随机误差的原因;(2)通过对回归模型的合理性等问题的研究,渗透线性回归分析的思想和方法; (3)能求出简单实际问题的线性回归方程. 教学重点,难点线性回归模型的建立和线性回归系数的最佳估计值的探求方法. 教学过程 一.问题情境1. 情境:对一作直线运动的质点的运动过程观测了次,得到如下表所示的数据,试估计当先作散点图,如下图所示:从散点图中可以看出,样本点呈直线趋势,时间与位置观测值y 之间有着较好的线性关系.因此可以用线性回归方程来刻画它们之间的关系.根据线性回归的系数公式,1221()ni i i ni i x y nx y b x n x a y bx==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑ 可以得到线性回归方为 3.5361 2.1214y x =+,所以当9x =时,由线性回归方程可以估计其位置值为22.6287y =2.问题:在时刻9x =时,质点的运动位置一定是22.6287cm 吗?二.学生活动思考,讨论:这些点并不都在同一条直线上,上述直线并不能精确地反映与y 之间的关系,y 的值不能由完全确定,它们之间是统计相关关系,y 的实际值与估计值之间存在着误差. 三.建构数学1.线性回归模型的定义:我们将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为,称之为随机误差;将y a bx ε=++称为线性回归模型. 说明:(1)产生随机误差的主要原因有:①所用的确定性函数不恰当引起的误差; ②忽略了某些因素的影响; ③存在观测误差.(2)对于线性回归模型,我们应该考虑下面两个问题: ①模型是否合理(这个问题在下一节课解决); ②在模型合理的情况下,如何估计,? 2.探求线性回归系数的最佳估计值:对于问题②,设有对观测数据(,)i i x y (1,2,3,,)i n =,根据线性回归模型,对于每一个i x ,对应的随机误差项()i i i y a bx ε=-+,我们希望总误差越小越好,即要使21nii ε=∑越小越好.所以,只要求出使21(,)()niii Q y x αββα==--∑取得最小值时的α,β值作为,的估计值,记为,.注:这里的i ε就是拟合直线上的点(),i i x a bx +到点(),i i i P x y 的距离.用什么方法求,?回忆《数学3(必修)》“2.4线性回归方程”P71“热茶问题”中求,的方法:最小二乘法.利用最小二乘法可以得到,的计算公式为1122211()()()()nni i iii i nni ii i x x y y x ynx yb x x xn x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑,其中11n i i x x n ==∑,11ni i y y n ==∑由此得到的直线y a bx =+就称为这对数据的回归直线,此直线方程即为线性回归方程.其中,分别为,的估计值,称为回归截距,称为回归系数,y 称为回归值. 在前面质点运动的线性回归方程 3.5361 2.1214y x =+中, 3.5361a =, 2.1214b =. 3. 线性回归方程y a bx =+中,的意义是:以为基数,每增加1个单位,y 相应地平均增加个单位;4. 化归思想(转化思想)在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.下面列举出一些常见的曲线方程,并给出相应的化为线性回归方程的换元公式.(1)b y a x =+,令'y y =,1'x x=,则有''y a bx =+. (2)by ax =,令'ln y y =,'ln x x =,'ln a a =,则有'''y a bx =+. (3)bxy ae =,令'ln y y =,'x x =,'ln a a =,则有'''y a bx =+. (4)b x y ae =,令'ln y y =,1'x x=,'ln a a =,则有'''y a bx =+. (5)ln y a b x =+,令'y y =,'ln x x =,则有''y a bx =+.四.数学运用 1.例题:例1.下表给出了我国从1949年至1999年人口数据资料,试根据表中数据估计我国2004年的人口数.解:为了简化数据,先将年份减去1949,并将所得值用表示,对应人口数用y 表示,得807 909 975 1035 1107 1177 1246作出11个点(),x y 构成的散点图,由图可知,这些点在一条直线附近,可以用线性回归模型y a bx ε=++来表示它们之间的关系.根据公式(1)可得14.453,527.591.b a ⎧≈⎪⎨≈⎪⎩ 这里的,a b 分别为,a b 的估 计值,因此线性回归方程 为527.59114.453y x =+由于2004年对应的55x =,代入线性回归方程527.59114.453y x =+可得1322.50y =(百万),即2004年的人口总数估计为13.23亿.例2. 某地区对本地的企业进行了一次抽样调查,下表是这次抽查中所得到的各企业的人均资本(万元)与人均产出y (万元)的数据:(1)设y 与之间具有近似关系by ax ≈(,a b 为常数),试根据表中数据估计和的值; (2)估计企业人均资本为16万元时的人均产出(精确到0.01).分析:根据,y 所具有的关系可知,此问题不是线性回归问题,不能直接用线性回归方程处理.但由对数运算的性质可知,只要对by ax ≈的两边取对数,就能将其转化为线性关系.解(1)在by ax ≈的两边取常用对数,可得lg lg lg y a b x ≈+,设lg y z =,lg a A =,lg x X =,则z A bX ≈+.相关数据计算如图327--所示.仿照问题情境可得A ,的估计值A ,分别为0.2155,1.5677,A b ⎧=-⎪⎨=⎪⎩由lg 0.2155a =-可得0.6088a ≈,即,的估计值分别为0.6088和1.5677.(2)由(1)知1.56770.6088y x =.样本数据及回归曲线的图形如图328--(见书本102P页)当16x =时, 1.56770.60881647.01y =⨯≈(万元),故当企业人均资本为16万元时,人均产值约为47.01万元. 2.练习:104P 练习第题. 五.回顾小结:1. 线性回归模型y a bx ε=++与确定性函数y a bx =+相比,它表示y 与之间是统计相关关系(非确定性关系)其中的随机误差提供了选择模型的准则以及在模型合理的情况下探求最佳估计值,的工具;2. 线性回归方程y a bx =+中,的意义是:以为基数,每增加1个单位,y 相应地平均增加个单位;3.求线性回归方程的基本步骤. 六.课外作业:.。
高中数学第三章统计案例3_2回归分析课后训练苏教版选修2-3(7页)文档来源为:从网络收集整理文档来源为:从网络收集整理.word版本可编辑?欢迎下载支持.PAGEPAGE #文档收集于互联网.已整理.word版本可编辑.文档来源为:从网络收集整理文档来源为:从网络收集整理.word版本可编辑?欢迎下载支持.PAGEPAGE #文档收集于互联网.已整理.word版本可编辑.3.2回归分析练习对某种机器购苣后运营年限次序x(l,2,3,…),与当年增加利润y的统计分析知具备线性相关关系,回归方程为:y =10.47—1.3<估计该台机器使用年最合算.假设关于某设备的使用年限x与所支出的维修费用y(万元)有如下的统汁数据X234—6y2.23.85.56.5若由此资料知y与龙呈线性关系,则线性回归方程是?假设关于某市房屋而积/平方米)与购房费用y(万元),有如下的统汁数据: 龙(平方米)8090100110y(万元)42465359由资料表明y对%呈线性相关,若在该市购买120平方米的房屋,估计购房费用是万元.下表是关于某设备的使用年限(年)和所需要的维修费用y(万元)的几组统计数据:X234厂6y2.23.85.56.5请根孺上表提供的数据,用最小二乘法求出y关于”的线性回归方程?某车间为了规泄工时左额,需要确左加工零件所花费的时间,为此作了四次试验, 得到的数据如下:零件的个数*(个)234厂加工的时间y(小时)2.5344.5试预测加工10个零件需要多少时间?6 ?某研究性学习小组对春季昼夜温差大小与某花卉种子发芽多少之间的关系进行研究, 他们分别记录了 3月1日至3月5日的每天昼夜温差与实验室每天每100颗种子浸泡后的发芽数,得到如下资料:日期3月1日3月2日3月3日3月4日3月5日温差H°C)1011138发芽数y(颗)2325302616(1)若选取的是3月1日与3月5日的两组数据,请根据3月2日至3月4日的数据,求出p关于X的线性回归方程y =从+“;(2)若由线性回归方程得到的估计数据与所选岀的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?7.某种产品的广告费支出x与销售额y(单位:百万元)之间有如下对应数据:X21568y3040506070如果y与x之间具有线性相关关系.(1)作岀这些数据的散点图:(2)求这些数据的线性回归方程:(3)预测当广告费支出为9百万元时的销售额.有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统汁,得到一个卖出的热饮杯数与当天气温的对比表,如下表所示:摄氏温度/°c—54712151923273136热饮杯数15615013212813011610489937654(1)画出散点图:(2)从散点图中发现气温与热饮销售杯数之间关系的一般规律;(3)求回归方程:(4)如果某天的气温是2 r,预测这天卖出的热饮杯数.某个服装店经营某种服装,在某周内获纯利y(元),与该周每天销售这种服装件数x 之间的一组数据关系见表:X3456789y666973818990917 7 n已知.2 =280,工牙2 =45309,工舌牙=3487?⑴求x, y;(2)判断纯利y与每天销售件数*之间是否线性相关,如果线性相关,求岀回归方程?—个车间为了规左工时左额,需要确左加工零件所花费的时间,为此进行了 10次试验?测得的数据如下.零件数龙(个)102030405060708090100加工时间y(分)626875818995102108115122(1)求y对*的回归直线方程:⑵据此估计加工200个零件所用的时间是多少?文档来源为:从网络收集整理文档来源为:从网络收集整理.word版本可编辑?欢迎下载支持. PAGEPAGE #文档收集于互联网.已整理.word版本可编辑.文档来源为:从网络收集整理文档来源为:从网络收集整理.word版本可编辑?欢迎下载支持.774文档收集于互联网.已整理.word版本可编辑.参考答案1.答案:8解析:令即 10.47 — l?3x$o,.SW8,.:?估计该台机器使用8年较为合算.2?答案:y=0?08+l?23%5 __解析:代入 b =弋—= 1.23, y = a + bx,Ev-5?i-l/. a =0. 08..?.线性回归方程是y =0. 08+1. 23x.3?答案:64.5解析:V x =95, y =50 代入公式求得 b=0. 58, a=—5.1,.线性回归方程为y=0. 58.Y-5. 1.将x=120代入线性回归方程得y =64. 5(万元).估计购买120平方米的房屋时,购买房屋费用是64. 5万元.4.答案:y=l?23x+0?085 _解析:》彳=4+9+16+25+36 = 90,且x=4, y =5,刀=5, r-l.f_112?3 — 5x4x5_12?390 — 5x16 10a =5-1.23X4=0. 08,回归直线为y=l. 23x+0?08.5?解:5?解:2+3+4+5~~4-=3.5,齐2.5+3+4+4.5“5,4= 2X2. 5+3X3+4X4 + 5X4.5 = 52.5,x/ =4 + 9+16+25=54,、52.5-4x3.5x3.5 「54 — 4x3.5261=3.5-0.7X3.5 = 1.05.回归直线方程为y =0. 7x+l. 05,当 x=10 时,y=0.7X10+1.05=8. 05,预测加工10个零件需要8. 05小时._ 16?解:(1)由数拯,求得 x = —(11 + 13+12)=12,3- 1y = - (25+30+26)=27,33x y =972.3工兀牙=11X25 + 13X30 + 12X26=977,工舛2 =113+133+12”=434,3? = 432 ?97 /-I线性回归方程为y=7w+15?当”=9时,y=78?即当广告费支出为9百万元时,销售额为78百万元.解:(1)散点图如下图所示:从上图看到,各点散布在从左上角到右下角的区域里,因此,气温与热饮销售杯数之间呈负相关,即气温越髙,卖出去的热饮杯数越少.从散点图可以看岀,这些点大致分布在一条直线的附近,因此.可用公式求岀回归方程的系数._ _ 11 11x 215.364, y~lll?636,工x「=4335,工召开=14778./-I /-I112>必-1伐亍b = —__— p -2.352 ■X,2 -1 lx2 -1 lx2/-Ia = y-bx ?. 767.回归方程为:y=-2. 352x4-147. 767.⑷当x=2时,严143.因此,某天的气温为2 °C时,这天大约可以卖岀143杯热饮.9?解:9?解:(1) x = = 6 ,-66+69+73+81+89+90+91 右“? 7(2)画出散点图可知,y与%有线性相关关系, 设回归直线方程:y = bx + a. 559 3487-7x6x—严 b = =空=4.75,280-7x36 28?=79. 86-6X4. 75 = 51.36,■11215678910 X 10 20 30 10 50 60 70 80 90 100 X 62 68 75 S1 S9 95 102 108 1156201 3602 2503 2404 4505 7007 1408 6401035012200x =55, y =91. 7>10 10 10工彳=38500,工)「=87777,工兀’=55950/-I /-1 /-I回归直线方程V =4?75%+51?36.10.解:⑴列出下表,并用科学计算器进行计算.设所求的回归直线方程为y = bx + a.10 __2>川-10心/-I同时,利用上表可得… =55950-10x55x91.7r-la = y-bx =91. 7—0. 668X55=54. 96,38500-10x552即所求的回归直线方程为y =0. 668x4-54. 96?(2)这个回归直线方程的意义是当*增大1时,y的值约增加0?668,而54. 96是y不随 x增大而变化的部分.因此当 x=200 时,y 的估计值为 y=54. 96 + 0. 668X200=188. 56=189.故加工200个零件时所用的时间约为189分.。
§3。
2 回归分析(一)课时目标1.掌握建立线性回归模型的步骤。
2。
了解回归分析的基本思想和初步应用.1.对于n对观测数据(x i,y i)(i=1,2,3,…,n),直线方程____________称为这n对数据的线性回归方程.其中________称为回归截距,________称为回归系数,________称为回归值.2。
错误!,错误!的计算公式错误!3.相关系数r的性质(1)|r|≤1;(2)|r|越接近于1,x,y的线性相关程度越强;(3)|r|越接近于0,x,y的线性相关程度越弱.一、填空题1.下列关系中正确的是________(填序号).①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.2.回归直线错误!=错误!+错误!x恒经过定点________.3.为了解决初中二年级平面几何入门难的问题,某校在初中一年级代数教学中加强概念和推理教学,并设有对照班,下表是初中二年级平面几何期中测试成绩统计表的一部分,其χ2≈________(保留小数点后两位).4.和体重y (kg)的回归方程为错误! =0.849x -85。
712,则身高172 cm 的女大学生,由线性回归方程可以估计其体重为________ kg 。
5.设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,且y 关于x 的回归直线的斜率是错误! ,那么错误! 与r 的符号________(填写“相同”或“相反”).6.某小卖部为了了解冰糕销售量y (箱)与气温x (℃)之间的关系,随机统计了某4天卖出的冰糕的箱数与当天气温,并制作了对照表(如下表所示),且由表中数据算得线性回归方程错误! =错误! x +错误! 中的错误! =2,则预测当气温为25℃时,冰糕销量为________箱。
[学习目标] 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个变量间的线性相关程度.3.了解回归分析的基本思想和初步应用.知识点一 线性回归方程1.对于n 对观测数据(x i ,y i )(i =1,2,3,…,n ),直线方程y ^=a ^+b ^x 称为这n 对数据的线性回归方程.其中a ^=y -b ^x 称为回归截距,b ^=∑i =1n (x i -x )(y i -y )∑i =1n(x i -x )2=∑i =1nx i y i -n x y∑i =1nx 2i -n (x )2称为回归系数,y ^称为回归值.2.将y =a +bx +ε称为线性回归模型,其中a +bx 是确定性函数,ε称为随机误差. 思考 回归分析中,利用线性回归方程求出的函数值一定是真实值吗?答 不一定是真实值,利用线性回归方程求的值,在很多时候是个预报值,例如,人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食,是否喜欢运动等.知识点二 相关系数r 的性质 1.|r |≤1.2.|r |越接近于1,x ,y 的线性相关程度越强. 3.|r |越接近于0,x ,y 的线性相关程度越弱. 知识点三 显著性检验1.提出统计假设H 0:变量x ,y 不具有线性相关关系;2.如果以95%的把握作出判断,可以根据1-0.95=0.05与n -2在附录2中查出一个r 的临界值r 0.05(其中1-0.95=0.05称为检验水平);3.计算样本相关系数r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2·∑i =1n(y i -y )2=∑i =1nx i y i -n x y(∑i =1nx 2i -n (x )2)·(∑i =1ny 2i -n (y )2);4.作出统计推断:若|r |>r 0.05,则否定H 0,表明有95%的把握认为x 与y 之间具有线性相关关系;若|r |≤r 0.05,则没有理由拒绝原来的假设H 0,即就目前数据而言,没有充分理由认为x 与y 之间有线性相关关系.题型一 线性相关的判断例1 某校高三(1)班的学生每周用于数学学习的时间x (单位:h )与数学平均成绩y (单位:分)之间有表格所示的数据.(1)画出散点图; (2)作相关性检验;(3)若某同学每周用于数学学习的时间为18 h ,试预测其数学成绩. 解 (1)根据表中的数据,画散点图,如图.从散点图看,数学成绩与学习时间线性相关.(2)由已知数据求得x =17.4,y =74.9,∑i =110x 2i =3 182,∑i =110y 2i =58 375,∑i =110x i y i =13 578, 所以相关系数r =∑i =110x i y i -10x y(∑i =110x 2i -10(x )2)(∑i =110y 2i -10(y )2)≈0.920.而n =10时,r 0.05=0.632,所以|r |>r 0.05,所以有95%的把握认为数学成绩与学习时间之间具有线性相关关系. (3)用科学计算器计算,可得线性回归方程为y ^=3.53x +13.44.当x =18时,y ^=3.53×18+13.44≈77,故预计该同学数学成绩可得77分左右.反思与感悟 判断变量的相关性通常有两种方式:一是散点图;二是相关系数r .前者只能粗略的说明变量间具有相关性,而后者从定量的角度分析变量相关性的强弱.跟踪训练1 暑期社会实践中,小闲所在的小组调查了某地家庭人口数x 与每天对生活必需品的消费y 的情况,得到的数据如下表:(1)利用相关系数r 判断y 与x 是否线性相关;(2)根据上表提供的数据,求出y 关于x 的线性回归方程. 解 (1)由表中数据,利用科学计算器计算得:r =∑i =15x i y i -5x y(∑i =15x 2i -5(x )2)(∑i =15y 2i -5(y )2)≈0.975.因为r >r 0.05=0.878,所以y 与x 之间具有线性相关关系.(2)根据以上数据可得,b ^=∑i =15x i y i -5x y∑i =15x 2i -5(x )2=8.5,∴a ^=y -b ^x =44-8.5×5=1.5, ∴所求的线性回归方程为y ^=1.5+8.5x . 题型二 求线性回归方程例2 某班5名学生的数学和物理成绩如下表:(1)画出散点图;(2)求物理成绩y 对数学成绩x 的线性回归方程;(3)一名学生的数学成绩是96,试预测他的物理成绩. 解 (1)散点图如图.(2)x =15×(88+76+73+66+63)=73.2,y =15×(78+65+71+64+61)=67.8.∑i =15x i y i =88×78+76×65+73×71+66×64+63×61=25 054.∑i =15x 2i =882+762+732+662+632=27 174. 所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5(x )2=25 054-5×73.2×67.827 174-5×73.22≈0.625.a ^=y -b ^x ≈67.8-0.625×73.2=22.05. 所以y 对x 的线性回归方程是y ^=0.625x +22.05.(3)x =96,则y ^=0.625×96+22.05≈82,即可以预测他的物理成绩是82.反思与感悟 (1)散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析.(2)求线性回归方程,首先应注意到,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.跟踪训练2 如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图:(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.参考数据:∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1(y i -y -)2=0.55,7≈2.646. 参考公式:相关系数r =∑ni =1(t i -t -)(y i -y -)∑n i =1 (t i -t -)2∑ni =1(y i -y -)2,回归方程y ^=a ^+b ^t 中斜率和截距最小二乘估计公式分别为b ^=∑ni =1(t i -t -)(y i -b -)∑n i =1(t i -t -)2,a ^=y --b ^t -.解 (1)由折线图中数据和附注中参考数据得t -=4,∑7i =1(t i -t -)2=28,∑7i =1(y i -y -)2=0.55, ∑7i =1 (t i -t -)(y i -y -)=∑7i =1t i y i -t -∑7i =1y i =40.17-4×9.32=2.89,r ≈ 2.890.55×2×2.646≈0.99. 因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y -=9.327≈1.331及(1)得b ^=∑7i =1(t i -t -)(y i -y -)∑7i =1(t i -t -)2=2.8928≈0.103.a ^=y --b ^t -≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 题型三 非线性回归分析例3 某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:检验每册书的成本费y 与印刷册数的倒数1x 之间是否具有线性相关关系;如有,求出y 对x的回归方程.解 令u =1x,原题中所给数据变成如下表示的数据:u =0.224 5,y =3.14,∑i =110u 2i -10(u )2=0.908 8,∑i =110u i y i -10u y =8.155 25,∑i =110y 2i -10(y )2=73.207,∴r =8.155 250.908 8×73.207≈0.999 8,查表得r 0.05=0.632,因为r >r 0.05,从而认为u 与y 之间具有线性相关关系. 回归系数b ^=8.155 250.908 8≈8.974,a ^=3.14-8.974×0.224 5≈1.125, 所以y ^=8.974u +1.125,所以y 对x 的回归方程为y ^=8.974x+1.125.反思与感悟 对非线性回归问题,若给出经验公式,采用变量代换把问题转化为线性回归问题.若没有经验公式,需结合散点图挑选拟合得最好的函数. 跟踪训练3 在试验中得到变量y 与x 的数据如下表: 试求y 与x 之间的回归方程,并预测x =40时,y 的值.解从散点图可以看出,两个变量x ,y 不呈线性相关关系,根据学过的函数知识,样本点分布的曲线符合指数型函数y =c 1e c 2x ,通过对数变化把指数关系变为线性关系,令z =ln y ,则z =bx +a (a =ln c 1,b =c 2). 列表:从散点图可以看出,两个变量x ,z 呈很强的线性相关关系.由表中的数据得到线性回归方程为z ^=0.277x -3.998.所以y 关于x 的指数回归方程为:y ^=e 0.277x-3.998.所以,当x =40时,y =e0.277×40-3.998≈1 190.347.1.在下列各量之间,存在相关关系的是________.①正方体的体积与棱长之间的关系;②一块农田的水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④家庭的支出与收入之间的关系;⑤某户家庭用电量与电价之间的关系. 答案 ②③④2.如图是x 和y 的一组样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.答案 D (3,10)解析 经计算,去掉D (3,10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大.3.对具有线性相关关系的变量x 和y ,由测得的一组数据已求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________. 答案 y ^=-10+6.5x解析 由题意知x =2,y =3,b ^=6.5,所以a ^=y -b ^x =3-6.5×2=-10,即回归直线的方程为y ^=-10+6.5x .4.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:(1)求年推销金额y (2)若第6名推销员的工作年限为11年,试估计他的年推销金额. 解 (1)设所求的线性回归方程为y ^=b ^x +a ^,则b ^=∑i =15x i y i -5x y∑i =15x 2i -5(x )2=1020=0.5,a ^=y -b ^x =0.4. 所以年推销金额y 关于工作年限x 的线性回归方程为 y ^=0.5x +0.4.(2)当x =11时,y ^=0.5x +0.4=0.5×11+0.4=5.9(万元). 所以可以估计第6名推销员的年推销金额为5.9万元.1.相关系数rr 的大小与两个变量之间线性相关程度的强弱关系:(1)当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.当r =1时,两个变量完全正相关;当r=-1时,两个变量完全负相关.(2)|r|≤1,并且|r|越接近1,表明两个变量的线性相关程度越强,它们的散点图越接近于一条直线,这时用线性回归模型拟合这组数据的效果就越好;|r|越接近0,表明两个变量的线性相关程度越弱,通常当|r|>r0.05时,认为两个变量有很强的线性相关程度.此时建立的回归模型是有意义的.2.回归分析用回归分析可以预测具有相关关系的两个随机变量的取值.但要注意:①回归方程只适用于我们所研究的样本的总体.②我们建立的回归方程一般都有时间性.③样本取值的范围影响了回归方程的适用范围.④回归方程得到预报值不是变量的精确值,是变量可能取值的平均值.。
3.2.回归分析-苏教版选修2-3教案教材基本信息•教材名称:苏教版高中数学选修2•单元名称:数据分析与统计•课时:3课时教学目标1.了解什么是回归分析。
2.学习回归分析的基本概念和方法。
3.掌握直线拟合和残差分析的实现方法。
4.理解回归分析在生活中的应用。
教学重点1.回归分析的基本概念和方法。
2.直线拟合和残差分析的实现。
教学难点1.理解回归分析的概念和方法。
2.掌握直线拟合和残差分析的实现步骤。
教学内容及安排一、引入1.通过一个实际问题引出回归分析的概念和应用。
2.以表格和图像等形式,引导学生识别数据之间的关系和规律。
二、回归分析的概念和方法1.回归分析的定义和基本概念。
2.以简单线性回归模型为例,介绍回归分析的方法。
–公式推导和参数估计。
–模型拟合与模型检验。
3.针对多元回归分析,简要介绍其方法和应用。
三、直线拟合的实现1.介绍直线方程和相关系数的定义和计算方法。
2.以实例为基础,讲解直线拟合的步骤和实现过程。
–用手动计算的方法计算,再用计算器或软件求解。
3.培养学生的数据分析能力,注重判断拟合效果和可靠性。
四、残差分析的实现1.残差的定义和计算方法。
2.残差分布图和残差散点图的绘制和解释。
3.强调残差分析及其结果对模型的影响。
五、回归分析在生活中的应用1.针对学生关心的实际问题,介绍回归分析的运用。
2.初步了解其在经济、社会学、医学和环境等领域的应用。
教学方法1.课件讲解:以幻灯片为主,结合实例、图像和文字呈现。
2.讨论和交流:引导学生大胆提问,鼓励学生尝试回答其他同学的问题。
3.实验探究:引导学生在问题解决中体验回归分析的乐趣和重要性。
教学手段1.课件展示。
2.板书和笔记。
3.实际数据和软件操作。
教学评估1.期中/期末考试考查学生对回归分析的掌握程度。
2.课堂测试考查学生对直线拟合和残差分析等具体内容的理解。
3.个人/小组报告,重点评估学生实践能力和解决问题的能力。
参考文献1.线性回归分析及其在医学中的应用[M]. 北京:人民卫生出版社,2001.2.Applied Linear Regression [M]. Third Edition, Wiley, 2013.3.单元教材和参考书中的相关内容。
回归分析【教学目标】1、知识与技能目标认识随机误差;2、过程与方法目标(1)会使用函数计算器求回归方程;(2)能正确理解回归方程的预报结果.3、情感、态度、价值观通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,理解处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识,解决实际问题的能力.教学中适当地利用学生合作与交流,使学生在学习的同时,体会与他人合作的重要性.【教学重点】随机误差e的认识【教学难点】随机误差的来源和对预报变量的影响【教学方法】启发式教学法【教学手段】多媒体辅助教学【教学过程设计】预测出的体重都不同,让学生感知预报变量的变化受解析变量和随“身4、启发①:参考预测值时,我们希望高中组的三个值接近点好还是区别大点好?启发②:怎样就能更接近?学生回答“样本多一些”后教师电脑展示:用所有45组高二女生数据所求回归方程,以方便学生比较哪一个小组的预测值更接近老师的较多数据的预测值,相对而言,这个组的模拟效果就越好.启发③:为什么随着数据的增多,三组的预测值有可能会越接近?师问:随机误差e变小体现在哪里?师讲解:所以,有参考价值,它们的值越接近,就说明随机误差越小,当然就拟合的越好.当数据足够多,使用科学的方法,是能够制作出一份值得参考的“身高标准体重”的.回到刚才的问题,如果条件有素的影响,如遗传因素、使用的测量工具不同等.4、回答:接近点好.回答:回答:预测时解释变量取定预近,只有使随机误。
【关键字】数学高中数学第三章统计案例 3.2 回归分析课堂导学苏教版选修2-3三点剖析一、线性返回【例1】一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:零件数10 20 30 40 50 60 70 80 90 100x(个)62 68 75 81 89 95 102 108 115 122加工时间y(分)(1)y与x是否具有线性相关关系?(2)如果y与x具有线性相关关系,求返回直线方程.解析:(1)列出下表:i 1 2 3 4 5 6 7 8 9 10x i10 20 30 40 50 60 70 80 90 100 y i62 68 75 81 89 95 102 108 115 122 x i y i620 1 360 2 250 3 240 4 450 5 700 7 140 8 640 10 350 12 200 ∴=55, =91.7,=38 500,=87 777,=55 950.因此,r==≈0.999 8.由于r=0.999 8^0.75,因此x与y之间具有很强的线性相关关系,因而可求返回直线方程.(2)设所求的返回直线方程为y^=b^x+a^,则有b^=≈0.668,a^=y-b^x=91.7-0.668×55=54.93,因此,所求的返回直线方程为y^=0.668x+54.93.二、非线性返回【例2】在彩色显像中,根据经验,形成染料光学密度y与析出银的光学密度x之间有下面类型的关系式:y=,其中b^0.现对y及x同时作11次观察,获得11组数据如下表:编号x i y i1 0.05 0.102 0.06 0.143 0.07 0.234 0.10 0.375 0.14 0.596 0.20 0.797 0.25 1.008 0.31 1.129 0.38 1.1910 0.43 1.2511 0.47 1.29求出y与x之间的返回方程.解析:令y′=lny,x′=,则变换为y′=lna-bx′,设a^′=lna,b^′=-b,将观察的数据(xi,yi)转化为(xi′,yi′)如下表:编号x i′y i′x i′2x i′y i′1 20 -2.303 400 -46.062 16.667 -1.966 277.79 -32.773 14.286 -1.47 204.09 -214 10 -0.994 100 -9.945 7.143 -0.528 51.02 -3.776 5 -0.236 25 -1.187 4 0 16 08 3.226 0.113 10.41 0.369 2.632 0.174 6.93 0.4610 2.326 0.223 5.41 0.5211 2.128 0.255 4.53 0.54∑87.408 -6.732 1 101.17 -112.84 ∴==1xi′≈7.95, = =-0.612,b^′= ≈=-0.146,a^′= -b^′≈0.549.∴线性返回方程为y^′=0.549-0.146x′.由于b^=-b^′=0.146,a^==1.73,∴y与x之间的返回曲线方程为y^=.三、相关检验【例3】一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据列成下表,试建立y 与x之间的返回方程.温度x/℃21 23 25 27 29 32 35 产卵数y/个7 11 21 24 66 115 325 解析:根据收集的数据,作散点图,如图.从图中可以看出,样本点并没有分布在某个带状区域内,因此两个变量不呈线性相关关系,所以不能直接利用线性返回方程来建立两个变量之间的关系,根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y=c1ec2x的附近,其中c1、c2为待定的参数.我们可以通过对数变换把指数关系变为线性关系,令z=ln y,则变换后样本点分布在直线z=bx+a(a=lnc1,b=c2)的附近,这样可以利用线性返回建立y与x的非线性返回方程了.变换的样本点分布在一条直线的附近,因此可以用线性返回方程来拟合.由上表中的数据可得到变换的样本数据表,如下表:x21 23 25 27 29 32 35 z1.9462.3983.0453.1784.1904.7455.784可以求得线性返回直线方程为z^=0.272x-3.843.因此红铃虫的产卵数对温度的非线性返回方程为y^=e0.272x-3.843.另一方面,可以认为图中的样本点集中在某二次曲线y=c3x2+c4的附近,其中c3,c4为待定参数,因此可以对温度变量进行变换,即令t=x2,然后建立y 与t 之间的线性返回方程,从而得到y 与x 之间的非线性返回方程.下表是红铃虫的产卵数和对应的温度的平方的线性返回模型拟合表,作出相应的散点图,如图:t 441 529 625 729 841 1 024 1 225 y711212466115325从图中可以看出,y 与t 的散点图并不分布在一条直线的周围,因此不宜用线性返回方程来拟合它,即不宜用二次函数y=c3x2+c4来拟合x 与y 之间的关系,因此利用y^=e0.272x-3.843来拟合效果较好. 各个击破 类题演练 1弹簧长度y(cm)随所挂物体质量x(g)不同而变化的情况如下: 物体质量x 5 10 15 20 25 30 弹簧长度y7.258.128.959.9010.9611.80(1)画出散点图;(2)求y 对x 的返回直线方程. 解析:(1)(2)采用列表的方法计算a 与返回系数b.序号 xy x 2x y1 2 3 4 5 6 5 10 15 20 25 30 7.25 8.12 8.95 9.90 10.96 11.80 25 100 225 400 625 900 36.25 81.2 134.25 198 274 354 ∑10556.982 2751 077.7x=×105=17.5,y=61×56.98≈9.50, b ^=25.176227550.95.1761077⨯-⨯⨯-≈0.183,a ^=9.50-0.183×17.5≈6.30.y 对x 的回归直线方程为y^=6.30+0.183 x .类题演练 2x 1 2 3 5 10 20 30 50 100 200 y10.15 5.521.082.852.111.621.411.301.211.15检验每册书的成本费y 与印刷册数的倒数x之间是否具有线性相关关系?如有,求出y 对x的回归方程.思路分析:本题与前面的问题有所不同,y 与x 之间不具有线性回归关系,因而是非线性回归分析问题,不妨设变量u=x1,题意要求对u 与y 作相关性检验,如果它们具有线性相关关系,就可以进一步求出y 对u 的回归直线方程,这时再回代u=x1,就得到了y 对x 的回归曲线方程.解:首先作变量置换u=x1,题目所给数据变成如下表所示的数据: u i 1 0.5 0.33 0.2 0.1 y i 10.15 5.52 4.08 2.85 2.11 u i 0.05 0.03 0.02 0.01 0.005 y i1.621.411.301.211.15可以求得r=∑∑∑===----ni ni i ini i iy y x xy y x x11221)()())(( =0.999 8,由r=0.999 8>0.75,因此,变量y 与u 之间具有较强的线性相关关系,并且b ^=8.973,a ^=y-b ^x =1.125,最后回代a =x 1可得y^=1.125+x973.8, 因此y 与x 的回归方程为y^=1.125+x973.8.类题演练 3为了研究三月下旬的平均气温x (单位:℃)与四月二十号前棉花害虫化蛹高峰日y 的关系,某地区观察了2000年至2005年间的情况,得到下面的数据表: 年份 2000 2001 2002 2003 2004 2005x 24.4 29.5 32.9 28.7 30.3 28.9 y19611018(1)根据规律推断,该地区2006年三月下旬平均气温为27℃,试估计2006年四月化蛹高峰日为哪一天?(2)对变量x 、y 进行相关性检验. 解析:(1)x =61(24.4+29.5+…+28.9)≈29.12, y=61(19+6+…+8)=7.5, ∑x i 2=24.42+…+28.92=5 125.01,∑y i 2=192+…+82=563,∑x i y i =24.4×19+…+28.9×8=1 222, ∴b ^=212.29601.512512.295.761222⨯-⨯⨯-≈-2.3, a ^=y -b x =7.5+2.3×29.12=74.476.回归直线方程为y^=-2.3x +74.476.当x =27时,y^=- 2.3×27+74.476=12.376.据此估计该地区2006年4月12日或13日为化蛹高峰日.(2)r=∑∑∑===---6161222261)6)(6(6i i i i i iiy y x x yx yx =-0.949 3,由于|r|接近于1,故变量y 与x 存在很强的线性相关关系. 变式提升在钢线碳含量对于电阻的效应研究中,得到如下数据表: 碳含量 (x /%) 0.10 0.30 0.40 0.55 0.70 0.80 0.95 20℃时电阻(y /Ω)1518192122.6 23.626求y 对x 的线性回归方程,并检验回归方程中的显著性.解析:由已知数据x =71∑=71i i x ≈0.543,y=71×145.2≈20.74,∑=712i i x =2.595,∑=712i i y = 3094.72,∑=71i ii yx =85.45,∴b ^≈2)543.0(7595.274.20543.0745.85⨯-⨯⨯-≈12.45. ∴a ^=20.74-12.45×0.543≈13.98. 回归直线方程为y^=13.98+12.45x . 利用相关系数检验是否显著,∑=71i ii yx -7x y =85.45-7×0.543×20.74≈6.62,∑=712i ix-5x 2=2.595-5×(0.543)2≈1.121,∑=712i i y -5y 2=3 094.72-5×(20.74)2=943.982,∴r=982.943121.162.6⨯≈0.2.由于r 接近于0,故钢线碳含量对电阻的效应线性相关关系不显著.此文档是由网络收集并进行重新排版整理.word 可编辑版本!。
3.2回归分析1.会作出两个有关联变量的散点图,并利用散点图认识变量间的相关关系.2.了解线性回归模型,能根据给出的线性回归方程系数公式建立线性回归方程.(重点、难点)3.了解回归分析的基本思想、方法及简单应用.[基础·初探]教材整理1线性回归模型阅读教材P100~P103“例1”以上部分,完成下列问题.1.线性回归模型的概念:将y=a+bx+ε称为线性回归模型,其中a+bx 是确定性函数,ε称为随机误差.2.线性回归方程:直线y^=a^+b^x称为线性回归方程,其中a^称为回归截距,b^称为回归系数,y^称为回归值,其中⎩⎨⎧b^=∑ni=1x i y i-n x-y-∑ni=1x2i-n(x-)2,a^=y--b^x-.其中x-=1n∑ni=1x i,y-=1n∑ni=1y i.设某大学生的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为y^=0.85x -85.71,则下列结论中正确的是________(填序号).(1)y与x具有正的线性相关关系;(2)回归直线过样本点的中心(x,y);(3)若该大学某女生身高增加1 cm,则其体重约增加0.85 kg;(4)若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg.【解析】回归方程中x的系数为0.85>0,因此y与x具有正的线性相关关系,(1)正确;由回归方程系数的意义可知回归直线过样本点的中心(x,y),B正确;∵回归方程y^=0.85x-85.71,∴该大学某女生身高增加1 cm,则其体重约增加0.85 kg,(3)正确;(4)不正确.【答案】(1)(2)(3)教材整理2相关关系阅读教材P104~P105“例2”以上部分,完成下列问题.1.相关系数是精确刻画线性相关关系的量.2.相关系数r=∑ni=1(x i-x-)(y i-y-)∑ni=1(x i-x-)2∑ni=1(y i-y-)2=∑ni=1x i y i-n x-y-⎝⎛⎭⎫∑ni=1x2i-n(x-)2⎝⎛⎭⎫∑ni=1y2i-n(y-)2.3.相关系数r具有的性质:(1)|r|≤1;(2)|r|越接近于1,x,y的线性相关程度越强;(3)|r|越接近于0,x,y的线性相关程度越弱.4.相关性检验的步骤:(1)提出统计假设H0:变量x,y不具有线性相关关系;(2)如果以95%的把握作出推断,那么可以根据1-0.95=0.05与n-2在附录2中查出一个r的临界值r0.05(其中1-0.95=0.05称为检验水平);(3)计算样本相关系数r;(4)作出统计推断:若|r|>r0.05,则否定H0,表明有95%的把握认为x与y之间具有线性相关关系;若|r|≤r0.05,则没有理由拒绝原来的假设H0,即就目前数据而言,没有充分理由认为y与x之间有线性相关关系.判断(正确的打“√”,错误的打“×”)(1)求回归直线方程前必须进行相关性检验.()(2)两个变量的相关系数越大,它们的相关程度越强.()(3)若相关系数r=0,则两变量x,y之间没有关系.()【答案】(1)√(2)×(3)√[质疑·手记]预习完成后,请将你的疑问记录,并与“小伙伴们”探讨交流:疑问1:解惑:疑问2:解惑:疑问3:解惑:[小组合作型]回归分析的有关概念(1)①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;^=b^x+a^,可以估计和观测变量的取值和变化趋势;③通过回归方程y④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确的命题是__________(填序号).(2)如果某地的财政收入x与支出y满足线性回归方程y^=b^x+a^+e(单位:亿^=0.8,a^=2,|e|≤0.5,如果今年该地区财政收入10亿元,则今年支元),其中b出预计不会超过________亿.【自主解答】(1)①反映的正是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③解释的是回归方程y^=b^x+a^的作用,故也正确.④在求回归方程之前必须进行相关性检验,以体现两变量的关系,故不正确.(2)由题意可得:y^=0.8x+2+e,当x=10时,y^=0.8×10+2+e=10+e,又|e|≤0.5,∴9.5≤y^≤10.5.故今年支出预计不会超过10.5亿.【答案】(1)①②③(2)10.51.在分析两个变量的相关关系时,可根据样本数据散点图确定两个变量之间是否存在相关关系,然后利用最小二乘法求出回归直线方程.2.由线性回归方程给出的是一个预报值而非精确值.3.随机误差的主要来源(1)线性回归模型与真实情况引起的误差;(2)省略了一些因素的影响产生的误差;(3)观测与计算产生的误差.[再练一题]1.下列有关线性回归的说法,不正确的是________(填序号).【导学号:29440068】①自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;②在平面直角坐标系中用描点的方法得到表示具有相关关系的两个量的一组数据的图形叫做散点图;③线性回归方程最能代表观测值x ,y 之间的关系; ④任何一组观测值都能得到具有代表意义的回归直线方程.【解析】 只有具有线性相关的两个观测值才能得到具有代表意义的回归直线方程.【答案】 ④求线性回归方程某班5名学生的数学和物理成绩如下表:学生学科成绩 A B C D E 数学成绩(x ) 88 76 73 66 63 物理成绩(y )7865716461(1)(2)求物理成绩y 对数学成绩x 的回归直线方程; (3)一名学生的数学成绩是96,试预测他的物理成绩.【精彩点拨】 先画散点图,分析物理与数学成绩是否有线性相关关系,若相关,再利用线性回归模型求解.【自主解答】 (1)散点图如图所示.(2)由散点图可知y 与x 之间具有线性相关关系. 因为x -=15×(88+76+73+66+63)=73.2,y-=15×(78+65+71+64+61)=67.8,∑5i =1x i y i =88×78+76×65+73×71+66×64+63×61=25 054,∑5i =1x 2i =882+762+732+662+632=27 174.所以b ^=∑5i =1x i y i -5 x - y -∑5i =1x 2i -5(x -)2=25 054-5×73.2×67.827 174-5×73.22≈0.625,a ^=y --b ^x -≈67.8-0.625×73.2=22.05. 所以y 对x 的回归直线方程是y ^=0.625x +22.05.(3)当x =96时,y ^=0.625×96+22.05≈82,即可以预测他的物理成绩是82.1.求线性回归方程的基本步骤:2.需特别注意的是,只有在散点图大致呈直线时,求出的线性回归方程才有实际意义,否则求出的回归方程毫无意义.[再练一题]2.某商场经营一批进价是30元/台的小商品,在市场调查中发现,此商品的销售单价x (x 取整数)元与日销售量y 台之间有如下关系:x354045 50y 56412811(1)y与x程.(方程的回归系数保留一位有效数字)(2)设经营此商品的日销售利润为P元,根据(1)写出P关于x的函数关系式,并预测当销售单价x为多少元时,才能获得最大日销售利润.【解】(1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.设回归直线为y^=b^x+a^,由题知x-=42.5,y-=34,则求得b^=∑4i=1x i y i-4x-y-∑4i=1x2i-4(x-)2=-370125≈-3,a^=y--b^x-=34-(-3)×42.5=161.5,∴y^=-3x+161.5.(2)依题意有P=(-3x+161.5)(x-30)=-3x2+251.5x-4 845=-3⎝⎛⎭⎪⎫x-251.562+251.5212-4 845.∴当x=251.56≈42时,P有最大值,约为426,即预测销售单价为42元时,能获得最大日销售利润.[探究共研型]线性回归分析探究1【提示】直观分析数据是否存在线性相关关系.探究2下表显示出变量y随变量x变化的一组数据,由此判断表示y与x 之间的关系最可能的是________.(填序号)x 45678910y 14181920232528【提示】画出散点图(图略),可以得到这些样本点在一条直线附近,故最可能是线性函数模型.故填①10名同学在高一和高二的数学成绩如下表:x 74717268767367706574y 76757170767965776272 其中(1)y与x是否具有相关关系?(2)如果y与x具有线性相关关系,求回归直线方程.【精彩点拨】可先计算线性相关系数r的值,然后与r0.05比较,进而对x 与y的相关性做出判断.【自主解答】(1)由已知表格中的数据,求得x=71,y=72.3,r=∑i=110(x i-x)(y i-y)∑i=110(x i-x)2∑i=110(y i-y)2≈0.78.由检验水平0.05及n-2=8,在课本附录2中查得r0.05=0.632,因为0.78>0.632,所以y与x之间具有很强的线性相关关系.(2)y与x具有线性相关关系,设回归直线方程为y^=a^+b^x,则有b^=∑i=110(x i-x)(y i-y)∑i=110(x i-x)2≈1.22,a^=y--b^x-=72.3-1.22×71=-14.32.所以y关于x的回归直线方程为y^=1.22x-14.32.1.线性回归分析必须进行相关性检验;若忽略,则所求回归方程没有实际意义.2.|r|越接近于1,两变量相关性越强,|r|越接近于0,两变量相关性越弱.[再练一题]3.关于两个变量x和y的7组数据如下表所示:x 21232527293235y 711212466115325 【解】x-=17×(21+23+25+27+29+32+35)≈27.4,y-=17×(7+11+21+24+66+115+325)≈81.3,∑7i=1x2i=212+232+252+272+292+322+352=5 414,∑7i=1x i y i=21×7+23×11+25×21+27×24+29×66+32×115+35×325=18 542,∑7i=1y2i=72+112+212+242+662+1152+3252=124 393,∴r=∑7i=1x i y i-7 x-y-(∑7i=1x2i-7(x-)2)(∑7i=1y2i-7(y-)2)=18 542-7×27.4×81.3(5 414-7×27.42)(124 393-7×81.32)≈0.837 5.∵0.837 5>0.755,∴x与y之间具有线性相关关系.[构建·体系]1.设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点得到的线性回归直线(如图3-2-1),以下结论正确的序号是__________.图3-2-1①直线l过点(x,y);②x和y的相关系数为直线l的斜率;③x和y相关系数在0到1之间;④当n为偶数时,分布在l两侧的样本点的个数一定相同.【解析】因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近于1,两个变量的线性相关程度越强,所以②③错误;④中n 为偶数时,分布在l两侧的样本点的个数可能不相同,所以④错误;根据回归直线方程一定经过样本中心点可知①正确.【答案】①2.根据如下样本数据:x 345678y 4.0 2.5-0.50.5-2.0-3.0^=bx+a^,则下列说法正确的是__________.(填序号) 得到的回归方程为y①a>0,b>0;②a>0,b<0;③a<0,b>0;④a<0,b<0.【解析】由表中数据画出散点图,如图,由散点图可知b<0,a>0,故②正确.【答案】②3.设有一个回归方程为y^=2-2.5x,则变量x每增加一个单位时,y=__________. 【导学号:29440069】^的平均改变【解析】由回归系数的意义可知当变量x增加一个单位时,y量为b^,由题目回归方程y^=2-2.5x,可得当变量x增加一个单位时,y^平均减少2.5个单位.【答案】平均减少2.5个单位4.对具有线性相关关系的变量x和y,由测得的一组数据求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.【解析】由题意知x=2,y=3,b^=6.5,所以a^=y-b^x=3-6.5×2=-10,即回归直线的方程为y ^=-10+6.5x .【答案】 y ^=-10+6.5x5.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)908483807568(1)求回归直线方程y ^=b^x +a ^,其中b ^=-20,a ^=y -b ^x ; (2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【解】 (1)x =16(8+8.2+8.4+8.6+8.8+9)=8.5, y =16(90+84+83+80+75+68)=80. ∵b^=-20,a ^=y -b ^x , ∴a^=80+20×8.5=250, ∴回归直线方程为y ^=-20x +250.(2)设工厂获得的利润为L 元,则L =x (-20x +250)-4(-20x +250)=-20⎝ ⎛⎭⎪⎫x -3342+361.25, ∴该产品的单价应定为334元时,工厂获得的利润最大.我还有这些不足:(1)(2)我的课下提升方案:(1)(2)学业分层测评(建议用时:45分钟)[学业达标]一、填空题1.如图3-2-2所示,对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断________.图3-2-2①变量x与y正相关,u与v正相关;②变量x与y正相关,u与v负相关;③变量x与y负相关,u与v正相关;④变量x与y负相关,u与v负相关.【解析】由图(1)知,x与y是负相关,由图(2)知,u与v是正相关,故③正确.【答案】③2.已知对一组观测值(x i,y i)(i=1,2,…,n)作出散点图后,确定具有线性^=a^+b^x,求得b^=0.51,x=61.75,y=38.14,则线性回归相关关系,若对于y方程为________.【解析】 ∵a ^=y -b ^x =38.14-0.51×61.75=6.647 5≈6.65. ∴y ^=0.51x +6.65.【答案】 y ^=0.51x +6.653.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型,预报广告费用为6万元时销售额为______万元.【解析】 样本中心点是(3.5,42),则a ^=y --b ^x -=42-9.4×3.5=9.1,所以回归直线方程是y ^=9.4x +9.1,把x =6代入得y ^=65.5.【答案】 65.54.对两个具有线性相关关系的变量进行回归分析时,得到一个回归方程y ^=1.5x +45,x ∈{1,5,7,13,14},则y -=________.【解析】 由x -=8,得y -=1.5×8+45=57. 【答案】 575.已知x ,y 的取值如下表:画出散点图,从所得的散点图分析,y 与x 线性相关,且y =0.95x +a ^,则a ^=________. 【导学号:29440070】【解析】 因为回归方程必过样本点的中心(x -,y -),解得x -=2,y -=4.5,将(2,4.5)代入y ^=0.95x +a^,可得a ^=2.6. 【答案】 2.66.一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:由表中数据算出线性回归方程y =b x +a 中的b ≈-2.气象部门预测下个月的平均气温约为 6 ℃,据此估计,该商场下个月羽绒服的销售量的件数约为________.【解析】 ∵样本点的中心为(10,38), ∴38=-2×10+a ^.∴a ^=58,即y ^=-2x +58. ∴当x =6时,y =46. 【答案】 467.对具有线性相关关系的变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),它们之间的线性回归方程是y =3x +20,若∑i =110x i =18,则∑i =110y i =________.【解析】 由于∑i =110x i =18,则x -=1.8,∵(x -,y -)在回归方程上, ∴y -=3×1.8+20=25.4, ∴∑i =110y i =10y -=254.【答案】 2548.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程是________.【解析】 由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得y ^-5=1.23(x -4),即y ^=1.23x +0.08.【答案】 y ^=1.23x +0.08 二、解答题 9.对于数据组:(1)(2)求线性回归方程.【解】 (1)作图略.x ,y 具有很好的线性相关性. (2)设y ^=a^+b ^x ,因为x -=2.5,y -=5,∑4i =1x i y i =60, ∑4i =1x 2i =30, 故b ^=60-4×2.5×530-4×2.52=2, a ^=y --b ^x -=5-2×2.5=0, 故所求的回归直线方程为y ^=2x .10.下表为某地近几年机动车辆数与交通事故的统计资料,求出y 关于x 的线性回归方程.【解】∑8i =1x i =1 031,∑8i =1y i =71.6,∑8i =1x 2i =137 835,∑8i =1x i y i =9 611.7,x -=128.875,y -=8.95,将它们代入⎩⎪⎨⎪⎧b ^=∑ni =1x i y i -n x - y -∑ni =1x 2i -n (x -)2,a^=y --b ^x -,计算得b^≈0.077 4.a ^=-1.025,所以,所求线性回归方程为y ^=0.077 4x -1.025.[能力提升]1.对具有线性相关关系的变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),它们之间的线性回归方程是y ^=3x +20,若∑10i =1x i =18,则∑10i =1y i=________. 【解析】 由∑10i =1x i=18,得x =1.8. 因为点(x ,y )在直线y ^=3x +20上,则y =25.4. 所以∑10i =1y i =25.4×10=254. 【答案】 2542.(2016·徐州月考)已知对一组观测值(x i ,y i )(i =1,2,…,n )作出散点图后,确定具有线性相关关系,若对于y ^=a ^+b ^x ,求得b ^=0.51,x -=61.75,y -=38.14,则线性回归方程为________.【解析】 ∵a ^=y --b ^x -=38.14-0.51×61.75 =6.647 5≈6.65.∴y ^=0.51x +6.65. 【答案】 y =0.51x +6.653.(2016·南京检测)若线性回归方程中的回归系数b ^=0,则相关系数r =________.【解析】 b^=∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2,r =∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2∑i =1n(y i -y -)2.由计算公式知,若b =0,则r =0. 【答案】 04.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100棵种子中的发芽数,得到如下资料:程,剩下的2组数据用于回归方程检验.(1)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y 关于x 的线性回归方程y ^=b^x +a ^;(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?(3)请预测温差为14 ℃的发芽数.【解】 (1)由数据求得,x =12,y =27, 由公式求得,b^=52,a ^=y -b ^x =-3.所以y关于x的线性回归方程为y^=52x-3.(2)当x=10时,y^=52×10-3=22,|22-23|<2;当x=8时,y^=52×8-3=17,|17-16|<2.所以该研究所得到的线性回归方程是可靠的.(3)当x=14时,有y^=52×14-3=35-3=32,所以当温差为14 ℃时的发芽数约为32颗.。
3.2 回归分析1.线性回归方程y ^=a ^+b ^x 称为数据的回归直线,此直线方程即为线性回归方程,其中a ^称为回归截距,b ^称为回归系数,y ^称为回归值,其中:⎩⎪⎨⎪⎧b ^=∑i =1nx i y i-n x y ∑i =1nx 2i-n x2,a ^=y -b ^x .预习交流1线性回归直线方程y ^=a ^+b ^x 与一次函数y =a +kx 有何区别?提示:一次函数y =a +kx 是y 与x 的确定关系,给x 一个值,y 有唯一确定的值与之对应,而线性回归直线方程是y 与x 的相关关系的近似反映,两个数据x ,y 组成的点(x ,y )可能适合线性回归直线方程,也可能不适合.2.相关系数对于x ,y 随机取到的n 对数据(x i ,y i )(i =1,2,…,n )样本,相关系数r 的计算公式为:r =∑i =1n(x i -x)(y i -y )∑i =1n(x i -x )2∑i =1n (y i -y)2=∑i =1nx i y i -n x y(∑i =1nx 2i -n x 2)(∑i =1ny 2i -n y 2),r 具有如下性质:(1)|r |≤1;(2)|r |越接近于1,x ,y 的线性程度越高;(3)|r |越接近于0,x ,y 的线性相关程度越弱.预习交流2如何利用r 的临界值判断两个变量的线性相关关系?提示:(1)提出统计假设H 0:变量x ,y 不具有线性相关关系;(2)如果以95%的把握作出推断,那么可以根据1-0.95=0.05与n -2在相关性检验的临界值表中查出一个r 的临界值r 0.05(其中1-0.95=0.05称为检验水平);(3)计算样本相关系数r ;(4)作出统计推断:若|r |>r 0.05,则否定H 0,表明有95%的把握认为x 与y 之间具有线性相关关系;若|r |≤r 0.05,则没有理由拒绝原来的假设H 0,即就目前数据而言,没有充分理由认为y 与x 之间有线性相关关系.1.线性回归方程的求法(1)(2)如果y 与x 之间具有线性相关关系,求回归直线方程. 思路分析:求回归直线方程必须先对两个变量进行相关性判断,若两个变量存在较大的相关性,则可利用公式求回归直线方程的系数;若两个变量不具备相关关系,则求回归直线方程将变得毫无意义.解:(1)散点图如图.(2)由散点图可知,y 与x 呈相关关系,设回归直线方程为:y ^=b ^x +a ^. 经计算,得x =6,y =210.4,∑5i =1x 2i =220,∑5i =1x i y i =7 790. ∴b ^=7 790-5×6×210.4220-5×62=36.95, a ^=210.4-36.95×6=-11.3.∴回归直线方程为y ^=36.95x -11.3.某地植被面积x ((1)请用最小二乘法求出y 关于x 的线性回归方程y =b x +a ;(2)根据(1)中所求线性回归方程,如果植被面积为200公顷,则下降的气温大约是多少℃?解:(1)x =20+40+50+60+805=50,y =3+4+4+4+55=4.∑i =15x i y i =20×3+40×4+50×4+60×4+80×5=1 060,∑i =15x 2i =202+402+502+602+802=14 500. 所以b ^=1 060-5×50×414 500-5×502=0.03,a ^=4-0.03×50=2.5.故y 关于x 的线性回归方程y ^=0.03x +2.5.(2)由(1)得:当x =200时,y ^=0.03×200+2.5=8.5. 所以植被面积为200公顷时,下降的气温大约是8.5 ℃.先作出散点图可直观地判断两个变量的相关关系,线性回归直线方程一定过样本中心(x ,y ).2.相关系数及相关性检验现随机抽取了我校10名学生在入学考试中的数学成绩(x )与入学后的第一次考试中的思路分析:先利用相关系数计算公式r =∑i =1nx i y i -n x y(∑i =1nx 2i -n x 2)(∑i =1ny 2i -n y 2)计算出r ,当|r |越接近于1时,两个变量越具有很强的线性关系.解:由题意得:x =110×(120+108+…+99+108)=107.8,y =110×(84+64+…+57+71)=68,∑i =110x 2i =1202+1082+…+992+1082=116 584, ∑i =110y 2i =842+642+…+572+712=47 384,i =1nx i y i =120×84+108×64+…+108×71=73 796,∴r =73 796-10×107.8×68(116 584-10×107.82)·(47 384-10×682)≈0.750 6.∵0.750 6接近于1,∴两次数学考试成绩有显著性线性相关关系.炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系,如果已测得炉料熔化完毕时,钢水的含碳量x 与冶炼时间y (从(1)y 与x 是否具有线性相关关系?(2)如果y 与x 具有线性相关关系,求线性回归方程.(3)预测当钢水含碳量为160个0.01%时,应冶炼多少分钟?于是r =∑i =1x i y i -10x y(∑10i =1x 2i -10x 2)(∑10i =1y 2i -10y 2)≈0.990 6.∵0.990 6非常接近于1,∴y 与x 具有显著的线性相关关系.(2)设所求的线性回归方程为y ^=b ^x +a ^,其中a ^,b ^的值使Q =∑10i =1(y i -b ^x i -a ^)2的值最小. b ^=∑10i =1x i y i -10x y∑10i =1x 2i -10x2≈1.267,a ^=y -b ^x ≈-30.47,即所求的线性回归方程为y ^=1.267x -30.47.(3)当x =160时,y ^=1.267×160-30.47≈172,即大约冶炼172 min. 如果两个变量不具备线性相关关系或者线性相关关系不显著,即使求出线性回归方程也无意义,用于估计和测量的结果也是不可信的.1.已知x ,y则y 与x 的回归直线方程y =b x +a 必过定点__________.答案:⎝ ⎛⎭⎪⎫32,4 解析:x =14×(0+1+2+3)=32.y =14×(1+3+5-a +7+a )=4,而y ^=b ^x +a ^过(x ,y ). 2.已知x ,y从散点图分析,y 与x 线性相关,且y =0.95x +a ,则a =__________. 答案:2.6解析:x =14×(0+1+3+4)=2,y =14×(2.2+4.3+4.8+6.7)=4.5.4.5=0.95×2+a ^,∴a ^=2.6.3根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为__________.答案:65.5万元解析:x =3.5,y =4.2,∵4.2=9.4×3.5+a ^,∴a ^=9.1.∴y ^=9.4x +9.1.当x =6时,y ^=65.5(万元).4.如下表中给出五组数据(x ,y ),从中选出四组使其线性相关最大,且保留第一组(-5,-3)答案:三解析:应去掉第三组;画散点图可以发现.5.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了4次试验.收集的数据如下:(1)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (2)现需生产20件此零件,预测需用多长时间?解:(1)x =1+2+3+44=2.5,y =2+3+5+84=4.5,b ^=∑i =14x i y i -4x y∑i =14x 2i -4x 2=(2+6+15+32)-4×2.5×4.5(1+4+9+16)-4×2.5×2.5=2, a ^=y -b ^x =4.5-2×2.5=-0.5,所以y ^=2x -0.5.(2)因为y ^=2×20-0.5=39.5(小时),所以生产20件此零件,预测需用39.5小时.。
3.2 回归分析学习目标 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个变量间的线性相关程度.3.了解非线性回归分析.知识点一线性回归模型思考某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:请问如何表示推销金额y与工作年限x之间的相关关系?y关于x的线性回归方程是什么?梳理线性回归模型(1)随机误差具有线性相关关系的两个变量的取值x、y,y的值不能由x完全确定,可将x,y之间的关系表示为y =a +bx +ε,其中________是确定性函数,________称为随机误差. (2)随机误差产生的主要原因①所用的______________不恰当引起的误差; ②忽略了________________; ③存在________误差.(3)线性回归模型中a ,b 值的求法y =__________称为线性回归模型.a ,b 的估计值为a ^,b ^,则⎩⎪⎨⎪⎧b ^= ,o(a= .)(4)回归直线和线性回归方程直线y ^=a ^+b ^x 称为回归直线,此直线方程即为线性回归方程,a ^称为____________,b ^称为____________,y ^称为__________. 知识点二 样本相关系数r具有相关关系的两个变量的线性回归方程y ^=b ^x +a ^.思考1 变量y ^与真实值y 一样吗?思考2 变量y ^与真实值y 之间误差大了好还是小了好?梳理 样本相关系数r 及其性质(1)r =________________________________. (2)r 具有以下性质: ①|r |≤________;②|r |越接近于________,x ,y 的线性相关程度越强; ③|r |越接近于________,x ,y 的线性相关程度越弱. 知识点三 对相对关系数r 进行显著性检验的基本步骤 1.________________:变量x ,y 不具有线性相关关系;2.如果以95%的把握作出判断,那么可以根据1-0.95=0.05与n -2在教材附录2中查出一个r 的临界值r 0.05(其中1-0.95=0.05称为检验水平); 3.计算__________________;4.作出统计推断:若|r |>________,则否定H 0,表明有________的把握认为x 与y 之间具有线性相关关系;若|r |≤r 0.05,则________________原来的假设H 0,即就目前数据而言,没有充分理由认为y 与x 之间有线性相关关系.类型一 求线性回归方程例1 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.(相关公式:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x )反思与感悟 (1)求线性回归方程的基本步骤①列出散点图,从直观上分析数据间是否存在线性相关关系.②计算:x ,y ,∑i =1nx 2i ,∑i =1nx i y i .③代入公式求出y ^=b ^x +a ^中参数b ^,a ^的值. ④写出线性回归方程并对实际问题作出估计.(2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.跟踪训练1 某班5名学生的数学和物理成绩如下表:(1)画出散点图;(2)求物理成绩y 对数学成绩x 的线性回归方程; (3)一名学生的数学成绩是96,试预测他的物理成绩.类型二线性回归分析例2 现随机抽取了某中学高一10名在校学生,他们入学时的数学成绩(x)与入学后第一次考试的数学成绩(y)如下:请问:这10名学生的两次数学成绩是否具有线性关系?反思与感悟相关关系的两种判定方法及流程(1)利用散点图判定的流程(2)利用相关系数判定的流程计算r―→结合r与相关关系的关系判断跟踪训练2 一台机器由于使用时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少,随机器运转的速度而变化,下表为抽样试验的结果:对变量y与类型三非线性回归分析例3 下表为收集到的一组数据:(1)作出x与y(2)建立x与y的关系;(3)利用所得模型,估计当x=40时y的值.反思与感悟非线性回归问题的处理方法(1)指数函数型y=e bx+a①函数y=e bx+a的图象②处理方法:两边取对数,得ln y=ln e bx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.(2)对数函数型y=b ln x+a①函数y=b ln x+a的图象:②处理方法:设x′=ln x,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.(3)y=bx2+a型处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b. 跟踪训练3 已知某种食品每千克的生产成本y(元)与生产该食品的重量x(千克)有关,经生产统计得到以下数据:通过以上数据,判断该食品的生产成本y (元)与生产的重量x (千克)的倒数1x之间是否具有线性相关关系.若有,求出y 关于1x的回归方程,并估计一下生产该食品500千克时每千克的生产成本是多少.(精确到0.01)1.设有一个线性回归方程y ^=2-1.5x ,当变量x 增加1个单位时,y 平均________个单位. 2.如图四个散点图中,适合用线性回归模型拟合其中两个变量的是________.(填序号)3.某厂节能降耗技术改造后,在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据如表:根据上表提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,则上表中的t =________.4.下表是x 和y 之间的一组数据,则y 关于x 的回归直线必过点________.5.已知x 、y 之间的一组数据如下表:(1)分别计算:x 、y 、x 1y 1+x 2y 2+x 3y 3+x 4y 4、x 21+x 22+x 23+x 24; (2)已知变量x 与y 线性相关,求出回归方程.回归分析的步骤(1)确定研究对象,明确哪个变量是自变量,哪个变量是因变量;(2)画出确定好的自变量和因变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程y ^=b ^x +a ^); (4)按一定规则估计回归方程中的参数.答案精析问题导学 知识点一思考 画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示变量之间的相关关系.设所求的线性回归方程为y ^=b ^x +a ^,则b ^=∑i =15(x i -x )(y i -y)∑i =15(x i -x)2=1020=0.5, a ^=y -b ^x =0.4.所以年推销金额y 关于工作年限x 的线性回归方程为y ^=0.5x +0.4. 梳理 (1)a +bx ε (2)①确定性函数 ②某些因素的影响 ③观测(3)a +bx +ε∑i =1nx i y i -n x y∑i =1nx 2i -n (x )2y -b ^x (4)回归截距 回归系数 回归值 知识点二 思考1 不一定. 思考2 越小越好.精品学习资料梳理 (1)∑i =1nx i y i -n x y(∑i =1nx 2i -n (x )2)(∑i =1ny 2i -n (y )2)(2)①1 ②1 ③0 知识点三1.提出统计假设H 0 3.样本相关系数r 4.r 0.05 95% 没有理由拒绝 题型探究例1 解 (1)如图:(2)∑i =14x i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9,y =2+3+5+64=4,∑i =14x 2i =62+82+102+122=344, b ^=158-4×9×4344-4×92=1420=0.7, a ^=y -b ^x =4-0.7×9=-2.3,故线性回归方程为y ^=0.7x -2.3.(3)由(2)中线性回归方程可知,当x =9时,y ^=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.跟踪训练1 解 (1)散点图如图.精品学习资料(2)x =15×(88+76+73+66+63)=73.2,y =15×(78+65+71+64+61)=67.8.∑i =15x i y i =88×78+76×65+73×71+66×64+63×61=25 054.∑i =15x 2i =882+762+732+662+632=27 174. 所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5(x )2=25 054-5×73.2×67.827 174-5×73.22≈0.625. a ^=y -b ^x ≈67.8-0.625×73.2=22.05.所以y 对x 的线性回归方程是y ^=0.625x +22.05.(3)当x =96时,y ^=0.625×96+22.05≈82,即可以预测他的物理成绩是82. 例2 解 x =110(120+108+…+99+108)=107.8,y =110(84+64+…+57+71)=68.∑i =110x 2i =1202+1082+…+992+1082=116 584.∑i =110y 2i =842+642+…+572+712=47 384. ∑i =110x i y i =120×84+108×64+…+99×57+108×71=73 796.所以相关系数为r =73 796-10×107.8×68(116 584-10×107.82)(47 384-10×682)精品学习资料≈0.751.由检验水平0.05及n -2=8, 在附录2中查得r 0.05=0.632. 因为0.751>0.632,由此可看出这10名学生的两次数学成绩具有较强的线性相关关系. 跟踪训练2 解 由题中数据可得x =12.5,y =8.25,∑i =14x i y i =438,4x y =412.5,∑i =14x 2i =660,∑i =14y 2i =291, 所以r =∑i =14x i y i -4x y(∑i =14x 2i -4(x )2)(∑i =14y 2i -4(y )2)=438-412.5(660-625)×(291-272.25)=25.5656.25≈0.995. 由检验水平0.05及n -2=2,在教材附录表2中查得r 0.05=0.950,因为r >r 0.05,所以y 与x 具有线性相关关系.例3 解 (1)作出散点图如图,从散点图可以看出x 与y 不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线y =c 1e c 2x 的周围,其中c 1、c 2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z =ln y ,则有变换后的样本点应分布在直线z =bx +a ,a =ln c 1,b =c 2的周围,这样就可以利用线性回归模型来建立y 与x 之间的非线性回归方程,数据可以转化为求得线性回归方程为精品学习资料z ^=0.272x -3.849,∴y ^=e0.272x -3.849.(3)当x =40时,y ^=e 0.272x -3.849≈1 131.跟踪训练3 解 设u =1x,通过已知数据得到y 与u 的相应数据为r =∑i =110u i ·y i -10u ·y(∑i =110u 2i -10·u 2)(∑i =110y 2i -10·y 2)≈0.999 8,于是有很大的把握认为y 与1x具有线性相关关系.而b ^=∑i =110u i ·y i -10u ·y∑i =110u 2i -10u 2≈8.973,a ^=y -b ^·u ≈1.126,于是y 与1x 的回归方程为y ^=8.973x+1.126.当x =500时,y ^=8.973500+1.126≈1.14.所以估计生产该食品500千克时每千克的生产成本是1.14元. 当堂训练1.减少1.5 2.①③ 3.3 4.(2.5,4)5.解 (1)x =0+1+2+34=1.5,y =1+3+5+74=4,精品学习资料x 1y 1+x 2y 2+x 3y 3+x 4y 4=0×1+1×3+2×5+3×7=34,x 21+x 22+x 23+x 24=02+12+22+32=14.(2)b ^=34-4×1.5×414-4×1.52=2,a ^=y -b ^x =4-2×1.5=1,故y ^=2x +1.。
课时训练14回归分析的基本思想及其初步应用一、选择题1.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2.已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是().A.l1和l2有交点(s,t)B.l1与l2相交,但交点不一定是(s,t)C.l1与l2必定平行D.l1与l2必定重合答案:A解析:都过样本中心点(s,t),但斜率不确定.2.下列四个命题中正确的是().①在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个观测的量;②残差平方和越小的模型,拟合的效果越好;③用R2来刻画回归方程,R2越小,拟合的效果越好;④在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,若带状区域宽度越窄,说明拟合精度越高,回归方程的预报精度越高.A.①③B.②④C.①④D.②③答案:B解析:e是预报变量y的随机误差,故①不正确;R2越接近1,拟合的效果越好,故③不正确;故选B.3.(2014湖北高考)根据如下样本数据:得到的回归方程为=bx+a,则().A.a>0,b>0B.a>0,b<0C.a<0,b>0D.a<0,b<0答案:B解析:由样本数据可知y值总体上是随x值的增大而减少的.故b<0,又回归直线过第一象限,故纵截距a>0.故选B.4.某学校开展研究性学习活动,某同学获得一组实验数据如下表:对于表中数据,现给出下列拟合曲线,其中拟合程度最好的是().A.y=2x-2B.y=C.y=log2xD.y=(x2-1)答案:D解析:可以代入检验,残差平方和最小的拟合程度最高.5.若某地财政收入x与支出y满足线性回归方程y=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|≤0.5.如果今年该地区财政收入10亿元,年支出预计不会超过().A.10亿B.9亿C.10.5亿D.9.5亿答案:C解析:代入数据y=10+e,因为|e|≤0.5,所以|y|≤10.5,故不会超过10.5亿.6.某产品的广告费用x与销售额y的统计数据如下表:根据上表可得回归方程x+中的为9.4,据此模型预报广告费用为6万元时销售额为().A.63.6万元B.65.5万元C.67.7万元D.72.0万元答案:B解析:∵-9.4×=9.1,∴回归方程为=9.4x+9.1.令x=6,得=9.4×6+9.1=65.5(万元).二、填空题7.在研究身高和体重的关系时,求得R2≈,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.答案:0.64解析:结合相关指数的计算公式R2=1-可知,当R2≈0.64时,身高解释了64%的体重变化.8.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:h)与当天投篮命中率y之间的关系:小李这5天的平均投篮命中率为,用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为.答案:0.50.53解析:这5天的平均投篮命中率为=0.5.因为=3,(x i-)(y i-)=(1-3)×(0.4-0.5)+(2-3)×(0.5-0.5)+(3-3)×(0.6-0.5)+(4-3)×(0.6-0.5)+(5-3)×(0.4-0.5)=0. 1,(x i-)2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,所以=0.01,=0.5-0.03=0.47.所以回归直线方程为=0.01x+0.47.当x=6时,=0.01×6+0.47=0.53.9.已知y与x之间具有很强的线性相关关系,现观测得到(x,y)的四组观测值并制作了下边的对照表,由表中数据粗略地得到线性回归直线方程为x+60,其中的值没有写上.当x不小于-5时,预测y最大为.答案:70解析:由已知,得=10,=40,所以40=10+60,=-2,从而=-2x+60.因为当x≥-5时,≤70,故预测y最大为70.三、解答题10.恩格尔系数=×100%.在我国,据恩格尔系数判定生活发展阶段的标准为:贫困:>60%,温饱:50%~60%,小康:40%~50%,富裕:<40%.据国家统计局统计显示,随着中国经济的不断发展,城镇居民家庭恩格尔系数不断下降,居民消费已从温饱型向享受型、发展型转变.如下表:恩格尔57.5 54.2 53.8 50.0 48.8 44.7 39.4 37.7 37.1系数y(%)年份x1978 1990 1992 1994 1996 1998 2000 2002 2003求:(1)根据年份预报恩格尔系数的线性回归方程;(2)预报2013年的恩格尔系数;(3)求R2;(4)作出残差图.解:由于问题中要求根据年份预报恩格尔系数,因此选取年份为自变量x,恩格尔系数为因变量y,作散点图:(1)由最小二乘法得线性回归方程为=-0.9018x+1845.9.(2)由回归方程可知,2013年恩格尔系数为=-0.9018×2013+1845.9≈30.6.(3)R2=1-≈1-≈0.82.(4)编号 1 2 3 4 5 6 7 8 9年份1978 1990 1992 1994 1996 1998 2000 2002 2003恩格尔系57.5 54.2 53.8 50.0 48.8 44.7 39.4 37.7 37.1数(%)残差-4.6 2.9 4.3 2.3 2.9 0.6 -2.9 -2.8 -2.5 残差图如下:11.关于x与y有以下数据:x 2 4 5 6 8y30 40 60 50 70已知x与y线性相关,由最小二乘法得=6.5,(1)求y关于x的线性回归方程;(2)现有第二个线性模型:=7x+17,且R2=0.82.若与(1)的线性模型比较,哪一个线性模型拟合效果比较好,请说明理由.解:(1)依题意设y关于x的线性回归方程为=6.5x+.=5,=50.∵=6.5x+经过(),∴50=6.5×5+.∴=17.5.∴y关于x的线性回归方程为=6.5x+17.5.(2)由(1)的线性模型得y i-与y i-的关系如下表:y i--0.5 -3.5 10 -6.5 0.5y i--20 -10 10 0 20所以(y i-)2=(-0.5)2+(-3.5)2+(-10)2+(-6.5)2+0.52=155.(y i-)2=(-20)2+(-10)2+102+02+202=1000.所以=1-=1-=0.845.由于=0.845,R2=0.82知>R2,所以(1)的线性模型拟合效果比较好.12.某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月的概率;(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y关于x的线性回归方程x+;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?解:(1)设“抽到相邻两个月的数据”为事件A,因为从6组数据中选取2组数据共有=15种情况,每种情况都是等可能出现的,其中,抽到相邻两个月的数据的情况有5种,所以P(A)=.(2)由数据求得=11,=24,由公式,求得=-,所以y关于x的线性回归方程为x-.(3)当x=10时,y=<2,同样,当x=6时,y=<2,所以,该小组所得线性回归方程是理想的.。
§3.2 回归分析(一)课时目标1.掌握建立线性回归模型的步骤.2.了解回归分析的基本思想和初步应用.1.对于n 对观测数据(x i ,y i )(i =1,2,3,…,n ),直线方程____________称为这n 对数据的线性回归方程.其中________称为回归截距,________称为回归系数,________称为回归值.2.a ^,b ^的计算公式⎩⎨⎧b ^=∑ni =1x i y i-n x y ∑ni =1x 2i-n (x )2,a ^ =y -b ^x .3.相关系数r 的性质 (1)|r |≤1;(2)|r |越接近于1,x ,y 的线性相关程度越强; (3)|r |越接近于0,x ,y 的线性相关程度越弱.一、填空题1.下列关系中正确的是________(填序号). ①函数关系是一种确定性关系; ②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.2.回归直线y ^=a ^+b ^x 恒经过定点________.3.为了解决初中二年级平面几何入门难的问题,某校在初中一年级代数教学中加强概念和推理教学,并设有对照班,下表是初中二年级平面几何期中测试成绩统计表的一部分,其χ2≈________(保留小数点后两位).4.从某学校随机选取8名女大学生,其身高x (cm)和体重y (kg)的回归方程为y ^=0.849x -85.712,则身高172 cm 的女大学生,由线性回归方程可以估计其体重为________ kg.5.设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,且y 关于x 的回归直线的斜率是b ^,那么b ^与r 的符号________(填写“相同”或“相反”).6.某小卖部为了了解冰糕销售量y (箱)与气温x (℃)之间的关系,随机统计了某4天卖出的冰糕的箱数与当天气温,并制作了对照表(如下表所示),且由表中数据算得线性回归方程y ^=b ^x+a ^中的b ^=27.今年一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y (件)与月平均气温x (℃)由表中数据算出线性回归方程y =b x +a 中的b ≈-2.气象部门预测下个月的平均气温约为6℃,据此估计,该商场下个月羽绒服的销售量的件数约为________.8.已知线性回归方程为y ^=0.50x -0.81,则x =25时,y 的估计值为________.二、解答题9.某企业上半年产品产量与单位成本资料如下:(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元?10(1)求年推销金额(2)若第6名推销员的工作年限为11年,试估计他的年推销金额.能力提升11.下表提供了某厂节能降耗技术改造后,生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.________. 12(1)(2)求线性回归方程,并在散点图中加上回归直线;(3)根据(2)的结果估计当房屋面积为150 m 2时的销售价格.1.(1)求线性回归方程的步骤为①作出散点图;②利用公式计算回归系数b ^及a ^的值;③写出线性回归方程.(2)一般地,我们可以利用线性回归方程进行预测,这里所得到的值是预测值,但不是精确值.2.计算相关系数r 可以判断变量x ,y 的线性相关程度.3.2 回归分析(一)答案知识梳理1.y ^=a ^+b ^x a ^b ^y ^作业设计 1.①②④ 2.(x ,y ) 3.16.23 4.60.316解析 当x =172时,y ^=0.849×172-85.172=60.316. 5.相同解析 可以分析b ^、r 的计算公式. 6.70解析 由线性回归方程必过点(x ,y ),且b ^=2,得a ^=20,所以当x =25时,y ^=70.7.46解析 ∵样本点的中心为(10,38),∴38=-2×10+a ^,∴a ^=58,∴当x =6时,y ^=-2×6+58=46. 8.11.69解析 y 的估计值就是当x =25时的函数值,即0.50×25-0.81=11.69.9.解 (1)n =6,∑6i =1x i =21,∑6i =1y i =426,x =3.5, y =71,∑6i =1x 2i =79,∑6i =1x i y i =1 481, b ^=∑6i =1x i y i -6x y ∑6i =1x 2i -6x 2=1 481-6×3.5×7179-6×3.52≈-1.82. a ^=y -b ^x =71+1.82×3.5=77.37.线性回归方程为y ^=a ^+b ^x =77.37-1.82x .(2)因为单位成本平均变动b ^=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b ^的意义有:产量每增加一个单位即1 000件时,单位成本平均减少1.82元. (3)当产量为6 000件时,即x =6,代入线性回归方程:y ^=77.37-1.82×6=66.45(元)当产量为6 000件时,单位成本约为66.45元.10.解 (1)设所求的线性回归方程为y ^=b ^x +a ^,则b ^=∑5i =1(x i -x )(y i -y )∑5i =1(x i -x )2=1020=0.5,a ^ =y -b ^ x =0.4. 所以年推销金额y 关于工作年限x 的线性回归方程为y ^=0.5x +0.4.(2)当x =11时,y ^=0.5×11+0.4=5.9(万元).所以可以估计第6名推销员的年推销金额为5.9万元.11.y ^=0.7x +0.35解析 对照数据,计算得:∑4i =1x 2i =86, x =3+4+5+64=4.5,y =2.5+3+4+4.54=3.5. 已知∑4i =1x i y i =66.5, 所以b ^=∑4i =1x i y i -4x y∑4i =1x 2i -4(x )2=66.5-4×4.5×3.586-4×4.52=0.7. a ^=y -b ^x =3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y ^=0.7x +0.35. 12.解 (1)散点图如图所示:(2)x =15∑5i =1x i =109,∑5i =1 (x i -x )2=1 570, y =23.2,∑5i =1(x i -x )(y i -y )=308. 设所求线性回归方程为y ^=b ^x +a ^,则b ^=3081 570≈0.196 2, a ^=y -b ^x =23.2-109×3081 570≈1.816 6. 故所求线性回归方程为y ^=0.196 2x +1.816 6.(3)根据(2),当x =150 m 2时,销售价格的估计值为y ^=0.196 2×150+1.816 6=31.246 6≈31.2(万元).。
【关键字】数学高中数学第三章统计案例 3.2 回归分析课后导练苏教版选修2-3基础达标某运动员训练次数与运动成绩之间的数据关系如下:次数(x) 32 33 35 37 39 44 46成绩(y) 25 34 37 39 42 48 51试求y与x之间的返回直线方程.解析:∵=38, =39.43,∴=10 756, =10 280,=11 340.∴b^= =1.6,a^=-b^=-21.37.∴返回直线方程为y^=1.6x-21.37.2.考察硫酸铜在水中的溶解度y与温度x的关系时,做了9组试验,其数据如下:温度x/℃0 10 20 30 40 50 60 70 80 溶解度y/g 14.0 17.5 21.2 26.1 29.2 33.3 40.0 48.0 54.8 求:(1)返回直线方程;(2)相关系数r.解析:(1)利用计算器分别求出, ,,, ,利用返回直线公式可求出b^=0.499 2,a^=11.60可知,返回直线方程为y^=0.499 2x+11.60.(2)将上述数据代入相关系数公式,可得r=0.987 4.3.研究某灌溉渠道水的流速y与水深x之间的关系,测得一组数据如下:水深x/m 1.40 1.50 1.60 1.70 1.80 1.90 2.00 2.10 流速y/(m·s-1) 1.70 1.79 1.88 1.95 2.03 2.10 2.16 2.21(1)求y对x的返回直线方程;(2)预测水深为1.95 m时水的流速是多少?解析:可采用列表的方法计算a^与返回系数b^.序号x y x2x y1 1.40 1.70 1.96 2.3802 1.50 1.79 2.25 2.6853 1.60 1.88 2.56 2.6854 1.70 1.95 2.89 3.315 1.80 2.03 3.24 3.6546 1.90 2.10 3.61 3.9907 2.00 2.16 4.00 4.3208 2.10 2.21 4.41 4.641∑14.00 15.82 24.92 27.993于是,=×14.00=1.75, =×15.82=1.977 5.b^= =≈0.733.a^=1.977 5-×1.75≈0.694.y对x的返回直线方程为y^=a^+b^x=0.694+0.733x.返回系数b^=0.733的意思是,在此灌溉渠道中,水深每增加0.1 m,水的流速平均增加0.073 m/s(本例数据是以0.1 m为水深间隔测得的),a^=0.694可以解释为水的流速中不受水深影响的部分.(2)由(1)中求出的返回直线方程,把x=1.95代入,易得y^=0.694+0.733×1.95≈2.12(m/s).计算结果表明,当水深为1.95 m时可以预测水的流速约为2.12 m/s.4.从某地成年男子中随机抽取n人,测得平均身高=172 cm,标准差sx=7.6 cm,平均体重=72 kg,标准差sy=15.2 kg,相关系数r==0.5.求由身高估计平均体重的返回方程y^=β^0+β^1x,以及由体重估计平均身高的返回方程x^=a^+b^y.解析:∵sx=,sy=,∴=0.5×7.6×15.2=57.76.∴β^1= =1.于是可得b=≈1.215.β^0= -β^1=72-172×1=-100,∴由身高估计平均体重的返回方程为y^=x-100.由x、y位置的对称性,得b^= =0.25.∴a^= -b^=172-72×0.25=154.∴由体重估计平均身高的返回方程为x^=0.25y+154.5.一个工厂在某年里每月产品的总成本y(万元)与该月产量x(万件)之间有如下一组数据: x 1.08 1.12 1.19 1.28 1.36 1.48 1.59 1.68 1.80 1.87 1.98 2.07 y 2.25 2.37 2.40 2.55 2.64 2.75 2.92 3.03 3.14 3.26 3.36 3.50(1)画出散点图;(2)求月总成本y与月产量x之间的返回直线方程.解析:(1)画出的散点图如图所示.(2)通过计算器可得b^≈1.215,a^=-b^ =2.847 5-1.215×≈0.974.因此所求的返回直线方程是y^=1.215x+0.974.6.已知10只狗的血球体积及红血球数的测量值如下表:45 42 46 48 42 35 58 40 39 50血球体积x(mm)6.53 6.30 9.527.50 6.99 5.90 9.49 6.20 6.558.72 红血球数y(百万)若已知二者相关,求出返回直线方程.思路分析:求返回直线方程,就是由公式计算b^与a^的值.解析:由题意,得x=44.50,y=7.37,设返回直线方程为同y^=b^x+a^则b^=≈0.175,a^=-0.43.故所求的返回直线方程为y^=0.175x-0.43.7.调查者通过询问男、女大学生在购买食品时是否看营养说明得到的数据如下表所示:看营养说明不看营养说明总计男大学生23 32 55女大学生9 25 34总计32 57 89利用列联表的独立性检验估计看营养说明是否与性别有关系?思路分析:根据列联表中的数据代入公式求得χ2的值,进行比较判断得出相应结论.解:由公式得χ2=≈2.149<3.841,所以我们没有理由认为看营养说明与男女性别有关,尽管在这次调查中男性看营养说明的比例比女性看营养说明的比例高,但我们不能认为这些男、女大学生中男性比女性看营养说明的多.8.某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系,从这个工业部门内随机抽选了10个企业作样本,有如下资料: 产量(千件) x 生产费用(千元)y 40 150 42 140 48 160 55 170 65150产量(千件)x 生产费用(千元)y 79 162 88 185 100 165 120 190 140185(1)计算x 与y 的相关系数;(2)对这两个变量之间是否线性相关进行相关性检验;(3)设回归直线方程为y ^=b ^x +a ^,求系数a ^,b ^. 解析: i x iy i x i 2y i 2x i y i1 40 150 1600 22500 60002 42 140 1764 19600 58803 48 160 2304 25600 7680 4 55 170 3 025 28 900 9 350 5 65 150 4 225 22 500 9 7506 79 162 6 241 26 244 12 7987 88 185 7 744 34 225 16 280 8 100 165 10 000 27 225 16 5009 120 190 14 400 36 100 22 800 10 140 185 19 600 34 225 25 900 合计7771 65770 903277 119132 929x =77.7,y=165.7,∑=1012i ix=70 903,∑=1012i iy=277 119,∑=101i ii yx =132 929r=)7.16510277119)(7.771070903(7.1657.771013292922⨯-⨯-⨯⨯-,即x 与y 的相关系数r≈0.806.(2)查表显著性水平0.05,自由度10-2=8.相应的相关系数临界值r 0.05=0.631 9;因为r>r 0.05,所以可以认为x 与y 之间具有线性相关关系. (3)b ^=27.7710709037.1657.7710132929⨯-⨯⨯-≈0.397; a ^=165.7-0.397×77.7=134.8.综合运用9.已知10只狗的血球体积及红血球数的测量值如下表:x :血球体积(mm)y :红血球数(百万)45 6.53 42 6.30 46 9.52 48 7.50 42 6.99 39 6.55 50 8.72 35 5.90 58 9.49 406.20(1)画出上表的散点图;(2)求出回归直线并画出图形. 解析:(1)见下图:(2)x =101(45+42+46+48+42+35+58+40+39+50)=44.5, y =101(6.53+6.30+9.52+7.50+6.99+5.90+9.49+6.20+6.55+8.72)=7.37. 设回归直线的方程为y ^=b ^x +a ^,则b ^=∑∑==--ni ini iixn xy x n yx 1221 =0.175,a ^=y -b x =-0.43.所以所求的回归直线为y ^=0.175x -0.43.10.炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时钢水的含碳量x 与冶炼时间y (从炉料x (0.01%) 104 180 190 177 147 134 150 191 204 121 y (mi n ) 100200210185155135170205235125(1)y 与x 是否具有线性相关关系?(2)如果y 与x 具有线性相关关系,求回归直线方程.(3)预测当钢水含碳量为160个0.01%时,应冶炼多少分钟? 思路分析:(1)判定两个变量是否具有线性相关关系,可通过计算相关系数与临界值关系;(2)设回归直线方程,依公式代入相关量计算可得;(3)把x =160代入回归直线方程求解可得. 解:(1)根据题意列表并计算如下: i1 2 3 4 5 6 7 8 9 10 x i104 180 190 177 147 134 150 191 204 121 y i100200210185155135170205235125x i y i 10400 36000 39900 32745 22785 18090 25500 39155 47940 15125x =159.8,y =172,∑=1012i ix=265 448,∑=1012i iy=312 350,∑=101i ii yx i=287 640于是r=∑∑∑===---1011012222101)10(1010i i i ii iiy y x xyx yx ≈0.990 6,查表得显著性水平0.05与n -2的相关系数临界值r 0.05=0.632, ∴r>r 0.05.∴y 与x 具有线性相关关系. (2)设所求的回归直线方程为y^=b ^x +a ^,b ^=∑∑==--101221011010i ii iixxy x yx ≈1.267,a ^≈-30.51,即所求的回归直线方程为y ^=1.267x -30.51.(3)当x =160时,y ^=1.267×160-30.51≈172(m i n ),即大约冶炼172 m i n .11.研究某特殊药物A 有无副作用(比如服用后恶心),给50个患者服用此药,给另外50个患者服用安慰剂,记录每类样本中出现恶心的数目如下表: 有恶心 无恶心 合计 给药A 15 35 50 给安慰剂 4 46 50 合计1981100试问此药物有无恶心的副作用?思路分析:根据列联表中的数据代入公式求得χ2的值,与临界值进行比较判断得出相应结论.解:由题意,问题可以归纳为独立检验假设H 1:服该药物(A )与恶心(B )独立.为了检验假设,计算统计量χ2=81195050)3544615(1002⨯⨯⨯⨯-⨯⨯≈7.86>6.635.故拒绝H 1,即不能认为药物无恶心副作用,也可以说,我们有99%的把握说,该药物与副作用(恶心)有关.12.为了了解某地母亲身高x 与女儿身高y 的相关关系,随机测得10对母女的身高,如下表所示:母亲身高x /c m 159 160 160 163 159 154 159 158 159 157 女儿身高y /c m158 159 160161161155162157162156试对x 与y 进行一元线性回归分析,并预测当母亲身高为161 c m 时女儿的身高为多少? 解析:先对x 与y 作相关性检验.(1)作统计假设:x 与y 不具有线性相关关系.(2)由小概率0.05与n -2=8在附表中查得r 0.05=0.632. (3)x =101(159+160+…+157)=158.8, y =101(158+159+…+156)=159.1, ∑=-1012210i ix x =(1592+1602+…+1572)-10×158.82=47.6, ∑=101i ii yx -10x y =(159×158+160×159+…+157×156)-10×158.8×159.1=37.2,∑=1012i i y -10y 2=(1582+1592+…+1562)-10×159.12=56.9,所以r=9.566.472.37⨯≈0.71.(4)|r|=0.71>0.632,即|r|>r 0.05.从而有95%的把握认为x 与y 之间具有线性相关关系,去求回归直线方程是有意义的. 回归系数b ^=6.472.37≈0.782≈0.78, a ^=159.1-0.782×158.5≈34.92.所以y 对x 的回归直线方程是y ^=34.92+0.78x . 回归系数0.78反映出当母亲身高每增加1 c m 时女儿身高平均增加0.78 c m ,a ^=34.92可以解释为女儿身高不受母亲身高变化影响的部分. 当x =161时,y ^=34.92+0.78×161=160.5.这就是说当母亲身高为161 c m 时女儿的身高大致也接近161 c m .此文档是由网络收集并进行重新排版整理.word 可编辑版本!。
3.2回归分析(2)教学目标(1)通过实例了解相关系数的概念和性质,感受相关性检验的作用; (2)能对相关系数进行显著性检验,并解决简单的回归分析问题; (3)进一步了解回归的基本思想、方法及初步应用. 教学重点,难点相关系数的性质及其显著性检验的基本思想、操作步骤. 教学过程 一.问题情境1.情境:下面是一组数据的散点图,若求出相应的线性回归方程,求出的线性回归方程可以用作预测和估计吗?2.问题:思考、讨论:求得的线性回归方程是否有实际意义. 二.学生活动对任意给定的样本数据,由计算公式都可以求出相应的线性回归方程,但求得的线性回归方程未必有实际意义.左图中的散点明显不在一条直线附近,不能进行线性拟合,求得的线性回归方程是没有实际意义的;右图中的散点基本上在一条直线附近,我们可以粗略地估计两个变量间有线性相关关系,但它们线性相关的程度如何,如何较为精确地刻画线性相关关系呢?这就是上节课提到的问题①,即模型的合理性问题.为了回答这个问题,我们需要对变量与y 的线性相关性进行检验(简称相关性检验). 三.建构数学1.相关系数的计算公式:对于,y 随机取到的对数据(,)i i x y (1,2,3,,)i n =,样本相关系数的计算公式为()()nniii ix x y y x y nx yr ---==∑∑.()22.相关系数的性质: (1)||1r ≤;(2)||r 越接近与1,,y 的线性相关程度越强;(3)||r 越接近与0,,y 的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 3.对相关系数进行显著性检验的步骤:相关系数的绝对值与1接近到什么程度才表明利用线性回归模型比较合理呢?这需要对相关系数进行显著性检验.对此,在统计上有明确的检验方法,基本步骤是: (1)提出统计假设0H :变量,y 不具有线性相关关系;(2)如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(是样本容量)在附录(教材P111)中查出一个的临界值0.05r (其中10.950.05-=称为检验水平); (3)计算样本相关系数;(4)作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与之间具有线性相关关系.说明:1.对相关系数进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%. 2.这里的指的是线性相关系数,的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.3.这里的是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释. 4.对于上节课的例1,可按下面的过程进行检验: (1)作统计假设0H :与y 不具有线性相关关系;(2)由检验水平0.05与29n -=在附录中查得0.050.602r =; (3)根据公式()2得相关系数0.998r =;(4)因为0.9980.602r =>,即0.05r r >,所以有95﹪的把握认为与y 之间具有线性相关关系,线性回归方程为527.59114.453y x =+是有意义的.四.数学运用 1.例题:例1.下表是随机抽取的对母女的身高数据,试根据这些数据探讨y 与之间的关系.解:所给数据的散点图如图所示:由图可以看出,这些点在一条直线附近,因为()1541571638159.25x =+++÷=,()1551561668161y =+++÷=, ()82222218()1541638159.2559.5ii xx =-=++-⨯=∑, ()82222218()1551668161116ii yy =-=++-⨯=∑,()8181541551631668159.2516180iii x y x y =-⨯++⨯-⨯⨯=∑,所以963.01165.5980≈⨯=r ,由检验水平0.05及26n -=,在附录中查得707.005.0=r ,因为0.9630.707>,所以可以认为与y 之间具有较强的线性相关关系.线性回归模型y a bx ε=++中,a b 的估计值,a b 分别为()8182218 1.345,8i ii ii x y x yb xx==-=≈-∑∑ 53.191a y bx =-≈-,故y 对的线性回归方程为x y 345.1191.53+-=.例2.要分析学生高中入学的数学成绩对高一年级数学学习的影响,在高一年级学生中随机抽取名学生,分析他们入学的数学成绩和高一年级期末数学考试成绩如下表:(2)如果与y 之间具有线性相关关系,求线性回归方程;(3)若某学生入学数学成绩为80分,试估计他高一期末数学考试成绩.解:(1)因为()16367767010x =⨯+++=,()16578757610y =⨯+++=,101()()1894xy i i i L x x y y ==--=∑,2101()2474xx i i L x x ==-=∑,1021()2056yy i i L y y ==-=∑.因此求得相关系数为10()()0.840iix x y y L r --===∑.结果说明这两组数据的相关程度是比较高的; 小结解决这类问题的解题步骤:(1)作出散点图,直观判断散点是否在一条直线附近; (2)求相关系数;(3)由检验水平和2n -的值在附录中查出临界值,判断y 与是否具有较强的线性相关关系; (4)计算,,写出线性回归方程. 2.练习:104P 练习第题.五.回顾小结:1.相关系数的计算公式与回归系数计算公式的比较; 2.相关系数的性质;3.探讨相关关系的基本步骤. 六.课外作业:106P 习题3.2第题.。
3.2 回归分析课前导引情景导入针对某工厂某产品产量与单位成本的资料进行线性回归分析:月份 产量(千件)x单位成本(元/件)yx 2xy1 2 73 4 146 2 3 72 9 216 3 4 71 16 284 4 3 73 9 219 5 4 69 16 276 6 5 68 25 340 合计21426791 481思路分析:这是一个实际应用的回归分析问题,其实就是找出回归方程,通过回归方程来分析产品产量与单位成本的关系. 解:设回归直线方程y=b ^x +a ^,则x =621 =27,y =6426 =71,∑=612i i x =79,∑=61i i i y x =1 481,所以代入公式,得b ^=2)27(679712761481⨯-⨯⨯-≈-1.818, a ^=71-(-1.818)×27≈77.36,x ;故回归系数b 的意义为:产量每增加1 000件,产品的单位成本就降低1.82元.知识预览1.a ^与回归系数b ^的计算方法a ^=____________,b ^=________________. a 与回归系数b 还可用列表的方法计算.2.对于变量x 与y 随机抽取到的n 对数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),检验统计量是样本相关系数r =_____________________________________________=∑∑∑===---ni ni i i ni iiy n y x n x yx n yx 1122221))((.3.r 的性质r 具有以下性质:|r |≤1,并且|r |越接近1,线性相关程度________;|r |越接近0,线性相关程度_________. 检验步骤如下:(1)作统计假设:x 与y ___________线性相关关系.(2)根据小概率0.05与n -2在附表中查出r 的一个临界值___________.(3)根据样本相关系数计算公式算出_________的值.(4)作统计推断.如果__________,表明有95%的把握认为x 与y 之间具有线性相关关系. 如果________,我们没有理由拒绝原来的假设.这时寻找回归直线方程是毫无意义的.答案:1.y -b ^x∑∑==---ni ini i ix xy y x x121)())((2.∑∑∑===----ni ni i ini i iy y x xy y x x11221)()())((3.越强 越弱 (1)不具有(2)r 0.05(3)r(4)|r|>r 0.05|r|≤r 0.05。
3.2 回归分析1.线性回归方程y ^=a ^+b ^x 称为数据的回归直线,此直线方程即为线性回归方程,其中a ^称为回归截距,b ^称为回归系数,y ^称为回归值,其中:⎩⎪⎨⎪⎧b ^=∑i =1nx i y i-n x y ∑i =1nx 2i-n x2,a ^=y -b ^x .预习交流1线性回归直线方程y ^=a ^+b ^x 与一次函数y =a +kx 有何区别?提示:一次函数y =a +kx 是y 与x 的确定关系,给x 一个值,y 有唯一确定的值与之对应,而线性回归直线方程是y 与x 的相关关系的近似反映,两个数据x ,y 组成的点(x ,y )可能适合线性回归直线方程,也可能不适合.2.相关系数对于x ,y 随机取到的n 对数据(x i ,y i )(i =1,2,…,n )样本,相关系数r 的计算公式为:r =∑i =1n(x i -x)(y i -y )∑i =1n(x i -x )2∑i =1n (y i -y)2=∑i =1nx i y i -n x y(∑i =1nx 2i -n x 2)(∑i =1ny 2i -n y 2),r 具有如下性质:(1)|r |≤1;(2)|r |越接近于1,x ,y 的线性程度越高;(3)|r |越接近于0,x ,y 的线性相关程度越弱.预习交流2如何利用r 的临界值判断两个变量的线性相关关系?提示:(1)提出统计假设H 0:变量x ,y 不具有线性相关关系;(2)如果以95%的把握作出推断,那么可以根据1-0.95=0.05与n -2在相关性检验的临界值表中查出一个r 的临界值r 0.05(其中1-0.95=0.05称为检验水平);(3)计算样本相关系数r ;(4)作出统计推断:若|r |>r 0.05,则否定H 0,表明有95%的把握认为x 与y 之间具有线性相关关系;若|r |≤r 0.05,则没有理由拒绝原来的假设H 0,即就目前数据而言,没有充分理由认为y 与x 之间有线性相关关系.1.线性回归方程的求法(1)(2)如果y 与x 之间具有线性相关关系,求回归直线方程. 思路分析:求回归直线方程必须先对两个变量进行相关性判断,若两个变量存在较大的相关性,则可利用公式求回归直线方程的系数;若两个变量不具备相关关系,则求回归直线方程将变得毫无意义.解:(1)散点图如图.(2)由散点图可知,y 与x 呈相关关系,设回归直线方程为:y ^=b ^x +a ^. 经计算,得x =6,y =210.4,∑5i =1x 2i =220,∑5i =1x i y i =7 790. ∴b ^=7 790-5×6×210.4220-5×62=36.95, a ^=210.4-36.95×6=-11.3.∴回归直线方程为y ^=36.95x -11.3.某地植被面积x ((1)请用最小二乘法求出y 关于x 的线性回归方程y =b x +a ;(2)根据(1)中所求线性回归方程,如果植被面积为200公顷,则下降的气温大约是多少℃?解:(1)x =20+40+50+60+805=50,y =3+4+4+4+55=4.∑i =15x i y i =20×3+40×4+50×4+60×4+80×5=1 060,∑i =15x 2i =202+402+502+602+802=14 500. 所以b ^=1 060-5×50×414 500-5×502=0.03,a ^=4-0.03×50=2.5.故y 关于x 的线性回归方程y ^=0.03x +2.5.(2)由(1)得:当x =200时,y ^=0.03×200+2.5=8.5. 所以植被面积为200公顷时,下降的气温大约是8.5 ℃.先作出散点图可直观地判断两个变量的相关关系,线性回归直线方程一定过样本中心(x ,y ).2.相关系数及相关性检验现随机抽取了我校10名学生在入学考试中的数学成绩(x )与入学后的第一次考试中的思路分析:先利用相关系数计算公式r =∑i =1nx i y i -n x y(∑i =1nx 2i -n x 2)(∑i =1ny 2i -n y 2)计算出r ,当|r |越接近于1时,两个变量越具有很强的线性关系.解:由题意得:x =110×(120+108+…+99+108)=107.8,y =110×(84+64+…+57+71)=68,∑i =110x 2i =1202+1082+…+992+1082=116 584, ∑i =110y 2i =842+642+…+572+712=47 384,i =1nx i y i =120×84+108×64+…+108×71=73 796,∴r =73 796-10×107.8×68(116 584-10×107.82)·(47 384-10×682)≈0.750 6.∵0.750 6接近于1,∴两次数学考试成绩有显著性线性相关关系.炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系,如果已测得炉料熔化完毕时,钢水的含碳量x 与冶炼时间y (从(1)y 与x 是否具有线性相关关系?(2)如果y 与x 具有线性相关关系,求线性回归方程.(3)预测当钢水含碳量为160个0.01%时,应冶炼多少分钟?于是r =∑i =1x i y i -10x y(∑10i =1x 2i -10x 2)(∑10i =1y 2i -10y 2)≈0.990 6.∵0.990 6非常接近于1,∴y 与x 具有显著的线性相关关系.(2)设所求的线性回归方程为y ^=b ^x +a ^,其中a ^,b ^的值使Q =∑10i =1(y i -b ^x i -a ^)2的值最小. b ^=∑10i =1x i y i -10x y∑10i =1x 2i -10x2≈1.267,a ^=y -b ^x ≈-30.47,即所求的线性回归方程为y ^=1.267x -30.47.(3)当x =160时,y ^=1.267×160-30.47≈172,即大约冶炼172 min. 如果两个变量不具备线性相关关系或者线性相关关系不显著,即使求出线性回归方程也无意义,用于估计和测量的结果也是不可信的.1.已知x ,y则y 与x 的回归直线方程y =b x +a 必过定点__________.答案:⎝ ⎛⎭⎪⎫32,4 解析:x =14×(0+1+2+3)=32.y =14×(1+3+5-a +7+a )=4,而y ^=b ^x +a ^过(x ,y ). 2.已知x ,y从散点图分析,y 与x 线性相关,且y =0.95x +a ,则a =__________. 答案:2.6解析:x =14×(0+1+3+4)=2,y =14×(2.2+4.3+4.8+6.7)=4.5.4.5=0.95×2+a ^,∴a ^=2.6.3根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为__________.答案:65.5万元解析:x =3.5,y =4.2,∵4.2=9.4×3.5+a ^,∴a ^=9.1.∴y ^=9.4x +9.1.当x =6时,y ^=65.5(万元).4.如下表中给出五组数据(x ,y ),从中选出四组使其线性相关最大,且保留第一组(-5,-3)答案:三解析:应去掉第三组;画散点图可以发现.5.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了4次试验.收集的数据如下:(1)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (2)现需生产20件此零件,预测需用多长时间?解:(1)x =1+2+3+44=2.5,y =2+3+5+84=4.5,b ^=∑i =14x i y i -4x y∑i =14x 2i -4x 2=(2+6+15+32)-4×2.5×4.5(1+4+9+16)-4×2.5×2.5=2, a ^=y -b ^x =4.5-2×2.5=-0.5,所以y ^=2x -0.5.(2)因为y ^=2×20-0.5=39.5(小时),所以生产20件此零件,预测需用39.5小时.。