2019高中数学 第1章 统计案例 1.2 回归分析学案 苏教版选修1-2(1)
- 格式:doc
- 大小:383.25 KB
- 文档页数:13
高中数学第一章统计案例1.2 回归分析自我小测苏教版选修1-2 编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(高中数学第一章统计案例1.2 回归分析自我小测苏教版选修1-2)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为高中数学第一章统计案例1.2 回归分析自我小测苏教版选修1-2的全部内容。
高中数学第一章统计案例 1。
2 回归分析自我小测苏教版选修1-2 1.下列两个变量之间的关系不是函数关系的是______(填序号).①正方体的棱长和体积②角的弧度数和它的正弦值③单产为常数时,土地面积和总产量④日照时间与水稻的亩产量2.已知x,y的取值如下表:若x,y具有线性相关关系,且回归方程为y=0。
95x+a,则a的值为__________.3.下列说法中错误的是__________(填序号).①如果变量x与y之间存在着线性相关关系,则我们根据实验数据得到的点(x i,y i)(i=1,2,…,n)将散布在某一条直线的附近②如果两个变量x与y之间不存在线性相关关系,那么根据它们的一组数据(x i,y i)(i=1,2,…,n)不能写出一个线性方程③设x,y是具有线性相关关系的两个变量,且x关于y的线性回归方程为y bx a=+,b叫做回归系数④为使求出的线性回归方程有意义,可用统计假设检验的方法来判断变量y与x之间是否存在线性相关关系4.为了对学业水平测试成绩进行分析,在得分60分以上的全体同学中随机抽取8位.他们的物理、化学成绩如下:若用变量x ,y 分别记作物理成绩和化学成绩,则x ,y 之间的线性相关系数r 为____________.(参考数据:x ≈85,y =81,()82=1457i i x x -≈∑,()82=1550ii y y -≈∑,()()81501i i i x x y y =--≈∑21.4≈23.5≈)5.已知回归直线方程为y =0.50x -0。
1.2 回归分析知识梳理______________________,其中aˆ=___________,bˆ=___________. 2.回归直线不能准确地反映x与y之间关系,y值不能由x完全确定,它们之间是___________关系,y=a+bx+ε,其中___________是确定性函数,ε称为___________,将___________称为线性回归模型.3.随机误差产生主要原因有:〔1〕所用确立性函数不恰当引起误差;〔2〕___________________________________________________________ _________;〔3〕___________________________________________________________ _________.4.对于x、y随机取到n对数据(x i,y i)(i=1,2,…,n),样本相关系数γ计算公式为γ=_________________________________________________________ ___________=__________________________________________________________ __________.5.线性相关系数γ性质:〔1〕|γ|≤1;(2)|γ|越接近于__________,y线性相关程序越强;〔3〕|γ|越接近于__________,y线性相关程序越弱.知识导学在研究两个变量之间关系时,首先可以利用散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.作相关检验依据可以利用样本相关系数γ,当γ>0时,说明x与y 正相关;γ<0时,说明x与y负相关;当|γ|→1时,说明x与y 线性相关性越强;当|γ|→0时,说明x与y线性相关性越弱,几乎不存在线性相关关系.疑难突破1.建立回归模型根本步骤是什么呢?一般地,建立回归模型根本步骤是:〔1〕确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.〔2〕画出确定好解释变量与预报变量散点图,观察它们之间关系.〔例如是否存在线性关系等〕〔3〕由经历确定回归方程类型〔如果我们观察到数据是线性关系,那么选用线性回归方程y=bx+a).(4)按一定规那么估计回归方程中参数〔如最小二乘法〕.2.在应用回归直线方程解决问题时,应注意些什么呢?〔1〕回归直线方程只适合于我们所研究样本总体.例如:不能用女大学生身高与体重之间回归直线方程,描述女运发动身高与体重之间关系.同样,不能用生长在南方多雨地区树木高与直径之间回归直线方程,来描述北方干旱地区树木高与直径之间关系.〔2〕我们所建立回归直线方程一般都有时间性.例如:不能用20世纪80年代人身高、体重数据所建立回归方程,描述现在人身高、体重间关系.〔3〕样本取值范围会影响回归方程适用范围,例如:我们回归直线方程是由女大学生身高与体重数据建立,那么用它来描述一个人幼儿时期身高与体重之间关系就不恰当.〔4〕不能认为回归直线方程得到预报值就是预报变量准确值.事实上,它是预报变量可能取值平均值.典题精讲【例1】为了了解某地母亲身高x与女儿身高y相关关系,现随机测得10对母女身高,所得数据如下表所示:母亲身高x(cm) 159 160 160 163 159 154 159 158 159 157女儿身高y(cm) 158 159 160 161 161 155 162 157 162 156试对x与y进展线性回归分析,并预测当母亲身高为161 cm时,女儿身高为多少?思路分析:这是一个回归分析类问题,解决这一类问题,首先应对问题进展必要相关性检验,如果x与y之间具有相关关系,再求出对应回归直线方程,最后利用回归直线方程来预报当x=161 cm时y值,当γ>0时,说明x 与y 正相关,γ<0时,说明x 与y 负相关,当|γ|→1时,说明x 与y 线性相关越强,当|γ|→0时,说明x 与y 相关性越弱,几乎不存在相关关系,通常认为当γ>0.75时,变量x 、y 有很强相关关系,因而求回归直线方程才有意义,也才可以预测取值情况.解:作线性相关性检验,x =101×〔159+160+…+157〕=158.8. y =101×(158+159+… ∑2ix-102x =〔1592+1602+…+15722∑iiyx -y x 10=〔159×158+160×159+…∑2iy-102y =〔1582+1592+…+15622因此γ=∑∑∑---)()((2222y n y x n x yx n yx i i ii由于0.71接近于1,说明x 与y 有较强相关关系,因而求回归直线方程有必要.又bˆ 由此得回归直线方程为yˆ1 cm 时女儿身高平均增加0.78 cm, aˆ=35.2可以理解为女儿身高中不受母亲身高影响局部,当母亲身高为161 cm 时预报女儿身高为:yˆ=0.78×161+35.2=160.78≈161 cm,这就是说当母亲身高为161 cm 时,女儿身高大致也为161 cm.绿色通道:判断x 与y 是否具有线性相关关系,还可以先作出散点图,从点分布特征来判定是否线性相关.黑色陷阱:有些同学不对问题进展必要相关性检验,直接求x 与y回归直线方程,它就没有任何实际价值,也就不能发现变量x 与y 间变化规律,另外,要注意计算正确性.【变式训练】某班5名学生数学与化学成绩如下表所示,对x 与y 进展回归分析,并预报某学生数学成绩为75分时,他化学成绩是多少?学生学科 A B C D E 数学成绩〔x) 8876736663化学成绩〔y)78 65 71 64 61解:对x 与y 作相关性判断.2i x z =882+762+732+662+632=27 174 2i y z =782+652+712+642+612=23 167i i y x z =88×78+76×65+71×73+64×66+61×63=25 054∴2i x z -25x 22i y z -y 52∴r=≈0.904.由于|r |=0.904接近于1,说明两个变量之间存在着线性相关关系. ∴≈0.625,yˆ=0.625x+22.05 ∴当x=75时,≈69. 故次时他化学成绩为69分.【例2】 一个车间为了规定工时定额,需要确定加工零件所花费时间,为此进展了10次试验,测得数据如下: 零件数x(个〕10 20 30 40 50 60 70 80 90100 加工时间y(个〕62 68 75 81 89 95102108115122〔1〕y 与x 是否具有线性相关关系;〔2〕如果y 与x 具有线性相关关系,求回归直线方程;〔3〕根据求出回归直线方程,预测加工200个零件所用时间为多少. 思路分析:这是一个回归分析问题,应先进展线性相关检验或作散点图来判断x 与y 是否具有线性相关关系,如果线性相关,才可以求解后面问题,否那么就使得求回归直线方程没有意义.要作相关性检验,应先利用γ. γ=∑∑∑--•-)()(2222y n y x n xyx n yx iii i求出样本相关系数γ,利用当γ>0时,两个变量正相关;当γ<0时,两个变量负相关;当|γ|→1时,说明两个变量线性相关性越强;当|γ|→0时,说明两个变量之间几乎不存在线性相关关系;当γ>0.75时,认为两个变量有很强线性相关关系. 解:〔1〕列出下表: i 123456789 10 x i 10 20 30 40 50 60 70 80 90 100 y i62 68 75 81 89 95 101011512228 x i yi6201 3602 2503 2404 4505 7007 1408 6401035012200∴x =55, y =91.7 ∑∑∑======10110121012.55950,87777,38500i i i i ii iy x y x∴γ=∑∑∑===---1012210122101)10()10(10i i i i i ii y y x x yx yx=22)7.911987777()551038500(7.91551055950⨯-⨯⨯-⨯⨯-≈0.999 8由于γ=0.999 8>0.75,因此x 与y 之间有很强线性相关关系,因而可求回归直线方程.〔2〕设所求回归直线方程为=a x b yˆˆˆ+=. 那么有bˆ=2101221015510385007.915510559501010⨯-⨯⨯-=--∑∑==i ii ii x xyx yxx b y a-=ˆ=91.7-0.668×55=54.96. 因此,所求回归直线方程为y=0.668x+54.96.(3)这个回归直线方程意义是当x 每增大1时,y 值约增加0.668,而54.96是y 不随x 增加而变化局部,因此,当x=200时,y 估计值为y=0.668×200+54.96=188.56≈189. 因此,加工200个零件时所用工时约为189个. 【变式训练】 对于x 与y 有如下观测数据:X 18 25 30 39 41 42 49 52 Y356788910(1)作出散点图;〔2〕对x 与y 作回归分析;〔3〕求出x 对y 回归直线方程___________________; 〔4〕根据回归直线方程,预测y=20时x 值. 解:〔1〕作出散点图〔如下列图所示〕 〔2〕作相关性检验.×(18+25+30+39+41+42+49+52)=8296=37 ×(3+5+6+7+8+8+9+10)=7.=182+252+302+392+412+422+492+522=11 920 =32+52+62+72+82+82+92+102=428=18×3+25×5+30×6+39×7+41×8+42×8+49×9+52×10=2 257∴-y x 8=2 257-8×37×7=185 -28x =11 920-8×372=968. -28y =428-8×72=36 ∴r=)((2222y n y z x n x y x n y x z i i i i ---∑=≈0.991由于r=0.991>0.75,因此,认为两个变量有很强相关关系;〔3〕回归系数=2223781192073782257ˆ⨯-⨯⨯-=--=∑∑x n xy x n yx biiix b y aˆˆ-==7-0.191×37=-0.067. 所以y 对x 回归直线方程yˆ=0.191x-0.067; 〔4〕当y=20时,有20=0.191x-0.067, ∴x=≈105.因此在y 值为20时,x 值约为105.【例3】 某种图书每册本钱费y(元〕与印刷册数x(千册〕有关,经统计得到数据如下, x 123510203050 100 200y检测每册书本钱费y 与印刷册数倒数x1之间是否具有线性相关关系,如有,求出y 对x 回归方程.思路分析:此题与前面问题有所不同,y 与x 之间不具有线性回归关系,因而是非线性回归问题,对于非线性回归问题有时不给出经历公式,这时我们可以画出数据散点图,把它与必修1中学过根本初等函数〔幂函数、指数函数、对数函数〕图象作比拟,挑选一种跟这些散点拟合得最好函数,然后采用适当变量置换,把问题化为线性回归分析问题,使其得到解决.对于此题不妨设变量u=x1,题意要求对u 与y 作相关性检验,如果他们具有线性相关关系,就可以进一步求出y 对u 回归直线方程,这时再回代u=x1,就得到了y 对x 回归曲线方程.解:首先作变量置换u=x1,题目所给数据变成如下表所示数据. u i1y i可以求得,γ=∑∑∑===----ni ini ini iiy yx x y yx x 12121)()())((=0.999 8由γ=0.999 8>0.75,因此,变量y 与u i 间具有较强线性相关关系,并且bˆ=8.973, x b y a ˆˆ-==1.125. 最后回代a=x1可得yˆ=1.125+ 因此,y 与x 回归方程为yˆ=1.125+. 【变式训练】 一只红铃虫产卵数y 与温度x 有关,现收集了7组观测数据列成下表,试建立y 与x 之间回归方程. 温度x/℃ 21 23 25 27 29 32 35产卵数y/个7 11 21 24 66 115 325解:根据收集数据,作散点图,如下列图.从图中可以看出,样本点并没有分布在某个带状区域内,因此两个变量不呈线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间关系,根据已有函数知识,可以发现样本点分布在某一条直数函数曲线y=x C e C 21附近,其中C 1、C 2为待定参数,我们可以通过对数变换把指数关系变为线性关系,令z=lgy,那么变换后样本点分布在直线z=bx+a(a=lnC 1,b=lnC 2)附近,这样可以利用线性回归建立y 与x 非线性回归方程了.变换样本点分布在一条直线附近,因此可以用线性回归方程来拟合.由上表中数据可得到变换样本数据表如下表:x 21232527293235y可以求得线性回归直线方程为zˆ 因此红铃虫产卵数对温度非线性回归方程为yˆ=e,另一方面,可以认为图中样本点集中在某二次曲线y=423C x C 附近,其中C 3、C 4为待定参数,因此可以对温度变量进展变换,令t=x 2,然后建立y 与t 之间线性回归方程.从而得到y 与x 之间非线性回归方程.下表是红铃虫产卵数与对应温度平方线性回归模型拟合表,作出相应散点图如下列图所示:t 441 529 625 729 841 1 024 1 225 y711212466115325从图中可以看出,y 与t 散点图并不分布在一条直线周围,因此不宜用线性回归方程来拟合它,即不宜用二次函数y=C 3x 2+C 4来拟合x 与y 之间关系,因此利用=e 来拟合效果较好. 问题探究问题:在利用线性回归模型解决实际问题时候,应怎样合理建模,形成规律,总结方法呢?导思:在解决实际问题时,如何理解实际背景呢?线性回归模型与一次函数有什么不同呢?产生随机误差原因是什么呢?探究:在解决实际问题时,常需要推断,在推断时,不能仅凭主观意愿作出结论,而是需要理清实际背景,要通过实验来收集数据,并根据独立性检验原理做出合理推断.散点图可以形象地展示两个变量关系,把数据用散点图表示出来,可以直观地了解两个变量关系,常用横坐标表示解释变量,用纵坐标表示预报变量.在散点图上画回归直线,回归直线与原始数据拟合情况,直观地反响了回归直线与散点间关系.在实际问题中,线性回归模型适用范围要比一次函数大得多.当残差变量恒等于0时,线性回归模型就变成一次函数模型.因此,一次函数模型是线性回归模型特殊形式,线性回归模型是一次函数模型一般形式.随机误差产生主要原因:一是所用确定性函数不恰当引起误差;二是忽略了某种因素影响;三是存在观测误差,由于测量工具等原因,导致y观测值产生误差.但误差越小,说明回归模型拟合效果越好.。
新课程标准数学选修1—2第一章课后习题解答第一章统计案例1.1回归分析的基本思想及其初步应用练习(P8)1、画散点图的目的是通过变量的散点图判断两个变量更近似于什么样的函数关系,以确定是否直接用线性回归模型来拟合原始数据.说明:学生在对常用的函数图象比较了解的情况下,通过观察散点图可以判断两个变量的关系更近似于哪种函数.2、分析残差可以帮助我们解决以下两个问题:(1)寻找异常点,就是残差特别大的点,考察相应的样本数据是否有错.(2)分析残差图可以发现模型选择是否合适.说明:分析残差是回归诊断的一部分,可以帮助我们发现样本数据中的错误,分析模型选择是否合适,是否有其他变量需要加入到模型中,模型的假设是否正确等. 本题只要求学生能回答上面两点即可,主要让学生体会残差和残差图可以用于判断模型的拟合效果.3、(1)解释变量和预报变量的关系式线性函数关系.R=.(2)21说明:如果所有的样本点都在一条直线上,建立的线性回归模型一定是该直线,所以每个=+,没有随机误差项,是严样本点的残差均为0,残差平方和也为0,即此时的模型为y bx aR=.格的一次函数关系. 通过计算可得21习题1.1 (P9)1、(1)由表中数据制作的散点图如下:从散点图中可以看出GDP值与年份近似呈线性关系.y表示GDP值,t表示年份. 根据截距和斜率的最小二乘计算公式,得(2)用tˆ14292537.729a≈-,ˆ7191.969b≈从而得线性回归方程ˆ7191.96914292537.729=-.y t残差计算结果见下表.GDP 值与年份线性拟合残差表(年实际GDP 值为117251.9,所以预报与实际相差4275.540-.(4)上面建立的回归方程的20.974R =,说明年份能够解释约97%的GDP 值变化,因此所建立的模型能够很好地刻画GDP 和年份的关系.说明:关于2003年的GDP 值的来源,不同的渠道可能会有所不同.2、说明:本题的结果与具体的数据有关,所以答案不唯一.3、由表中数据得散点图如下:从散点图中可以看出,震级x 与大于或等于该震级的地震数N 之间不呈线性相关关系,随着x 的减少,所考察的地震数N 近似地以指数形式增长. 做变换lg y N =,得到的数据如下表所示.x 和y 的散点图如下:从这个散点图中可以看出x 和y 之间有很强的线性相关性,因此可以用线性回归模型拟合它们之间的关系. 根据截距和斜率的最小二乘计算公式,得ˆ 6.704a≈,ˆ0.741b ≈-, 故线性回归方程为 ˆ0.741 6.704y x =-+. 20.997R ≈,说明x 可以解释y 的99.7%的变化.因此,可以用回归方程 0.741 6.704ˆ10x N-+= 描述x 和N 之间的关系. 1.2独立性检验的基本思想及其初步应用练习(P15)列联表的条形图如图所示.由图及表直观判断,好像“成绩优秀与班级有关系”. 因为2K 的观测值0.653 6.635k ≈<,由教科书中表1-11克重,在犯错误的概率不超过0.01的前提下,不能认为“成绩与班级有关系”.说明:(1)教师应要求学生画出等高条形图后,从图形上判断两个分类变量之间是否有关系. 这里通过图形的直观感觉的结果可能会出错.(2)本题与例题不同,本题计算得到的2K 的观测值比较小,所以没有理由说明“成绩优秀与班级有关系”. 这与反证法也有类似的地方,在使用反证法证明结论时,假设结论不成立的条件下如果没有推出矛盾,并不能说明结论成立也不能说明结论不成立. 在独立性检验中,没有推出小概率事件发生类似于反证法中没有推出矛盾.习题1.2 (P16)1、假设“服药与患病之间没有关系”,则2K 的值应该比较小;如果2K 的值很大,则说明很可能“服药与患病之间没有关系”. 由列联表中数据可得2K 的观测值 6.110 5.024k ≈>,而由教科书表1-11,得2( 5.024)0.025P K ≥≈,所以在犯错误的概率不超过0.025的前提下可以认为“服药与患病之间有关系”. 又因为服药群体中患病的频率0.182小于没有服药群体中患病的频率0.400,所以“服药与患病之间关系”可以解释为药物对于疾病有预防作用. 因此在犯错误的概率不超过0.025的前提下,可以认为药物有效.说明:仿照例1,学生很容易完成此题,但希望学生能理解独立性检验在这里的具体含义,即“服药与患病之间关系”可以解释为“药物对于疾病有预防作用”.2、如果“性别与读营养说明之间没有关系”,由题目中所给数据计算,得2K 的观测值为8.416k ≈,而由教科书中表1-11知2(7.879)0.005P K ≥≈,所以在犯错误的概率不超过0.005的前提下认为“性别与读营养说明之间有关系”.3、说明:需要收集数据,所有没有统一答案. 第一步,要求学生收集并整理数据后得到列联表;第二步,类似上面的习题做出判断.4、说明:需要从媒体上收集数据,学生关心的问题不同,收集的数据会不同. 第一步,要求学生收集并整理数据后得到列联表;第二步,类似上面的习题做出判断.第一章 复习参考题A 组(P19)根据散点图,可以认为中国人口总数与年份呈现很强的线性相关关系,因此选用线性回归模型建立回归方程.由最小二乘法的计算公式,得 2095141.503a ≈-,1110.903b ≈,则线性回归方程为 ˆ1110.9032095141.503yx =-. 由2R 的计算公式,得 20.994R ≈,明线性回归模型对数据的拟合效果很好.根据回归方程,,预计2003年末中国人口总数约为129997万人,而实际情况为129227万人,预测误差为770万人;预计2004年末中国人口总数约为131108万人,而实际情况为129988万人,预测误差为1120万人.说明:数据来源为《中国统计年鉴》(2003). 由于人数为整数,所以预测的数据经过四舍五入的取整运算.2、(1)将销售总额作为横轴,利润作为纵轴,根据表中数据绘制散点图如下:由于散点图中的样本点基本上在一个带形区域内分布,猜想销售总额与利润之间呈现线性相关关系.(2)由最小二乘法的计算公式,得 ˆ1334.5a≈,ˆ0.026b ≈, 则线性回归方程为 ˆ0.0261334.5yx =+ 其残差值计算结果见下表:(3)对于(2)中所建立的线性回归方程,20.457R ≈,说明在线性回归模型中销售总额只能解释利润变化的46%,所以线性回归模型不能很好地刻画销售总额和利润之间的关系. 说明:此题也可以建立对数模型或二次回归模型等,只要计算和分析合理,就算正确.3、由所给数据计算得2K 的观测值为 3.689k ≈,而由教科书中表1-11知2( 2.706)0.10P K ≥=所以在犯错误的概率不超过0.10的前提下认为“婴儿的性别与出生的时间有关系”.第一章 复习参考题B 组(P19)1、因为 21(,)()ni i i Q a b y a bx ==--∑21(()())n i i i y bx y bx a y bx ==--+--+∑ 2211()()n n i i i i y bx y bx a y bx ===--++-+∑∑12()()ni i i y bx y bx a y bx =---+-+∑ 并且221()()n i a y bx n a y bx =-+=-+∑,12()()n i i i y bx y bx a y bx =--+-+∑ 1()(())ni i i a y bx y bx ny nbx ==-+--+∑ ()()0a y b x n y n b xn y n b x=-+--+= 所以 221(,)()()ni i i Q a b y bx y bx n a y bx ==--++-+∑.考察上面的等式,等号右边的求和号中不包含a ,而另外一项非负,所以ˆa和ˆb 必然使得等号右边的最后一项达到最小值,即 ˆˆ0ay bx -+=, 即ˆˆy a bx =+. 2、总偏差平方和21()n i i y y =-∑表示总的效应,即因变量的变化效应;残差平方和21ˆ()ni i y y =-∑表示随机误差的效应,即随机误差的变化效应;回归平方和21ˆ()ni yy =-∑表示表示变量的效应,即自变量的变化效应. 等式 222111ˆˆ()()()n n n i ii i i y y y y y y ===-=-+-∑∑∑ 表示因变量的变化总效应等于随机误差的变化效应与自变量的变化效应之和.3、说明:该题主要是考察学生应用回归分析模型解决实际问题的能力,解答应该包括如何获取数据,如何根据散点图寻找合适的模型去拟合数据,以及所得结果的解释三方面的内容.。
1.2 回归分析课前导引问题导入19世纪德国统计学家恩格尔根据统计资料,对消费结构的变化得出一个规律:一个家庭收入越少,家庭收入中(或总支出中)用来购买食物的支出所占的比例就越大,随着家庭收入的增加,家庭收入中(或总支出中)用来购买食物的支出则会下降.推而广之,一个国家越穷,每个国民的平均收入中(或平均支出中)用于购买食物的支出所占比例就越大,随着国家的富裕,这个比例呈下降趋势.恩格尔系数是根据恩格尔定律得出的比例数,是表示生活水平高低的一个指标.其计算公如下:总支出金额食物支出金额恩格尔系数= 在我国,判定生活发展阶段的标准为:贫困>60%,温饱50%~60%小康40%~50%,富裕<40%据国家统计局统计显示,随着中国经济不断增长,城镇居民家庭恩格尔系数不断下降,恩格尔系数(%) 57.5 54.2 53.8 50.0 48.8 44.7 39.4 37.7 37.1年份 1978 1990 1992 1994 1996 1998 2000 2002 2003求:(1)根据年份预报恩格尔系数的回归方程;(2)预报2006年的恩格尔系数.解析:由于问题中要求根据年份预报恩格尔系数,因此选取年份为自变量x ,恩格尔系数为因变量y ,作散点图如下:(1)由最小二乘法得线性回归方程:yˆ=-0.901 8x +1 845.9 (2)有回归方程可知,2006年的恩格尔系数为-0.901 8×2 006+1 845.9=36.9.知识预览1.回归分析是对有__________的两个变量进行统计分析的常用方法,对两个具有__________关系的变量进行回归分析,我们采用求回归直线方程的方法.2.函数关系是一种__________关系,而相关关系是一种__________关系.3.在回归模型中,y 的值由x 和随机变量ε共同确定,x 称为是__________,ε称为是__________,y 称为是__________,总偏差平方和由__________和__________的总效应组成.4.由部分观测值得到的回归直线,可以对两个变量间的线性相关关系进行估计,这实际上是将__________转化成__________来进行研究.答案:1.相关关系 相关2.确定性 非确定性3.解释变量 随机误差 预报变量 误差平方和 回归平方和4.整体 部分5.对于x , y 随机取到的n 对数据(x i , y i )(i=1,2,…,n),样本相关系数r 的计算公为 ))y n(y )()x n(x ()y -)(y x -(x r n 1i 22i n1i 22i n 1i i i ∑∑∑===--= ))y n(y )()x n(x (y x n y x n 1i 22i n1i 22i n 1i i i∑∑∑===---= r 具有如下性质:(1)|r|≤1;(2)|r|越接近于1,x ,y 的线性相关程度越强;(3)|r|越接近于0,x , y 的线性相关程度越弱.。
2019-2020年苏教版高中数学选修(1-2)1.2《回归分析》word 学案主备人:史玉亮 审核人:吴秉政 使用时间:2012.2.6学习目标:1.通过对典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用。
2.结合具体的实际问题,了解非线性回归问题的解决思路。
3.通过回归分析的学习,提高对现代计算技术与统计方法的应用意识。
B 案一、基础整合1.aˆ与回归系数b ˆ的计算方法 bˆ=________________________,a ˆ=________________________。
2.样本相关系数(1)对于变量x 与y 随机抽取到的n 对数据),,(),,(2211y x y x ……,),(n n y x ,检验统计量是样本相关系数r=_____________________________________________=_____________________________________________。
(2)r 具有以下性质:r ≤1,并且r 越接近1,线性相关程度___________;r 越接近0,线性相关程度___________________。
(3)检验的步骤如下:①作统计假设:x 与y 不具有___________________关系。
②根据___________与_____________在附表中查出r 的一个临界值05.0r 。
③根据____________________计算公式算出r 的值。
④作统计推断。
如果r >05.0r ,表明有__________的把握认为x 与y 之间具有线性相关关系;如果r ≤05.0r ,我们没有理由拒绝_________。
这时寻找回归直线方程是毫无意义的。
二、预习检测1.下列两变量具有相关关系的是( ) A.正方体的体积与棱长B.匀速行驶的车辆的行驶距离与时间C.人的身高与体重D.人的身高与视力2.下列两变量是线性相关的是( )A.如果变量X 与Y 之间存在着线性相关关系,则我们根据试验数据得到的点),...,3,2,1)(,(n i y x i i 将散布在某一条直线附近B.如果两个变量X 与Y 之间不存在线性关系,那么根据试验数据不能写出一个线性方程C.设x 、y 是具有线性相关关系的两个变量,且回归直线方程是a x b yˆˆˆ+=,则b ˆ叫回归系数D.为使求出的回归直线方程有意义,可用统计假设检验的方法判断变量X 与Y 之间是否存在线性相关关系4.在一次试验中,测得),(y x 的四组值分别是)5,4(),4,3(),3,2(),2,1(D C B A ,则y 与x 之间的回归直线方程为( )A.1ˆ+=x yB.2ˆ+=x yC.12ˆ+=x yD.1ˆ-=x y C 案合作探究1.回归直线方程的适用范围是什么?2.建立回归直线方程的一般步骤是什么?3.由回归直线方程得到的变量的值是真实值吗?设产量为x ,成本为y 。
1.2 回归分析学习目标 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个变量间的线性相关程度.3.了解非线性回归分析.知识点一 线性回归模型思考 某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:请问如何表示年推销金额y 与工作年限x 之间的相关关系?y 关于x 的线性回归方程是什么? 答案 画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示两变量之间的相关关系.设所求的线性回归方程为y ^=b ^x +a ^,则b ^=i =15(x i -x )(y i -y )i =15(x i -x )2=1020=0.5, a ^=y -b ^x =0.4.所以年推销金额y 关于工作年限x 的线性回归方程为y ^=0.5x +0.4.梳理 线性回归模型 (1)随机误差具有线性相关关系的两个变量的取值x ,y ,y 的值不能由x 完全确定,可将x ,y 之间的关系表示为y =a +bx +ε,其中a +bx 是确定性函数,ε称为随机误差. (2)随机误差产生的主要原因①所用的确定性函数不恰当引起的误差. ②忽略了某些因素的影响. ③存在观测误差.(3)线性回归模型中a ,b 值的求法y =a +bx +ε称为线性回归模型.a ,b 的估计值为a ^,b ^,则⎩⎪⎨⎪⎧b ^=∑i =1nx i y i-n x y ∑i =1nx 2i-n (x )2,a ^=y -b ^x .(4)回归直线和线性回归方程直线y ^=a ^+b ^x 称为回归直线,此直线方程即为线性回归方程,a ^称为回归截距,b ^称为回归系数,y ^称为回归值. 知识点二 样本相关系数r具有相关关系的两个变量的线性回归方程为y ^=b ^x +a ^.思考1 变量y ^与真实值y 一样吗? 答案 不一定.思考2 变量y ^与真实值y 之间误差大了好还是小了好? 答案 越小越好.梳理 样本相关系数r 及其性质(1)r =∑i =1nx i y i -n x y(∑i =1nx 2i -n (x )2)(∑i =1ny 2i -n (y )2).(2)r 具有以下性质: ①|r |≤1.②|r |越接近于1,x ,y 的线性相关程度越强. ③|r |越接近于0,x ,y 的线性相关程度越弱.知识点三 对相关系数r 进行显著性检验的基本步骤 1.提出统计假设H 0:变量x ,y 不具有线性相关关系.2.如果以95%的把握作出判断,那么可以根据1-0.95=0.05与n -2在教材附录1中查出一个r 的临界值r 0.05(其中1-0.95=0.05称为检验水平). 3.计算样本相关系数r .4.作出统计推断:若|r |>r 0.05,则否定H 0,表明有95%的把握认为x 与y 之间具有线性相关关系;若|r |≤r 0.05,则没有理由拒绝原来的假设H 0,即就目前数据而言,没有充分理由认为y 与x 之间有线性相关关系.1.求线性回归方程前可以不进行相关性检验.( × )2.在残差图中,纵坐标为残差,横坐标可以选为样本编号.( √ ) 3.利用线性回归方程求出的值是准确值.( ×)类型一 求线性回归方程例1 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.⎝ ⎛⎭⎪⎪⎫相关公式:b ^=∑i =1nx i y i-n x y ∑i =1nx 2i-n (x )2,a ^=y -b ^x 考点 线性回归方程 题点 求线性回归方程 解 (1)如图:(2)∑i =14x i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9,y =2+3+5+64=4,∑i =14x 2i =62+82+102+122=344, b ^=158-4×9×4344-4×92=1420=0.7, a ^=y -b ^x =4-0.7×9=-2.3,故线性回归方程为y ^=0.7x -2.3.(3)由(2)中线性回归方程可知,当x =9时,y ^=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.反思与感悟 (1)求线性回归方程的基本步骤①列出散点图,从直观上分析数据间是否存在线性相关关系.②计算:x ,y ,∑i =1nx 2i ,∑i =1nx i y i .③代入公式求出y ^=b ^x +a ^中参数b ^,a ^的值. ④写出线性回归方程并对实际问题作出估计.(2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义. 跟踪训练1 某班5名学生的数学和物理成绩如下表:(1)画出散点图;(2)求物理成绩y 对数学成绩x 的线性回归方程; (3)一名学生的数学成绩是96,试预测他的物理成绩. 考点 线性回归方程 题点 求线性回归方程 解 (1)散点图如图.(2)x =15×(88+76+73+66+63)=73.2,y =15×(78+65+71+64+61)=67.8.∑i =15x i y i =88×78+76×65+73×71+66×64+63×61=25054.∑i =15x 2i =882+762+732+662+632=27174. 所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5(x )2=25054-5×73.2×67.827174-5×73.22≈0.625. a ^=y -b ^x ≈67.8-0.625×73.2=22.05.所以y 对x 的线性回归方程是y ^=0.625x +22.05.(3)当x =96时,y ^=0.625×96+22.05≈82,即可以预测他的物理成绩约是82. 类型二 线性回归分析例2 现随机抽取了某中学高一10名在校学生,他们入学时的数学成绩(x )与入学后第一次考试的数学成绩(y )如下表:请问:这10名学生的两次数学成绩是否具有线性关系? 考点 题点解 x =110(120+108+…+99+108)=107.8, y =110(84+64+…+57+71)=68.∑i =110x 2i =1202+1082+…+992+1082=116584. ∑i =110y 2i =842+642+…+572+712=47384. ∑i =110x i y i =120×84+108×64+…+99×57+108×71=73796.所以相关系数为r =73796-10×107.8×68(116584-10×107.82)(47384-10×682)≈0.751.由检验水平0.05及n -2=8, 在附录1中查得r 0.05=0.632. 因为0.751>0.632,由此可看出这10名学生的两次数学成绩具有较强的线性相关关系. 反思与感悟 相关关系的两种判定方法 (1)利用散点图判定(2)利用相关系数判定计算r ―→结合r 的值与相关性检验临界值表中的值进行比较判断跟踪训练2 一台机器由于使用时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少随机器运转的速度而变化,下表为抽样试验的结果:对变量y 与x 进行线性相关性检验. 考点 题点解 由题中数据可得x =12.5,y =8.25,∑i =14x i y i =438,4x y =412.5,∑i =14x 2i =660,∑i =14y 2i =291,所以r =∑i =14x i y i -4x y(∑i =14x 2i -4(x )2)(∑i =14y 2i -4(y )2)=438-412.5(660-625)×(291-272.25)=25.5656.25≈0.995. 由检验水平0.05及n -2=2,在教材附录1中查得r 0.05=0.950,因为r >r 0.05,所以y 与x 具有线性相关关系. 类型三 非线性回归分析 例3 下表为收集到的一组数据:(1)作出x 与y 的散点图,并猜测x 与y 之间的关系; (2)建立x 与y 的关系;(3)利用所得模型,估计当x =40时y 的值. 考点 非线性回归分析 题点 非线性回归分析解 (1)作出散点图如图,从散点图可以看出x 与y 不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线y =c 1e c 2x 的周围,其中c 1,c 2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z =ln y ,则有变换后的样本点应分布在直线z =bx +a ,a =ln c 1,b =c 2的周围,这样就可以利用线性回归模型来建立y 与x 之间的非线性回归方程,数据可以转化为x =17(21+23+…+32+35)=27.429,z =17(1.946+2.398+…+4.745+5.784)=3.612,∑i =17x i z i =733.741,∑i =17x 2i =5414. 求得线性回归方程为z ^=0.273x -3.876,∴y ^=e0.273x -3.876.(3)当x =40时,y ^=e 0.273x -3.876≈1146.反思与感悟 非线性回归问题的处理方法 (1)指数型函数y =e bx +a①函数y =ebx +a的图象②处理方法:两边取对数,得ln y =lnebx +a,即ln y =bx +a .令z =ln y ,把原始数据(x ,y )转化为(x ,z ),再根据线性回归模型的方法求出a ,b .(2)对数型函数y =b ln x +a ①函数y =b ln x +a 的图象:②处理方法:设x ′=ln x ,原方程可化为y =bx ′+a , 再根据线性回归模型的方法求出a ,b . (3)y =bx 2+a 型处理方法:设x ′=x 2,原方程可化为y =bx ′+a ,再根据线性回归模型的方法求出a ,b . 跟踪训练3 已知某种食品每千克的生产成本y (元)与生产该食品的重量x (千克)有关,经生产统计得到以下数据:通过以上数据,判断该食品的生产成本y (元)与生产的重量x (千克)的倒数1x之间是否具有线性相关关系.若有,求出y 关于1x的回归方程,并估计一下生产该食品500千克时每千克的生产成本约是多少.(精确到0.01) 考点 非线性回归分析 题点 非线性回归分析解 设u =1x,通过已知数据得到y 与u 的相应数据为根据上述数据可求得相关系数r =∑i =110u i ·y i -10u ·y(∑i =110u 2i -10·(u )2)(∑i =110y 2i -10·(y )2)≈0.9998,于是有很大的把握认为y 与1x具有线性相关关系.而b ^=∑i =110u i ·y i -10u ·y∑i =110u 2i -10(u )2≈8.973,a ^=y -b ^·u ≈1.126,于是y 与1x 的回归方程为y ^=8.973x+1.126.当x =500时,y ^=8.973500+1.126≈1.14.所以估计生产该食品500千克时每千克的生产成本约是1.14元.1.设有一个线性回归方程y ^=2-1.5x ,当变量x 增加1个单位时,y 平均________个单位. 考点 线性回归分析 题点 线性回归方程的应用 答案 减少1.5解析 由回归方程中两个变量之间的关系可以得到.2.如图四个散点图中,适合用线性回归模型拟合其中两个变量的是________.(填序号)考点 回归分析题点 建立回归模型的基本步骤 答案 ①③解析 由图易知①③两个图中样本点在一条直线附近,因此适合用线性回归模型. 3.某厂节能降耗技术改造后,在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据如表:根据上表提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,则上表中的t =________.考点 线性回归分析题点 线性回归方程的应用 答案 34.下表是x 和y 之间的一组数据,则y 关于x 的回归直线必过点________.考点 线性回归方程 题点 样本点中心的应用 答案 (2.5,4)解析 回归直线必过样本点中心(x ,y ),即(2.5,4). 5.已知x ,y 之间的一组数据如下表:(1)分别计算:x ,y ,x 1y 1+x 2y 2+x 3y 3+x 4y 4,x 21+x 22+x 23+x 24; (2)已知变量x 与y 线性相关,求出回归方程. 考点 线性回归方程 题点 求线性回归方程解 (1)x =0+1+2+34=1.5,y =1+3+5+74=4,x 1y 1+x 2y 2+x 3y 3+x 4y 4=0×1+1×3+2×5+3×7=34,x 21+x 22+x 23+x 24=02+12+22+32=14.(2)b ^=34-4×1.5×414-4×1.52=2,a ^=y -b ^x =4-2×1.5=1,故y ^=2x +1.回归分析的步骤(1)确定研究对象,明确哪个变量是自变量,哪个变量是因变量.(2)画出确定好的因变量关于自变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程y ^=b ^x +a ^). (4)按一定规则估计回归方程中的参数.一、填空题1.根据如下样本数据:得到的回归方程为y ^=b ^x +a ^,则a ^,b ^与0的大小关系是________. 考点 线性回归分析 题点 线性回归方程的应用答案 a ^>0,b ^<0解析 作出散点图如下:观察图象可知,回归直线y ^=b ^x +a ^的斜率b ^<0,当x =0时,y ^=a ^>0.故a ^>0,b ^<0.2.某同学在研究性学习中,收集到某制药厂今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:若x ,y 线性相关,线性回归方程为y ^=0.7x +a ^,估计该制药厂6月份生产甲胶囊产量约为________万盒. 考点 线性回归方程 题点 样本点中心的应用 答案 8.1解析 回归直线一定过样本点中心.由已知数据,可得x =3,y =6,代入回归方程,可得a ^=y -0.7x =3.9,即回归方程为y ^=0.7x +3.9.把x =6代入,可得y ^=8.1,所以6月份的产量约为8.1万盒.3.某化工厂为预测某产品的回收率y ,而要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得∑i =18x i =52,∑i =18y i =228,∑i =18x 2i =478,∑i =18x i y i =1849,则y 与x 的线性回归方程是________________.考点 线性回归方程 题点 求线性回归方程答案 y ^=2.62x +11.47解析 由题中数据得x =6.5,y =28.5,∴b ^=∑i =18x i y i -8x·y∑i =18x 2i -8(x )2=1849-8×6.5×28.5478-8×6.52=367140≈2.62, a ^=y -b ^x ≈28.5-2.62×6.5=11.47,∴y 与x 的线性回归方程是y ^=2.62x +11.47. 4.已知x ,y 的取值如下表:从所得的散点图分析,y 与x 线性相关,且y ^=0.95x +a ^,则a ^=________. 考点 题点 答案 2.6解析 ∵x =2,y =4.5.又回归直线恒过定点(x ,y ),代入得a ^=2.6.5.从某大学随机选取8名女大学生,其身高x (cm)和体重y (kg)的线性回归方程为y ^=0.849x -85.712,则身高172cm 的女大学生,由线性回归方程可以估计其体重为________kg.考点 题点 答案 60.316解析 y ^=0.849×172-85.712=60.316. 6.有下列关系:①曲线上的点与该点的坐标之间的关系; ②苹果的产量与气候之间的关系;③森林中的同一种树木,其断面直径与高度之间的关系; ④学生与其学号之间的关系.其中有相关关系的是________.(填序号) 考点 题点 答案 ②③解析 由相关关系定义分析.7.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得线性回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型估计广告费用为6万元时的销售额为____________万元. 考点 题点 答案 65.5解析 样本点中心是(3.5,42),则a ^=y -b ^x =42-9.4×3.5=9.1,所以线性回归方程是y ^=9.4x +9.1,把x =6代入,得y ^=65.5.8.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________. 考点 线性相关系数题点 线性相关系数的概念及计算 答案 1解析 根据样本相关系数的定义可知,当所有样本点都在一条直线上且直线斜率大于零时,相关系数为1.9.对于回归分析,有下列叙述:①在回归分析中,变量间的关系若是非确定性关系,则因变量不能由自变量唯一确定; ②线性相关系数可以是正的或是负的;③回归分析中,如果r 2=1或r =±1,说明x 与y 之间完全线性相关; ④样本相关系数r ∈(-∞,+∞). 其说法正确的序号是________. 考点 题点 答案 ①②③解析 由回归模型及其性质易知①②③是正确的.相关系数的取值范围应为|r |≤1,所以④是错误的.10.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y =ebx +a的周围.令z =ln y ,求得线性回归方程为z ^=0.25x -2.58,则该模型的回归方程为________. 考点 非线性回归分析 题点 非线性回归分析 答案 y =e0.25x -2.58解析 因为z ^=0.25x -2.58,z =ln y ,所以y ^=e0.25x -2.58.11.在对两个变量进行回归分析时,甲、乙分别给出两个不同的回归方程,并对回归方程进行检验.对这两个回归方程进行检验时,与实际数据(个数)的对比结果如下:则从表中数据分析,________回归方程更好.(即与实际数据更贴近) 考点 两个模型拟合效果的比较 题点 两个模型拟合效果的比较 答案 甲解析 可以根据表中数据分析,两个回归方程对数据预测的正确率进行判断,甲回归方程的数据准确率为3240=45,而乙回归方程的数据准确率为4060=23.显然甲的准确率高些,因此甲回归方程好些. 二、解答题12.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的线性回归方程y ^=b^x +a ^,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少时间?(注:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n (x )2,a ^=y -b ^x ) 考点 线性回归方程 题点 求线性回归方程 解 (1)散点图如图.(2)由表中数据得∑i =14x i y i =52.5,x =3.5,y =3.5,∑i =14x 2i =54,所以b ^=∑i =14x i y i -4x y∑i =14x 2i -4(x )2=0.7,所以a ^=y -b ^x =1.05.所以y ^=0.7x +1.05. 回归直线如第(1)问图所示. (3)将x =10代入线性回归方程,得y ^=0.7×10+1.05=8.05,所以预测加工10个零件需要8.05小时.13.为了研究某种细菌随时间x 的变化繁殖个数y 的变化情况,收集数据如下:(1)(2)求y 与x 之间的回归方程. 考点 非线性回归分析 题点 非线性回归分析 解 (1)散点图如图所示:(2)由散点图看出样本点分布在一条指数曲线y =c 1e c 2x 的周围,于是令z =ln y ,则所以z ^=0.69x +1.115,则有y ^=e 0.69x +1.115.三、探究与拓展14.已知x ,y 的取值如下表:从散点图分析y 与x 具有线性相关关系,且回归方程为y ^=1.02x +a ^,则a ^=________. 考点 题点 答案 0.92解析 由题意得x =4,y =5,又(x ,y )在直线y ^=1.02x +a ^上,所以a ^=5-4×1.02=0.92.15.在一段时间内,分5次测得某种商品的价格x (万元)和需求量y (t)之间的一组数据为已知∑i =15x i y i =62,∑i =15x 2i =16.6.(1)画出散点图;(2)求出y 对x 的线性回归方程;(3)如果价格定为1.9万元,预测需求量大约是多少?(精确到0.01t) 考点 题点解 (1)散点图如图所示:(2)因为x =15×9=1.8,y =15×37=7.4,∑i =15x i y i =62,∑i =15x 2i =16.6, 所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5(x )2=62-5×1.8×7.416.6-5×1.82=-11.5,a ^=y -b ^x =7.4+11.5×1.8=28.1,故y 对x 的线性回归方程为y ^=-11.5x +28.1.(3)y ^=28.1-11.5×1.9=6.25(t).故价格定为1.9万元,预测需求量大约为6.25 t.。
1.2 回归分析[学习目标] 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个变量间的线性相关程度.3.了解回归分析的基本思想和初步应用.[知识链接]1.什么叫回归分析?答 回归分析是对具有相关关系的两个变量进行统计分析的一种方法. 2.回归分析中,利用线性回归方程求出的函数值一定是真实值吗?答 不一定是真实值,利用线性回归方程求的值,在很多时候是个预报值,例如,人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食,是否喜欢运动等. [预习导引] 1.线性回归方程(1)对于n 对观测数据(x i ,y i )(i =1,2,3,…,n ),直线方程y ^=a ^+b ^x 称为这n 对数据的线性回归方程.其中a^=y -b ^x 称为回归截距,b ^=i =1n(x i -x )(y i -y )i =1n(x i -x )2=∑i =1nx i y i -n xy∑i =1nx 2i -n (x )2称为回归系数,y ^称为回归值.(2)将y =a +bx +ε称为线性回归模型,其中a +bx 是确定性函数,ε称为随机误差. 2.相关系数r 的性质 (1)|r |≤1;(2)|r |越接近于1,x ,y 的线性相关程度越强; (3)|r |越接近于0,x ,y 的线性相关程度越弱. 3.显著性检验(1)提出统计假设H 0:变量x ,y 不具有线性相关关系;(2)如果以95%的把握作出判断,可以根据1-0.95=0.05与n -2在附录2中查出一个r 的临界值r 0.05(其中1-0.95=0.05称为检验水平);(3)计算样本相关系数r =i =1n(x i -x )(y i -y )i =1n(x i -x )2·i =1n(y i -y )2=∑i =1nx i y i -n x y(∑i =1nx 2i -n (x )2)·(∑i =1ny 2i -n (y )2);(4)作出统计推断:若|r |>r 0.05,则否定H 0,表明有95%的把握认为x 与y 之间具有线性相关关系;若|r |≤r 0.05,则没有理由拒绝原来的假设H 0,即就目前数据而言,没有充分理由认为x 与y 之间有线性相关关系.要点一 线性相关的判断例1 某校高三(1)班的学生每周用于数学学习的时间x (单位:h )与数学平均成绩y (单位:分)之间有表格所示的数据.(1)画出散点图; (2)作相关性检验;(3)若某同学每周用于数学学习的时间为18h ,试预测其数学成绩. 解 (1)根据表中的数据,画散点图,如图.从散点图看,数学成绩与学习时间线性相关.(2)由已知数据求得x =17.4,y =74.9,∑i =110x 2i =3182,∑i =110y 2i =58375,∑i =110x i y i =13578,所以相关系数r =∑i =110x i y i -10x y(∑i =110x 2i -10(x )2)(∑i =110y 2i -10(y )2)≈0.920.而n =10时,r 0.05=0.632,所以|r |>r 0.05,所以有95%的把握认为数学成绩与学习时间之间具有线性相关关系. (3)用科学计算器计算,可得线性回归方程为y ^=3.53x +13.44.当x =18时,y ^=3.53×18+13.44≈77,故预计该同学数学成绩可得77分左右.规律方法 判断变量的相关性通常有两种方式:一是散点图;二是相关系数r .前者只能粗略的说明变量间具有相关性,而后者从定量的角度分析变量相关性的强弱.跟踪演练1 暑期社会实践中,小闲所在的小组调查了某地家庭人口数x 与每天对生活必需品的消费y 的情况,得到的数据如下表:(1)利用相关系数r 判断y 与x (2)根据上表提供的数据,求出y 关于x 的线性回归方程. 解 (1)由表中数据,利用科学计算器计算得:r =∑i =15x i y i -5x y(∑i =15x 2i -5(x )2)(∑i =15y 2i -5(y )2)≈0.975.因为r >r 0.05=0.878,所以y 与x 之间具有线性相关关系.(2)根据以上数据可得,b ^=∑i =15x i y i -5x y∑i =15x 2i -5(x )2=8.5,∴a ^=y -b ^x =44-8.5×5=1.5, ∴所求的线性回归方程为y ^=1.5+8.5x . 要点二 求线性回归方程例2 某班5名学生的数学和物理成绩如下表:(1)画出散点图;(2)96,试预测他的物理成绩.解 (1)散点图如图.(2)x =15×(88+76+73+66+63)=73.2,y =15×(78+65+71+64+61)=67.8.∑i =15x i y i =88×78+76×65+73×71+66×64+63×61=25054.∑i =15x 2i =882+762+732+662+632=27174. 所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5(x )2=25054-5×73.2×67.827174-5×73.22≈0.625. a ^=y -b ^x ≈67.8-0.625×73.2=22.05.所以y 对x 的线性回归方程是y ^=0.625x +22.05.(3)x =96,则y ^=0.625×96+22.05≈82,即可以预测他的物理成绩是82.规律方法 (1)散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析.(2)求线性回归方程,首先应注意到,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.跟踪演练2 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:①请画出上表数据的散点图(②请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; ③试根据求出的线性回归方程,预测记忆力为9的同学的判断力. 解 ①如图:②∑ni =1x i y i =6×2+8×3+10×5+12×6=158, x =6+8+10+124=9,y =2+3+5+64=4, ∑ni =1x 2i =62+82+102+122=344, b ^=158-4×9×4344-4×92=1420=0.7, a ^=y -b ^x =4-0.7×9=-2.3,故线性回归方程为y ^=0.7x -2.3.③由②中线性回归方程当x =9时,y ^=0.7×9-2.3=4,故预测记忆力为9的同学的判断力为4. 要点三 非线性回归分析例3 某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:检验每册书的成本费y 与印刷册数的倒数x之间是否具有线性相关关系;如有,求出y 对x 的回归方程.解 令u =1x,原题中所给数据变成如下表示的数据:u =0.2245,y =3.14,∑i =110u 2i -10(u )2=0.9088,∑i =110u i y i -10u y =8.15525,∑i =110y 2i -10(y )2=73.207, ∴r =8.155250.9088×73.207≈0.9998,查表得r 0.05=0.632,因为r >r 0.05,从而认为u 与y 之间具有线性相关关系.回归系数b ^=8.155250.9088≈8.974,a ^=3.14-8.974×0.2245≈1.125,所以y ^=8.974u +1.125, 所以y 对x 的回归方程为y ^=8.974x+1.125. 规律方法 对非线性回归问题,若给出经验公式,采用变量代换把问题转化为线性回归问题.若没有经验公式,需结合散点图挑选拟合得最好的函数.跟踪演练3 在试验中得到变量y 与x 的数据如下表: 试求y 与x 之间的回归方程,并预测x =40时,y 的值.解 作散点图如图所示,从散点图可以看出,两个变量x ,y 不呈线性相关关系,根据学过的函数知识,样本点分布的曲线符合指数型函数y =c 1e c 2x ,通过对数变化把指数关系变为线性关系,令z =ln y ,则z =bx +a (a =ln c 1,b =c 2). 列表:作散点图如图所示,从散点图可以看出,两个变量x ,z 呈很强的线性相关关系.由表中的数据得到线性回归方程为z ^=0.277x -3.998.所以y 关于x 的指数回归方程为:y ^=e0.277x -3.998.所以,当x =40时,y =e0.277×40-3.998≈1190.347.1.在下列各量之间,存在相关关系的是________.①正方体的体积与棱长之间的关系;②一块农田的水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④家庭的支出与收入之间的关系;⑤某户家庭用电量与电价之间的关系. 答案 ②③④2.如图是x 和y 的一组样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.答案 D (3,10)解析 经计算,去掉D (3,10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大.3.对具有线性相关关系的变量x 和y ,由测得的一组数据已求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________. 答案 y ^=-10+6.5x解析 由题意知x =2,y =3,b ^=6.5,所以a ^=y -b ^x =3-6.5×2=-10,即回归直线的方程为y ^=-10+6.5x .4.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:(1)求年推销金额y (2)若第6名推销员的工作年限为11年,试估计他的年推销金额. 解 (1)设所求的线性回归方程为y ^=b ^x +a ^,则b ^=∑i =15x i y i -5x y∑i =15x 2i -5(x )2=1020=0.5,a ^=y -b ^x =0.4. 所以年推销金额y 关于工作年限x 的线性回归方程为y ^=0.5x +0.4.(2)当x =11时,y ^=0.5x +0.4=0.5×11+0.4=5.9(万元). 所以可以估计第6名推销员的年推销金额为5.9万元.1.相关系数rr 的大小与两个变量之间线性相关程度的强弱关系:(1)当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.当r =1时,两个变量完全正相关;当r =-1时,两个变量完全负相关.(2)|r |≤1,并且|r |越接近1,表明两个变量的线性相关程度越强,它们的散点图越接近于一条直线,这时用线性回归模型拟合这组数据的效果就越好;|r |越接近0,表明两个变量的线性相关程度越弱,通常当|r |>r 0.05时,认为两个变量有很强的线性相关程度.此时建立的回归模型是有意义的. 2.回归分析用回归分析可以预测具有相关关系的两个随机变量的取值.但要注意: ①回归方程只适用于我们所研究的样本的总体. ②我们建立的回归方程一般都有时间性. ③样本取值的范围影响了回归方程的适用范围.④回归方程得到预报值不是变量的精确值,是变量可能取值的平均值.一、基础达标1.已知方程y ^=0.85x -82.71是根据女大学生的身高预报她的体重的回归方程,其中x 的单位是cm ,y ^的单位是kg ,那么针对某个体(160,53)的随机误差是________. 答案 -0.292.对于相关系数r ,以下4个叙述错误的是________.①|r |∈(0,+∞),|r |越大,线性相关程度越大,反之,线性相关程度越小; ②r ∈(-∞,+∞),r 越大,线性相关程度越大,反之,线性相关程度越小; ③|r |≤1,|r |越接近1,线性相关程度越大,|r |越接近0,线性相关程度越小. 答案 ①②3.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是________.①y ^=0.4x +2.3;②y ^=2x -2.4;③y ^=-2x +9.5;④y ^=-0.3x +4.4. 答案 ①解析 因为变量x 和y 正相关,则回归直线的斜率为正,故可以排除选项③和④.因为样本点的中心在回归直线上,把点(3,3.5)分别代入选项①和②中的直线方程进行检验,可以排除②,故选①.4.某小卖部为了了解冰糕销售量y (箱)与气温x (℃)之间的关系,随机统计了某4天卖出的冰糕的箱数与当天气温,并制作了对照表(如下表所示),且由表中数据算得线性回归方程y ^=b ^x +a ^中的b ^=2,则预测当气温为25℃时,冰糕销量为________箱.答案 70解析 由线性回归方程必过点(x ,y ),且y ^=2,得a ^=20. ∴当x =25时,y ^=70.5.已知对一组观测值(x i ,y i )(i =1,2,…,n )作出散点图后,确定具有线性相关关系,若对于y ^=a ^+b ^x ,求得b ^=0.51,x =61.75,y =38.14,则线性回归方程为________.答案 y ^=0.51x +6.65解析 ∵a ^=y -b ^x =38.14-0.51×61.75 =6.6475≈6.65.∴y ^=0.51x +6.65.6.以下关于线性回归的判断,正确的是________.①散点图中所有点都在一条直线附近,这条直线为回归直线;②散点图中的绝大多数点都在回归直线的附近,个别特殊点不影响线性回归性; ③已知直线方程为y ^=0.50x -0.81,则x =25时,y ^为11.69; ④线性回归方程的意义是它反映了样本整体的变化趋势. 答案 ②③④解析 对于①,回归直线应使样本点总体距回归直线最近,而不是所有点都在一条直线附近,故①不正确,②③④均正确.7.在某种产品表面进行腐蚀性刻线试验,得到腐蚀深度y 与腐蚀时间x 之间相应的一组观察值,如下表:解 (1)作出如图所示的散点图.从散点图可看出腐蚀深度y (μm)与腐蚀时间x (s)之间存在着较强的线性相关关系.(2)相关系数r =∑i =1nx i y i -n x y⎝ ⎛⎭⎪⎪⎫∑i =1n x 2i -n (x )2⎝ ⎛⎭⎪⎪⎫∑i =1n y 2i -n (y )2≈0.98,显然|r |>r 0.05=0.602.所以,腐蚀深度y 与腐蚀时间x 之间有很强的线性相关关系. 二、能力提升8.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是________. 答案 ①④解析 ①中,回归方程中x 的系数为正,不是负相关;④方程中的x 的系数为负,不是正相关,∴①④一定不正确.9.对具有线性相关关系的变量x 、y 有观测数据(x i ,y i )(i =1,2,…,10),它们之间的线性回归方程是y ^=3x+20,若∑i =110x i =18,则∑i =110y i =________.答案 254解析 由∑i =110x i =18,得x =1.8.因为点(x ,y )在直线y ^=3x +20上,则y =25.4.所以∑i =110y i =25.4×10=254.10.一唱片公司欲知唱片费用x (十万元)与唱片销售量Y (千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:∑i =110x i =28,∑i =110x 2i =303.4,∑i =110y i =75,∑i =110y 2i =598.5,∑i =110x i y i =237,则y 与x 的相关系数r 的绝对值为________.答案 0.3解析 r =∑i =110x i y i -10x·y∑i =110x 2i -10x2·∑i =110y 2i -10y 2=237-10×2.8×7.5303.4-10×2.82·598.5-10×7.52=0.3.11.为了对新产品进行合理定价,对该产品进行了试销试验,以观察需求量y (单位:千件)对于价格x (单位:千元)的反应,得数据如下:(1)若y 与x (2)若成本X =y +500,试求:①在盈亏平衡条件下(利润为零)的价格; ②在利润为最大的条件下,定价为多少? 解 (1)y 与x 之间有线性相关关系,b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2=-1.2866,a ^=y -b ^x =169.7724,∴线性回归方程为y ^=-1.2866x +169.7724. (2)①在盈亏平衡条件下,y ^x =y ^+500, 即-1.2866x 2+169.7724x =-1.2866x +169.7724+500, 1.2866x 2-171.059x +669.7724=0, 解得x 1=128.9162,x 2=4.0381(舍去), ∴此时新产品的价格为128.9162千元. ②在利润最大的条件下,Q =y ^x -X =-1.2866x 2+169.7724x +1.2866x -169.7724-500=-1.2866x 2+171.059x -669.7724.要使Q 取得最大值,x =66.4771,即此时新产品应定价为66.4771千元.12.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验.测得的数据如下:(2)如果y 与x 具有线性相关关系,求线性回归方程;(3)根据求出的线性回归方程,预测加工200个零件所用的时间为多少? 解 (1)列出下表:x =55,y =91.7,∑i =110x 2i =38500,∑i =110y 2i =87777,∑i =110x i y i =55950,因此r =∑i =110x i y i -10x y(∑i =110x 2i -10x 2)(∑i =110y 2i -10y 2)=55950-10×55×91.7(38500-10×552)×(87777-10×91.72)≈0.9998.由于|r |=0.9998>r 0.05=0.632,因此x 与y 之间有很强的线性相关关系. (2)设所求的线性回归方程为y ^=b ^x +a ^,则有b ^=∑i =110x i y i -10x y∑i =110x 2i -10x 2=55950-10×55×91.738500-10×552≈0.668, a ^=y -b ^x =91.7-0.668×55=54.96,因此,所求的线性回归方程为y ^=0.668x +54.96.(3)这个线性回归方程的意义是当x 每增大1时,y 的值约增加0.668,而54.96是y 不随x 增加而变化的部分. 因此,当x =200时,y 的估计值为y ^=0.668×200+54.96=188.56≈189. 因此,加工200个零件所用的工时约为189分钟.三、探究与创新13.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y ^=b ^x +a ^; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y ^=b ^x +a ^中,b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b x ,其中x ,y 为样本平均值.解 (1)由题意知n =10,x =1n ∑i =1n x i =8010=8,y =1n ∑i =1n y i =2010=2,又l xx =∑i =1nx 2i -n x 2=720-10×82=80,l xy =∑i =1nx i y i -n x y =184-10×8×2=24,由此得b ^=l xy l xx =2480=0.3,a ^=y -b ^x =2-0.3×8=-0.4, 故所求回归方程为y ^=0.3x -0.4.(2)由于变量y 的值随x 的值增加而增加(b =0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程可以预测该家庭的月储蓄为y ^=0.3×7-0.4=1.7(千元).。