线性回归直线方程PPT
- 格式:ppt
- 大小:355.00 KB
- 文档页数:4
第22讲 回归直线方程一、必备秘籍 1.两个变量线性相关(1)散点图:将样本中n 个数据点(,)i i x y (i =1,2,…,n )描在平面直角坐标系中得到的图形. (2)正相关与负相关①正相关:散点图中的点散布在从左下角到右上角的区域. ②负相关:散点图中的点散布在从左上角到右下角的区域. 2.回归直线的方程(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程:回归直线对应的方程叫回归直线的方程,简称回归方程. (3)回归方程的推导过程:①假设已经得到两个具有线性相关关系的变量的一组数据11(,)x y ,22(,)x y ,33(,)x y (,)n n x y .②设所求回归方程为y bx a =+,其中,a b 是待定参数. ③由最小二乘法得1122211()(),()nnii i ii i nniii i xx y y x ynx yb a y bx xx xnx ====---===---∑∑∑∑其中,b 是回归方程的斜率,a 是截距. 二、例题讲解1.(2021·哈尔滨市呼兰区第一中学校高三模拟预测(文))十三届全国人大三次会议表决通过了《中华人民共和国民法典》这部法律自2021年1月1日起施行,某市相关部门进行法律宣传,某宣传小分队记录了前5周每周普及宣传的人数与时间的数据,得到下表:(2)利用(1)的回归方程,预测该宣传小分队第7周普及宣传(民法典)的人数.参考公式及数据:回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y b x x ==--=-∑∑,ˆa y bx=-,()()51430i ii x x y y =--=∑.【答案】(1)4341y x =+;(2)预测该宣传小分队第7周普及宣传《民法典》的人数为342. 【分析】(1)求出x 、y 的值,将表格中的数据代入最小二乘法公式,求出b 、a 的值,可得出y 关于x 的线性回归方程;(2)将7x =代入回归直线方程,可得出结果. 【详解】(1)由题意得()11234535x =++++=,()1901201702102601705y =++++=, ()()()()()()52222221132333435310ii x x =-=-+-+-+-+-=∑,所以()()()51521430ˆ4310iii ii x x y y bx x ==--===-∑∑,所以ˆ17043341a y bx=-=-⨯=, 所以线性回归方程为4341y x =+;(2)由(1)知4341y x =+,令7x =,解得43741342y =⨯+=, 故预测该宣传小分队第7周普及宣传《民法典》的人数为342.2.(2021·合肥市第六中学高三模拟预测(文))树木根部半径与树木的高度呈正相关,即树木根部越粗,树木的高度也就越高.某块山地上种植了A 树木,某农科所为了研究A 树木的根部半径与树木的高度之间的关系,从这些地块中用简单随机抽样的方法抽取6棵A 树木,调查得到A 树木根部半径x (单位:米)与A 树木高度y (单位:米)的相关数据如表所示:(2)对(1)中得到的回归方程进行残差分析,若某A 树木的残差为零则认为该树木“长势标准”,在此片树木中随机抽取1棵A 树木,估计这棵树木“长势标准”的概率.参考公式:回归直线方程为y bx a =+,其中()()()1122211n ni iiii i b nnixii i x y nxy x x y y xnx x ==-==---==--∑∑∑∑,a y bx =-.【答案】(1)ˆ 20.9y x =+;(2)12【分析】(1)由最小二乘法先求样本点中心(),x y ,再代入公式求ˆ2b=,即可得到答案;(2)先计算6棵A 树木中残差为零的有3棵,占比为3162=,即可得到答案; 【详解】(1)由1(0.10.20.30.40.50.6)0.356x =⨯+++++=,1(1.1 1.3 1.6 1.5 2.0 2.1) 1.66y =⨯+++++=,610.1 1.10.2 1.30.3 1.60.4 1.50.5 2.00.6 2.1 3.71i ii x y==⨯+⨯+⨯+⨯+⨯+⨯=∑,6222222210.10.20.30.40.50.60.91ii x==+++++=∑,有62261216 3.7160.35 1.6ˆ20.9160.356i ii ii x yxybxx ==--⨯⨯===-⨯-∑∑,ˆˆ 1.6020.350.9ay bx =-=-⨯=, 故y 关于x 的回归方程为:ˆ 20.9yx =+. (2)当0.1x =时,ˆ20.10.9 1.1y=⨯+=,残差为1.1 1.10-=, 当0.2x =时,ˆ20.20.9 1.3y=⨯+=,残差为1.3 1.30-=, 当0.3x =时,ˆ20.30.9 1.5y=⨯+=,残差为1.6 1.50.1-=, 当0.4x =时,ˆ20.40.9 1.7y=⨯+=,残差为1.5 1.70.2-=-, 当0.5x =时,ˆ20.50.9 1.9y=⨯+=,残差为2.0 1.90.1-=, 当0.6x =时,ˆ20.60.9 2.1y=⨯+=,残差为2.1 2.10-=, 由这6棵A 树木中残差为零的有3棵,占比为3162=,∴这棵树木“长势标准”的概率为12.1.(2021·湖南师大附中高三月考)今年五月,某医院健康管理中心为了调查成年人体内某种自身免疫力指标,从在本院体检的人群中随机抽取了100人,按其免疫力指标分成如下五组:(10,20],(20,30],(30,40],(40,50],(50,60],其频率分布直方图如图1所示.今年六月,某医药研究所研发了一种疫苗,对提高该免疫力有显著效果.经临床检测,将自身免疫力指标比较低的成年人分为五组,各组分别按不同剂量注射疫苗后,其免疫力指标y 与疫苗注射量x 个单位具有相关关系,样本数据的散点图如图2所示.(1)健管中心从自身免疫力指标在(40,60]内的样本中随机抽取3人调查其饮食习惯,记X 表示这3人中免疫力指标在(40,50]内的人数,求X 的分布列和数学期望;(2)由于大剂量注射疫苗会对身体产生一定的副作用,医学部门设定:自身免疫力指标较低的成年人注射疫苗后,其免疫力指标不应超过普通成年人群自身免疫力指标平均值的3倍.以健管中心抽取的100人作为普通人群的样本,据此估计疫苗注射量不应超过多少个单位.附:对于一组样本数据()()()1122,,,,,,n n x y x y x y ⋅⋅⋅,其回归直线ˆybx a =+的斜率和截距的最小二乘估计值分别为()()()1122211,nniii ii i nniii i x x yy x ynxyb a y bx x xxnx ====---===---∑∑∑∑. 【答案】(1)分布列见解析,125;(2)疫苗注射量不应超过80个单位. 【分析】(1)根据频率分布直方图分别求出自身免疫力指标在(40,50]内和在(50,60]内的人数,写出X 的可能取值,求出对应概率,即可写出分布列,再根据期望公式即可求得数学期望;(2)根据最小二乘法求得回归方程,然后求出免疫力指标的平均值,根据题意列出不等式,从而可得答案. 【详解】解:(1)由直方图知,自身免疫力指标在(40,50]内的人数为0.008101008⨯⨯=,在(50,60]内的人数为0.002101002⨯⨯=,则X 的可能取值为1,2,3.其中122130828282233101010177(1),(2),(3)151515C C C C C C P X P X P X C C C =========.所以X 的分布列为()7121231515155E X =⨯+⨯+⨯=. (2)由散点图知,5组样本数据(,)x y 分别为(10,30),(30,50),(50,60),(70,70),(90,90),且x 与y 具有线性相关关系. 因为50,60x y ==,则22222210303050506070709090550607103050709055010b ⨯+⨯+⨯+⨯+⨯-⨯⨯==++++-⨯,760502510a =-⨯=,所以回归直线方程为ˆ0.725yx =+. 由直方图知,免疫力指标的平均值为26402482152535455527100100100100100⨯+⨯+⨯+⨯+⨯=. 由27381ˆy≤⨯=,得0.72581x +≤,解得80x ≤. 据此估计,疫苗注射量不应超过80个单位.2.(2021·安徽师范大学附属中学(理))根据国际疫情形势以及传染病防控的经验,加快新冠病毒疫苗接种是当前有力的防控手段,我国正在安全、有序加快推进疫苗接种工作,某乡村采取通知公告、微信推送、广播播放、条幅宣传等形式,积极开展疫苗接种社会宣传工作,消除群众疑虑,提高新冠疫苗接种率,让群众充分地认识到了疫苗接种的重要作用,自宣传开始后村干部统计了本村200名居民(未接种)的一个样本,5天内每天新接种疫苗的情况,如下统计表:(2)假设全村共计2000名居民(均未接种过疫苗),用样本估计总体来预测该村80%居民接种新冠疫苗需要几天?参考公式:回归方程y bx a =+中斜率和截距的最小二乘估计公式分别为:1221ˆi ii nii x ynxybxnx π==-=-∑∑,ˆˆay bx =-. 【答案】(1)222955y x =+;(2)7. 【分析】(1)根据公式求线性回归方程即可; (2)根据线性回归方程可设222955n a n ,求出67,S S ,与200080%1600⨯=比较即可求解. 【详解】 (1)1234535x ++++==,1015192328195y ++++==,则51522222222110305792140531922ˆ12345535i ii ii x y nxybxnx ==-++++-⨯⨯===++++-⨯-∑∑,222919355ˆa =-⨯=, 故y 关于x 的线性回归方程222955y x =+. (2)设222955na n ,数列{}n a 的前n 项和为n S ,易知数列{}n a 是等差数列, 则()12222922291155558225n n n a a S n n n n⎛⎫+++ ⎪+⎝⎭=⋅=⋅=+, 因为6127.2S ,7163.8S , 所以6101272S =,7101638S =200080%1600⨯=(人),所以预测该村80%居民接种新冠疫苗需要7天.3.(2021·九龙坡·重庆市育才中学高三月考)随着城市规模的扩大和人们生活水平的日益提高,某市近年机动车保有量逐年递增.根据机动车管理部门的统计数据,以5年为一个研究周期,得到机动车每5年纯增数据情况为:其中,时间变量i 对应的机动车纯增数据为i ,且通过数据分析得到时间变量与对应的机动车纯增数量y (单位:万辆)具有线性相关关系.(1)求机动车纯增数量y (单位:万辆)关于时间变量x 的回归方程,并预测2025~2030年间该市机动车纯增数量的值;附:回归直线方程y bx a =+中斜率和截距的最小二乘估计公式分别为:()()()1122211n ni iiii i nniii i x y nx y x x y y b xnxx x ====-⋅--==--∑∑∑∑;a y bx =-.(2)该市交通管理部门为了了解市民对“单双号限行”的赞同情况,随机采访了200名市民,将他们的意见和是否拥有私家车情况进行了统计,得到如下的22⨯列联表:附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.【答案】(1) 5.7 5.1y x =-,2025~2030年间,机动车纯增数量的值约为34.8万辆;(2)没有95%的把握认为“对限行的意见与是否拥有私家车有关”. 【分析】(1)根据最小二乘法求得线性回归方程,再求估计值即可; (2)根据列联表求得卡方观测值,再对照表即可得解. 【详解】 (1)由 51132639415527237i ii x y=⨯+⨯+⨯+=⨯+⨯=∑.()12222222212375312575.755451234553ni ii ni i x y nx yb x nx==-⋅-⨯⨯====-++++-⨯-∑∑. 因为y bx a =+过点(),x y ,所以 5.7y x a =+,5.1a =-,所以 5.7 5.1y x =-.2025~2030年时,7x =,所以 5.77 5.134.8y =⨯-=, 所以2025~2030年间,机动车纯增数量的值约为34.8万辆.(2)根据列联表,由()()()()()22n ad bc K a b c d a c b d -=++++得观测值为()2220025 3.12510085251575100160084K ⨯⨯-⨯⨯=⨯⨯==,3.125 3.841<,所以没有95%的把握认为“对限行的意见与是否拥有私家车有关”.4.(2021·贵州贵阳·高三月考(理))据贵州省气候中心报,2021年6月上旬,我省降水量在15.2-170.3mm 之间,毕节市局地、遵义市北部、铜仁市局地和黔东南州东南部不足50mm ,其余均在50mmm 以上,局地超过100mm.若我省某地区2021年端午节前后3天,每一天下雨的概率均为50%.通过模拟实验的方法来估计该地区这3天中恰好有2天下雨的概率,利用计算机或计算器可以产生0到9之间取整数值的随机数x (x ∈N ,且09x ≤≤)表示是否下雨:当[]()0,x k k Z ∈∈时表示该地区下雨,当[]1,9x k ∈+时,表示该地区不下雨.因为是3天,所以每三个随机数作为一组,从随机数表中随机取得20组数如下: 332 714 740 945 593 468 491 272 073 445 992 772 951 431 169 332 435 027 898 719(1)求出k 的值,使得该地区每一天下雨的概率均为50%;并根据上述20组随机数估计该地区这3天中恰好有2天下雨的概率;(2)2016年到2020年该地区端午节当天降雨量(单位:mm )如表:回归直线方程y bt a =+.并预测该地区2022年端午节有降雨的话,降雨量约为多少?参考公式:()()()1122211nniii ii i nniii i tty y t y nt yb tttnt====---==--∑∑∑∑,a y bt =-.【答案】(1)4, 25;(2)814955y t =-+,935mm .【分析】(1)由于该地区每一天下雨的概率均为50%,所以150%10k +=,从而可求出k 的值,在所给的20组数据中找出有两天小于等于k 的数,从而利用古典概型的概率公式可求出概率,(2)直接利用所给的数据和公式求出回归直线方程。