线性回归方程高考题讲解
- 格式:doc
- 大小:157.50 KB
- 文档页数:14
例析线性回归直线方程的求法山东 杨道叶一、求回归直线方程的步骤: 第一步:列表ix ,iy ,i ix y ;第二步:计算x ,y ,21n ii x =∑,21n ii y =∑,1ni ii x y =∑;第三步:代入公式计算b ,a 的值; 第四步:写出直线方程。
二、范例剖析例1 测地某地10对父子身高(单位:英寸)如下:如果x 与y 之间具有线性相关关系,求回归直线方程;如果父亲的身高为78英寸,试估计儿子的身高。
分析:对于两个变量,在确定具有线性相关关系后,可以利用“最小二乘法”来求回归直线方程。
为了使计算更加有条理,我们通过制作表格来先计算出1ni i x =∑,1ni i y =∑,21nii x =∑,21nii y =∑和1ni i i x y =∑;再计算出11ni i x x n ==∑,211n i i y y n ==∑,再利用公式1221ni ii nii x y nx yb xnx==-=-∑∑和a y bx =-来计算回归系数,最后写出回归直线方程y bx a =+。
解析:先将两个变量的数字在表中计算出来,如下表所示:由上表可得66866.810x ==,670.167.0110y ==,102144794ii x==∑,102144941.93ii y==∑,10144842.4i i i x y ==∑。
代入公式得244842.41066.867.010.4646447941066.8b -⨯⨯=≈-⨯,67.010.464666.835.975a =-⨯≈,故所求回归直线方程为0.464635.945y x =+。
当78x =时,0.46467835.97572.2138y =⨯+=,所以当父亲的身高为78英寸时,估计儿子的身高约为72.2138英寸。
评注:注意回归直线方程中一次项系数为b ,常数项为a ,这与一次函数的习惯表示不同。
例2 有一台机床可以按各种不同的速度运转,其加工的零件有一些是二级品,每小时生产的二级品零件的数量随机床运转的速度而变化。
高考数学基础训练:回归分析一、单选题1.某工厂对一批产品进行了抽样检测.右图是根据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是[96,106],样本数据分组为[96,98),[98,100),[100,102),[102,104),[104,106],已知样本中产品净重小于100克的个数是36,则样本中净重大于或等于98克并且小于104克的产品的个数是.A .90B .75C .60D .452.对两个变量y 与x 进行回归分析,分别选择不同的模型,它们的相关系数r 如下,其中拟合效果最好的模型是()A .0.2B .0.8C .-0.98D .-0.73.为研究变量x ,y 的相关关系,收集得到下面五个样本点(x ,y ):x 99.51010.511y1110865若由最小二乘法求得y 关于x 的回归直线方程为 3.2y x a=-+,则据此计算残差为0的样本点是()A .(9,11)B .(10,8)C .(10.5,6)D .(11.5)4.据一组样本数据()11,x y ,()22,x y ,…,(),n n x y ,求得经验回归方程为ˆ 1.50.5yx =+,且3x =.现发现这组样本数据中有两个样本点()1.2,2.2和()4.8,7.8误差较大,去除后重新求得的经验回归直线l 的斜率为1.2,则()A .变量x 与y 具有正相关关系B .去除两个误差较大的样本点后,重新求得的回归方程仍为ˆ 1.50.5yx =+C .去除两个误差较大的样本点后,y 的估计值增加速度变快D .去除两个误差较大的样本点后,相应于样本点()2,3.75的残差为0.055.对于样本相关系数,下列说法错误的是()A .可以用来判断成对样本数据相关的正负性B .可以是正的,也可以是负的C .样本相关系数越大,成对样本数据的线性相关程度也越高D .取值范围是[]1,1-6.下列说法中正确的是A .先把高二年级的2000名学生编号:1到2000,再从编号为1到50的学生中随机抽取1名学生,其编号为m ,然后抽取编号为50,100,150,m m m +++ 的学生,这种抽样方法是分层抽样法B .线性回归直线ˆˆy bxa =+不一定过样本中心()x y C .若两个随机变量的线性相关性越强,则相关系数r 的值越接近于1D .若一组数据2,4,a ,8的平均数是5,则该组数据的方差也是57.某同学用收集到的6组数据对(),(1,2,3,4,5,6)i i x y i =制作成如图所示的散点图(点旁的数据为该点坐标),并由最小二乘法计算得到回归直线1l 的方程:µµ11y b x a =+$,相关系数为1r ,相关指数为21R :经过残差分析确定点E 为“离群点”(对应残差过大的点),把它去掉后,再用剩下的5组数据计算得到回归直线2l 的方程:µµ22y b x a =+$,相关系数为2r ,相关指数为22R .则以下结论中,正确的是()①10r >,20r >;②µ10b >,µ20b >;③µµ12b b >;④2212R R >A .①②B .①②③C .②④D .②③④8.已知变量y 关于x 的非线性经验回归方程为0.5ˆe bx y-=,其一组数据如下表所示:x 1234ye3e 4e 5e 若5x =,则预测y 的值可能为()A .152e B .112e C .7e D .5e 第II 卷(非选择题)请点击修改第II 卷的文字说明二、填空题9.高中女学生的身高预报体重的回归方程是 0.7575.5y x =-(其中x , y 的单位分别是cm ,kg ),则此方程在样本()160,46处残差的绝对值是______.10.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:甲乙丙丁R 20.980.780.500.85建立的回归模型拟合效果最好的同学是__________.11.在一组样本数据()11,x y ,()22,x y ,…,(),n n x y (122,,,,n n x x x ≥⋅⋅⋅不全相等)的散点图中,若所有样本点()(),1,2,3,,i i x y i n =⋅⋅⋅都在直线210x y +-=上,则这组样本数据的相关系数r 为______.12.在一组样本数据()11,x y ,()22,x y ,…,()66,x y 的散点图中,若所有样本点(),i i x y ()1,2,,6i = 都在曲线212y bx =-附近波动.经计算6112i i x ==∑,6114i i y ==∑,62123ii x==∑,则实数b 的值为________.三、解答题13.某科技公司研发了一项新产品A ,经过市场调研,对公司1月份至6月份销售量及销售单价进行统计,销售单价x (千元)和销售量y (千件)之间的一组数据如下表所示:月份i 123456销售单价i x 99.51010.5118销售量iy 111086515(1)试根据1至5月份的数据,建立y 关于x 的回归直线方程;(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差不超过065.千件,则认为所得到的回归直线方程是理想的,试问(1)中所得到的回归直线方程是否理想?参考公式:回归直线方程ˆˆˆybx a =+,其中i ii 122ii 1ˆnnx y n x yb xnx==-⋅⋅=-∑∑.参考数据:5i i i 1392x y ==∑,52i i 1502.5x ==∑.14.为了巩固拓展脱贫攻坚的成果,振兴乡村经济,某知名电商平台决定为脱贫乡村的特色水果开设直播带货专场.该特色水果的热卖黄金时段为2021年7月10日至9月10日,为了解直播的效果和关注度,该电商平台统计了已直播的2021年7月10日至7月14日时段中的相关数据,这5天的第x 天到该电商平台专营店购物的人数y (单位:万人)的数据如下表:日期7月10日7月11日7月12日7月13日7月14日第x 天12345人数y (单位:万人)75849398100(1)依据表中的统计数据,请判断该电商平台的第x 天与到该电商平台专营店购物的人数y (单位:万人)是否具有较高的线性相关程度?(参考:若0.30.75r <<,则线性相关程度一般,若0.75r >,则线性相关程度较高,计算r 时精确度为0.01)(2)求购买人数y 与直播的第x 天的线性回归方程;用样本估计总体,请预测从2021年7月10日起的第38天到该专营店购物的人数(单位:万人).参考数据:521(434i iy y =-=∑,51(64i i i x x y y =--=∑65.979≈.附:相关系数()()ni i x x y y r --=∑,回归直线方程的斜率121()()()niii nii x x y y bx x ==--=-∑∑ ,截距a y bx =-$$.15.近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a =+或dy c x=+建立y 关于x 的回归方程,令s =1t x=得到如下数据:xyst10.15109.943.040.16113niii s ys y=-⋅∑13113iii t yt y=-⋅∑1322113ik ss=-∑1322113ii t t =-∑ 1322113ii yy =-∑13.94-2.111.670.2121.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953.(1)用相关系数说明哪种模型建立y 与x 的回归方程更合适;(2)根据(1)的结果及表中数据,建立 y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.637415.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v u αβ=+的斜率和截距的最小二乘法估计分别为 1221ni i i nii u vnu v unuβ==-⋅=-∑∑, v u αβ=-,相关系数ni i u vnu vr -⋅∑.参考答案:1.A 【解析】【详解】样本中产品净重小于100克的频率为(0.050+0.100)×2=0.3,频数为36,∴样本总数为.∵样本中净重大于或等于98克并且小于104克的产品的频率为(0.100+0.150+0.125)×2=0.75,∴样本中净重大于或等于98克并且小于104克的产品的个数为120×0.75=90.考点:频率分布直方图.2.C 【解析】【分析】由相关系数的绝对值越大,越具有强大相关性,即可求解【详解】∵相关系数的绝对值越大,越具有强大相关性,C 相关系数的绝对值最大约接近1,∴C 拟合程度越好.故选:C 3.B 【解析】【分析】先求出线性方程的样本中心点,从而可求得 3.240y x =-+,再根据残差的定义可判断.【详解】由题意可知,99.51010.511105x ++++==,111086585y ++++==所以线性方程的样本中心点为(10,8),因此有 8 3.21040aa =-⨯+⇒=,所以 3.240y x =-+,在收集的5个样本点中,(10,8)一点在 3.240y x =-+上,故计算残差为0的样本点是(10,8).故选:B 4.A 【解析】【分析】由条件可知样本中心不变,可求出新的回归直线方程,即可判断.【详解】因为重新求得的经验回归直线l 的斜率为1.2,所以变量x 与y 具有正相关关系,故A 正确;当3x =时,315055y ..=⨯+=,设去掉两个误差较大的样本点后,横坐标的平均值为x ',纵坐标的平均值为y ',则12636322n x x x x n n n ++⋅⋅⋅+--=--'==,1210510522n y y y n n n y ++⋅⋅⋅+--'==--=,因为去除两个误差较大的样本点后,重新求得回归直线l 的斜率为1.2,所以ˆ53 1.2a =⨯+,解得 1.4ˆa =,所以去除两个误差较大的样本点后的经验回归方程为ˆ 1.2 1.4yx =+,故B 错误;因为1.5 1.2>,所以去除两个误差较大的样本点后y 的估计值增加速度变慢,故C 错误;因为ˆ 1.22 1.4 3.8y=⨯+=,所以ˆ 3.75 3.80.05y y -=-=-,故D 错误.故选:A.5.C 【解析】【分析】根据相关系数的概念,依次分析各选项即可得答案.【详解】解:对于A 选项,当相关系数为正时,表明变量之间是正相关,相关系数为负数时,表明相关系数为负数,故A 选项正确;对于B ,D 选项,相关系数范围是[]1,1-,故可以为正,也可以为负,故B ,D 选项正确;对于C 选项,当相关系数为负数时,样本相关系数越大,线性相关性就越弱,故C 选项错误;故选:C6.D 【解析】A 是系统抽样,B 选项线性回归直线ˆˆy bxa =+一定过样本中心(),x y ,C 选项若两个随机变量的线性相关性越强,则相关系数r 的绝对值越接近于1,D 选项若一组数据2,4,a ,8的平均数是5,求出a ,则该组数据的方差即可求解.【详解】A 选项:先把高二年级的2000名学生编号:1到2000,再从编号为1到50的学生中随机抽取1名学生,其编号为m ,然后抽取编号为50,100,150,m m m +++ 的学生,这种抽样方法是系统抽样法,所以该选项不正确;B 选项:线性回归直线ˆˆy bxa =+一定过样本中心(),x y ,所以该选项不正确;C 选项:若两个随机变量的线性相关性越强,则相关系数r 的绝对值越接近于1,所以该选项不正确;D 选项:若一组数据2,4,a ,8的平均数是5,24854a +++=,解得6a =,则该组数据的方差是()()()()22222545658554-+-+-+-=,所以该选项正确.故选:D 【点睛】此题考查抽样方法,回归直线,相关关系的辨析,求平均数和方差,关键在于熟练掌握相关概念和公式,准确计算.7.B 【解析】【分析】根据散点图逐项进行判断即可.【详解】①:由散点图可知,,x y 之间是正相关关系,所以10r >,20r >,故①正确;②③:由散点图可知,回归直线的斜率是正数,且1l 的斜率大于2l 的斜率,所以µ10b >,µ20b >,µµ12b b >,故②③正确;④:由散点图可知,去掉“离群点”E 后,相关性更强,拟合的效果更好,所以2212R R <,故④错误;故选:B.8.C 【解析】【分析】将0.5ˆe bx y-=两边同时取对数,得ln 0.5y bx =-,设0.5z bx =-,由样本中心()x z 必在回归直线0.5z bx =-上,可求出b ,从而即可求解.【详解】解:由题意,将0.5ˆe bx y-=两边同时取对数,得ln 0.5y bx =-,设0.5z bx =-,则x1234z13451234 2.54x +++==,13453.254z +++==,由0.5z bx =-,得3.25 2.50.5b =-,解得 1.5b =,所以 1.50.5e x y -=,所以当5x =时, 1.550.57e e y ⨯-==,故选:C.9.1.5##32【解析】【分析】利用回归直线方程,求出160x =的估计值,然后求解残差的绝对值.【详解】由样本数据得到,女大学生的身高预报体重的回归方程是 0.7575.5y x =-,当160x =时, 0.7516075.544.5y =⨯-=,此方程在样本()160,46处残差的绝对值:44.546 1.5-=.故答案为:1.5.10.选甲相关指数R 2越大,表示回归模型拟合效果越好.【解析】【分析】相关指数越大,相关性越强,拟合效果越好.根据相关指数的大小即可判断.【详解】相关指数2R 越大,相关性越强,回归模型拟合效果越好,所以效果最好的是甲.【点睛】如果两个变量间的关系是相关关系,相关指数2R 越大,相关系数r 越接近1,残差平方和越接近0,都代表拟合效果越好.11.1-【解析】【分析】根据直线斜率可知两个变量负相关,结合数据点都在直线上可确定1r =-.【详解】直线210x y +-=的斜率20k =-<,∴这两个变量成负相关,0r ∴<,又所有样本点都在直线210x y +-=上,1r ∴=-.故答案为:1-.12.1723【解析】【分析】设2t x =,可得回归直线方程为12y bt =-,求出样本中心点(),t y 代入可得b 的值.【详解】令2t x =则212y bx =-即12y bt =-,6212366i i x t ===∑,61147663ii y y ====∑,因为样本中心点237,63⎛⎫ ⎪⎝⎭在回归直线12y bt =-上,所以7231362b =-,可得:1723b =,故答案为:1723.13.(1)ˆ3240y x =-+.;(2)是.【解析】【分析】(1)先由表中的数据求出,x y ,再利用已知的数据和公式求出 ,ba ,从而可求出y 关于x 的回归直线方程;(2)当8x =时,求出 y 的值,再与15比较即可得结论【详解】(1)因为()199.51010.511105x =++++=,()1111086585y =++++=,所以23925108ˆ 3.2502.5510b -⨯⨯==--⨯,得()ˆ8 3.21040a=--⨯=,于是y 关于x 的回归直线方程为 3.240ˆyx =-+;(2)当8x =时,ˆ 3.284014.4y=-⨯+=,则ˆ14.4150.60.65yy -=-=<,故可以认为所得到的回归直线方程是理想的.14.(1)具有较高的线性相关程度(2) 6.470.8y x =+,314万人【解析】【分析】(1)由已知计算相关系数r 即可.(2)由列表计算 a、b ,可得线性回归方程进一步可得解.(1)由表中数据可得3,90x y ==,所以521()10i i x x =-=∑,又55211()434,()()64i i i i i y y x x y y ==-=--=∑∑,所以()()50.970.75i i x x y y r --=>∑,所以该电商平台直播黄金时段的天数x 与购买人数y 具有较高的线性相关程度.所以可用线性回归模型拟合人数y 与天数x 之间的关系.(2)由表中数据可得()()()5152164ˆ 6.410i i i i i x x y y b x x ==--===-∑∑,则ˆˆ90 6.4370.8a y bx =-=-⨯=,所以 6.470.8y x =+,令38x =,可得 6.4387031ˆ.84y =⨯+=(万人)15.(1)用d y c x =+模型建立y 与x 的回归方程更合适;(2)10ˆ111.54y x =-;(3)当温度为20时这种草药的利润最大.【解析】【分析】(1)利用相关系数1r ,2r ,比较1||r 与2||r 的大小,得出用模型d y c x=+建立回归方程更合适;(2)根据(1)的结论求出y 关于x 的回归方程即可;(3)由题意写出利润函数ˆz ,利用基本不等式求得利润z 的最大值以及对应的x 值.【详解】(1)由题意知20.9953r =-,10.8858r =,因为121r r <<,所有用d y c x =+模型建立y 与x 的回归方程更合适.(2)因为1311322113 2.1ˆ100.2113i i i i i t y t yd tt ==-⋅-===--∑∑,ˆˆ109.94100.16111.54cy dt =-=+⨯=,所以ˆy 关于x 的回归方程为10ˆ111.54y x=-(3)由题意知11012020(111.54ˆˆ)22z y x x x =-=--20012230.8()2x x =-+2230.8202210.8≤-=,所以22.8ˆ10z≤,当且仅当20x =时等号成立,所以当温度为20时这种草药的利润最大.。
§9.3 一元线性回归模型及其应用考试要求 1.了解样本相关系数的统计含义.2.了解最小二乘法原理,掌握一元线性回归模型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.知识梳理1.变量的相关关系(1)相关关系:两个变量 ,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类: 和 .(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在 附近,我们就称这两个变量线性相关. 2.样本相关系数(1)r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x)2∑i =1n(y i -y )2.(2)当r >0时,称成对样本数据 ;当r <0时,称成对样本数据 . (3)|r |≤1;当|r |越接近1时,成对样本数据的线性相关程度越 ;当|r |越接近0时,成对样本数据的线性相关程度越 . 3.一元线性回归模型(1)我们将y ^=b ^x +a ^称为Y 关于x 的经验回归方程,其中⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x )(y i-y )∑i =1n(x i-x )2,a ^=y -b ^x .(2)残差:观测值减去 称为残差.常用结论1.经验回归直线过点(x ,y ).2.求b ^时,常用公式b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2.3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误. 思考辨析判断下列结论是否正确(请在括号中打“√”或“×”) (1)相关关系是一种非确定性关系.( )(2)散点图是判断两个变量相关关系的一种重要方法和手段.( )(3)经验回归直线y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点.( ) (4)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.( ) 教材改编题1.在对两个变量x ,y 进行回归分析时有下列步骤:①对所求出的经验回归方程作出解释;②收集数据(x i ,y i ),i =1,2,…,n ;③求经验回归方程;④根据所收集的数据绘制散点图. 则下列操作顺序正确的是( ) A .①②④③ B .③②④① C .②③①④D .②④③①2.对于x ,y 两变量,有四组成对样本数据,分别算出它们的样本相关系数r 如下,则线性相关性最强的是( )A .-0.82B .0.78C .-0.69D .0.873.某单位为了了解办公楼用电量y (度)与气温x (℃)之间的关系,随机统计了四个工作日的用电量与当天平均气温,并制作了对照表:气温(℃) 18 13 10 -1 用电量(度)24343864由表中数据得到经验回归方程y ^=-2x +a ^,当气温为-4 ℃时,预测用电量约为( ) A .68度 B .52度 C .12度D .28度题型一 成对数据的相关性例1 (1)(2023·保定模拟)已知两个变量x 和y 之间有线性相关关系,经调查得到如下样本数据:x 3 4 5 6 7 y3.52.41.1-0.2-1.3根据表格中的数据求得经验回归方程为y ^=b ^x +a ^,则下列说法中正确的是( ) A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0D.a ^<0,b ^<0(2)(2022·大同模拟)如图是相关变量x ,y 的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到经验回归方程y ^=b ^1x +a ^1,样本相关系数为r 1;方案二:剔除点(10,21),根据剩下的数据得到经验回归方程y ^=b ^2x +a ^2,样本相关系数为r 2.则( )A .0<r 1<r 2<1B .0<r 2<r 1<1C .-1<r 1<r 2<0D .-1<r 2<r 1<0听课记录:______________________________________________________________ ________________________________________________________________________ 思维升华 判定两个变量相关性的方法(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.(2)样本相关系数:当r >0时,正相关;当r <0时,负相关;|r |越接近1,相关性越强. (3)经验回归方程:当b ^>0时,正相关;当b ^<0时,负相关.跟踪训练1 (1)某公司2017~2022年的年利润x (单位:百万元)与年广告支出y (单位:百万元)的统计资料如表所示:年份 2017 2018 2019 2020 2021 2022 利润x 12.2 14.6 16 18 20.4 22.3 支出y0.620.740.810.8911.11根据统计资料,则利润中位数( ) A .是16,x 与y 有正相关关系 B .是17,x 与y 有正相关关系 C .是17,x 与y 有负相关关系 D .是18,x 与y 有负相关关系(2)已知相关变量x 和y 的散点图如图所示,若用y =b 1·ln(k 1x )与y =k 2x +b 2拟合时的样本相关系数分别为r 1,r 2则比较r 1,r 2的大小结果为( )A .r 1>r 2B .r 1=r 2C .r 1<r 2D .不确定题型二 回归模型命题点1 一元线性回归模型例2 (2023·蚌埠模拟)某商业银行对存款利率与日存款总量的关系进行调研,发现存款利率每上升一定的百分点,日均存款总额就会发生一定的变化,经过统计得到下表:利率上升百分点x 0.1 0.2 0.3 0.4 0.5 日均存款总额y (亿元)0.20.350.50.650.8(1)在给出的坐标系中画出上表数据的散点图;(2)根据上表提供的数据,用最小二乘法求出y 关于x 的经验回归方程y ^=b ^x +a ^;(3)已知现行利率下的日均存款总额为0.625亿元,试根据(2)中的经验回归方程,预测日均存款总额为现行利率下的2倍时,利率需上升多少个百分点?参考公式及数据:①b ^=∑i =1nx i y i -n x y∑i =1nx 2i -nx2,a ^=y -b ^x ,②∑i =15x i y i =0.9,∑i =15x 2i =0.55. ________________________________________________________________________ ________________________________________________________________________ ________________________________________________________________________ ________________________________________________________________________ 命题点2 非线性回归模型例3 (2023·保山模拟)某印刷企业为了研究某种图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的关系,收集了一些数据并进行了初步整理,得到了如图所示的散点图及一些统计量的值.x y u ∑i =17(x i -x)2 ∑i =17(x i -x )·(y i -y )∑i =17(u i -u)2 ∑i =17(u i -u )·(y i -y )5 3.50.22 30 0.7 7表中u i =1x i ,u =17∑i =17u i .(1)根据散点图判断y =a +bx 与y =c +dx 哪一个模型更适合作为该图书每册的成本费y 与印刷数量x 的经验回归方程?(只要求给出判断,不必说明理由)________________________________________________________________________ ________________________________________________________________________ ________________________________________________________________________ ________________________________________________________________________ (2)根据(1)的判断结果及表中数据求出y 关于x 的经验回归方程;(3)若该图书每册的售价为9元,则预测至少应该印刷多少册,才能使销售利润不低于80 000元(假设能够全部售出).附:对于一组数据(ω1,v 1),(ω2,v 2),…,(ωn ,v n ),其经验回归方程v ^=β^ω+α^的斜率和截距的最小二乘估计分别为β^=∑i =1n(ωi -ω)(v i -v )∑i =1n(ωi -ω)2,α^=v -β^ω.________________________________________________________________________ ________________________________________________________________________ ________________________________________________________________________ 思维升华 求经验回归方程的步骤跟踪训练2 (2022·南充模拟)某特色餐馆开通了某APP 的外卖服务,在一周内的某特色菜外卖份数x (单位:份)与收入y (单位:元)之间有如下的对应数据:外卖份数x (份) 2 4 5 6 8 收入y (元)3040605070(1)在给出的坐标系中画出数据散点图;(2)请根据以上数据用最小二乘法求出收入y 关于份数x 的经验回归方程; ________________________________________________________________________ ________________________________________________________________________ ________________________________________________________________________ ________________________________________________________________________ (3)据此估计外卖份数为12时,收入为多少元.参考数据公式:∑i =15x 2i =145,∑i =15x i y i =1 380,b ^=∑i =1n (x i -x )(y i -y )∑i =1n(x i -x )2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x .________________________________________________________________________ ________________________________________________________________________ ________________________________________________________________________ ________________________________________________________________________ 题型三 残差分析例4 (1)(多选)下列说法正确的是( )A .在经验回归方程y ^=-0.85x +2.3中,当解释变量x 每增加1个单位时,响应变量y ^平均减少2.3个单位B .在经验回归方程y ^=-0.85x +2.3中,相对于样本点(1,1.2)的残差为-0.25C .在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好D .若两个变量的决定系数R 2越大,表示残差平方和越小,即模型的拟合效果越好 (2)新能源汽车的核心部件是动力电池,电池占了新能源整车成本的很大一部分,而其中的原材料碳酸锂又是电池的主要成分.从2020年底开始,碳酸锂的价格不断升高,如表是2022年某企业的前5个月碳酸锂的价格与月份的统计数据:根据表中数据,得出y 关于x 的经验回归方程为y ^=0.28x +a ^,根据数据计算出在样本点(5,1.5)处的残差为-0.06,则表中m =________.听课记录:______________________________________________________________ ________________________________________________________________________ 思维升华 检验回归模型的拟合效果的两种方法(1)残差分析:通过残差分析发现原始数据中的可疑数据,判断所建立模型的拟合效果. (2)R 2分析:通过公式计算R 2,R 2越大,残差平方和越小,模型的拟合效果越好;R 2越小,残差平方和越大,模型的拟合效果越差. 跟踪训练3 (1)下列命题是真命题的为( ) A .经验回归方程y ^=b ^x +a ^一定不过样本点B .可以用样本相关系数r 来刻画两个变量x 和y 线性相关程度的强弱,r 的值越小,说明两个变量线性相关程度越弱C .在回归分析中,决定系数R 2=0.80的模型比决定系数R 2=0.98的模型拟合的效果要好D .残差平方和越小的模型,拟合的效果越好 (2)两个线性相关变量x 与y 的统计数据如表:其经验回归方程是y ^=b ^x +40,则相应于点(9,11)的残差为________.。
高考数学知识点解析一元线性回归分析与预测高考数学知识点解析:一元线性回归分析与预测在高考数学中,一元线性回归分析与预测是一个重要的知识点,它不仅在数学学科中具有重要地位,还在实际生活中有着广泛的应用。
接下来,让我们一起深入了解这个知识点。
一元线性回归分析是一种用于研究两个变量之间线性关系的统计方法。
简单来说,就是通过一组数据,找到一条直线,使得这些数据点尽可能地靠近这条直线。
我们先来看一个简单的例子。
假设我们想研究学生的学习时间和考试成绩之间的关系。
我们收集了一些学生的学习时间(自变量 x)和对应的考试成绩(因变量 y)的数据。
那么,如何找到它们之间的线性关系呢?这就需要用到一元线性回归方程:y = a + bx 。
其中,a 是截距,b 是斜率。
b 表示 x 每增加一个单位,y 的平均变化量;a 则表示当 x 为 0 时,y 的值。
那么,如何确定 a 和 b 的值呢?这就要用到最小二乘法。
最小二乘法的基本思想是使得实际数据点与回归直线上的对应点的纵坐标之差的平方和最小。
通过一系列的计算,可以得到 a 和 b 的计算公式。
在实际计算中,我们通常会先计算出一些中间量,比如 x 的平均值x,y 的平均值ȳ ,以及 x 和 y 的乘积的总和、x 的平方的总和等等。
然后,代入公式就可以求出 a 和 b 的值。
求出回归方程后,我们就可以用它来进行预测了。
比如,已知一个学生的学习时间,就可以通过回归方程预测他可能的考试成绩。
但需要注意的是,这种预测是基于统计规律的,并不是绝对准确的。
一元线性回归分析在实际生活中有很多应用。
比如,经济学家可以用它来研究物价和消费之间的关系,企业可以用它来预测销售额和广告投入之间的关系,医学家可以用它来分析药物剂量和治疗效果之间的关系等等。
然而,在使用一元线性回归分析时,也需要注意一些问题。
首先,变量之间的线性关系必须是合理的。
如果两个变量之间的关系不是线性的,强行使用一元线性回归分析可能会得到错误的结果。
高考数学知识点精讲多元线性回归与逐步回归高考数学知识点精讲:多元线性回归与逐步回归在高考数学中,统计学的知识占有重要的一席之地,其中多元线性回归与逐步回归更是常常出现在考题中。
对于这两个概念,理解它们的原理、应用以及相关的计算方法是十分关键的。
首先,我们来聊聊什么是多元线性回归。
简单来说,多元线性回归就是研究一个因变量与多个自变量之间线性关系的一种统计方法。
比如说,我们想要研究一个学生的高考成绩(因变量)与他平时的作业完成情况、课堂参与度、课后复习时间等多个因素(自变量)之间的关系,这时候就可以用到多元线性回归。
多元线性回归的数学模型可以表示为:Y =β₀+β₁X₁+β₂X₂+… +βₚXₚ +ε 。
其中,Y 是因变量,X₁,X₂,…,Xₚ 是自变量,β₀是截距,β₁,β₂,…,βₚ 是回归系数,ε 是随机误差。
那怎么来确定这些回归系数呢?这就需要用到最小二乘法。
最小二乘法的基本思想就是要使得观测值与预测值之间的误差平方和达到最小。
通过一系列复杂的数学计算,我们可以得到回归系数的估计值。
接下来,我们再看看逐步回归。
逐步回归是一种在多元线性回归基础上发展起来的方法。
在实际问题中,并不是所有的自变量都对因变量有显著的影响。
逐步回归的目的就是从众多的自变量中筛选出对因变量有显著影响的自变量,建立一个“最优”的回归方程。
逐步回归的过程大致可以分为三步。
第一步是前进法,就是先将对因变量影响最大的自变量选入回归方程;第二步是后退法,就是将已经选入方程的自变量中,对因变量影响不显著的自变量剔除出去;第三步是双向筛选法,就是结合前进法和后退法,不断地选入和剔除自变量,直到得到最优的回归方程。
在实际应用中,多元线性回归和逐步回归都有广泛的用途。
比如说,在经济领域,可以用来预测股票价格、分析市场需求等;在医学领域,可以用来研究疾病的危险因素、评估治疗效果等;在工程领域,可以用来优化生产过程、提高产品质量等。
为了更好地理解和应用多元线性回归与逐步回归,我们来通过一个具体的例子看看。
考点22 回归方程和2×2联表一.线性关系 1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关. 2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程: 是两个具有线性相关关系的变量的一组数据的回归方程,其中是待定参数. 的计算公式.注意:回归方程必过样本中心,这也是做小题的依据和检验所求回归方程是否正确。
(3)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性. 二.独立性检验 (1)2×2列联表设X ,Y 为两个变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +d(2)独立性检验利用随机变量K 2(也可表示为χ2)的观测值(其中n =a +b +c +d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.1122()()()n n x y x y x y ,,,,,,知识理解考向一 一次线性关系【例1-1】(2020·山东高三专题练习)某工厂的每月各项开支与毛利润(单位:万元)之间有如下关系,与的线性回归方程,则( )A .17.5B .17C .15D .15.5【答案】A【解析】由题意,根据表中的数据,可得,3040605070505y ++++==,即样本中心为,代入与的线性回归方程为,解得.故选:A .【例1-2】(2021·全国高三专题练习)西尼罗河病毒(WNV )是一种脑炎病毒,WNV 通常是由鸟类携带,经蚊子传播给人类.1999年8-10月,美国纽约首次爆发了WNV 脑炎流行.在治疗上目前尚未有什么特效药可用,感染者需要采取输液及呼吸系统支持性疗法,有研究表明,大剂量的利巴韦林含片可抑制WNV 的复制,抑制其对细胞的致病作用.现某药企加大了利巴韦林含片的生产,为了提高生产效率,该药企负责人收集了5组实验数据,得到利巴韦林的投入量x (千克)和利巴韦林含片产量y (百盒)的统计数据如下:由相关系数可以反映两个变量相关性的强弱,||[0.75,1]r ∈,认为变量相关性很强;||[0.3,0.75]r ∈,认为变量相关性一般;||[0,0.25]r ∈,认为变量相关性较弱. (1)计算相关系数r ,并判断变量x 、y 相关性强弱;(2)根据上表中的数据,建立y 关于x 的线性回归方程;为了使某组利巴韦林含片产量达到150百盒,估计该组应投入多少利巴韦林? 参考数据:.考向分析参考公式:相关系数()()niix x y y r --=∑()()()121niii nii x x y y b x x ==--=-∑∑,.【答案】(1),x 与y 具有很强的相关性;(2)54.2千克. 【解析】(1)1(12345)35x =⨯++++=,()11620232526225y =⨯++++=, ()()51(13)(1622)(23)(2022)(33)(2322)ii i xx y y x =--=-⨯-+--+-⨯-∑,()52222221(13)(23)(33)(43)(53)10i i x x =-=-+-+-+-+-=∑,()522221(1622)(2022)(2322)i i y y =-=-+-+-∑22(2522)(2622)66+-+-=,则所以x 与y 具有很强的相关性.(2)由(1)得,()()()5152125ˆ 2.510iii i i x x y y bx x ==--===-∑∑, ,所以y 关于x 的线性回归方程为ˆ 2.514.5yx =+. 当(百盒)时,(千克)故要使某组利巴韦林含片产量达到150百盒,估计该组应投入54.2千克利巴韦林. 【举一反三】1.(2020·全国高三专题练习)某工厂某产品产量(千件)与单位成本(元)满足回归直线方程77.36 1.82y x =-,则以下说法中正确的是( )A .产量每增加件,单位成本约下降元B .产量每减少件,单位成本约下降元C .当产量为千件时,单位成本为元D .当产量为千件时,单位成本为元【答案】A【解析】令()77.36 1.82f x x =-, 因为,所以产量每增加件,单位成本约下降元.2.(2020·安徽省六安中学高三开学考试)“关注夕阳、爱老敬老”—某马拉松协会从年开始每年向敬老院捐赠物资和现金.下表记录了第年(年是第一年)与捐赠的现金(万元)的对应数据,由此表中的数据得到了关于的线性回归方程ˆ0.35ymx =+,则预测年捐赠的现金大约是( )A .万元B .万元C .万元D .万元【答案】C【解析】由已知得,3456 2.534 4.54.5, 3.544x y ++++++====,所以样本点的中心点的坐标为,代入ˆ0.35ymx =+, 得3.5 4.50.35m =+,即,所以ˆ0.70.35yx =+, 取,得ˆ0.770.35 5.25y=⨯+=, 预测2019年捐赠的现金大约是万元.3.(2020·全国高三专题练习)基于移动互联技术的共享单车被称为“新四大发明”之一,短时间内就风靡全国,带给人们新的出行体验、某共享单车运营公司的市场研究人员为了解公司的经营状况,对该公司最近六个月内的市场占有率进行了统计,结果如下表:(1)请在给出的坐标纸中作出散点图,并用相关系数说明可用线性回归模型拟合月度市场占有率与月份代码之间的关系;(2)求关于的线性回归方程,并预测该公司年月份的市场占有率;(3)根据调研数据,公司决定再采购一批单车扩大市场,现有采购成本分别为元/辆和元/辆的、两款车型报废年限各不相同,考虑到公司的经济效益,该公司决定先对两款单车各辆进行科学模拟测试,得到两款单车使用寿命频数表如下:经测算,平均每辆单车每年可以为公司带来收入元.不考虑除采购成本之外的其他成本,假设每辆单车的使用寿命都是整数年,且用频率估计每辆单车使用寿命的概率,以每辆单车产生利润的期望值为决策依据、如果你是该公司的负责人,你会选择采购哪款车型? 参考数据:,61()()35iiix x y y =--=∑36.5≈参考公式:相关系数;回归直线方程为,其中121()()ˆ()niii nii x x y y bx x ==--=-∑∑,【答案】(1)散点图见解析,可用线性回归模型拟合两变量之间的关系;(2),;(3)应选择款车型. 【解析】(1)散点图如图所示,111316152021166y +++++==,∴,∴()()350.9636.5niix x y y r --====≈∑,∴两变量之间具有较强的线性相关关系, 故可用线性回归模型拟合两变量之间的关系;(2)121()()35217.5()ˆniii ni i x x y y bx x ==--===-∑∑,又123456 3.56x +++++==, ∴,∴回归直线方程为;∴年月的月份代码,∴27923y =⨯+=, ∴估计年月的市场占有率为;(3)用频率估计概率,款单车的利润的分布列为:∴(元),款单车的利润的分布列为:∴(元),以每辆单车产生利润的期望值为决策依据,故应选择款车型.4.(2020·全国高三专题练习)近年来,“双11”网购的观念逐渐深入人心.某人统计了近年某网站“双11”当天的交易额,,统计结果如下表:(1)请根据上表提供的数据,用相关系数说明与的线性相关程度,线性相关系数保留三位小数.(统计中用相关系数来衡量两个变量之间线性关系的强弱.若相应于变量的取值,变量的观测值为(),则两个变量的相关系数的计算公式为:.统计学认为,对于变量,如果[]1,0.75r -∈-,那么负相关很强;如果[]0.751r ∈,,那么正相关很强;如果(]0.75,0.30r ∈--或[)0.30,0.75r ∈,那么相关性一般;如果[]0.25,0.25r ∈-,那么相关性较弱);(2)求出关于x 的线性回归方程,并预测年该网站“双11”当天的交易额.参考公式:121()()()ˆniii ni i x x y y bx x ==--=-∑∑,;参考数据:.【答案】(1)0.998;变量与的线性相关程度很强;(2)ˆ 4.3 4.1yx =+;百亿元. 【解析】(1)由题意,根据表格中的数据, 可得:1(12345)35x =++++=,1(912172126)175y =++++=, 则1()()(13)(917)(53)(2617)43niii x x y y =--=--++--=∑,43.1=≈,所以所以变量与的线性相关程度很强. (2)由(1)可得,,1()()43niii x x y y =--=∑,又由2221222(13)(23)(3(3)(43)(53)1)0nii x x ==-+-+-+-+-=-∑,所以,则,可得关于的线性回归方程为ˆ 4.3 4.1y x =+ 令,可得ˆ 4.36 4.129.9y=⨯+=, 即年该网站“双11”当天的交易额百亿元.考向二 独立性检验【例2】(2021·江苏泰州市·高三期末)2020年是脱贫攻坚的收官之年,国务院扶贫办确定的贫困县全部脱贫摘帽,脱贫攻坚取得重大胜利,为确保我国如期全面建成小康社会,实现第一个百年奋斗目标打下了坚实的基础在产业扶贫政策的大力支持下,西部某县新建了甲、乙两家玩具加工厂,加工同一型号的玩具质监部门随机抽检了两个厂的各100件玩具,在抽取中的200件玩具中,根据检测结果将它们分成“A ”、“B ”、“C ”三个等级,A 、B 等级都是合格品,C 等级是次品,统计结果如下表所示:(表一)(表二)在相关政策扶持下,确保每件合格品都有对口销售渠道,但从安全起见,所有的次品必须由原厂家自行销. (1)请根据所提供的数据,完成上面的2×2列联表(表二),并判断是否有95%的把握认为产品的合格率与厂家有关?(2)每件玩具的生产成本为30元,A 、B 等级产品的出厂单价分别为60元、40元.另外已知每件次品的销毁费用为4元.若甲厂抽检的玩具中有10件为A 等级,用样本的频率估计概率,试判断甲、乙两厂能否都能盈利,并说明理由. 附:,其中n a b c d =+++.【答案】(1)列联表答案见解析,没有95%的把握认为产品的合格率与厂家有关;(2)甲厂能盈利,乙不能盈利,理由见解析. 【解析】(1)2×2列联表如下()2220075352565 2.38 3.84110010014060K ⨯⨯-⨯=≈<⨯⨯⨯,没有95%的把握认为产品的合格率与厂家有关. (2)甲厂10件A 等级,65件B 等级,25件次品, 对于甲厂,单件产品利润X 的可能取值为30,10,.X 的分布列如下:()3010341010204E X ∴=⨯+⨯-⨯=>, 甲厂能盈利,对于乙厂有10件A 等级,55件B 等级,35件次品, 对于乙厂,单位产品利润Y 的可能取值为30,10,,Y 分布列如下:()30103401020205E Y ∴=⨯+⨯-⨯=-<,乙不能盈利. 【举一反三】1.(2021·山东高三专题练习)共享单车进驻城市,绿色出行引领时尚.某市有统计数据显示,2020年该市共享单车用户年龄等级分布如图1所示,一周内市民使用单车的频率分布扇形图如图2所示.若将共享单车用户按照年龄分为“年轻人”(20岁-39岁)和“非年轻人”(19岁及以下或者40岁及以上)两类,将一周内使用的次数为6次或6次以上的称为“经常使用单车用户”,使用次数为5次或不足5次的称为“不常使用单车用户”.已知在“经常使用单车用户”中有是“年轻人”.(1)现对该市市民进行“经常使用共享单车与年龄关系”的调查,采用随机抽样的方法,抽取一个容量为200的样本,请你根据图表中的数据,补全下列列联表,并根据列联表的独立性检验,判断是否有85%的把握认为经常使用共享单车与年龄有关?使用共享单车情况与年龄列联表(2)将(1)中频率视为概率,若从该市市民中随机任取3人,设其中经常使用共享单车的“非年轻人”人数为随机变量,求的分布列与期望. 参考数据:独立性检验界值表其中,,n a b c d =+++【答案】(1)列联表见解析,有的把握可以认为经常使用共享单车与年龄有关;(2)分布列见解析,数学期望为.【解析】(1)补全的列联表如下:于是,,,, ∴,即有的把握可以认为经常使用共享单车与年龄有关. (2)由(1)的列联表可知,经常使用共享单车的“非年轻人”占样本总数的频率为20100%10%200⨯=, 即在抽取的用户中出现经常使用单车的“非年轻人”的概率为0.1, ∵~(3,0.1)X B ,0,1,2,3X =∴3(0)(10.1)0.729P X ==-=,(1)0.243P X ==(2)0.027P X ==,3(3)0.10.001P X ===,∴的分布列为E X=⨯=.∴的数学期望()30.10.3【举一反三】1.(2021·全国高三专题练习)某工厂为了提高生产效率,对生产设备进行了技术改造,为了对比技术改造后的效果,采集了技术改造前后各20次连续正常运行的时间长度(单位:天)数据,整理如下:改造前:19,31,22,26,34,15,22,25,40,35,18,16,28,23,34,15,26,20,24,21改造后:32,29,41,18,26,33,42,34,37,39,33,22,42,35,43,27,41,37,38,36(1)完成下面的列联表,并判断能否有99%的把握认为技术改造前后的连续正常运行时间有差异?(2)工厂的生产设备的运行需要进行维护,工厂对生产设备的生产维护费用包括正常维护费,保障维护费两种.对生产设备设定维护周期为T天(即从开工运行到第kT天,k∈N*)进行维护.生产设备在一个生产周期内设置几个维护周期,每个维护周期相互独立.在一个维护周期内,若生产设备能连续运行,则只产生一次正常维护费,而不会产生保障维护费;若生产设备不能连续运行,则除产生一次正常维护费外,还产生保障维护费.经测算,正常维护费为0.5万元/次;保障维护费第一次为0.2万元/周期,此后每增加一次则保障维护费增加0.2万元.现制定生产设备一个生产周期(以120天计)内的维护方案:T=30,k=1,2,3,4.以生产设备在技术改造后一个维护周期内能连续正常运行的频率作为概率,求一个生产周期内生产维护费的分布列及均值.附:【答案】(1)见解析,有99%的把握认为技术改造前后的连续正常运行时间有差异.(2)见解析;均值为2.275万元.【解析】(1)列联表为:()224055151510 6.63520202020K ⨯-⨯∴==>⨯⨯⨯有99%的把握认为技术改造前后的连续正常运行时间有差异.(2)由题知,生产周期内有4个维护周期,一个维护周期为30天,一个维护周期内,生产线需保障维护的概率为.设一个生产周期内需保障维护的次数为,则;一个生产周期内的正常维护费为0.542⨯=万元,保障维护费为万元.一个生产周期内需保障维护次时的生产维护费为万元.设一个生产周期内的生产维护费为X ,则X 的所有可能取值为2,2.2,2.6,3.2,4.()4181214256P X ⎛⎫==-= ⎪⎝⎭ ()31411272.214464P X C ⎛⎫==-=⎪⎝⎭()222411272.6144128P X C ⎛⎫⎛⎫==-= ⎪ ⎪⎝⎭⎝⎭ ()3341133.214464P X C ⎛⎫⎛⎫==-= ⎪⎪⎝⎭⎝⎭()41144256P X ⎛⎫=== ⎪⎝⎭所以,的分布列为()2 2.2 2.6 3.242566412864256E X ∴=⨯+⨯+⨯+⨯+⨯ 162237.6140.438.44582.4 2.275256256++++===一个生产周期内生产维护费的均值为2.275万元.2.(2020·四川成都市·高三一模)一网络公司为某贫困山区培养了名“乡土直播员”,以帮助宣传该山区文化和销售该山区的农副产品,从而带领山区人民早日脱贫致富.该公司将这名“乡土直播员”中每天直播时间不少于小时的评为“网红乡土直播员”,其余的评为“乡土直播达人”.根据实际评选结果得到了下面列联表:(1)根据列联表判断是否有的把握认为“网红乡土直播员”与性别有关系?(2)在“网红乡土直播员”中按分层抽样的方法抽取人,在这人中选人作为“乡土直播推广大使”.设被选中的名“乡土直播推广大使”中男性人数为,求的分布列和期望. 附:,其中n a b c d =+++.【答案】(1)有的把握认为“网红乡土直播员”与性别有关系;(2)分布列见解析;期望为. 【解析】(1)由题中列联表,可得()2210010302040 4.762 3.84150503070K ⨯-⨯=≈>⨯⨯⨯.∴有的把握认为“网红乡土直播员”与性别有关系. (2)在“网红乡土直播员”中按分层抽样的方法抽取6人, 男性人数为人;女性人数为人. 由题,随机变量所有可能的取值为,,.()022*********C C P Cξ====,()1124268115C C P C ξ===,()2024261215C C P C ξ===, ∴的分布列为∴的数学期望()01251515153E ξ=⨯+⨯+⨯==.考向三非一次性回归方程【例3-1】(2021·全国高三专题练习)在一项调查中有两个变量和,下图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为关于的回归方程的函数类型是( )A.B.C.D.()【答案】B【解析】散点图呈曲线,排除A选项,且增长速度变慢,排除选项C、D,故选B.【例3-2】.(2020·全国高三专题练习)根据公安部交管局下发的通知,自2020年6月1日起,将在全国开展“一盔一带”安全守护行动,其中就要求骑行摩托车、电动车需要佩戴头盔,为的就是让大家重视交通安全.某地交警部门根据某十字路口的监测数据,从穿越该路口的骑行者中随机抽查了200人,得到如图所示的列联表:(1)是否有97.5%的把握认为自觉带头盔行为与性别有关?(2)通过一定的宣传和相关处罚措施出台后,交警在一段时间内通过对某路口不带头盔的骑行者统计,得到上面的散点图和如下数据:观察散点图,发现两个变量不具有线性相关关系,现考虑用函数对两个变量的关系进行拟合,通过分析得y与有一定的线性相关关系,并得到以下参考数据(其中):请选择合适的参考数据,求出y关于x的回归方程.参考公式:.对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为:1221ˆni i i ni i u v nuvunu β==-=-∑∑,.【答案】(1)没有;(2). 【解析】(1)由列联表计算.故没有的把握认为骑行者自觉带头盔行为与性别有关. (2)由,则可转化为,又, 得, 则.故y 关于x 的回归方程为100ˆ1010010yw x=+=+ 【举一反三】1.(2020·河南周口市·高三月考)已知变量关于变量的回归方程为,其一组数据如下表所示: 若,则( ) A .5 B .6C .7D .8【答案】B【解析】由,得n 0ˆl .5ybx =-,令,则, 由题意,,, 因为满足,所以3.5 2.50.5b =⨯-,解得, 所以 1.60.5z x =-, 所以,令 1.60.59.1x e e -=,解得. 故选:B.2.(2021·全国高三专题练习)近期,济南公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用表示活动推出的天数,表示每天使用扫码支付的人次(单位:十人次),统计数据如表所示:表:根据以上数据,绘制了散点图.(1)根据散点图判断,在推广期内与(,均为大于零的常数)哪一个适宜作为扫码支付的人次关于活动推出天数的回归方程类型?(给出判断,不必说明理由);(2)根据(1)的判断结果及表中的数据,建立关于的回归方程,并预测活动推出第8天使用扫码支付的人次;(3)推广期结束后,车队对乘客的支付方式进行统计,结果如下表:车队为缓解周边居民出行压力,以80万元的单价购进了一批新车,根据以往的经验可知,每辆车每个月的运营成本约为0.66万元.已知该线路公交车票价为2元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据统计结果得知,使用扫码支付的乘客中有的概率享受7折优惠,有的概率享受8折优惠,有的概率享受9折优惠,预计该车队每辆车每个月有1万人次乘车,根据所给数据以事件发生的频率作为相应事件发生的概率,在不考虑其它因素的条件下,按照上述收费标准,假设这批车需要年才能开始盈利,求的值. 参考数据:其中,参考公式:对于一组数据,,…,,其回归直线v a u β=+的斜率和截距的最小二乘估计公式分别为:,.【答案】(1);(2)0.253.4710x y =⨯,347;(3)7.【解析】(1)因为散点近似在指数型函数的图象上,所以适宜作为扫码支付的人数关于活动推出天数的回归方程类型:(2)∵,两边同时取常用对数得:()lg lg lg lg xy c d c x d =⋅=+;设,∴lg lg v c x d =+, ∵,,, ∴717221750.1274 1.547lg 0.25140716287i i i ii x v xv d x x ==--⨯⨯====-⨯-∑∑,把样本中心点代入lg 0.25v c x =+, 得:lg 0.54c =,∴0540.25v x =+,∴,∴关于的回归方程式:0.540.250.540.250.25101010 3.4710x x x y +==⨯=⨯; 把代入上式:∴0.2583.4710347y ⨯=⨯=; 活动推出第8天使用扫码支付的人次为347;(3)记一名乘客乘车支付的费用为,则的取值可能为:2,1.8,1.6,1.4;()20.1P Z ==;; ;所以,一名乘客一次乘车的平均费用为: (元), 由题意可知:,,所以,取7;估计这批车大概需要7年才能开始盈利.3.(2021·全国高三专题练习)某公司研发了一种帮助家长解决孩子早教问题的萌宠机器人.萌宠机器人语音功能让它就像孩子的小伙伴一样和孩子交流,记忆功能还可以记住宝宝的使用习惯,很快找到宝宝想听的内容.同时提供快乐儿歌、国学经典、启蒙英语等早期教育内容,且云端内容可以持续更新.萌宠机器人一投放市场就受到了很多家长欢迎.为了更好地服务广大家长,该公司研究部门从流水线上随机抽取100件萌宠机器人(以下简称产品),统计其性能指数并绘制频率分布直方图(如图1):产品的性能指数在的适合托班幼儿使用(简称A 类产品),在的适合小班和中班幼儿使用(简称B 类产品),在[]90,110的适合大班幼儿使用(简称C 类产品),A ,B ,C ,三类产品的销售利润分别为每件1.5,3.5,5.5(单位:元).以这100件产品的性能指数位于各区间的频率代替产品的性能指数位于该区间的概率.(1)求每件产品的平均销售利润;(2)该公司为了解年营销费用(单位:万元)对年销售量(单位:万件)的影响,对近5年的年营销费用,和年销售量()1,2,3,4,5i y i =数据做了初步处理,得到的散点图(如图2)及一些统计量的值.表中,,,.根据散点图判断,可以作为年销售量(万件)关于年营销费用(万元)的回归方程. (i )建立关于的回归方程;(ii )用所求的回归方程估计该公司应投入多少营销费,才能使得该产品一年的收益达到最大? (收益=销售利润-营销费用,取). 参考公式:对于一组数据()()()1122,,,,,,n n u u u υυυ,其回归直线的斜率和截距的最小二乘估计分别为,.【答案】(1)每件产品的平均销售利润为4元(2)(i )(ii )该厂应投入256万元营销费. 【解析】(1)设每件产品的销售利润为元,则的所有可能取值为1.5,3.5,5.5, 由直方图可得,,,三类产品的频率分别为0.15、0.45、0.4, 所以,()1.50.15P ξ==,()3.50.45P ξ==,()5.50.4P ξ==, 所以随机变量的分布列为:所以,,故每件产品的平均销售利润为4元; (2)(i )由得,()ln ln ln ln by a x a b x =⋅=+,令,,,则,由表中数据可得,()()()515210.41ˆ0.251.61ii i ii uu buuυυ==--===-∑∑, 则24.8716.30ˆˆ0.25 4.15955cbu υ=-=-⨯=, 所以,ˆ 4.1590.25u υ=+, 即14.1594ˆln 4.1590.25ln ln yx e x ⎛⎫=+=⋅ ⎪⎝⎭, 因为,所以, 故所求的回归方程为;(ii )设年收益为万元,则()14256z E y x x x ξ=⋅-=-, 设,()4256f t t t =-,则()()332564464f t t t'=-=-,当时,,在单调递增, 当()4t ,∈+∞时,,在单调递减,所以,当,即时,有最大值为768,即该厂应投入256万元营销费,能使得该产品一年的收益达到最大768万元.1.(2021·全国高三专题练习)给出下列说法: ①回归直线恒过样本点的中心,且至少过一个样本点; ②两个变量相关性越强,则相关系数就越接近1;③将一组数据的每个数据都加一个相同的常数后,方差不变;④在回归直线方程ˆ20.5yx =-中,当解释变量增加一个单位时,预报变量平均减少0.5个单位. 其中说法正确的是( ) A .①②④ B .②③④ C .①③④ D .②④【答案】B强化练习【解析】对于①中,回归直线恒过样本点的中心,但不一定过一个样本点,所以不正确;对于②中,根据相关系数的意义,可得两个变量相关性越强,则相关系数就越接近1,所以是正确的; 对于③中,根据方差的计算公式,可得将一组数据的每个数据都加一个相同的常数后,方差是不变的,所以是正确的;对于④中,根据回归系数的含义,可得在回归直线方程ˆ20.5yx =-中,当解释变量增加一个单位时,预报变量平均减少0.5个单位,所以是正确的. 故选:B.2.(2020·全国高三专题练习)对两个变量、进行线性相关检验,得线性相关系数10.7859r =,对两个变量、进行线性相关检验,得线性相关系数20.9568r =-,则下列判断正确的是( ) A .变量与正相关,变量与负相关,变量与的线性相关性较强 B .变量与负相关,变量与正相关,变量与的线性相关性较强 C .变量与正相关,变量与负相关,变量与的线性相关性较强 D .变量与负相关,变量与正相关,变量与的线性相关性较强 【答案】C【解析】由线性相关系数10.78590r =>知与正相关, 由线性相关系数20.95680r =-<知与负相关, 又,所以,变量与的线性相关性比与的线性相关性强, 故选:C.3.(2020·河南新乡市·高三一模)年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区年月至年月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码分别对应年月2020年月)根据散点图选择和ln y c d x =+两个模型进行拟合,经过数据处理得到的两个回归方程分别为0.9369y =+0.95540.0306ln y x =+,并得到以下一些统计量的值:注:是样本数据中的平均数,是样本数据中的平均数,则下列说法不一定成立的是( ) A .当月在售二手房均价与月份代码呈正相关关系B .根据0.9369y =+ 1.0509万元/平方米C .曲线0.9369y =+0.95540.0306ln y x =+的图形经过点D .0.95540.0306ln y x =+回归曲线的拟合效果好于0.9369y =+ 【答案】C【解析】对于A ,散点从左下到右上分布,所以当月在售二手房均价与月份代码呈正相关关系,故A 正确;对于B ,令,由,所以可以预测年月在售二手房均价约为1.0509万元/平方米,故B 正确; 对于C ,非线性回归曲线不一定经过,故C 错误; 对于D ,越大,拟合效果越好,故D 正确. 故选:C.4.(2020·全国高三专题练习)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )A .24310r r r r <<<<B .42130r r r r <<<<C .42310r r r r <<<<D .24130r r r r <<<<【答案】A【解析】由给出的四组数据的散点图可以看出,题图1和题图3是正相关,相关系数大于0, 题图2和题图4是负相关,相关系数小于0,题图1和题图2的点相对更加集中,所以相关性更强,所以接近于1,接近于, 由此可得24310r r r r <<<<. 故选:A .5.(2020·邵阳市第二中学高三其他模拟(文))某种产品的广告费支出与销售额(单位:万元)之间有如表关系,与的线性回归方程为,当广告支出5万元时,随机误差的效应(残差)为( )。
高考线性回归知识点线性回归是高考数学中的一个重要知识点,它是一种统计学上常用的方法,用于分析两个变量之间的线性关系。
在高考中,线性回归经常被应用于解决实际问题和预测未知数据。
本文将介绍线性回归的基本概念、公式以及应用示例,帮助大家更好地理解和应用这一知识点。
一、线性回归的基本概念线性回归是建立一个自变量X和一个因变量Y之间的线性关系模型,通过最小化实际观测值与模型预测值之间的误差,来拟合和预测因变量Y的值。
线性回归的模型可以表示为:Y = β0 + β1*X + ε其中,Y是因变量,X是自变量,β0是截距,β1是斜率,ε是误差项,代表模型无法准确拟合数据的部分。
二、线性回归的公式1. 简单线性回归如果模型中只有一个自变量X,称为简单线性回归。
简单线性回归的公式为:Y = α + βX + ε其中,α表示截距,β表示斜率,ε为误差项。
我们利用给定的数据集,通过最小二乘法来估计α和β的值,从而得到一条最佳拟合直线。
2. 多元线性回归如果模型中有多个自变量X1、X2、X3...,称为多元线性回归。
多元线性回归的公式为:Y = α + β1*X1 + β2*X2 + β3*X3 + ... + ε同样,我们利用最小二乘法来估计α和每个β的值,从而得到一个最佳拟合的平面或超平面。
三、线性回归的应用示例线性回归在实际问题中有广泛的应用。
下面通过一个简单的例子来说明线性回归的具体应用过程。
例:某城市的房价与面积的关系假设我们要研究某个城市的房价与房屋面积之间的关系。
我们收集了一些房屋的信息,包括房屋的面积和对应的价格。
我们可以使用线性回归来建立一个房价和面积之间的模型,从而预测未知房屋的价格。
1. 数据收集首先,我们收集了一些房屋的面积和价格数据,得到一个数据集。
2. 模型建立根据数据集,我们可以建立一个线性回归模型:价格= α + β*面积+ ε通过最小二乘法,估计出α和β的值。
3. 模型评估为了评估模型的好坏,我们需要计算误差项ε。
线性回归方程高考题讲解
线性回归方程高考题
1、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗(吨标准煤)的几组对照数据:
3 4 5 6
2.5 3 4 4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:)
2、假设关于某设备的使用年限x和所支出的维修费用y(万元)统计数据如下:
使用年限x 2 3 4 5 6
维修费用y 2.2 3.8 5.5 6.5 7.0
若有数据知y对x呈线性相关关系.求:
(1) 填出下图表并求出线性回归方程=bx+a的回归系数,;
序号x y xy x2
1 2 2.2
2 3 3.8
3 4 5.5
4 5 6.5
5 6 7.0
∑
(2) 估计使用10年时,维修费用是多少.
3、某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四实试验,得到的数据如下:
零件的个数x(个) 2 3 4 5
加工的时间y(小时) 2.5 3 4 4.5
(1)在给定的坐标系中画出表中数据的散点图;
(2)求出y关于x的线性回归方程,并在坐标系中画出回归直线;
(3)试预测加工10个零件需要多少时间?
(注:
4、某服装店经营的某种服装,在某周内获纯利(元)与该周每天销售这种服装件数之间的一组数据关系如下表:
3 4 5 6 7 8 9
66 69 73 81 89 90 91
已知:.
(Ⅰ)画出散点图; (1I)求纯利与每天销售件数之间的回归直线方程.
5、某种产品的广告费用支出与销售额之间有如下的对应数据:
2 4 5 6 8
30 40 60 50 70
(1)画出散点图:
(2)求回归直线方程;
6、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:
x 3 4 5 6
y 2.5 3 4 4.5
(I)请画出上表数据的散点图;
(II)请根据上表提供的数据,求出y关于x的线性回归方程;(III)已知该厂技术改造前100吨甲产品能耗为90吨标准煤.试根据(II)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?
(参考公式及数据: ,)
7、以下是测得的福建省某县某种产品的广告费支出x与销售额y(单位:百万元)之间,有如下的对应数据:
广告费支出x 2 4 5 6 8
销售额y 30 40 60 50 70
(1)画出数据对应的散点图,你能从散点图中发现福建省某县某种产品的广告费支出x与销售额y(单位:百万元)之间的一般规律吗?
(2)求y关于x的回归直线方程;
(3)预测当广告费支出为2(百万元)时,则这种产品的销售额为多少?(百万元)
8、在某种产品表面进行腐蚀线实验,得到腐蚀深度y与腐蚀时间t之间对应的一组数据:
时间t(s) 5 10 15 20 30
6 10 10 13 16
深度y(m)
(1)画出散点图;
(2)试求腐蚀深度y对时间t的回归直线方程。
参考答案
一、计算题
1、解:(1)
(2)
序号
l 3 2.5 7.5 9
2 4
3 12 16
3 5
4 20 25
4 6 4.
5 27 36
18 14 66.5 86
所以:
所以线性同归方程为:
(3)=100时,,所以预测生产100吨甲产品的生产能耗比技术改造前降低19.65吨标准煤.
x y xy x2
序
号
1 2 2.2 4.4 4
2 3 3.8 11.4 9
3 4 5.5 22.0 16
4 5 6.5 32.5 25
5 6 7.0 42.0 36
90
∑20 25 112.
3
所以
将其代入公式得
(2) 线性回归方程为=1.23x+0.08
(3) x=10时,=1.23x+0.08=1.23×10+0.08=12.38 (万元) 答:使用10年维修费用是12.38(万元)。
3、解:(1)散点图如图
(2)由表中数据得:
回归直线如图中所示。
(3)将x=10代入回归直线方程,得(小时)
∴预测加工10个零件需要8.05小时。
4、解:(Ⅰ)散点图如图:
(Ⅱ)由散点图知,与有线性相关关系,设回归直线方程:,
,
,
∵,
∴.
,
故回归直线方程为.
5、解:(1)作出散点图如下图所示:
(2)求回归直线方程.
=(2+4+5+6+8)=5,
×(30+40+60+50+70)=50,
=22+42+52+62+82=145,
=302+402+602+502+702=13500
=1380.
=6.5.
因此回归直线方程为
(3)=10时,预报y的值为y=10×6.5+17.5=82.5.6、解:(I)如下图
(II)=3 2.5+43+54+6 4.5=66.5
==4.5 ,==3. 5
故线性回归方程为
(III)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7100+0.35=70.35.
故耗能减少了90-70.35=19.65(吨).
7、解:(1)(略)(2)y=6.5x+17.5
(3) 30.5(百万元) 8、(1)略(2)y=14/37x+183/37。