高考数学一轮总复习:线性回归分析与统计案例
- 格式:ppt
- 大小:2.74 MB
- 文档页数:96
18、统计18.4 线性回归方程及应用【知识网络】1.能通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系。
2.了解线性回归的方法;了解用最小二乘法研究两个变量的线性相关问题的思想方法;会根据给出的线性回归方程系数公式建立线性回归方程(不要求记忆系数公式)。
【典型例题】[例1](1)为了考查两个变量x和y之间的线性关系,甲、乙两位同学各自独立作了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1、l2,已知两人得的试验数据中,变量x和y的数据的平均值都分别相等,且值为s与t,那么下列说法正确的是()A.直线l1和l2一定有公共点(s,t) B.直线l1和l2相交,但交点不一定是(s,t) C.必有直线l1∥l2D.直线l1和l2必定重合(2)工人工资(元)依劳动生产率(千元)变化的回归方程为ˆy=50+80x,下列判断正确的是()A.劳动生产率为1000元时,工资为130元B.劳动生产率提高1000元时,工资提高80元C.劳动生产率提高1000元时,工资提高130元D.当月工资250元时,劳动生产率为2000元(3)下列命题:①任何两个变量都具有相关关系;②圆的周长与该圆的半径具有相关关系;③某商品的需求与该商品的价格是一种非确定性关系;④根据散点图求得的回归直线方程可能是没有意义的;⑤两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进行研究。
其中正确的命题为()A.①③④B。
②④⑤C。
③④⑤D。
②③⑤(4)一家保险公司调查其总公司营业部的加班程度,收集了10周中每周加班工作时间y (小时)与签发新保单数目x的数据如下表,则用最小二乘法估计求出的线性回归方程是___________。
(5)上题中,若该公司预计下周签发新保单1000张,则需要加班的时间是。
[例2]其中x(血球体积,mm),y(血红球数,百万).①画出上表的散点图;②求出回归直线并且画出图形。
第一节统计
统计学是一门深入研究社会发展现象、收集各种信息有关经济、社会
等方面的现象,而综合运用几何学,概率论,统计学原理建立的科学模型,使数据进行统计分析的一门科学。
主要用于分析和收集各种信息,由此产
生的规律和趋势,调查统计现象和情况,发现其背后的规律和趋势,从而
研究社会上多种现象的变化规律。
统计学主要解决四个方面问题:
1.收集数据,概括和引申数据,以表示其中一社会现象的特征;
2.运用各种统计方法,对数据进行描述,以探索其中一社会现象的规律;
3.建立统计模型,用来估算、预测其中一社会现象的发展趋势;
4.根据统计分析结果,作出科学的决定,改善社会环境和生活质量。
第二节统计案例
1.调查学生上网时间
一所中学要开展学生上网时间的调查。
方法如下:
先在学校开展一次上网时间调查问卷调查,要求学生填写上网时间的
长短,有无违背规定的行为,网络上的活动,以及是否有不良信息等;
其次,定期对学生的上网行为进行监视,及时发现学生在上网时是否
有违背规定的行为;。
高考一轮复习热点难点精讲精析:10.3统计案例(一)线性回归分析※相关链接※1.首先利用散点图判断两个变量是否线性相关.=+.2.求回归方程y bx a(1)线性回归方程中的截距a和斜率b都是通过样本估计而来的,存在着误差,这种误差可能导致预报结果的偏差.=+中的b表示x增加1个单位时y的变化量为b.(2)回归方程y bx a=+预报在x取某一个值时y的估计值.(3)可以利用回归方程y bx a3.相关系数r利用相关系数r来衡量两个变量之间的线性相关的强弱.4.建立回归模型的步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).=+).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y bx a(4)按一定规则估计回归方程中的参数(如最小二乘法).(5)得出结果后分析残差是否异常(个别数据对应残差过大,或残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否适合等.注:回归方程只适用于我们所研究的样本的总体,而且一般都有时间性.样本的取值范围一般不能超过回归方程的适用范围,否则没有实用价值.※例题解析※〖例〗测得某国10对父子身高(单位:英寸)如下:(1)对变量y x与进行相关性检验;(2)如果y x与之间具有线性相关关系,求回归方程.(3)如果父亲的身高为73英寸,估计儿子的身高.思路解析:(1)先根据已知计算相关系数r,判断是否具有相关关系.(2)再利用分工求出回归方程进行回归分析.解答:(1)101010222211166.8,67.01,4462.24,4490.4,44974,44941.93,44842.4,i i i ii i ix y x y x y x yr=== ===≈=====∑∑∑0.804.≈所以y x与之间具有很强的线性相关关系.(2)设回归方程为y bx a=+.由101102211044842.444762.6879.72ˆ0.46464479444662.4171.610i iiiix y x ybx x==--===≈--∑∑.ˆˆ67.010.464666.835.97.a y bx=-=-⨯≈故所求的回归方程为:ˆ0.464635.97y x=+.(3)当x=73时, ˆ0.46467335.9769.9y=⨯+≈.所以当父亲身高为73英寸时,估计儿子身高约为69.9英寸.(二)非线性回归分析※相关链接※1.非线性回归模型:当回归方程不是形如y bx a=+时称之为非线性回归模型.2.非线性回归模型的拟合效果:对于给定的样本点1122(,),(,),,(,)n nx y x y x y,两个含有未知数的模型(1)(2)(,)(,)y f x a y g x b==和,其中a b和都是未知参数.可按如下的步骤比较它们的拟合效果:(1)分别建立对应于两个模型的回归方程(1)(2)ˆˆˆˆ(,)(,)yf x a yg x b ==和,其中ˆˆa b 和分别是参数a b 和的估计值;(2)分别计算两个回归方程的残差平方和(1)(1)2(2)(2)211ˆˆˆˆ()()n ni i i i i i Q y y Q y y ===-=-∑∑和;(3)若(1)ˆQ<(2)ˆQ ,则(1)(2)ˆˆˆˆ(,)(,)y f x a y g x b ==的效果比; 反之, (1)(2)ˆˆˆˆ(,)(,)yf x a yg x b ==的效果不如的好. ※例题解析※〖例〗为了研究某种细菌随时间x 变化时,繁殖个数y 的变化,收集数据如下:(1)用天数x 作解释变量,繁殖个数y 作预报变量,作出这些数据的散点图 (2)描述解释变量x 与预报变量y 之间的关系; (3)计算残差平方和、相关指数.思路解析:作出散点图→分析与哪种曲线拟合→转化线性关系→进行回归分析. 解答:(1)所作散点图如图所示.(2)由散点图看出样本点分析在一条指数函数21c xy c e=的周围,于是令ln z y =,则由计算器得:ˆ0.69 1.112,zx =+则有 1.69 1.112ˆx y e +=.(3)则662211ˆˆ() 3.1643ii i i i ey y ===-=∑∑,621ˆ()i i i y y =-∑=24642.8,2 3.164310.999924642.8R =-=,即解释变量天数对预报变量细菌的繁殖个数解释了99.99%.(三)独立性检验〖例〗在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有效?思路解析:(1)先由已知作出调查数据的列联表; (2)再根据列联表画出二维条形图,并进行分析; (3)利用独立性检验作出判断.解答:根据题目所给的数据作出如下的联表:根据列联表作出相应的二维条形图,如图所示.从二维条形图来看,在男人中患色盲的比例38480,要比在女人中患色盲的比例6520要大,其差值为386||0.068,480520-≈差值较大,因而我们可以认为“性别与患色盲是有关的”,根据列联表中所给的数据可以有38,442,6,514,480,520,44,956,1000,a b c d a b c d a c b d n ====+=+=+=+==代入公式22()()()()()n ad bcKa b c d a c b d-=++++得221000(385146442)27.148052044956K⨯⨯-⨯=≈⨯⨯⨯。
题组训练77 线性回归分析与统计案例1.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 如下表:A .甲B .乙C .丙D .丁答案 D2.(2018·某某七市联考)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费x 和销售额y 进行统计,得到统计数据如下表(单位:万元):由上表可得回归方程为y =10.2x +a ,据此模型,预测广告费为10万元时销售额约为( ) A .101.2万元 B .108.8万元 C .111.2万元 D .118.2万元答案 C解析 根据统计数据表,可得x -=15×(2+3+4+5+6)=4,y -=15×(29+41+50+59+71)=50,而回归直线y ^=10.2x +a ^经过样本点的中心(4,50),∴50=10.2×4+a ^,解得a ^=9.2,∴回归方程为b ^=10.2x +9.2,∴当x =10时,y ^=10.2×10+9.2=111.2,故选C. 3.(2018·某某一模)以下四个命题:①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在回归直线方程y ^=0.2x +12中,当解释变量x 每增加1个单位时,预报变量平均增加0.2个单位;④分类变量X 与Y ,对它们的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.其中真命题为( )A.①④B.②④C.①③D.②③答案 D解析①为系统抽样;④分类变量X与Y,对它们的随机变量K2的观测值k来说,k越大,“X与Y有关系”的把握程度越大.4.下面是一个2×2列联表其中a,b处填的值分别为(A.94 72 B.52 50C.52 74 D.74 52答案 C解析由a+21=73,得a=52,a+22=b,得b=74.故选C.5.(2018·某某某某联考)甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:)A.甲B.乙C.丙D.丁答案 D解析r越大,m越小,线性相关性越强.故选D.6.(2018·某某中学调研)以下四个命题中,真命题是( )A.对分类变量x与y的随机变量K2的观测值k来说,k越小,判断“x与y有关系”的把握程度越大B .两个随机变量的线性相关性越强,相关系数的绝对值越接近于0C .若数据x 1,x 2,x 3,…,x n 的方差为1,则2x 1,2x 2,2x 3,…,2x n 的方差为2D .在回归分析中,可用相关指数R 2的值判断模型的拟合效果,R 2越大,模型的拟合效果越好 答案 D解析 对于A ,对分类变量x 与y 的随机变量K 2的观测值k 来说,k 越大,判断“x 与y 有关系”的把握程度越大,故A 错误;对于B ,两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,故B 错误;对于C ,若数据x 1,x 2,x 3,…,x n 的方差为1,则2x 1,2x 2,2x 3,…,2x n 的方差为4,故C 错误;对于D ,根据离散变量的线性相关及相关指数的有关知识可知D 正确.7.2015年年度史诗大剧《芈月传》风靡大江南北,影响力不亚于以前的《甄嬛传》.某记者调查了大量《芈月传》的观众,发现年龄段与爱看的比例存在较好的线性相关关系,年龄在[10,14],[15,19],[20,24],[25,29][30,34]的爱看比例分别为10%,18%,20%,30%,t%.现用这5个年龄段的中间值代表年龄段,如12代表[10,14],17代表[15,19],根据前四个数据求得爱看比例y 关于x 的线性回归方程为y =(kx -4.68)%,由此可推测t 的值为( ) A .33 B .35 C .37 D .39答案 B解析 依题意,x =14×(12+17+22+27)=19.5,y =14×(10%+18%+20%+30%)=19.5%, 又∵回归直线必过点(x ,y),∴19.5%=(k×19.5-4.68)%,解得k =2 4181 950,∴当x =32时,(2 4181 950×32-4.68)%=35%,∴t ≈35. 8.(2018·某某某某月考)某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下列联表:附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).C .99%D .99.9%答案 C解析 由2×2列联表知,K 2=30×(4×2-16×8)212×18×20×10=10.∵K 2>6.635,K 2<10.828,∴有99%的把握认为其亲属的饮食习惯与年龄有关.9.2017世界特色魅力城市200强新鲜出炉,包括某某市在内的28个中国城市入选,美丽的某某风景和人文景观迎来众多宾客.现在很多人喜欢“自助游”,某调查机构为了了解“自助游”是否与性别有关,在某某旅游节期间,随机抽取了100人,得如下所示的列联表:A .有99.5%以上的把握认为“赞成‘自助游’与性别无关”B .有99.5%以上的把握认为“赞成‘自助游’与性别有关”C .在犯错误的概率不超过0.1的前提下,认为“赞成‘自助游’与性别无关”D .在犯错误的概率不超过0.1的前提下,认为“赞成‘自助游’与性别有关” 参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d.解析 将2×2列联表中的数据代入计算,得K 2=100×(30×10-45×15)245×55×75×25≈3.030,∵2.706<3.030<3.841,∴在犯错误的概率不超过0.1的前提下,可以认为“赞成‘自助游’与性别有关”.10.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,所得数据如下表:则y 对x A .y ^=2.3x -0.7 B .y ^=2.3x +0.7 C .y ^=0.7x -2.3D .y ^=0.7x +2.3(相关公式:b ^=∑ni =1x i y i -nx ·y ∑n i =1x i 2-nx 2,a ^=y -b ^x)答案 C解析 ∵∑4i =1x i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9,y =2+3+5+64=4.∴b ^=158-4×9×436+64+100+144-4×81=0.7,a ^=4-0.7×9=-2.3.故线性回归直线方程为y ^=0.7x -2.3.11.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)现已知其线性回归方程为y =0.36x +a ,则根据此线性回归方程估计数学得90分的同学的物理成绩为________(四舍五入到整数). 答案 73解析 x -=60+65+70+75+805=70,y -=62+64+66+68+705=66,所以66=0.36×70+a ^,解得a ^=40.8. 所以0.36×90+40.8=73.2≈73.12.某工厂为了对一种新研发的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元) 4 5 6 7 8 9 销量y(件)908483807568由表中数据,求得线性回归方程为y ^=-4x +a ^.若在这些样本点中任取一点,则它在回归直线左下方的概率为________. 答案 13解析 由表中数据得x =6.5,y =80,由y =-4x +a ^,得a ^=106,故线性回归方程为y ^=-4x +106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入回归方程,可知有6个基本事件,因84<-4×5+106=86,68<-4×9+106=70,故(5,84)和(9,68)在直线的左下方,满足条件的只有2个,故所求概率为26=13.13.已知某学校的特长班有50名学生,其中有体育生20名,艺术生30名,在学校组织的一次体检中,该班所有学生进行了心率测试,心率全部介于50次/分到75次/分之间,现将数据分成五组,第一组[50,55),第二组[55,60),…,第五组[70,75],按上述分组方法得到的频率分布直方图如图所示.因为学习专业的原因,体育生常年进行系统的身体锻炼,艺术生则很少进行系统的身体锻炼,若前两组的学生中体育生有8名.(1)根据频率分布直方图及题设数据完成下列2×2列联表.心率小于60次/分心率不小于60次/分合计 体育生 20 艺术生 30 合计50(2)根据于60次/分与常年进行系统的身体锻炼有关”.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d.P(K 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001k 0 2.072 2.706 3.841 5.024 6.635 7.879 10.828答案 (1)见解析 (2)有关解析 (1)根据频率分布直方图可知,前两组的学生总数为(0.032+0.08)×5×50=10,又前两组的学生中体育生有8名,所以前两组的学生中艺术生有2名,故2×2列联表如下:心率小于60次/分心率不小于60次/分合计 体育生 8 12 20 艺术生 2 28 30 合计104050(2)由(1)中数据知,K 2=50×(8×28-2×12)220×30×10×40≈8.333>7.879,故有99.5%的把握认为“心率小于60次/分与常年进行系统的身体锻炼有关”.14.(2018·某某日照一模)某学校高三年级有学生500人,其中男生300人,女生200人.为了研究学生的数学成绩是否与性别有关,现采用分层抽样的方法,从中抽取了100名学生,先统计了他们期中考试的数学分数,然后按性别分为男、女两组,再将两组学生的分数分成5组:[100,110),[110,120),[120,130),[130,140),[140,150]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中分数低于110分的学生中随机抽取两人,求这两人恰好为一男一女的概率; (2)若规定分数不低于130分的学生为“数学尖子生”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“数学尖子生与性别有关”. 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )P(K 2≥k 0)0.10 0.05 0.010 0.005 0.001 k 02.7063.8416.6357.87910.828答案 (1)35(2)有关解析 (1)由已知得,抽取的100名学生中,男生60名,女生40名.分数低于110分的学生中,男生有60×0.05=3(人),记为A 1,A 2,A 3;女生有40×0.05=2(人),记为B 1,B 2.从中随机抽取两名学生,所有的可能结果共有10种,它们是(A 1,A 2),(A 1,A 3),(A 2,A 3),(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2)(B 1,B 2);其中两名学生恰好为一男一女的可能结果共有6种,它们是(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2). ∴所求概率为P =610=35.(2)由频率分布直方图可知,在抽取的100名学生中,分数不低于130分的男生人数为60×0.25=15,分数不低于130分的女生人数为40×0.4=16,据此可得2×2列联表如下:∴K 2=60×40×31×69≈2.525<2.706,∴没有90%的把握认为“数学尖子生与性别有关”.15.(2017·某某某某二诊)某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:程,再对被选取的2组数据进行检验.(1)求选取的2组数据恰好是不相邻两天数据的概率;(2)若选取的是12月1日与12月5日的数据,请根据12月2日至12月4日的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗.则认为得到的线性回归方程是可靠的.试问(2)中所得到的线性回归方程是可靠的吗?附:回归直线的斜率和截距的最小二乘估计公式分别为:答案 (1)35 (2) y ^=52x -3 (3)可靠解析 (1)设“选取的2组数据恰好是不相邻两天的数据”为事件A.从5组数据中选取2组数据共有10种情况:(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5),其中数据为12月份的日期数. 每种情况都是等可能出现的,事件A 包括的基本事件有6种. ∴P(A)=610=35.∴选取的2组数据恰好是不相邻两天数据的概率是35.(2)由数据可得x -=11+13+123=12,y -=25+30+263=27.∴b ^=(11-12)×(25-27)+(13-12)×(30-27)+(12-12)×(26-27)(11-12)2+(13-12)2+(12-12)2=52, a ^=y --b ^x -=27-52×12=-3.∴y 关于x 的线性回归方程为y ^=52x -3.(3)当x =10时,y ^=52×10-3=22,|22-23|<2;同理,当x =8时,y ^=52×8-3=17,|17-16|<2.∴(2)中所得到的线性回归方程是可靠的.16.(2018·某某某某模拟)某市春节期间7家超市的广告费支出x i (万元)和销售额y i (万元)数据如下:超市 A B C D E F G 广告费支出x i 1 2 4 6 11 13 19 销售额y i19324044525354(1)(2)用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ∧=-0.17x 2+5x +20,经计算二次函数回归模型和线性回归模型的R 2分别约为0.92和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.参考数据及公式:x =8,y =42,∑7i =1x i y i =2 794,∑7i =1x i 2=708,b ^=∑ni =1x i y i -n ·x -y -∑ni =1x i 2-nx 2,a ^=y -b ^x.答案 (1) y ^=1.7x +28.4 (2)33.47解析 (1) b ^=∑7i =1x i y i -7·x -y -∑7i =1x i 2-7x 2=2 794-7×8×42708-7×82=1.7,a ^=y -b ^x =42-1.7×8=28.4. ∴y 关于x 的线性回归方程是y ^=1.7x +28.4. (2)∵0.75<0.92,∴二次函数回归模型更合适.当x =3万元时,y ^=-0.17×9+5×3+20=33.47,预测A 超市销售额为33.47万元.1.设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线的斜率是b ,纵截距是a ,那么必有( ) A .b 与r 的符号相同 B .a 与r 的符号相同 C .b 与r 的符号相反 D .a 与r 的符号相反答案 A 2.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③回归直线y ^=b ^x +a ^必过点(x -,y -);④在一个2×2列联表中,由计算得K 2的观测值k =13.079,则在犯错误的概率不超过0.001的前提下认为这两个变量间有关系.其中错误的个数是( ) A .0 B .1 C .2D .3本题可以参考独立性检验临界值表: P(K 2≥k)0.5 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001k 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828解析 只有②错误,应该是y 平均减少5个单位.3.(2018·某某某某模拟)根据“2015年国民经济和社会发展统计公报”中公布的数据,从2011年到2015年,我国的第三产业在GDP 中的比重如下:年份 2011 2012 2013 2014 2015 年份代码x 1 2 3 4 5 第三产业比重y/%44.345.546.948.150.5(1)在所给坐标系中作出数据对应的散点图;(2)建立第三产业在GDP 中的比重y 关于年份代码x 的回归方程; (3)按照当前的变化趋势,预测2018年我国第三产业在GDP 中的比重.附:回归直线y ^=a ^+b ^x 的斜率和截距的最小二乘估计分别为b ^=∑ni =1 (x i -x )(y i -y )∑ni =1 (x i -x )2,a ^=y -b ^x.答案 (1)见解析 (2) y ^=1.5x +42.56 (3)54.56% 解析 (1)数据对应的散点图如图所示.(2)x =3,y =47.06,b ^=∑5i =1 (x i -x )(y i -y )∑5i =1 (x i -x )2=1510=1.5,a ^=y -b ^x =42.56, 所以回归直线方程为y ^=1.5x +42.56.(3)代入2018年的年份代码x =8,得y ^=1.5×8+42.56=54.56,所以按照当时的变化趋势,预计到2018年,我国第三产业在GDP 中的比重将达到54.56%. 4.假设关于某种设备的使用年限x(年)与所支出的维修费用y(万元)有如以下的统计数据;x(年) 2 3 4 5 6 y(万元)2.23.85.56.57.0(1)求x -,y -;(2)对x ,y 进行线性相关性检验;(3)如果x 与y 具有线性相关关系,求出回归直线方程; (4)估计使用年限为10年时,维修费用约是多少?答案 (1)x -=4,y -=5 (2)略 (3) y ^=1.23x +0.08 (4)12.38万元 解析 (1)x -=2+3+4+5+65=4,y -=2.2+3.8+5.5+6.5+7.05=5.所以r =12.310×15.8=12.3158≈0.987.因为0.987>0.75,所以x 与y 之间具有很强的线性相关关系.(4)当x =10时,y ^=1.23×10+0.08=12.38,即估计使用年限为10年时,维修费用约为12.38万元.5.(2018·某某某某期末)某商店为了更好地规划某种商品的进货量,从某一年的销售数据中,随机抽取了8组数据作为研究对象,如下表所示(x 为该商品的进货量,y 为销售天数).x/吨 2 3 4 5 6 8 9 11 y/天12334568(1)根据上表数据在下图所示的网格中绘制散点图;(2)根据上表提供的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)根据(2)中的计算结果,若该商店准备一次性进货24吨,预测需要销售的天数.参考公式和数据:b ^=∑ni =1x i y i -nx ·y ∑n i =1x i 2-nx 2,a ^=y -b ^x ;∑8i =1x i 2=356,∑8i =1x i y i =241. 答案 (1)略 (2) y ^=4968x -1134 (3)17天解析 (1)散点图如图所示:(2)依题意,得x =18×(2+3+4+5+6+8+9+11)=6,y =18×(1+2+3+3+4+5+6+8)=4, 又∑8i =1x i 2=356,∑8i =1x i y i =241,所以b ^=∑8i =1x i y i -8x ·y ∑8i =1x i 2-8x 2=241-8×6×4356-8×62=4968,a ^=4-4968×6=-1134, 故线性回归方程为y ^=4968x -1134.(3)由(2)知,当x =24时,y ^=4968×24-1134≈17,故若该商店一次性进货24吨,则预计需要销售17天.。
2023年高考数学复习----回归分析规律方法与典型例题讲解【规律方法】线性回归分析的原理、方法和步骤:(1)利用图表和数字特征可以对数据做简单的分析,但是用回归直线方程可以对数据的未来值进行预测.在选取数据观察的时候,要注意大量相对稳定的数据比不稳定的数据更有价值,近期的数据比过去久远的数据更有价值.(2)判断两组数据是否具有线性相关关系的方法:散点图,相关系数.(3)相关指数2R与相关系数r在含有一个解释变量的线性回归模型中是等价的量()22=,都是用来判断线性回归模型拟合效果好不好的量.R r(4)利用换元法,可以将一元非线性回归转化为线性回归.【典型例题】例1.(2022春·河南·高三信阳高中校联考期末)随着电池充电技术的逐渐成熟,以锂电池为动力的新一代无绳类电动工具以其轻巧便携、工作效率高、环保、可适应多种应用场景下的工作等优势,被广泛使用.在消费者便携无绳化需求与技术发展的双重驱动下,锂电类无绳电动工具及配套充电器市场有望持续扩大.某公司为适应市场并增强市场竞争力,逐年增加研发人员,使得整体研发创新能力持续提升,现对2017~2021年的研发人数作了相关统计,如下图:2017~2021年公司的研发人数情况(年份代码1~5分别对应2017~2021年)(1)根据条形统计图中数据,计算该公司研发人数y 与年份代码x 的相关系数r ,并由此判断其相关性的强弱;(2)试求出y 关于x 的线性回归方程,并预测2023年该公司的研发人数.(结果取整数) 参考数据:()52155960i i y y=−=∑37.4≈.参考公式:相关系数()()niix x y y r −−=∑.线性回归方程的斜率()()()121ˆniii nii x x y y bx x ==−−=−∑∑,截距ˆˆa y bx =−.附:【解析】(1)由条形统计图,得()11234535x =⨯++++=,2042202983964823205y ++++==,所以()()()()()()5222222123451i i x xx x x x x x x x x x =−=−+−+−+−+−∑()()()()()222221323334353=−+−+−+−+− 10=,()()()()()()()51211611000221762162732iii x x y y =−−=−⨯−+−⨯−+⨯−+⨯+⨯=∑.所以()()57320.982374iix x y y r −−===≈≈⨯∑.因为相关系数0.980.75r ≈>,所以y 与x 具有很强的线性相关关系,且为正相关.(2)()()()2515173273.ˆ210iiii i x x y y bx x ==−−===−∑∑, 所以320ˆˆ73.23100.4ay bx =−=−⨯=, 所以73ˆˆˆ.2100.4ybx a x =+=+. 由题意知,2023年对应的年份代码7x =, 当7x =时,73.ˆˆ27100.4612.8ˆybx a =+=⨯+=, 故预测2023年该公司的研发人数约为613人.例2.(2022春·广东·高三校联考阶段练习)红铃虫是棉花的主要害虫之一,能对农作物造成严重伤害,每只红铃虫的平均产卵数y 和平均温度x 有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.(1)根据散点图判断,y bx a =+与e dxy c =(其中e 2.718=为自然对数的底数)哪一个更适宜作为平均产卵数y 关于平均温度x 的回归方程类型?(给出判断即可,不必说明理由)并由判断结果及表中数据,求出y 关于x 的回归方程,(计算结果精确到0.01) (2)根据以往统计,该地每年平均温度达到28℃以上时红铃虫会造成严重伤害,需要人工防治,其他情况均不需要人工防治,假设该地每年平均温度达到28℃以上的概率为13.该地今后4年中至少有两年需要人工防治的概率.附:回归方程()1122211()()ˆˆˆˆˆˆˆ,,====−−−=+===−−−∑∑∑∑n niii ii i nniii i x x y y x y nxyybx a b ay bx x x xnx . 【解析】(1)由散点图可以判断,e dxy c =适宜作为卵数y 关于温度x 的回归方程类型.对e dxy c =两边取自然对数,得ln ln y c dx =+,令ln ,ln ˆˆˆ,z y a c b d ===,则ˆˆˆz bxa =+, 由数据得21232527293133277x ++++++==,71736.6i ii x zxz =−=∑,()77222117112i i i i x x x x ==−=−=∑∑,所以717221736.6ˆ0.331127i i i i i x z xzbxx ==−==≈−∑∑, 3.60.3327 5.31ˆˆaz bx =−=−⨯=−, 所以z 关于x 的线性回归方程为ˆ0.33 5.31zx =−, 则y 关于x 的回归方程为0.33 5.31ˆe x y−=; (2)若今后4年中有X 年需要人工防治,且服从1(4,)3X,所以,今后4年中至少有两年需要人工防治的概率431421233111C 3338127P ⎛⎫⎛⎫⎛⎫=−−⋅== ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭. 例3..(2022·全国·模拟预测)住房和城乡建设部等六部门发布通知提出,到2025年,农村生活垃圾无害化处理水平明显提升.我国生活垃圾主要有填埋、焚烧与堆肥三种处理方式,随着我国垃圾处理结构的不断优化调整,焚烧处理逐渐成为市场主流.根据国家统计局公布的数据,对2013—2020年全国生活垃圾焚烧无害化处理厂的个数y (单位:座)进行统计,得到如下表格:(1)由表中数据可知,可用线性回归模型拟合y 与x 之间的关系,请用相关系数加以说明;(精确到0.01)(2)求出y 关于x 的线性回归方程,并预测2022年全国生活垃圾焚烧无害化处理厂的个数;(3)对于2035年全国生活垃圾焚烧无害化处理厂的个数,还能用所求的线性回归方程预测吗?请简要说明理由.参考公式:相关系数()()niix x y y r −−=∑y bx a =+$$$中斜率和截距的最小二乘估计公式分别为()()()121nii i nii xx y yb xx==−−=−∑∑,a y bx =−$$.参考数据:812292i i y ==∑,821204ii x ==∑,821730348ii y ==∑,8112041i i i x y ==∑,2573328329=,10.2585.84≈.【解析】(1)由题意,12345678982x +++++++==,229257382y ==,相关系数()()8iix x y y r −−==∑88−∑i ix y x y9573120418−⨯⨯==17270.9820.585.84≈≈⨯,因为y 与x 的相关系数0.98r ≈,接近于1,所以y 与x 的线性相关程度相当高,可用线性回归模型拟合y 与x 之间的关系; (2)由题意,()()()8811882221188iii ii i iii i x x y y x y x yb x x xx====−−−===−−∑∑∑∑957312041817272241.12814220484−⨯⨯=≈−⨯, 573941.12101.4622a y bx =−≈−⨯=, 所以y 关于x 的线性回归方程为41.12101.46y x =+, 易知2022年对应的年份代码10x =,当10x =时,41.1210101.46512.66513y =⨯+=≈,所以预测2022年全国生活垃圾焚烧无害化处理厂的个数为513;(3)对于2035年全国生活垃圾焚烧无害化处理厂的个数,不能用所求线性回归方程预测, 理由如下(说出一点即可):①线性回归方程具有时效性,不能预测较远情况;②全国生活垃圾焚烧无害化处理厂的个数有可能达到上限,一段时间内不再新建; ③受国家政策的影响,可能产生新的生活垃圾无害化处理方式.。