高考数学一轮总复习:线性回归分析与统计案例
- 格式:ppt
- 大小:2.74 MB
- 文档页数:96
18、统计18.4 线性回归方程及应用【知识网络】1.能通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系。
2.了解线性回归的方法;了解用最小二乘法研究两个变量的线性相关问题的思想方法;会根据给出的线性回归方程系数公式建立线性回归方程(不要求记忆系数公式)。
【典型例题】[例1](1)为了考查两个变量x和y之间的线性关系,甲、乙两位同学各自独立作了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1、l2,已知两人得的试验数据中,变量x和y的数据的平均值都分别相等,且值为s与t,那么下列说法正确的是()A.直线l1和l2一定有公共点(s,t) B.直线l1和l2相交,但交点不一定是(s,t) C.必有直线l1∥l2D.直线l1和l2必定重合(2)工人工资(元)依劳动生产率(千元)变化的回归方程为ˆy=50+80x,下列判断正确的是()A.劳动生产率为1000元时,工资为130元B.劳动生产率提高1000元时,工资提高80元C.劳动生产率提高1000元时,工资提高130元D.当月工资250元时,劳动生产率为2000元(3)下列命题:①任何两个变量都具有相关关系;②圆的周长与该圆的半径具有相关关系;③某商品的需求与该商品的价格是一种非确定性关系;④根据散点图求得的回归直线方程可能是没有意义的;⑤两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进行研究。
其中正确的命题为()A.①③④B。
②④⑤C。
③④⑤D。
②③⑤(4)一家保险公司调查其总公司营业部的加班程度,收集了10周中每周加班工作时间y (小时)与签发新保单数目x的数据如下表,则用最小二乘法估计求出的线性回归方程是___________。
(5)上题中,若该公司预计下周签发新保单1000张,则需要加班的时间是。
[例2]其中x(血球体积,mm),y(血红球数,百万).①画出上表的散点图;②求出回归直线并且画出图形。
第一节统计
统计学是一门深入研究社会发展现象、收集各种信息有关经济、社会
等方面的现象,而综合运用几何学,概率论,统计学原理建立的科学模型,使数据进行统计分析的一门科学。
主要用于分析和收集各种信息,由此产
生的规律和趋势,调查统计现象和情况,发现其背后的规律和趋势,从而
研究社会上多种现象的变化规律。
统计学主要解决四个方面问题:
1.收集数据,概括和引申数据,以表示其中一社会现象的特征;
2.运用各种统计方法,对数据进行描述,以探索其中一社会现象的规律;
3.建立统计模型,用来估算、预测其中一社会现象的发展趋势;
4.根据统计分析结果,作出科学的决定,改善社会环境和生活质量。
第二节统计案例
1.调查学生上网时间
一所中学要开展学生上网时间的调查。
方法如下:
先在学校开展一次上网时间调查问卷调查,要求学生填写上网时间的
长短,有无违背规定的行为,网络上的活动,以及是否有不良信息等;
其次,定期对学生的上网行为进行监视,及时发现学生在上网时是否
有违背规定的行为;。
高考一轮复习热点难点精讲精析:10.3统计案例(一)线性回归分析※相关链接※1.首先利用散点图判断两个变量是否线性相关.=+.2.求回归方程y bx a(1)线性回归方程中的截距a和斜率b都是通过样本估计而来的,存在着误差,这种误差可能导致预报结果的偏差.=+中的b表示x增加1个单位时y的变化量为b.(2)回归方程y bx a=+预报在x取某一个值时y的估计值.(3)可以利用回归方程y bx a3.相关系数r利用相关系数r来衡量两个变量之间的线性相关的强弱.4.建立回归模型的步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).=+).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y bx a(4)按一定规则估计回归方程中的参数(如最小二乘法).(5)得出结果后分析残差是否异常(个别数据对应残差过大,或残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否适合等.注:回归方程只适用于我们所研究的样本的总体,而且一般都有时间性.样本的取值范围一般不能超过回归方程的适用范围,否则没有实用价值.※例题解析※〖例〗测得某国10对父子身高(单位:英寸)如下:(1)对变量y x与进行相关性检验;(2)如果y x与之间具有线性相关关系,求回归方程.(3)如果父亲的身高为73英寸,估计儿子的身高.思路解析:(1)先根据已知计算相关系数r,判断是否具有相关关系.(2)再利用分工求出回归方程进行回归分析.解答:(1)101010222211166.8,67.01,4462.24,4490.4,44974,44941.93,44842.4,i i i ii i ix y x y x y x yr=== ===≈=====∑∑∑0.804.≈所以y x与之间具有很强的线性相关关系.(2)设回归方程为y bx a=+.由101102211044842.444762.6879.72ˆ0.46464479444662.4171.610i iiiix y x ybx x==--===≈--∑∑.ˆˆ67.010.464666.835.97.a y bx=-=-⨯≈故所求的回归方程为:ˆ0.464635.97y x=+.(3)当x=73时, ˆ0.46467335.9769.9y=⨯+≈.所以当父亲身高为73英寸时,估计儿子身高约为69.9英寸.(二)非线性回归分析※相关链接※1.非线性回归模型:当回归方程不是形如y bx a=+时称之为非线性回归模型.2.非线性回归模型的拟合效果:对于给定的样本点1122(,),(,),,(,)n nx y x y x y,两个含有未知数的模型(1)(2)(,)(,)y f x a y g x b==和,其中a b和都是未知参数.可按如下的步骤比较它们的拟合效果:(1)分别建立对应于两个模型的回归方程(1)(2)ˆˆˆˆ(,)(,)yf x a yg x b ==和,其中ˆˆa b 和分别是参数a b 和的估计值;(2)分别计算两个回归方程的残差平方和(1)(1)2(2)(2)211ˆˆˆˆ()()n ni i i i i i Q y y Q y y ===-=-∑∑和;(3)若(1)ˆQ<(2)ˆQ ,则(1)(2)ˆˆˆˆ(,)(,)y f x a y g x b ==的效果比; 反之, (1)(2)ˆˆˆˆ(,)(,)yf x a yg x b ==的效果不如的好. ※例题解析※〖例〗为了研究某种细菌随时间x 变化时,繁殖个数y 的变化,收集数据如下:(1)用天数x 作解释变量,繁殖个数y 作预报变量,作出这些数据的散点图 (2)描述解释变量x 与预报变量y 之间的关系; (3)计算残差平方和、相关指数.思路解析:作出散点图→分析与哪种曲线拟合→转化线性关系→进行回归分析. 解答:(1)所作散点图如图所示.(2)由散点图看出样本点分析在一条指数函数21c xy c e=的周围,于是令ln z y =,则由计算器得:ˆ0.69 1.112,zx =+则有 1.69 1.112ˆx y e +=.(3)则662211ˆˆ() 3.1643ii i i i ey y ===-=∑∑,621ˆ()i i i y y =-∑=24642.8,2 3.164310.999924642.8R =-=,即解释变量天数对预报变量细菌的繁殖个数解释了99.99%.(三)独立性检验〖例〗在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有效?思路解析:(1)先由已知作出调查数据的列联表; (2)再根据列联表画出二维条形图,并进行分析; (3)利用独立性检验作出判断.解答:根据题目所给的数据作出如下的联表:根据列联表作出相应的二维条形图,如图所示.从二维条形图来看,在男人中患色盲的比例38480,要比在女人中患色盲的比例6520要大,其差值为386||0.068,480520-≈差值较大,因而我们可以认为“性别与患色盲是有关的”,根据列联表中所给的数据可以有38,442,6,514,480,520,44,956,1000,a b c d a b c d a c b d n ====+=+=+=+==代入公式22()()()()()n ad bcKa b c d a c b d-=++++得221000(385146442)27.148052044956K⨯⨯-⨯=≈⨯⨯⨯。
题组训练77 线性回归分析与统计案例1.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 如下表:A .甲B .乙C .丙D .丁答案 D2.(2018·某某七市联考)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费x 和销售额y 进行统计,得到统计数据如下表(单位:万元):由上表可得回归方程为y =10.2x +a ,据此模型,预测广告费为10万元时销售额约为( ) A .101.2万元 B .108.8万元 C .111.2万元 D .118.2万元答案 C解析 根据统计数据表,可得x -=15×(2+3+4+5+6)=4,y -=15×(29+41+50+59+71)=50,而回归直线y ^=10.2x +a ^经过样本点的中心(4,50),∴50=10.2×4+a ^,解得a ^=9.2,∴回归方程为b ^=10.2x +9.2,∴当x =10时,y ^=10.2×10+9.2=111.2,故选C. 3.(2018·某某一模)以下四个命题:①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在回归直线方程y ^=0.2x +12中,当解释变量x 每增加1个单位时,预报变量平均增加0.2个单位;④分类变量X 与Y ,对它们的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.其中真命题为( )A.①④B.②④C.①③D.②③答案 D解析①为系统抽样;④分类变量X与Y,对它们的随机变量K2的观测值k来说,k越大,“X与Y有关系”的把握程度越大.4.下面是一个2×2列联表其中a,b处填的值分别为(A.94 72 B.52 50C.52 74 D.74 52答案 C解析由a+21=73,得a=52,a+22=b,得b=74.故选C.5.(2018·某某某某联考)甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:)A.甲B.乙C.丙D.丁答案 D解析r越大,m越小,线性相关性越强.故选D.6.(2018·某某中学调研)以下四个命题中,真命题是( )A.对分类变量x与y的随机变量K2的观测值k来说,k越小,判断“x与y有关系”的把握程度越大B .两个随机变量的线性相关性越强,相关系数的绝对值越接近于0C .若数据x 1,x 2,x 3,…,x n 的方差为1,则2x 1,2x 2,2x 3,…,2x n 的方差为2D .在回归分析中,可用相关指数R 2的值判断模型的拟合效果,R 2越大,模型的拟合效果越好 答案 D解析 对于A ,对分类变量x 与y 的随机变量K 2的观测值k 来说,k 越大,判断“x 与y 有关系”的把握程度越大,故A 错误;对于B ,两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,故B 错误;对于C ,若数据x 1,x 2,x 3,…,x n 的方差为1,则2x 1,2x 2,2x 3,…,2x n 的方差为4,故C 错误;对于D ,根据离散变量的线性相关及相关指数的有关知识可知D 正确.7.2015年年度史诗大剧《芈月传》风靡大江南北,影响力不亚于以前的《甄嬛传》.某记者调查了大量《芈月传》的观众,发现年龄段与爱看的比例存在较好的线性相关关系,年龄在[10,14],[15,19],[20,24],[25,29][30,34]的爱看比例分别为10%,18%,20%,30%,t%.现用这5个年龄段的中间值代表年龄段,如12代表[10,14],17代表[15,19],根据前四个数据求得爱看比例y 关于x 的线性回归方程为y =(kx -4.68)%,由此可推测t 的值为( ) A .33 B .35 C .37 D .39答案 B解析 依题意,x =14×(12+17+22+27)=19.5,y =14×(10%+18%+20%+30%)=19.5%, 又∵回归直线必过点(x ,y),∴19.5%=(k×19.5-4.68)%,解得k =2 4181 950,∴当x =32时,(2 4181 950×32-4.68)%=35%,∴t ≈35. 8.(2018·某某某某月考)某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下列联表:附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).C .99%D .99.9%答案 C解析 由2×2列联表知,K 2=30×(4×2-16×8)212×18×20×10=10.∵K 2>6.635,K 2<10.828,∴有99%的把握认为其亲属的饮食习惯与年龄有关.9.2017世界特色魅力城市200强新鲜出炉,包括某某市在内的28个中国城市入选,美丽的某某风景和人文景观迎来众多宾客.现在很多人喜欢“自助游”,某调查机构为了了解“自助游”是否与性别有关,在某某旅游节期间,随机抽取了100人,得如下所示的列联表:A .有99.5%以上的把握认为“赞成‘自助游’与性别无关”B .有99.5%以上的把握认为“赞成‘自助游’与性别有关”C .在犯错误的概率不超过0.1的前提下,认为“赞成‘自助游’与性别无关”D .在犯错误的概率不超过0.1的前提下,认为“赞成‘自助游’与性别有关” 参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d.解析 将2×2列联表中的数据代入计算,得K 2=100×(30×10-45×15)245×55×75×25≈3.030,∵2.706<3.030<3.841,∴在犯错误的概率不超过0.1的前提下,可以认为“赞成‘自助游’与性别有关”.10.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,所得数据如下表:则y 对x A .y ^=2.3x -0.7 B .y ^=2.3x +0.7 C .y ^=0.7x -2.3D .y ^=0.7x +2.3(相关公式:b ^=∑ni =1x i y i -nx ·y ∑n i =1x i 2-nx 2,a ^=y -b ^x)答案 C解析 ∵∑4i =1x i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9,y =2+3+5+64=4.∴b ^=158-4×9×436+64+100+144-4×81=0.7,a ^=4-0.7×9=-2.3.故线性回归直线方程为y ^=0.7x -2.3.11.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)现已知其线性回归方程为y =0.36x +a ,则根据此线性回归方程估计数学得90分的同学的物理成绩为________(四舍五入到整数). 答案 73解析 x -=60+65+70+75+805=70,y -=62+64+66+68+705=66,所以66=0.36×70+a ^,解得a ^=40.8. 所以0.36×90+40.8=73.2≈73.12.某工厂为了对一种新研发的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元) 4 5 6 7 8 9 销量y(件)908483807568由表中数据,求得线性回归方程为y ^=-4x +a ^.若在这些样本点中任取一点,则它在回归直线左下方的概率为________. 答案 13解析 由表中数据得x =6.5,y =80,由y =-4x +a ^,得a ^=106,故线性回归方程为y ^=-4x +106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入回归方程,可知有6个基本事件,因84<-4×5+106=86,68<-4×9+106=70,故(5,84)和(9,68)在直线的左下方,满足条件的只有2个,故所求概率为26=13.13.已知某学校的特长班有50名学生,其中有体育生20名,艺术生30名,在学校组织的一次体检中,该班所有学生进行了心率测试,心率全部介于50次/分到75次/分之间,现将数据分成五组,第一组[50,55),第二组[55,60),…,第五组[70,75],按上述分组方法得到的频率分布直方图如图所示.因为学习专业的原因,体育生常年进行系统的身体锻炼,艺术生则很少进行系统的身体锻炼,若前两组的学生中体育生有8名.(1)根据频率分布直方图及题设数据完成下列2×2列联表.心率小于60次/分心率不小于60次/分合计 体育生 20 艺术生 30 合计50(2)根据于60次/分与常年进行系统的身体锻炼有关”.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d.P(K 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001k 0 2.072 2.706 3.841 5.024 6.635 7.879 10.828答案 (1)见解析 (2)有关解析 (1)根据频率分布直方图可知,前两组的学生总数为(0.032+0.08)×5×50=10,又前两组的学生中体育生有8名,所以前两组的学生中艺术生有2名,故2×2列联表如下:心率小于60次/分心率不小于60次/分合计 体育生 8 12 20 艺术生 2 28 30 合计104050(2)由(1)中数据知,K 2=50×(8×28-2×12)220×30×10×40≈8.333>7.879,故有99.5%的把握认为“心率小于60次/分与常年进行系统的身体锻炼有关”.14.(2018·某某日照一模)某学校高三年级有学生500人,其中男生300人,女生200人.为了研究学生的数学成绩是否与性别有关,现采用分层抽样的方法,从中抽取了100名学生,先统计了他们期中考试的数学分数,然后按性别分为男、女两组,再将两组学生的分数分成5组:[100,110),[110,120),[120,130),[130,140),[140,150]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中分数低于110分的学生中随机抽取两人,求这两人恰好为一男一女的概率; (2)若规定分数不低于130分的学生为“数学尖子生”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“数学尖子生与性别有关”. 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )P(K 2≥k 0)0.10 0.05 0.010 0.005 0.001 k 02.7063.8416.6357.87910.828答案 (1)35(2)有关解析 (1)由已知得,抽取的100名学生中,男生60名,女生40名.分数低于110分的学生中,男生有60×0.05=3(人),记为A 1,A 2,A 3;女生有40×0.05=2(人),记为B 1,B 2.从中随机抽取两名学生,所有的可能结果共有10种,它们是(A 1,A 2),(A 1,A 3),(A 2,A 3),(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2)(B 1,B 2);其中两名学生恰好为一男一女的可能结果共有6种,它们是(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2). ∴所求概率为P =610=35.(2)由频率分布直方图可知,在抽取的100名学生中,分数不低于130分的男生人数为60×0.25=15,分数不低于130分的女生人数为40×0.4=16,据此可得2×2列联表如下:∴K 2=60×40×31×69≈2.525<2.706,∴没有90%的把握认为“数学尖子生与性别有关”.15.(2017·某某某某二诊)某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:程,再对被选取的2组数据进行检验.(1)求选取的2组数据恰好是不相邻两天数据的概率;(2)若选取的是12月1日与12月5日的数据,请根据12月2日至12月4日的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗.则认为得到的线性回归方程是可靠的.试问(2)中所得到的线性回归方程是可靠的吗?附:回归直线的斜率和截距的最小二乘估计公式分别为:答案 (1)35 (2) y ^=52x -3 (3)可靠解析 (1)设“选取的2组数据恰好是不相邻两天的数据”为事件A.从5组数据中选取2组数据共有10种情况:(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5),其中数据为12月份的日期数. 每种情况都是等可能出现的,事件A 包括的基本事件有6种. ∴P(A)=610=35.∴选取的2组数据恰好是不相邻两天数据的概率是35.(2)由数据可得x -=11+13+123=12,y -=25+30+263=27.∴b ^=(11-12)×(25-27)+(13-12)×(30-27)+(12-12)×(26-27)(11-12)2+(13-12)2+(12-12)2=52, a ^=y --b ^x -=27-52×12=-3.∴y 关于x 的线性回归方程为y ^=52x -3.(3)当x =10时,y ^=52×10-3=22,|22-23|<2;同理,当x =8时,y ^=52×8-3=17,|17-16|<2.∴(2)中所得到的线性回归方程是可靠的.16.(2018·某某某某模拟)某市春节期间7家超市的广告费支出x i (万元)和销售额y i (万元)数据如下:超市 A B C D E F G 广告费支出x i 1 2 4 6 11 13 19 销售额y i19324044525354(1)(2)用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ∧=-0.17x 2+5x +20,经计算二次函数回归模型和线性回归模型的R 2分别约为0.92和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.参考数据及公式:x =8,y =42,∑7i =1x i y i =2 794,∑7i =1x i 2=708,b ^=∑ni =1x i y i -n ·x -y -∑ni =1x i 2-nx 2,a ^=y -b ^x.答案 (1) y ^=1.7x +28.4 (2)33.47解析 (1) b ^=∑7i =1x i y i -7·x -y -∑7i =1x i 2-7x 2=2 794-7×8×42708-7×82=1.7,a ^=y -b ^x =42-1.7×8=28.4. ∴y 关于x 的线性回归方程是y ^=1.7x +28.4. (2)∵0.75<0.92,∴二次函数回归模型更合适.当x =3万元时,y ^=-0.17×9+5×3+20=33.47,预测A 超市销售额为33.47万元.1.设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线的斜率是b ,纵截距是a ,那么必有( ) A .b 与r 的符号相同 B .a 与r 的符号相同 C .b 与r 的符号相反 D .a 与r 的符号相反答案 A 2.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③回归直线y ^=b ^x +a ^必过点(x -,y -);④在一个2×2列联表中,由计算得K 2的观测值k =13.079,则在犯错误的概率不超过0.001的前提下认为这两个变量间有关系.其中错误的个数是( ) A .0 B .1 C .2D .3本题可以参考独立性检验临界值表: P(K 2≥k)0.5 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001k 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828解析 只有②错误,应该是y 平均减少5个单位.3.(2018·某某某某模拟)根据“2015年国民经济和社会发展统计公报”中公布的数据,从2011年到2015年,我国的第三产业在GDP 中的比重如下:年份 2011 2012 2013 2014 2015 年份代码x 1 2 3 4 5 第三产业比重y/%44.345.546.948.150.5(1)在所给坐标系中作出数据对应的散点图;(2)建立第三产业在GDP 中的比重y 关于年份代码x 的回归方程; (3)按照当前的变化趋势,预测2018年我国第三产业在GDP 中的比重.附:回归直线y ^=a ^+b ^x 的斜率和截距的最小二乘估计分别为b ^=∑ni =1 (x i -x )(y i -y )∑ni =1 (x i -x )2,a ^=y -b ^x.答案 (1)见解析 (2) y ^=1.5x +42.56 (3)54.56% 解析 (1)数据对应的散点图如图所示.(2)x =3,y =47.06,b ^=∑5i =1 (x i -x )(y i -y )∑5i =1 (x i -x )2=1510=1.5,a ^=y -b ^x =42.56, 所以回归直线方程为y ^=1.5x +42.56.(3)代入2018年的年份代码x =8,得y ^=1.5×8+42.56=54.56,所以按照当时的变化趋势,预计到2018年,我国第三产业在GDP 中的比重将达到54.56%. 4.假设关于某种设备的使用年限x(年)与所支出的维修费用y(万元)有如以下的统计数据;x(年) 2 3 4 5 6 y(万元)2.23.85.56.57.0(1)求x -,y -;(2)对x ,y 进行线性相关性检验;(3)如果x 与y 具有线性相关关系,求出回归直线方程; (4)估计使用年限为10年时,维修费用约是多少?答案 (1)x -=4,y -=5 (2)略 (3) y ^=1.23x +0.08 (4)12.38万元 解析 (1)x -=2+3+4+5+65=4,y -=2.2+3.8+5.5+6.5+7.05=5.所以r =12.310×15.8=12.3158≈0.987.因为0.987>0.75,所以x 与y 之间具有很强的线性相关关系.(4)当x =10时,y ^=1.23×10+0.08=12.38,即估计使用年限为10年时,维修费用约为12.38万元.5.(2018·某某某某期末)某商店为了更好地规划某种商品的进货量,从某一年的销售数据中,随机抽取了8组数据作为研究对象,如下表所示(x 为该商品的进货量,y 为销售天数).x/吨 2 3 4 5 6 8 9 11 y/天12334568(1)根据上表数据在下图所示的网格中绘制散点图;(2)根据上表提供的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)根据(2)中的计算结果,若该商店准备一次性进货24吨,预测需要销售的天数.参考公式和数据:b ^=∑ni =1x i y i -nx ·y ∑n i =1x i 2-nx 2,a ^=y -b ^x ;∑8i =1x i 2=356,∑8i =1x i y i =241. 答案 (1)略 (2) y ^=4968x -1134 (3)17天解析 (1)散点图如图所示:(2)依题意,得x =18×(2+3+4+5+6+8+9+11)=6,y =18×(1+2+3+3+4+5+6+8)=4, 又∑8i =1x i 2=356,∑8i =1x i y i =241,所以b ^=∑8i =1x i y i -8x ·y ∑8i =1x i 2-8x 2=241-8×6×4356-8×62=4968,a ^=4-4968×6=-1134, 故线性回归方程为y ^=4968x -1134.(3)由(2)知,当x =24时,y ^=4968×24-1134≈17,故若该商店一次性进货24吨,则预计需要销售17天.。
2023年高考数学复习----回归分析规律方法与典型例题讲解【规律方法】线性回归分析的原理、方法和步骤:(1)利用图表和数字特征可以对数据做简单的分析,但是用回归直线方程可以对数据的未来值进行预测.在选取数据观察的时候,要注意大量相对稳定的数据比不稳定的数据更有价值,近期的数据比过去久远的数据更有价值.(2)判断两组数据是否具有线性相关关系的方法:散点图,相关系数.(3)相关指数2R与相关系数r在含有一个解释变量的线性回归模型中是等价的量()22=,都是用来判断线性回归模型拟合效果好不好的量.R r(4)利用换元法,可以将一元非线性回归转化为线性回归.【典型例题】例1.(2022春·河南·高三信阳高中校联考期末)随着电池充电技术的逐渐成熟,以锂电池为动力的新一代无绳类电动工具以其轻巧便携、工作效率高、环保、可适应多种应用场景下的工作等优势,被广泛使用.在消费者便携无绳化需求与技术发展的双重驱动下,锂电类无绳电动工具及配套充电器市场有望持续扩大.某公司为适应市场并增强市场竞争力,逐年增加研发人员,使得整体研发创新能力持续提升,现对2017~2021年的研发人数作了相关统计,如下图:2017~2021年公司的研发人数情况(年份代码1~5分别对应2017~2021年)(1)根据条形统计图中数据,计算该公司研发人数y 与年份代码x 的相关系数r ,并由此判断其相关性的强弱;(2)试求出y 关于x 的线性回归方程,并预测2023年该公司的研发人数.(结果取整数) 参考数据:()52155960i i y y=−=∑37.4≈.参考公式:相关系数()()niix x y y r −−=∑.线性回归方程的斜率()()()121ˆniii nii x x y y bx x ==−−=−∑∑,截距ˆˆa y bx =−.附:【解析】(1)由条形统计图,得()11234535x =⨯++++=,2042202983964823205y ++++==,所以()()()()()()5222222123451i i x xx x x x x x x x x x =−=−+−+−+−+−∑()()()()()222221323334353=−+−+−+−+− 10=,()()()()()()()51211611000221762162732iii x x y y =−−=−⨯−+−⨯−+⨯−+⨯+⨯=∑.所以()()57320.982374iix x y y r −−===≈≈⨯∑.因为相关系数0.980.75r ≈>,所以y 与x 具有很强的线性相关关系,且为正相关.(2)()()()2515173273.ˆ210iiii i x x y y bx x ==−−===−∑∑, 所以320ˆˆ73.23100.4ay bx =−=−⨯=, 所以73ˆˆˆ.2100.4ybx a x =+=+. 由题意知,2023年对应的年份代码7x =, 当7x =时,73.ˆˆ27100.4612.8ˆybx a =+=⨯+=, 故预测2023年该公司的研发人数约为613人.例2.(2022春·广东·高三校联考阶段练习)红铃虫是棉花的主要害虫之一,能对农作物造成严重伤害,每只红铃虫的平均产卵数y 和平均温度x 有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.(1)根据散点图判断,y bx a =+与e dxy c =(其中e 2.718=为自然对数的底数)哪一个更适宜作为平均产卵数y 关于平均温度x 的回归方程类型?(给出判断即可,不必说明理由)并由判断结果及表中数据,求出y 关于x 的回归方程,(计算结果精确到0.01) (2)根据以往统计,该地每年平均温度达到28℃以上时红铃虫会造成严重伤害,需要人工防治,其他情况均不需要人工防治,假设该地每年平均温度达到28℃以上的概率为13.该地今后4年中至少有两年需要人工防治的概率.附:回归方程()1122211()()ˆˆˆˆˆˆˆ,,====−−−=+===−−−∑∑∑∑n niii ii i nniii i x x y y x y nxyybx a b ay bx x x xnx . 【解析】(1)由散点图可以判断,e dxy c =适宜作为卵数y 关于温度x 的回归方程类型.对e dxy c =两边取自然对数,得ln ln y c dx =+,令ln ,ln ˆˆˆ,z y a c b d ===,则ˆˆˆz bxa =+, 由数据得21232527293133277x ++++++==,71736.6i ii x zxz =−=∑,()77222117112i i i i x x x x ==−=−=∑∑,所以717221736.6ˆ0.331127i i i i i x z xzbxx ==−==≈−∑∑, 3.60.3327 5.31ˆˆaz bx =−=−⨯=−, 所以z 关于x 的线性回归方程为ˆ0.33 5.31zx =−, 则y 关于x 的回归方程为0.33 5.31ˆe x y−=; (2)若今后4年中有X 年需要人工防治,且服从1(4,)3X,所以,今后4年中至少有两年需要人工防治的概率431421233111C 3338127P ⎛⎫⎛⎫⎛⎫=−−⋅== ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭. 例3..(2022·全国·模拟预测)住房和城乡建设部等六部门发布通知提出,到2025年,农村生活垃圾无害化处理水平明显提升.我国生活垃圾主要有填埋、焚烧与堆肥三种处理方式,随着我国垃圾处理结构的不断优化调整,焚烧处理逐渐成为市场主流.根据国家统计局公布的数据,对2013—2020年全国生活垃圾焚烧无害化处理厂的个数y (单位:座)进行统计,得到如下表格:(1)由表中数据可知,可用线性回归模型拟合y 与x 之间的关系,请用相关系数加以说明;(精确到0.01)(2)求出y 关于x 的线性回归方程,并预测2022年全国生活垃圾焚烧无害化处理厂的个数;(3)对于2035年全国生活垃圾焚烧无害化处理厂的个数,还能用所求的线性回归方程预测吗?请简要说明理由.参考公式:相关系数()()niix x y y r −−=∑y bx a =+$$$中斜率和截距的最小二乘估计公式分别为()()()121nii i nii xx y yb xx==−−=−∑∑,a y bx =−$$.参考数据:812292i i y ==∑,821204ii x ==∑,821730348ii y ==∑,8112041i i i x y ==∑,2573328329=,10.2585.84≈.【解析】(1)由题意,12345678982x +++++++==,229257382y ==,相关系数()()8iix x y y r −−==∑88−∑i ix y x y9573120418−⨯⨯==17270.9820.585.84≈≈⨯,因为y 与x 的相关系数0.98r ≈,接近于1,所以y 与x 的线性相关程度相当高,可用线性回归模型拟合y 与x 之间的关系; (2)由题意,()()()8811882221188iii ii i iii i x x y y x y x yb x x xx====−−−===−−∑∑∑∑957312041817272241.12814220484−⨯⨯=≈−⨯, 573941.12101.4622a y bx =−≈−⨯=, 所以y 关于x 的线性回归方程为41.12101.46y x =+, 易知2022年对应的年份代码10x =,当10x =时,41.1210101.46512.66513y =⨯+=≈,所以预测2022年全国生活垃圾焚烧无害化处理厂的个数为513;(3)对于2035年全国生活垃圾焚烧无害化处理厂的个数,不能用所求线性回归方程预测, 理由如下(说出一点即可):①线性回归方程具有时效性,不能预测较远情况;②全国生活垃圾焚烧无害化处理厂的个数有可能达到上限,一段时间内不再新建; ③受国家政策的影响,可能产生新的生活垃圾无害化处理方式.。
作业9.2线性回归分析与统计案例一、单项选择题1.甲、乙、丙、丁四位同学各自对A ,B 两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m ,如下表:则哪位同学的试验结果体现A ,B 两变量有更强的线性相关性()A .甲B .乙C .丙D .丁2.某工厂某产品产量x(千件)与单位成本y(元)满足回归直线方程y ^=77.36-1.82x ,则以下说法中正确的是()A .当产量为1千件时,单位成本为75.54元B .当产量为2千件时,单位成本为73.72元C .产量每增加1000件,单位成本约下降1.82元D .产量每减少1000件,单位成本约下降1.82元3.(2021·郑州质检)某研究机构对儿童记忆能力x 和识图能力y 进行统计分析,得到如下数据:由表中数据,求得线性回归方程为y ^=45x +a ^.若某儿童的记忆能力为12,则他的识图能力约为()A .9.2B .9.5C .9.8D .104.(2021·济宁邹城市模拟)2020年初,新型冠状病毒(COVID -19)引起的肺炎疫情暴发以来,各地医疗机构采取了各种针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如下表所示:可得y 关于x 的二次回归方程为y ^=6x 2+a ,则此回归模型第4周的残差(实际值与预报值之差)为()A .5B .4C .1D .05.(2021·长春质检)某学校为了采取治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:则认为“是否同意限定区域停车与家长的性别有关”的把握约为()A .0.1%B .0.5%C .99.5%D .99.9%附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d.6.(2021·衡水中学模拟)某公司某型号无人机以其小巧轻便、高效机动、影像清晰、智能化、用途广等突出特点,得到广大用户的青睐,该型号无人机近5年销售量数据统计如下表所示.根据表中的数据用最小二乘法求得y 关于x 的线性回归方程为y ^=6.5x +t ,则可以预测2022年该型号无人机的销量大约为()A .50万件B .54.5万件C .55万件D .58万件7.(2021·运城市高三模拟)根据散点图,对两个具有非线性关系的相关变量x ,y 进行回归分析,设u =lny ,v =(x -4)2,利用最小二乘法,得到线性回归方程为u ^=-0.5v +2,则变量y 的最大值的估计值是()A .eB .e 2C .ln2D .2ln28.(2021·保定市易县中学高三模拟)下图是某市2014年到2020年贫困户的户数y(单位:万户)与时间t 的条形图(时间t 的取值1,2,…,7依次对应2014年至2020年).若y 关于t 的线性回归方程为y ^=-0.5t +a ,则a =()A .2.2B .4.2C .6.2D .6.4二、多项选择题9.(2021·山东泰安二中等校联考)设某中学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n)用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中正确的是()A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该中学某个女生的身高增加1cm ,则其体重约增加0.85kgD .若该中学某个女生的身高为160cm ,则可断定其体重必为50.29kg10.(2021·合肥肥东县高三调研)某运动制衣品牌为了成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:厘米),图1为选取的15名志愿者身高与臂展的折线图,图2为身高与臂展所对应的散点图,并求得其回归方程为y ^=1.16x -30.75,以下结论中正确的是()A .15名志愿者身高的极差小于臂展的极差B .15名志愿者身高和臂展成正相关关系C .可估计身高为190厘米的人臂展大约为189.65厘米D .身高相差10厘米的两人臂展都相差11.6厘米三、填空题与解答题11.已知具有相关关系的两个变量x ,y 的一组观测数据如下表所示,若据此利用最小二乘法得到回归方程y ^=0.7x +0.35,则m =________.12.(2021·江苏省马坝高中高二期中)为了判断高中二年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K 2≥3.841)≈0.05,P(K 2≥5.024)≈0.025.则认为是否选修文科与性别有关系出错的可能性为________.13.(2021·山东德州期末)某研究性学习小组研究学生玩手机对学习的影响,部分统计数据如下表:经计算K 2的值,则有________%的把握认为玩手机对学习有影响.附:14.用指数模型y =c·e kx 去拟合一组数据时,为了求出回归方程,设z =lny ,变换后得到线性回归直线方程z =0.3x +4,则常数c 的值为________,k 的值为________.15.(2021·重庆市高三二诊)近几年来,热饮越来越受到年轻人的欢迎.一个研究性学习小组为了研究气温对热饮销售的影响,统计了学校门口一个热饮店在2019年1月份某6天白天的平均气温和热饮销售量,得到以下数据:(1)求销售量y 关于气温x 的回归直线方程,若某天白天的平均气温为16℃,估计当天的热饮销售量;(2)根据表格中的数据计算R 2(精确到0.001),由此解释平均气温对销售量变化的影响.16.已知由样本数据点集合{(x i ,y i )|i =1,2,…,n},求得的回归直线方程为y ^=1.5x +0.5,且x -=3,现发现两个数据点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的回归直线l 的斜率为1.2,则()A .变量x 与y 具有负相关关系B .去除后的回归方程为y ^=1.2x +1.4C .去除后y 的估计值增加速度变快D .去除后相应于样本点(2,3.75)的残差为0.0517.(2021·辽宁大连市高三第三次模拟)盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开才会知道自己买到了什么,因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某款盲盒内可能装有某一套玩偶的A ,B ,C 三种样式,且每个盲盒只装一个.(1)若每个盲盒装有A ,B ,C 三种样式玩偶的概率相同.某同学已经有了A 样式的玩偶,若他再购买两个这款盲盒,恰好能收集齐这三种样式的概率是多少?(2)某销售网点为调查该款盲盒的受欢迎程度,随机发放了200份问卷,并全部收回.经统计,有30%的人购买了该款盲盒,在这些购买者当中,女生占23;而在未购买者当中,男生女生各占50%.请根据以上信息填写下表,并分析是否有95%的把握认为“购买该款盲盒与性别有关”?(3)该销售网点已经售卖该款盲盒6周,并记录了销售情况,如下表:由于电脑故障,第2周数据现已丢失,该销售网点负责人决定用第4,5,6周的数据求线性回归方程,再用第1,3周的数据进行检验.①请用第4,5,6周的数据求出y 关于x 的线性回归方程y ^=b ^x +a ^;②若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2盒,则认为得到的线性回归方程是可靠的,试问①中所得的线性回归方程是否可靠?女生男生总计购买未购买总计作业9.2线性回归分析与统计案例参考答案1.答案D 解析|r|越大,m 越小,线性相关性越强.故选D.2.答案C 解析令f(x)=77.36-1.82x ,因为f(x +1)-f(x)=77.36-1.82(x +1)-77.36+1.82x =-1.82,所以产量每增加1000件,单位成本约下降1.82元.故选C.3.答案B解析由表中数据得x -=7,y -=5.5,由点(x -,y -)在直线y ^=45x +a ^上,得a ^=-110,即线性回归方程为y ^=45x -110.所以当x =12时,y ^=45×12-110=9.5,即他的识图能力约为9.5.故选B.4.答案A解析设t =x 2,则t -=15(1+4+9+16+25)=11,y -=15(2+17+36+93+142)=58,a =58-6×11=-8.所以y ^=6x 2-8.令x =4,得e ^4=y 4-y ^4=93-6×42+8=5.故选A.5.答案C解析因为K 2的观测值k =50×(20×15-5×10)225×25×30×20≈8.333>7.879,所以约有99.5%的把握认为“是否同意限定区域停车与家长的性别有关”.6.答案B 解析x -=0+1+2+3+45=2,y =10+15+20+30+355=22.又因为直线y ^=6.5x +t 过点(2,22),故6.5×2+t =22,解得t =9.故预测2022年该型号无人机的销量大约为y ^=6.5×7+9=54.5(万件).故选B.7.答案B解析将u =lny ,v =(x -4)2代入线性回归方程u ^=-0.5v +2得:lny =-0.5(x -4)2+2,即y =e -0.5(x -4)2+2,当x =4时,-0.5(x -4)2+2取到最大值2,因为y =e x 在R 上单调递增,所以当x =4时,y =e -0.5(x -4)2+2取到最大值e 2.故选B.8.答案C解析本题考查线性回归方程.依题意,得t -=1+2+…+77=4,y -=5.6+5.2+4.8+4.4+3.4+3.3+2.77=4.2,所以4.2=-0.5×4+a ,所以a =6.2.故选C.9.答案ABC解析本题考查线性回归方程的理解和应用.由最小二乘法建立的回归方程可知,回归直线y ^=0.85x -85.71一定过样本点的中心(x -,y -),因此B 正确;由x 的系数0.85>0可知变量y 与x 具有正的线性相关关系,因此A 正确;由x 的系数为0.85可知,若某个女生的身高增加1cm ,则其体重约增加0.85kg ,因此C 正确;当某个女生的身高为160cm 时,体重约为50.29kg ,不是一定为50.29kg ,因此D 不正确.故选ABC.10.答案ABC解析身高极差大约为18,臂展极差大约为23,故A 正确;很明显根据散点图象以及回归直线得到,身高矮臂展就会短一些,身高高臂展就长一些,故B 正确;身高为190厘米,代入回归方程可得到臂展估计值等于189.65厘米,但是不是准确值,故C 正确;身高相差10厘米的两人臂展的估计值相差11.6厘米,但并不是准确值,回归方程上的点并不都是准确的样本点,故D 不正确.故选ABC.11.答案3解析x -=3+4+5+64=4.5,y -=2.5+m +4+4.54=11+m4,所以样本点的中心为因为回归方程为y ^=0.7x +0.35,样本点的中心在回归直线上,所以11+m 4=0.7×4.5+0.35,解得m =3.12.答案5%解析根据表中的数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844,因为4.844>3.841,所以认为是否选修文科与性别有关系出错的可能性为5%.13.答案99.5解析本题考查独立性检验的应用.由表中数据,计算K 2的观测值k =30×(4×2-8×16)212×18×20×10=10,且10>7.879,则有99.5%的把握认为玩手机对学习有影响.14.答案e 40.3解析因为y =c·e kx ,所以两边取对数,可得lny =ln(c·e kx )=lnc +kx ,由z =lny ,可得z =lnc +kx ,又z=0.3x +4,∴lnc =4,c =e 4,k =0.3.15.答案(1)y ^=-3x +150102杯(2)R 2≈0.967,平均气温解释了96.7%的销售量变化(或销售量变化有96.7%是由平均气温引起的)解析(1)由题知,x -=5,y -=135,从而x -20361013y 161146138133120112x i -x --7-5-2158y i -y-26113-2-15-23∑6i =1(x i -x -)(y i -y -)=(-7)×26+(-5)×11+(-2)×3+1×(-2)+5×(-15)+8×(-23)=-504,∑6i =1(x i -x -)2=(-7)2+(-5)2+(-2)2+12+52+82=168,则b ^=∑6i =1(x i -x -)(y i -y -)∑6i =1(x i -x -)2=-504168=-3,a ^=y --b ^x -=135-(-3)×5=150.所以,销售量y 关于气温x 的回归直线方程为:y ^=-3x +150.当x =16时,y ^=-3×16+150=102.因此,某天白天的平均气温为16℃时,估计可以卖出102杯热饮.(2)x -20361013y 161146138133120112y ^156150141132120111y i -y^5-4-311∑6i =1(y i -y ^i )2=52+(-4)2+(-3)2+12+02+12=52,∑6i =1(y i -y -)2=262+112+32+(-2)2+(-15)2+(-23)2=1564.R 2=1-∑6i =1(y i -y ^i )2∑6i =1(y i -y -)2=1-521564≈0.967.所以,平均气温解释了96.7%的销售量变化(或销售量变化有96.7%是由平均气温引起的).16.答案B解析因为去除误差较大的两点后重新求得的回归直线l 的斜率为1.2,所以变量x 与y 具有正相关关系,故A 错误;当x -=3时,y -=3×1.5+0.5=5,故样本点的中心是(3,5),且去除数据点(1.2,2.2)和(4.8,7.8)后,样本点的中心还是(3,5),又∵去除数据点(1.2,2.2)和(4.8,7.8)后重新求得的回归直线l 的斜率为1.2,故5=3×1.2+a ,解得a =1.4,即回归直线方程为y ^=1.2x +1.4,故B 正确;因为1.5>1.2,所以去除后y 的估计值增加速度变慢,故C 错误;因为y ^=1.2×2+1.4=3.8,所以y -y ^=3.75-3.8=-0.05,故D 错误.17.答案(1)29(2)填表见解析,有95%的把握认为“购买该款盲盒与性别有关”(3)①y ^=2.5x +14.5②可靠解析(1)由题意,基本事件空间为Ω={(A ,A),(A ,B),(A ,C),(B ,A),(B ,B),(B ,C),(C ,A),(C ,B),(C ,C)},其中基本事件的个数为9个,设事件D 为:“他恰好能收集齐这三种样式”,则D ={(B ,C),(C ,B)},其中基本事件的个数为2,所以他恰好能收集齐这三种样式的概率为P(D)=29.(2)补充2×2列联表如下:女生男生总计购买402060未购买7070140总计11090200则K 2=200×(40×70-20×70)260×140×110×90≈4.714.又因为4.714>3.841,故有95%的把握认为“购买该款盲盒与性别有关”.(3)①由数据,求得x -=5,y -=27.由公式求得b ^=(4-5)(25-27)+(5-5)(26-27)+(6-5)(30-27)(4-5)2+(5-5)2+(6-5)2=52,a ^=27-52×5=14.5,所以y 关于x 的线性回归方程为y ^=2.5x +14.5.②当x =1时,y ^=2.5×1+14.5=17,|17-16|<2;当x =3时,y ^=2.5×3+14.5=22,|22-23|<2.所以,①中所得到的线性回归方程是可靠的.。