8选择回归模型 拔高难度 讲义
- 格式:doc
- 大小:47.01 KB
- 文档页数:7
选择回归模型知识讲解回归分析1、回归分析的侧重点应先求回归直线方程,并进行相应的估计预测,但这类的题数据的处理与计算量可能很大,学习中应谨慎把握. 对于独立性检验问题,应以K²的计算与临界值的比较来判断分类变量的相关与无关为主.2、线性回归分析是统计中的一个重要内容,随着新课标的实施和新课程高考改革的不断深入,这部分的内容也将回越来越受到重视. 非线性回归问题有时并不给出经验公式,这时候我们可以画出已知数据的散点图,把它与必修模块数学1中学过的各种函数(幂函数、指数函数、对数函数、二次函数等)图象比较,挑选一种跟这些点拟合最好成的函数,然后采取适当的置换,把问题化为线性回归问题,使其得到解决。
3、回归直线方程求解需要复杂的运算,随着新课程标准的继续实施和新课程高考改革的不断深入,考查同学们数据处理能力,特别是运用计算器等现代技术工具对进行数据处理的能力,将是改革的方向之一. 有关理论要求同学们理解,但公式也不需要死记硬背.典例精讲一.选择题(共12小题)1.(2017秋•齐齐哈尔期末)中国共产党第十九次全国代表大会于2017年10月18日至10月24日在北京召开,为了响应十九大提出的全面建成小康社会的号召,文化街道办事处调查本社区居民的家庭收入与年支出的关系,现随机调查了该社区5户家庭,得到如下统计数据: 收入x (万元) 8.2 8.6 10.0 11.3 11.9 支出y (万元)6.27.58.08.59.8根表得回归直线方程y ∧=b ∧x +a ∧,其中b ∧=0.76,a ∧=y ﹣b ∧x ,据此估计,该社区一户年收入为15万元的家庭的年支出约为( ) A .11.4万元 B .11.8万元 C .12.0万元 D .12.2万元2.(2017秋•成都期末)在2017年3月15日,某物价部门对本市5家商场某商品一天的销售额及其价格进行调查,5商场的价格x 与销售额y 之间的一组数据如表所示: 价格x (单位:元) 8 9.5 10 10.5 12销售额y (单位:千元)12 10 8 6 4由散点可知,销售额y 与价格x 之间有较好的线性相关关系,且回归直线方程是y ^=﹣3.2x +a ^,则a ^=( ) A .﹣24 B .35.6 C .40 D .40.53.(2017秋•钦州期末)某钢铁研究所经研究得到结论,废品率x%和每吨生铁成本y (元)之间的回归直线方程为y ^=256+2x ,这表明( ) A .废品率每吨增加1%,生铁成本增加258元B.废品率每吨增加1%,生铁成本增加2元C.废品率每吨增加1%,生铁成本每吨增加2元D.废品率不变,生铁成本为256元4.(2018春•蚌埠期末)某企业里工人的工资与其生产利润满足线性相关羬经,现统计了100名工人的工资y(元)与其生产利润x(千元)的数据,建立了y关于x的回归直线方程y^=80x+50,则下列说法正确的是()A.工人甲的生产利润为1000元,则甲的工资为130元B.生产利润提高1000元,则预计工资约提高80元C.生产利润提高1000元,则预计工资约提高130元D.工人乙的工资为210元,则乙的生产利润为2000元5.(2018春•临沂期末)已知x,y取值如表:x014568y 1.3 1.8 5.6 6.17.49.3从所得的散点图分析可知:y与x线性相关,且y^=1.03x+a^,则a^=()A.1.53B.1.33C.1.23D.1.136.(2018春•泉州期末)如表给出的是变量x,y的一组观测数据(x i,y i)(i=1,2,3,4,5),则由这组数据求得的变量x、y的回归直线必过点()x23456y 2.8 3.9 5.2 6.07.1 A.(4,5)B.(5,4)C.(4,6)D.(6,4)7.(2018春•河南期末)电脑芯片的生产工艺复杂,在某次生产试验中,得到6组数据(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5),(x6,y6).根据收集到的数据可知x=10,由最小二乘法求得回归直线方程为y^=1.3x+5.2,则y1+y2+y3+y4+y5+y6=()A.50.5B.45.5C.100.2D.109.28.(2017秋•平罗县校级期末)有下列数据:x123y3 5.9912.01下列四个函数中,模拟效果最好的为()A.y=log2x B.y=3x C.y=x2D.y=3×2x﹣19.(2018春•龙华区校级期中)已知x,y的取值如表,从散点图可以看出y与x 线性相关,且回归方程为y^=0.95x+2.6,则表中的实数a的值为()x0134y 2.5 4.3a 6.7A.4.8B.5.45C.4.5D.5.2510.(2018春•武威期末)设有一个回归方程y=3﹣2x,则变量x增加一个单位时()A.y平均增加2个单位B.y平均增加3个单位C.y平均减少2个单位D.y平均减少3个单位11.(2018春•潍坊期中)如表提供了某厂节能降耗技术改造后生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对应数据.x3456y 2.4t 3.8 4.6根据如表提供的数据,求出y关于x的线性回归方程为y^=0.7x+0.35,那么表中t 的值为()A.3.2B.3.3C.3.5D.4.512.(2018春•三明期中)下列关于回归分析的说法中错误的有()个(1)回归直线一定过样本中心(x,y)(2)残差图中残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适(3)两个模型中残差平方和越小的模型拟合的效果越好(4)甲、乙两个模型的R2分别约为0.98和0.80,则模型乙的拟合效果更好A.2B.3C.0D.1二.填空题(共7小题)13.(2018春•洛阳期末)已知具有线性相关关系的两个变量x,y的一组数据如表:x x1x2…x ny y1y2…y n根据最小二乘法得到回归直线方程是y^=2x+1,若x=﹣1,则y=.14.(2018春•天津期末)设一个回归方程为y=0.4x﹣1.8,则当x=25时,y的估计值是.15.(2018春•武功县期中)图书馆工作人员想知道每天到图书馆的人数x (百人)与借出的图书本数y (百本)之间的关系,已知上个月图书馆共开放25天,且得到资料:∑x i =200,∑y i =300,∑x i 2=1660,∑yi 2=3696,∑x i y i =2436,则y对x 的回归直线方程为16.(2017秋•腾冲市校级期末)春节期间,某销售公司每天销售某种取暖商品的销售额y (单位:万元)与当天的平均气温x (单位:℃)有关.现收集了春节期间这个销售公司4天的x 与y 的数据列于下表: 平均气温(℃) ﹣2 ﹣3 ﹣5 ﹣6 销售额(万元) 20232730根据以上数据,用线性回归的方法,求得y 与x 之间的线性回归方程y ^=b ^x +a ^的系数b ^=﹣125,则a ^= .17.(2018春•兴庆区校级期中)已知变量x ,y 取值如表:x 0 1 4 5 6 8 y1.31.85.66.17.49.3若y 与x 之间是线性相关关系,且y ^=0.95x +a ,则实数a= .18.(2011•江苏模拟)某单位为了了解发芽数y 度与温差x 0C 之间的关系,随机统计了某5天的发芽数y 度与当天气温差,并制作了对照表:请根据12月2日至12月4日的数据,写出y 关于x 的线性回归方程 .19.(2008秋•连云港期末)由一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )得到的回归直线方程为y =b x +a ,若已知回归直线的斜率是1.05,且x =4,y =5,则此回归直线方程是 .三.解答题(共4小题)20.(2017秋•上期末)某淘宝商城在2017年前7个月的销售额y (单位:万元)的数据如表,已知y 与t 具有较好的线性关系. 月份t 1 2 3 4 5 6 7 销售额y5866728896104118(1)求y 关于t 的线性回归方程;(2)分析该淘宝商城2017年前7个月的销售额的变化情况,并预测该商城8月份的销售额.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑ni=1(t i −t)(y i −y)∑n i=1(t i −t)2,a ^=y −b ^t .21.(2017秋•张家口期末)某理科教师为了了解学生的物理成绩与数学成绩之间的关系,随机抽取5位同学,这5位同学的数学、物理成绩对应如表: 学生编号 1 2 3 4 5 数学分数x 60 70 80 90 100 物理分数y5563677580(Ⅰ)求y 关于x 的线性回归方程y ^=bx +a ^;(Ⅱ)用所求回归方程预测数学成绩为75分的学生的物理分数.参考公式:y ^=b ^x +a ^,其中b ^=∑n i=1x i y i −nxy ∑i=1x i −nx2,a ^=y ﹣b ^x .22.(2018春•潮州期末)某种产品的广告费用支出x (万元)与销售y (万元)之间有如下的对应数据:x 2 4 5 6 8 y3040605070若由资料可知y 对x 呈线性相关关系,试求:(1)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)据此估计广告费用支出为10万元时销售收入y 的值.(参考公式:b ^=∑ni=1(x i −x)(y i −y)∑n i=1(x i −x)2=∑n i=1x i y i −nxy ∑i=1x i 2−nx 2,a ^=y −b ^x .)23.(2018春•郑州期末)某商场经营某种商品,在某周内获纯利y (元)与该周每天销售这种商品数x 之间的一组数据关系如表: x 3 4 5 6 7 8 9 y56596371798082( I )画出散点图;( II )求纯利y 与每天销售件数x 之间的回归直线方程;(III )估计当每天销售的件数为12件时,每周内获得的纯利为多少? 附注:∑7i=1xi 2=280,∑7i=1(x i −x )2=27,∑7i=1x i y i =3076,∑7i=1yi 2=34992,b=∑n i=1(x i −x)(y i −y)∑n i=1(x i −x)=∑ni=1x i y i −nxy ∑i=1x i −nx 2,a ^=y −bx .。
回归分析知识讲解1.正相关:如果点散布在从左下角到右上角的区域,则称这两个变量的关系为正相关。
2.负相关:如果点散布在从左上角到右下角的区域,则称这两个变量的关系为负相关。
3.回归直线方程的斜率和截距公式:⎪⎪⎩⎪⎪⎨⎧-=--=---=∑∑∑∑====xb y a xn x yx n yx x x y y x xb ni i ni ii ni i i ni i1221121)()()((此公式不要求记忆)。
4.最小二乘法:求回归直线,使得样本数据的点到它的距离的平方最小的方法。
5.随机误差e :我们把线性回归模型e a bx y ++=,其中b a ,为模型的未知参数,e 称为随机误差。
随机误差a bx y e i i i --=6.残差eˆ:我们用回归方程a x b y ˆˆˆ+=中的y ˆ估计a bx +,随机误差)(a bx y e +-=,所以y y e ˆˆ-=是e 的估计量,故a x b y y y e ii i i i ˆˆˆˆ--=-=,e ˆ称为相应于点),(i i y x 的残差。
7.解释变量对于预报变量的贡献率2R :∑∑==---=ni ini iy yyy R 12122)()ˆ(1,2R 的表达式中21)(∑=-ni i y y 为确定的数,故2R 越大,残差平方和21)ˆ(∑=-ni i yy 越小,即模型的拟合效果越好;2R 越小,残差平方和21)ˆ(∑=-ni i yy 越大,即模型的拟合效果越差。
2R 越接近1,表示回归效果越好。
典例精讲一.选择题(共7小题)1.(2018春•兴庆区校级期中)下列关于残差图的叙述错误的是()A.通过残差图可以发现原始数据中的可疑数据,判断所建模型的拟合效果B.残差图的纵坐标只能是残差,横坐标可以是编号,解释变量,也可以是预报变量C.残差点分布的带状区域的宽度越窄,模型拟合精度越高,预报精度越高D.残差点分布的带状区域的宽度越窄,残差平方和越小,相关指数R2越小【分析】根据残差的定义与性质,对选项中的命题进行分析、判断正误即可.【解答】解:对于A,通过残差图可以发现原始数据中的可疑数据,判断所建模型的拟合效果,正确;对于B,残差图的纵坐标只能是残差,横坐标可以是编号,解释变量,也可以是预报变量,正确;对于C,残差点分布的带状区域的宽度越窄,模型拟合精度越高,预报精度也越高,正确;对于D,残差点分布的带状区域的宽度越窄,残差平方和越小,相关指数R2越大,D错误.故选:D.2.(2018春•三明期中)下列关于回归分析的说法中错误的有()个(1)残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高.(2)回归直线一定过样本中心(x,y).(3)两个模型中残差平方和越小的模型拟合的效果越好.(4)甲、乙两个模型的R2分别约为0.88和0.80,则模型乙的拟合效果更好.A.4B.3C.2D.1【分析】根据“线性回归方程一定过样本中心点,在一组模型中残差平方和越小,拟合效果越好,相关指数表示拟合效果的好坏,指数越小,相关性越强“,对选项中的命题判断真假即可.【解答】解:对于(1),残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高,∴(1)错误;对于(2),回归直线一定过样本中心(x,y),正确;对于(3),两个模型中残差平方和越小的模型拟合的效果越好,正确;对于(4),甲、乙两个模型的R2分别约为0.88和0.80,则模型甲的拟合效果更好,∴(4)错误;综上,错误的命题是(1)、(4)共2个.故选:C.3.(2016春•滕州市期末)已知两个变量有比较好的线性相关关系,可以用回归直线来近似刻画它们之间的关系,关于回归直线的方程,有下述结论:①回归方程只适用于我们所研究的样本的总体;②建立的回归方程一般都有时间性;③样本取值的范围会影响回归方程的适用范围.其中正确结论的个数为()A.0B.1C.2D.3【分析】根据回归方程的意义,对题目中的命题进行分析、判断即可.【解答】解:对于①,回归方程只适用于我们所研究的样本的总体,不适用于一切样本和总体,命题正确;对于②,回归方程一般都有时间性,例如不能用20世纪80年代的身高、体重数据所建立的回归方程,描述现在的身高和体重的关系,命题正确;对于③,样本取值的范围会影响回归方程的适用范围;例如回归方程是由大人身高、体重数据所建立的,不能用它来描述幼儿时期的身高与体重的关系,命题正确;综上,正确命题的个数为3.故选:D.4.(2014春•东莞期末)有一散点图如图所示,在5个(x,y)数据中去掉D(3,10)后,下列说法正确的是()A.残差平方和变小B.相关系数r变小C.相关指数R2变小D.解释变量x与预报变量y的相关性变弱【分析】利用散点图分析数据,判断相关系数,相关指数,残差的平方和,的变化情况.【解答】解:∵从散点图可分析得出:只有D点偏离直线远,去掉D点,变量x与变量y的线性相关性变强,∴相关系数变大,相关指数变大,残差的平方和变小,故选:A.5.(2011春•兴宁市校级期中)下列叙述中:①变量间关系有函数关系,还有相关关系;②回归函数即用函数关系近似地描述相关关系;③∑n i=1x i=x1+x2+⋯+x n;④线性回归方程一定可以近似地表示所有相关关系.其中正确的有()A.①②③B.①②④C.①③D.③④【分析】①函数关系是两个变量之间有完全确定的关系,当自变量给定,函数值确定而相关关系是两个变量之间并没有严格的确定关系,当一个变量变化时,另一变量的取值有一定的随机性;②回归函数即用函数关系近似地描述相关关系,正确;③表示求和符号,正确;④线性回归方程不一定可以近似地表示所有相关关系,只有其具有意义时才表示.【解答】解:①变量间关系有函数关系,还有相关关系.函数关系是一个确定性的关系,而相关关系是一个不确定性的关系.故①正确;②回归函数即用函数关系近似地描述相关关系,正确;③表示求和符号,正确;④线性回归方程不一定可以近似地表示所有相关关系,只有其具有意义时才表示. 故选:A .6.(2011•上饶二模)下列命题中,正确的命题有( ) (1)y=1是幂函数;(2)用相关指数R 2来刻画回归效果,R 2越接近0,说明模型的拟合效果越好; (3)将一组数据中的每个数据都加上或减去一个常数后,方差恒不变;(4)设随机变量ξ服从正态分布N (0,1),若P (ξ>1)=p ,则P(−1<ξ<0)=12−p ;(5)回归直线一定过样本中心(x ,y). A .2个B .3个C .4个D .5个【分析】(1)显然错误;(2)相关指数R 2用来衡量两个变量之间线性关系的强弱R 2越接近于1,说明相关性越强,相反,相关性越小,命题可做判断;(3)利用将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变,故正确.(4)利用正态分布N (0,1)的密度函数的图象,由图象的对称性可得结果.(5)本命题考查回归直线方程,回归直线一定过样本中心(x ,y) 【解答】解:(1)显然错误;(2)相关指数R 2用来衡量两个变量之间线性关系的强弱R 2越接近于1,说明相关性越强,相反,相关性越小,因此此命题不正确;(3)利用将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变,故正确;(4)由图象的对称性可得,若P (ξ>1)=p ,则P (ξ<﹣1)=p ,∴则P (﹣1<ξ<1)=1﹣2p ,P (﹣1<ξ<0)=12−p ,故正确;(5)由最小二乘法可知:a =y −bx 因此回归直线一定过样本中心(x ,y),命题正确; 故选:B .7.(2005•上海模拟)某地2004年第一季度应聘和招聘人数排行榜前5个行业的情况列表如下:行业名称计算机机械营销物流贸易应聘人数2158302002501546767457065280行业名称计算机营销机械建筑化工招聘人数124620102935891157651670436根据表中的数据,将各行业按就业形势由差到好排列,其中排列正确的是()A.计算机,营销,物流B.机械,计算机,化工C.营销,贸易,建筑D.机械,营销,建筑,化工【分析】由于用同一行业中应聘人数与招聘人数比值的大小来衡量该行业的就业情况,根据表格的数据可以分别求出所有行业的应聘人数与招聘人数比值,然后根据这些比值即可求解.【解答】解:依题意得化工行业的应聘人数小于招聘人数,物流的应聘人数小于招聘人数,且比值化工行业大于物流机械的应聘人数大于招聘人数,故选:B.二.填空题(共4小题)8.(2015秋•湖北期末)许多因素都会影响贫穷,教育也许是其中的一个,在研究这两个因素的关系时,收集了某国50个地区的成年人至多受过9年教育的百分比(x%)和收入低于官方规定的贫困线的人数占本地区人数的百分比(y%)的数据,建立的回归直线方程是y=0.8x+4.6,这里,斜率的估计0.8说明一个地区受过9年或更少的教育的百分比每增加1%,则收入低于官方规定的贫困线的人数占本地区人数的百分比将增加0.8%左右.【分析】回归直线方程y=0.8x+4.6中,回归系数是0.8,回归截距是4.6,根据相应的意义可求.【解答】解:回归直线方程y=0.8x+4.6中,回归系数是0.8,回归截距是4.6,斜率的估计0.8表示个地区受过9年或更少的教育的百分比每增加1%,则收入低于官方规定的贫困线的人数占本地区人数的百分比将增加0.8%左右.故答案为1%,0.8%9.(2011•南昌二模)下列说法:①从匀速传递的产品生产流水线上,质检员第10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样②某地气象局预报:5月9日本地降水概率为90%,结果这天没下雨,这表明天气预报并不科学③在回归分析模型中,残差平方和越小,说明模型的拟合效果越好④在回归直线方程y=0.1x+10中,当解释变量x每增加一个单位时,预报变量平均增加0.1个单位其中正确的是③④(填上你认为正确的序号)【分析】从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样系统抽样;在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;在回归直线方程y=0.1x+10中,当解释变量x每增加一个单位时,预报变量y平均增加0.1个单位;【解答】解:①从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样不是分层抽样,故①不正确,②5月9日本地降水概率为90%,只表明下雨的可能性是90%,故②不正确③在回归分析模型中,残差平方和越小,说明模型的拟合效果越好,故③正确,④在回归直线方程y=0.1x+10中,当解释变量x每增加一个单位时,预报变量y平均增加0.1个单位,故④正确,故答案为:③④10.(2009春•北京校级期末)许多因素都会影响贫穷,教育也许是其中之一,在研究这两个因素的关系时收集了美国50个州的成年人受过9年或更少教育的百分比(x )和收入低于官方规定的贫困线的人数占本州人数的百分比(y )的数据,建立的回归直线方程为y=0.8x+4.6,斜率的估计等于0.8说明一个地区受过9年或更少教育的百分比每增加1%,收入低于官方规定的贫困线的人数占本州人数的百分比将增加0.8%左右.【分析】根据线性回归方程中回归系数的意义,即可得出结论.【解答】解:线性回归方程中回归系数为正,从而可知:一个地区受过9年或更少教育的百分比每增加1%,收入低于官方规定的贫困线的人数占本州人数的百分比将增加0.8%左右.故答案为:一个地区受过9年或更少教育的百分比每增加1%,收入低于官方规定的贫困线的人数占本州人数的百分比将增加0.8%左右.11.(2011春•西安区校级月考)在对两个变量x,y进行线性回归分析时有以下步骤:(1)利用回归方程进行预测;(2)收集数据(x i,y i),i=1,2,…,n;(3)求线性回归方程;(4)根据所收集的数据绘制散件图.则正确的操作顺序是(2)、(4)、(3)、(1).【分析】大体步骤是这样的需要先收集数据(x i,y i),i=1,2,…,n,再根据所收集的数据绘制散件图,求线性回归方程.最后利用回归方程进行预测.【解答】解:在对两个变量x,y进行线性回归分析时有以下步骤:需要先收集数据(x i,y i),i=1,2,…,n,再根据所收集的数据绘制散件图,求线性回归方程.最后利用回归方程进行预测,故答案为:(2)(4)(3)(1).三.解答题(共8小题)12.(2018•衡阳一模)空气质量主要受污染物排放量及大气扩散等因素的影响,某市环保监测站2018年1月连续10天(从左到右对应1号至10号)采集该市某地平均风速及空气中污染物的日均浓度数据,制成散点图如图7所示,(1)同学甲从这10天中随机抽取连续5天的一组数据,计算回归直线方程试求连续5天天的一组数据中恰好同时包含污染物日均浓度最大与最小值的概率; (2)现有30名学生,每人任取5天数据,并已对应计算出30个不同的回归直线方程,且30组数据中包含污染物日均浓度最值的有15组,现采用这30个回归方程对某一天平均风速下的污染物日均浓度进行预测,若预测值与实测值差的绝对值小于2,则称之为“拟合效果好”,否则为“拟合效果不好”,学生通过检验已经获得了下列2×2列联表的部分信息,请你进一步补充完善2×2列联表,并分析是否有95%以上的把握认为拟合效果与选取数据是否包含污染物日均浓度最值有关预效果好拟合效果不好合计数据有包含最值 5数据无包含最值4合计参考数据 p (k 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828k 2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a +b +c +d )【分析】(1)利用列举法结合古典概型的概率公式进行计算即可.(2)根据公式K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),进行计算,结合独立性检验的性质进行判断即可.【解答】解:(1)记第i天监测数据为A i(i=1,2,…,10),由图象易知A4的日均浓度最大,A5的日均浓度最小.从这10天中随机抽取一组连续5天的数据包含的基本事件有:(A1,A2,A3,A4,A5),(A2,A3,A4,A5,A6),(A3,A4,A5,A6,A7),(A4,A5,A6,A7,A8),(A5,A6,A7,A8,A9),(A6,A7,A8,A9,A10),共6种…(3分)记事件A“数据中恰好同时包含氧化物日均浓度最大与最小值”包含的基本事件有:(A1,A2,A3,A4,A5),(A2,A3,A4,A5,A6),(A3,A4,A5,A6,A7),(A4,A5,A6,A7,A8),共4种.故连续5天的数据中恰好同时包含氧化物日均浓度最值的概率P(A)=23…(6分)(2)依题意,完成2×2联表如下所示.预测准确预测不准确合计数据有包含最值51015数据没有包含最值11415合计161430由公式K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),计算得K2=30(5×4−11×10)215×15×16×14≈4.821…(10分)由参考数据可知,4.821>3.841,故有95%以上的把握说拟合效果与选取数据是否包含氧化物日均浓度最值有关…(12分)13.(2018•葫芦岛一模)2021年,辽宁省将实施新高考,2018年暑期入学的高一学生是新高考首批考生,新高考不再分文理科,采用3+3模式,其中语文、数学、外语三科为必考科目,满分各150分,另外考生还要依据想考取的高校及专业的要求,结合自己的兴趣爱好等因素,在思想政治、历史、地理、物理、化学、生物6门科目中自选3门参加考试(6选3),每科目满分100分.为了应对新高考,某高中从高一年级1000名学生(其中男生550人,女生450人)中,采用分层抽样的方法从中抽取n名学生进行调查.(1)已知抽取的n名学生中含女生45人,求n的值及抽取到的男生人数;(2)学校计划在高一上学期开设选修中的“物理”和“地理”两个科目,为了了解学生对这两个科目的选课情况,对在(1)的条件下抽取到n名学生进行问卷调查(假定每名学生在这两个科目中必须选择一个科目且只能选择一个科目),下表是根据调查结果得到的2×2列联表:选择“物理”选择“地理”总计男生10女生25总计请将上面的列联表补充完整,并判断是否有99%的把握认为选择科目与性别有关?说明你的理由;(3)在抽取的选择“地理”的学生中按分层抽样再抽取6名,再从这6名学生中抽取2人了解学生对“历史”的选课意向情况,求2人中至少有1名男生的概率;参考公式:K2=n(n11n22−n12n21)2 n1+n2+n+1n+2P(K2≥k)0.050.01k 3.841 6.635【分析】(1)求出n的值,求出男生的人数即可;(2)求出列联表,求出x2的值,判断即可;(3)得到6名学生中有2名男生,4名女生,男生编号为1,2,女生编号为a,b,c,d,6名学生中再选抽2个,通过列举法求出满足条件的概率即可.【解答】解:(1)n=100,男生人数为55人…………(2分)(2)列联表为:选择“物理”选择“地理”总计男生451055女生252045总计7030100Χ2=n(n11n22−n12n21)2n1+n2+n+1n+2=100×(45×20−25×10)255×45×70×30≈8.1289>6.635所以有99%的把握认为选择科目与性别有关.…………………………(7分)(3)从30个选择地理的学生中分层抽样抽6名,所以这6名学生中有2名男生,4名女生,男生编号为1,2,女生编号为a,b,c,d,6名学生中再选抽2个,则所有可能的结果为Ω={ab,ac,ad,a1,a2,bc,bd,b1,b2,cd,c1,c2,d1,d2,12},至少一名男生的结果为{a1,a2,b1,b2,c1,c2,d1,d2,12},所以2人中至少一名男生的概率为P=915=35…………(12分)14.(2017春•钦南区校级月考)1950~1958年我国的人口数据资料:年份x195019511952195319541955195619571958人数Y/万人5519656 30057 4825879660266615662 82864 56365 994求y 关于x 的非线性回归方程.【分析】利用变换的方法,结合线性回归方程,求y 关于x 的非线性回归方程.【解答】解:根据收集数据,作散点图.根据已有函数知识,发现样本点分布在某一条指数函数周围,y=c 1e c2x(其中 c 1,c 2是待定参数).令z=ln y,则有y=e z,∴e z=e lnc1+c 2x.z=c 2x+ln c 1=bx+a,变换后:x 195019511952195319541955195619571958z=ln y10.9210.9410.9610.9811.0111.0311.0511.0811.09由散点图可知,x 与 z 线性相关,故采用一元线性回归模型,由表中数算得: x =1 954,L xz =1.23,z =11.01,L xx =60.∴b=1.2360≈0.021.a=z ﹣b x =﹣30.02. ∴z=a +bx=0.021 x ﹣30.02, 即ln y=0.021 x ﹣30.02. ∴y=e 0.021x ﹣30.02.因此,所求非线性回归方程为 y=e 0.021x ﹣30.02.15.(2017春•双流县校级月考)适逢暑假,小王在某小区调查了50户居民由于洪灾造成的经济损失,将收集的数据分成[0,2000],(2000,4000],(4000,6000],(6000,8000],(8000,10000]五组,并作出频率分布直方图(如图). (Ⅰ)小王向班级同学发出为该小区居民捐款的倡议.若先从损失超过6000元的居民中随机抽出2户进行捐款援助,求这2户不在同一分组的概率; (Ⅱ)洪灾过后小区居委会号召小区居民为洪灾重灾区捐款,小王调查的50户居民的捐款情况如表,在表格空白处填写正确的数字,并说明是否有95%以上的把握认为捐款数额多于或少于500元和自身经济损失是否到4000元有关?经济损失不超过4000元经济损失超过4000元 合计捐款超过500元 30 9 39 捐款不超过500元5 6 11 合计351550P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828参考公式:K 2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a +b +c +d 为样本容量).【分析】(Ⅰ)由频率直方图得到,损失不少于6000元的以及损失为6000~8000元的居民数,再由古典概型结合排列组合便可得出两户不在同一分组的概率; (Ⅱ)由频率直方图计算数据补全表格后,代入临界值公式算出K 2,与表格数据相对比,便可得到结论.【解答】解:(Ⅰ)由直方图知,损失不少于6000元的居民共(0.00003+0.00003)×2000×50=6户,且损失在6000~8000元和不少于8000元的均为3户.…(2分)从损失超过6000元的居民中随机抽出2户的基本情况共C 62=15种. 其中2户不在同一分组的,共3×3=9种.…(4分) ∴2户不在同一分组的概率为915=35. …(6分) (Ⅱ)经济损失不超过4000元经济损失超过4000元 合计捐款超过500元 30 9 39 捐款不超过500元5 6 11 合计351550…(8分)K 2=50×(30×6−9×5)239×11×35×15≈4.046>3.841. …(10分)∴有95%以上的把握认为捐款数额多于或少于500元和自身经济损失是否到4000元有关. …(12分)16.(2017秋•隆昌县校级月考)某研究性学习小组对春季昼夜温差大小与某花卉种子发芽多少之间的关系进行研究,他们分别记录了3月1日至3月5日的每天昼夜温差与实验室每天每100颗种子浸泡后的发芽数,得到如下资料: 日 期 3月1日 3月2日 3月3日 3月4日3月5日温差x (°C ) 10 11 13 12 8 发芽数y (颗)2325302616(Ⅰ)从3月1日至3月5日中任选2天,记发芽的种子数分别为m ,n ,求事件“m ,n 均不小于25”的概率.(Ⅱ)若选取的是3月1日与3月5日的两组数据,请根据3月2日至3月4日的数据,求出y 关于x 的线性回归方程y=bx +a ;(Ⅲ)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(Ⅱ)中所得的线性回归方程是否可靠?(参考公式:回归直线的方程是y=bx +a ,其中b=∑n i=1x i y i −n⋅x →⋅y →∑n i=1x i2−nx 2→,a=y →﹣b x →)【分析】(I )本题是一个等可能事件的概率,列举法确定试验发生包含的事件结果,满足条件的事件是事件“m ,n 均不小于25”的只有3个,根据概率公式得到结果.(II )先求出横标和纵标的平均值,即得到样本中心点,利用最小二乘法得到线性回归方程的系数,根据样本中心点在线性回归直线上,得到a 的值,得到线性回归方程.(III )根据第二问所求的线性回归方程,预报两个变量对应的y 的值,与检验数据的误差是1,满足题意,被认为得到的线性回归方程是可靠的.【解答】解:(Ⅰ)m ,n 的所有取值情况有:(23,25),(23,30),(23,26),(23,16),(25,30),(25,26),(25,16),(30,26),(30,16),(26,16),即基本事件总数为10.设“m ,n 均不小于25”为事件A ,则事件A 包含的基本事件为(25,30),(25,26),(30,26).所以P(A)=0.3,故事件A的概率为0.3. (3)(Ⅱ)由数据,求得x=13(11+13+12)=12,y=13(25+30+26)=27,3xy=972.∑3i=1X i Y i=11×25+13×30+12×26=977,∑3i=1X i2=112+ 132+122=434,3x2=432.由公式,求得b=∑n i=1x i y i−n⋅x⋅y∑n i=1x i2−nx2=977−972434−432=52,a=y−bx=27−52×12=−3.所以y关于x的线性回归方程为y=52x−3. (8)(Ⅲ)当x=10时,y=52×10−3=22,|22﹣23|<2;同样,当x=8时,y=52×8−3=17,|17﹣16|<2.所以,该研究所得到的线性回归方程是可靠的. (14)17.(2017春•兴庆区校级期中)某连锁经营公司所属5个零售店某月的销售额和利润额资料如下表商店名称A B C DE销售额(x)/千万元35679利润额(y)/百万元23345(1)画出销售额和利润额的散点图.(2)若销售额和利润额具有相关关系,用最小二乘法计算利润额y对销售额x 的回归直线方程y=bx+a,其中b=∑n i=1x i y i−nxy∑n i=1x i2−nx2,a=y−bx.(3)若获得利润是4.5时估计销售额是多少(百万)?【分析】(1)根据所给的五组数据,得到五个有序数对,在平面直角坐标系中画出点,得到散点图;(2)关键所给的这组数据,写出利用最小二乘法要用的量的结果,把所求的这些结果代入公式求出线性回归方程的系数,进而求出a的值,写出线性回归方程;(3)关键上一问做出的线性回归方程,把y=4.5的值代入方程,估计出对应的x 的值.【解答】解:(1)散点图(2)由已知数据计算得:x =3+5+6+7+95=6,y =2+3+3+4+55=3.4,∑5i=1x i 2=200,∑5i=1x i y i =112,∴b=112−5×6×3.4200−5×36=0.5,则a=y −bx =3.4﹣0.5×6=0.4,∴利润额y 对销售额x 的回归直线方程y=0.5x +0.4; (3)当y=4.5时,4.5=0.5x +0.4,解得x=8.2, ∴若获得利润是4.5时估计销售额是8.2(百万).18.(2017春•红岗区校级期末)假设关于某设备的使用年限x 和所支出的维修费用y (万元)有如下的统计数据,由资料显示y 对x 呈线性相关关系.x 3 4 5 6 y2.5344.5(1)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y=b x +a .(2)试根据(1)求出的线性回归方程,预测使用年限为10年时,维修费用是多少?【分析】(1)根据所给的数据,做出利用最小二乘法需要的四个数据,横标和纵标的平均数,横标和纵标的积的和,与横标的平方和,代入公式求出b 的值,再求出a 的值,写出线性回归方程.(2)根据上一问做出的线性回归方程,代入所给的x 的值,预报出维修费用,这是一个估计值.【解答】解:(1)∵根据所给的数据可以得到∑n i=1x i y i =3×5=66.5﹣﹣﹣﹣﹣﹣﹣(2分)x =3+4+5+64=4.5﹣﹣﹣﹣﹣﹣﹣(3分)y =2.5+3+4+4.54=3.5﹣﹣﹣﹣﹣﹣﹣(4分)∑n i=1x i 2=32+42+52+62=86﹣﹣﹣﹣﹣﹣﹣(5分)∴b =66.5−4×4.5×3.586−4×4.52=66.5−6386−81=0.7﹣﹣﹣﹣﹣﹣﹣(8分) a =Y −b X =3.5−0.7×4.5=0.35﹣﹣﹣﹣﹣﹣﹣(10分) 故线性回归方程为y=0.7x +0.35﹣﹣﹣﹣﹣﹣﹣(11分)(2)当x=10(年)时,维修费用是 0.7×10+0.35=7.35 (万元)﹣﹣﹣﹣﹣﹣﹣13分所以根据回归方程的预测,使用年限为10年时,预报维修费用是7.35 (万元)﹣﹣﹣﹣﹣﹣﹣14分19.(2016春•武威校级期末)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:零件的个数x (个) 2 3 4 5 加工的时间y (小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的线性回归方程y ^=b ^x +a ^,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少时间?(注:b ^=∑n i−1x i y i −nxy ∑n i−1x i2−n(x),a ^=y ﹣b ^x )【分析】(1)由数据表可得四个点的坐标,在坐标系中描点作图;(2)利用最小二乘法求得回归直线方程的系数b ,再求系数a ,得回归直线方程;(3)把x=10代入回归直线方程,求得预报变量y的值.【解答】解(1)散点图如图所示.(2)由表中数据得:∑4i=1x i y i=52.5,x=3.5,y=3.5,∑4i=1x i2=54,∴b=0.7,a=1.05.∴回归直线方程为y=0.7x+1.05.(3)将x=10代入回归直线方程,得y=0.7×10+1.05=8.05(小时),∴预测加工10个零件需要8.05小时.。
选择回归模型
知识讲解
回归分析
1、回归分析的侧重点应先求回归直线方程,并进行相应的估计预测,但这类的题数据的处理与计算量可能很大,学习中应谨慎把握. 对于独立性检验问题,应以K2的计算与临界值的比较来判断分类变量的相关与无关为主.
2、线性回归分析是统计中的一个重要内容,随着新课标的实施和新课程高考改革的不断深入,这部分的内容也将回越来越受到重视. 非线性回归问题有时并不给出经验公式,这时候我们可以画出已知数据的散点图,把它与必修模块数学1中学过的各种函数(幂函数、指数函数、对数函数、二次函数等)图象比较,挑选一种跟这些点拟合最好成的函数,然后采取适当的置换,把问题化为线性回归问题,使其得到解决。
3、回归直线方程求解需要复杂的运算,随着新课程标准的继续实施和新课程高考改革的不断深入,考查同学们数据处理能力,特别是运用计算器等现代技术工具对进行数据处理的能力,将是改革的方向之一. 有关理论要求同学们理解,但公式也不需要死记硬背.
典例精讲
一.选择题(共11小题)
1.(2018秋?曾都区校级期中)某公司为了增加其商品的销售利润,调查了该商品投入的广告费用x与销售利润y的统计数据如表,由表中数据得线性回归),则下列结论中错误的是(方程=x+
3256(万元)广告费用x
11579(万元)销售利润y
B.y>A.0与x正相关
0C.回归直线过点(4,8<)D.
与当天气温y春2018?邢台期末)如表是某饮料专卖店一天卖出奶茶的杯数2.
(的线性回归方程y关于xx(单位:℃)的对比表,已知由表中数据计算得到x),+27,则相应于点(1020)的残差为(为=
510152025℃气温/
1420161426杯数
1.D.C.﹣A1.﹣B0.50.5
家商城进行调研时,获3潍坊期末)某产品生产厂家的市场部在对4?2018.(春之间的四组数据如表:(单位:万件)y元)x得该产品售价(单位:和销售量
44.55.56(元)售价x
9121110(万y销售量
件)
之间的线性回归y为决策产品的市场指导价,用最小二乘法求得销售量x与售价)1.4x=方程为﹣元,则销售量约为(8,若售价为+
万件.B万件6.1.A6.5.CD万件6.3.万件6.7
4.(2017秋?高安市校级期末)已知变量x与变量y之间具有相关关系,并测得如下一组数据
2.3﹣B.=﹣0.7x+10.3=0.7x.A
0.7C.=﹣10.3x+0.7=10.3x﹣D.
bx u=1作线性变换后得到的回归方程为>0吉安期末)曲线y=ae)(a(5.2018春?2)a的单调递增区间为(y=x +bx+0.6x﹣.则函数
∞)+.(,(C.,+∞)D,B.(10A.(,+∞)+∞)
万元的统计数据万元与销售额y?(2018春石家庄期末)某产品的广告费用x.6
,据此模型预报广告费,其中根据以上数据可得回归直线方程
)m,的值为(用为6万元时,销售额为65.5万元,则
m=53,m=54m=54,C.,D.Bm=52,.A.
,且7.6+0.4x﹣=之间的线性回归方程为y,x南阳期末)已知变量?春2018(.7.变量x,y之间的一组相关数据如表所示,则下列说法错误的是()
x681012
26ym3
A.变量x,y之间呈现负相关关系
B.m的值等于5
C.变量x,y之间的相关系数r=﹣0.4
D.由表格数据知,该回归直线必过点(9,4)
根据以上样本数据,她建立的身高y(cm)与年龄x(周岁)的线性回归方程为,给出下列结论:+73.96=7.19x
具有正的线性相关关系与x①y
;)42,117.1②回归直线过样本点的中心(
;145.86cm③儿子10岁时的身高是
.7.19cm④儿子年龄增加1周岁,身高约增加
)其中,正确结论的个数是(
B.2C.3D.A.14
薛城区期末)广告投入对商品的销售额有较大影响.某电商对连续?20189.(春个年度的广告费和销售额进行统计,得到统计数据如下表(单位:万元)5 34256x广告费
7141295950y销售额
由上表可得回归方程为=10.2x+,据此模型,预测广告费为8万元时的销售额约为()
A.90.8B.72.4C.98.2D.111.2
10.(2017秋?南沙区校级期中)已知x与y之间的一组数据如图,则y与x的回)
必过定点(=bx+a归直线方程
3102x
7135y
A.(1.5,4.D(0,0)).B(1.5,0)C.(0,4)
11.(2017秋?正定县校级月考)(理)某公司为了增加其商品的销售利润,通过调查得到的该商品投入的广告费用x与销售利润y的统计数据如表:由表中)=x,则下列结论正确的是(l数据,得回归直线:
2 3 5 6万元广告费用x/
117 5 9 万元销售利润y/
B.A.<0>0
D.直线l8.5lC.直线过点(4,)过点(2,5)
小题)5二.填空题(共
相组数据和变量VU与5Y?2018.12(春西城区校级期中)变量X与相对应的组
用b表示变量Y与X之间的回归系数,b表示变量V与U之间的回归系数,则21b 与b的大小关系是.21
13.(2018春?三明期中)一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据列于下表中,试建立y与x之间的回归方
程.
21232527293235℃温度x
325115116624217y产卵数
的根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y=Ce2周围(其中c,c是待定的参数),在上式两边取对数,得lny=cx+lnc,再令2121z=lny,则z=cx+lnc,而z与间的关系如下:21
X21 232527293235
5.7843.1783.045z2.3984.1901.9464.745
观察z与x的散点图,可以发现变换后样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.利用计算器算得a=﹣3.84,b=0.27,z与x间的线性,因此红铃虫的产卵数对温度的非线性回归方程3.84=0.27x﹣回归方程为
.为
开平区校级期中)下表是某数学老师及他的爷爷、父亲和儿子的秋?.(201714身高数据:
176170173c=1父亲身高
)cm(
182176170a=2儿子身高
)cm(
该老师用线性回归分析的方法预测他孙子的因为儿子的身高与父亲的身高有关,.身高为
(单位:年)和所思明区校级月考)已知关于某设备的使用年限?2017(.15秋x(单位:万元)有如下的统计资料:支出的维修费用y
x23456
7.05.53.82.26.5y
由表可得线性回归方程=x+0.08,若规定当维修费用y>12时该设备必须报废,据此模型预报该设备使用年限的最大值为.
16.(2017秋?梁园区校级月考)某城市2007年到2011年人口总数与年份的关系如表所示.据此估计2017年该城市人口总数.
01234(年)年份2007+x
1975811(十万)人口数y
)==3.2,(参考数据和公式:
三.解答题(共4小题)
17.(2017秋?石家庄期末)某兴趣小组欲研究某地区昼夜温差大小与患感冒就诊人数之间的关系,他们分别到气象局与某医院抄录了1到5月份每月10号的
昼夜温差情况与因患感冒而就诊的人数,得到如下资料:
日期1月10日2月10日3月10日4月10日5月10日
81013129)(°Cx昼夜温差
1725182628(个)就诊人数y
该兴趣小组确定的研究方案是:先从这5组数据中选取一组,用剩下的4组数据求线性回归方程,再用选取的一组数据进行检验.
(Ⅰ)若选取的是1月的一组数据,请根据2至5月份的数据.求出y关于x的.=
x线性回归方程
,2(Ⅱ)若由线性回归方程得到的估计数据与所选出的检验数据的误差不超过则认为得到的线性回归方程是理想的,试判断该小组所得的线性回归方程是℃时,因6否理想?如果不理想,请说明理由,如果理想,试预测昼夜温差为
感冒而就诊的人数约为多少?
)==,=(参考公式:18.(2017秋?广州期末)某汽车4S店关于某品牌汽车的使用年限x(年)和所
支出的维修费用y(千元)有如下的统计资料:
x23456
7.03.56.02.06.5y
(1)在所给的直角坐标系中画出散点图并判断使用年限与所支出的维修费用是否线性相关;如果线性相关,试求y关于x的回归直线方程;
(2)若使用超过8年,维修费超过1.5万元时,车主将处理掉该车估计第10年年底时,车主是否会处理掉该车?
)﹣=(=,=
19.(2017秋?益阳期末)某企业为了推广新产品,决定投入部分资金进行新产
品的宣传活动.为了研究投入宣传资金x万元与新产品的销售额y万元的关系,该企业收集了投入宣传资金x万元与新产品的销售额y万元的对应数据如下:
x1234
600500200y300
(Ⅰ)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程;并预测若投入宣传资金5万元时,新产品的销售额约为多少万元?
(Ⅱ)若用表示投入宣传资金x万元的“预测信度值”,若“预测信度值”
不超过100时,根据(Ⅰ)中求得的线性回归方程作出预测的结果是可信的,否则预测的结果不可信;依此标准,当投入宣传资金x万元在什么范围内取值时?由(Ⅰ)中求得的线性回归方程作出的预测都是可信的.
﹣参考公式:最小二乘法求线性回归方程系数公式:,==
)
参考数据:1×200+2×300+3×500+4×600=4700.
20.(2017秋?新绛县期末)某地区某中草药材的销售量与年份有关,下表是近
;之间的回归直线方程)利用所给数据求年销售量(1y与年份x
(2)利用(1)中所求出的直线方程预测该地2018年的中草药的销售量.
参考公式:。