高考数学复习点拨 非线性回归问题
- 格式:doc
- 大小:79.00 KB
- 文档页数:2
非线性回归方程经典题型一、解答题(本大题共16小题,共192.0分)1. 一只药用昆虫的产卵数y 与一定范围内的温度x 有关,现收集了该种药用昆虫的6经计算得:x =16∑x i 6i=1=26,y =16∑y i 6i=1=33,∑(6i=1x i −x)(y i −y)=557,∑(6i=1x i −x)2=84,∑(6i=1y i −y)2=3930,线性回归模型的残差平方和∑(6i=1y i−y ^i )2=236.64,e8.0605≈3167,其中x i ,y i 分别为观测数据中的温度和产卵数,i =1,2,3,4,5,6.(Ⅰ)若用线性回归模型,求y 关于x 的回归方程y =bx +a(精确到0.1); (Ⅱ)若用非线性回归模型求得y 关于x 的回归方程为y ^=0.06e 0.2303x ,且相关指数R 2=0.9522.(i)试与(Ⅰ)中的回归模型相比,用R 2说明哪种模型的拟合效果更好.(ii)用拟合效果好的模型预测温度为35∘C 时该种药用昆虫的产卵数(结果取整数). 附:一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计为b ^=ni=1i −x)(y i −y)∑(n x −x)2,a ^=y −b ^x ;相关指数R 2=1−n i=1i ^i 2∑(n y −y)2.2. 对某地区儿童的身高与体重的一组数据,我们用两种模型①y =bx +a ,②y =ce dx 拟合,得到回归方程分别为y ^(1)=0.24x −8.81,y ^(2)=1.70e 0.022x ,作残差分析,如表:(Ⅱ)根据残差比较模型①,②的拟合效果,决定选择哪个模型;(Ⅲ)残差大于1kg 的样本点被认为是异常数据,应剔除,剔除后对(Ⅱ)所选择的模型重新建立回归方程.(结果保留到小数点后两位)附:对于一组数据(x 1,y 1),(x 2,y 2),…(x n ,y n ),其回归直线y =bx +a 的斜率和截距的最小二乘法估计分别为b ^=∑(n i=1x i −x)(y i −y)∑(n i=1x i −x)2,a ^=y .−b ^x ..3. 某厂生产不同规格的一种产品,根据检测标准,其合格产品的质量y(g)与尺寸x(mm)之间近似满足关系式y =c ⋅x b (b 、c 为大于0的常数).按照某项指标测定,当产品质量与尺寸的比在区间(e 9,e7)内时为优等品.现随机抽取6件合格产品,测得数据如下: 尺寸x(mm) 38 48 58 68 78 88 质量y(g) 16.8 18.8 20.7 22.4 24 25.5 质量与尺寸的比yx0.4420.3920.3570.3290.3080.290(1)现从抽取的6件合格产品中再任选2件,求恰有一件优等品的概率;(2)根据测得数据作出如下处理:令v i =lnx i ,u i =lny i ,得相关统计量的值如下表:∑v i 6i=1u i∑v i 6i=1∑u i 6i=1∑v i 26i=175.3 24.6 18.3 101.4 (ⅰ)根据所给统计量,求y 关于x 的回归方程;(ⅰ)已知优等品的收益z(单位:千元)与x ,y 的关系为z =2y −0.32x ,当优等品的质量与尺寸之比为e8时,求其收益的预报值.(精确到0.1)附:对于样本(v i ,u i )(i =1,2,…,n),其回归直线u =b ⋅v +a 的斜率和截距的最小二乘估计公式分别为:b ^=∑(n i=1v i −v)∑(n i=1v i −u)2=∑v i n i=1u i −nvu∑v i 2n i=1−nv2,a ^=u −b ^v ,e ≈2.7182.4. 某公司为评估两套促销活动方案(方案1运作费用为5元/件;方案2的运作费用为2元/件),在某地区部分营销网点进行试点(每个试点网点只采用一种促销活动方案),运作一年后,对比该地区上一年度的销售情况,制作相应的等高条形图如图所示.(1)请根据等高条形图提供的信息,为该公司今年选择一套较为有利的促销活动方案(不必说明理由);(2)已知该公司产品的成本为10元/件(未包括促销活动运作费用),为制定本年度该地区的产品销售价格,统计上一年度的8组售价x i (单位:元/件,整数)和销量y i (单位:件)(i =1,2,…,8)如下表所示:售价x 3335 37 39 41 43 45 47 销量y 840800 740 695 640 580 525 460 ①请根据下列数据计算相应的相关指数R 2,并根据计算结果,选择合适的回归模型进行拟合;②根据所选回归模型,分析售价x 定为多少时?利润z 可以达到最大.y ^=−1200lnx +5000 y ^=−27x +1700 y ^=−13x 2+1200∑(8i=1y i −y ^i )249428.74 11512.43 175.26∑(8i=1y i −y .)2 124650(附:相关指数 R 2=1−∑(n i=1y i −y ^i )2∑(n i=1y i−y)2)5. 二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y(单位:万元/辆)进行整理,得到如下数据:使用年数x2 3 4 5 6 7 售价y 20 12 8 6.4 4.4 3 z =lny3.002.482.081.861.481.10下面是z 关于x 的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关数加以说明;(2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少?(b^、a ^小数点后保留两位有效数字). (3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考公式:回归方程y ^=b ^x +a^中斜率和截距的最小二乘估计公式分别为: b ^=∑(n i=1x i −x)(y i −y)∑(n i=1x i −x)2=∑x i n i=1y i −nxy ∑x i2ni=1−nx 2,a ^=y .−b ^x .,r =∑(n i=1x i −x)(y i −y)√∑(n i=1x i −x)2∑(n i=1y i −y)2.参考数据:∑x i 6i=1y i =187.4,∑x i 6i=1z i =47.64,∑x i 26i=1=139,√∑(6i=1x i −x .)2=4.18,√∑(6i=1y i −y .)2=13.96,√∑(6i=1z i −z .)2=1.53,ln1.46≈0.38,ln0.7118≈−0.34.6. 为了调查历城区城乡居民人民生活水平,随机抽取了10个家庭,得到第i(i =1,2,…,10)个家庭月收入x i (单位:千元)与月流动资金y i (单位:千元)的数据资料如下表:∑x i 10i=1∑y i 10i=1∑ωi 10i=1∑x i 10i=1y i∑ωi 10i=1y ii i (Ⅰ)求方程y =d +c √x ;(Ⅱ)已知某家庭9月收入为9千元,该家庭计划用当月流动资金购置价格为499元的九阳豆浆机,问计划能否成功?附:对一组数据(x i ,y i )(i =1,2,…,10),其回归直线y =b ^x +a ^的最小二乘法估计为b =∑x i n i=1y i −nxy∑x i 2n i=1−n(x)2,a =y .−bx ..7. 近年来,随着汽车消费的普及,二手车流通行业得到迅猛发展.某汽车交易市场对2017年成交的二手车的交易前的使用时间(以下简称“使用时间”)进行统计,得到如图1所示的频率分布直方图.在图1对使用时间的分组中,将使用时间落入各组的频率视为概率.(1)若在该交易市场随机选取3辆2017年成交的二手车,求恰有2辆使用年限在(8,16]的概率;(2)根据该汽车交易市场往年的数据,得到图2所示的散点图,其中x(单位:年)表示二手车的使用时间,y(单位:万元)表示相应的二手车的平均交易价格. ①由散点图判断,可采用y =e a+bx 作为该交易市场二手车平均交易价格y 关于其使用年限x 的回归方程,相关数据如下表(表中Y i =lny i ,Y =110∑Yi 10i=1):试选用表中数据,求出关于的回归方程;②该汽车交易市场拟定两个收取佣金的方案供选择. 甲:对每辆二手车统一收取成交价格的5%的佣金;乙:对使用8年以内(含8年)的二手车收取成交价格的4%的佣金,对使用时间8年以上(不含8年)的二手车收取成交价格的10%的佣金.假设采用何种收取佣金的方案不影响该交易市场的成交量,根据回归方程和图表1,并用各时间组的区间中点值代表该组的各个值.判断该汽车交易市场应选择哪个方案能获得更多佣金. 附注:①对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑u i n i=1v i −nuv∑u i 2n i=1−nu2,α^=v −β^u ;②参考数据:e 2.95≈19.1,e 1.75≈5.75,e 0.55≈1.73,e −0.65≈0.52,e −1.85≈0.16.8. 近期,济南公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x 表示活动推出的天数,y 表示每天使用扫码支付的人次(单位:十人次),统计数据如表1所示: 1根据以上数据,绘制了散点图.(1)根据散点图判断,在推广期内,y =a +bx 与c ⋅d x (c,d 均为大于零的常数)哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型?(给出判断即可,不必说明理由); (2)根据(1)的判断结果及表1中的数据,建立y 关于x 的回归方程,并预测活动推出第8天使用扫码支付的人次;(3)推广期结束后,车队对乘客的支付方式进行统计,结果如下 表2:车队为缓解周边居民出行压力,以万元的单价购进了一批新车,根据以往的经验可知,每辆车每个月的运营成本约为0.66万元.已知该线路公交车票价为2元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据统计结果得知,使用扫码支付的乘客中有16的概率享受7折优惠,有13的概率享受8折优惠,有12的概率享受9折优惠.预计该车队每辆车每个月有1万人次乘车,根据给数据以事件发生的频率作为相应事件发生的概率,在不考虑其它因素的条件下,按照上述收费标准,假设这批车需要n(n ∈N n )年才能开始盈利,求n 的值. 参考数据:其中其中υi =lgy i ,υ=17∑υi 7i=1参考公式:对于一组数据(u i ,υi ),(u 2,υ2),…,(u n ,υn ),其回归直线υ̂=a ̂+β̂u 的斜率和截距的最小二乘估计公式分别为:β̂=∑u i ni=1υi −nuυ∑u i 2n i=1−nu2,a ̂=υ−β̂u . 9. 某厂生产不同规格的一种产品,根据检测标准,其合格产品的质量y(g)与尺寸x(mm)之间近似满足关系式y =c ⋅x b (b 、c 为大于0的常数).按照某项指标测定,当产品质量与尺寸的比在区间(e 9,e7)内时为优等品.现随机抽取6件合格产品,测得数据如下: 尺寸x(mm) 38 48 58 68 78 88 质量y(g)16.818.8 20.7 22.4 24 25.5 质量与尺寸的比yx 0.4420.3920.3570.3290.3080.290(1)现从抽取的6件合格产品中再任选3件,记ξ为取到优等品的件数,试求随机变量ξ的分布列和期望;(2)根据测得数据作了初步处理,得相关统计量的值如下表:∑(6i=1lnx i ⋅lny i )∑(6i=1lnx i )∑(6i=1lny i )∑(6i=1lnx i )275.3 24.6 18.3 101.4(i)根据所给统计量,求y 关于x 的回归方程;(ii)已知优等品的收益z(单位:千元)与x ,y 的关系为z =2y −0.32x ,则当优等品的尺寸x 为何值时,收益z 的预报值最大?附:对于样本(v i ,u i )(i =1,2,…,n),其回归直线u =b ⋅v +a 的斜率和截距的最小二乘估计公式分别为:b ^=∑(n i=1v i −v)(u i −u)∑(n i=1v i −v)2=∑v i n i=1u i −nvu∑v i 2n i=1−nv2,a ^=u −b ^v ,e ≈2.7182.10. 经统计,2015年,某公路在部分界桩附近发生的交通事故次数如下表:把界桩公里数记为,公里数记为,,数据绘成的散点图如图所示,以x 为解释变量、交通事故数y 为预报变量,建立了两个不同的回归方程y (1)=29.9+50.2×1x 和y (2)=33.9+125.9e −x 表述x ,y 二者之间的关系. (Ⅰ)计算R 2的值,判断这两个回归方程中哪个拟合效果更好?并解释更好的这个拟合所对R 2的意义;(Ⅱ)若保险公司在每次交通事故中理赔60万元的概率为0.01,理赔2万元的概率为0.19,理赔0.2万元的概率为0.8,利用你得到的拟合效果更好的这一个回归方程,试预报这一年在界桩1040公里附近处发生的交通事故的理赔费(理赔费精确到0.1万元).附:对回归直线y =α̂+β̂x ,有R 2=1−∑(n i=1y i −y ^i )2∑(n i=1y i −y)2.一些量的计算值:表中:y ̂i (1)=29.9+50.2×1x i ,y ^i (2)=33.9+125.9e −x i ,140=0.025,e −40≈0.11. x(2)某同学认为,y =px 2+qx +r 更适宜作为y 关于x 的回归方程类型,他求得的回归方程是y =−0.30x 2+10.17x +68.07.经调查,该地11岁男童身高的中位数为145.3cm.与(1)中的线性回归方程比较,哪个回归方程的拟合效果更好?附:回归方程y ^=a ^+b ^x 中的斜率和截距的最小二乘估计公式分别为:b ^=n i=1i −x)(y i −y)∑(n x −x)2,a ^=y −b ^x .12. 某互联网公司为了确定下一季度的前期广告投入计划,收集了近期前期广告投入量x(单位:万元)和收益y(单位:万元)的数据.对这些数据作了初步处理,得到了下面的散点图(共21个数据点)及一些统计量的值.为了进一步了解广告投入量x 对收益y 的影响,公司三位员工①②③对历史数据进行分析,查阅大量资料,分别提出了三个回归方程模型:表中u i =lnx i ,v i =√x i ,参考数据:√2=1.41,√10=3.16. 表一x y∑(21i=1x i −x)2∑(21i=1x i −x)(y i−y) ∑(21i=1y i −y)240 62770 250200表二μ̂ ∑(21i=1μi −μ)2∑(21i=1μi−μ)(y i −y)v∑(21i=1(v i −v)2∑(21i=1v i−v)(y i −y)3.600.499.806.35.0030.00(1)根据散点图判断,哪一位员工提出的模型不适合用来描述x 与y 之间的关系?简要说明理由.(2)根据据(1)的判断结果及表中数据,在余下两个模型中分别建立收益y 关于投入量x 的关系,并从数据相关性的角度考虑,在余下两位员工提出的回归模型中,哪一个是最优模型(即更适宜作为收益y 关于投入量x 的回归方程)?说明理由: 附:对于一组数据(x 1,y 1),(x 2,y 2),……,(x n ,y n ),其中回归直线y ^=b ^x +a ^的斜率,截距的最小二乘估计以及相关系数分别为:b ̂=∑(ni=1x i −x)(y i −y)∑(n i=1x i−x)2,a ̂=y −b ̂x,r =∑(n i=1x i −x)(y i −y)√∑(n i=1x i −x)2∑(n i=1y i −y)2,其中r 越接近于是,说明变量x 与y 的线性相关程度越好.13. 在冬季,由于受到低温和霜冻的影响,蔬菜的价格会随着需求量的增加而上升,已知某供应商向饭店定期供应某种蔬菜,日供应量x 与单价y 之间的关系,统计数据如表所示:日供应量x(kg) 38 48 58 68 78 88 单价y(元/kg)16.818.820.722.42425.5(Ⅰ)根据上表中的数据得出日供应量x 与单价y 之间的回归方程为y =ax b ,求a ,b 的值;(Ⅱ)该地区有14个饭店,其中10个饭店每日对蔬菜的需求量在60kg 以下(不含60kg),4个饭店对蔬菜的需求量在60kg 以上(含60kg),则从这14个饭店中任取4个进行调查,记这4个饭店中对蔬菜需求量在60kg 以下的饭店数量为X ,求X 的分布列及数学期望. 参考公式及数据:对一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:b ̂=∑x i ni=1y i −nxy ∑x i 2n i=1nx2,a ^=y −b ^x ∑(6i=1lnx i ⋅lny i )∑(6i=1lnx i )∑(6i=1lny i )∑(6i=1lnx i )273.524.6 18.3 101.414. 某地级市共有200000中小学生,其中有7%学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5:3:2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1000元、1500元、2000元.经济学家调查发现,当地人均可支配年收入较上一年每增加n%,一般困难的学生中有3n%会脱贫,脱贫后将不再享受“精准扶贫”政策,很困难的学生中有2n%转为一般困难,特别困难的学生中有n%转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配年收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x 取13时代表2013年,x 与y(万元)近似满足关系式y =C 1⋅2C 2x ,其中C 1,C 2为常数.(2013年至2019年该市中学生人数大致保持不变)y k ∑(5i=1k i −k)2∑(5i=1y i −y)2∑(5i=1x i −x)(y i −y)∑(5i=1x i −x)(k i −k) 2.31.23.14.621其中k i =log 2y i ,k =15∑k i 5i=1(Ⅰ)估计该市2018年人均可支配年收入;(Ⅱ)求该市2018年的“专项教育基金”的财政预算大约为多少?附:①对于一组具有线性相关关系的数据(u 1,v 1),(u 2,v 2)…,(u n ,v n ),其回归直线方程v ∧=βu ∧+α的斜率和截距的最小二乘估计分别为β∧=∑(n i=1u i −u)(vv i −v)∑(n i=1u i −u)2,α∧=v −β∧u②2−0.7 2−0.3 20.1 21.7 21.8 21.9 0.60.81.13.23.53.7315. 参加数学选修课的同学,对某公司的一种产品销量与价格进行了统计,得到如下数据和散点图:定价x(元/kg) 10 20 30 40 50 60 年销量y(kg)1150 643 424 262 165 86 z =2lny14.112.912.111.110.28.9下列数据计算时可供参考:∑(6i=1x i −x)(y i −y)=−34580∑(6i=1x i −x)(z i −z)=−175.5e 6=403.43∑(6i=1y i −y)2=776840∑(6i=1y i −y)(z i −z)=3465.2e 5=148.41(Ⅰ)根据散点图判断出y 与x 和z 与x 分别是正相关还是负相关,再比较判断y 与x 和z 与x 哪一对具有较强的线性相关性?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及相关数据,选择合理模型建立y 关于x 的回归方程.(方程中的系数均保留两位有效数字).(Ⅲ)根据由(Ⅱ)得到的回归方程,计算当定价x =30时的残差.附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线的斜率和截距的最小二乘估计分别为:b ∧=n i=1i −x)⋅(y i −y)∑(n x −x)2a ∧=y −b ∧x16. 为落实“精准扶贫”战略,某县决定利用扶贫资金帮扶具有地方特色的传统手工业发展.扶贫项目组利用数据分析技术,模拟扶贫项目的未来预期,模拟结果显示,项目投资x(万元)和产品利润y(万元)关系如表所示:分析发现用模型y =bx 利润的关系.设t i =x i 2(i =1,2,3,4,5),t =15∑t i 5i=1,对数据初步处理得到下面一些统计量的值:y =b x +a(回归系数四舍五入,小数点后保留两位数字); (II)该扶贫项目用于支付工人劳动所得资金总额用公式w =y −1.2x 计算(其中x 为项目投资,y 为产品利润,单位:万元),并以(I)中所求回归方程预报产品利润,当工人劳动所得资金总额不少于120万元时,则认为该项目可以完成“脱贫”任务.假设政府投入该项目的扶贫资金(单位:万元)可以是区间[45,80]内的任意整数值,求可以完成“脱贫”任务的概率.附:对于具有线性相关的一组数据(x i ,y i )(i =1,2,…n),其回归方程为y ^=b ^x +a^. 其中:b ^=n i=1i −x)(y i −y)∑(n x −x)2x =1n ∑x i,n i=1y =1n ∑y in i=1.答案和解析【答案】1. 解:(Ⅰ)依题意,n =6,b ^=6i=1i −x)(y i −y)∑(6x −x)2=55784≈6.6, a ≈33−6.6×26=−138.6 ∴y 关于x 的线性回归方程为y =6.6x −138.6(Ⅱ) ( i )利用所给数据,∑(6i=1y i −y ^i )2=236.64,∑(6i=1y i −y)2=3930得, 线性回归方程y =6.6x −138.6 的相关指数R 2=1−6i=1i ^i 2∑(6y −y)2=1−236.643930≈1−0.0602=0.9398.∵0.9398<0.9522,因此,回归方程y ^=0.06e 0.2303x 比线性回归方程y ^=6.6x −138.6拟合效果更好; (ii)由( i )得温度x =35∘C 时,y ̂=0.06e 0.2303×35=0.06×e 8.0605 又∵e 8.0605≈3167, ∴y ^≈0.06×3167≈190(个)所以当温度x =35∘C 时,该种药用昆虫的产卵数估计为190个.2. 解:(Ⅰ)根据残差分析,把x =80代入y ^(1)=0.24x −8.81得y ^(1)=10.39.10−10.39=−0.39.所以表中空格内的值为−0.39.(Ⅱ)模型①残差的绝对值和为0.41+0.01+0.39+1.21+0.19+0.41=2.62,模型②残差的绝对值和为0.36+0.07+0.12+1.69+0.34+1.12=3.7.2.62<3.7, 所以模型①的拟合效果比较好,选择模型①.(Ⅲ)残差大于1kg 的样本点被剔除后,剩余的数据如表由公式:b ^=∑(n i=1x i −x)(y i −y)∑(n i=1x i −x)2,a ^=y .−b ^x ..得回归方程为y =0.24x −8.76.3. 解:由已知,优等品的质量与尺寸的比在区间(e 9,e7)内,即yx ∈(0.302 , 0.388)则随机抽取的6件合格产品中,有3件为优等品A 1,A 2,A 3,3件为非优等品B 1,B 2,B 3 现从任选2件,共有(A 1,A 2)、(A 1,A 3)、(A 1,B 1)、(A 1,B 2)、 (A 1,B 3)、(A 2,A 3)、(A 2,B 1)、(A 2,B 2)、(A 2,B 3)、 (A 3,B 1)、(A 3,B 2)、(A 3,B 3)、(B 1,B 2)、(B 1,B 3)、(B 2,B 3)15种方法 设任选2件恰有一件优等品为事件C ,则事件C 包含(A 1,B 1)、(A 1,B 2)、 (A 1,B 3)、(A 2,B 1)、(A 2,B 2)、(A 2,B 3)、(A 3,B 1)、 (A 3,B 2)、(A 3,B 3)共9种方法由古典概型有P(C)=915=35,故所求概率为35(2)解:对y =c ⋅x b (b,c >0)两边取自然对数得lny =lnc +blnx 由v i =lnx i ,u i =lny i ,得u =b ⋅v +a ,且a =lnc (ⅰ)根据所给统计量及最小二乘估计公式有b ^=75.3−24.6×18.3÷6101.4−24.62÷6=0.270.54=12a ^=u −b ^v =(18.3−12×24.6)÷6=1,得a ^=lnc ^=1,故c ^=e所求y 关于x 的回归方程为y =e ⋅x 12(ⅰ)由(ⅰ)可知,y ^=e ⋅x 12,则z ^=2e √x −0.32x当y^x=ex 12x=√x=e8,即√x =8, x =64时 得收益的预报值z ^=16e −0.32×64≈23.0(千元).4. 解:(1)由等高条形图可知,年度平均销售额与方案1的运作相关性强于方案2.(2)①由已知数据可知,回归模型y ^=−1200lnx +5000对应的相关指数R 12=0.6035;回归模型y ^=−27x +1700对应的相关指数R 22=0.9076; 回归模型y ^=−13x 2+1200对应的相关指数R 32=0.9986.因为R 32>R 22>R 12,所以采用回归模型y ^=−13x 2+1200进行拟合最为合适. ②由(1)可知,采用方案1的运作效果较方案2好, 故年利润z =(−13x 2+1200)(x −15),,当x ∈(0,40)时,z =(−13x 2+1200)(x −15)单调递增; 当x ∈(40,+∞)时,z =(−13x 2+1200)(x −15)单调递减, 故当售价x =40时,利润达到最大.5. 解:(1)由题意,计算x .=16×(2+3+4+5+6+7)=4.5,z .=16×(3+2.48+2.08+1.86+1.48+1.10)=2,且∑x i 6i=1z i =47.64,√∑(6i=1x i −x .)2=4.18, √∑(6i=1z i −z .)2=1.53,∴r =∑n i=1i i √∑(n i=1x i −x)2∑(n i=1y i−y)2=47.64−6×4.5×24.18×1.53=−6.366.3954(或−6.366.40) ≈−0.99;∴z 与x 的相关系数大约为0.99,说明z 与x 的线性相关程度很高; (2)利用最小二乘估计公式计算b ̂=∑x i ni=1y i −nxy ∑x i2n i=1−nx 2=47.64−6×4.5×2139−6×4.52=−6.3617.5≈−0.36, ∴â=z .−b ̂x .=2+0.36×4.5=3.62, ∴z 与x 的线性回归方程是z ∧=−0.36x +3.62, 又z =lny ,∴y 关于x 的回归方程是y ∧=e −0.36x+3.62; 令x =9,解得y ∧=e −0.36×9+3.62≈1.46,即预测某辆A 型号二手车当使用年数为9年时售价约1.46万元; (3)当y ∧≥0.7118时,e −0.36x+3.62≥0.7118=e ln0.7118=e −0.34, ∴−0.36x +3.62≥−0.34, 解得x ≤11,因此预测在收购该型号二手车时车辆的使用年数不得超过11年. 6. 解:(Ⅰ)由y 与x 满足函数模型y =d +c √x ,则y =d +cω, ω.=∑ωi 10i=110=8,y .=∑y i 10i=110=2,则c =∑ωi 10i=1y i −10×ωy∑ωi 210i=1−10×ω2=184−10×8×2720−10×82=0.3,则d =y .−cω.=2−0.3×8=0.4,∴y =−0.4+0.3√x ;(Ⅱ)由(Ⅰ)可知:当x =9时,则y =−0.4+0.3×3=0.5,∴当某家庭9月收入为9千元,该家庭计划用当月流动资金500元,大于499元, ∴当月收入为9千元时,当月流动资金能成功购置价格为499元的九阳豆浆机. 7. 解:(1)由频率分布直方图知,该汽车交易市场2017年成交的二手车使用时间在(8,12]的频率为0.07×4=0.28,使用时间在(12,16]的频率为0.03×4=0.12.所以在该汽车交易市场2017年成交的二手车随机选取1辆,其使用时间在(8,16]的概 率为0.28+0.12=0.4,…(2分)所以所求的概率为P =C 320.42⋅(1−0.4)=0.288;…(3分)(2)①由y =e a+bx 得lny =a +bx ,则Y 关于x 的线性回归方程为Y =a +bx ,…(4分)由于b ̂=10i=1i −x)(Y i −Y)∑(10x −x)2=∑x i 10i=1Y i −10x⋅Y ∑x i 210i=1−10x2=79.75−10×5.5×1.9385−10×5.52=−0.3, â=Y −β̂⋅x =1.9−(−0.3)×5.5=3.55, 则Y 关于x 的线性回归方程为Y^=3.55−0.3x ,……………………………(6分) 所以y 关于x 的回归方程为y ^=e 3.55−0.3x ;………………………(7分)②根据频率分布直方图和①中的回归方程,对成交的二手汽车可预测: 使用时间在(0,4]的频率为0.05×4=0.2,对应的成交价格的预测值为e 3.55−0.3×2=e 2.95≈19.1; 使用时间在(4,8]的频率为0.09×4=0.36,对应的成交价格预测值为e 3.55−0.3×6=e 1.75≈5.75; 使用时间在(8,12]的频率为0.07×4=0.28,对应的成交价格的预测值为e 3.55−0.3×10=e 0.55≈1.73; 使用时间在(12,16]的频率为0.03×4=0.12,对应的成交价格的预测值为e 3.55−0.3×14=e −0.65≈0.52; 使用时间在(16,20]的频率为0.01×4=0.04,对应的成交价格的预测值为e 3.55−0.3×18=e −1.85≈0.16;……………………(9分) 若采用甲方案,预计该汽车交易市场对于成交的每辆车可获得的平均佣金为(0.2×19.1+0.36×5.75+0.28×1.73+0.12×0.52+0.04×0.16)×5% =0.32166≈0.32万元;若采用乙方案,预计该汽车交易市场对于成交的每辆车可获得的平均佣金为(0.2×19.1+0.36×5.75)×4%+(0.28×1.73+0.12×0.52+0.04×0.16)×10% =0.29092≈0.29(万元);……………………(11分)因为0.32>0.29,所以采用甲方案能获得更多佣金. ……………(12分)8. 解:(1)根据散点图判断,y =c ⋅d x 适宜作为扫码支付的人数y 关于活动推出天数x 的回归方程类型;(2)∵y =c ⋅d x ,两边同时取常用对数得:1gy =1g(c ⋅d x )=1gc +1gd ⋅x ;设1gy =v ,∴v =1gc +1gd ⋅x ,∵x =4,v =1.55,∑X i 27i=1=140,∴lgd =∑7i=1x i v i −7xv∑x i 27i=1−7x2=50.12−7×4×1.54140−7×42=728=0.25,把样本中心点(4,1.54)代入v =1gc +1gd ⋅x ,得:lgd =0.54,∴v̂=0.54+0.25x ,∴1gy =0.54+0.25x , ∴y 关于x 的回归方程式:y ̂=100.54+0.25x =100.54(100.54)x =3.47(100.54)x ;把x =8代入上式:∴ŷ=100.54+0.25×8=102.54=102×100.54=347; 活动推出第8天使用扫码支付的人次为3470; (3)记一名乘客乘车支付的费用为Z ,则Z 的取值可能为:2,1.8,1.6,1.4;P(Z =2)=0.1;P(Z =1.8)=0.3×12=0.15;P(Z =1.6)=0.6+0.3×13=0.7;P(Z =1.4)=0.3×16=0.05所以,一名乘客一次乘车的平均费用为:2×0.1+1.8×0.15+1.6×0.7+1.4×0.05=1.66(元)由题意可知:1.66×1×12⋅n −0.66×12⋅n −80>0,n >203,所以,n 取7;估计这批车大概需要7年才能开始盈利.9. 解:(1)由已知,优等品的质量与尺寸的比在区间(e 9,e 7)内.即yx ∈(0.302,0.388).则随机抽取的6件合格产品中,有3件为优等品,3件为非优等品.现从抽取的6件合格产品再任选3件,则取到优等品的件数ξ=0,1,2,3. P(ξ=0)=C 30C 33C 63=120,P(ξ=1)=C 31C 32C 63=920,P(ξ=2)=C 32C 31C 63=920,P(ξ=3)=C 33C 30C 63=120.E(ξ)=0×120+1×920+2×920+3×120=32. (2)解:对y =c ⋅x b (b,c >0)两边取自然对数得lny =lnc +blnx .令v i =lnx i ,u i =lny i .得u =b ⋅v +a.且a =1nc . (i)根据所给统计量及最小二乘估计公式有:b ̂=∑v i ni=1u i −nvu ∑v i 2n i=1−nv2=75.3−24.6×18.3÷6101.4−24.62÷6=0.270.54=12, a ^=u −b ^v =(18.3−12×24.6)÷6=1,得a ^=ln c ^=1,c ^=e ,所求y 关于x 的回归方程为y =e ⋅x 12. (ii)由(i)可知y =e ⋅x 12,则z ^=2e √x −0.32x . 由优等品质量与尺寸的比ŷx=ex 12x=√x ∈(e 9,e7)⇒√x ∈(7,9),即x ∈(49,81). 当t =√x =e0.32≈8.5∈(7,9)时,z ^取最大值.即优等品的尺寸x ≈72.3(mm),收益z ^的预报值最大.10. 解:(Ⅰ)y (1)=29.9+50.2×1x 拟合时,R 12=1−0.8751821≈0.9995; y (2)=33.9+125.9e −x 拟合时,R 22=1−48.41821≈0.9734 ∵0.9995>0.9734,∴y (1)=29.9+50.2×1x 比y (2)=33.9+125.9e −x 拟合效果更好,R 12=1−0.8751821≈0.9995,表明界桩公里数解释了99.95%的交通事故发生次数的变化;(Ⅱ)界桩1040公里取x =40,由y (1)=29.9+50.2×140≈31.16,每次交通事故的理赔费=60×0.01+2×0.19+0.2×0.8=1,14万元,∴预报这一年在界桩1040公里附近处发生的交通事故的理赔费为31.16×1.14≈35.5万元.11. 解:(1)由题意,x =5.5,y =112.45,b ^=n i=1i −x)(y i −y)∑(n x −x)2=566.8582.50≈6.87, a ^=y −b ^x =112.45−6.87×5.5≈74.67; ∴y 关于x 的线性回归方程y =6.87x +74.67;(2)某同学认为,y =px 2+qx +r 更适宜作为y 关于x 的回归方程类型,他求得的回归方程是y =−0.30x 2+10.17x +68.07.当x =11时,代入回归方程是y =−0.30x 2+10.17x +68.07.可得y =142.74; 当x =11时,代入回归方程是y =6.87x +74.67;可得y =150.24; 由11岁男童身高的中位数为145.3cm .可得回归方程是y =6.87x +74.67计算的误差比较大.故回归方程是y =−0.30x 2+10.17x +68.07模拟合效果更好. 12. 解:(1)根据散点图判断,员工①提出的模型不适合, 因为散点图中x 与y 之间不是线性关系;(2)令v =√x ,先建立y 关于v 的线性回归方程, 由于d ∧=21i=1i −v)(y i −y)∑(21v −v)2=30.005.00=6,∴c ∧=y −d ∧v =62−6×6.3=24.2; ∴y 关于v 的线性回归方程为y ∧=24.2+6v , 因此模型②为y 2∧=24.2+6√x ;同理,令u =lnx ,建立y 关于u 的线性回归方程; f ∧=21i=1i −u)(y i −y)∑(21u −u)2=9.800.49=20,e ∧=y −f ∧u =62−20×3.60=−10, ∴y 关于u 的线性回归方程为y ∧=−10+20u , 因此模型③为y 3∧=−10+20lnx ; (i)模型②中,相关系数为 r 2=21i=1i −v)(y i −y)√∑(i=1v i −v)∑(i=1y i −y)=√5×200=310√10≈0.3×3.16=0.948; 模型③中,相关系数为 r 3=21i=1i −u)(y i −y)√∑(i=1u i −u)2∑(i=1y i −y)2=√0.49×200=710√2≈0.7×1.41=0.987; 可得1>r 3>r 2,说明变量u 与y 的线性相关程度更好, 即模型③为y 3∧=−10+20lnx 更为准确,模型③为最优模型.13. 解:(I)对y =ax b 两边同取对数得lny =blnx +lna ,令v =lnx ,u =lny ,得u =bv +lna∴b =∑v i 6i=1u i −6vu∑v i 26i=1−6v2=75.3−4.1×18.3101.4−6×4.12=12,∴lna =18.36−12×24.66=1,即a =e .(II)由题意知,X 的所有可能取值为0,1,2,3,4.P(X =0)=C 44C 144=11001,P(X =1)=C 43C 101C 144=401001,P(X =0)=C 42C 102C 144=2701001,P(X =1)=C 41C 103C 144=4801001,P(X =1)=C 104C 144=2101001.∴X 的分布列为∴E(X)=1×401001+2×2701001+3×4801001+4×2101001=207.14. 解:(Ⅰ)因为x =15(13+14+15+16+17)=15所以:∑(5i=1x i −x)2=(−2)2+(−1)2+12+22=10;关系式y =C 1⋅2C 2,其中k i =log 2y i 得:k =log 2C 1⋅2C 2x , ∴k =log 2C 1+C 2x ,所以C 2=5i=1i −x)(k i −k)∑(5x −x)2=110∴log 2C 1=k −C 2x =1.2−110×15=−0.3所以C 1=2−0.3=0.8 所以y =0.8×2x10当x =18时,2018年人均可支配年收入y =0.8×21.8=2.8(万)(Ⅱ)由题意知2017年时该市享受“国家精准扶贫”政策的学生共200000×7%=14000人一般困难、很困难、特别困难的中学生依次有7000人、4200人、2800人 2018年人均可支配收入比2017年增长0.8×21.8−0.8×21.70.8×21.7=20.1−1=0.1=10%所以2018年该市特别困难的中学生有2800×(1−10%)=2520人, 很困难的学生有4200×(1−20%)+2800×10%=3640人 一般困难的学生有7000×(1−30%)+4200×20%=5740人所以2018年的“专项教育基金”的财政预算大约为5740×1000+3640×1500+2520×2000=1624万.15. 解:(Ⅰ)根据散点图(1)知y 与x 是负相关, 根据散点图(2)知z 与x 是负相关;散点图(2)中各点都集中在一条直线附近, 即z 与x 具有较强的线性相关性;(Ⅱ)由x =16×(10+20+30+40+50+60)=35, z =16×(14.1+12.9+12.1+11.1+10.2+8.9)=11.55, ∴b ∧=6i=1i −x)(z i −z)∑(6x −x)2=−175.51750≈−0.10,由a ∧=z −b ∧x =11.55−(−0.10)×35=15.05≈15,∴z 关于x 的回归方程是z ∧=15−0.10x , 则y 关于x 的回归方程为y ∧=e z 2=e 12(15−0.10x), 即y ∧=e 12(15−0.10x);(Ⅲ)x =30时,y ∧=e 12×(15−0.10×30)=e 6=403.43,当定价x =30时的残差为|403.34−424|≈11. 16. 解:(I)由题意,t =2700,y =192,∑(5i=1t i −t)2=10140000,∑(5i=1t i −t)(y i −y)=586000; ∴b ∧=5i=1i −t)(y i −y)∑(5i=1t −t)2=58600010140000≈0.06;∴a ∧=y −b ∧t =192−0.06×2700=30, 又t =x 2,∴回归方程为y ∧=0.06x 2+30;(II)由w =y −1.2x ,y =0.06x 2+30,∴w =0.06x 2−1.2x +30, 令w ≥120,得0.06x 2−1.2x +30≥120, 解得x ≤−30或x ≥50, ∴取x ≥50;又政府投入该项目的扶贫资金是区间[45,80]内的任意整数值,满足题意的x ≥50; ∴所求的概率为P =80−50+180−45+1=3136.【解析】1. 本题考查了线性回归方程的应用问题,也考查了相关指数的应用问题,是难题. (Ⅰ)求出n 的值,计算相关系数,求出回归方程即可;(Ⅱ)(i)根据相关指数的大小,即可比较模型拟合效果的优劣;(ii)代入求值计算即可. 2. (Ⅰ)根据残差分析,把x =80代入y^(1)=0.24x −8.81得y ^(1)=10.39.10−10.39=−0.39,即可求表中空格内的值;(Ⅱ)求出残差的绝对值和,即可得出结论;(Ⅲ)确定残差大于1kg 的样本点被剔除后,剩余的数据,即可求出回归方程. 本题考查回归方程、残差分析,考查学生的计算能力,属于中档题.3. (1)由题意首先确定ξ的取值,然后求解相应的分布列和数学期望即可;(2)(i)结合题中所给的数据计算回归方程即可;(ii)结合计算求得的回归方程得到收益函数,讨论函数的最值即可求得最终结果.本题考查离散型随机变量的分布列,回归方程的计算及其应用等,重点考查学生对基础概念的理解和计算能力,属于中等题.4. (1)由等高条形图可知,年度平均销售额与方案1的运作相关性强于方案2. (2)①求出相关指数,比较可得结论;②由(1)可知,采用方案1的运作效果较方案2好,故年利润z =(−13x 2+1200)(x −15),利用导数的方法,可得结论.本题考查相关指数,考查等高条形图,考查导数知识的运用,属于中档题.5. (1)由题意计算x .、z .,求出相关系数r ,判断z 与x 的线性相关程度;(2)利用最小二乘估计公式计算b ^、a ^,写出z 与x 的线性回归方程, 求出y 关于x 的回归方程,计算x =9时y ∧的值即可;(3)利用线性回归方程求出y ∧≥0.7118时x 的取值范围,即可得出预测结果.本题考查了线性回归方程与线性相关系数的求法与应用问题,计算量大,计算时要细心. 6. (Ⅰ)求得样本中心点(ω.,y .),根据最小二乘法即可求得c 和d ,即可求得y =d +c √x ;(Ⅱ)当x =9时,代入即可求得y ,与0.499比较大小,即可判断答案.本题考查线性回归方程的应用,考查最小二乘法求线性回归方程,考查计算能力,属于中档题.7. (1)由频率分布直方图求得对应的频率,用频率估计概率即可计算所求的概率;(2)①由y =e a+bx 得lny =a +bx ,求出Y 关于x 的线性回归方程,再写出y 关于x 的回归方程;②根据频率分布直方图和①中的回归方程,对成交的二手汽车预测;再分别计算采用甲、乙两种方案,预计该汽车交易市场对于成交的每辆车可获得的平均佣金值.本题考查了频率分布直方图与线性回归方程的应用问题,是难题.8. (1)通过散点图,判断y =c ⋅d x 适宜作为扫码支付的人数y 关于活动推出天数x 的回归方程类型;(2)通过对数运算法则,利用回归直线方程相关系数,求出回归直线方程,然后求解第8天使用扫码支付的人次;(3)记一名乘客乘车支付的费用为Z ,则Z 的取值可能为:2,1.8,1.6,1.4;求出概率,计算期望,然后推出结果.本题考查了线性回归方程的求法及应用,数学期望的应用,考查计算能力,属于基础题.9. (1)由题意首先确定ξ的取值,然后求解相应的分布列和数学期望即可;(2)(i)结合题中所给的数据计算回归方程即可;(ii)结合计算求得的回归方程得到收益函数,讨论函数的最值即可求得最终结果.本题考查离散型随机变量的分布列,回归方程的计算及其应用等,重点考查学生对基础概念的理解和计算能力,属于中等题.10. (Ⅰ)计算R 2的值,即可得出结论;(Ⅱ)求出界桩1040公里取x =40,由y (1)=29.9+50.2×140≈31.16,每次交通事故的理赔费=60×0.01+2×0.19+0.2×0.8=1,14万元,即可得出结论. 本题考查回归方程,考查拟合效果,考查学生的计算能力,属于中档题.11. (1)由题意求出x ,y ,∑x i 210i=1,∑x i 10i=1y i ,代入公式求值,从而得到回归直线方程;(2)将x =11代入回归方程是y =−0.30x 2+10.17x +68.07和(1)问中的方程,得到的结果与145.3cm 比较,即可判断本题考查了线性回归方程的求法及应用,属于基础题.12. (1)根据散点图判断员工①提出的模型不适合,散点图中的点不是线性关系;(2)令v =√x ,建立y 关于v 的线性回归方程,得模型②的线性回归方程; 令u =lnx ,建立y 关于u 的线性回归方程,得模型③的线性回归方程;计算模型②中相关系数r 2,模型③相关系数r 3,比较即可得出结论.本题考查了线性回归方程的应用问题,也考查了相关系数的应用问题,是中档题. 13. (I)对y =ax b 两边同取对数得lny =blnx +lna ,令v =lnx ,u =lny ,得u =bv +lna ,利用计算公式即可得出.(II)由题意知,X 的所有可能取值为0,1,2,3,4.利用超几何分布列计算公式即可得出.。
高考数学二轮复习考点知识与题型专题讲解13 非线性回归问题【典型题型1】 二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y(单位:万元/辆)进行整理,得到如下数据:下面是z 关于x 的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关系数加以说明;(2)求y 关于x 的回归方程,并预测当某辆A 型号二手车使用年数为9年时售价约为多少;(b ^,a ^小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年.【解析】解 (1)由题意,知x =16×(2+3+4+5+6+7)=4.5,z =16×(3+2.48+2.08+1.86+1.48+1.10)=2,又i z i =47.64,=4.18, =1.53,∴r =47.64-6×4.5×24.18×1.53=- 6.366.395 4≈-0.99,∴z 与x 的相关系数大约为-0.99,说明z 与x 的线性相关程度很高. (2)b ^=47.64-6×4.5×2139-6×4.52=-6.3617.5≈-0.36, ∴a ^=z -b ^x =2+0.36×4.5=3.62,∴z 与x 的线性回归方程是z ^=-0.36x +3.62, 又z =ln y ,∴y 关于x 的回归方程是y ^=e-0.36x +3.62.令x =9,得y ^=e-0.36×9+3.62=e0.38,∵ln 1.46≈0.38,∴y ^≈1.46.即预测当某辆A 型号二手车使用年数为9年时售价约为1.46万元.(3)当y ^≥0.711 8, 即e-0.36x +3.62≥0.711 8=eln 0.711 8≈e-0.34时,则有-0.36x +3.62≥-0.34,解得x ≤11,因此,预测在收购该型号二手车时车辆的使用年数不得超过11年. 【方法总结】 非线性回归方程的求法 (1)根据原始数据作出散点图. (2)根据散点图,选择恰当的拟合函数.(3)作恰当变换,将其转化成线性函数,求线性回归方程. (4)在(3)的基础上通过相应变换,即可得非线性回归方程.【典型题型2】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,于是对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)的数据进行了初步处理,得到如图所示的散点图及一些统计量的值.注:表中w i =x i ,w =18i .(1)根据散点图判断,y ^=a ^+b ^x 与y ^=c ^+d ^x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程模型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 之间的关系为z ^=0.2y -x ,根据(2)的结果回答下列问题. ①当年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?【解析】解 (1)由散点图可以判断,y ^=c ^+d ^x 适宜作为年销售量y 关于年宣传费x 的回归方程模型.(2)令w =x ,先建立y 关于w 的线性回归方程. 由于d ^=108.81.6=68,c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x. (3)①由(2)知,当x =49时,年销售量y 的预报值为y ^=100.6+6849=576.6,年利润z 的预报值为z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值z ^=0.2×(100.6+68x)-x =-x +13.6x +20.12,所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.【典型题型3】取消门票实行免费开放后,旅游的人数不断地增加,不仅带动了该市淡季的旅游,而且优化了旅游产业的结构,促进了该市旅游向“观光、休闲、会展”三轮驱动的理想结构快速转变.下表是从2009年至2018年,该景点的旅游人数y (万人)与年份x 的数据:模型①:由最小二乘法公式求得y 与x 的线性回归方程5081697=+ˆ..yx ; 模型②:由散点图的样本点分布,可以认为样本点集中在曲线=bx y ae 的附近. (1)根据表中数据,求模型②的回归方程=ˆbx yae .(a 精确到个位,b 精确到001.). (2)根据下列表中的数据,比较两种模型的相关指数2R ,并选择拟合精度更高、更可靠的模型,预测2021年该景区的旅游人数(单位:万人,精确到个位).①对于一组数据1(v ,1)w ,2(v ,2)w ,⋯,(n v ,)n w ,其回归直线αβ=+ˆˆˆwv 的斜率和截距的最小二乘法估计分别为121βαβ==--==--∑∑()()ˆˆ,()nii i nii ww v v w v vv . ②刻画回归效果的相关指数221211==-=--∑∑()()nii i n ii yy R yy .③参考数据:546235≈.e ,14342≈..e .表中101110===∑,i i ii ulny u u.【解析】解:(1)对=bx y ae 取对数,得=+lny bx lna , 设=u lny ,=c lna ,先建立u 关于x 的线性回归方程.1011021900010883==--==≈-∑∑()().ˆ.()ii i ii xx u u bxx , 6050108555456546=-≈-⨯=≈ˆˆ.....cu bx ,546235=≈≈ˆ.ˆc a e e .∴模型②的回归方程为011235=.ˆx ye ; (2)由表格中的数据,有3040714607>,即101022113040714607==>--∑∑()()iii i yy yy ,即10102211304071460711==-<---∑∑()()iii i yy yy ,∴2212<R R ,模型①的相关指数21R 小于模型②的22R ,说明回归模型②的拟合效果更好.2021年时,13=x ,预测旅游人数为0111314323523523542987⨯==≈⨯=..ˆ.y e e (万人).【典型题型4】近年来,随着国家综合国力的提升和科技的进步,截至2018年底,中国铁路运营里程达13.2万千米,这个数字比1949年增长了5倍;高铁运营里程突破2.9万千米,占世界高铁运营里程的60%以上,居世界第一位.如表截取了20122016-年中国高铁密度的发展情况(单位:千米/万平方千米).已知高铁密度y 与年份代码x 之间满足关系式=(b y ax a ,b 为大于0的常数).若对=b y ax 两边取自然对数,得到=+lny blnx lna ,可以发现lny 与lnx 线性相关.(1)根据所给数据,求y 关于x 的回归方程ˆ(lna ,ˆb 保留到小数点后一位);(2)利用(1)的结论,预测到哪一年,高铁密度会超过30千米/万平方千米.参考公式:设具有线性相关系的两个变量x ,y 的一组数据为(i x ,1=)(i y i ,2,⋯⋯)n ,则回归方程ˆˆˆybx a =+的系数:121==--=-∑∑()()ˆ()nii i nii xx y y b xx ,=-ˆay bx .参考数据:515092=-≈∑.ii i lnxlny lnx lny ,5221516=-≈∑()().ii lnx lnx ,515=≈∑ii lnx,5114=≈∑ii lny,274≈.,3034≈.ln .【解析】解:(1)对00=>>(,)b y ax a b 两边取自然对数,得=+lny blnx lna ; 令=i i v lnx ,=i i u lny ,1=i ,2,3,⋯,n ; 得u 与v 具有线性相关关系,计算51522150920575165==-===-∑∑.ˆ..i i i ii v uvubvv ,140575122255=-=-⨯=ˆ..lna u bv , ∴06≈ˆ.b,22≈≈.lna , ∴0622=+ˆ..u v ,故y 关于x 的回归方程为0622+=..ˆlnx y e , 即2206=..ˆye x ; (2)在(1)的回归方程中,0622+=..lnx y e ,高铁密度超过30千米/万平方千米; 即062230+>..lnx e ,06223034+>≈...lnx ln ,2>lnx .274>≈.x e ,即8=x 时,高铁密度超过30千米/万平方千米; 所以预测2019年,高铁密度超过30千米/万平方千米.【典型题型5】近年来,随着互联网技术的快速发展,共享经济覆盖的范围迅速扩张,继共享单车、共享汽车之后,共享房屋以“民宿”、“农家乐”等形式开始在很多平台上线.某创业者计划在某景区附近租赁一套农房发展成特色“农家乐”,为了确定未来发展方向,此创业者对该景区附近六家“农家乐”跟踪调查了100天.得到的统计数据如下表,x 为收费标准(单位:元/日),t 为入住天数(单位:),以频率作为各自的“入住率”,收费标准x 与“入住率”y 的散点图如图(1)若从以上六家“农家乐”中随机抽取两家深入调查,记ξ为“入住率”超过0.6的农家乐的个数,求ξ的概率分布列;(2)令ln z x =,由散点图判断ˆˆˆybx a =+与ˆˆy bz a =+哪个更合适于此模型(给出判断即可,不必说明理由)?并根据你的判断结果求回归方程.(ˆb结果保留一位小数) (3)若一年按365天计算,试估计收费标准为多少时,年销售额L 最大?(年销售额365L =⋅入住率⋅收费标准x )参考数据:1221ˆ,ni i i ni i x y nx y b x nx ==-⋅=-∑∑621,200,0.45,32500,ˆˆ0i i a y bx x y x ==-===∑615.1,12.7,i i i z y z =≈≈∑6231158.1,148.4i i z e =≈≈∑【解析】(1)ξ的所有可能取值为0,1,2.则()0P ξ==2426C C 62,155==()1124268115C C P C ξ⋅===,()2P ξ==2226C C 115= ξ∴的分布列(2)由散点图可知ˆˆybz a =+更适合于此模型. 其中6162216 1.070.52.0ˆ46i i i ii z y zy bz z ==--==≈--∑∑,ˆ3ˆˆay bz =-= 所求的回归方程为0.5ˆ3ylnx =-+ (3)()3650.53L lnx x =-+=3651095.2xlnx x -+ 365365365322L lnx =--+⨯'令505148.4L lnx x e =⇒=⇒=≈' ∴若一年按365天计算,当收费标准约为148.4元/日时,年销售额L 最大,最大值约为27083元.【典型题型6】噪声污染已经成为影响人们身体健康和生活质量的严重问题,为了了解声音强度D (单位:分贝)与声音能量(单位:2/W cm )之间的关系,将测量得到的声音强度1D 和声音能量i I (i =1,2…,10)数据作了初步处理,得到如图散点图及一些统计量的值.表中lg i i W I =,110i i W W ==∑。
非线性回归问题两个变量不呈线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型。
分析非线性回归问题的具体做法是: (1)若问题中已给出经验公式,这时可以将变量x 进行置换(换元),将变量的非线性关系转化为线性关系,将问题化为线性回归分析问题来解决.(2)若问题中没有给出经验公式,需要我们画出已知数据的散点图,通过与各种已知函数(如指数函数、对数函数、幂函数等)的图象作比较,选择一种与这些散点拟合得最好的函数,然后采用适当的变量置换,将问题化为线性回归分析问题来解决. 下面举例说明非线性回归分析问题的解法.例1 在彩色显影中,由经验可知:形成染料光学密度y 与析出银的光学密度x 由公式e bxy A =(b <0)表示,现测得实验数据如下:试求对的回归方程.分析:该例是一个非线性回归分析问题,由于题目中已给定了要求的曲线为ebxy A =(b <0)类型,我们只要通过所给的11对样本数据求出A 和b ,即可确定x 与y 的相关关系的曲线方程.解:由题意可知,对于给定的公式e bxy A =(b <0)两边取自然对数,得ln ln b y A x=+. 与线性回归方程对照可以看出,只要取1u x=,ln v y =,ln a A =,就有v a bu =+,这是v 对u 的线性回归直线方程,对此我们再套用相关性检验,求回归系数b 和a . 题目中所给数据由变量置换1u =,ln v y =变为如表所示的数据:由于|r |=0.998>0.602,可知u 与v 具有很强的线性相关关系. 再求得0.146b =-,0.548a =,∴v =0.5480.146u -,把u 和v 置换回来可得0.146ln 0.548y x=-, ∴0.1460.1460.1460.5480.548e1.73xxxy eee---===,∴回归曲线方程为0.1461.73exy -=.点评:解决本题的思路是通过适当的变量置换把非线性回归方程转化为线性回归方程,然后再套用线性回归分析的解题步骤.(2)求出y 对x 的回归方程. 解析:(1)作出散点图如图1所示.(2)由散点图看出样本点分布在一条指数型曲线e bxy c =(c >0)的周围,则ln ln y bx c =+.令ln ln z y a c ==,,则z bx a =+.相应的散点图如图2. 从图2可以看出,变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合.由表中数据得到线性回归方程为0.69 1.115z x =+.因此 细菌的繁殖个数对温度的非线性回归方程为0.69 1.115e x y +=.点评:通过作散点图看出,本题是一个非线性回归问题,通过变量置换转化为线性回归问题求解的.值得注意的是,本题的数据与回归曲线是拟合得相当好的,这表明确定性关系(如公式、函数关系式)和相关关系之间并没有一条不可逾越的鸿沟.由于有实验误差、测量误差等存在,变量之间的确定性关系往往通过相关关系表现出来;反过来,在有些问题中,可以研究相关关系来深入了解变量变化的内在规律,从而找到它们的确定性关系.。
非线性回归方程的求法根据原始数据作出散点图根据散点图,选择恰当的拟合函数作恰当变换,将其转化成线性函数,求回归方程在(3)的基础上通过相应变换,即可得非线性回归方程.微专题7 非线性回归方程知识梳理所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。
回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。
此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。
通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。
典例精讲【例1】红铃虫是棉花的主要害虫之一,能对农作物造成严重伤害,每只红铃虫的平均产卵数y 和平均温度x 有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.平均温度/C x ︒ 21 23 25 27 29 31 33 平均产卵数/y 个7 11 21 24 66 115 325 z lny =1.92.43.03.24.24.75.8(1)根据散点图判断,y bx a =+与y ce =(其中 2.718e =⋅⋅⋅为自然对数的底数)哪一个更适宜作为平均产卵数y 关于平均温度x 的回归方程类型?(给出判断即可,不必说明理由)并由判断结果及表中数据,求出y 关于x 的回归方程.(计算结果精确到0.01)(2)根据以往统计,该地每年平均温度达到28C ︒以上时红铃虫会造成严重伤害,需要人工防治,其他情况均不需要人工防治,记该地每年平均温度达到28C ︒以上的概率为p .记该地今后5年中,恰好需要3次人工防治的概率为()f p ,求()f p 的最大值,并求出相应的概率0p .附:回归方程ˆˆˆybx a =+中,1122211()()ˆ()nniii ii i nniii i x x yy x ynxy b x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据721i i x =∑71i i i x y =∑71i i i x z =∑y z5215 17713 717 81.3 3.6【例2】个人所得税是国家对本国公民、居住在本国境内的个人的所得和境外个人来源于本国的所得征收的一种所得税.我国在1980年9月10日,第五届全国人民代表大会第三次会议通过并公布了《中华人民共和国个人所得税法》.公民依法诚信纳税是义务,更是责任现将自2013年至2017年的个人所得税收入统计如表:年 份 2013 2014 2015 2016 2017 时间代号x 1 2 3 4 5 个税收入/y 千亿元6.537.388.6210.0911.97根据散点图判断,可用①nx y me =与②2y px q =+作为年个人所得税收入y 关于时间代号x 的回归方程,经过数据运算和处理,得到如下数据:xyz w521()ii xx =-∑521()ii w w =-∑38.922.161110 37451()()ii i xx z z =--∑51()()iii w w yy =--∑1.6083.83表中z lny =,2w x =,215i i z x ==∑,参考数据: 1.68 5.37e =,0.96 2.61e =.以下计算过程中四舍五入保留两位小数.(1)根据所给数据,分别求出①,②中y 关于x 的回归方程;(2)已知2018年个人所得税收入为13.87千亿元,用2018年的数据验证(1)中所得两个回归方程,哪个更适宜作为y 关于时间代号x 的回归方程?(3)你还能从统计学哪些角度来进一步确认哪个回归方程更适宜?(只需叙述,不必计算)附:对于一组数据1(u ,1)v ,2(u ,2)v ,⋯,(n u ,)n v ,其回归直线v a u β=+的斜率和截距的最小二乘估计分别为:121()()ˆˆˆ,()nii i nii uu v v v u uu βαβ==--==--∑∑.【变式1-1】为了迎接十四运,提高智慧城市水平,西安公交公司近期推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,x 表示活动推出的天数,y 表示每天使用扫码支付的人次(单位:十人次),统计数据如表所示:x1 2 3 4 5 6 7 y611213466101196(1)根据散点图判断,在推广期内,y a bx =+与(x y c d c =⋅,d 均为大于零的常数),哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型?(给出判断即可,不必说明理由);(2)根据(1)的判断结果及表1中的数据,建立y 与x 的回归方程,并预测活动推出第8天使用扫码支付的人次;(3)推广期结束后,车队对乘客的支付方式进行统计,结果如表:支付方式 现金 乘车卡 扫码 比例10%60%30%西安公交六公司车队为缓解周边居民出行压力,以90万元的单价购进了一批新车,根据以往的经验可知,每辆车每个月的运营成本约为0.66万元.已知该线路公交车票价为2元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据统计结果得知,使用扫码支付的乘客中有16的概率享受7折优惠,有13的概率享受8折优惠,有12的概率享受9折优惠.预计该车队每辆车每个月有2万人次乘车,根据所给数据以事件发生的频率作为相应事件发生的概率,在不考虑其它因素的条件下,按照上述收费标准,请你估计这批车辆需要几年(结果取整数年)才能盈利? 参考数据:y v71i ii x y=∑71i ii x v=∑0.541062.14 1.54 2535 50.12 3.47其中其中i i v lgy =,117i i v v ==∑,参考公式:对于一组数据1(u ,1)v ,2(u ,2)v ,,(n u ,)n v ,其回归直线ˆˆˆvu αβ=+的斜率和截距的最小二乘估计公式分别为:1221ˆni i i nii u vnu v unu β==-⋅=-∑∑,ˆˆv u αβ=-.【变式1-2】某公司拟对某种材料进行应用改造,产品的成本由原料成本及非原料成本组成,每件产品的非原料成本y (元)与生产该产品的数量x (千件)有关,经统计得到如下数据:x1 2 3 4 5 6 7 8 y1126144.53530.5282524对历史数据对比分析,考虑用函数模型①y a x=+,②dx y ce =分别对两个变量的关系进行拟合,令模型①中1u x=上,模型②中w lny =,对数据作了初步处理,已计算得到如下数据: u y2u821i i y =∑821i i u =∑81i i i u y =∑0.616185.5⨯2e -0.34 45 0.115 22385.5 1.53 183.4 61.4 0.135122请从样本相关系数(精确到0.01)的角度判断,哪个模型拟合效果更好?(2)根据(1)的选择及表中数据,建立y 关于x 的非线性回归方程,并用其估计当每件产品的非原料成本为21元时,产量约为多少千件?参考公式:对于一组数据1(u ,1)v ,2(u ,2)v ,⋯,(n u ,)n v 其回归直线ˆˆˆva u β=+的斜率和截距的最小二乘估计分别为:1221ˆni i i nii u vnuv unu β==-=-∑∑,ˆˆˆav u β=-,相关系数1222211()()ni ii n ni i i i u vnu vr u nu v nv ===-⋅=-⋅-∑∑∑.巩固训练1、一只药用昆虫的产卵数y (单位:个)在一定范围内与温度x (单位:C)︒有关,现收集了该种药用昆虫的6组观测数据如表:温度/C x ︒ 21 23 24 27 29 32 产卵数/y 个61120275777(1)若用线性回归模型,求y 关于x 的回归方程ˆˆybx a =+.ˆ(a ,b 的结果精确到0.1) (2)若用非线性回归模型,y 关于x 的回归方程为0.2303ˆ0.06x ye =且决定系数20.9522R =. ①试与(1)中的线性回归模型相比,用2R 说明哪种模型的拟合效果更好. ②用拟合效果好的模型预测温度为35C ︒时该种药用昆虫的产卵数.(结果取整数)[参考公式:22121ˆ()1()nii i n ii yy R yy ==-=--∑∑.参考数据:61()()557i i i x x y y =--=∑,621()3930i i y y =-=∑,621ˆ()236.64ii i yy=-=∑,8.06053167]e ≈(此公式在下文中不再列出)2、为响应党中央“扶贫攻坚”的号召,某单位指导一贫困村通过种植紫甘薯来提高经济收入.紫甘薯对环境温度要求较高,根据以往的经验,随着温度的升高,其死亡株数成增长的趋势.下表给出了2019年种植的一批试验紫甘薯在温度升高时6组死亡的株数. 温度/C x ︒ 21 23 24 27 29 30 死亡数/y 株 61120275777经计算,1266i i x x ===∑,1336i i y y ===∑,1()()557i ii x x y y =-⋅-=∑,21()84i i x x =-=∑,621()3930i i y y =-=∑,621ˆ()236.64i i i y y=-=∑,8.06053167e ≈,其中i x ,i y 分别为试验数据中的温度和死亡株数,1i =,2,3,4,5,6.(1)若用一元线性回归模型,求y 关于x 的经验回归方程ˆˆˆybx a =+(结果精确到0.1); (2)若用非线性回归模型求得y 关于x 的非线性经验回归方程0.2303ˆ0.06x y e =,且相关指数为20.8841R =.(ⅰ)试与(1)中的回归模型相比,用2R 说明哪种模型的拟合效果更好;(ⅱ)用拟合效果好的模型预测温度为35C ︒时该批紫甘薯的死亡株数(结果取整数).3、一个国家的数学实力往往影响着国家的科技发展,几乎所有的重大科技进展都与数学息息相关,我国第五代通讯技术(5)G 的进步就是源于数学算法的优化.华为公司所研发的SingleRAN 算法在部署5G 基站时可以把原来的4G 、3G 基站利用起来以节省开支,华为创始人任正非将之归功于“数学的力量”,近年来,我国加大5G 基站建设力度,基站已覆盖所有地级市,并逐步延伸到乡村.(1)现抽样调查英市所轴的A 地和B 地5G 基站覆盖情况,各取100个村,调查情况如表:已覆盖 未覆盖 A 地 20 80 B 地25754个村中A 地5G 已覆盖的村比B 地多的概率;(2)该市2020年已建成的5G 基站数y 与月份x 的数据如表:x1 2 3 4 5 6 7 8 9 10 11 12y2833404285477019051151 1423 1721 2109 2601 3381有效控制,5G 基站建设进度越来越快,根据散点图分析,已建成的5G 基站数呈现先慢后快的非线性变化趋势,采用非线性回归模型ˆˆbx y ae =拟合比较合理,请结合参考数据,求5G 基站数y 关于月份x 的回归方程.ˆ(b的值精确到0.01). 附:设u lny =,则i i u lny =,(1i =,2,,12),1299.17y ≈, 6.88u ≈,1221()143i i x x =-=∑,121()()37238ii i xx y y =--=∑,121()()32.42i i i x x u u =--≈∑,对于样本(i x ,)i y ,(1i =,2,,)n 的线性回归方程ˆˆˆybx a =+有121()()ˆ()niii nii x x yy b x x ==--=-∑∑,ˆˆay bx =-.4、当前,短视频行业异军突起,抖音、快手、秒拍等短视频平台吸引了大量流量和网络博主的加入.红人榜的数据推出是体现各平台KOL 网络博主商业价值的榜单,每周一期,红人榜能反应最近一周KOL 网络的综合价值,以粉丝数、集均评论、集均赞,以及集均分享来进行综合衡量,红人榜单在统计时发现某平台一网络博主的累计粉丝数y (百万)与入驻平台周次x (周)之间的关系如图所示: 设lnx ω=,数据经过初步处理得:55552111173,5, 6.3,258ii i i i i i i i yx y ωω========∑∑∑∑,5521186,()160i ii i i yy y ω===-=∑∑,521ˆ()9i i y y=-=∑.(其中i x ,i y 分别为观测数据中的周次和累计粉丝数)(1)求出y 关于x 的线性回归模型ˆˆˆybx a =+的相关指数21R ,若用非线性回归模型ˆˆˆy clnx d =+求得的相关指数220.9998R =,试用相关指数2R 判断哪种模型的拟合效果较好(相关指数越接近于1,拟合效果越好)(2)根据(1)中拟合效果较好的模型求出y 关于x 的回归方程,并由此预测入驻平台8周后,对应的累计粉丝数y 为多少?附参考公式:相关指数22121ˆ()1()nii nii y yR yy ==-=--∑∑,121()()ˆ()niii nii x x yy bx x ==--=-∑∑,ˆˆay bx =-. 参考数据:20.70ln ≈.。
高考数学复习考点知识与题型专题讲解专题18 回归分析、独立性检验1.有关独立性检验的问题,解题思路如下:(1)利用频率估计概率;(2)根据题意,求得2K的值,对照临界值得结果.2.对于非线性回归方程及其应用,考查将非线性回归问题转化为线性回归问题求解,在解题的过程中,要注重回归方程的公式的正确计算,注意所给数据的正确应用.2倍.1 / 31(1)求表中a,b的值,并补全表中所缺数据;(2)运用独立性检验思想,判断是否有99.5%的把握认为中学生使用手机对学习有影响?参考数据:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】三省三校“3 3 3”2021届高考备考诊断性联考卷(二)【答案】(1)28,14,ab=⎧⎨=⎩,表格答案见解析;(2)有99.5%的把握认为中学生使用手机对学习有影响.【分析】(1)由题意可得122680,2a ba b+++=⎧⎨=⎩从而可求出,a b的值,进而可填出列联表;(2)直接利用公式()()()()()22n ad bcKa b c d a c b d-=++++求解,然后根据临界值表得结论【解析】(1)由己知得122680,2a ba b+++=⎧⎨=⎩解得28,14,ab=⎧⎨=⎩补全表中所缺数据如下:(2)根据题意计算观测值为()2280282614129.8257.87942384040K⨯⨯-⨯=≈>⨯⨯⨯,所以有99.5%的把握认为中学生使用手机对学习有影响.2.某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度Cx︒时相对应产卵数个数为y的8组数据,为了对数据进行分析,他们绘制了如下散点图:(1)根据散点图,甲、乙两位同学分别用y bx a=+和z dx c=+(其中lnz y=)两种模型进行回归分析,试判断这两位同学得到的回归方程中,哪一个的相关指数2R更接近1;(给出判断即可,不必说明理由)(2)根据(1)的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分析的模型,并利用下表中数据,计算该模型的回归方程:(方程3 / 31表示为()y f x =的形式,数据计算结果保留两位小数)(3)据测算,若只此种昆虫的产卵数超过4e ,则会发生虫害.研究性学习小组的同学通过查阅气象资料得知近期当地温度维持在25C ︒左右,试利用(2)中的回归方程预测近期当地是否会发生虫害. 附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线v u βα=+的斜率和截距的最小二乘估计分别为1221ˆˆˆ,nl i i ni i u v nuvv u unu βαβ==-==--∑∑. 【试题来源】甘肃省兰州市2020-2021学年高三下学期诊断试题【答案】(1)乙同学模型的相关指数2R 更接近1;(2)应选择z dx c =+做为回归方程,0.22 2.22x y e -=;(3)近期当地不会发生虫害.【分析】(1)通过观察图象即可得出结论;(2)根据(1)的结论,应选择z dx c =+做为回归方程,利用最小二乘法即可求解,求出,d c 即可. (3)当25x =时,求出估计值,即可判断得出结论.【解析】(1)乙同学模型的相关指数2R 更接近1.(2)根据(1)的结论,应选择z dx c =+做为回归方程,根据公式,812221757826 3.30.22, 3.30.2226 2.425722826i i i nii x z nxzd c z dx xnx =-=--⨯⨯==≈=-≈-⨯=--⨯-∑∑, 0.22 2.42z x ∴=-,5 / 31故y 关于x 的回归方程为0.22 2.22x y e -=.(3)当25x =时,0.22 2.22 3.084x y e e e -==<,因此近期当地不会发生虫害. 3.人均可支配收入是反映一个地区居民收入水平和城市经济发展水平的重要指标,并且对人均消费水平有重大影响,下图是根据国家统计局发布的《2020年上半年居民收入和消费支出情况》绘制的,是我国31个省(区、市)2020年上半年人均可支配收入x (单位:元)与人均消费支出y (单位:元)的散点图.(1)由散点图可以看出,可以用线性回归模型ˆˆybx a =+拟合人均消费支出y 与人均可支配收入x 的关系,请用相关系数加以说明; (2)建立y 关于x 的线性回归方程(精确到0.01);(3)根据(2)的结论,规定半年人均盈余(人均可支配收入-人均消费支出)不低于4620元的省(区、市)达到阶段小康的标准,则估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为多少元? 参考数据:参考公式:相关系数()()niix x y y r --=∑,回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-. 【试题来源】2021年新高考测评卷数学(第二模拟)【答案】(1)答案见解析;(2)ˆ0.482192y x =+;(3)13100元.【分析】(1)将已知数据代入相关系数的求解公式即可得解;(2)根据题中数据及参考公式求得ˆb ,ˆa ,即可建立y 关于x 的线性回归方程;(3)由题意知半年人均盈余为ˆx y-,得到不等式ˆ4620x y -≥,解不等式即可. 【解析】(1)由题意知()()316839000000.983800018400iix x yy r --==≈⨯∑,因为y 与x 的相关系数近似为0.98,接近1,所以y 关于x 的线性相关程度非常高,因此可以用线性回归模型拟合y 与x 的关系.(2)()()()3113121683900000ˆ0.481412000000ii i ii xx y y bxx ==--==≈-∑∑,ˆˆ96320.48155002192ay bx =-≈-⨯=,所以ˆ0.482192y x =+. (3)半年人均盈余为ˆ0.4821920.522192x yx x x -=--=-, 令0.5221924620x -≥,得13100x ≥,故估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为131007 / 31元.4.近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a =+dy c x=+建立y 关于x 的回归方程,令s =1t =得到如下数据:213t131i =∑21.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953.(1)用相关系数说明哪种模型建立y 与x 的回归方程更合适; (2)根据(1)的结果及表中数据,建立y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374=15.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v uαβ=+的斜率和截距的最小二乘法估计分别为1221ni i i nii u vnu v unuβ==-⋅=-∑∑,v u αβ=-,相关系数ni i u vnu vr -⋅∑.【试题来源】湖北省八市2021届高三下学期3月联考 【答案】(1)用d y c x =+模型建立y 与x 的回归方程更合适;(2)10ˆ111.54yx=-;(3)当温度为20时这种草药的利润最大.【分析】(1)利用相关系数1r ,2r ,比较1||r 与2||r 的大小,得出用模型dy c x=+建立回归方程更合适;(2)根据(1)的结论求出y 关于x 的回归方程即可;(3)由题意写出利润函数ˆz,利用基本不等式求得利润z 的最大值以及对应的x 值.【解析】(1)由题意知20.9953r =-,10.8858r ====,因为121r r <<,所有用dy c x=+模型建立y 与x 的回归方程更合适. (2)因为1311322113 2.1ˆ100.2113i ii ii t y t ydtt ==-⋅-===--∑∑, ˆˆ109.94100.16111.54cy dt =-=+⨯=,9 / 31所以ˆy关于x 的回归方程为10ˆ111.54y x=- (3)由题意知11012020(111.54ˆˆ)22zy x x x =-=--20012230.8()2x x =-+ 2230.8202210.8≤-=,所以22.8ˆ10z≤,当且仅当20x 时等号成立,所以当温度为20时这种草药的利润最大.5.已知某班有50位学生,现对该班关于“举办辩论赛”的态度进行调查,,他们综合评价成绩的频数分布以及对“举办辩论赛”的赞成人数如下表:(1)请根据以上统计数据填写下面2×2列联表,并回答:是否有95%的把握认为“综合评价成绩以80分位分界点”对“举办辩论赛”的态度有差异?(2)若采用分层抽样在综合评价成绩在[60,70),[70,80)的学生中随机抽取10人进行追踪调查,并选其中3人担任辩论赛主持人,求担任主持人的3人中至少有1人在[60,70)的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】山东省聊城市第一中学2021届高三一模检测题(一)【答案】(1)表格见解析,不能;(2)2930.【分析】(1)由已知完成列联表,结合公式计算2K 根据参考数据即可判断结果;(2)由分层抽样得在[)60,70里面抽6个,[)70,80里面抽4个,再用对立事件求解概率即可. 【解析】(1)做个皮尔逊卡方检验的话,有()2250286412 3.125 3.84132184010K ⨯⨯-⨯==<⨯⨯⨯故此不能推翻零假设,不能认定成绩和态度有关.(2)这样分层抽样,会在[)60,70里面抽6个,[)70,80里面抽4个,11 / 31设A 为没有人在[60,70)内的事件,则概率即为()1P P A =-3431029130C C =-=.6.某疫苗进行安全性临床试验.该疫苗安全性的一个重要指标是注射疫苗后人体血液中的高铁血红蛋白(MetHb )的含量(以下简称为“M 含量”)不超过1%,则为阴性,认为受试者没有出现血症.若一批受试者的M 含量平均数不超过0.65%,出现血症的被测试者的比例不超过5%,同时满足这两个条件则认为该疫苗在M 含量指标上是“安全的”;否则为“不安全”.现有男、女志愿者各200名接受了该疫苗注射.经数据整理,制得频率分布直方图如图.(注:在频率分布直方图中,同一组数据用该区间的中点值作代表.)(1)请说明该疫苗在M 含量指标上的安全性;(2)按照性别分层抽样,随机抽取50名志愿者进行M 含量的检测,其中女性志愿者被检测出阳性的恰好1人.请利用样本估计总体的思想,完成这400名志愿者的22⨯列联表,并判断是否有超过95%的把握认为,注射该疫苗后,高铁血红蛋白血症与性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++.【试题来源】江西省九所重点中学(玉山一中、临川一中等)2021届高三3月联合考试【答案】(1)该疫苗在M含量指标上是“安全的”;(2)表格见解析,没有. 【分析】(1)求出区间(]1.0,1.2上的频率,以及平均数即可得结论;(2)根据题意写出列联表,计算2K的值,并与3.841比较即可得出结论. 【解析】(1)由频率分布直方图得M含量数据落在区间(]1.0,1.2上的频率为0.150.20.03⨯=,故出现血症的比例为3%5%<,由直方图得平均数为0.30.20.50.30.70.30.90.17 1.10.030.606x=⨯+⨯+⨯+⨯+⨯=即志愿者的M含量的平均数为0.606%0.65%<综上,该疫苗在M含量指标上是“安全的”.(2)依题意得,抽取的50名志愿者中女性志愿者应为25人由已知,25名女性志愿者被检测出阳性恰有1人,故女性中阳性的频率0.04 所以全部女性志愿者阳性共有2000.048⨯=人由(1)知400名志愿者中,阳性的频率为0.03,所以阳性的人数共有4000.0312⨯=人因此男性志愿者被检测出阳性的人数是1284-=人.所以完成表格如下:由22⨯列联表可()22400419281961.375 3.84120020012388K⨯⨯-⨯=≈<⨯⨯⨯,由参考表格,可得,故没有超过95%的把握认为注射疫苗后,高铁血红蛋白血症与性别有关.7.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:(1)由上表数据可知,可用线性回归模型拟合y与x的关系.请用相关系数加以说明;(精确到0.01)(2)求出y关于x的线性回归方程,并估算该种机械设备使用10年的失效费.13 / 31参考公式:相关系数()()niix x y y r --=∑.线性回归方程ˆˆˆybx a =+中斜率和截距最小二乘估计计算公式:()()()121ˆniii ni i x x y y bx x ==--=-∑∑,ˆˆay bx =-. 参考数据:()71()14.00i i i x x y y =--=∑,()7217.08i iy y =-=∑14.10≈.【试题来源】四川省成都市2021届高三第二次诊断性检测【答案】(1)答案见解析;(2)ˆ0.5 2.3yx =+,7.3万元. 【分析】(1)根据统计数据求x 、y 、()721i i x x =-∑,结合参考数据及相关系数公式,求相关系数r ,进而判断y 与x 的相关程度;(2)利用最小二乘法公式估计ˆb 、ˆa ,写出线性回归方程,进而将10x =代入估算求值.【解析】(1)由题意,知123456747x ++++++==,2.903.30 3.604.40 4.805.20 5.904.307y ++++++==,()()()()()()()()72222222211424344454647428i i x x =-=-+-+-+-+-+-+-=∑.所以结合参考数据知14.000.9914.10r ==≈≈.因为y 与x 的相关系数近似为0.99,所以y 与x 的线性相关程度相当大,从而可以用线性回归模型拟合y 与x 的关系.15 / 31(2)因为()()()7172114ˆ0.528iii ii x x y y bx x ==--===-∑∑, 所以ˆˆ 4.30.54 2.3ay bx =-=-⨯=. 所以y 关于x 的线性回归方程为ˆ0.5 2.3y x =+,将10x =代入线性回归方程,得ˆ0.510 2.37.3y=⨯+=. 所以估算该种机械设备使用10年的失效费为7.3万元.8.人类已经进入大数据时代.目前,数据量级已经从TB (1TB =1024GB )级别跃升到PB (1PB =1024TB ),EB (1EB =1024PB )乃至ZB (1ZB =1024EB )级别.国际数据公司(IDC )研究结果表明,2008年全球产生的数据量为0.49ZB ,2009年数据量为0.8ZB ,2010年增长到1.2ZB ,2011年数据量更是高达1.82ZB .下表是国际数据公司(IDC )研究的全球近6年每年产生的数据量(单位:ZB )及相关统计量的值:表中ln i i z y =,6116i i z z ==∑.(1)根据上表数据信息判断,方程21c xy c e =⋅(e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(2c 精确到0.01).(2)有人预计2021年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由.参考数据: 4.5695.58e ≈, 4.5897.51e ≈,回归方程y a bx =+中,斜率最小二乘法公式为()()()1122211n niii ii i nniij i x x y y x y nxyb x x xnx====---==--∑∑∑∑,a y bx =-.【试题来源】2021年高三数学二轮复习讲练测(新高考版) 【答案】(1) 1.520.38x y e +=;(2)见解析.【分析】(1)设ln z y =,则12ln z c c x =+,再根据参考数据及公式即可得解 (2)先将8x =代入得预计2021年数据量,进而和2011年的50倍比较大小即可得解【解析】(1)由21c xy c e =⋅,两边同时取自然对数得()2112ln ln ln c xy c e c c x =⋅=+,设ln z y =,则12ln z c c x =+. 因为 3.5x =, 2.85z =,()62117.58i i x x=-=∑,()()616.7.i i i x x z z =--=∑,所以()()()12216.730.3817.58niii nij x x y z c x x ==--==≈-∑∑,12ln 2.850.38 3.5 1.52c z c x =-=-⨯=.17 / 31所以 1.520.38ln z x y =+=,所以 1.520.38x y e +=;(2)令8x =,得 1.520.388 4.56ˆ95.58 1.825091ye e +⨯==≈>⨯=. 预计2021年全世界产生的数据规模会超过2011年的50倍.【名师点睛】对于非线性回归方程的求解,一般要结合题意作变换,转化为线性回归方程来求解,同时也要注意相应数据的变化.9.随着手机游戏的发展,在给社会带来经济利益的同时,也使许多人深陷其中,从而产生一些负面的影响.A ,B 两所学校为了解学生每天玩游戏的时间,各自抽取了100名学生进行调查,得到的数据如表所示:A 学校B 学校(1)以样本估计总体,计算A 学校学生日游戏时间的平均数以及B 学校学生日游戏时间的中位数.(2)为了调查家长对孩子玩游戏的态度,学校相关领导随机抽取了200名男性家长和200名女性家长进行调查,并将所得结果统计如表所示,判断是否有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】普通高等学校招生全国统一考试数学预测卷(一)【答案】(1)A学校学生日游戏时间的平均数为64.7()min;B学校学生日游戏时间的中位数为74()min;(2)没有.【分析】(1)根据频率分布表,利用平均数公式求解;由中位数的定义求解;(2)根据22⨯列联表中的数据,利用()()()()()22n ad bcKa b c d a c b d-=++++求得2K的值,再与临界值表对照下结论.【解析】(1)A学校学生日游戏时间的平均数为3.50.1450.14550.16650.2750.18850.13950.0964.7⨯+⨯+⨯+⨯+⨯+⨯+⨯=()min.B学校学生日游戏时间的中位数为5037102070107425----+⨯=()min.19 / 31(2)由已知可得22⨯列联表:则()2240013639161648.17210.828200200297103K ⨯⨯-⨯=≈<⨯⨯⨯, 所以没有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关. 10.为了解国内不同年龄段的民众旅游消费的基本情况.某旅游网站从其数据库中随机抽取了1000条客户信息进行分析,这些客户一年的旅游消费金额数据如下表所示;把一年的旅游消费金额满8千元称为“高消费”,否则称为“低消费”. (1)从这些客户中随机选一人,求该客户是高消费的中老年人的概率; (2)完成下面的22⨯列联表,并判断能否有99%的把握认为旅游消费的高低与年龄有关.附表及公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++【试题来源】学科网2021年高三1月大联考考后强化卷(新课标Ⅱ卷)【答案】(1)15;(2)填表见解析;有.【分析】(1)用频率估计概率,计算样本中高消费的中老年人的频率即为概率;(2)将数据填入列联表,用2K的计算公式计算2K的观测值k,与附表中的数据比较可得出结论.【解析】(1)样本中总客户数为1000,其中高消费的中老年人有200人,随机选一人,则该客户是高消费的中老年人的概率为2001 10005=.(2)2×2列联表如下:21 / 31可得2K的观测值21000(300200100400)7.937400600700300k ⨯⨯-⨯=≈⨯⨯⨯, 因为7.937 6.635>,所以有99%的把握认为旅游消费的高低与年龄有关. 11.2020山东省旅游发展大会暨首届中国国际文化旅游博览会在济南奥体中心东荷体育馆隆重开幕.大会以“文旅融合发展,乐享好客山东”为主题,来自38个国家和地区的友好宾朋,跨越空间阻隔,相约线上交流,共同推动山东文化和旅游业发展谱写新的篇章.某机构为了解人们对博览会的关注度是否与年龄有关,随机抽取了200位市民(其中40周岁及以下与40周岁以上各100人)进行问卷调查,并得到如下的22⨯列联表:(1)根据22⨯列联表,判断是否有90%的把握认为对博览会的关注度与年龄有关;(2)若从关注度极高的被调查者中按年龄分层抽样的方法抽取9人了解他们从事的职业情况,再从9人中任意选取2人谈谈关注博览会的原因,求这2人中两个年龄段的市民各一人的概率.附:22()()()()()n ad bc Ka b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】普通高等学校招生全国统一考试数学预测卷(三)【答案】(1)有;(2)59.【分析】(1)根据22⨯列联表中的数据求得2K 值,再与临界值表对照下结论; (2)先利用分层抽样的方法抽取各层的人数,然后再求得9人中任意选取2人的基本事件数和这2人中两个年龄段的市民各一人的基本事件数,代入古典概型的概率公式求解.【解析】(1)由22⨯列联表可得22200(60524840) 2.899 2.70610010010892K ⨯⨯-⨯=≈>⨯⨯⨯,故有90%的把握认为对博览会的关注度与年龄有关.(2)根据题意,从关注度极高的被调查者中按年龄分层抽样的方法抽取9人, 则抽取40周岁及以下的有6095108⨯=人,40周岁以上的有954-=人. 从9人中任意选取2人的基本事件有29C 36=个,这2人中两个年龄段的市民各一人的基本事件有1154C C 20=个;则这2人中两个年龄段的市民各一人的概率205369P ==. 12.某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表:并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:23 / 31(1)求相关系数r 的大小(精确到0.01),并判断管理时间y 与土地使用面积x 的线性相关程度;(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:()()niix x y y r --=∑,()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++. 临界值表:22.02.【试题来源】重组卷05-冲刺2021年高考数学之精选真题模拟重组卷(新课标卷)【答案】(1)0.84;管理时间y 与土地使用面积x 的线性相关程度为强相关;(2)有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.【分析】(1)根据参考公式和数据计算相关系数r 的值,并判断强弱关系;(2)根据列联表计算2K ,并和临界数表比较大小. 【解析】(1)1234535x ++++==,911142620165y ++++==, ()()()()()()()()113916231116331416niii x x y y =--=-⨯-+--+-⨯-∑()()()()43261653201637+--+--=,()()()()()()2222221132333435310ni i x x =-=-+-+-+-+-=∑, ()()()()()()22222219161116141626162016194ni i y y =-=-+-+-+-+-=∑44.04=≈,()()370.840.7544.04niix x y y r --==≈>∑, 所以管理时间y 与土地使用面积x 的线性相关程度为强相关.(2)由条件可知女性不愿意参与管理的人数为300140604060---=()223001406060402510.828200100180120K ⨯⨯-⨯==>⨯⨯⨯,所以有99.9%的把握认为村民的性别与参与管理的意愿具有相关性. 13.某公司对项目进A 行生产投资,所获得的利润有如下统计数据表:(1)请用线性回归模型拟合y 与x 的关系,并用相关系数加以说明; (2)该公司计划用7百万元对A 、B 两个项目进行投资.若公司对项目B 投资25 / 31()16x x ≤≤百万元所获得的利润y 近似满足:0.490.160.491y x x =-++,求A 、B 两个项目投资金额分别为多少时,获得的总利润最大? 附:①对于一组数据()11,x y 、()22,x y 、、(),n n x y ,其回归直线方程y bx a=+的斜率和截距的最小二乘法估计公式分别为1221ni ii nii x y nx yb xnx==-⋅=-∑∑,ˆa y bx=-. ②线性相关系数ni ix y nx yr -⋅=∑.一般地,相关系数r 的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较弱. 参考数据:对项目A 投资的统计数据表中111ni i i x y ==∑,212.24ni i y ==∑ 2.1≈.【试题来源】2021年高考数学金榜预测卷(山东、海南专用)【答案】(1)0.2y x =;答案见解析;(2)对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大.【分析】(1)计算出x 、y 的值,将表格中的数据代入最小二乘法公式,求出b 、a 的值,可得出回归直线方程,并计算出相关系数r 的值,可得出结论;(2)求得()0.491.930.0411y x x ⎡⎤-++⎢+⎣=⎥⎦,利用基本不等式可求得y 的最大值,利用等号成立求得x 的值,即可得出结论.【解析】(1)对项目A 投资的统计数据进行计算,有3x =,0.6y =,52155i i x ==∑,所以515222151190.255535i ii i i x y x yb x x==-⋅-===-⨯-∑∑,0.60.230a y bx =--⨯==,所以回归直线方程为0.2y x =.线性相关系数55i ix y x yr -⋅==∑0.95340.95=≈>, 这说明投资金额x 与所获利润y 之间的线性相关关系较强, 用线性回归方程0.2y x =对该组数据进行拟合合理;(2)设对B 项目投资()16x x ≤≤百万元,则对A 项目投资()7x -百万元. 所获总利润()()0.490.490.490.27 1.930.60411110.x x y x x x ⎡⎤++-=⎥=--++⎢++⎣⎦1.93 1.65≤-=, 当且仅当()100.04194.x x =++,即 2.5x =时取等号, 所以对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大. 14.有一种速度叫中国速度,有一种骄傲叫中国高铁.中国高铁经过十几年的发展,取得了举世瞩目的成就,使我国完成了从较落后向先进铁路国的跨越式转变.中国的高铁技术不但越来越成熟,而且还走向国外,帮助不少国家修建了高铁.高铁可以说是中国一张行走的名片.截至到2020年,中国高铁运营里程已经达到3.9万公里.下表是2013年至2020年中国高铁每年的运营里程统计表,它反映了中国高铁近几年的飞速发展:27 / 31根据以上数据,回答下面问题.(1)甲同学用曲线y =bx +a 来拟合,并算得相关系数r 1=0.97,乙同学用曲线y =ce dx 来拟合,并算得转化为线性回归方程所对应的相关系数r 2=0.99,试问哪一个更适合作为y 关于x 的回归方程类型,并说明理由;(2)根据(1)的判断结果及表中数据,求y 关于x 的回归方程(系数精确到0.01). 参考公式:用最小二乘法求线性回归方程的系数公式:121()()ˆˆ,()niii nii x x y y ba y bxx x ==--==--∑∑;参考数据:882112.48,()()15.50,()42.00,i i i i i y x x y y x x ===--=-=∑∑令8820.4411ln ,0.84,()() 6.50,() 1.01, 1.15.i i i i i w y w x x w w w w e ====--=-==∑∑【试题来源】安徽省示范高中皖北协作区2021届高三下学期第23届联考 【答案】(1)答案见解析;(2)0.151.15x y e =.【分析】(1)比较已知的相关系数大小关系即可得出正确答案;(2)由已知数据求出x ,结合回归方程变形为ln ln y c dx =+,求出d 和ln c ,从而可求出回归方程.【解析】(1)因为1201r r <<<,所以dx y ce =更适合作为y 关于x 的回归方程类型. (2)12345678364.588x =++++++===,由dx y ce =得ln ln y c dx =+,即ln c dx ω=+,则1821()()6.50.1542()Niii ii x x d x x ωω==--==≈-∑∑, 13ln 0.84 4.50.1484c dx ω=-=-⨯≈,所以0.140.150.140.150.151.15dx x x x y ce e e e e +====. 【名师点睛】本题考查了回归方程的求解,本题第二问的关键是对回归方程,结合对数的运算性质进行变形,结合最小二乘法求线性回归方程的系数公式进行求解.15.打乒乓球是一项众多中学生喜爱的体育运动,某中学体育协会为了解这项运动与性别的关联性,随机调查了100名男生和100名女生,每位学生回答喜欢或不喜欢,得到下面的列联表:(1)分别估计该中学男、女生喜欢打乒乓球的概率;(2)能否有99.5%的把握认为中学生喜欢打乒乓球与性别有关?附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【试题来源】吉林省白山市2021届高三第三次联考(4月份)【答案】(1)男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35;(2)有99.5%的把握认为中学生喜欢打乒乓球与性别有关.【分析】(1)根据题意,利用公式求得男生和女生喜欢打乒乓球的频率,从而估计出其概率;(2)由题意,求得2K的值,对照临界值得出结论.【解析】(1)由调查数据可知,男生喜欢打乒乓球的频率为550.55 100=,女生喜欢打乒乓球的频率为350.35 100=,因此该中学男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35.(2)因为2 2200(55653545)8001001009011099 K⨯⨯-⨯==⨯⨯⨯且80080087.879 99100>=>,所以有99.5%的把握认为中学生喜欢打乒乓球与性别有关.16.某公司为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.29 / 31表中1i i u x =,8118i i u u ==∑(1)根据散点图判断:y a bx =+与dy c x=+哪一个模型更适合作为该图书每册的成本费y 与印刷数量x 的回归方程?(只要求给出判断,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程(结果精确到0.01);(3)若该图书每册的定价为9.22元,则至少应该印刷多少册才能使销售利润不低于80000元?(假设能够全部售出,结果精确到1)附:对于一组数据1122(,),(,,,),()n n v v v ωωω⋯,其回归直线v αβω=+的斜率和截距的最小二乘估计分别为121()()()niii nii v v ωωβωω==--=-∑∑,v αβω=-.【试题来源】2021年高考数学考前信息必刷卷(江苏专用) 【答案】(1)d y c x =+更适合;(2)8.961.22y x=+;(3)至少印刷11120册才能使销售利润不低于80000元.【分析】(1)由散点图可知成反比例函数模型,故dy c x=+更适合; (2)令1u x=,根据表中的数据计算即可得y 关于u 的线性回归方程为1.228.96y u=+,进而得y 关于x 的回归方程为8.961.22y x=+; (3)根据题意只需解不等式8.969.22 1.2280x x x ⎛⎫-+≥ ⎪⎝⎭即可得答案.【解析】(1)由散点图判断,dy c x=+更适合作为该图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的回归方程. (2)令1u x=,先建立y 关于u 的线性回归方程,由于81821()()7.0498.9578.960.787()i iiiiu u y ydu u==-⋅-==≈≈-∑∑,所以 3.638.9570.269 1.22c yd u=-⋅=-⨯≈,所以y关于u的线性回归方程为 1.228.96y u=+,所以y关于x的回归方程为8.961.22yx =+(3)假设印刷x千册,依题意得8.969.22 1.2280x xx⎛⎫-+≥⎪⎝⎭,解得11.12x≥,所以至少印刷11120册才能使销售利润不低于80000元.31 / 31。
第23讲 非线性回归方程一、必备秘籍当经验回归方程并非形如y bx a =+(,a b R ∈)时,称之为非线性经验回归方程,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟,常见的非线性经验回归方程的转换方式总结如下:1.确定研究对象,明确哪个是解释变量,哪个是响应变量;2.由经验确定非线性经验回归方程的模型;3.通过变换(一般题目都有明显的暗示如何换元,换元成什么变量),将非线性经验回归模型转化为线性经验回归模型(特别注意:使用线性回归方程的公式,注意代入变换后的变量);4.按照公式计算经验回归方程中的参数,得到经验回归方程;5.消去新元,得到非线性经验回归方程;6.得出结果后分析残差图是否有异常 . 二、例题讲解1.(2021·全国高三专题练习(文))人类已经进入大数据时代.目前,数据量级已经从TB (1TB =1024GB )级别跃升到PB (1PB =1024TB ),EB (1EB =1024PB )乃至ZB (1ZB =1024EB )级别.国际数据公司(IDC )研究结果表明,2008年全球产生的数据量为0.49ZB ,2009年数据量为0.8ZB ,2010年增长到1.2ZB ,2011年数据量更是高达1.82ZB .下表是国际数据公司(IDC )研究的全球近6年每年产生的数据量(单位:ZB )及相关统计量的值:表中ln i i z y =,16i i z z ==∑.(1)根据上表数据信息判断,方程21c xy c e =⋅(e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(2c 精确到0.01).(2)有人预计2021年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由.参考数据: 4.5695.58e ≈, 4.5897.51e ≈,回归方程y a bx =+中,斜率最小二乘法公式为()()()1122211n niii ii i nniij i x x y y x y nxyb x x xnx====---==--∑∑∑∑,a y bx =-.【答案】(1) 1.520.38x y e +=;(2)见解析. 【分析】(1)设ln z y =,则12ln z c c x =+,再根据参考数据及公式即可得解(2)先将8x =代入得预计2021年数据量,进而和2011年的50倍比较大小即可得解 【详解】(1)由21c xy c e =⋅,两边同时取自然对数得()2112ln ln ln c x y c e c c x =⋅=+,设ln z y =,则12ln z c c x =+. 因为 3.5x =, 2.85z =,()62117.58i i x x=-=∑,()()616.7.i i i x x z z =--=∑,所以()()()12216.730.3817.58niii nij x x z z c x x ==--==≈-∑∑,12ln 2.850.38 3.5 1.52c z c x =-=-⨯=.所以 1.520.38ln z x y =+=, 所以 1.520.38x y e +=;(2)令8x =,得 1.520.388 4.56ˆ95.58 1.825091ye e +⨯==≈>⨯=. 预计2021年全世界产生的数据规模会超过2011年的50倍. 【点睛】关键点点睛:对于非线性回归方程的求解,一般要结合题意作变换,转化为线性回归方程来求解,同时也要注意相应数据的变化.((11ii nj x b ===∑∑再直接选择数据,字母x 没有((11n ii nj x b ===∑∑参考数据总选择需要的数据代入计算。
专题2 非线性回归方程例1. 某景区的各景点从2009年取消门票实行免费开放后,旅游的人数不断地增加,不仅带动了该市淡季的旅游,而且优化了旅游产业的结构,促进了该市旅游向“观光、休闲、会展”三轮驱动的理想结构快速转变.下表是从2009年至2018年,该景点的旅游人数y (万人)与年份x 的数据:模型①:由最小二乘法公式求得y 与x 的线性回归方程5081697=+ˆ..yx ; 模型②:由散点图的样本点分布,可以认为样本点集中在曲线=bx y ae 的附近. (1)根据表中数据,求模型②的回归方程=ˆbx yae .(a 精确到个位,b 精确到001.). (2)根据下列表中的数据,比较两种模型的相关指数2R ,并选择拟合精度更高、更可靠的模型,预测2021年该景区的旅游人数(单位:万人,精确到个位).参考公式、参考数据及说明:①对于一组数据1(v ,1)w ,2(v ,2)w ,⋯,(n v ,)n w ,其回归直线αβ=+ˆˆˆwv 的斜率和截距的最小二乘法估计分别为121βαβ==--==--∑∑()()ˆˆ,()nii i nii ww v v w v vv . ②刻画回归效果的相关指数221211==-=--∑∑()()nii i n ii yy Ryy .③参考数据:546235≈.e ,14342≈..e .表中101110===∑,i i ii u lny u u.【解析】解:(1)对=bx y ae 取对数,得=+lny bx lna , 设=u lny ,=c lna ,先建立u 关于x 的线性回归方程.1011021900010883==--==≈-∑∑()().ˆ.()ii i ii xx u u bxx , 6050108555456546=-≈-⨯=≈ˆˆ.....cu bx ,546235=≈≈ˆ.ˆc a e e . ∴模型②的回归方程为011235=.ˆx ye ; (2)由表格中的数据,有3040714607>,即101022113040714607==>--∑∑()()iii i yy yy ,即10102211304071460711==-<---∑∑()()iii i yy yy ,∴2212<R R ,模型①的相关指数21R 小于模型②的22R ,说明回归模型②的拟合效果更好.2021年时,13=x ,预测旅游人数为0111314323523523542987⨯==≈⨯=..ˆ.y e e (万人).例2. 近年来,随着国家综合国力的提升和科技的进步,截至2018年底,中国铁路运营里程达13.2万千米,这个数字比1949年增长了5倍;高铁运营里程突破2.9万千米,占世界高铁运营里程的60%以上,居世界第一位.如表截取了20122016-年中国高铁密度的发展情况(单位:千米/万平方千米).已知高铁密度y 与年份代码x 之间满足关系式=(b y ax a ,b 为大于0的常数).若对=b y ax 两边取自然对数,得到=+lny blnx lna ,可以发现lny 与lnx 线性相关.(1)根据所给数据,求y 关于x 的回归方程ˆ(lna ,ˆb 保留到小数点后一位);(2)利用(1)的结论,预测到哪一年,高铁密度会超过30千米/万平方千米.参考公式:设具有线性相关系的两个变量x ,y 的一组数据为(i x ,1=)(i y i ,2,⋯⋯)n ,则回归方程ˆˆˆybx a =+的系数:121==--=-∑∑()()ˆ()nii i nii xx y y b xx ,=-ˆay bx . 参考数据:515092=-≈∑.ii i lnxlny lnx lny ,5221516=-≈∑()().ii lnx lnx ,515=≈∑ii lnx,5114=≈∑ii lny,274≈.,3034≈.ln .【解析】解:(1)对00=>>(,)b y ax a b 两边取自然对数,得=+lny blnx lna ; 令=i i v lnx ,=i i u lny ,1=i ,2,3,⋯,n ; 得u 与v 具有线性相关关系,计算51522150920575165==-===-∑∑.ˆ..i i i ii v uvubvv ,140575122255=-=-⨯=ˆ..lna u bv , ∴06≈ˆ.b,22≈≈.lna , ∴0622=+ˆ..u v ,故y 关于x 的回归方程为0622+=..ˆlnx y e , 即2206=..ˆye x ; (2)在(1)的回归方程中,0622+=..lnx y e ,高铁密度超过30千米/万平方千米; 即062230+>..lnx e ,06223034+>≈...lnx ln ,2>lnx .274>≈.x e ,即8=x 时,高铁密度超过30千米/万平方千米;所以预测2019年,高铁密度超过30千米/万平方千米.例3. 某公司生产一种产品,从流水线上随机抽取100件产品,统计其质量指数并绘制频率分布直方图(如图1):产品的质量指数在[50,70)的为三等品,在[70,90)的为二等品,在[90,110]的为一等品,该产品的三、二、一等品的销售利润分别为每件1.5,3.5,5.5(单位:元),以这100件产品的质量指数位于各区间的频率代替产品的质量指数位于该区间的概率. (1)求每件产品的平均销售利润;(2)该公司为了解年营销费用x (单位:万元)对年销售量y (单位:万件)的影响,对近5年的年营销费用i x 和年销售量i y (1,2,3,4,5)i =数据做了初步处理,得到的散点图(如图2)及一些统计量的值.表中ln i i u x =,ln i i v y =,5115i i u u ==∑,5115i i v v ==∑根据散点图判断,by a x =可以作为年销售量y (万件)关于年营销费用x (万元)的回归方程.(ⅰ)建立y 关于x 的回归方程;(ⅰ)用所求的回归方程估计该公司应投入多少营销费,才能使得该产品一年的收益达到最大?(收益=销售利润-营销费用,取 4.15964e =)参考公式:对于一组数据:11(,)u v ,22(,)u v ,,(,)n n u v ,其回归直线v u αβ=+的斜率和截距的最小乘估计分别为^121()()()nii i nii uu v v uu β==--=-∑∑,^v u αβ∧∧=-【解析】(1)设每件产品的销售利润为ξ元,则ξ的所有可能取值为1.5,3.5,5.5 由直方图可得:一、二、三等品的频率分别为0.4,0.45,0.15, 所以()1.50.15P ξ==,()3.50.45P ξ==, ()5.50.4P ξ==,所以:随机变量ξ的分布列为:所以, 1.50.15 3.50.45 5.50.44E ξ=⨯+⨯+⨯= 故每件产品的平均销售利润为4元.(2)(ⅰ)由·b y a x =得,()ln ln ?ln ln by a x a b x ==+,令ln u x =,ln v y =,ln c a =,则v c bu =+,由表中数据可得,()()()1210.410.251.6ˆ4ni i i n i i u u v v b u u ==--===-∑∑, 则24.8716.300.25 4.15955ˆc v bu∧∧=-=-⨯= 所以, 4.1590.25v u ∧=+,即14.1594ln 4.1590.25ln ln ?y x e x ∧⎛⎫=+= ⎪⎝⎭因为 4.15964e=,所以1464?y x ∧=故所求的回归方程为1464?y x =(ⅰ)设年收益为z 万元,则()14256z E y x x x ξ=-=-设14t x =,()4256f t t t =-,则()()33'2564464f t t t=-=-当()0,4t ∈时,()'0f t >,()f t 在()0,4单调递增, 当()4,t ∈+∞时,()'0f t <,()f t 在()4,+∞单调递减. 所以,当4t =,即256x =时,z 有最大值为768即该厂应投入256万元营销费,能使得该产品一年的收益达到最大768万元.例4. 近年来,随着互联网技术的快速发展,共享经济覆盖的范围迅速扩张,继共享单车、共享汽车之后,共享房屋以“民宿”、“农家乐”等形式开始在很多平台上线.某创业者计划在某景区附近租赁一套农房发展成特色“农家乐”,为了确定未来发展方向,此创业者对该景区附近六家“农家乐”跟踪调查了100天.得到的统计数据如下表,x 为收费标准(单位:元/日),t 为入住天数(单位:),以频率作为各自的“入住率”,收费标准x 与“入住率”y 的散点图如图(1)若从以上六家“农家乐”中随机抽取两家深入调查,记ξ为“入住率”超过0.6的农家乐的个数,求ξ的概率分布列;(2)令ln z x =,由散点图判断ˆˆˆybx a =+与ˆˆy bz a =+哪个更合适于此模型(给出判断即可,不必说明理由)?并根据你的判断结果求回归方程.(ˆb结果保留一位小数) (3)若一年按365天计算,试估计收费标准为多少时,年销售额L 最大?(年销售额365L =⋅入住率⋅收费标准x )参考数据:1221ˆ,ni i i n ii x y nx y b x nx ==-⋅=-∑∑621,200,0.45,32500,ˆˆ0ii a y bx x y x ==-===∑ 615.1,12.7,i i i z y z =≈≈∑6231158.1,148.4ii ze =≈≈∑【解析】(1)ξ的所有可能取值为0,1,2.则()0P ξ== 2426C C 62,155== ()1124268115C C P C ξ⋅===,()2P ξ== 2226C C 115= ξ∴的分布列(2)由散点图可知ˆˆˆybz a =+更适合于此模型. 其中6162216 1.070.52.0ˆ46i i i i i z y zy bz z ==--==≈--∑∑,ˆ3ˆˆay bz =-= 所求的回归方程为0.5ˆ3ylnx =-+ (3)()3650.53L lnx x =-+=3651095.2xlnx x -+ 365365365322L lnx =--+⨯'令505148.4L lnx x e =⇒=⇒=≈' ∴若一年按365天计算,当收费标准约为148.4元/日时,年销售额L 最大,最大值约为27083元.例5. 已知某种细菌的适宜生长温度为10C 25C ︒~︒,为了研究该种细菌的繁殖数量y (单位:个)随温度x (单位:C ︒)变化的规律,收集数据如下:对数据进行初步处理后,得到了一些统计量的值,如下表所示:其中ln i i k y =,7117i i k k ==∑.(1)请绘出y 关于x 的散点图,并根据散点图判断y bx a =+与21e c xy c =哪一个更适合作为该种细菌的繁殖数量y 关于x 的回归方程类型(结果精确到0.1);(2)当温度为25C ︒时,该种细菌的繁殖数量的预报值为多少?参考公式:对于一组数据()(),1,2,3,...,i i u v i n =,其回归线ˆˆˆvu βα=+的斜率和截距的最小二乘估计分别为:()121ˆ()()niii nii u u v v u u β==--=-∑∑,ˆˆav u β=-.参考数据: 5.5e 245≈.【解析】(1)绘出的散点图如图所示,根据散点图判断21c xy c e =更适合作为该种细菌的繁殖数量y 关于x 的回归方程类型;(2)∵21c xy c e=,∴21lny c x lnc =+,∴()()()71272120.50.2112i ii i i x x k k c x x ==--==≈-∑∑,1220.53.8180.5112lnck c x =-=-⨯≈, ∴0.51c e =,20.20.51c xx y c e e +==,当温度为25C ︒时,该种细菌的繁殖数量的预报值为 5.5245e ≈.例6. 噪声污染已经成为影响人们身体健康和生活质量的严重问题,为了了解声音强度D (单位:分贝)与声音能量(单位:2/W cm )之间的关系,将测量得到的声音强度1D 和声音能量i I (i =1,2…,10)数据作了初步处理,得到如图散点图及一些统计量的值.表中lg i i W I =,101110i i W W ==∑。
非线性回归问题
两个变量不呈线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型。
分析非线性回归问题的具体做法是: (1)若问题中已给出经验公式,这时可以将变量x 进行置换(换元),将变量的非线性关系转化为线性关系,将问题化为线性回归分析问题来解决.
(2)若问题中没有给出经验公式,需要我们画出已知数据的散点图,通过与各种已知函数(如指数函数、对数函数、幂函数等)的图象作比较,选择一种与这些散点拟合得最好的函数,然后采用适当的变量置换,将问题化为线性回归分析问题来解决. 下面举例说明非线性回归分析问题的解法.
例1 在彩色显影中,由经验可知:形成染料光学密度y 与析出银的光学密度x 由公式
e b x
y A =(b <0)表示,现测得实验数据如下:
试求对的回归方程.
分析:该例是一个非线性回归分析问题,由于题目中已给定了要求的曲线为e
b x
y A =(b <0)类型,我们只要通过所给的11对样本数据求出A 和b ,即可确定x 与y 的相关关系的曲线方程.
解:由题意可知,对于给定的公式e b
x
y A =(b <0)两边取自然对数,得ln ln b y A x
=+. 与线性回归方程对照可以看出,只要取1
u x
=
,ln v y =,ln a A =,就有v a bu =+,这是v 对u 的线性回归直线方程,对此我们再套用相关性检验,求回归系数b 和a . 题目中所给数据由变量置换1
u =
,ln v y =变为如表所示的数据:
由于|r |=0.998>0.602,可知u 与v 具有很强的线性相关关系. 再求得0.146b =-,0.548a =,
∴v =0.5480.146u -,把u 和v 置换回来可得0.146
ln 0.548y x
=-
, ∴0.1460.1460.1460.5480.548
e
1.73x
x
x
y e
e
e
-
-
-
===,
∴回归曲线方程为0.1461.73e
x
y -
=.
点评:解决本题的思路是通过适当的变量置换把非线性回归方程转化为线性回归方程,然后再套用线性回归分析的解题步骤.
例2 为了研究某种细菌随时间x 变化的繁殖个数,收集数据如下:
天数x 1 2 3 4 5 6 繁殖个数y
6
12
25
49
95
190
(1)作出这些数据的散点图; (2)求出y 对x 的回归方程. 解析:(1)作出散点图如图1所示.
(2)由散点图看出样本点分布在一条指数型曲线e bx
y c =(c >0)的周围,则
ln ln y bx c =+.
令ln ln z y a c ==,,则z bx a =+.
x
1 2 3 4 5 6 z
1.79
2.48
3.22
3.89
4.55
5.25
相应的散点图如图2. 从图2可以看出,变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合.
由表中数据得到线性回归方程为0.69 1.115z x =+.因此 细菌的繁殖个数对温度的非线性回归方程为0.69 1.115e x y +=.
点评:通过作散点图看出,本题是一个非线性回归问题,通过变量置换转化为线性回归问题求解的.值得注意的是,本题的数据与回归曲线是拟合得相当好的,这表明确定性关系(如公式、函数关系式)和相关关系之间并没有一条不可逾越的鸿沟.由于有实验误差、测量误差等存在,变量之间的确定性关系往往通过相关关系表现出来;反过来,在有些问题中,可以研究相关关系来深入了解变量变化的内在规律,从而找到它们的确定性关系.。