非线性回归方程
- 格式:ppt
- 大小:362.00 KB
- 文档页数:3
非线性回归方程经典题型一、解答题(本大题共16小题,共192.0分)1. 一只药用昆虫的产卵数y 与一定范围内的温度x 有关,现收集了该种药用昆虫的6经计算得:x =16∑x i 6i=1=26,y =16∑y i 6i=1=33,∑(6i=1x i −x)(y i −y)=557,∑(6i=1x i −x)2=84,∑(6i=1y i −y)2=3930,线性回归模型的残差平方和∑(6i=1y i−y ^i )2=236.64,e8.0605≈3167,其中x i ,y i 分别为观测数据中的温度和产卵数,i =1,2,3,4,5,6.(Ⅰ)若用线性回归模型,求y 关于x 的回归方程y =bx +a(精确到0.1); (Ⅱ)若用非线性回归模型求得y 关于x 的回归方程为y ^=0.06e 0.2303x ,且相关指数R 2=0.9522.(i)试与(Ⅰ)中的回归模型相比,用R 2说明哪种模型的拟合效果更好.(ii)用拟合效果好的模型预测温度为35∘C 时该种药用昆虫的产卵数(结果取整数). 附:一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计为b ^=ni=1i −x)(y i −y)∑(n x −x)2,a ^=y −b ^x ;相关指数R 2=1−n i=1i ^i 2∑(n y −y)2.2. 对某地区儿童的身高与体重的一组数据,我们用两种模型①y =bx +a ,②y =ce dx 拟合,得到回归方程分别为y ^(1)=0.24x −8.81,y ^(2)=1.70e 0.022x ,作残差分析,如表:(Ⅱ)根据残差比较模型①,②的拟合效果,决定选择哪个模型;(Ⅲ)残差大于1kg 的样本点被认为是异常数据,应剔除,剔除后对(Ⅱ)所选择的模型重新建立回归方程.(结果保留到小数点后两位)附:对于一组数据(x 1,y 1),(x 2,y 2),…(x n ,y n ),其回归直线y =bx +a 的斜率和截距的最小二乘法估计分别为b ^=∑(n i=1x i −x)(y i −y)∑(n i=1x i −x)2,a ^=y .−b ^x ..3. 某厂生产不同规格的一种产品,根据检测标准,其合格产品的质量y(g)与尺寸x(mm)之间近似满足关系式y =c ⋅x b (b 、c 为大于0的常数).按照某项指标测定,当产品质量与尺寸的比在区间(e 9,e7)内时为优等品.现随机抽取6件合格产品,测得数据如下: 尺寸x(mm) 38 48 58 68 78 88 质量y(g) 16.8 18.8 20.7 22.4 24 25.5 质量与尺寸的比yx0.4420.3920.3570.3290.3080.290(1)现从抽取的6件合格产品中再任选2件,求恰有一件优等品的概率;(2)根据测得数据作出如下处理:令v i =lnx i ,u i =lny i ,得相关统计量的值如下表:∑v i 6i=1u i∑v i 6i=1∑u i 6i=1∑v i 26i=175.3 24.6 18.3 101.4 (ⅰ)根据所给统计量,求y 关于x 的回归方程;(ⅰ)已知优等品的收益z(单位:千元)与x ,y 的关系为z =2y −0.32x ,当优等品的质量与尺寸之比为e8时,求其收益的预报值.(精确到0.1)附:对于样本(v i ,u i )(i =1,2,…,n),其回归直线u =b ⋅v +a 的斜率和截距的最小二乘估计公式分别为:b ^=∑(n i=1v i −v)∑(n i=1v i −u)2=∑v i n i=1u i −nvu∑v i 2n i=1−nv2,a ^=u −b ^v ,e ≈2.7182.4. 某公司为评估两套促销活动方案(方案1运作费用为5元/件;方案2的运作费用为2元/件),在某地区部分营销网点进行试点(每个试点网点只采用一种促销活动方案),运作一年后,对比该地区上一年度的销售情况,制作相应的等高条形图如图所示.(1)请根据等高条形图提供的信息,为该公司今年选择一套较为有利的促销活动方案(不必说明理由);(2)已知该公司产品的成本为10元/件(未包括促销活动运作费用),为制定本年度该地区的产品销售价格,统计上一年度的8组售价x i (单位:元/件,整数)和销量y i (单位:件)(i =1,2,…,8)如下表所示:售价x 3335 37 39 41 43 45 47 销量y 840800 740 695 640 580 525 460 ①请根据下列数据计算相应的相关指数R 2,并根据计算结果,选择合适的回归模型进行拟合;②根据所选回归模型,分析售价x 定为多少时?利润z 可以达到最大.y ^=−1200lnx +5000 y ^=−27x +1700 y ^=−13x 2+1200∑(8i=1y i −y ^i )249428.74 11512.43 175.26∑(8i=1y i −y .)2 124650(附:相关指数 R 2=1−∑(n i=1y i −y ^i )2∑(n i=1y i−y)2)5. 二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y(单位:万元/辆)进行整理,得到如下数据:使用年数x2 3 4 5 6 7 售价y 20 12 8 6.4 4.4 3 z =lny3.002.482.081.861.481.10下面是z 关于x 的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关数加以说明;(2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少?(b^、a ^小数点后保留两位有效数字). (3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考公式:回归方程y ^=b ^x +a^中斜率和截距的最小二乘估计公式分别为: b ^=∑(n i=1x i −x)(y i −y)∑(n i=1x i −x)2=∑x i n i=1y i −nxy ∑x i2ni=1−nx 2,a ^=y .−b ^x .,r =∑(n i=1x i −x)(y i −y)√∑(n i=1x i −x)2∑(n i=1y i −y)2.参考数据:∑x i 6i=1y i =187.4,∑x i 6i=1z i =47.64,∑x i 26i=1=139,√∑(6i=1x i −x .)2=4.18,√∑(6i=1y i −y .)2=13.96,√∑(6i=1z i −z .)2=1.53,ln1.46≈0.38,ln0.7118≈−0.34.6. 为了调查历城区城乡居民人民生活水平,随机抽取了10个家庭,得到第i(i =1,2,…,10)个家庭月收入x i (单位:千元)与月流动资金y i (单位:千元)的数据资料如下表:∑x i 10i=1∑y i 10i=1∑ωi 10i=1∑x i 10i=1y i∑ωi 10i=1y ii i (Ⅰ)求方程y =d +c √x ;(Ⅱ)已知某家庭9月收入为9千元,该家庭计划用当月流动资金购置价格为499元的九阳豆浆机,问计划能否成功?附:对一组数据(x i ,y i )(i =1,2,…,10),其回归直线y =b ^x +a ^的最小二乘法估计为b =∑x i n i=1y i −nxy∑x i 2n i=1−n(x)2,a =y .−bx ..7. 近年来,随着汽车消费的普及,二手车流通行业得到迅猛发展.某汽车交易市场对2017年成交的二手车的交易前的使用时间(以下简称“使用时间”)进行统计,得到如图1所示的频率分布直方图.在图1对使用时间的分组中,将使用时间落入各组的频率视为概率.(1)若在该交易市场随机选取3辆2017年成交的二手车,求恰有2辆使用年限在(8,16]的概率;(2)根据该汽车交易市场往年的数据,得到图2所示的散点图,其中x(单位:年)表示二手车的使用时间,y(单位:万元)表示相应的二手车的平均交易价格. ①由散点图判断,可采用y =e a+bx 作为该交易市场二手车平均交易价格y 关于其使用年限x 的回归方程,相关数据如下表(表中Y i =lny i ,Y =110∑Yi 10i=1):试选用表中数据,求出关于的回归方程;②该汽车交易市场拟定两个收取佣金的方案供选择. 甲:对每辆二手车统一收取成交价格的5%的佣金;乙:对使用8年以内(含8年)的二手车收取成交价格的4%的佣金,对使用时间8年以上(不含8年)的二手车收取成交价格的10%的佣金.假设采用何种收取佣金的方案不影响该交易市场的成交量,根据回归方程和图表1,并用各时间组的区间中点值代表该组的各个值.判断该汽车交易市场应选择哪个方案能获得更多佣金. 附注:①对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑u i n i=1v i −nuv∑u i 2n i=1−nu2,α^=v −β^u ;②参考数据:e 2.95≈19.1,e 1.75≈5.75,e 0.55≈1.73,e −0.65≈0.52,e −1.85≈0.16.8. 近期,济南公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x 表示活动推出的天数,y 表示每天使用扫码支付的人次(单位:十人次),统计数据如表1所示: 1根据以上数据,绘制了散点图.(1)根据散点图判断,在推广期内,y =a +bx 与c ⋅d x (c,d 均为大于零的常数)哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型?(给出判断即可,不必说明理由); (2)根据(1)的判断结果及表1中的数据,建立y 关于x 的回归方程,并预测活动推出第8天使用扫码支付的人次;(3)推广期结束后,车队对乘客的支付方式进行统计,结果如下 表2:车队为缓解周边居民出行压力,以万元的单价购进了一批新车,根据以往的经验可知,每辆车每个月的运营成本约为0.66万元.已知该线路公交车票价为2元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据统计结果得知,使用扫码支付的乘客中有16的概率享受7折优惠,有13的概率享受8折优惠,有12的概率享受9折优惠.预计该车队每辆车每个月有1万人次乘车,根据给数据以事件发生的频率作为相应事件发生的概率,在不考虑其它因素的条件下,按照上述收费标准,假设这批车需要n(n ∈N n )年才能开始盈利,求n 的值. 参考数据:其中其中υi =lgy i ,υ=17∑υi 7i=1参考公式:对于一组数据(u i ,υi ),(u 2,υ2),…,(u n ,υn ),其回归直线υ̂=a ̂+β̂u 的斜率和截距的最小二乘估计公式分别为:β̂=∑u i ni=1υi −nuυ∑u i 2n i=1−nu2,a ̂=υ−β̂u . 9. 某厂生产不同规格的一种产品,根据检测标准,其合格产品的质量y(g)与尺寸x(mm)之间近似满足关系式y =c ⋅x b (b 、c 为大于0的常数).按照某项指标测定,当产品质量与尺寸的比在区间(e 9,e7)内时为优等品.现随机抽取6件合格产品,测得数据如下: 尺寸x(mm) 38 48 58 68 78 88 质量y(g)16.818.8 20.7 22.4 24 25.5 质量与尺寸的比yx 0.4420.3920.3570.3290.3080.290(1)现从抽取的6件合格产品中再任选3件,记ξ为取到优等品的件数,试求随机变量ξ的分布列和期望;(2)根据测得数据作了初步处理,得相关统计量的值如下表:∑(6i=1lnx i ⋅lny i )∑(6i=1lnx i )∑(6i=1lny i )∑(6i=1lnx i )275.3 24.6 18.3 101.4(i)根据所给统计量,求y 关于x 的回归方程;(ii)已知优等品的收益z(单位:千元)与x ,y 的关系为z =2y −0.32x ,则当优等品的尺寸x 为何值时,收益z 的预报值最大?附:对于样本(v i ,u i )(i =1,2,…,n),其回归直线u =b ⋅v +a 的斜率和截距的最小二乘估计公式分别为:b ^=∑(n i=1v i −v)(u i −u)∑(n i=1v i −v)2=∑v i n i=1u i −nvu∑v i 2n i=1−nv2,a ^=u −b ^v ,e ≈2.7182.10. 经统计,2015年,某公路在部分界桩附近发生的交通事故次数如下表:把界桩公里数记为,公里数记为,,数据绘成的散点图如图所示,以x 为解释变量、交通事故数y 为预报变量,建立了两个不同的回归方程y (1)=29.9+50.2×1x 和y (2)=33.9+125.9e −x 表述x ,y 二者之间的关系. (Ⅰ)计算R 2的值,判断这两个回归方程中哪个拟合效果更好?并解释更好的这个拟合所对R 2的意义;(Ⅱ)若保险公司在每次交通事故中理赔60万元的概率为0.01,理赔2万元的概率为0.19,理赔0.2万元的概率为0.8,利用你得到的拟合效果更好的这一个回归方程,试预报这一年在界桩1040公里附近处发生的交通事故的理赔费(理赔费精确到0.1万元).附:对回归直线y =α̂+β̂x ,有R 2=1−∑(n i=1y i −y ^i )2∑(n i=1y i −y)2.一些量的计算值:表中:y ̂i (1)=29.9+50.2×1x i ,y ^i (2)=33.9+125.9e −x i ,140=0.025,e −40≈0.11. x(2)某同学认为,y =px 2+qx +r 更适宜作为y 关于x 的回归方程类型,他求得的回归方程是y =−0.30x 2+10.17x +68.07.经调查,该地11岁男童身高的中位数为145.3cm.与(1)中的线性回归方程比较,哪个回归方程的拟合效果更好?附:回归方程y ^=a ^+b ^x 中的斜率和截距的最小二乘估计公式分别为:b ^=n i=1i −x)(y i −y)∑(n x −x)2,a ^=y −b ^x .12. 某互联网公司为了确定下一季度的前期广告投入计划,收集了近期前期广告投入量x(单位:万元)和收益y(单位:万元)的数据.对这些数据作了初步处理,得到了下面的散点图(共21个数据点)及一些统计量的值.为了进一步了解广告投入量x 对收益y 的影响,公司三位员工①②③对历史数据进行分析,查阅大量资料,分别提出了三个回归方程模型:表中u i =lnx i ,v i =√x i ,参考数据:√2=1.41,√10=3.16. 表一x y∑(21i=1x i −x)2∑(21i=1x i −x)(y i−y) ∑(21i=1y i −y)240 62770 250200表二μ̂ ∑(21i=1μi −μ)2∑(21i=1μi−μ)(y i −y)v∑(21i=1(v i −v)2∑(21i=1v i−v)(y i −y)3.600.499.806.35.0030.00(1)根据散点图判断,哪一位员工提出的模型不适合用来描述x 与y 之间的关系?简要说明理由.(2)根据据(1)的判断结果及表中数据,在余下两个模型中分别建立收益y 关于投入量x 的关系,并从数据相关性的角度考虑,在余下两位员工提出的回归模型中,哪一个是最优模型(即更适宜作为收益y 关于投入量x 的回归方程)?说明理由: 附:对于一组数据(x 1,y 1),(x 2,y 2),……,(x n ,y n ),其中回归直线y ^=b ^x +a ^的斜率,截距的最小二乘估计以及相关系数分别为:b ̂=∑(ni=1x i −x)(y i −y)∑(n i=1x i−x)2,a ̂=y −b ̂x,r =∑(n i=1x i −x)(y i −y)√∑(n i=1x i −x)2∑(n i=1y i −y)2,其中r 越接近于是,说明变量x 与y 的线性相关程度越好.13. 在冬季,由于受到低温和霜冻的影响,蔬菜的价格会随着需求量的增加而上升,已知某供应商向饭店定期供应某种蔬菜,日供应量x 与单价y 之间的关系,统计数据如表所示:日供应量x(kg) 38 48 58 68 78 88 单价y(元/kg)16.818.820.722.42425.5(Ⅰ)根据上表中的数据得出日供应量x 与单价y 之间的回归方程为y =ax b ,求a ,b 的值;(Ⅱ)该地区有14个饭店,其中10个饭店每日对蔬菜的需求量在60kg 以下(不含60kg),4个饭店对蔬菜的需求量在60kg 以上(含60kg),则从这14个饭店中任取4个进行调查,记这4个饭店中对蔬菜需求量在60kg 以下的饭店数量为X ,求X 的分布列及数学期望. 参考公式及数据:对一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:b ̂=∑x i ni=1y i −nxy ∑x i 2n i=1nx2,a ^=y −b ^x ∑(6i=1lnx i ⋅lny i )∑(6i=1lnx i )∑(6i=1lny i )∑(6i=1lnx i )273.524.6 18.3 101.414. 某地级市共有200000中小学生,其中有7%学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5:3:2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1000元、1500元、2000元.经济学家调查发现,当地人均可支配年收入较上一年每增加n%,一般困难的学生中有3n%会脱贫,脱贫后将不再享受“精准扶贫”政策,很困难的学生中有2n%转为一般困难,特别困难的学生中有n%转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配年收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x 取13时代表2013年,x 与y(万元)近似满足关系式y =C 1⋅2C 2x ,其中C 1,C 2为常数.(2013年至2019年该市中学生人数大致保持不变)y k ∑(5i=1k i −k)2∑(5i=1y i −y)2∑(5i=1x i −x)(y i −y)∑(5i=1x i −x)(k i −k) 2.31.23.14.621其中k i =log 2y i ,k =15∑k i 5i=1(Ⅰ)估计该市2018年人均可支配年收入;(Ⅱ)求该市2018年的“专项教育基金”的财政预算大约为多少?附:①对于一组具有线性相关关系的数据(u 1,v 1),(u 2,v 2)…,(u n ,v n ),其回归直线方程v ∧=βu ∧+α的斜率和截距的最小二乘估计分别为β∧=∑(n i=1u i −u)(vv i −v)∑(n i=1u i −u)2,α∧=v −β∧u②2−0.7 2−0.3 20.1 21.7 21.8 21.9 0.60.81.13.23.53.7315. 参加数学选修课的同学,对某公司的一种产品销量与价格进行了统计,得到如下数据和散点图:定价x(元/kg) 10 20 30 40 50 60 年销量y(kg)1150 643 424 262 165 86 z =2lny14.112.912.111.110.28.9下列数据计算时可供参考:∑(6i=1x i −x)(y i −y)=−34580∑(6i=1x i −x)(z i −z)=−175.5e 6=403.43∑(6i=1y i −y)2=776840∑(6i=1y i −y)(z i −z)=3465.2e 5=148.41(Ⅰ)根据散点图判断出y 与x 和z 与x 分别是正相关还是负相关,再比较判断y 与x 和z 与x 哪一对具有较强的线性相关性?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及相关数据,选择合理模型建立y 关于x 的回归方程.(方程中的系数均保留两位有效数字).(Ⅲ)根据由(Ⅱ)得到的回归方程,计算当定价x =30时的残差.附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线的斜率和截距的最小二乘估计分别为:b ∧=n i=1i −x)⋅(y i −y)∑(n x −x)2a ∧=y −b ∧x16. 为落实“精准扶贫”战略,某县决定利用扶贫资金帮扶具有地方特色的传统手工业发展.扶贫项目组利用数据分析技术,模拟扶贫项目的未来预期,模拟结果显示,项目投资x(万元)和产品利润y(万元)关系如表所示:分析发现用模型y =bx 利润的关系.设t i =x i 2(i =1,2,3,4,5),t =15∑t i 5i=1,对数据初步处理得到下面一些统计量的值:y =b x +a(回归系数四舍五入,小数点后保留两位数字); (II)该扶贫项目用于支付工人劳动所得资金总额用公式w =y −1.2x 计算(其中x 为项目投资,y 为产品利润,单位:万元),并以(I)中所求回归方程预报产品利润,当工人劳动所得资金总额不少于120万元时,则认为该项目可以完成“脱贫”任务.假设政府投入该项目的扶贫资金(单位:万元)可以是区间[45,80]内的任意整数值,求可以完成“脱贫”任务的概率.附:对于具有线性相关的一组数据(x i ,y i )(i =1,2,…n),其回归方程为y ^=b ^x +a^. 其中:b ^=n i=1i −x)(y i −y)∑(n x −x)2x =1n ∑x i,n i=1y =1n ∑y in i=1.答案和解析【答案】1. 解:(Ⅰ)依题意,n =6,b ^=6i=1i −x)(y i −y)∑(6x −x)2=55784≈6.6, a ≈33−6.6×26=−138.6 ∴y 关于x 的线性回归方程为y =6.6x −138.6(Ⅱ) ( i )利用所给数据,∑(6i=1y i −y ^i )2=236.64,∑(6i=1y i −y)2=3930得, 线性回归方程y =6.6x −138.6 的相关指数R 2=1−6i=1i ^i 2∑(6y −y)2=1−236.643930≈1−0.0602=0.9398.∵0.9398<0.9522,因此,回归方程y ^=0.06e 0.2303x 比线性回归方程y ^=6.6x −138.6拟合效果更好; (ii)由( i )得温度x =35∘C 时,y ̂=0.06e 0.2303×35=0.06×e 8.0605 又∵e 8.0605≈3167, ∴y ^≈0.06×3167≈190(个)所以当温度x =35∘C 时,该种药用昆虫的产卵数估计为190个.2. 解:(Ⅰ)根据残差分析,把x =80代入y ^(1)=0.24x −8.81得y ^(1)=10.39.10−10.39=−0.39.所以表中空格内的值为−0.39.(Ⅱ)模型①残差的绝对值和为0.41+0.01+0.39+1.21+0.19+0.41=2.62,模型②残差的绝对值和为0.36+0.07+0.12+1.69+0.34+1.12=3.7.2.62<3.7, 所以模型①的拟合效果比较好,选择模型①.(Ⅲ)残差大于1kg 的样本点被剔除后,剩余的数据如表由公式:b ^=∑(n i=1x i −x)(y i −y)∑(n i=1x i −x)2,a ^=y .−b ^x ..得回归方程为y =0.24x −8.76.3. 解:由已知,优等品的质量与尺寸的比在区间(e 9,e7)内,即yx ∈(0.302 , 0.388)则随机抽取的6件合格产品中,有3件为优等品A 1,A 2,A 3,3件为非优等品B 1,B 2,B 3 现从任选2件,共有(A 1,A 2)、(A 1,A 3)、(A 1,B 1)、(A 1,B 2)、 (A 1,B 3)、(A 2,A 3)、(A 2,B 1)、(A 2,B 2)、(A 2,B 3)、 (A 3,B 1)、(A 3,B 2)、(A 3,B 3)、(B 1,B 2)、(B 1,B 3)、(B 2,B 3)15种方法 设任选2件恰有一件优等品为事件C ,则事件C 包含(A 1,B 1)、(A 1,B 2)、 (A 1,B 3)、(A 2,B 1)、(A 2,B 2)、(A 2,B 3)、(A 3,B 1)、 (A 3,B 2)、(A 3,B 3)共9种方法由古典概型有P(C)=915=35,故所求概率为35(2)解:对y =c ⋅x b (b,c >0)两边取自然对数得lny =lnc +blnx 由v i =lnx i ,u i =lny i ,得u =b ⋅v +a ,且a =lnc (ⅰ)根据所给统计量及最小二乘估计公式有b ^=75.3−24.6×18.3÷6101.4−24.62÷6=0.270.54=12a ^=u −b ^v =(18.3−12×24.6)÷6=1,得a ^=lnc ^=1,故c ^=e所求y 关于x 的回归方程为y =e ⋅x 12(ⅰ)由(ⅰ)可知,y ^=e ⋅x 12,则z ^=2e √x −0.32x当y^x=ex 12x=√x=e8,即√x =8, x =64时 得收益的预报值z ^=16e −0.32×64≈23.0(千元).4. 解:(1)由等高条形图可知,年度平均销售额与方案1的运作相关性强于方案2.(2)①由已知数据可知,回归模型y ^=−1200lnx +5000对应的相关指数R 12=0.6035;回归模型y ^=−27x +1700对应的相关指数R 22=0.9076; 回归模型y ^=−13x 2+1200对应的相关指数R 32=0.9986.因为R 32>R 22>R 12,所以采用回归模型y ^=−13x 2+1200进行拟合最为合适. ②由(1)可知,采用方案1的运作效果较方案2好, 故年利润z =(−13x 2+1200)(x −15),,当x ∈(0,40)时,z =(−13x 2+1200)(x −15)单调递增; 当x ∈(40,+∞)时,z =(−13x 2+1200)(x −15)单调递减, 故当售价x =40时,利润达到最大.5. 解:(1)由题意,计算x .=16×(2+3+4+5+6+7)=4.5,z .=16×(3+2.48+2.08+1.86+1.48+1.10)=2,且∑x i 6i=1z i =47.64,√∑(6i=1x i −x .)2=4.18, √∑(6i=1z i −z .)2=1.53,∴r =∑n i=1i i √∑(n i=1x i −x)2∑(n i=1y i−y)2=47.64−6×4.5×24.18×1.53=−6.366.3954(或−6.366.40) ≈−0.99;∴z 与x 的相关系数大约为0.99,说明z 与x 的线性相关程度很高; (2)利用最小二乘估计公式计算b ̂=∑x i ni=1y i −nxy ∑x i2n i=1−nx 2=47.64−6×4.5×2139−6×4.52=−6.3617.5≈−0.36, ∴â=z .−b ̂x .=2+0.36×4.5=3.62, ∴z 与x 的线性回归方程是z ∧=−0.36x +3.62, 又z =lny ,∴y 关于x 的回归方程是y ∧=e −0.36x+3.62; 令x =9,解得y ∧=e −0.36×9+3.62≈1.46,即预测某辆A 型号二手车当使用年数为9年时售价约1.46万元; (3)当y ∧≥0.7118时,e −0.36x+3.62≥0.7118=e ln0.7118=e −0.34, ∴−0.36x +3.62≥−0.34, 解得x ≤11,因此预测在收购该型号二手车时车辆的使用年数不得超过11年. 6. 解:(Ⅰ)由y 与x 满足函数模型y =d +c √x ,则y =d +cω, ω.=∑ωi 10i=110=8,y .=∑y i 10i=110=2,则c =∑ωi 10i=1y i −10×ωy∑ωi 210i=1−10×ω2=184−10×8×2720−10×82=0.3,则d =y .−cω.=2−0.3×8=0.4,∴y =−0.4+0.3√x ;(Ⅱ)由(Ⅰ)可知:当x =9时,则y =−0.4+0.3×3=0.5,∴当某家庭9月收入为9千元,该家庭计划用当月流动资金500元,大于499元, ∴当月收入为9千元时,当月流动资金能成功购置价格为499元的九阳豆浆机. 7. 解:(1)由频率分布直方图知,该汽车交易市场2017年成交的二手车使用时间在(8,12]的频率为0.07×4=0.28,使用时间在(12,16]的频率为0.03×4=0.12.所以在该汽车交易市场2017年成交的二手车随机选取1辆,其使用时间在(8,16]的概 率为0.28+0.12=0.4,…(2分)所以所求的概率为P =C 320.42⋅(1−0.4)=0.288;…(3分)(2)①由y =e a+bx 得lny =a +bx ,则Y 关于x 的线性回归方程为Y =a +bx ,…(4分)由于b ̂=10i=1i −x)(Y i −Y)∑(10x −x)2=∑x i 10i=1Y i −10x⋅Y ∑x i 210i=1−10x2=79.75−10×5.5×1.9385−10×5.52=−0.3, â=Y −β̂⋅x =1.9−(−0.3)×5.5=3.55, 则Y 关于x 的线性回归方程为Y^=3.55−0.3x ,……………………………(6分) 所以y 关于x 的回归方程为y ^=e 3.55−0.3x ;………………………(7分)②根据频率分布直方图和①中的回归方程,对成交的二手汽车可预测: 使用时间在(0,4]的频率为0.05×4=0.2,对应的成交价格的预测值为e 3.55−0.3×2=e 2.95≈19.1; 使用时间在(4,8]的频率为0.09×4=0.36,对应的成交价格预测值为e 3.55−0.3×6=e 1.75≈5.75; 使用时间在(8,12]的频率为0.07×4=0.28,对应的成交价格的预测值为e 3.55−0.3×10=e 0.55≈1.73; 使用时间在(12,16]的频率为0.03×4=0.12,对应的成交价格的预测值为e 3.55−0.3×14=e −0.65≈0.52; 使用时间在(16,20]的频率为0.01×4=0.04,对应的成交价格的预测值为e 3.55−0.3×18=e −1.85≈0.16;……………………(9分) 若采用甲方案,预计该汽车交易市场对于成交的每辆车可获得的平均佣金为(0.2×19.1+0.36×5.75+0.28×1.73+0.12×0.52+0.04×0.16)×5% =0.32166≈0.32万元;若采用乙方案,预计该汽车交易市场对于成交的每辆车可获得的平均佣金为(0.2×19.1+0.36×5.75)×4%+(0.28×1.73+0.12×0.52+0.04×0.16)×10% =0.29092≈0.29(万元);……………………(11分)因为0.32>0.29,所以采用甲方案能获得更多佣金. ……………(12分)8. 解:(1)根据散点图判断,y =c ⋅d x 适宜作为扫码支付的人数y 关于活动推出天数x 的回归方程类型;(2)∵y =c ⋅d x ,两边同时取常用对数得:1gy =1g(c ⋅d x )=1gc +1gd ⋅x ;设1gy =v ,∴v =1gc +1gd ⋅x ,∵x =4,v =1.55,∑X i 27i=1=140,∴lgd =∑7i=1x i v i −7xv∑x i 27i=1−7x2=50.12−7×4×1.54140−7×42=728=0.25,把样本中心点(4,1.54)代入v =1gc +1gd ⋅x ,得:lgd =0.54,∴v̂=0.54+0.25x ,∴1gy =0.54+0.25x , ∴y 关于x 的回归方程式:y ̂=100.54+0.25x =100.54(100.54)x =3.47(100.54)x ;把x =8代入上式:∴ŷ=100.54+0.25×8=102.54=102×100.54=347; 活动推出第8天使用扫码支付的人次为3470; (3)记一名乘客乘车支付的费用为Z ,则Z 的取值可能为:2,1.8,1.6,1.4;P(Z =2)=0.1;P(Z =1.8)=0.3×12=0.15;P(Z =1.6)=0.6+0.3×13=0.7;P(Z =1.4)=0.3×16=0.05所以,一名乘客一次乘车的平均费用为:2×0.1+1.8×0.15+1.6×0.7+1.4×0.05=1.66(元)由题意可知:1.66×1×12⋅n −0.66×12⋅n −80>0,n >203,所以,n 取7;估计这批车大概需要7年才能开始盈利.9. 解:(1)由已知,优等品的质量与尺寸的比在区间(e 9,e 7)内.即yx ∈(0.302,0.388).则随机抽取的6件合格产品中,有3件为优等品,3件为非优等品.现从抽取的6件合格产品再任选3件,则取到优等品的件数ξ=0,1,2,3. P(ξ=0)=C 30C 33C 63=120,P(ξ=1)=C 31C 32C 63=920,P(ξ=2)=C 32C 31C 63=920,P(ξ=3)=C 33C 30C 63=120.E(ξ)=0×120+1×920+2×920+3×120=32. (2)解:对y =c ⋅x b (b,c >0)两边取自然对数得lny =lnc +blnx .令v i =lnx i ,u i =lny i .得u =b ⋅v +a.且a =1nc . (i)根据所给统计量及最小二乘估计公式有:b ̂=∑v i ni=1u i −nvu ∑v i 2n i=1−nv2=75.3−24.6×18.3÷6101.4−24.62÷6=0.270.54=12, a ^=u −b ^v =(18.3−12×24.6)÷6=1,得a ^=ln c ^=1,c ^=e ,所求y 关于x 的回归方程为y =e ⋅x 12. (ii)由(i)可知y =e ⋅x 12,则z ^=2e √x −0.32x . 由优等品质量与尺寸的比ŷx=ex 12x=√x ∈(e 9,e7)⇒√x ∈(7,9),即x ∈(49,81). 当t =√x =e0.32≈8.5∈(7,9)时,z ^取最大值.即优等品的尺寸x ≈72.3(mm),收益z ^的预报值最大.10. 解:(Ⅰ)y (1)=29.9+50.2×1x 拟合时,R 12=1−0.8751821≈0.9995; y (2)=33.9+125.9e −x 拟合时,R 22=1−48.41821≈0.9734 ∵0.9995>0.9734,∴y (1)=29.9+50.2×1x 比y (2)=33.9+125.9e −x 拟合效果更好,R 12=1−0.8751821≈0.9995,表明界桩公里数解释了99.95%的交通事故发生次数的变化;(Ⅱ)界桩1040公里取x =40,由y (1)=29.9+50.2×140≈31.16,每次交通事故的理赔费=60×0.01+2×0.19+0.2×0.8=1,14万元,∴预报这一年在界桩1040公里附近处发生的交通事故的理赔费为31.16×1.14≈35.5万元.11. 解:(1)由题意,x =5.5,y =112.45,b ^=n i=1i −x)(y i −y)∑(n x −x)2=566.8582.50≈6.87, a ^=y −b ^x =112.45−6.87×5.5≈74.67; ∴y 关于x 的线性回归方程y =6.87x +74.67;(2)某同学认为,y =px 2+qx +r 更适宜作为y 关于x 的回归方程类型,他求得的回归方程是y =−0.30x 2+10.17x +68.07.当x =11时,代入回归方程是y =−0.30x 2+10.17x +68.07.可得y =142.74; 当x =11时,代入回归方程是y =6.87x +74.67;可得y =150.24; 由11岁男童身高的中位数为145.3cm .可得回归方程是y =6.87x +74.67计算的误差比较大.故回归方程是y =−0.30x 2+10.17x +68.07模拟合效果更好. 12. 解:(1)根据散点图判断,员工①提出的模型不适合, 因为散点图中x 与y 之间不是线性关系;(2)令v =√x ,先建立y 关于v 的线性回归方程, 由于d ∧=21i=1i −v)(y i −y)∑(21v −v)2=30.005.00=6,∴c ∧=y −d ∧v =62−6×6.3=24.2; ∴y 关于v 的线性回归方程为y ∧=24.2+6v , 因此模型②为y 2∧=24.2+6√x ;同理,令u =lnx ,建立y 关于u 的线性回归方程; f ∧=21i=1i −u)(y i −y)∑(21u −u)2=9.800.49=20,e ∧=y −f ∧u =62−20×3.60=−10, ∴y 关于u 的线性回归方程为y ∧=−10+20u , 因此模型③为y 3∧=−10+20lnx ; (i)模型②中,相关系数为 r 2=21i=1i −v)(y i −y)√∑(i=1v i −v)∑(i=1y i −y)=√5×200=310√10≈0.3×3.16=0.948; 模型③中,相关系数为 r 3=21i=1i −u)(y i −y)√∑(i=1u i −u)2∑(i=1y i −y)2=√0.49×200=710√2≈0.7×1.41=0.987; 可得1>r 3>r 2,说明变量u 与y 的线性相关程度更好, 即模型③为y 3∧=−10+20lnx 更为准确,模型③为最优模型.13. 解:(I)对y =ax b 两边同取对数得lny =blnx +lna ,令v =lnx ,u =lny ,得u =bv +lna∴b =∑v i 6i=1u i −6vu∑v i 26i=1−6v2=75.3−4.1×18.3101.4−6×4.12=12,∴lna =18.36−12×24.66=1,即a =e .(II)由题意知,X 的所有可能取值为0,1,2,3,4.P(X =0)=C 44C 144=11001,P(X =1)=C 43C 101C 144=401001,P(X =0)=C 42C 102C 144=2701001,P(X =1)=C 41C 103C 144=4801001,P(X =1)=C 104C 144=2101001.∴X 的分布列为∴E(X)=1×401001+2×2701001+3×4801001+4×2101001=207.14. 解:(Ⅰ)因为x =15(13+14+15+16+17)=15所以:∑(5i=1x i −x)2=(−2)2+(−1)2+12+22=10;关系式y =C 1⋅2C 2,其中k i =log 2y i 得:k =log 2C 1⋅2C 2x , ∴k =log 2C 1+C 2x ,所以C 2=5i=1i −x)(k i −k)∑(5x −x)2=110∴log 2C 1=k −C 2x =1.2−110×15=−0.3所以C 1=2−0.3=0.8 所以y =0.8×2x10当x =18时,2018年人均可支配年收入y =0.8×21.8=2.8(万)(Ⅱ)由题意知2017年时该市享受“国家精准扶贫”政策的学生共200000×7%=14000人一般困难、很困难、特别困难的中学生依次有7000人、4200人、2800人 2018年人均可支配收入比2017年增长0.8×21.8−0.8×21.70.8×21.7=20.1−1=0.1=10%所以2018年该市特别困难的中学生有2800×(1−10%)=2520人, 很困难的学生有4200×(1−20%)+2800×10%=3640人 一般困难的学生有7000×(1−30%)+4200×20%=5740人所以2018年的“专项教育基金”的财政预算大约为5740×1000+3640×1500+2520×2000=1624万.15. 解:(Ⅰ)根据散点图(1)知y 与x 是负相关, 根据散点图(2)知z 与x 是负相关;散点图(2)中各点都集中在一条直线附近, 即z 与x 具有较强的线性相关性;(Ⅱ)由x =16×(10+20+30+40+50+60)=35, z =16×(14.1+12.9+12.1+11.1+10.2+8.9)=11.55, ∴b ∧=6i=1i −x)(z i −z)∑(6x −x)2=−175.51750≈−0.10,由a ∧=z −b ∧x =11.55−(−0.10)×35=15.05≈15,∴z 关于x 的回归方程是z ∧=15−0.10x , 则y 关于x 的回归方程为y ∧=e z 2=e 12(15−0.10x), 即y ∧=e 12(15−0.10x);(Ⅲ)x =30时,y ∧=e 12×(15−0.10×30)=e 6=403.43,当定价x =30时的残差为|403.34−424|≈11. 16. 解:(I)由题意,t =2700,y =192,∑(5i=1t i −t)2=10140000,∑(5i=1t i −t)(y i −y)=586000; ∴b ∧=5i=1i −t)(y i −y)∑(5i=1t −t)2=58600010140000≈0.06;∴a ∧=y −b ∧t =192−0.06×2700=30, 又t =x 2,∴回归方程为y ∧=0.06x 2+30;(II)由w =y −1.2x ,y =0.06x 2+30,∴w =0.06x 2−1.2x +30, 令w ≥120,得0.06x 2−1.2x +30≥120, 解得x ≤−30或x ≥50, ∴取x ≥50;又政府投入该项目的扶贫资金是区间[45,80]内的任意整数值,满足题意的x ≥50; ∴所求的概率为P =80−50+180−45+1=3136.【解析】1. 本题考查了线性回归方程的应用问题,也考查了相关指数的应用问题,是难题. (Ⅰ)求出n 的值,计算相关系数,求出回归方程即可;(Ⅱ)(i)根据相关指数的大小,即可比较模型拟合效果的优劣;(ii)代入求值计算即可. 2. (Ⅰ)根据残差分析,把x =80代入y^(1)=0.24x −8.81得y ^(1)=10.39.10−10.39=−0.39,即可求表中空格内的值;(Ⅱ)求出残差的绝对值和,即可得出结论;(Ⅲ)确定残差大于1kg 的样本点被剔除后,剩余的数据,即可求出回归方程. 本题考查回归方程、残差分析,考查学生的计算能力,属于中档题.3. (1)由题意首先确定ξ的取值,然后求解相应的分布列和数学期望即可;(2)(i)结合题中所给的数据计算回归方程即可;(ii)结合计算求得的回归方程得到收益函数,讨论函数的最值即可求得最终结果.本题考查离散型随机变量的分布列,回归方程的计算及其应用等,重点考查学生对基础概念的理解和计算能力,属于中等题.4. (1)由等高条形图可知,年度平均销售额与方案1的运作相关性强于方案2. (2)①求出相关指数,比较可得结论;②由(1)可知,采用方案1的运作效果较方案2好,故年利润z =(−13x 2+1200)(x −15),利用导数的方法,可得结论.本题考查相关指数,考查等高条形图,考查导数知识的运用,属于中档题.5. (1)由题意计算x .、z .,求出相关系数r ,判断z 与x 的线性相关程度;(2)利用最小二乘估计公式计算b ^、a ^,写出z 与x 的线性回归方程, 求出y 关于x 的回归方程,计算x =9时y ∧的值即可;(3)利用线性回归方程求出y ∧≥0.7118时x 的取值范围,即可得出预测结果.本题考查了线性回归方程与线性相关系数的求法与应用问题,计算量大,计算时要细心. 6. (Ⅰ)求得样本中心点(ω.,y .),根据最小二乘法即可求得c 和d ,即可求得y =d +c √x ;(Ⅱ)当x =9时,代入即可求得y ,与0.499比较大小,即可判断答案.本题考查线性回归方程的应用,考查最小二乘法求线性回归方程,考查计算能力,属于中档题.7. (1)由频率分布直方图求得对应的频率,用频率估计概率即可计算所求的概率;(2)①由y =e a+bx 得lny =a +bx ,求出Y 关于x 的线性回归方程,再写出y 关于x 的回归方程;②根据频率分布直方图和①中的回归方程,对成交的二手汽车预测;再分别计算采用甲、乙两种方案,预计该汽车交易市场对于成交的每辆车可获得的平均佣金值.本题考查了频率分布直方图与线性回归方程的应用问题,是难题.8. (1)通过散点图,判断y =c ⋅d x 适宜作为扫码支付的人数y 关于活动推出天数x 的回归方程类型;(2)通过对数运算法则,利用回归直线方程相关系数,求出回归直线方程,然后求解第8天使用扫码支付的人次;(3)记一名乘客乘车支付的费用为Z ,则Z 的取值可能为:2,1.8,1.6,1.4;求出概率,计算期望,然后推出结果.本题考查了线性回归方程的求法及应用,数学期望的应用,考查计算能力,属于基础题.9. (1)由题意首先确定ξ的取值,然后求解相应的分布列和数学期望即可;(2)(i)结合题中所给的数据计算回归方程即可;(ii)结合计算求得的回归方程得到收益函数,讨论函数的最值即可求得最终结果.本题考查离散型随机变量的分布列,回归方程的计算及其应用等,重点考查学生对基础概念的理解和计算能力,属于中等题.10. (Ⅰ)计算R 2的值,即可得出结论;(Ⅱ)求出界桩1040公里取x =40,由y (1)=29.9+50.2×140≈31.16,每次交通事故的理赔费=60×0.01+2×0.19+0.2×0.8=1,14万元,即可得出结论. 本题考查回归方程,考查拟合效果,考查学生的计算能力,属于中档题.11. (1)由题意求出x ,y ,∑x i 210i=1,∑x i 10i=1y i ,代入公式求值,从而得到回归直线方程;(2)将x =11代入回归方程是y =−0.30x 2+10.17x +68.07和(1)问中的方程,得到的结果与145.3cm 比较,即可判断本题考查了线性回归方程的求法及应用,属于基础题.12. (1)根据散点图判断员工①提出的模型不适合,散点图中的点不是线性关系;(2)令v =√x ,建立y 关于v 的线性回归方程,得模型②的线性回归方程; 令u =lnx ,建立y 关于u 的线性回归方程,得模型③的线性回归方程;计算模型②中相关系数r 2,模型③相关系数r 3,比较即可得出结论.本题考查了线性回归方程的应用问题,也考查了相关系数的应用问题,是中档题. 13. (I)对y =ax b 两边同取对数得lny =blnx +lna ,令v =lnx ,u =lny ,得u =bv +lna ,利用计算公式即可得出.(II)由题意知,X 的所有可能取值为0,1,2,3,4.利用超几何分布列计算公式即可得出.。
专题2 非线性回归方程例1. 某景区的各景点从2009年取消门票实行免费开放后,旅游的人数不断地增加,不仅带动了该市淡季的旅游,而且优化了旅游产业的结构,促进了该市旅游向“观光、休闲、会展”三轮驱动的理想结构快速转变.下表是从2009年至2018年,该景点的旅游人数y (万人)与年份x 的数据:模型①:由最小二乘法公式求得y 与x 的线性回归方程5081697=+ˆ..yx ; 模型②:由散点图的样本点分布,可以认为样本点集中在曲线=bx y ae 的附近. (1)根据表中数据,求模型②的回归方程=ˆbx yae .(a 精确到个位,b 精确到001.). (2)根据下列表中的数据,比较两种模型的相关指数2R ,并选择拟合精度更高、更可靠的模型,预测2021年该景区的旅游人数(单位:万人,精确到个位).参考公式、参考数据及说明:①对于一组数据1(v ,1)w ,2(v ,2)w ,⋯,(n v ,)n w ,其回归直线αβ=+ˆˆˆwv 的斜率和截距的最小二乘法估计分别为121βαβ==--==--∑∑()()ˆˆ,()nii i nii ww v v w v vv . ②刻画回归效果的相关指数221211==-=--∑∑()()nii i n ii yy Ryy .③参考数据:546235≈.e ,14342≈..e .表中101110===∑,i i ii u lny u u.【解析】解:(1)对=bx y ae 取对数,得=+lny bx lna , 设=u lny ,=c lna ,先建立u 关于x 的线性回归方程.1011021900010883==--==≈-∑∑()().ˆ.()ii i ii xx u u bxx , 6050108555456546=-≈-⨯=≈ˆˆ.....cu bx ,546235=≈≈ˆ.ˆc a e e . ∴模型②的回归方程为011235=.ˆx ye ; (2)由表格中的数据,有3040714607>,即101022113040714607==>--∑∑()()iii i yy yy ,即10102211304071460711==-<---∑∑()()iii i yy yy ,∴2212<R R ,模型①的相关指数21R 小于模型②的22R ,说明回归模型②的拟合效果更好.2021年时,13=x ,预测旅游人数为0111314323523523542987⨯==≈⨯=..ˆ.y e e (万人).例2. 近年来,随着国家综合国力的提升和科技的进步,截至2018年底,中国铁路运营里程达13.2万千米,这个数字比1949年增长了5倍;高铁运营里程突破2.9万千米,占世界高铁运营里程的60%以上,居世界第一位.如表截取了20122016-年中国高铁密度的发展情况(单位:千米/万平方千米).已知高铁密度y 与年份代码x 之间满足关系式=(b y ax a ,b 为大于0的常数).若对=b y ax 两边取自然对数,得到=+lny blnx lna ,可以发现lny 与lnx 线性相关.(1)根据所给数据,求y 关于x 的回归方程ˆ(lna ,ˆb 保留到小数点后一位);(2)利用(1)的结论,预测到哪一年,高铁密度会超过30千米/万平方千米.参考公式:设具有线性相关系的两个变量x ,y 的一组数据为(i x ,1=)(i y i ,2,⋯⋯)n ,则回归方程ˆˆˆybx a =+的系数:121==--=-∑∑()()ˆ()nii i nii xx y y b xx ,=-ˆay bx . 参考数据:515092=-≈∑.ii i lnxlny lnx lny ,5221516=-≈∑()().ii lnx lnx ,515=≈∑ii lnx,5114=≈∑ii lny,274≈.,3034≈.ln .【解析】解:(1)对00=>>(,)b y ax a b 两边取自然对数,得=+lny blnx lna ; 令=i i v lnx ,=i i u lny ,1=i ,2,3,⋯,n ; 得u 与v 具有线性相关关系,计算51522150920575165==-===-∑∑.ˆ..i i i ii v uvubvv ,140575122255=-=-⨯=ˆ..lna u bv , ∴06≈ˆ.b,22≈≈.lna , ∴0622=+ˆ..u v ,故y 关于x 的回归方程为0622+=..ˆlnx y e , 即2206=..ˆye x ; (2)在(1)的回归方程中,0622+=..lnx y e ,高铁密度超过30千米/万平方千米; 即062230+>..lnx e ,06223034+>≈...lnx ln ,2>lnx .274>≈.x e ,即8=x 时,高铁密度超过30千米/万平方千米;所以预测2019年,高铁密度超过30千米/万平方千米.例3. 某公司生产一种产品,从流水线上随机抽取100件产品,统计其质量指数并绘制频率分布直方图(如图1):产品的质量指数在[50,70)的为三等品,在[70,90)的为二等品,在[90,110]的为一等品,该产品的三、二、一等品的销售利润分别为每件1.5,3.5,5.5(单位:元),以这100件产品的质量指数位于各区间的频率代替产品的质量指数位于该区间的概率. (1)求每件产品的平均销售利润;(2)该公司为了解年营销费用x (单位:万元)对年销售量y (单位:万件)的影响,对近5年的年营销费用i x 和年销售量i y (1,2,3,4,5)i =数据做了初步处理,得到的散点图(如图2)及一些统计量的值.表中ln i i u x =,ln i i v y =,5115i i u u ==∑,5115i i v v ==∑根据散点图判断,by a x =可以作为年销售量y (万件)关于年营销费用x (万元)的回归方程.(ⅰ)建立y 关于x 的回归方程;(ⅰ)用所求的回归方程估计该公司应投入多少营销费,才能使得该产品一年的收益达到最大?(收益=销售利润-营销费用,取 4.15964e =)参考公式:对于一组数据:11(,)u v ,22(,)u v ,,(,)n n u v ,其回归直线v u αβ=+的斜率和截距的最小乘估计分别为^121()()()nii i nii uu v v uu β==--=-∑∑,^v u αβ∧∧=-【解析】(1)设每件产品的销售利润为ξ元,则ξ的所有可能取值为1.5,3.5,5.5 由直方图可得:一、二、三等品的频率分别为0.4,0.45,0.15, 所以()1.50.15P ξ==,()3.50.45P ξ==, ()5.50.4P ξ==,所以:随机变量ξ的分布列为:所以, 1.50.15 3.50.45 5.50.44E ξ=⨯+⨯+⨯= 故每件产品的平均销售利润为4元.(2)(ⅰ)由·b y a x =得,()ln ln ?ln ln by a x a b x ==+,令ln u x =,ln v y =,ln c a =,则v c bu =+,由表中数据可得,()()()1210.410.251.6ˆ4ni i i n i i u u v v b u u ==--===-∑∑, 则24.8716.300.25 4.15955ˆc v bu∧∧=-=-⨯= 所以, 4.1590.25v u ∧=+,即14.1594ln 4.1590.25ln ln ?y x e x ∧⎛⎫=+= ⎪⎝⎭因为 4.15964e=,所以1464?y x ∧=故所求的回归方程为1464?y x =(ⅰ)设年收益为z 万元,则()14256z E y x x x ξ=-=-设14t x =,()4256f t t t =-,则()()33'2564464f t t t=-=-当()0,4t ∈时,()'0f t >,()f t 在()0,4单调递增, 当()4,t ∈+∞时,()'0f t <,()f t 在()4,+∞单调递减. 所以,当4t =,即256x =时,z 有最大值为768即该厂应投入256万元营销费,能使得该产品一年的收益达到最大768万元.例4. 近年来,随着互联网技术的快速发展,共享经济覆盖的范围迅速扩张,继共享单车、共享汽车之后,共享房屋以“民宿”、“农家乐”等形式开始在很多平台上线.某创业者计划在某景区附近租赁一套农房发展成特色“农家乐”,为了确定未来发展方向,此创业者对该景区附近六家“农家乐”跟踪调查了100天.得到的统计数据如下表,x 为收费标准(单位:元/日),t 为入住天数(单位:),以频率作为各自的“入住率”,收费标准x 与“入住率”y 的散点图如图(1)若从以上六家“农家乐”中随机抽取两家深入调查,记ξ为“入住率”超过0.6的农家乐的个数,求ξ的概率分布列;(2)令ln z x =,由散点图判断ˆˆˆybx a =+与ˆˆy bz a =+哪个更合适于此模型(给出判断即可,不必说明理由)?并根据你的判断结果求回归方程.(ˆb结果保留一位小数) (3)若一年按365天计算,试估计收费标准为多少时,年销售额L 最大?(年销售额365L =⋅入住率⋅收费标准x )参考数据:1221ˆ,ni i i n ii x y nx y b x nx ==-⋅=-∑∑621,200,0.45,32500,ˆˆ0ii a y bx x y x ==-===∑ 615.1,12.7,i i i z y z =≈≈∑6231158.1,148.4ii ze =≈≈∑【解析】(1)ξ的所有可能取值为0,1,2.则()0P ξ== 2426C C 62,155== ()1124268115C C P C ξ⋅===,()2P ξ== 2226C C 115= ξ∴的分布列(2)由散点图可知ˆˆˆybz a =+更适合于此模型. 其中6162216 1.070.52.0ˆ46i i i i i z y zy bz z ==--==≈--∑∑,ˆ3ˆˆay bz =-= 所求的回归方程为0.5ˆ3ylnx =-+ (3)()3650.53L lnx x =-+=3651095.2xlnx x -+ 365365365322L lnx =--+⨯'令505148.4L lnx x e =⇒=⇒=≈' ∴若一年按365天计算,当收费标准约为148.4元/日时,年销售额L 最大,最大值约为27083元.例5. 已知某种细菌的适宜生长温度为10C 25C ︒~︒,为了研究该种细菌的繁殖数量y (单位:个)随温度x (单位:C ︒)变化的规律,收集数据如下:对数据进行初步处理后,得到了一些统计量的值,如下表所示:其中ln i i k y =,7117i i k k ==∑.(1)请绘出y 关于x 的散点图,并根据散点图判断y bx a =+与21e c xy c =哪一个更适合作为该种细菌的繁殖数量y 关于x 的回归方程类型(结果精确到0.1);(2)当温度为25C ︒时,该种细菌的繁殖数量的预报值为多少?参考公式:对于一组数据()(),1,2,3,...,i i u v i n =,其回归线ˆˆˆvu βα=+的斜率和截距的最小二乘估计分别为:()121ˆ()()niii nii u u v v u u β==--=-∑∑,ˆˆav u β=-.参考数据: 5.5e 245≈.【解析】(1)绘出的散点图如图所示,根据散点图判断21c xy c e =更适合作为该种细菌的繁殖数量y 关于x 的回归方程类型;(2)∵21c xy c e=,∴21lny c x lnc =+,∴()()()71272120.50.2112i ii i i x x k k c x x ==--==≈-∑∑,1220.53.8180.5112lnck c x =-=-⨯≈, ∴0.51c e =,20.20.51c xx y c e e +==,当温度为25C ︒时,该种细菌的繁殖数量的预报值为 5.5245e ≈.例6. 噪声污染已经成为影响人们身体健康和生活质量的严重问题,为了了解声音强度D (单位:分贝)与声音能量(单位:2/W cm )之间的关系,将测量得到的声音强度1D 和声音能量i I (i =1,2…,10)数据作了初步处理,得到如图散点图及一些统计量的值.表中lg i i W I =,101110i i W W ==∑。
非线性回归常见模型一.基本内容模型一xc e c y 21=,其中21,c c 为常数.将xc ec y 21=两边取对数,得x c c e c y xc 211ln )ln(ln 2+==,令21,ln ,ln c b c a y z ===,从而得到z 与x 的线性经验回归方程a bx z +=,用公式求即可,这样就建立了y 与x 非线性经验回归方程.模型二221c x c y +=,其中21,c c 为常数.令a c b c x t ===212,,,则变换后得到y 与t 的线性经验回归方程a bt y +=,用公式求即可,这样就建立了y 与x 非线性经验回归方程.模型三21c x c y +=,其中21,c c 为常数.a cbc x t ===21,,,则变换后得到y 与t 的线性经验回归方程a bt y +=,用公式求即可,这样就建立了y 与x 非线性经验回归方程.模型四反比例函数模型:1y a b x=+令xt 1=,则变换后得到y 与t 的线性经验回归方程a bt y +=,用公式求即可,这样就建立了y 与x 非线性经验回归方程.模型五三角函数模型:sin y a b x=+令x t sin =,则变换后得到y 与t 的线性经验回归方程a bt y +=,用公式求即可,这样就建立了y 与x 非线性经验回归方程.二.例题分析例1.用模型e kx y a =拟合一组数据组()(),1,2,,7i i x y i =⋅⋅⋅,其中1277x x x ++⋅⋅⋅+=;设ln z y =,得变换后的线性回归方程为ˆ4zx =+,则127y y y ⋅⋅⋅=()A.70e B.70C.35e D.35【解析】因为1277x x x ++⋅⋅⋅+=,所以1x =,45z x =+=,即()127127ln ...ln ln ...ln 577y y y y y y +++==,所以35127e y y y ⋅⋅⋅=.故选:C例2.一只红铃虫产卵数y 和温度x 有关,现测得一组数据()(),1,2,,10i i x y i =⋅⋅⋅,可用模型21e c x y c =拟合,设ln z y =,其变换后的线性回归方程为4zbx =- ,若1210300x x x ++⋅⋅⋅+=,501210e y y y ⋅⋅⋅=,e 为自然常数,则12c c =________.【解析】21e c x y c =经过ln z y =变换后,得到21ln ln z y c x c ==+,根据题意1ln 4c =-,故41e c -=,又1210300x x x ++⋅⋅⋅+=,故30x =,5012101210e ln ln ln 50y y y y y y ⋅⋅⋅=⇒++⋅⋅⋅+=,故5z =,于是回归方程为4zbx =- 一定经过(30,5),故ˆ3045b -=,解得ˆ0.3b =,即20.3c =,于是12c c =40.3e -.故答案为:40.3e -.该景点为了预测2023年的旅游人数,建立了模型①:由最小二乘法公式求得的数据如下表所示,并根据数据绘制了如图所示的散点图.。
第23讲 非线性回归方程一、必备秘籍当经验回归方程并非形如y bx a =+(,a b R ∈)时,称之为非线性经验回归方程,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟,常见的非线性经验回归方程的转换方式总结如下:1.确定研究对象,明确哪个是解释变量,哪个是响应变量;2.由经验确定非线性经验回归方程的模型;3.通过变换(一般题目都有明显的暗示如何换元,换元成什么变量),将非线性经验回归模型转化为线性经验回归模型(特别注意:使用线性回归方程的公式,注意代入变换后的变量);4.按照公式计算经验回归方程中的参数,得到经验回归方程;5.消去新元,得到非线性经验回归方程;6.得出结果后分析残差图是否有异常 . 二、例题讲解1.(2021·全国高三专题练习(文))人类已经进入大数据时代.目前,数据量级已经从TB (1TB =1024GB )级别跃升到PB (1PB =1024TB ),EB (1EB =1024PB )乃至ZB (1ZB =1024EB )级别.国际数据公司(IDC )研究结果表明,2008年全球产生的数据量为0.49ZB ,2009年数据量为0.8ZB ,2010年增长到1.2ZB ,2011年数据量更是高达1.82ZB .下表是国际数据公司(IDC )研究的全球近6年每年产生的数据量(单位:ZB )及相关统计量的值:表中ln i i z y =,16i i z z ==∑.(1)根据上表数据信息判断,方程21c xy c e =⋅(e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(2c 精确到0.01).(2)有人预计2021年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由.参考数据: 4.5695.58e ≈, 4.5897.51e ≈,回归方程y a bx =+中,斜率最小二乘法公式为()()()1122211n niii ii i nniij i x x y y x y nxyb x x xnx====---==--∑∑∑∑,a y bx =-.【答案】(1) 1.520.38x y e +=;(2)见解析. 【分析】(1)设ln z y =,则12ln z c c x =+,再根据参考数据及公式即可得解(2)先将8x =代入得预计2021年数据量,进而和2011年的50倍比较大小即可得解 【详解】(1)由21c xy c e =⋅,两边同时取自然对数得()2112ln ln ln c x y c e c c x =⋅=+,设ln z y =,则12ln z c c x =+. 因为 3.5x =, 2.85z =,()62117.58i i x x=-=∑,()()616.7.i i i x x z z =--=∑,所以()()()12216.730.3817.58niii nij x x z z c x x ==--==≈-∑∑,12ln 2.850.38 3.5 1.52c z c x =-=-⨯=.所以 1.520.38ln z x y =+=, 所以 1.520.38x y e +=;(2)令8x =,得 1.520.388 4.56ˆ95.58 1.825091ye e +⨯==≈>⨯=. 预计2021年全世界产生的数据规模会超过2011年的50倍. 【点睛】关键点点睛:对于非线性回归方程的求解,一般要结合题意作变换,转化为线性回归方程来求解,同时也要注意相应数据的变化.((11ii nj x b ===∑∑再直接选择数据,字母x 没有((11n ii nj x b ===∑∑参考数据总选择需要的数据代入计算。
多项式回归、非线性回归模型关键词:回归方程的统计检验、拟合优度检验、回归方程的显著性检验、F 检验、回归系数的显著性检验、残差分析、一元多项式回归模型、一元非线性回归模型一、回归方程的统计检验 1. 拟合优度检验1. 概念介绍SST 总离差平方和total SSR 回归平方和regression SSE 剩余平方和error∑∑∑∑====--=---=ni i ini i ini i ini i iy yy y y yyy R 121212122)()ˆ()()ˆ(12. 例题1存在四点(-2,-3)、(-1,-1)、(1,2)、(4,3)求拟合直线与决定系数。
2. 回归方程的显著性检验)2/()2/()ˆ()ˆ(1212-=---=∑∑==n SSE SSAn yyy yF ni i i ni i i例6(F 检验)在合金钢强度的例1中,我们已求出了回归方程,这里考虑关于回归方程的显著性检验,经计算有:表5 X 射线照射次数与残留细菌数的方差分析表这里值很小,因此,在显著性水平0.01下回归方程是显著的。
3. 回归系数的显著性检验 4. 残差分析二、一元多项式回归模型模型如以下形式的称为一元多项式回归模型:0111a x a x a x a y n n n n ++++=--例1(多项式回归模型)为了分析X 射线的杀菌作用,用200千伏的X 射线来照射细菌,每次照射6分钟,用平板计数法估计尚存活的细菌数。
照射次数记为t ,照射后的细菌数为y 见表1。
试求:(1)给出y 与t 的二次回归模型。
(2)在同一坐标系内作出原始数据与拟合结果的散点图。
(3)预测16=t 时残留的细菌数。
(4)根据问题的实际意义,你认为选择多项式函数是否合适?表1 X 射线照射次数与残留细菌数程序1 t=1:15;y=[352 211 197 160 142 106 104 60 56 38 36 32 21 19 15]; p=polyfit(t,y,2)%作二次多项式回归 y1=polyval(p,t);%模型估计与作图plot(t,y,'-*',t,y1,'-o');%在同一坐标系中做出两个图形 legend('原始数据','二次函数') xlabel('t(照射次数)')%横坐标名 ylabel('y(残留细菌数)')%纵坐标名 t0=16;yc1=polyconf(p,t0)%预测t0=16时残留的细菌数,方法1 yc2=polyval(p,t0)%预测t0=16时残留的细菌数,方法2 即二次回归模型为:8967.3471394.519897.121+-=t t y图1 原始数据与拟合效果的散点图原始数据与拟合结果的散点图如图所示,从图形可知拟合效果较好。
183XUE SHU ZHENG MING利用典例分析非线性回归方程周培红(泉州第一中学,福建 泉州 362000)一、回归分析法所谓回归分析的方法,是指在大量掌握观察数据的基础上,利用数学统计方法构造自变量与因变量之间的回归关系的函数式(称为回归方程式)。
在回归分析中,由因变量与自变量之间因果关系的函数表达式来判断是非线性的还是线性的,分为非线性回归分析和线性回归分析。
在解题中线性回归分析法是最常用的分析方法,可以利用数学手段,将遇到非线性回归问处理方法:两边取对数:㏑y=㏑ɑ+b ㏑x,再设'ln 'y yx x== ,则原方程变成y'=㏑ɑ+bx',再根据一次线性回归模型的方法得出㏑ɑ和b。
(2)幂函数曲线y=ɑx b处理方法:两边取对数得:㏑y=㏑ɑ+b ㏑x,再设'ln 'ln y yx x== ,则变原方程为y'=㏑ɑ+bx',再依据一次线性回归模型的方法得出㏑ɑ和b。
(3)倒指数曲线bxy ae=处理方法:两边取自然对数得:ln ln by a x=+,再设'ln 1'y y x x ==,则变原方程为y'=㏑ɑ+bx',再依据一次线性回归模型的方法得出㏑ɑ和b。
(4)对数曲线 y=ɑ+b ㏑x处理方法:设''ln y y x x== ,则原来的方程变成y'=ɑ+bx',再依据一次线性回归模型的方法得出ɑ和b。
三、典型分析近日,有一旅游公司打算推出支付宝支付和微信支付旅游活动,计划安排一段时间的推广期,通过推广期内较大的优惠力度,使越来越多的人开始使用微信支付。
某景点统计了在活动推出一周内每天有多少人次使用微信,活动推出的天数用x 表示,每天使用微信支付的人次用y 表示,得到如下统计数据:x 1234567y601102103406601 0101 960y v 71iii x y=∑71i ii x v=∑100.546212.5425 35078.123.47根据以上数据,绘制了散点图。
多元非线性回归多元非线性回归分析是具有两个以上变量的非线性回归模型。
解决多元非线性回归模型的传统方法仍然是找到一种将其转换为标准线性多元回归模型的方法。
一些非线性回归模型可以通过适当的数学变换来获得其线性化表达式,但是对于其他非线性回归模型,仅变量变换没有帮助。
属于前一种情况的非线性回归模型通常称为内在线性回归,而后者称为内在非线性回归。
补充数据:线性回归线性回归是一种统计分析方法,在数学统计中使用回归分析来确定两个或多个变量之间的定量关系。
表达式形式为y = w'x + e,E为误差的正态分布,平均值为0。
在回归分析中,仅包含一个自变量和一个因变量,并且两者之间的关系可以近似地由一条直线表示。
这种回归分析称为单变量线性回归分析。
如果回归分析包括两个或多个自变量,并且因变量和自变量之间的关系是线性的,则称为多元线性回归分析。
在统计中,线性回归是一种回归分析,它使用称为线性回归方程的最小二乘函数对一个或多个自变量与因变量之间的关系进行建模。
此函数是一个或多个称为回归系数的模型参数的线性组合。
仅一个自变量的情况称为简单回归,而一个以上自变量的情况称为多重回归。
(这又应通过多个因变量而不是单个标量变量预测的多个线性回归来区分。
)在线性回归中,数据是通过线性预测函数建模的,未知模型参数是通过数据估算的。
这些模型称为线性模型。
最常用的线性回归建模是给定x值的Y的条件平均值是X的仿射函数。
在不太常见的情况下,线性回归模型可以是Y的条件分布的中位数或其他分位数像所有形式的回归分析一样,线性回归关注于给定x值的Y的条件概率分布,而不是X和Y的联合概率分布(在多元变量领域)分析)。
线性回归是经过严格研究并在实际应用中广泛使用的第一类回归分析。
这是因为与未知参数线性相关的模型比对位置参数非线性相关的模型更容易拟合,并且更容易确定结果估计的统计特征。
线性回归模型通常通过最小二乘近似进行拟合,但也可以通过其他方法进行拟合,例如最小化某些其他规范中的“拟合缺陷”(例如最小绝对误差回归)或最小化最小二乘的惩罚桥回归中的损失函数,最小二乘近似可用于拟合那些非线性模型。
非线性回归一、可化为线性回归的曲线回归在实际问题当中,有许多回归模型的被解释变量y 与解释变量x 之间的关系都不是线性的,其中一些回归模型通过对自变量或因变量的函数变换可以转化为线性关系,利用线性回归求解未知参数,并作回归诊断。
如下列模型。
εββ++=x e y 10-------(1) εββββ+++++=p p x x x y 2210--------(2) εe ae y bx =--------------------(3) ε+=bx ae y -------------(4)对于(1)式,只需令x e x ='即可化为y 对x '是线性的形式εββ+'+=x y 10,需要指出的是,新引进的自变量只能依赖于原始变量,而不能与未知参数有关。
对于(2)式,可以令1x =x ,2x =2x ,…, p x =p x ,于是得到y 关于1x ,2x ,…, p x 的线性表达式εββββ+++++=p p x x x y 22110对与(3)式,对等式两边同时去自然数对数,得ε++=bx a y ln ln ,令 y y ln =',a ln 0=β,b =1β,于是得到y '关于x 的一元线性回归模型: εββ++='x y 10。
对于(4)式,当b 未知时,不能通过对等式两边同时取自然数对数的方法将回归模型线性化,只能用非线性最小二乘方法求解。
回归模型(3)可以线性化,而(4)不可以线性化,两个回归模型有相同的回归函数bx ae ,只是误差项ε的形式不同。
(3)式的误差项称为乘性误差项,(4)式的误差项称为加性误差项。
因而一个非线性回归模型是否可以线性化,不仅与回归函数的形式有关,而且与误差项的形式有关,误差项的形式还可以有其他多种形式。
乘性误差项模型和加性误差项模型所得的结果有一定差异,其中乘性误差项模型认为t y 本身是异方差的,而t y ln 是等方差的。
回归方程公式回归方程是一种特殊的统计关系,它允许你使用数学表达式来预测变量之间的关系。
使用一个或多个自变量(例如年龄,收入,教育,种族等)来预测另一个变量,例如财富或健康状况。
归方程使用变量之间的数据来确定回归系数以及预测结果。
回归方程的公式是什么?回归方程的公式通常形式为:Y=a+bX,其中a是回归系数,b是X变量的系数,X是被预测变量,Y是预测结果。
例如,假设您正在预测财富与年龄之间的关系,则回归方程可能是Y = a + bX,其中Y 表示财富,X表示年龄,a和b表示回归系数。
求解回归方程的方法回归方程的求解分为两个主要步骤。
先,使用X变量的数据集(例如,年龄)拟合一个数学拟合曲线,称为回归曲线。
外,需要使用回归曲线对Y变量(例如,财富)求和平方差,以得出回归系数a和b。
回归曲线可以分为线性回归曲线和非线性回归曲线。
性回归曲线是具有确定性系数的线性关系,它可以明确地预测变量之间的关系。
线性回归曲线是具有不确定性系数的非线性关系,它不能明确地预测变量之间的关系。
为了求解回归方程,需要使用数据拟合技术,例如最小二乘法,线性回归和非线性回归。
小二乘法可以用来拟合线性模型,同时确定模型中每个变量的权重。
性回归可以用来拟合线性模型,而非线性回归可以用来拟合非线性模型。
由于每种拟合技术的方法不同,因此可能需要使用不同的算法来求解每种类型的回归方程。
例如,使用最小二乘法拟合线性回归模型时,可以使用最小二乘法的梯度下降算法来求解回归方程;而使用非线性回归模型时,可以使用多项式回归,神经网络或其他类似的算法来求解该方程。
回归方程的应用回归方程是统计学中常用的工具,它可以用来研究变量之间的关系,特别是当变量之间存在某种可能的统计关系时,回归方程可以帮助我们对变量之间的关系进行更详细的分析。
例如,可以使用回归方程来研究收入与教育程度之间的关系,或研究冠状动脉病变(CVD)和高血压之间的关系等。
此外,回归方程可能还可以用于模拟和预测变量之间的关系,例如通过模拟股票价格的变化,预测经济增长,或者预测政治事件对市场的影响等。
新教材高中数学新人教B版选择性必修第二册:第2课时相关系数与非线性回归学习任务核心素养1.了解两个变量间的线性相关系数r,并能利用公式求相关系数r.(重点)2.能利用相关系数r判断两个变量线性相关程度的大小,从而判断回归直线方程拟合的效果.(重点)3.掌握非线性回归转化为线性回归的方法,会求非线性回归方程,并作出预测.(难点)1.通过学习相关系数,培养数学运算的素养.2.借助非线性回归方程的学习,提升数据分析和数学建模的素养.据隆众资讯数据统计,2017~2019年截止到10月底的数据显示,聚丙烯期货价格及现货价格二者相关系数为88.70%,其中2017年二者相关系数高达90.86%,2018年降至83.97%,2019年截止到10月底二者相关系数为65.23%.问题:什么是相关系数,如何计算,它有什么作用?[提示]略.(1)定义:统计学里一般用r=∑ni=1(x i-x-)(y i-y-)∑ni=1(x i-x-)2∑ni=1(y i-y-)2=∑ni=1x i y i-n x-y-(∑ni=1x2i-n x-2)(∑ni=1y2i-n y-2)来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数).(2)性质①|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0;②|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值;③|r|=1的充要条件是成对数据构成的点都在回归直线上.1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 如下表:甲乙丙丁r 0.82 0.78 0.69 0.85则哪位同学的试验结果体现A ,B 两变量有更强的线性相关性( ) A .甲 B .乙 C .丙 D .丁 D [r 的绝对值越接近1,相关性越强,故选D .] 知识点2 非线性回归方程如果具有相关关系的两个变量x ,y 不是线性相关关系,那么称为非线性相关关系,所得到的方程称为非线性回归方程(也简称为回归方程).如何猜测非线性回归方程的类型?[提示] 可以通过作出散点图,结合已学的函数模型进行猜测. 拓展:常见的非线性回归方程的转换方式如下:曲线方程曲线(曲线的一部分)变换公式 变换后的线性函数 y =ax bc =ln av =ln x u =ln y u =c +b vy =a e bxc =ln a u =ln yu =c +bxy =a e b xc =ln av =1xu =ln yu =c +b vy =a +b ln xv =ln x y =a +b v到的散点图,那么适宜作为y 关于x 的回归方程的函数类型是( )A .y =a +bxB .y =c +d xC .y =m +nx 2D .y =p +qc x (q >0)B [散点图呈曲线,排除A 选项,且增长速度变慢,排除选项C 、D ,故选B .]类型1 相关系数的性质【例1】 (1)相关变量x ,y 的散点图如图所示,现对这两个变量进行线性相关性分析.方案一:根据图中所有数据,得到回归直线方程y ^=b ^1x +a ^1,相关系数为r 1;方案二:剔除点(10,21),根据剩下数据得到回归直线方程:y ^=b ^2x +a ^2,相关系数为r 2,则( )A .0<r 1<r 2<1B .0<r 2<r 1<1C .-1<r 1<r 2<0D .-1<r 2<r 1<0(2)设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线方程的回归系数为b ^,回归截距是a ^,那么必有( )A .b ^与r 的符号相同 B .a ^与r 的符号相同 C .b ^与r 的符号相反D .a ^与r 的符号相同(1)D (2)A [(1)由散点图得负相关,所以r 1,r 2<0,因为剔除点(10,21)后,剩下的数据更具有线性相关性,|r |更接近1,所以-1<r 2<r 1<0.(2)由公式可知b ^与r 的符号相同.]线性相关强弱的判断方法(1)散点图(越接近直线,相关性越强). (2)相关系数(绝对值越大,相关性越强).[跟进训练]1.如图是具有相关关系的两个变量的一组数据的散点图和回归直线,若去掉一个点使得余下的5个点所对应的数据的相关系数最大,则应当去掉的点是( )A .DB .EC .FD .AB [因为相关系数的绝对值越大,越接近1,则说明两个变量的相关性越强.因为点E 到直线的距离最远,所以去掉点E ,余下的5个点所对应的数据的相关系数最大.]类型2 相关系数的计算及应用【例2】 假设关于某种设备的使用年限x (单位:年)与所支出的维修费用y (单位:万元)有如下统计资料:x2 3 4 5 6y 2.2 3.8 5.5 6.5 7.0已知∑5i =1x 2i =90,∑5i =1y 2i ≈140.8,∑i =1x i y i =112.3,79≈8.9,2≈1.4.(1)计算y 与x 之间的相关系数(精确到0.001),并求出回归直线方程; (2)根据回归方程,预测假设使用年限为10年时,维修费用约是多少万元?[解] (1)∵x -=2+3+4+5+65=4,y -=2.2+3.8+5.5+6.5+7.05=5.∑5i =1x i y i -5x -y -=112.3-5×4×5=12.3,∑5i =1x 2i -5x -2=90-5×42=10, ∑5i =1y 2i -5y -2=140.8-125=15.8,所以r =12.310×15.8=12.3158=12.32×79≈12.31.4×8.9≈0.987.又b ^=∑5i =1x i y i -5x -y-∑5i =1x 2i -5x-2=112.3-5×4×590-5×42=1.23.a ^=y --b ^x -=5-1.23×4=0.08. 所以回归直线方程为y ^=1.23x +0.08.(2)当x =10时,y ^=1.23×10+0.08=12.38(万元), 即假设使用10年时,维修费用约为12.38万元. [跟进训练]2.某厂的生产原料耗费x (单位:百万元)与销售额y (单位:百万元)之间有如下的对应关系:x2468y 30 40 50 70(1)计算x 与y 之间的相关系数,并求其回归直线方程;(2)若实际销售额不少于80百万元,则原料耗费应该不少于多少? [解] (1)画出(x ,y )的散点图如图所示,由图可知x ,y 有线性关系.x -=5,y -=47.5,∑4i =1x 2i =120,∑4i =1y 2i =9 900,∑4i =1x i y i =1 080,故相关系数r =∑4i =1x i y i -4x -y-(∑4i =1x 2i -4x -2)(∑4i =1y 2i -4y -2)=1 080-4×5×47.5(120-4×52)(9 900-4×47.52)≈0.982 7.b ^=∑4i =1x i y i -4x -y-∑4i =1x 2i -4x-2=1 080-4×5×47.5120-4×52=6.5, a ^=y --b ^x -=47.5-6.5×5=15. 故回归直线方程为y ^=6.5x +15. (2)由回归直线方程知, 当y ^≥80,即6.5x +15≥80时, x ≥10.故原料耗费应不少于10百万元. 类型3 非线性回归方程已知x 和y 之间的一组数据,则下列四个函数中,哪一个作为回归模型最好?x 12 3y 3 5.99 12.01①y =3×2x -1;②y =log 2x ;③y =4x ;④y =x 2.[提示] 作出散点图(图略),观察散点图中样本点的分布规律可判断样本点分布在曲线y =3×2x-1附近.①作为回归模型最好.【例3】 某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y (元)与生产该产品的数量x (千件)有关,经统计得到如下数据:x12345678y 112 61 44.5 35 30.5 28 25 24观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型y =a +bx 和指数函数模型y =c e dx 分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为y ^=96.54e-0.2x,ln y 与x 的相关系数r 1=-0.94.参考数据⎝⎛⎭⎫其中u i =1x i: ∑8i =1u i y iu -u -2∑8i =1u 2i ∑8i =1y i∑8i =1y 2i0.61×6 185.5e -2 183.4 0.34 0.115 1.53 360 22 385.561.40.135(1)(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本;(3)该企业采取订单生产模式(根据订单数量进行生产,即产品全部售出).根据市场调研数据,若该产品单价定为100元,则签订9千件订单的概率为0.8,签订10千件订单的概率为0.2;若单价定为90元,则签订10千件订单的概率为0.3,签订11千件订单的概率为0.7.已知每件产品的原料成本为10元,根据(2)的结果,企业要想获得更高利润,产品单价应选择100元还是90元,请说明理由.参考公式:对于一组数据(u 1,υ1),(u 2,υ2),…,(u n ,υn ),其回归直线υ=α^+β^u 的斜率和截距的最小二乘估计分别为:β^=∑ni =1u i υi -n u -υ-∑n i =1u 2i -n u-2,a ^=υ--β^u -,相关系数r =∑ni =1u i υi -n u -υ-⎝⎛⎭⎫∑ni =1u 2i -n u-2⎝⎛⎭⎫∑ni =1υ2i -n υ-2[思路点拨] (1)首先可令u =1x 并将y =a +bx 转化为y =a +bu ,然后根据题目所给数据以及线性回归方程的相关公式计算出b ^以及a ^,即可得出结果;(2)计算出反比例函数模型的相关系数r 并通过对比即可得出结果;(3)可分别计算出单价为100元和90元时产品的利润,通过对比即可得出结果. [解] (1)令u =1x ,则y =a +b x 可转化为y =a +bu ,因为y -=3608=45,所以b ^=∑8i =1u i y i -8u -y-∑8i =1u 2i -8u-2=183.4-8×0.34×451.53-8×0.115=610.61=100,则a ^=y --b ^u -=45-100×0.34=11, 所以y ^=11+100u ,所以y 关于x 的回归方程为y ^=11+100x .(2)y 与1x的相关系数为:r 2=∑8i =1u i y i -n u -y-⎝⎛⎭⎫∑8i =1u 2i -8u -2⎝⎛⎭⎫∑8i =1y 2i -8y-2=610.61×6 185.5≈0.99.因为|r 1|<|r 2|,所以用反比例函数模型拟合效果更好, 当x =10时,y =10010+11=21(元),所以当产量为10千件时,每件产品的非原料成本为21元.(3)①当产品单价为100元,设订单数为x 千件,因为签订9千件订单的概率为0.8,签订10千件订单的概率为0.2,所以E (x )=9×0.8+10×0.2=9.2,所以企业利润为100×9.2-9.2×⎝⎛⎭⎫1009.2+21=626.8(千元). ②当产品单价为90元,设订单数为y 千件,因为签订10千件订单的概率为0.3,签订11千件订单的概率为0.7, 所以E (y )=10×0.3+11×0.7=10.7, 所以企业利润为90×10.7-10.7×⎝⎛⎭⎫10010.7+21=638.3(千元). 故企业要想获得更高利润,产品单价应选择90元.非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:[跟进训练]3.二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:使用年数x 2 3 4 5 6 7 售价y 201286.44.43z =ln y3.00 2.48 2.08 1.86 1.48 1.10下面是z 关于(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关系数加以说明; (2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少? (b ^,a ^小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考数据:∑6i =1x i y i =187.4,∑6i =1x i z i =47.64,∑6i =1x 2i =139,∑6i =1 (x i -x-)2≈4.18,∑6i =1(y i -y -)2=13.96,∑6i =1(z i -z -)2=1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.参考公式:回归直线方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -n x -y-∑ni =1x 2i -n x-2,a ^=y --b ^x -.r =∑n i =1 (x i -x -)(y i -y -)∑n i =1(x i -x-)2∑ni =1(y i -y -)2,x -,y -为样本平均值.[解] (1)由题意,计算x -=16×(2+3+4+5+6+7)=4.5,z -=16×(3+2.48+2.08+1.86+1.48+1.10)=2,且∑6i =1x i z i =47.64,∑6i =1x i -x-2≈4.18,∑6i =1z i -z-2=1.53,所以r =∑ni =1 x i -x-z i -z-∑n i =1x i -x-2∑n i =1z i -z-2=47.64-6×4.5×24.18×1.53=- 6.366.395 4≈-0.99.所以z 与x 的相关系数大约为-0.99,说明z 与x 的线性相关程度很高. (2)利用最小二乘估计公式计算b ^=∑ni =1x i z i -n x - z-∑n i =1x 2i -n x-2=47.64-6×4.5×2139-6×4.52=-6.3617.5≈-0.36,所以a ^=z --b ^x -=2+0.36×4.5=3.62,所以z 关于x 的线性回归方程是z ^=-0.36x +3.62, 又z =ln y ,所以y 关于x 的回归方程是y ^=e -0.36x +3.62. 令x =9,解得y =e -0.36×9+3.62≈1.46,即预测某辆A 型号二手车当使用年数为9年时售价约1.46万元.(3)当y ≥0.711 8时, e-0.36x +3.62≥0.711 8=e ln 0.711 8=e-0.34,所以-0.36x +3.62≥-0.34,解得x ≤11,因此预测在收购该型号二手车时车辆的使用年数不得超过11年.1.两个变量之间的线性相关程度越低,其线性相关系数的数值( ) A .越接近于-1 B .越接近于0 C .越接近于1D .越小B [由相关系数的含义可得:两个变量之间的线性相关程度越低,其线性相关系数的数值越接近于0.故选B .]2.如图所示,给出了样本容量均为7的A ,B 两组样本数据的散点图,已知A 组样本数据的相关系数为r 1,B 组数据的相关系数为r 2,则( )A .r 1=r 2B .r 1<r 2C .r 1>r 2D .无法判定C [根据A ,B 两组样本数据的散点图知,A 组样本数据几乎在一条直线上,且成正相关,∴相关系数为r 1应最接近1,B 组数据分散在一条直线附近,也成正相关,∴相关系数为r 2,满足r 2<r 1,即r 1>r 2,故选C .]3.对于线性相关系数r ,叙述正确的是( )A .r ∈(-∞,+∞),且r 越大,相关程度越大B .r ∈(-∞,+∞),且|r |越大,相关程度越大C .r ∈[-1,1],且r 越大,相关程度越大D .r ∈[-1,1],且|r |越大,相关程度越大D [相关系数r 是来衡量两个变量之间的线性相关程度的,线性相关系数是一个绝对值小于等于1的量,并且它的绝对值越大就说明相关程度越大.故选D .]4.若回归直线方程中的回归系数b ^=0,则相关系数r =________.0 [相关系数r =∑n i =1 (x i -x -)(y i -y -)∑n i =1 (x i -x -)2∑n i =1 (y i -y -)2与b ^=∑n i =1 (x i -x -)(y i -y -)∑n i =1 (x i -x -)2的分子相同,故r =0.]5.在一次试验中,测得(x ,y )的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y 与x 的相关系数为________.-1 [法一:x -=1.5,y -=1,∑4i =1x 2i =22,∑4i =1y 2i =56,∑4i =1x i y i =-20,相关系数r =-20-4×1.5×1(22-4×1.52)(56-4×12)=-1.法二:观察四个点,发现其在一条单调递减的直线上,故y 与x 的相关系数为-1.]回顾本节内容,自我完成以下问题.1.你对相关系数是怎样认识的?[提示] (1)样本的相关系数r 可以定量地反映出变量间的相关程度,明确给出有无必要建立两变量间的回归方程.(2)|r |很小只是说明两个变量之间的线性相关程度弱,但不一定不相关.2.散点图和相关系数都可以确定两变间是否具备相关关系,两者有何区别与联系?[提示](1)散点图从形的角度来判断;相关系数r则是从数的角度来判断.(2)判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就必须利用样本相关系数来判断.(3)样本相关系数r只能描述两个变量之间的变化方向及密切程度,不能揭示二者之间的本质联系.(4)样本相关系数r可以定量地反映出变量间的相关程度,明确的给出有无必要建立两变量间的回归直线方程.。