一元线性回归模型典型例题分析
- 格式:doc
- 大小:149.00 KB
- 文档页数:4
高考数学复习典型题型专题讲解与练习 专题94 一元线性回归模型及其应用题型一 求回归直线方程例1.(2022·甘肃·临泽县第一中学高二阶段练习(文))已知变量x 和y 正相关,则由如下表所示的观测数据算得的线性回归方程为【答案】B 【解析】 【分析】先求出样本的中心点的坐标,再代入选项检验即得正确答案. 【详解】 由题得12345543210,10x -----+++++==0.92 3.1 3.9 5.1 4.15 2.9 2.10.9010y -----+++++==,所以样本中心点的坐标为(0,0),代入选项检验得选B. 故答案为B 【点睛】(1)本题主要考查回归方程直线的性质,意在考查学生对该知识的掌握水平.(2) (,)x y 称为样本点的中心,回归直线过样本点的中心.这是回归方程的一个重要考点,要理解掌握并灵活运用.规律方法 求线性回归方程的一般步骤(1)收集样本数据,设为(x i ,y i )(i =1,2,…,n )(数据一般由题目给出). (2)作出散点图,确定x ,y 具有线性相关关系. (3)把数据制成表格x i ,y i ,x 2i ,x i y i . (4)计算x -,y -,∑n i =1x 2i ,∑ni =1x i y i .(5)代入公式计算b ^,a ^,公式为⎩⎪⎨⎪⎧b ^=∑n i =1x i y i -n x - y -∑n i =1x 2i -nx -2,a ^=y --b ^x -.(6)写出线性回归方程y ^=b ^x +a ^.例2.(2019·新疆·乌鲁木齐市第二十中学高二期中)随着人们经济收入的不断增长,个人购买家庭轿车已不再是一种时尚车的使用费用,尤其是随着使用年限的增多,所支出的费用到底会增长多少,一直是购车一族非常关心的问题某汽车销售公司作了一次抽样调查,并统计得出某款车的使用年限x 与所支出的总费用y (万元)有如表的数据资料:(1) 在给出的坐标系中作出散点图;(2)求线性回归方程ˆˆˆybx a =+中的ˆa 、ˆb ; (3)估计使用年限为12年时,车的使用总费用是多少?(最小二乘法求线性回归方程系数公式1221ˆn i i i n ii x y nxy bx nx==-=-∑∑, ˆˆay bx =-.) 【答案】(1)见解析; (2) 1.23b =0.08a =; (3)估计使用12年时,支出总费用是14.84万元.. 【解析】 【分析】(1)在坐标系中描点可得散点图;(2)代入公式可求;(3)根据方程代入x=12可得费用. 【详解】(1)散点图如图,由图知y 与x 间有线性相关关系.(2)∵4x =,5y =,51112.3i i i x y ==∑,52190i i x ==∑,∴2112.354512.31.2390541ˆ0b-⨯⨯===-⨯;5 1.2340.ˆ0ˆˆ8ay bx =-=-⨯=. (3)线性回归直线方程是 1.2308ˆ.0yx =+, 当12x =(年)时, 1.23120.0814.8ˆ4y =⨯+=(万元).即估计使用12年时,支出总费用是14.84万元. 【点睛】本题主要考查回归直线在生活中的应用,明确所给公式中各个模块的含义,代入公式可求.题目难度不大,侧重于应用性.例3.(2022·全国·高二单元测试)有一位同学家里开了一个小卖部,他为了研究气温对热茶销售的影响,经过统计,得到一个卖出热茶杯数与当天气温的对比表如下: 气温x/℃ -5 0 4 7 12 15 19 23 27 31 36热茶销售杯数y/杯 156 150 132 128 130 116 104 89 93 76 54(1)画出散点图;(2)你能从散点图中发现气温与热茶的销售杯数之间关系的一般规律吗? (3)如果近似成线性关系的话,请画出一条直线来近似地表示这种线性关系; (4)试求出回归直线方程;(5)利用(4)的回归方程,若某天的气温是2 ℃,预测这一天卖出热茶的杯数.【答案】(1)见解析;(2)见解析;(3)见解析;(4) 2.354774ˆ1.y x =-+;(5)143【解析】 【详解】分析:(1)以x 轴表示气温,以y 轴表示热茶杯数,可作散点图;(2)从图中可以看出,各点散布在从左上角到右下角的区域里,因此热茶的销售杯数与气温是相关的,气温越高,卖出去的热茶杯数越少;(3)从散点图可以看出,这些点大致分布在一条直线附近,根据不同的标准可以画出不同的直线来近似地表示这种线性相关关系; (4)由题中所给的数据求得回归方程即可;(5)结合回归方程的预测作用和(4)中的结论整理计算即可求得最终结果. 详解:(1)以x 轴表示气温,以y 轴表示热茶杯数,可作散点图如下图所示.(2)从图中可以看出,各点散布在从左上角到右下角的区域里,因此热茶的销售杯数与气温是相关的,气温越高,卖出去的热茶杯数越少.(3)从散点图可以看出,这些点大致分布在一条直线附近,根据不同的标准可以画出不同的直线来近似地表示这种线性相关关系,如图所示.(4)因112i i 1169x ,x 411∑===为335,11i 11228y ,xiyi 1411∑===778. 所2169122814778-111111b 1694335-1111⨯⨯=⎛⎫⨯ ⎪⎝⎭^以≈-2.35, 1228169a 2.35147.74.1111=+⨯=^所以回归直线方程y 2.35x 147.74.=-+^为(5)由(4)的方程,当x=2,y 4.70147.74143.04,=-+=^时因此若某天的气温为2 ℃,这一天大约可以卖出143杯热茶.点睛:(1)正确运用计算^a ,^b 的公式和准确的计算,是求线性回归方程的关键. (2)分析两变量的相关关系,可由散点图作出判断,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.题型二 利用回归直线方程对总体进行估计例4.(2022·江西抚州·高二期末(理))保护生态环境,提倡环保出行,节约资源和保护环境,某地区从2016年开始大力提倡新能源汽车,每年抽样1000汽车调查,得到新能源汽车y 辆与年份代码x 年的数据如下表:(2)假设该地区2022年共有30万辆汽车,用样本估计总体来预测该地区2022年有多少新能源汽车.参考公式:回归方程y bx a =+斜率和截距的最小二乘估计公式分别为1221ni ii nii x y nx yb xnx==-=-∑∑,a y bx =-.【答案】(1)219y x =+ (2)27900 【解析】【分析】(1)第一步分别算第x ,y 的平均值,第二步利用1221ni ii nii x y nx yb xnx==-=-∑∑,a y bx =-即可得到方程.(2)由第一问的结果,带入方程即可算出预估的结果. (1)3x =,305070+100+110=725y ++=,1222222221130+250+370+4100+5110-5372==211+2+3+4+5-53ni ii ni i x y nx yb x nx==-⨯⨯⨯⨯⨯⨯⨯=⨯-∑∑,因为a y bx =-,所以72213=9a =-⨯,所以219y x =+(2)预测该地区2022年抽样1000汽车调查中新能源汽车数,当7x =时,217993y =⨯+=,该地区2022年共有30万辆汽车,所以新能源汽车93300000279001000N =⨯=. 规律方法 本题已知y 与x 是线性相关关系,所以可求出回归方程进行估计和预测.否则,若两个变量不具备相关关系或它们之间的相关关系不显著,即使求出回归方程也毫无意义.例5.(2022·陕西·西安中学高二期中(理))偏差是指个别测定值与测定的平均值之差,在成绩统计中,我们把某个同学的某科考试成绩与该科班平均分的差叫某科偏差(实际成绩-平均分=偏差).在某次考试成绩统计中,某老师为了对学生数学偏差x (单位:分)与物理偏差y (单位:分)之间的关系进行分析,随机挑选了8位同学,得到他们的两科成绩偏差数据如下:(1)若x 与y 之间具有线性相关关系,求y 关于x 的线性回归方程;(2)若该次考试该数学平均分为120分,物理平均分为91.5分,试由(1)的结论预测数学成绩为128分的同学的物理成绩.(下面是参考数据和参考公式)()()()()()()()()()818222222222120 6.515 3.513 3.53 1.520.550.510 2.518 3.532420151332510181256i ii ii x yx===⨯+⨯+⨯+⨯+⨯+-⨯-+-⨯-+-⨯-==+++++-+-+-=∑∑,回归直线方程为ˆˆˆy bx a =+,其中()()()1122211ˆˆˆnni i iii i nni ii i x y nxy x x y y b x nx x x ay bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑【答案】(1)11ˆ42yx =+ (2)94 【解析】 【分析】(1)根据最小二乘法即可求出y 关于x 的线性回归方程;(2)设该同学的物理成绩为ω,则物理偏差为91.5ω-,数学偏差为8,根据回归方程可知,1191.5842ω-=⨯+,即可解出.(1)由题意可得,20151332(5)(10)(18)582x +++++-+-+-==,()()()6.5 3.5 3.5 1.50.50.5 2.5 3.5988y +++++-+-+-==, 1222159324ˆ81285412568()2ni ii nii x y nxybxnx ==--⨯⨯===-⨯-∑∑,所以9151ˆˆ8422a y bx =-=-⨯=,故线性回归方程为11ˆ42yx =+. (2)由题意,设该同学的物理成绩为ω,则物理偏差为:91.5ω-. 而数学偏差为128-120=8,∴1191.5842ω-=⨯+,解得94ω=, 所以,可以预测这位同学的物理成绩为94.例6.(2022·广东揭阳·高二期末)从2018年1月1日起,广东、等18个保监局所辖地区将纳入商业车险改革试点范围,其中最大的变化是上一年的出险次数决定了下一年的保费倍率,具体关系如下表:有评估机构从以往购买了车险的车辆中随机抽取1000 辆调查,得到一年中出险次数的频数分布如下(并用相应频率估计车辆每年出险次数的概率):(1)求某车在两年中出险次数不超过2次的概率;(2)经验表明新车商业车险保费与购车价格有较强的线性相关关系,估计其回归直线方程为:1201600y x =+.(其中x (万元)表示购车价格,y (元)表示商业车险保费).李先生2016 年1月购买一辆价值20万元的新车.根据以上信息,试估计该车辆在2017 年1月续保时应缴交的保费,并分析车险新政是否总体上减轻了车主负担.(假设车辆下一年与上一年都购买相同的商业车险产品进行续保) 【答案】(1)0.8744;(2)3846元,减轻了车主负担. 【解析】 【分析】(1)利用互斥事件的概率公式列式计算即得;(2)求出下一年车险保费倍率X 的分布列,并求出期望,即可得出车主下一年的保费,并根据期望是否大于1得出结论. 【详解】(1)设某车在两年中出险次数为N , 则(2)(0)(1)(2)P N P N P N P N ≤==+=+=5005005003805001003803802210001000100010001000100010001000=⋅+⋅⋅+⋅⋅+⋅0.8744=, 所以某车在两年中出险次数不超过2次的概率为0.8744; (2)设该车辆2017 年的保费倍率为X ,则X 为随机变量,X 的取值为0.85 ,1,1.25 ,1.5 ,1.75 , 2, X 的分布列为:下一年保费倍率X 的期望为:()0.850.510.38 1.250.1 1.50.015 1.750.00420.0010.9615+E X =⨯⨯+⨯+⨯+⨯+⨯=,该车辆估计2017年应缴保费为:()1202016000.96153846⨯+⨯=元, 因0.96151<,则车险新政总体上减轻了车主负担.题型三 线性回归分析例7.(2022·山东·日照青山学校高二期末)共享单车进驻城市,绿色出行引领时尚,某市有统计数据显示,某站点6天的使用单车用户的数据如下,用两种模型①y bx a =+;②y a =分别进行拟合,得到相应的回归方程1ˆ10.7 3.4yx =+,2ˆ22.8y =,进行残差分析得到如表所示的残差值及一些统计量的值:(1)残差值的绝对值之和越小说明模型拟合效果越好,根据残差,比较模型①,②的拟合效果,应选择哪一个模型?并说明理由;(2)残差绝对值大于3的数据认为是异常数据,需要剔除,剔除异常数据后,重新求出(1)中所选模型的回归方程.(参考公式:1221ˆni ii nii x ynxy bxnx ==-=-∑∑,ˆˆay bx =-) 【答案】(1)该选模型①,理由见解析 (2)111y x =+ 【解析】 【分析】(1)求出两模型的残差值的绝对值之和进行比较即可,(2)先剔除异常数据,然后利用回归方程的公式结合已知数据进行计算即可 (1)应该选择模型①模型①的残差值的绝对值之和为1.1+2.8+7.5+1.2+1.9+0.4=14.9 模型②的残差值的绝对值之和为0.3+5.4+4.3+3.2+1.6+3.8=18.6. ∵14.9<18.6,∴模型①的拟合效果较好,应该选模型①.(2)剔除异常数据,即剔除第3天的数据后,得()1 3.563 3.65x =⨯-=,()14164340.65y =⨯-=, 511049343920i ii x y==-⨯=∑,522191382i i x ==-=∑.∴51522159205 3.640.6189.2ˆ11825 3.6 3.617.25i ii ii x y xybxx ==--⨯⨯====-⨯⨯-∑∑, ˆˆ40.611 3.61ay bx =-=-⨯=. ∴y 关于x 的回归方程为111y x =+.规律方法 (1)解答线性回归问题,应通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R 2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.(2)刻画回归效果的三种方法①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适. ②残差平方和法:残差平方和∑ni =1 (y i -y ^i )2越小,模型的拟合效果越好. ③决定系数法:R 2=1-∑ni =1(y i -y ^i )2∑ni =1 (y i -y -)2越接近1,表明回归的效果越好. 例8.(2022·河南·南阳中学高三阶段练习(文))2022年6月17日9时22分,我国酒泉卫星发射中心用长征2F 遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A 型材料是神舟十二号的重要零件,该材料应用前景十分广泛.该公司为了将A 型材料更好地投入商用,拟对A 型材料进行应用改造、根据市场调研与模拟,得到应用改造投入x (亿元)与产品的直接收益y (亿元)的数据统计如下:当017x <≤时,建立了y 与x 的两个回归模型:模型①: 4.1109ˆ.yx =+,模型②:ˆ14.4y=;当17x >时,确定y 与x 满足的线性回归方程为ˆˆ0.7y x a =-+. (1)根据下列表格中的数据,比较当017x <≤时模型①,②的相关指数2R 的大小,并选择拟合精度更高、更可靠的模型,预测对A 型材料进行应用改造的投入为17亿元时的直接收益;(2)为鼓励科技创新,当应用改造的投入不少于20亿元时,国家给予公司补贴5亿元,以回归方程为预测依据,根据(1)中选择的拟合精度更高更可靠的模型,比较投入17亿元与20亿元时公司收益(直接收益+国家补贴)的大小.附: 刻画回归效果的相关指数()()22121ˆ1niii nii y yR y y ==-=--∑∑,且当2R 越大时,回归方程的拟合效果越好.用最小二乘法求线性回归方程ˆˆˆybx a =+的截距:ˆˆa y bx =-4.1≈ 【答案】(1)对A 型材料进行应用改造的投入为17亿元时的直接收益为72.93(亿元); (2)投入17亿元比投入20亿元时收益小. 【解析】 【分析】(1)根据模型和相关系数公式计算比较即可,然后将x =17代入较好的模型即可预测直接收益;(2)根据回归方程过样本中心点(,x y )求出ˆa,再令x =20算出预测的直接收益,即可算出投入20亿元时的总收益,与(1)中的投入17亿元的直接收益比较即可. (1)对于模型①,对应的15222740485460=387y ++++++=,故对应的()772221171750i i i i y y y y ==-=-=∑∑,故对应的相关指数2179.1310.9551750R =-≈, 对于模型②,同理对应的相关指数2220.210.9881750R =-≈, 故模型②拟合精度更高、更可靠.故对A 型材料进行应用改造的投入为17亿元时的直接收益为21.314.472.9ˆ3y=≈(亿元).另解:本题也可以根据相关系数的公式,直接比较79.13和20.2的大小,从而说明模型②拟合精度更高、更可靠. (2) 当17x >时, 后五组的2122232425235x ++++==,68.56867.5+66+65675y ++==,由最小二乘法可得()ˆ670.72383.1a=--⨯=, 故当投入20亿元时公司收益(直接收益+国家补贴)的大小为:0.72083.1+574.172.93-⨯+=>,故投入17亿元比投入20亿元时收益小.例9.(2022·陕西·高新一中高三阶段练习(理))2022年6月17日9时22分,我国酒泉卫星发射中心用长征2F 遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A 型材料是神舟十二号的重要零件,该材料应用前景十分广泛.该公司为了将A 型材料更好地投入商用,拟对A 型材料进行应用改造.根据市场调研与模拟,得到应用改造投入x (亿元)与产品的直接收益y (亿元)的数据统计如下:当017x <≤时,建立了y 与x 的两个回归模型:模型①: 4.1109ˆ.yx =+,模型②:ˆ14.4y=;当17x >时,确定y 与x 满足的线性回归方程为ˆˆ0.7y x a =-+.(1)根据表格中的数据,比较当017x <≤时模型①,②的相关指数2R 的大小,并选择拟合精度更高、更可靠的模型,预测对A 型材料进行应用改造的投入为17亿元时的直接收益; (2)为鼓励科技创新,当应用改造的投入不少于20亿元时,国家给予公司补贴5亿元,以回归方程为预测依据,根据(1)中选择的拟合精度更高更可靠的模型,比较投入17亿元与20亿元时公司收益(直接收益+国家补贴)的大小.附:刻画回归效果的相关指数()()22121ˆ1ni i i nii y yR y y ==-=--∑∑,且当2R 越大时,回归方程的拟合效果越好 4.1≈.用最小二乘法求线性回归方程ˆˆˆybx a =+的截距:ˆˆa y bx =-. 【答案】(1)2221R R >,模型②拟合精度更高、更可靠,收益为72.93;(2)投入17亿元比投入20亿元时收益小. 【解析】 【分析】(1)根据题意求得()1221i i y y =-∑,再根据2R 的计算公式,即可分别求得2212,R R ,则可判断不同模型的拟合度;(2)根据题意,求得回归直线方程,即可代值计算,求得预测值. (1)对于模型①,对应的15222740485460387y ++++++==,故对应的()12222111271750i i i i y y y y ==-=-=∑∑,故对应的相关指数2179.1310.9551750R =-≈, 对于模型②,同理对应的相关指数2220.210.9881750R =-≈, 故模型②拟合精度更高、更可靠.故对A 型材料进行应用改造的投入为17亿元时的直接收益为ˆ21.314.472.93y=≈. (2) 当17x >时, 后五组的212223242568.56867.5666523,6755x y ++++++++====,由最小二乘法可得67(0.7)238ˆ 3.1a=--⨯=, 故当投入20亿元时公司收益(直接收益+国家补贴)的大小为:0.72083.1574.172.93-⨯++=>,故投入17亿元比投入20亿元时收益小.题型四 残差分析与相关指数的应用例10.(2022·河北·藁城新冀明中学高二阶段练习)假定产品产量x (千件)与单位成本y (元/件)之间存在相关关系.数据如下:(1)以x 为解释变量,y 为预报变量,作出散点图;(2)求y 与x 之间的回归直线方程,对于单位成本70元/件时,预报产量为多少; (3)计算各组残差,并计算残差平方和; 【答案】(1)散点图见解析;(2)ˆ 1.8277.37yx =-+,4.050千件; (3)各组残差见解析,残差平方和为3.8182. 【解析】 【分析】(1)根据表中数据描点即可求解;(2)根据表中数据,求出x ,y ,612i i x =∑,61i i i x y =∑,代入公式求出线性回归方程的系数ˆb,进而求出ˆa即可得回归直线方程; (3)根据残差的定义及残差平方和公式即可求解. (1)解:散点图如下:(2) 解:因为2343453.56x +++++==,737271736968716y +++++==,61279ii x==∑,611481i ii x y==∑,所以6162221614816 3.571ˆ 1.82796 3.56i i i i ix yx ybx x==-⋅-⨯⨯==≈--⨯-∑∑,ˆˆ71 1.82 3.577.37ay bx =-=+⨯=, 所以回归直线方程为ˆ 1.8277.37yx =-+,令70y =,则70 1.8277.37x =-+,解得 4.050x ≈, 所以单位成本70元/件时,预报产量约为4.050千件. (3)解:各组残差分别为:()11173 1.822ˆ77.370.73ˆey y =--⨯+=-=-, ()22272 1.82377.370.0ˆˆ9ey y =--⨯+==-, ()33371 1.82477.370.9ˆˆ1ey y =--⨯+==-, ()44473 1.82377.37 1.0ˆˆ9ey y =--⨯+==-, ()55569 1.824ˆ77.37 1.09ˆey y =--⨯+=-=-, ()66668 1.825ˆ77.370.27ˆey y =--⨯+=-=-, 残差的平方和为()()()2222621220.730.090.91 1.09 1.090.27 3.2ˆ818ii i y y=--+++--==++∑. 规律方法 (1)利用残差分析研究两个变量间的关系时,首先要根据散点图来判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后通过残差e ^1,e ^2,…,e ^n 来判断模型拟合的效果.(2)若残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合度越高,回归方程预报精确度越高.例11.(2022·河北·大名县第一中学高二阶段练习)随着中美贸易战的不断升级,越来越多的国内科技巨头加大了科技研发投入的力度.华为技术有限公司拟对“麒麟”手机芯片进行科技升级,根据市场调研与模拟,得到科技升级投入x (亿元)与科技升级直接收益y (亿元)的数据统计如下:当017x <≤时,建立了y 与x 的两个回归模型:模型①:ˆ 4.111.8yx =+;模型②:ˆ14.4y=;当17x >时,确定y 与x 满足的线性回归方程为0.7y x a =-+. (1)根据下列表格中的数据,比较当017x <≤时模型①、②的相关指数2R 的大小,并选择拟合精度更高、更可靠的模型,预测对“麒麟”手机芯片科技升级的投入为17亿元时的直接收益. (附:刻画回归效果的相关指数,()()22121ˆ1niii nii y yR y y ==-=--∑∑ 4.1≈)(2)为鼓励科技创新,当科技升级的投入不少于20亿元时,国家给予公司补贴5亿元,以回归方程为预测依据,比较科技升级投入17亿元与20亿元时公司实际收益的大小.附:用最小二乘法求线性回归方程ˆˆˆybx a =+的系数:()()()1122211ˆˆˆ,nni iii i i nniii i x ynx yxx y y bay bx xnx xx ====-⋅--===---∑∑∑∑ 【答案】(1)回归模型②,72.93(亿元);(2)投入20亿元时,公司的实际收益更大. 【解析】 【分析】(1)根据表中数据比较21R 和22R 可判断拟合效果,进而求出预测值; (2)求出,x y ,进而求出a ,得出回归方程得求出结果. 【详解】解:(1)由表格中的数据,182.479.2>,∴()()772211182.479.2iii i y y y y ==>--∑∑,∴()()772211182.479.211iit t y y y y ==-<---∑∑可见模型①的相关指数21R 小于模型②的相关指数22R . 所以回归模型②的拟合效果更好.所以当17x =亿元时,科技升级直接收益的预测值为ˆ21.314.421.3 4.114.472.93y=≈⨯-=(亿元). (2)当17x >时,由已知可得2122232425235x ++++==,68.56867.5666667.25y ++++==.∴0.767.20.72383.3a y x =+=+⨯=.∴当17x >时,y 与x 满足的线性回归方程为ˆ0.783.3yx =-+. 当20x时,科技升级直接收益的预测值为ˆ0.72083.369.3y=-⨯+=亿元.当20>亿元,x亿元时,实际收益的预测值为69.3574.3+=亿元72.93∴技术升级投入20亿元时,公司的实际收益更大.题型五非线性回归分析例12.(2022·全国·模拟预测)某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x 表示活动推出的天数,y表示每天使用扫码支付的人次,统计数据如下表所示:根据以上数据,绘制了如图所示的散点图.(1)根据散点图,判断在推广期内,y a bx=+与x=⋅(c,d均为大于零的常数)哪一个y c d适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及题干中表格内的数据,建立y关于x的回归方程,并预测活动推出第8天使用扫码支付的人次.参考数据:其中lg i i v y =,7117i i v v ==∑.参考公式:对于一组数据)()()(1122,,,,,,n n u v u v u v ⋅⋅⋅,其回归直线v u αβ=+的斜率和截距的最小二乘估计公式分别为1221ˆni i i nii uv nuvunuβ==-=-∑∑,ˆav u β=-. (3)推广期结束后,为更好地服务乘客,车队随机调查了100人次的乘车支付方式,得到如下结果: 已知该线路公交车票价2元,使用现金支付的乘客无优惠,使用公交卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据调查结果发现:使用扫码支付的乘客中有5人次乘客享受7折优惠,有10人次乘客享受8折优惠,有15人次乘客享受9折优惠.预计该车队每辆车每个月有1万人次乘车,根据所给数据,以事件发生的频率作为相应事件发生的概率,在不考虑其他因素的条件下,按照上述收费标准,试估计该车队一辆车一年的总收入.【答案】(1)x y c d =⋅适宜(2))(0.25ˆ 3.4710xy=⨯,活动推出第8天使用扫码支付的人次为347(3)199200元 【解析】 【分析】(1)根据散点图即可判断回归方程类型;(2)根据题意中的数据,利用最小二乘法求出ˆb ,进而求出ˆa,即可得出回归方程,令8x =求解即可;(3)根据题意分别求出享受7折优惠、8折优惠、9折优惠的收入,进而加起来即可. (1)根据散点图判断,x y c d =⋅适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型. (2)∵x y c d =⋅,∴两边同时取常用对数,得lg lg lg y c x d =+. 设lg a c =,lg b d =,则v a bx =+.∵4x =, 1.54v =,721140i i x ==∑,∴7172221750.1274 1.547ˆ0.2514074287i i i i i x v xvbx x==--⨯⨯====-⨯-∑∑,ˆˆ0.54av bx =-=,∴ˆ0.540.25v x =+,∴)(0.540.250.25ˆ10 3.4710xx y +==⨯,把8x =代入上式,得0.540.258 2.5420.54ˆ10101010347y+⨯===⨯=, ∴y 关于x 的回归方程为)(0.25ˆ 3.4710xy=⨯,活动推出第8天使用扫码支付的人次为347. (3)由题意,可知一个月中使用现金的乘客有1000人次,共收入100022000⨯=(元);使用公交卡的乘客有6000人次,共收入6000 1.69600⨯=(元).使用扫码支付的乘客有3000人次,其中,享受7折优惠的有500人次,共收入500 1.4700⨯=(元),享受8折优惠的有1000人次,共收入1000 1.61600⨯=(元),享受9折优惠的有1500人次,共收入1500 1.82700⨯=(元),故该车队一辆车一个月的收入为200096007001600270016600++++=(元).∴估计该车队一辆车一年的收入为1660012199200⨯=(元).规律方法求非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.(4)分析拟合效果:通过计算决定系数或画残差图来判断拟合效果.(5)根据相应的变换,写出非线性回归方程.例13.(2022·黑龙江·哈尔滨市第六中学校高二期末)区块链技术被认为是继蒸汽机、电力、互联网之后,下一代颠覆性的核心技术区块链作为构造信任的机器,将可能彻底改变整个人类社会价值传递的方式,2015年至2019年五年期间,中国的区块链企业数量逐年增长,居世界前列现收集我国近5年区块链企业总数量相关数据,如表注:参考数据5174.691i i y ==∑,51312.761i i i x y ==∑,5110.980i i z ==∑,5140.457i i i x z ==∑(其中ln z y =).附:样本()(),1,2,,i i x y i n =⋅⋅⋅的最小二乘法估计公式为1221ni ii nii x ynxy b xnx==-=-∑∑,a y bx =-(1)根据表中数据判断,y a bx =+与e dx y c =(其中e 2.71828=⋅⋅⋅,为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由)(2)根据(1)的结果,求y 关于x 的回归方程;(3)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛比赛规则如下:①每场比赛有两个公司参加,并决出胜负;②每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司就获得此次信息化比赛的“优胜公司”,已知在每场比赛中,甲胜乙的概率为12,甲胜丙的概率为13,乙胜丙的概率为35,若首场由甲乙比赛,则求甲公司获得“优胜公司”的概率. 【答案】(1)dx y ce = (2)0.75170.0591x y e -= (3)310【解析】【分析】(1)根据表中数据判断y 关于x 的回归方程为非线性方程;(2)令ln z y =,将y 关于x 的非线性关系,转化为z 关于x 的线性关系,利用最小二乘法求解;(3)利用相互独立事件的概率相乘求求解; (1)根据表中数据e dx y c =适宜预测未来几年我国区块链企业总数量. (2)e dx y c =,ln ln y dx c ∴=+,令ln z y =,则ln z dx c =+,5110.980 2.19655ii zz ====∑,5112345355ii xx =++++===∑由公式计算可知122140.457310.980.7517,5545ni ii n i i x znxzb x nx==-⨯==--=-∑∑ˆln 2.1960.751730.0591c z dx =-=-⨯=- ln 0.75170.0591y x ∴=-,即ln 0.75170.0591y x ∴=-,即0.75170.0591x y e -=所以y 关于x 的回归方程为0.75170.0591x y e -= (3)设甲公司获得“优胜公司”为A 事件. 则11123112113232352253210()P A ⨯+⨯⨯⨯+⨯⨯⨯==所以甲公司获得“优胜公司”的概率为310.例14.(2022·湖南·长沙一中高三阶段练习)数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3×3)内的数字均含1-9,不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛.(1)赛前小明在某数独APP上进行一段时间的训练,每天的解题平均速度y(秒)与训练天数x(天)有关,经统计得到如表的数据:现用by ax=+作为回归方程模型,请利用表中数据,求出该回归方程,并预测小明经过50天训练后,每天解题的平均速度y约为多少秒?(2)小明和小红在数独APP上玩“对战赛”,每局两人同时开始解一道数独题,先解出题的人获胜,两人约定先胜4局者赢得比赛.若小明每局获胜的概率为23,已知在前3局中小明胜2局,小红胜1局.若每局不存在平局,请你估计小明最终赢得比赛的概率.参考数据(其中1iitx =)。
高一数学一元线性回归案例试题1. (2014•重庆一模)某小卖部销售一品牌饮料的零售价x (元/瓶)与销量y (瓶)的关系统计如下:已知x ,y 的关系符合线性回归方程,其中,.当单价为4.2元时,估计该小卖部销售这种品牌饮料的销量为( ) A.20 B.22 C.24 D.26 【答案】D【解析】利用平均数公式计算平均数,,利用b=﹣20求出a ,即可得到回归直线方程,把x=4.2代入回归方程求出y 值. 解:===3.5;==40,∴a=40﹣(﹣20)×3.5=110,∴回归直线方程为:=b +a=﹣20+110, 当=4.2时,=﹣20×4.2+110=26, 故选:D .点评:本题考查回归方程的求法,考查学生的计算能力,运算要细心.2. (2014•新余二模)已知某产品连续4个月的广告费用x i (i=1,2,3,4)千元与销售额y i (i=1,2,3,4)万元,经过对这些数据的处理,得到如下数据信息: ①x 1+x 2+x 3+x 4=18,y 1+y 2+y 3+y 4=14;②广告费用x 和销售额y 之间具有较强的线性相关关系; ③回归直线方程=bx+a 中的b=0.8(用最小二乘法求得); 那么,当广告费用为6千元时,可预测销售额约为( ) A .3.5万元 B .4.7万元 C .4.9万元D .6.5万元【答案】B【解析】求出数据的中心点的坐标,代入回归直线方程求得系数a ,根据广告费用为6千元,求得预报变量y 的值. 解:∵=,=, ∴数据的中心为(,), 则=0.8×+a ,∴a=﹣,当广告费用为6千元时,可预测销售额y=0.8×6﹣0.1=4.7(万元). 故选:B .点评:本题考查了线性回归分析思想,考查了学生的数据处理能力,在回归分析中数据的中心在回归直线上.3. (2014•辽宁模拟)从某高中随机选取5名高三男生,其身高和体重的数据如下表所示:身高x (cm )160165170175180)A.70.09kg B.70.12kg C.70.55kg D.71.05kg【答案】B【解析】根据所给的表格做出本组数据的样本中心点,根据样本中心点在线性回归直线上,利用待定系数法做出的值,现在方程是一个确定的方程,根据所给的x的值,代入线性回归方程,预报身高为172cm的高三男生的体重解:由表中数据可得==170,==69∵(,)一定在回归直线方程=0.56x+上故69=0.56×170+解得=﹣26.2故=0.56x﹣26.2当x=172时,=0.56×172﹣26.2="70.12"故选B.点评:本题主要考查线性回归方程的求解与运用,解题的关键是线性回归方程经过样本点的中心同时注意理解线性回归方程中相关系数的意义.4.(2014•郑州模拟)某车间加工零件的数量x与加工时间y的统计数据如表:现已求得上表数据的回归方程中的值为0.9,则据此回归模型可以预测,加工100个零件所需要的加工时间约为()A.84分钟B.94分钟C.102分钟D.112分钟【答案】C【解析】根据表中所给的数据,做出横标和纵标的平均数,得到样本中心点,代入样本中心点求出a的值,写出线性回归方程.将x=100代入回归直线方程,得y,可以预测加工100个零件需要102分钟,这是一个预报值,不是生产100个零件的准确的时间数.解:由表中数据得:=20,=30,又值为0.9,故a=30﹣0.9×20=12,∴y=0.9x+12.将x=100代入回归直线方程,得y=0.9×100+12=102(分钟).∴预测加工100个零件需要102分钟.故选C.点评:本题考查线性回归方程的求法和应用,解题的关键是正确应用最小二乘法求出线性回归方程的系数的运算,再一点就是代入样本中心点可以求出字母a的值,是一个中档题目.5.(2012•吉安县模拟)已知x,y的取值如表:x1234从散点图分析,y与x线性相关,且回归方程为,则a=()A.﹣0.15B.﹣0.26C.﹣0.35D.﹣0.61【答案】A【解析】首先求出这组数据的横标和纵标的平均数,写出这组数据的样本中心点,把样本中心点代入线性回归方程求出a的值,解:∵,∴这组数据的样本中心点是(2.5,4.5),∵y与x线性相关,且,,∴4.5=1.86×2.5+a,,∴a=﹣0.15,故选A.点评:本题考查线性回归方程的求解和应用,是一个基础题6.(2012•湘潭模拟)一位母亲记录了儿子3~7岁时的身高,并根据记录数据求得身高(单位:cm)与年龄的回归模型为.若用这个模型预测这个孩子10岁时的身高,则下列叙述正确的是()A.身高一定是145cm B.身高在145cm以上C.身高在145cm左右D.身高在145cm以下【答案】C【解析】根据回归模型为,将x=10代入即可得到预测值.解:根据回归模型为,可得x=10时,=145cm故可预测10岁时的身高在145cm左右故选C.点评:本题考查回归模型的运用,解题的关键是理解回归模型的含义,从而合理预测.7.(2011•丰台区二模)已知x,y的取值如下表:从散点图可以看出y与x线性相关,且回归方程为,则a=()【答案】B【解析】本题考查的知识点是线性回归直线的性质,由线性回归直线方程中系数的求法,我们可知在回归直线上,满足回归直线的方程,我们根据已知表中数据计算出,再将点的坐标代入回归直线方程,即可求出对应的a值.解:∵点在回归直线上,计算得,∴回归方程过点(2,4.5)代入得4.5=0.95×2+a∴a=2.6;故选B.点评:本题就是考查回归方程过定点,考查线性回归方程,考查待定系数法求字母系数,是一个基础题8.(2010•沈阳三模)已知两个统计案例如下:①为了探究患慢性支气管炎与吸烟关系,调查了339名50岁以上的人,调查结果如表:②为了解某地母亲与女儿身高的关系,随机测得10对母女的身高如下表:则对这些数据的处理所应用的统计方法是()A.①回归分析②取平均值B.①独立性检验②回归分析C.①回归分析②独立性检验D.①独立性检验②取平均值【答案】B【解析】本题考查的知识点是回归分析和独立性检验的概念及用法,回归分析主要判断两个定量变量之间的相关关系,而独立性检验主要用来分析两个定性变量(或称分类变量)的关系,由题目可知①中两个变量是定性变量(或称分类变量),②中两个变量是两个定量变量,分析即可得到答案.解:∵①中两个变量是定性变量(或称分类变量),②中两个变量是两个定量变量,∴对这些数据的处理所应用的统计方法是:①独立性检验②回归分析故选B点评:要判断处理数据时应采用的统计方法,关键是要分析数据中两个变量是定性变量还是定量变量,回归分析主要判断两个定量变量之间的相关关系,而独立性检验主要用来分析两个定性变量(或称分类变量)的关系.9.(2005•上海模拟)某地2004年第一季度应聘和招聘人数排行榜前5个行业的情况列表如下:A.计算机,营销,物流B.机械,计算机,化工C.营销,贸易,建筑D.机械,营销,建筑,化工【答案】B【解析】由于用同一行业中应聘人数与招聘人数比值的大小来衡量该行业的就业情况,根据表格的数据可以分别求出所有行业的应聘人数与招聘人数比值,然后根据这些比值即可求解.解:依题意得化工行业的应聘人数小于招聘人数,物流的应聘人数小于招聘人数,且比值化工行业大于物流机械的应聘人数大于招聘人数,故选B.点评:本题的考点是回归分析,主要考查了统计表的识别能力,解题的关键是会根据表格找出以后条件解决问题.10.实验测得四组(x,y)的值分别为(1,2),(2,3),(3,4),(4,4),则y与x间的线性回归方程是()A.y=﹣1+x B.y=1+x C.y=1.5+0.7x D.y=1+2x【答案】C【解析】根据所给的四对数据,算出y与x的平均数,把所求的平均数代入求b的公式,算出b 的值,再把它代入求a的式子,求出a的值,写出线性回归方程即可.解:根据题意得:==2.5,==3.25,b==0.7,a=﹣b=3.25﹣0.7×2.5=1.5,∴y与x间的线性回归方程是y=1.5+0.7x.故选:C.点评:本题考查线性回归方程的求法,在一组具有相关关系的变量的数据间,利用最小二乘法做出线性回归方程的系数,再代入样本中心点求出a的值,本题是一个基础题.。
SPSS一元线性回归分析例题(体检数据中的体重和肺活量的分析)某单位对12名女工进行体检,体检项目包括体重(kg)和肺活量(L),数据如下:X(体重:kg) 42.00 42.00 46.00 46.00 46.00 50.0050.00 50.00 52.00 52.00 58.00 58.00Y(肺活量:L) 2.55 2.20 2.75 2.40 2.80 2.813.41 3.10 3.46 2.85 3.50 3.00用x表示体重,y表示肺活量,建立数据文件。
利用一元线性回归分析描述其关系。
基本操作提示:Step 1 建立数据文件,并打开该数据文件。
Step 2 选择菜单Analyz e→Regressio n→Linear,打开主对话框。
在“Dependent”(因变量)列表框中选择变量“肺活量”,作为线性回归分析的被解释变量;在“Independent”(自变量)列表框中选择变量“体重”,作为解释变量。
Step 3 单击“Statistics”按钮,在打开的对话框中,依次选择“Estimates”(显示回归系数的估计值)、“Confidence intervals”、“Model fit”(模型拟合)、“Descriptives”、“Casewise diagnostic”(个案诊断)和“All Cases”选项。
选择完毕后,单击“Continue”按钮,返回主对话框。
Step 4 单击“Plots”(图形)按钮,在打开的主对话框中,选择“DEPENDENT”(因变量)作为y轴变量,“*ZPRED”(标准化预测值)作为x轴变量;并在“Standardized Residual Plots”(标准化残差图)中选择“Histogram”(直方图)和“Normal probabilityplot”(正态概率图,即P-P图)选项。
选择完毕后,单击“Continue”按钮,返回主对话框。
Step 5 单击“Save”(保存)按钮,在打开的主对话框中,在“Predicted Values”(预测值)选项区域中选择“Unstandardized”和“S. E. ofmean predictions”(预测值均数的标准误差)选项;“PredictionIntervals”(预测区间)选项区域中选择“Mean”和“Individual”选项;“Residuals”(残差)选项区域中选择“Unstandardized”选项。
一元线性回归模型一、单项选择题1、变量之间的关系可以分为两大类__________。
AA 函数关系与相关关系B 线性相关关系和非线性相关关系C 正相关关系和负相关关系D 简单相关关系和复杂相关关系 2、相关关系是指__________。
DA 变量间的非独立关系B 变量间的因果关系C 变量间的函数关系D 变量间不确定性的依存关系 3、进行相关分析时的两个变量__________。
AA 都是随机变量B 都不是随机变量C 一个是随机变量,一个不是随机变量D 随机的或非随机都可以 4、表示x 和y 之间真实线性关系的是__________。
CA 01ˆˆˆt tY X ββ=+ B 01()t t E Y X ββ=+ C 01t t t Y X u ββ=++ D 01t t Y X ββ=+5、参数β的估计量ˆβ具备有效性是指__________。
B A ˆvar ()=0βB ˆvar ()β为最小C ˆ()0ββ-= D ˆ()ββ-为最小 6、对于01ˆˆi i iY X e ββ=++,以σˆ表示估计标准误差,Y ˆ表示回归值,则__________。
BA i i ˆˆ0Y Y 0σ∑=时,(-)=B 2iiˆˆ0Y Y σ∑=时,(-)=0 C ii ˆˆ0Y Y σ∑=时,(-)为最小 D 2iiˆˆ0Y Yσ∑=时,(-)为最小 7、设样本回归模型为i 01i iˆˆY =X +e ββ+,则普通最小二乘法确定的i ˆβ的公式中,错误的是__________。
DA ()()()i i 12iX X Y -Y ˆX X β--∑∑=B ()i iii122iin X Y -X Y ˆn X -X β∑∑∑∑∑=C ii122iX Y -nXY ˆX -nXβ∑∑= D i i ii12xn X Y -X Y ˆβσ∑∑∑=8、对于i 01i i ˆˆY =X +e ββ+,以ˆσ表示估计标准误差,r 表示相关系数,则有__________。
8.2 一元线性回归模型及其应用(精讲)考点一 样本中心解小题【例1】(2021·江西赣州市)某产品在某零售摊位上的零售价x (元)与每天的销售量y (个)统计如下表:据上表可得回归直线方程为 6.4151y x =-+,则上表中的m 的值为( ) A .38B .39C .40D .41【答案】D 【解析】由题意1617181917.54x +++==,50343111544m my ++++==,所以115 6.417.51514m+=-⨯+,解得41m =.故选:D . 【一隅三反】1.(2021·江西景德镇市·景德镇一中)随机变量x 与y 的数据如表中所列,其中缺少了一个数值,已知y关于x 的线性回归方程为ˆ0.93yx =+,则缺少的数值为( )A .6B .6.6C .7.5D .8【答案】A【解析】设缺少的数值为m ,由于回归方程为ˆ0.93yx =+过样本中心点(),x y , 且2345645x ++++==,代入0.943 6.6y =⨯+=,所以5679 6.65my ++++==,解得6m =.故选:A.2.(2021·河南信阳市)根据如下样本数据:得到的回归方程为y bx a =+,则( ) A .0a >,0b > B .0a >,ˆ0b < C .0a <,0b > D .0a <,ˆ0b< 【答案】B【解析】由图表中的数据可得,变量y 随着x 的增大而减小,则ˆ0b<, 2345645x ++++==,4 2.50.5230.25y +---==,又回归方程y bx a =+经过点(4,0.2),可得0a >,故选:B .3.(2021·安徽六安市·六安一中)蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率x(每分钟鸣叫的次数)与气温y (单位:C )存在着较强的线性相关关系.某地观测人员根据下表的观测数据,建立了y 关于x 的线性回归方程0.25y x k =+.则当蟋蟀每分钟鸣叫62次时,该地当时的气温预报值为( ) A .33C B .34CC .35CD .35.5C【答案】D【解析】由表格中的数据可得2030405060405x ++++==,2527.52932.536305y ++++==,由于回归直线过样本中心点(),x y ,可得300.2540k =⨯+,解得20k =.所以,回归直线方程为0.2520y x =+.在回归直线方程中,令62x =,可得0.25622035.5y =⨯+=.故选:D.考点二一元线性方程【例2】(2021·兴义市第二高级中学)在2010年春节期间,某市物价部门,对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x 元和销售量y 件之间的一组数据如下表所示: 通过分析,发现销售量y 对商品的价格x 具有线性相关关系,求 (1)销售量y 对商品的价格x 的回归直线方程; (2)若使销售量为12,则价格应定为多少.附:在回归直线ˆˆy bxa =+中1221ˆni ii nii x y nxyb xnx ==-=-∑∑,ˆˆay bx =- 【答案】(1) 3.240y x =-+ (2) 8.75 【解析】(1)由题意知10x =,8y =,∴999580635551083.28190.25100110.25121ˆ5100b++++-⨯⨯==-++++-⨯,8(3.2)1040a =--⨯=,∴线性回归方程是 3.240y x =-+;(2)令 3.24012y x =-+=,可得8.75x =,∴预测销售量为12件时的售价是8.75元.【一隅三反】1.(2020·河南开封市)配速是马拉松运动中常使用的一个概念,是速度的一种,是指每公里所需要的时间,相比配速,把心率控制在一个合理水平是安全理性跑马拉松的一个重要策略.图1是一个马拉松跑者的心率y (单位:次/分钟)和配速x (单位:分钟/公里)的散点图,图2是一次马拉松比赛(全程约42公里)前3000名跑者成绩(单位:分钟)的频率分布直方图.(1)由散点图看出,可用线性回归模型拟合y 与x 的关系,求y 与x 的线性回归方程;(2)该跑者如果参加本次比赛,将心率控制在160左右跑完全程,估计他跑完全程花费的时间,并估计他能获得的名次.参考公式:线性回归方程ˆˆˆybx a =+中,12()()ˆ()nii i nixx y y b xx =--=-∑∑,ˆˆay bx =- 参考数据:135y =.【答案】(1)25285x y ∧=-+;(2)210分钟,192名. 【解析】(1)由散点图中数据和参考数据得 4.55677.565x ++++==,1001091301651711355y ++++==,()()()51522222211.536(1)300(5)1(26) 1.5(35)25( 1.5)(1)01 1.5ˆiii i i x x y y bx x ==---⨯+-⨯+⨯-+⨯-+⨯-===--+-+++-∑∑,135(25)62ˆ85ˆay bx =-=--⨯=, 所以y 与x 的线性回归方程为25285x y ∧=-+. (2)将160y =代入回归方程得5x =,所以该跑者跑完马拉松全程所花的时间为425210⨯=分钟. 从马拉松比赛的频率分布直方图可知成绩好于210分钟的累积频率为()0.0008500.00242102000.064⨯+⨯-=,有6.4%的跑者成绩超过该跑者,则该跑者在本次比赛获得的名次大约是0.0643000192⨯=名.2.(2020·云南红河哈尼族彝族自治州)随着电商事业的快速发展,网络购物交易额也快速提升,特别是每年的“双十一”,天猫的交易额数目惊人.2020年天猫公司的工作人员为了迎接天猫“双十一”年度购物狂欢节,加班加点做了大量准备活动,截止2020年11月11日24时,2020年的天猫“双十一”交易额定格在3700多亿元,天猫总公司所有员工对于新的战绩皆大欢喜,同时又对2021年充满了憧憬,因此公司工作人员反思从2014年至2020年每年“双十一”总交易额(取近似值),进行分析统计如下表:(1)通过分析,发现可用线性回归模型拟合总交易额y 与年份代码t 的关系,请用相关系数加以说明; (2)利用最小二乘法建立y 关于t 的回归方程(系数精确到0.1),预测2021年天猫“双十一”的总交易额. 参考数据:71()()138.5ii i tt y y =--=∑26.7= 2.646≈;参考公式:相关系数()()niit t y y r --=∑;回归方程y bt a ∧∧∧=+中,斜率和截距的最小二乘估计公式分别为:()()()711722211niii ii i niii i tty y t y nx yb tttnx∧====---==--∑∑∑∑,=a y bt ∧∧-.【答案】(1)答案见解析;(2)回归方程为ˆ 4.9 1.2yt =-,预测2021年天猫“双十一”的总交易额约为38百亿.【解析】(1)4t =,721()28ii tt =-=∑,17()()138.5i ii t t yy =--=∑26.7=所以()()138.50.982 2.64626.7niit t y y r --=≈≈⨯⨯∑因为总交易额y 与年份代码t 的相关系数近似为0.98, 说明总交易额y 与年份代码t 的线性相关性很强,从而可用线性回归模型拟合总交易额y 与年份代码t 的关系. (2)因为18.4y =,721()28ii tt =-=∑,所以()()71271()138.5ˆ 4.928i ii i i t t yy bt t ==--==≈-∑∑, ˆˆay b =-,18.4 4.94 1.2b ≈-⨯=- 所以y 关于t 的回归方程为ˆ 4.9 1.2yt =- 又将2021年对应的8t =代入回归方程得:ˆ 4.98 1.238y=⨯-=. 所以预测2021年天猫“双十一”的总交易额约为38百亿.3.(2021·湖北省武昌实验中学高二期末)根据统计,某蔬菜基地西红柿亩产量的增加量y (百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图,如图所示.(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明(若0.75r>,则线性相关程度很高,可用线性回归模型拟合);(2)求y关于x的回归方程,并预测当液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为多少?附:相关系数公式()()n ni i i ix x y y x y nx y r---==∑∑0.55≈0.95≈.回归方程y bx a=+中斜率和截距的最小二乘估计公式分别为()()()1122211n ni i i ii in ni ii ix x y y x y nx ybx x x nx====---==--∑∑∑∑,a y xb=-.【答案】(1)0.95;答案见解析;(2)0.3 2.5y x=+;610千克.【解析】(1)由已知数据可得2456855x++++==,3444545y++++==,所以()()()()()5131100010316i iix x y y=--=-⨯-+-⨯+⨯+⨯+⨯=∑,====所以相关系数()()50.95iix x y y r --===≈∑.因为0.75r >,所以可用线性回归模型拟合y 与x 的关系.(2)()()()5152160.320iii ii x x y y b x x ==--===-∑∑,450.3 2.5a =-⨯=, 所以回归方程为0.3 2.5y x =+. 当12x =时,0.312 2.5 6.1y =⨯+=,即当液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为610千克.考点三 非一元线性方程【例3】(2020·全国高二课时练习)在一次抽样调查中测得5个样本点,得到下表及散点图.(1)根据散点图判断y a bx =+与1y c k x -=+⋅哪一个适宜作为y 关于x 的回归方程;(给出判断即可,不必说明理由)(2)根据(1)的判断结果试建立y 与x 的回归方程;(计算结果保留整数) (3)在(2)的条件下,设=+z y x 且[)4,x ∈+∞,试求z 的最小值.参考公式:回归方程ˆˆˆybx a =+中,()()()1122211ˆn niii ii i nniii i x x y y x y nx yb x x xnx====---==--∑∑∑∑,a y bx =-.【答案】(1)1y c k x -=+⋅;(2)41y x=+;(3)6. 【解析】(1)由题中散点图可以判断,1y c k x -=+⋅适宜作为y 关于x 的回归方程; (2)令1t x -=,则y c kt =+,原数据变为由表可知y 与t 近似具有线性相关关系,计算得4210.50.251.555t ++++==,16125217.25y ++++==,222222416212150.520.2515 1.557.238.4544210.50.255 1.559.3k ⨯+⨯+⨯+⨯+⨯-⨯⨯==≈++++-⨯,所以,7.24 1.551c y kt =-=-⨯=,则41y t =+. 所以y 关于x 的回归方程是41y x=+. (3)由(2)得41z y x x x=+=++,[)4,x ∈+∞, 任取1x 、24x ≥,且12x x >,即124x x >≥,可得()()()21121212121212124444411x x z z x x x x x x x x x x x x -⎛⎫⎛⎫⎛⎫-=++-++=-+-=-+ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭()()1212124x x x x x x --=,因为124x x >≥,则120x x ->,1216>x x ,所以,12z z >,所以,函数41z x x =++在区间[)4,+∞上单调递增,则min 44164z =++=. 【一隅三反】1.(2020·江苏省如皋中学高二月考)某种新产品投放市场一段时间后,经过调研获得了时间x (天数)与销售单价y (元)的一组数据,且做了一定的数据处理(如表),并作出了散点图(如图).表中10111,10i i i i w w w x ===∑.(1)根据散点图判断y a bx =+,与dy c x=+哪一个更适合作价格y 关于时间x 的回归方程类型?(不必说明理由)(2)根据判断结果和表中数据,建立y 关于x 的回归方程. (3)若该产品的日销售量()g x (件)与时间x 的函数关系为()()100120g x x N x-=+∈,求该产品投放市场第几天的销售额最高?最高为多少元?附:对于一组数据()()()()112233,,,,,,...,,n n u v u v u v u v ,其回归直线vuαβ=+的斜率和截距的最小二乘法估计分别为121()(),()nii i nii vv u u v u u u βαβ==--==--∑∑.【答案】(1)dy c x =+更适合作价格y 关于时间x 的回归方程;(2)120(1)y x=+;(3)第10天,最高销售额为2420元;【解析】(1)根据散点图知dy c x=+更适合作价格y 关于时间x 的回归方程类型; (2)令1w x=,则y c dw =+, 而1011021()()18.4200.92()iii ii w w yy d w w ==--===-∑∑, 37.8200.8920c y dw =-=-⨯=,即有120(1)y x=+;(3)由题意结合(2)知:日销售额为1100()()20(1)(120)f x y g x x x=⋅=+-, ∴2110015()20(1)(120)400(6)f x x x x x=+-=+-, 若1t x =,令221121()655()1020h t t t t =+-=--+, ∴110t =时,max 1121()()1020h t h ==,即10x =天,max 121()(10)400242020f x f ==⨯=元, 所以该产品投放市场第10天的销售额最高,最高销售额为2420元.2.(2021·江苏苏州市)我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额x (单位:亿元)对年盈利额y (单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额i x 和年盈利额i y 的数据.通过对比分析,建立了两个函数模型:①2y x αβ=+,②x t y e λ+=,其中α,β,λ,t 均为常数,e 为自然对数的底数.令2i i u x >,()ln 1,2,,10i i v y i ==⋅⋅⋅,经计算得如下数据:(1)请从相关系数的角度,分析哪一个模型拟合程度更好?(2)(ⅰ)根据(1)的选择及表中数据,建立y 关于x 的回归方程;(系数精确到0.01)(ⅱ)若希望2021年盈利额y 为250亿元,请预测2021年的研发资金投入额x 为多少亿元?(结果精确到0.01)附:①相关系数()()niix x y y r --=∑,回归直线ˆˆˆya bx =+中:121()()ˆ()niii nii x x yy b x x ==--=-∑∑,ˆˆay bx =- ②参考数据:ln 20.693≈,ln5 1.609≈. 【答案】(1)模型x ty eλ+=的拟合程度更好;(2)(ⅰ)0.180.56ˆx ye +=;(ⅱ)27.56.【解析】(1)设{}i u 和{}i y 的相关系数为1r ,{}i x 和{}i v 的相关系数为2r ,由题意,()()101130.8715iiu u y y r --===≈∑,()()102120.9213iix x v v r --===≈∑,则12r r <,因此从相关系数的角度,模型x ty e λ+=的拟合程度更好.(2)(ⅰ)先建立v 关于x 的线性回归方程, 由x ty eλ+=,得ln y t x λ=+,即v t x λ=+,()()()101102112ˆ65iii ii x x v v x x λ==--==-∑∑, 12ˆˆ 5.36260.5665tv x λ=-=-⨯=, 所以v 关于x 的线性回归方程为ˆ0.180.56vx =+, 所以ˆln 0.180.56yx =+,则0.180.56ˆx y e +=.(ⅱ)2021年盈利额250y =(亿元), 所以0.180.56250x e +=,则0.180.56ln 250x +=, 因为ln 2503ln5ln 23 1.6090.693 5.52=+≈⨯+=, 所以 5.520.5627.560.18x -≈≈.所以2021年的研发资金投入量约为27.56亿元.。
⼀元线性回归模型案例第⼆章⼀元线性回归模型案例⼀、中国居民⼈均消费模型从总体上考察中国居民收⼊与消费⽀出的关系。
表2.1给出了1990年不变价格测算的中国⼈均国内⽣产总值(GDPP)与以居民消费价格指数(1990年为100)所见的⼈均居民消费⽀出(CONSP)两组数据。
1) 建⽴模型,并分析结果。
输出结果为:对应的模型表达式为:201.1070.3862CONSP GDPP =+(13.51) (53.47) 20.9927,2859.23,0.55R F DW ===从回归估计的结果可以看出,拟合度较好,截距项和斜率项系数均通过了t 检验。
中国⼈均消费增加10000元,GDP 增加3862元。
⼆、线性回归模型估计表2.2给出⿊龙江省伊春林区1999年16个林业局的年⽊材采伐量和相应伐⽊剩余物数据。
利⽤该数据(1)画散点图;(2)进⾏OLS 回归;(3)预测。
表2.2 年剩余物y 和年⽊材采伐量x 数据(1)画散点图先输⼊横轴变量名,再输⼊纵轴变量名得散点图(2)OLS估计弹出⽅程设定对话框得到输出结果如图:由输出结果可以看出,对应的回归表达式为:0.76290.4043t t yx =-+ (-0.625) (12.11)20.9129,146.7166, 1.48R F DW === (3)x=20条件下模型的样本外预测⽅法⾸先修改⼯作⽂件范围将⼯作⽂件范围从1—16改为1—17确定后将⼯作⽂件的范围改为包括17个观测值,然后修改样本范围将样本范围从1—16改为1—17打开x的数据⽂件,利⽤Edit+/-给x的第17个观测值赋值为20将Forecast sample选择区把预测范围从1—17改为17—17,即只预测x=20时的y的值。
由上图可以知道,当x=20时,y的预测值是7.32,yf的分布标准差是2.145。
三、表2.3列出了中国1978—2000年的参政收⼊Y和国内⽣产总值GDP的统计资料。
8.2 一元线性回归模型及其应用(精练)【题组一 样本中心解小题】1.(2021·广西钦州市)据统计,某产品的市场销售量y (万台)与广告费用投入x (万元)之间的对应数据的散点图如图所示,由图可知y 与x 之间有较强的线性相关关系,其线性同归方程是0.3y x a =+,则a 的值是( )A .2.5B .3C .3.5D .4【答案】A【解析】由题可知:24568344455,455x y ++++++++====将,x y 代入线性回归方程可得:40.35 2.5a a =⨯+⇒=故选:A2.(2021·湖北武汉市·武汉中学高二期末)设一个回归方程为ˆ3 1.2y x =+,则变量x 增加一个单位时( ).A .y 平均增加12个单位B .y 平均增加3个单位C .y 平均减少1.2个单位D .y 平均减少3个单位【答案】A【解析】由回归直线斜率知:变量x 增加一个单位时,()ˆ3 1.213 1.2 1.2yx x =++=++, y 平均增加1.2个单位.故选:A.3.(2021·江西上饶市)在对具有线性相关的两个变量x 和y 进行统计分析时,得到如下数据:由表中数据求得y 关于x 的回归直线方程,则()4,1.3,()6,1.9,()8,3,()10,3.9这四个样本点中,距离回归直线最近的点是( ) A .()4,1.3 B .()6,1.9C .()8,3D .()10,3.9【答案】C【解析】468101285x ++++==, 1.3 1.93 3.9 4.935y ++++==,根据回归直线方程的性质可知,平均值点()8,3在回归直线上,故选:C.4.(2021·江西上高二中)对具有线性相关关系的变量x ,y ,测得一组数据如表,利用最小二乘法得它们的回归直线方程为ˆ10.5yx a =+,据此模型来预测当20x 时,y 的估计值为___________【答案】213.5 【解析】1(24568)55x =++++=,1(2050607080)565y =++++=, 所以中心点为(5,56),所以5610.55a =⨯+,解得 3.5a =, 所以回归直线方程为10.5.5ˆ3yx =+, 所以当20x 时,10.520 3.5213.5y =⨯+=,故答案为:213.55.(2021·湖南省平江县第一中学高二月考)已知某产品的销售额y (万元)与广告费用x (万元)之间的关系如下表:若销售额与广告费用之间的线性回归方程为 6.5y x a =+,预计当广告费用为6万元时的销售额约为_____________(万元). 【答案】48【解析】由表格中的数据可得0123425x ++++==,1015203035225y ++++==,由于回归直线过样本的中心点,所以,6.5222a ⨯+=,解得9a =, 所以,回归直线方程为 6.59y x =+,当6x =时, 6.56948y =⨯+=. 故答案为:48.6.(2021·福建漳州市·高二期末)某产品的广告费用x 与销售额y 的统计数据如下表:现已知5y =,且回归方程y bx a =+中的4b =,据此模型预测广告费用为10万元时,销售额为______万元. 【答案】35 【解析】由题意12342.54x +++==,∴54 2.5a =⨯+,5a =-,10x =时,410535y =⨯-=.故答案为:35.7.(2021·江西高二期末(理))下列是某厂1~4月份用水量(单位:百吨)的一组数据,由其散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归方程是0.7y x a =-+,则a =_______ .【答案】5.25【解析】由题意知:1(1234) 2.54x =+++=, 1(4.543 2.5) 3.54y =+++=,将()2.5,3.5代入线性回归方程0.7y x a ∧∧=-+, 即3.50.7 2.5a ∧=-⨯+, 解得:525a ∧=.. 故答案为:5.25.8.(2021·邱县第一中学高二期末)已知x 与y 之间的一组数据:已知关于y 与x 的线性回归方程为 2.10.85y x =+,则m 的值为___________. 【答案】0.5【解析】由表格中的数据可得0123342x +++==由于回归直线过样本的中心点(),x y ,所以32.10.8542y =⨯+= 所以3 5.5744m y +++==,解得0.5m =故答案为:0.59.(2021·贵州贵阳市)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程0.6754.9y x =+.现发现表中有一个数据看不清,请你推断该数据的值为___________. 【答案】68【解析】设阴影部分的数据为M ,由表中数据得:1020304050305x ++++==,3075M y +=,由于由最小二乘法求得回归方程ˆ0.6754.9yx =+, 将30x =,3075M y +=,代入回归直线方程,得68M =. 故答案为:68.10.(2020·吉林油田第十一中学)已知x 与y 之间的一组数据:若y 关于x 的线性回归方程为 2.10.25y x =-,则m 的值为______. 【答案】m =4.5【解析】由题得15(1234)42x =+++=,11( 3.2 4.87.5)(15.5)44y m m =+++=+, 所以15(15.5) 2.10.2542m +=⨯-,所以 4.5m =. 故答案为:m =4.5 【题组二 一元线性方程】1.(2021·福建福州市·高二期末)为了研究某班男生身高和体重的关系,从该班男生中随机选取6名,得到他们的身高和体重的数据如下表所示:在收集数据时,2号男生的体重数值因字迹模糊看不清,故利用其余5位男生的数话得到身高与体重的线性回归方程为11y b x a =+.后来得到2号男生的体重精准数值m 后再次计算得到线性回归方程为22y b x a =+.(1)求回归方程11y b x a =+;(2)若分别按照11y b x a =+和22y b x a =+来预测身高为180cm 的男生的体重,得到的估计值分别为1w ,2w ,且212w w -=,求m 的值;(3)BMI 指数是目前国际上常用的衡量人体胖瘦程度以及是否健康的一个标准,其中BMI 指数在24到27.9之间的定义为超重.通过计算可知这6人的BMI 指数分别为:22.8,27.4,22.9,24.7,23.1,22.6,现从这6人中任选2人,求恰有1人体重为超重的概率.附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121niii nii x x y y b x x ==--=-∑∑,a y bx =-.【答案】(1)1413741515y x =-;(2)80m =;(3)815 【解析】(1)()11651671731791711715x =⨯++++=,()16264747466685y =⨯++++=,所以()()1536161248112i i i x xy y =--=+++=∑,()2153616464120i i x x=-=+++=∑,所以()()()1121551121412015iii i i x x y y x xb ==--===-∑∑,11141374681711515a yb x =-=-⨯=-,所以1413741515y x =-. (2)根据题意,将180x =代入方程1413741515y x =-得1114615w =, 所以2111461176221515w w =+=+=, 所以221176ˆˆ18015b a=⨯+, ① 另一方面,6名男生的身高的平均值为'171x =,体重的平均值为340'6my +=, 所以22340ˆˆ1716m b a+=⨯+, ② ()()1636161248112i i i x xy y =--=+++=∑,()2163616464120i i x x=-=+++=∑,所以()()()21626114ˆ15iii i i x x y y b x x===-=--∑∑, ③ 综合①②③即可得:21344ˆ15a=-,80m =. (3)设这6人分别记为,,,,,A B C D E F ,其中,B D 表示体重超标的两人, 则从这6人中任选2人,所有的可能情况为:,,,,,,,,,,,,,,AB AC AD AE AF BC BD BE BF CD CE CF DE DF EF ,共15种,其中恰有1人体重为超重有:,,,,,,,AB AD BC BE BF CD DE DF ,共8种, 所以恰有1人体重为超重的概率为:815P =. 2.(2021·四川遂宁市)第十八届中国国际农产品交易会于11月27日在重庆国际博览中心开幕,我市全面推广“遂宁红薯”及“遂宁鲜”农产品区域公用品牌,并组织了100家企业、1000个产品进行展示展销,扩大优质特色农产品市场的占有率和影响力,提升遂宁特色农产品的社会认知度和美誉度,让来自世界各地的与会者和消费者更深入了解遂宁,某记者对本次农交会进行了跟踪报道和实际调查,对某特产的最满意度()%x 和对应的销售额y (万元)进行了调查得到以下数据:(1)求销量额关于最满意度x 的相关系数r ;我们约定:销量额关于最满意度x 的相关系数r 的绝对值在0.95以上(含0.95)是线性相关性较强;否则,线性相关性较弱.请你对线性相关性强弱作出判断,并给出理由;(2)如果没有达到较强线性相关,则采取“末位淘汰”制(即销售额最少的那一天不作为计算数据),并求在剔除“末位淘汰”的那一天后的销量额y 关于最满意度x 的线性回归方程(系数精确到0.1). 参考数据:24x =,81y =,52215146ii xx =-=∑, 52215176i i y y =-=∑,515151i i i x y xy =-=∑,13.27≈≈.附:对于一组数据()()()1122,,,,,,n n x y x y x y ⋅⋅⋅.其回归直线方程 ˆˆˆy bx a=+的斜率和截距的最小二乘法估计公式分别为:1221ˆ·ni ii nii x y nx y bxnx ==-=-∑∑,ˆa y bx=-,线性相关系数·ni ix y nx y r -=∑.【答案】(1)0.94r ≈,线性相关性较弱;(2) +77.3ˆyx = 【解析】(1)1510.9412.0813.27r ==≈⨯.因为0.940.95r ≈<,所以线性相关性较弱,(2)由(1)可得没有达到较强线性相关,则淘汰销售额为75万元的数据. 剔除数据后的25.25x '=,82.5y '=.4122783490258620768446i ii x y==⨯+⨯+⨯+⨯=∑,4425.2582.58332.5x y ''⋅=⨯⨯=,2241222223425202665ii x==+++=∑,2425.2525.252550.254x =⨯⨯=',所以84468332.5ˆ126652550.25b-=≈-,ˆ82.525.2577.3a y bx ''=-=-≈.所以线性回归方程为 +77.3ˆyx =. 3.(2021·广西钦州市)2020年新型冠状病毒肺炎疫情期间,某医院随着医疗工作的有序开展,从2020年3月1日算第一天起,该医院每日治愈的新型冠状病毒肺炎人数y (人)的近5天的具体数据如下表:若在一定时间内,该医院每日治愈的新型冠状病毒肺炎病人数y 与天数x 具有相关关系,已知线性回归方程y bx a =+恒过定点()3,9,且51176i i i x y ==∑,52155i i x ==∑.(1)求m 的值和线性回归方程y bx a =+;(2)预测该医院3月11日能否可以实现“单日治愈人数突破40人”的目标?参考公式:1221ni ii nii x y nx yb xnx==-=-∑∑,a y bx =-,x ,y 为样本平均值.【答案】(1)13m =, 4.1 3.3y x =-;(2)能实现. 【解析】解:(1)由题意,3x =,9y =, ∴2481895m y ++++==,解得13m =,∵51176i i i x y =∑=,52155i i x =∑=,所以,515222151765394.155535i i i i i x y x yb x x ==∑--⨯⨯===-⨯∑-, 9 4.13 3.3a y bx =-=-⨯=-,所以线性回归方程为 4.1 3.3y x =-.(2)在 4.1 3.3y x =-中,3月11日即11x =, 取11x =. 4.111 3.341.8y =⨯-=. ∵41.840>,∴该医院3月11日能实现“单日治愈人数突破40人”的目标.4.(2020·贵州贵阳市·贵阳一中)统计中用相关系数r 来衡量两个变量之间的线性相关的强弱,若相应于变量x 的取值i x ,变量y 的观测值(1)i y i n ≤≤,则两个变量的相关关系的计算公式为()()niix x y y r --=∑.对于变量x y ,,若(1r ∈-,0.75]-时,那么负相关很强;若[0.75r ∈,1]时,那么正相关很强;若(0.75r ∈-,0.30]-或[0.30r ∈,0.75],那么相关性一般;若[0.25r ∈-,0.25],那么相关性较弱.下表是一位母亲给儿子作的成长记录:(1)根据公式以及上表数据,判断孩子在3岁到7岁期间年龄与身高线性相关的强弱;(2)根据上表数据,,求出年龄与身高的线性回归方程y bx a =+,并根据求得的回归方程,预估孩子8岁时的身高.1122211()()()n niii ii i nniii i x x y y x y nx yb x x xnx====---==--∑∑∑∑,a y bx =-.【答案】(1)见解析(2) 6.3725ˆ.yx =+;122.9厘米 【解析】(1)345679************5,10455x y ++++++++====()()()()51213161721263iii x x y y =--=-⨯--⨯-+⨯+⨯=∑()52222221(2)(1)012411410ii x x =-=-+-+++=+++=∑()52222221(13)(6)0712398i i y y =-=-+-+=++∑则[]()()0.99860.75,1niix x y y r --==≈∈∑即孩子在3岁到7岁期间年龄与身高线性相关很强(2)()()()5152163.ˆ6310iii i i x x y y bx x ==--===-∑∑,104 6.357ˆ 2.5a =-⨯= 则年龄与身高的线性回归方程为 6.3725ˆ.yx =+ 当8x =时,身高为 6.3872.52ˆ12.9y=⨯+=厘米 5.(2021·安徽马鞍山市)天气寒冷,加热手套比较畅销,某商家为了解某种加热手套如何定价可以获得最大利润,现对这种加热手套进行试销售,统计后得到其单价x (单位;元)与销量y (单位:副)的相关数据如下表:(1)已知销量y 与单价x 具有线性相关关系,求y 关于x 的线性回归方程;(2)若每副该加热手套的成本为65元,试销售结束后,请利用(1)中所求的线性回归方程确定单价为多少元时,销售利润最大?(结果保留到整数)附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线ˆˆˆybx a =+的斜率和截距的最小二乘估计分别为1221ˆˆˆ,,ni ii nii x y nxybay bx xnx ==-==--∑∑ 参考数据:552114870040750i ii i i x yx ===⋅=∑∑【答案】(1)ˆ 3.2398y x =-+;(2)单价应该定为95元,销售利润最大.【解析】(1)由表中数据,计算得1(80859095100)905x =⨯++++=, 1(1401301109080)1105y =⨯++++=,则5152221548700590110ˆ 3.2407505905i ii i i x y x ybx x==--⨯⨯===--⨯-∑∑,ˆˆ110 3.290398ay bx =-=+⨯=, 所以y 关于x 的线性回归方程为ˆ 3.2398yx =-+. (2)设定价为x 元,利润为()f x ,则2()( 3.2398)(65) 3.260625870f x x x x x =-+-=-+-65x ≥60694.6875952( 3.2)x ∴=-=≈⨯-(元)时,()f x 最大,所以为使得销售的利润最大,单价应该定为95元.6.(2021·甘肃省永昌县第一高级中学高二期末(理))据了解,温带大陆性气候,干燥,日照时间长,昼夜温差大,有利于植物糖分积累.某课题研究组欲研究昼夜温差大小(x /℃)与某植物糖积累指数(y /GI )之间的关系,得到如下数据:该课题研究组确定的研究方案是先从这6组数据中选取4组数据求线性回归方程,再用剩下的2组数据进行检验,假设这剩下的2组数据恰好是第一组与第六组数据.(1)求y 关于x 的线性回归方程ˆˆˆybx a =+; (2)若由线性回归方程得到的估计数据与所选出的检验数据的差的绝对值均不超过2.58,则认为得到的线性回归方程是理想的,试问(1)中所得线性回归方程是否理想?参考公式:回归直线方程ˆˆˆybx a =+的斜率和截距的最小二乘估计121()()ˆˆˆ,()niii nii x x y y b ay bx x x ==--==--∑∑. 【答案】(1)171277y x =-;(2)是. 【解析】(1)由表中2月至5月份的数据,得1(1113128)114x =+++=,1(24302818)254y =+++=,故有52()()0(1)2513(3)(7)34i i i x x y y =--=⨯-+⨯+⨯+-⨯-=∑,5222222()021(3)14ii xx =-=+++-=∑,∴3417ˆ147b==,1712ˆˆ251177a y bx =-=-⨯=-, 即y 关于x 的线性回归方程为1712ˆ77y x =-; (2)由1712ˆ77y x =-,当10x =时,1712158ˆ10777y =⨯-=,15818|20| 2.5877-=<, 当6x =时,171290ˆ6777y =⨯-=, 9015|15| 2.5877-=<, 则该小组所得线性回归方程是理想的.7.(2021·柳州市第二中学高二期末(理))广西某高三理科班N 名学生的物理测评成绩(满分120分)的频率分布直方图如图,已知分数在95—105的学生有27人.(1)求总人数N 和分数在110—120分的人数n ;(2)求出该频率分布直方图的众数,中位数,平均数;(3)为了分析某个学生的学习状态,对其下一阶段的学生提供指导性建议,对他前7次考试的数学成绩x (满分150分),物理成绩y 进行分析,如表是该生7次考试的成绩.已知该生的物理成绩y 与数学成绩x 是线性相关的,若该生的数学成绩达到130分,请你估计他的物理成绩大约是多少?其回归方程y bx a =+,()()()121niii nii x x y y b x x ==--=-∑∑,a y bx =-.其中0.0587.50.292.50.2597.50.2102.50.15107.50.05117.569.25⨯+⨯+⨯+⨯+⨯+⨯=1261791788484126497⨯+⨯+⨯+⨯+⨯+⨯=22222121717812994++++=.【答案】(1)60;9;(2)97.5,100,80.50;(3)可估计他的物理成绩为115分. 【解析】(1)根据频率分布直方图的意义,分数在95—105的学生有27人, 95—105的频率为:()0.050.0450.45+⨯=,可得总人数27600.45=. 直方图面积之和为1,可得110—115的频率为0.1,即人数为0.1606⨯=人.115120-的人数为0.015603⨯⨯=,所以110—120人数为9人.(2)众数9510097.52+=; 由0.0150.0450.0550.5⨯+⨯+⨯=,所以中位数为100; 平均数69.250.1112.580.50+⨯=(分) (3)由表中数据:12171788121001007x --+-++=+=,69844161001007y --+-+++=+=,其中;()()()1214970.5994ni i i ni i x x y yb x x==--∑===-∑ ∵1000.510050a y bx =-=-⨯=∴物理成绩y 与数学成绩x 是线性其回归方程为:0.550y x =+. 当130x =时,可得115y =,即可估计他的物理成绩为115分.8.(2020·江西吉安市)从2020年元月份以来,全世界的经济都受到了新冠病毒的严重影响,我国抗疫战斗取得了重大的胜利,全国上下齐心协力复工复产,抓经济建设;某公司为了提升市场的占有率,准备对一项产品实施科技改造,经过充分的市场调研与模拟,得到x ,y 之间的五组数据如下表:其中,x (单位:百万元)是科技改造的总投入,y (单位:百万元)是改造后的额外收益;设2U x y =+是对当地生产总值增长的贡献值.(1)若从五组数据中任取两组,求恰有一组满足30U >的概率;(2)记ξ为20U >时的任意两组数据对应的贡献值的和,求随机变量ξ的分布列和数学期望; (3)利用表中数据,甲、乙两个调研小组给出的拟合直线方程分别为甲组:21y x =+,乙组:5322y x =-,试用最小二乘法判断哪条直线的拟合效果更好? 附:对于一组数据()()()1122,,,,,n n x y x y x y ,其拟合直线方程y bx a =+的残差平方和为()21ni i i D y bx a ==--∑,D 越小拟合效果越好.【答案】(1)25;(2)分布列见解析;期望为1643 ;(3)甲组给出的拟合直线方程21y x =+拟合效果更好 .【解析】(1)设所给五组数据分别为A ,B ,C ,D ,E (只有E 满足)30U >,从五组数据中任意取出两组的情况有:AB ,AC ,AD ,AE ,BC ,BD ,BE ,CD ,CE ,DE 共10种情况,其中,恰有一组满足230U x y =+>的有:AE ,BE ,CE ,DE 共4种情况, 故所求概率为42105P ==; (2)满足20U >的数据是后3组(贡献值分别为:22,28,32), ∴ξ的值为50,54,60, 则()231150C 3P ξ===,()231154C 3P ξ===, ()231160C 3P ξ===, ∴ξ的分布列为:数学期望()1111645054603333E ξ=⨯+⨯+⨯=; (3)用甲组给出的拟合直线方程列表如下:用乙组给出的拟合直线方程列表如下:22x =-由表中数据得,()()22222011114D =+++-+-=甲, ()()222221.5212 2.517.5D =+++-+-=乙,∴D D <甲乙,故甲组给出的拟合直线方程21y x =+拟合效果更好. 【题组三 非一元线性方程】1.(2020·全国高三专题练习)某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元.经济学家调查发现,当地人均可支配收入较上一年每增加n %,一般困难的学生中有3n %会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有2n %转为一般困难,特别困难的学生中有n %转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x 取13时代表2013年,x 与y (万元)近似满足关系式y =212C xC ⋅,其中C 1,C 2为常数(2013年至2019年该市中学生人数大致保持不变).其中5211log ,5===∑i i i i k y k k(1)估计该市2018年人均可支配收入;(2)求该市2018年的“专项教育基金”的财政预算大约为多少?附:①对于一组具有线性相关关系的数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线方程y aβμ=+的斜率和截距的最小二乘估计分别为121()()ˆ,()βαβ==--==--∑∑nii i nii uu v v v uu ②【答案】(1)2.8万元;(2)1 624万元.【解析】(1)因为x =15×(13+14+15+16+17)=15,所以521()i i x x =-∑=(-2)2+(-1)2+02+12+22=10.由k =2log y 得k =log 2C 1+C 2x ,所以1221()()1,10()niii nii x x kk C x x ==--==-∑∑ 2log C 1=k -C 2x =1.2-110×15=-0.3, 所以C 1=2-0.3=0.8,所以y =100.82x⨯.当x =18时,y =0.8×21.8=0.8×3.5=2.8(万元). 即该市2018年人均可支配收入为2.8万元.(2)由题意知2017年时该市享受“国家精准扶贫”政策的学生有200000×7%=14000人,一般困难、很困难、特别困难的中学生依次有7000人、4200人、2800人,2018年人均可支配收入比2017年增长1.8 1.71.70.820.820.82⨯-⨯⨯=20.1-1=0.1=10%, 所以2018年该市特别困难的中学生有 2800×(1-10%)=2520人.很困难的学生有4200×(1-20%)+2800×10%=3640人, 一般困难的学生有7000×(1 -30%)+4200×20%=5740人.所以2018年的“专项教育基金”的财政预算大约为5740×1000+3640×1500+2520×2000=16240000(元)=1624(万元).2.(2020·全国高二课时练习)某学生为了测试燃气灶烧水如何节省天然气的问题设计了一个试验,并获得了天然气开关旋钮旋转的弧度数x 与烧开一壶水所用时间(以下简称烧水时间)y 的一组数据,且进行了一定的数据处理(如下表),得到了散点图(如下图).表中102111,10===∑i i i i w w w x .(1)根据散点图判断,y a bx =+与2dy c x=+哪一个更适宜作为烧水时间y 关于开关旋钮旋转的弧度数x 的回归方程类型;(不必说明理由)(2)根据判断结果和表中数据,建立y 关于x 的回归方程;(3)如果旋转的弧度数x 与单位时间内天然气输出量t 成正比,那么x 为多少时,烧开一壶水最省天然气? 附:对于一组数据()()()()112233,,,,,,,,n n u v u v u v u v ,其回归直线方程ˆˆˆv u αβ=+的斜率和截距的最小二乘估计分别为()()()121ˆˆˆ,niii nii u u v v v u u u βαβ==--==--∑∑. 【答案】(1)2dy c x =+;(2)220ˆ5y x =+;(3)2x =. 【解析】(1)2dy c x=+更适宜作为烧水时间y 关于开关旋钮旋转的弧度数x 的回归方程类型.(2)由公式可得()()()101102116.2ˆ200.81iii i i w w yy dw w ==--===-∑∑, ˆˆ20.6200.785cy dw =-=-⨯=,所以所求回归方程为220ˆ5yx=+. (3)设(0)t kx k =>,则天然气用量220205520k S yt kx kx k x x ⎛⎫==+=+≥= ⎪⎝⎭, 当且仅当205kkx x=时取“=”,即2x =(负值舍去)时,天然气用量最小. 3.(2020·全国)红铃虫是棉花的主要害虫之一,能对农作物造成严重伤害.每只红铃虫的平均产卵数y 和平均温度x 有关.现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.表中ln i z y =,7117i i z z ==∑(1)根据散点图判断,y a bx =+与dxy ce =(其中 2.718e =⋅⋅⋅为自然对数的底数)哪一个更适宜作为平均产卵数y 关于平均温度x 的回归方程类型?(给出判断即可不必说明理由)并由判断结果及表中数据,求出y 关于x 的回归方程.(计算结果精确到小数点后第三位)(2)根据以往统计,该地每年平均温度达到28℃以上时红铃虫会造成严重伤害,需要人工防治,其他情况均不需要人工防治,记该地每年平均温度达到28℃以上的概率为()01p p <<.(ⅰ)记该地今后5年中,恰好需要3次人工防治的概率为()f p ,求()f p 的最大值,并求出相应的概率0p .(ⅱ)当()f p 取最大值时,记该地今后5年中,需要人工防治的次数为X ,求X 的数学期望和方差. 附:对于一组数据()()()112277,,,,,,x z x z x z ⋅⋅⋅,其回归直线z a bx =+的斜率和截距的最小二乘法估计分别为:()()()71721ˆiii ii x x z z bx x ==--=-∑∑,a z bx =-.【答案】(1)dxy ce =更适宜;0.272 3.849x y e -=;(2)(i )()max 216625f p =,此时相应的概率为035p =;(ii )()3E X =,()65D X =. 【解析】(1)根据散点图可以判断dxy ce =更适宜作为平均产卵数y 关于平均温度x 的回归方程类型. 对dxy ce =两边取自然对数得ln ln y c dx =+,令ln z y =,ln a c =,b d =,得z a bx =+.因为()()()7172140.1820.2720147.714iii i i x x zz b x x==--==≈-∑∑,所以3.6120.27227.429 3.849a z bx =-=-⨯≈-, 所以z 关于x 的线性回归方程为0.27234ˆ.89zx =-,所以y 关于x 的回归方程为0.272 3.849ˆx y e -=.(2)(ⅰ)由()()23351f p C p p =-,得()()()325135f p C p p p '=--,因为01p <<,令()0f p '>得350p ->,解得305p <<;令()0f p '<得350p -<,解得315p <<, 所以()f p 在30,5⎛⎫ ⎪⎝⎭上单调递增,在3,15⎛⎫ ⎪⎝⎭上单调递减,所以()f p 有唯一极大值35f ⎛⎫⎪⎝⎭,也为最大值. 所以当35p =时,()max 216625f p =,此时响应的概率035p =. (ⅱ)由(ⅰ)知,当()f p 取最大值时,35p =,所以35,5x b ⎛⎫⎪⎝⎭, 所以()3535E X =⨯=,()3265555D X =⨯⨯=. 4.(2020·福建师大附中高二期中)疫苗能够使人体获得对病毒的免疫力,是保护健康人群最有效的手段.新冠肺炎疫情发生以来,军事医学科学院陈薇院土领衔的团队开展应急科研攻关,研制的重组新型冠状病毒疫苗(腺病毒载体),于4月12日开始招募志愿者,进入二期临床试验.根据普遍规律,志愿者接种疫苗后体内会产生抗体,人体中检测到抗体,说明有抵御病毒的能力.科研人员要定期从接种疫苗的志愿者身上采集血液样本,检测人体中抗体含量水平(单位:miu/mL ,百万国际单位/毫升).(1)IgM 作为人体中首先快速产生的抗体,是人体抗感染免疫的“先头部队”.经采样分折,志愿者身体中IgM 含量水平()miu/mL y 与接种天数x (接种后每满24小时为一天,*x N ∈)近似满足函数关系:100.1,10,10x x x y e x -≤⎧=⎨>⎩,经研究表明,IgM 含量水平不低于0.2miu/mL 时是免疫的有效时段,试估计接种一次后IgM 含量水平有效时段可经历的时间(向下取整).(参考数据: 2.718e ≈)(2)IgG 虽然是接种后产生比较慢的抗体,却是血清和体液中含量最高的抗体,也是亲和力最强、人体内分布最广泛、具有免疫效应的抗感染“主力军”.科研人员每间隔3天检测一次(检测次数依次记为i t ,1,2,3,4,5,6,7i =)某志愿者人体中IgG 的含量水平,记作()()miu/mL 1,2,3,4,5,6,7i z i =,得到相关数据如下表:①请画出散点图,并根据散点图判断线性拟合模型z a bt =+与指数拟合模型·t z c d =哪种更适合拟合z 与t 的关系(不必说明理由);②研究人员发现,上述数据中存在一组异常数据应当予以剔除.试根据余下的六组数据,利用①中选择的拟合模型计算回归方程,并估计原异常数据对应的i z 值.附:回归系数与估计值均保留两位小数,由七组数据计算出的参考数据见下表,其中ln u z =.参考公式:线性回归直线ˆˆˆya bx =+的斜率和截距的最小二乘估计分别为:2()()ˆ()ii ix x y y b x x --=-∑∑,a y bx =-【答案】(1)11天;(2)①见解析,指数拟合模型·t z c d =适合拟合z 与t 的关系;②1.55 【解析】(1)10x ≤时,0.1y x =单调递增,10x >时,10-=x y e 单调递减,得到10x =时,y 达到峰值,由100.2-<x e 得110ln 0.2lnln 55x -<==-, 10ln5x ∴>+,因为1ln52<<, 11x ∴>,所以估计接种一次后IgM 含量水平有效时段可经历的时间为11天; (2)①散点图如下:根据散点图判断指数拟合模型·t z c d =更适合拟合z 与t 的关系; ②根据散点图可得第4组数据异常,应当予以剔除 由·t z c d =得()ln ln ln ln tu z cdc td ===+6611662222222222110.67 1.58()()39.874 4.85646ˆ0.3512356764()ii i i i i iii i tt u u t unt ubtt tnt ====⨯----⋅-⨯-⨯⨯∴===≈+++++-⨯--∑∑∑∑,0.67 1.580.3540.966a u bt ⨯-=-=-⨯=-,故ln 0.960.35u z t ==-+,0.960.35t z e -+∴=当4t =时,0.960.3540.444 1.55z ee -+⨯=== 估计原异常数据对应的4z 值为1.55.5.(2020·安徽省太和第一中学高二月考(文))某工厂生产不同规格的一种产品,根据检测标准,其合格产品的质量()g y 与尺寸()mm x 之间满足关系式(,by ax a b =为大于0的常数),现随机抽取6件合格产品,测得数据如下:对数据作了处理,相关统计量的值如下表:(1)根据所给数据,求y 关于x 的回归方程(提示:由已知ln y 与ln x 呈线性关系); (2)按照某项指标测定,当产品质量与尺寸的比在区间e e ,97⎛⎫⎪⎝⎭内时为优等品,现从抽取的6件合格产品中再任选3件,求恰好取得两件优等品的概率. (附:对于一组数据()()()1122,,,,,,n n v v v μμμ,其回归直线ˆˆv μαβ=+的斜率和截距的最小二乘法估计值分别为1221,ˆˆni ii nii v nv v vnv μμβαμβ==-==--∑∑) 【答案】(1)12e y x =;(2)920.【解析】(1)对(,0)by ax a b =>两边取自然对数得ln ln ln y b x a =+, 令ln ,ln i i i i v x u y ==,得ln u bv a =+,61622160.2710.542ˆ6i i i i i v v b v vμμ==-===-∑∑,18.3124.6ln 1626ˆˆa bv μ=-=-⨯=,得ˆe a =, 故所求回归方程为12e y x =.(2)由1212e e e e ,97y x x x x ⎛⎫==∈ ⎪⎝⎭,解得4981x <<,则58,68,78x =,即优等品有3件. 记“恰好取得两件优等品”为事件A ,从6件合格品中选出3件的方法数为36C 20=,从6件合格品中取3件,恰好2件为优等品的取法有1233C C 9=种,则()123336C C 9C 20P A ==.故恰好取得两件优等品的概率为920.。
一元线性回归模型案例分析一、研究的目的要求居民消费在社会经济的持续发展中有着重要的作用。
居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。
改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。
但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。
例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。
为了研究全国居民消费水平及其变动的原因,需要作具体的分析。
影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。
为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。
二、模型设定我们研究的对象是各地区居民消费的差异。
居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。
而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。
所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。
因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。
因此建立的是2002年截面数据模型。
影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。
第二章 一元线性回归模型典型例题分析例1、令kids 表示一名妇女生育孩子的数目,educ 表示该妇女接受过教育的年数。
生育率对教育年数的简单回归模型为μββ++=educ kids 10(1)随机扰动项μ包含什么样的因素?它们可能与教育水平相关吗?(2)上述简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释。
例2.已知回归模型μβα++=N E ,式中E 为某类公司一名新员工的起始薪金(元),N 为所受教育水平(年)。
随机扰动项μ的分布未知,其他所有假设都满足。
如果被解释变量新员工起始薪金的计量单位由元改为100元,估计的截距项与斜率项有无变化?如果解释变量所受教育水平的度量单位由年改为月,估计的截距项与斜率项有无变化?例3.对于人均存款与人均收入之间的关系式t t t Y S μβα++=使用美国36年的年度数据得如下估计模型,括号内为标准差:)011.0()105.151(067.0105.384ˆtt Y S +==0.538 023.199ˆ=σ (1)β的经济解释是什么?(2)α和β的符号是什么?为什么?实际的符号与你的直觉一致吗?如果有冲突的话,你可以给出可能的原因吗?(3)对于拟合优度你有什么看法吗? (4)检验统计值?例4.下列方程哪些是正确的?哪些是错误的?为什么?⑴ y xt n t t=+=αβ12,,, ⑵ yx t n t tt=++=αβμ12,,, ⑶ y x t n t t t=++= ,,,αβμ12⑷ ,,,y x t n t t t =++=αβμ12 ⑸ y x t n t t =+= ,,,αβ12 ⑹ ,,,y x t n t t=+=αβ12 ⑺ y x t n t t t =++= ,,,αβμ12 ⑻ ,,,y x t n t t t=++=αβμ12 其中带“^”者表示“估计值”。
例5.对于过原点回归模型i i i u X Y +=1β ,试证明∑=∧221)(iu X Var σβ例6、对没有截距项的一元回归模型i i i X Y μβ+=1称之为过原点回归(regression through the origin )。
第二章 一元线性回归模型典型例题分析
例1、令kids 表示一名妇女生育孩子的数目,educ 表示该妇女接受过教育的年数。
生育率对教育年数的简单回归模型为
μββ++=educ kids 10
(1)随机扰动项μ包含什么样的因素?它们可能与教育水平相关吗?
(2)上述简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释。
例2.已知回归模型μβα++=N E ,式中E 为某类公司一名新员工的起始薪金(元),N 为所受教育水平(年)。
随机扰动项μ的分布未知,其他所有假设都满足。
如果被解释变量新员工起始薪金的计量单位由元改为100元,估计的截距项与斜率项有无变化?如果解释变量所受教育水平的度量单位由年改为月,估计的截距项与斜率项有无变化?
例3.对于人均存款与人均收入之间的关系式t t t Y S μβα++=使用美国36年的年度数据得如下估计模型,括号内为标准差:
)
011.0()
105.151(067.0105.384ˆt
t Y S +=
2R =0.538 023.199ˆ=σ
(1)β的经济解释是什么?
(2)α和β的符号是什么?为什么?实际的符号与你的直觉一致吗?如果有冲突的话,你可以给出可能的原因吗?
(3)对于拟合优度你有什么看法吗? (4)检验统计值?
例4.下列方程哪些是正确的?哪些是错误的?为什么?
⑴ y x t n t t =+=αβ12,,, ⑵ y x t n t t t =++=αβμ12,,,
⑶ y x t n t t t
=++= ,,,αβμ12
⑷ ,,,y x t n t t t =++=αβμ12 ⑸ y x t n t t =+= ,,,αβ12 ⑹ ,,,y x t n t t =+=αβ12
⑺ y x t n t t t =++= ,,,αβμ12 ⑻ ,,,y x t n t t
t =++=αβμ12
其中带“^”者表示“估计值”。
例5.对于过原点回归模型i i i u X Y +=1β ,试证明
∑=
∧
22
1)(i
u X
Var σβ
例6、对没有截距项的一元回归模型
i i i X Y μβ+=1
称之为过原点回归(regression through the origin )。
试证明
(1)如果通过相应的样本回归模型可得到通常的正规方程组
∑∑==0
0i
i
i X e e
则可以得到1β的两个不同的估计值: X Y =1~β, ()()∑∑=2
1
ˆi
i
i X Y X β。
(2)在基本假设0)(i =μE 下,1~
β与1
ˆβ均为无偏估计量。
(3)拟合线X Y 1ˆˆβ=通常不会经过均值点),(Y X ,但拟合线X Y 1~~β=则相反。
(4)只有1ˆβ是1
β的OLS 估计量。
解:
(1)由第一个正规方程
0=∑t
e
得
0)~(1=-∑t t X Y β 或
∑∑=t t X Y 1~β
求解得 X Y /~
1=β 由第2个下规方程
0)ˆ(1=-∑t
t
t
X Y
X β得
∑∑=21ˆt t
t
X Y
X β
求解得 )/()(ˆ2
1
∑∑=t
t
t X
Y X β
(2)对于X Y /~
1=β,求期望
1
1111)](){[1
)]
(1[1)()~
(ββμβμββ==+=+==X
X
E n X E X X n
E X X Y E E t t t t 这里用到了t X 的非随机性。
对于)/()(ˆ2
1
∑∑=t
t
t X
Y X β,求期望
)/()ˆ(21
∑∑=t t t X Y X E E β
122
12122)()1()()1()]([)1
()()1(
βμβμβ=+=+==∑∑∑∑∑∑∑∑t t t
t t t t t t
t t t E X X X X X X E X Y X E X
(3)要想拟合值X Y 1ˆˆβ=通过点),(Y X ,X 1ˆβ必须等于Y 。
但X X
Y
X X t
t
t ∑∑=21ˆβ,
通常不等于Y 。
这就意味着点),(Y X 不太可能位于直线X Y 1
ˆˆβ=上。
相反地,由于Y X =1~β,所以直线X Y 1
~
ˆβ=经过点),(Y X 。
(4)OLS 方法要求残差平方和最小
Min ∑∑-==
212)ˆ(t
t t
X Y e
RSS β 关于1
ˆβ求偏导得
0))(ˆ(2ˆ11
=--=∂∂∑t
t t X X Y RSS ββ
即
0)ˆ(1=-∑t
t
t
X Y
X β
()()∑∑=2
1
ˆi
i i X Y X β
可见1
ˆβ是OLS 估计量。