一元线性回归分析案例
- 格式:ppt
- 大小:626.00 KB
- 文档页数:37
第二章 一元线性回归模型典型例题分析例1、令kids 表示一名妇女生育孩子的数目,educ 表示该妇女接受过教育的年数.生育率对教育年数的简单回归模型为μββ++=educ kids 10(1)随机扰动项μ包含什么样的因素?它们可能与教育水平相关吗?(2)上述简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释.例2.已知回归模型μβα++=N E ,式中E 为某类公司一名新员工的起始薪金(元),N 为所受教育水平(年).随机扰动项μ的分布未知,其他所有假设都满足。
如果被解释变量新员工起始薪金的计量单位由元改为100元,估计的截距项与斜率项有无变化?如果解释变量所受教育水平的度量单位由年改为月,估计的截距项与斜率项有无变化?例3.对于人均存款与人均收入之间的关系式t t t Y S μβα++=使用美国36年的年度数据得如下估计模型,括号内为标准差:)011.0()105.151(067.0105.384ˆtt Y S +=2R =0.538 023.199ˆ=σ(1)β的经济解释是什么?(2)α和β的符号是什么?为什么?实际的符号与你的直觉一致吗?如果有冲突的话,你可以给出可能的原因吗?(3)对于拟合优度你有什么看法吗? (4)检验统计值?例4.下列方程哪些是正确的?哪些是错误的?为什么?⑴ y x t n t t =+=αβ12,,, ⑵ y x t n t t t =++=αβμ12,,,⑶ y x t n t t t=++= ,,,αβμ12⑷ ,,,y x t n t t t =++=αβμ12 ⑸ y x t n t t =+= ,,,αβ12 ⑹ ,,,y x t n t t =+=αβ12⑺ y x t n t t t =++= ,,,αβμ12 ⑻ ,,,y x t n t tt =++=αβμ12其中带“^”者表示“估计值”.例5.对于过原点回归模型i i i u X Y +=1β ,试证明∑=∧221)(iu XVar σβ例6、对没有截距项的一元回归模型i i i X Y μβ+=1称之为过原点回归(regression through the origin )。
SPSS一元线性回归分析例题(体检数据中的体重和肺活量的分析)某单位对12名女工进行体检,体检项目包括体重(kg)和肺活量(L),数据如下:X(体重:kg) 42.00 42.00 46.00 46.00 46.00 50.0050.00 50.00 52.00 52.00 58.00 58.00Y(肺活量:L) 2.55 2.20 2.75 2.40 2.80 2.813.41 3.10 3.46 2.85 3.50 3.00用x表示体重,y表示肺活量,建立数据文件。
利用一元线性回归分析描述其关系。
基本操作提示:Step 1 建立数据文件,并打开该数据文件。
Step 2 选择菜单Analyz e→Regressio n→Linear,打开主对话框。
在“Dependent”(因变量)列表框中选择变量“肺活量”,作为线性回归分析的被解释变量;在“Independent”(自变量)列表框中选择变量“体重”,作为解释变量。
Step 3 单击“Statistics”按钮,在打开的对话框中,依次选择“Estimates”(显示回归系数的估计值)、“Confidence intervals”、“Model fit”(模型拟合)、“Descriptives”、“Casewise diagnostic”(个案诊断)和“All Cases”选项。
选择完毕后,单击“Continue”按钮,返回主对话框。
Step 4 单击“Plots”(图形)按钮,在打开的主对话框中,选择“DEPENDENT”(因变量)作为y轴变量,“*ZPRED”(标准化预测值)作为x轴变量;并在“Standardized Residual Plots”(标准化残差图)中选择“Histogram”(直方图)和“Normal probabilityplot”(正态概率图,即P-P图)选项。
选择完毕后,单击“Continue”按钮,返回主对话框。
Step 5 单击“Save”(保存)按钮,在打开的主对话框中,在“Predicted Values”(预测值)选项区域中选择“Unstandardized”和“S. E. ofmean predictions”(预测值均数的标准误差)选项;“PredictionIntervals”(预测区间)选项区域中选择“Mean”和“Individual”选项;“Residuals”(残差)选项区域中选择“Unstandardized”选项。
8.5一元线性回归案例一、教学内容与教学对象分析学生将在必修课程学习统计的基础上,通过对典型案例的讨论,了解和使用一些常用的统计方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。
二、学习目标1、知识与技能通过本节的学习,了解回归分析的基本思想,会对两个变量进行回归分析,明确建立回归模型的基本步骤,并对具体问题进行回归分析,解决实际应用问题。
2、过程与方法 本节的学习,应该让学生通过实际问题去理解回归分析的必要性,明确回归分析的基本思想,从散点图中点的分布上我们发现直接求回归直线方程存在明显的不足,从中引导学生去发现解决问题的新思路—进行回归分析,进而介绍残差分析的方法和利用R 的平方来表示解释变量对于预报变量变化的贡献率,从中选择较为合理的回归方程,最后是建立回归模型基本步骤。
3、情感、态度与价值观 通过本节课的学习,首先让显示了解回归分析的必要性和回归分析的基本思想,明确回归分析的基本方法和基本步骤,培养我们利用整体的观点和互相联系的观点,来分析问题,进一步加强数学的应用意识,培养学生学好数学、用好数学的信心。
加强与现实生活的联系,以科学的态度评价两个变量的相关系。
教学中适当地增加学生合作与交流的机会,多从实际生活中找出例子,使学生在学习的同时。
体会与他人合作的重要性,理解处理问题的方法与结论的联系,形成实事求是的严谨的治学态度和锲而不舍的求学精神。
培养学生运用所学知识,解决实际问题的能力。
三、教学重点、难点教学重点:熟练掌握回归分析的步骤;各相关指数、建立回归模型的步骤;通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法。
教学难点:求回归系数 a , b ;相关指数的计算、残差分析;了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较。
四、教学策略: 教学方法:诱思探究教学法学习方法:自主探究、观察发现、合作交流、归纳总结。
一元线性回归模型案例一元线性回归模型是统计学中最基本、应用最广泛的一种回归分析方法,可以用来探究自变量与因变量之间的线性关系。
一元线性回归模型的数学公式为:y = β0 + β1x,其中y表示因变量,x表示自变量,β0和β1分别为截距和斜率。
下面以一个实际案例来说明一元线性回归模型的应用。
假设我们有一组数据,其中x表示一个房屋的面积,y表示该房屋的售价,我们想利用一元线性回归模型来预测房屋的售价。
首先,我们需要收集一组已知数据,包括房屋的面积和售价。
假设我们收集了10个不同房屋的面积和售价数据,如下所示:房屋面积(x)(平方米)售价(y)(万元)80 12090 130100 140110 150120 160130 170140 180150 190160 200170 210我们可以根据这组数据绘制散点图,横坐标表示房屋面积x,纵坐标表示售价y,如下所示:(插入散点图)接下来,我们可以利用最小二乘法来拟合一条直线,使其能够最好地拟合这些散点。
最小二乘法是一种最小化误差平方和的方法,可以得到最优的拟合直线。
根据一元线性回归模型的公式,可以通过计算拟合直线的斜率β1和截距β0来实现最小二乘法。
其中,斜率β1可以通过下式计算得到:β1 = n∑(xiyi) - (∑xi)(∑yi)n∑(xi^2) - (∑xi)^2截距β0可以通过下式计算得到:β0 = (1/n)∑yi - β1(1/n)∑xi通过带入已知数据,我们可以计算得到斜率β1和截距β0的具体值。
在本例中,计算结果如下:β1 ≈ 1.0667β0 ≈ 108.6667最后,利用得到的斜率β1和截距β0,我们可以得到一元线性回归模型的具体公式为:y ≈ 108.6667 + 1.0667x我们可以利用这个回归模型进行预测。
例如,如果有一个房屋的面积为130平方米,那么根据回归模型,可以预测该房屋的售价为170 + 108.6667 ≈ 278.6667万元。
经济计量学作业(案例一):(2010.09.)
表1 1994-2006年广东财政收入和GDP增长比较(单位:亿元)
要求:
(1)作图说明广东省财政总收入与GDP,地方财政收入和GDP之间的关系;(2)若为线性关系,则以财政总收入(或地方财政收入)为被解释变量,以GDP 总量为解释变量,建立计量经济模型;
(3)解释回归参数b
的经济意义;
1
(4)对模型进行经济意义、t检验、拟合良度(R2)检验。
2.Y=205
3.628+
4.505594X1(其中,因为GDP,X1为财政总收入) (3)参数b1表示财政总收入每增加一单位,GDP增加4.505594单位。
(4)经济意义检验:财政总收入与GDP成正比关系,因此b1为正数,截距项2053.628表示除去财政总收入的综合影响。
T检验:参数t值为4.116291,在自由度为11,显著性为5%的情况下,临界值为2.201,可见,它是显著的。
(R2)检验:0.981951可决系数大,拟合度良好。
8.2 一元线性回归模型及其应用(精讲)考点一 样本中心解小题【例1】(2021·江西赣州市)某产品在某零售摊位上的零售价x (元)与每天的销售量y (个)统计如下表:据上表可得回归直线方程为 6.4151y x =-+,则上表中的m 的值为( ) A .38B .39C .40D .41【答案】D 【解析】由题意1617181917.54x +++==,50343111544m my ++++==,所以115 6.417.51514m+=-⨯+,解得41m =.故选:D . 【一隅三反】1.(2021·江西景德镇市·景德镇一中)随机变量x 与y 的数据如表中所列,其中缺少了一个数值,已知y关于x 的线性回归方程为ˆ0.93yx =+,则缺少的数值为( )A .6B .6.6C .7.5D .8【答案】A【解析】设缺少的数值为m ,由于回归方程为ˆ0.93yx =+过样本中心点(),x y , 且2345645x ++++==,代入0.943 6.6y =⨯+=,所以5679 6.65my ++++==,解得6m =.故选:A.2.(2021·河南信阳市)根据如下样本数据:得到的回归方程为y bx a =+,则( ) A .0a >,0b > B .0a >,ˆ0b < C .0a <,0b > D .0a <,ˆ0b< 【答案】B【解析】由图表中的数据可得,变量y 随着x 的增大而减小,则ˆ0b<, 2345645x ++++==,4 2.50.5230.25y +---==,又回归方程y bx a =+经过点(4,0.2),可得0a >,故选:B .3.(2021·安徽六安市·六安一中)蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率x(每分钟鸣叫的次数)与气温y (单位:C )存在着较强的线性相关关系.某地观测人员根据下表的观测数据,建立了y 关于x 的线性回归方程0.25y x k =+.则当蟋蟀每分钟鸣叫62次时,该地当时的气温预报值为( ) A .33C B .34CC .35CD .35.5C【答案】D【解析】由表格中的数据可得2030405060405x ++++==,2527.52932.536305y ++++==,由于回归直线过样本中心点(),x y ,可得300.2540k =⨯+,解得20k =.所以,回归直线方程为0.2520y x =+.在回归直线方程中,令62x =,可得0.25622035.5y =⨯+=.故选:D.考点二一元线性方程【例2】(2021·兴义市第二高级中学)在2010年春节期间,某市物价部门,对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x 元和销售量y 件之间的一组数据如下表所示: 通过分析,发现销售量y 对商品的价格x 具有线性相关关系,求 (1)销售量y 对商品的价格x 的回归直线方程; (2)若使销售量为12,则价格应定为多少.附:在回归直线ˆˆy bxa =+中1221ˆni ii nii x y nxyb xnx ==-=-∑∑,ˆˆay bx =- 【答案】(1) 3.240y x =-+ (2) 8.75 【解析】(1)由题意知10x =,8y =,∴999580635551083.28190.25100110.25121ˆ5100b++++-⨯⨯==-++++-⨯,8(3.2)1040a =--⨯=,∴线性回归方程是 3.240y x =-+;(2)令 3.24012y x =-+=,可得8.75x =,∴预测销售量为12件时的售价是8.75元.【一隅三反】1.(2020·河南开封市)配速是马拉松运动中常使用的一个概念,是速度的一种,是指每公里所需要的时间,相比配速,把心率控制在一个合理水平是安全理性跑马拉松的一个重要策略.图1是一个马拉松跑者的心率y (单位:次/分钟)和配速x (单位:分钟/公里)的散点图,图2是一次马拉松比赛(全程约42公里)前3000名跑者成绩(单位:分钟)的频率分布直方图.(1)由散点图看出,可用线性回归模型拟合y 与x 的关系,求y 与x 的线性回归方程;(2)该跑者如果参加本次比赛,将心率控制在160左右跑完全程,估计他跑完全程花费的时间,并估计他能获得的名次.参考公式:线性回归方程ˆˆˆybx a =+中,12()()ˆ()nii i nixx y y b xx =--=-∑∑,ˆˆay bx =- 参考数据:135y =.【答案】(1)25285x y ∧=-+;(2)210分钟,192名. 【解析】(1)由散点图中数据和参考数据得 4.55677.565x ++++==,1001091301651711355y ++++==,()()()51522222211.536(1)300(5)1(26) 1.5(35)25( 1.5)(1)01 1.5ˆiii i i x x y y bx x ==---⨯+-⨯+⨯-+⨯-+⨯-===--+-+++-∑∑,135(25)62ˆ85ˆay bx =-=--⨯=, 所以y 与x 的线性回归方程为25285x y ∧=-+. (2)将160y =代入回归方程得5x =,所以该跑者跑完马拉松全程所花的时间为425210⨯=分钟. 从马拉松比赛的频率分布直方图可知成绩好于210分钟的累积频率为()0.0008500.00242102000.064⨯+⨯-=,有6.4%的跑者成绩超过该跑者,则该跑者在本次比赛获得的名次大约是0.0643000192⨯=名.2.(2020·云南红河哈尼族彝族自治州)随着电商事业的快速发展,网络购物交易额也快速提升,特别是每年的“双十一”,天猫的交易额数目惊人.2020年天猫公司的工作人员为了迎接天猫“双十一”年度购物狂欢节,加班加点做了大量准备活动,截止2020年11月11日24时,2020年的天猫“双十一”交易额定格在3700多亿元,天猫总公司所有员工对于新的战绩皆大欢喜,同时又对2021年充满了憧憬,因此公司工作人员反思从2014年至2020年每年“双十一”总交易额(取近似值),进行分析统计如下表:(1)通过分析,发现可用线性回归模型拟合总交易额y 与年份代码t 的关系,请用相关系数加以说明; (2)利用最小二乘法建立y 关于t 的回归方程(系数精确到0.1),预测2021年天猫“双十一”的总交易额. 参考数据:71()()138.5ii i tt y y =--=∑26.7= 2.646≈;参考公式:相关系数()()niit t y y r --=∑;回归方程y bt a ∧∧∧=+中,斜率和截距的最小二乘估计公式分别为:()()()711722211niii ii i niii i tty y t y nx yb tttnx∧====---==--∑∑∑∑,=a y bt ∧∧-.【答案】(1)答案见解析;(2)回归方程为ˆ 4.9 1.2yt =-,预测2021年天猫“双十一”的总交易额约为38百亿.【解析】(1)4t =,721()28ii tt =-=∑,17()()138.5i ii t t yy =--=∑26.7=所以()()138.50.982 2.64626.7niit t y y r --=≈≈⨯⨯∑因为总交易额y 与年份代码t 的相关系数近似为0.98, 说明总交易额y 与年份代码t 的线性相关性很强,从而可用线性回归模型拟合总交易额y 与年份代码t 的关系. (2)因为18.4y =,721()28ii tt =-=∑,所以()()71271()138.5ˆ 4.928i ii i i t t yy bt t ==--==≈-∑∑, ˆˆay b =-,18.4 4.94 1.2b ≈-⨯=- 所以y 关于t 的回归方程为ˆ 4.9 1.2yt =- 又将2021年对应的8t =代入回归方程得:ˆ 4.98 1.238y=⨯-=. 所以预测2021年天猫“双十一”的总交易额约为38百亿.3.(2021·湖北省武昌实验中学高二期末)根据统计,某蔬菜基地西红柿亩产量的增加量y (百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图,如图所示.(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明(若0.75r>,则线性相关程度很高,可用线性回归模型拟合);(2)求y关于x的回归方程,并预测当液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为多少?附:相关系数公式()()n ni i i ix x y y x y nx y r---==∑∑0.55≈0.95≈.回归方程y bx a=+中斜率和截距的最小二乘估计公式分别为()()()1122211n ni i i ii in ni ii ix x y y x y nx ybx x x nx====---==--∑∑∑∑,a y xb=-.【答案】(1)0.95;答案见解析;(2)0.3 2.5y x=+;610千克.【解析】(1)由已知数据可得2456855x++++==,3444545y++++==,所以()()()()()5131100010316i iix x y y=--=-⨯-+-⨯+⨯+⨯+⨯=∑,====所以相关系数()()50.95iix x y y r --===≈∑.因为0.75r >,所以可用线性回归模型拟合y 与x 的关系.(2)()()()5152160.320iii ii x x y y b x x ==--===-∑∑,450.3 2.5a =-⨯=, 所以回归方程为0.3 2.5y x =+. 当12x =时,0.312 2.5 6.1y =⨯+=,即当液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为610千克.考点三 非一元线性方程【例3】(2020·全国高二课时练习)在一次抽样调查中测得5个样本点,得到下表及散点图.(1)根据散点图判断y a bx =+与1y c k x -=+⋅哪一个适宜作为y 关于x 的回归方程;(给出判断即可,不必说明理由)(2)根据(1)的判断结果试建立y 与x 的回归方程;(计算结果保留整数) (3)在(2)的条件下,设=+z y x 且[)4,x ∈+∞,试求z 的最小值.参考公式:回归方程ˆˆˆybx a =+中,()()()1122211ˆn niii ii i nniii i x x y y x y nx yb x x xnx====---==--∑∑∑∑,a y bx =-.【答案】(1)1y c k x -=+⋅;(2)41y x=+;(3)6. 【解析】(1)由题中散点图可以判断,1y c k x -=+⋅适宜作为y 关于x 的回归方程; (2)令1t x -=,则y c kt =+,原数据变为由表可知y 与t 近似具有线性相关关系,计算得4210.50.251.555t ++++==,16125217.25y ++++==,222222416212150.520.2515 1.557.238.4544210.50.255 1.559.3k ⨯+⨯+⨯+⨯+⨯-⨯⨯==≈++++-⨯,所以,7.24 1.551c y kt =-=-⨯=,则41y t =+. 所以y 关于x 的回归方程是41y x=+. (3)由(2)得41z y x x x=+=++,[)4,x ∈+∞, 任取1x 、24x ≥,且12x x >,即124x x >≥,可得()()()21121212121212124444411x x z z x x x x x x x x x x x x -⎛⎫⎛⎫⎛⎫-=++-++=-+-=-+ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭()()1212124x x x x x x --=,因为124x x >≥,则120x x ->,1216>x x ,所以,12z z >,所以,函数41z x x =++在区间[)4,+∞上单调递增,则min 44164z =++=. 【一隅三反】1.(2020·江苏省如皋中学高二月考)某种新产品投放市场一段时间后,经过调研获得了时间x (天数)与销售单价y (元)的一组数据,且做了一定的数据处理(如表),并作出了散点图(如图).表中10111,10i i i i w w w x ===∑.(1)根据散点图判断y a bx =+,与dy c x=+哪一个更适合作价格y 关于时间x 的回归方程类型?(不必说明理由)(2)根据判断结果和表中数据,建立y 关于x 的回归方程. (3)若该产品的日销售量()g x (件)与时间x 的函数关系为()()100120g x x N x-=+∈,求该产品投放市场第几天的销售额最高?最高为多少元?附:对于一组数据()()()()112233,,,,,,...,,n n u v u v u v u v ,其回归直线vuαβ=+的斜率和截距的最小二乘法估计分别为121()(),()nii i nii vv u u v u u u βαβ==--==--∑∑.【答案】(1)dy c x =+更适合作价格y 关于时间x 的回归方程;(2)120(1)y x=+;(3)第10天,最高销售额为2420元;【解析】(1)根据散点图知dy c x=+更适合作价格y 关于时间x 的回归方程类型; (2)令1w x=,则y c dw =+, 而1011021()()18.4200.92()iii ii w w yy d w w ==--===-∑∑, 37.8200.8920c y dw =-=-⨯=,即有120(1)y x=+;(3)由题意结合(2)知:日销售额为1100()()20(1)(120)f x y g x x x=⋅=+-, ∴2110015()20(1)(120)400(6)f x x x x x=+-=+-, 若1t x =,令221121()655()1020h t t t t =+-=--+, ∴110t =时,max 1121()()1020h t h ==,即10x =天,max 121()(10)400242020f x f ==⨯=元, 所以该产品投放市场第10天的销售额最高,最高销售额为2420元.2.(2021·江苏苏州市)我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额x (单位:亿元)对年盈利额y (单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额i x 和年盈利额i y 的数据.通过对比分析,建立了两个函数模型:①2y x αβ=+,②x t y e λ+=,其中α,β,λ,t 均为常数,e 为自然对数的底数.令2i i u x >,()ln 1,2,,10i i v y i ==⋅⋅⋅,经计算得如下数据:(1)请从相关系数的角度,分析哪一个模型拟合程度更好?(2)(ⅰ)根据(1)的选择及表中数据,建立y 关于x 的回归方程;(系数精确到0.01)(ⅱ)若希望2021年盈利额y 为250亿元,请预测2021年的研发资金投入额x 为多少亿元?(结果精确到0.01)附:①相关系数()()niix x y y r --=∑,回归直线ˆˆˆya bx =+中:121()()ˆ()niii nii x x yy b x x ==--=-∑∑,ˆˆay bx =- ②参考数据:ln 20.693≈,ln5 1.609≈. 【答案】(1)模型x ty eλ+=的拟合程度更好;(2)(ⅰ)0.180.56ˆx ye +=;(ⅱ)27.56.【解析】(1)设{}i u 和{}i y 的相关系数为1r ,{}i x 和{}i v 的相关系数为2r ,由题意,()()101130.8715iiu u y y r --===≈∑,()()102120.9213iix x v v r --===≈∑,则12r r <,因此从相关系数的角度,模型x ty e λ+=的拟合程度更好.(2)(ⅰ)先建立v 关于x 的线性回归方程, 由x ty eλ+=,得ln y t x λ=+,即v t x λ=+,()()()101102112ˆ65iii ii x x v v x x λ==--==-∑∑, 12ˆˆ 5.36260.5665tv x λ=-=-⨯=, 所以v 关于x 的线性回归方程为ˆ0.180.56vx =+, 所以ˆln 0.180.56yx =+,则0.180.56ˆx y e +=.(ⅱ)2021年盈利额250y =(亿元), 所以0.180.56250x e +=,则0.180.56ln 250x +=, 因为ln 2503ln5ln 23 1.6090.693 5.52=+≈⨯+=, 所以 5.520.5627.560.18x -≈≈.所以2021年的研发资金投入量约为27.56亿元.。