简单线性回归分析案例辨析及参考答案
- 格式:doc
- 大小:80.50 KB
- 文档页数:5
临床科研设计和统计分析错误辨析与释疑简单线性相关与回归分析军事医学科学院生物医学统计咨询中心胡良平一、简单线性相关与回归分析常见错误概述两个变量之间进展简单线性相关与回归分析时,常见的错误有哪些?人们在研究两个变量之间的互相关系或依赖关系时经常运用简单线性相关分析与回归分析,然而,他们经常犯这样或那样的错误,导致结论的可信度低,有时,甚至得出绝对错误的结论来。
这方面常见的错误概括起来有如下几点:其一,脱离专业知识,盲目进展简单线性相关与回归分析;其二,对资料中因“过失误差〞造成的错误视而不见,盲目进展统计计算得出违犯专业知识的结论来;其三,将数据直接录入计算机,调用统计软件快速得出计算结果,作出结论;其四,对于仅在统计学上有意义的计算结果,盲目给出专业上的“肯定结论〞,但结论经不起理论的检验;其五,对于在专业上有联络且成对出现的变量〔X,Y〕,当二者中至少有一个为非随机变量时,也进展相关分析。
二、直线相关与回归分析常见错误案例与释疑脱离专业知识盲目进展统计分析,或者无视因过失误差造成的错误,将可能得出错误的结论。
1、脱离专业知识,盲目进展直线相关与回归分析例1:某人在北京郊区调查居民被狗咬伤的情况,结果显示:各年龄组中被狗咬伤的百分率是不同的,即:年龄由小到大,被狗咬伤的百分率依次为:很小、较小、较大、很大、较大、较小、很小、较大。
原作者的一个惊人的发现是:年龄与百分率之间的相关系数r=0.9956,P<0.0001,因此拟合的直线回归方程也是有统计学意义的。
故原作者认为:在所调查的市郊,被狗咬者的年龄与被狗咬伤的百分率之间有很好的线性关系,可用此直线回归方程来预测该地任何一位居民被狗咬伤的概率,以便提醒人们外出时携带必要的防身器械,要倍加小心,尽可能减少被狗咬的时机。
对过失的辨析与释疑:这是一件多么荒唐可笑的事情啊!不会走的婴儿由大人抱在怀里,其被犬咬伤的发生率肯定很低;刚刚学会走路的小孩,通常都有大人在他们身边,因此,他们被犬咬伤的发生率比前者可能会高一点,但不会太高;只有那些整天到处乱跑,又没有很强抵御才能的3-6岁的孩子,被犬咬伤的时机最大;7-12岁的儿童,通常都有比拟强的抵御才能,因此,他们被犬咬伤的时机较前者会有所减少;依此类推,中青年被犬咬伤的发生率最低,上了年岁的老人,行动不便,他们被犬咬伤的发生率又会有所增大;而更老的体弱多病者整天呆在家中不出门,他们被犬咬伤的发生率几乎为零。
1. “团购”已经渗透到我们每个人的生活,这离不开快递行业的发展,下表是2013-2017年全国快递业务量(x 亿件:精确到0.1)及其增长速度(y %)的数据(Ⅰ)试计算2012年的快递业务量;(Ⅱ)分别将2013年,2014年,…,2017年记成年的序号t :1,2,3,4,5;现已知y 与t 具有线性相关关系,试建立y 关于t 的回归直线方程a x b yˆˆˆ+=; (Ⅲ)根据(Ⅱ)问中所建立的回归直线方程,估算2019年的快递业务量附:回归直线的斜率和截距地最小二乘法估计公式分别为:∑∑==--=ni ini ii x n xy x n yx b1221ˆ, x b y aˆˆ-=2.某水果种植户对某种水果进行网上销售,为了合理定价,现将该水果按事先拟定的价格进行试销,得到如下数据:单价元 7 8 9 11 12 13 销量120118112110108104已知销量与单价之间存在线性相关关系求y 关于x 的线性回归方程; 若在表格中的6种单价中任选3种单价作进一步分析,求销量恰在区间内的单价种数的分布列和期望.附:回归直线的斜率和截距的最小二乘法估计公式分别为:, .3. (2018年全国二卷)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5y t =-+;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5y t =+. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.4.(2014年全国二卷) 某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:年份 2007 2008 2009 2010 2011 2012 2013 年份代号t 1 2 3 4 5 6 7 人均纯收入y 2.93.33.64.44.85.25.9(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘法估计公式分别为:()()()121niii ni i t t y y b t t ∧==--=-∑∑,ˆˆay bt =-5(2019 2卷)18.11分制乒乓球比赛,每赢一球得1分,当某局打成10∶10平后,每球交换发球权,先多得2分的一方获胜,该局比赛结束.甲、乙两位同学进行单打比赛,假设甲发球时甲得分的概率为0.5,乙发球时甲得分的概率为0.4,各球的结果相互独立.在某局双方10∶10平后,甲先发球,两人又打了X 个球该局比赛结束.(1)求P(X=2);(2)求事件“X=4且甲获胜”的概率.。
线性回归方程一、考点、热点回顾一、相关关系:1、⎩⎨⎧<=1||1||r r 不确定关系:相关关系确定关系:函数关系2、相关系数:∑∑∑===-⋅---=ni ini ini iiy y x x y y x x r 12121)()())((,其中:(1)⎩⎨⎧<>负相关正相关00r r ;(2)相关性很弱;相关性很强;3.0||75.0||<>r r3、散点图:初步判断两个变量的相关关系。
二、线性回归方程:1、回归方程:a x b yˆˆˆ+= 其中2121121)())((ˆxn x yx n yx x x y yx x bn i i ni ii n i i ni ii--=---=∑∑∑∑====,x b y aˆˆ-=(代入样本点的中心) 2、残差:(1)残差图:横坐标为样本编号,纵坐标为每个编号样本对应的残差。
(2)残差图呈带状分布在横轴附近,越窄模型拟合精度越高。
(3)残差平方和∑=-ni i iyy12)ˆ(越小,模型拟合精度越高。
3、相关指数:∑∑==---=n i ini i iy yyyR 12122)()ˆ(1(1)其中:∑=-ni i iyy12)ˆ(为残差平方和;∑=-ni i y y 12)(为总偏差平方和。
(2))1,0(2∈R ,越大模型拟合精度越高。
二、典型例题+拓展训练典型例题1:在一组样本数据),,,2)(,(),,(),,(212211不全相等n n n x x x n y x y x y x ≥的散点图中,若所有样本点),2,1)(,(n i y x i i =都在直线121+-=x y 上,则样本相关系数为( ) 21.21.1.1.--D C B A典型例题2:设某大学的女生体重)(kg y 与身高)(cm x 具有线性相关关系,根据一组样本数据)2,1)(,(n i y x i i =,用最小二乘法建立的回归方程为71.8585.0ˆ-=x y ,则不正确的是( )A.y 与x 具有正的线性相关关系;B.回归直线过样本点的中心),(y xC.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg扩展2.一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转的速度而变化,下表为抽样试(1)对变量y 与x 进行相关性检验;(2)如果y 与x 有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?典型例题3.为了对x 、Y 两个变量进行统计分析,现有以下两种线性模型: 6.517.5y x =+,717y x =+,试比较哪一个模型拟合的效果更好.52211521()155110.8451000()i i i ii y y R yy ==-=-=-=-∑∑,221R =-521521()18010.821000()ii i ii yy y y ==-=-=-∑∑,84.5%>82%,所以甲选用的模型拟合效果较好.扩展1.下列说法正确的是( )(1)残差平方和越小,相关指数2R 越小,模型拟合效果越差; (2)残差平方和越大,相关指数2R 越大,模型拟合效果越好; (3)残差平方和越小,相关指数2R 越大,模型拟合效果越好; (4)残差平方和越大,相关指数2R 越小,模型拟合效果越差;A.(1)(2)B.(3)(4)C.(1)(4)D.(2)(3)扩展2.关于某设备的使用年限x (年)和所支出的维修费用y (万元)有下表所示的资料:若由资料知,y 对x 呈线性相关关系,求:(1)线性回归方程a x b yˆˆˆ+=中的回归系数b a ˆ,ˆ; (2)残差平方和与相关指数2R ,作出残差图,并对该回归模型的拟合精度作出适当判断; (3)使用年限为10年时,维修费用大约是多少?三、典型例题4.非线性回归模型:某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费和年销售量(i=1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值。
SPSS操作:简单线性回归(史上最详尽的手把手教程)1、问题与数据研究表明,运动有助于预防心脏病。
一般来说,运动越多,心脏病的患病风险越小。
其原因之一在于,运动可以降低血胆固醇浓度。
近期研究显示,一项久坐的生活指标—看电视时间,可能是罹患心脏病的预测因素。
即看电视时间越长,心脏病的患病风险越大。
研究者拟在45-65岁健康男性人群中分析胆固醇浓度与看电视时间的关系。
他们猜测可能存在正向相关,即看电视时间越长,胆固醇浓度越高。
同时,他们也希望预测胆固醇浓度,并计算看电视时间对胆固醇浓度的解释能力。
研究者收集了受试者每天看电视时间(time_tv)和胆固醇浓度(cholesterol)等变量信息,部分数据如下:2、对问题的分析研究者想判断两个变量之间的关系,同时用其中一个变量(看电视时间)预测另一个变量(胆固醇浓度),并计算其中一个变量(看电视时间)对另一个变量(胆固醇浓度)变异的解释程度。
针对这种情况,我们可以使用简单线性回归分析,但需要先满足7项假设:假设1:因变量是连续变量假设2:自变量可以被定义为连续变量假设3:因变量和自变量之间存在线性关系假设4:具有相互独立的观测值假设5:不存在显著的异常值假设6:等方差性假设7:回归残差近似正态分布那么,进行简单线性回归分析时,如何考虑和处理这7项假设呢?3、思维导图(点击图片可查看清晰大图)4、对假设的判断4.1 假设1和假设2因变量是连续变量,自变量可以被定义为连续变量。
举例来说,我们平时测量的反应时间(小时)、智力水平(IQ分数)、考试成绩(0到100分)以及体重(千克)都是连续变量。
在线性回归中,因变量(dependent variable)一般是指研究的成果、目标或者标准值;自变量(independent variable)一般被看作预测、解释或者回归变量。
假设1和假设2与研究设计有关,需要根据实际情况判断。
4.2 假设3简单线性回归要求自变量和因变量之间存在线性关系,如要求看电视时间(time_tv)和胆固醇浓度(cholesterol)存在线性关系。
第一讲线性回归案例分析参与本讲的嘉宾姓名单位职称、职务罗强江苏省苏州五中特级教师张饴慈首都师范大学数学科学学院教授张思明北大附中特级教师杨彬陕西省户县一中高级教师张红娟江苏省苏州五中高级教师主持人:各位老师大家好,在前面的课里面我们主要结合算法做了一些案例的展示和讨论,从今天的课里开始进入统计概率。
今天主要围绕回归分析,最小二乘法,线性回归方程这些内容展开我们的案例和讨论。
这里我们请来的两位点评嘉宾。
我身边的这位是江苏省苏州市五中的特级教师罗强老师,也是苏州五中的校领导。
一位是首都师范大学的数学系教授(张饴慈)老师,也是我们每次培训都能见到的数学专家。
首先问张老师,在回归分析里面老师会提到很多问题。
一个是必修也有,选修也有,他们两个的差别是什么?还有回归分析的核心思想是我们要教给学生什么是最重要的。
张老师:我想回归分析主要讨论的是相关关系,在统计里面这是一个非常有用的一件事情,可以说在统计之中运用最广的就是回归思想。
在我们必修和选修之间的区别,我们必修是通过孩子们初步认识,通过例子来认识什么是相关关系?它跟函数关系有什么不一样?简单介绍一下线性回归的方程,理解找一个线性回归的直线是有用,只是初步的思想。
在选修阶段就要详细讨论,这个方程是不是有意义?如果用我们的公式来做是不是任何问题都可以套公式来做?怎样判断是不是比较符合一个线性关系?是不是要引入相关系数的概念。
在选修里面还介绍一下非线性的回归,这是从内容定位来讲。
主持人:作为这样的把控,包括在推导过程中,很多老师在我们教材里面或者标准里面对于回归方程的结果,推导要求不要求?张老师:我们在必修里面没有要求推导,在选修里面可能用到配方来推导。
公式能得到这个数,其实是二次函数的极值等问题,它计算比较麻烦,不是在这个公式本身上下工夫,也不要求孩子背这些公式。
只是希望他们会运用这样一个东西来做这个问题。
主持人:张老师对回归分析的定位做了一些分析。
下面一起来看老师们提供的两个教学片段,一个是陕西省户县一中(杨彬)老师提供,最小二乘法的教学设计。
1.1回归分析的基本思想及其初步应用例题:1.在画两个变量的散点图时,下面哪个叙述是正确的()(A)预报变量在x轴上,解释变量在y轴上(B)解释变量在X轴上,预报变量在y轴上(0可以选择两个变量中任意一个变量在x轴上(D)可以选择两个变量中任意一个变量在y轴上解析:通常把自变量X称为解析变量,因变量y称为预报变量.选B2,若一组观测值(xi, yi) (x2, y2) ••- (x…, y n)之间满足 y-bxi+a+e;(i=l> 2. •••!!)若巳恒为0,则仁为_____________解析:e』亘为0,说明随机误差对方贡献为0.答案:1.3.假设关于某设备的使用年限x和所支出的维修费用y (万兀),有如下的统计资料:X 2 3 4 5 6y 22 38 55 65 70若由资料可知y对x呈线性相关关系试求:(1)线性回归方程;(2)估计使用年限为10年时,维修费用是多少?解:(1)列表如下:i 1 2 3 4 5X] 2 3 4 5 622 38 55 65 70时•44 114 220 325 420X; 4 9 16 25 36_ _ 5 5x = 4, y = 5,»;=9o, »,北=112.3z'=l z'=l5 ___况一5xy干旱,仃112.3-5x4x5 …c十正方= ------------- = ------------ -- = 1.23,S,厂2 90 —5x42小「- 5x<=|a = y -bx = 5-1.23x4 = 0.08线性回归方程为:y =bx + a = 1.23x + Q.QS ( 2 )当 x=10 时,y = 1.23x10 + 0.08 = 12.38 (万兀)即估计使用10年时维修费用是1238万元课后练习:1.一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7. 19x+73.93 用这个模型预测这个孩子10岁时的身高,则正确的叙述是()A.身高一定是145. 83cm;B.身高在145. 83cm以上;C.身高在145. 83cm以下;D.身I W J在 145. 83cm 左右.2.两个变量y与x的回归模型中,分别选择了 4个不同模型,它们的相关指数人2如下,其中拟合效果最好的模型是()A.模型1的相关指数人2为0. 98B.模型2的相关指数R2为。
2.3拟合优度的度量一、判断题1.当()∑-2i y y 确定时,()∑-2iy y ˆ越小,表明模型的拟合优度越好。
(F ) 2.可以证明,可决系数高意味着每个回归系数都是可信任的。
(F ) 3.可决系数的大小不受到回归模型中所包含的解释变量个数的影响。
(F ) 4.任何两个计量经济模型的都是可以比较的。
(F )5.拟合优度的值越大,说明样本回归模型对数据的拟合程度越高。
( T )6.结构分析是高就足够了,作预测分析时仅要求可决系数高还不够。
( F )7.通过的高低可以进行显著性判断。
(F )8.是非随机变量。
(F )二、单项选择题1.已知某一直线回归方程的可决系数为0.64,则解释变量与被解释变量间的线性相关系数为( B )。
A .±0.64B .±0.8C .±0.4D .±0.32 2.可决系数的取值范围是( C )。
A .≤-1B .≥1C .0≤≤1D .-1≤≤1 3.下列说法中正确的是:( D )A 如果模型的2R 很高,我们可以认为此模型的质量较好B 如果模型的2R 较低,我们可以认为此模型的质量较差C 如果某一参数不能通过显著性检验,我们应该剔除该解释变量D 如果某一参数不能通过显著性检验,我们不应该随便剔除该解释变量三、多项选择题1.反映回归直线拟合优度的指标有( ACDE )。
A .相关系数B .回归系数C .样本可决系数D .回归方程的标准差E .剩余变差(或残差平方和)2.对于样本回归直线i 01i ˆˆˆY X ββ+=,回归变差可以表示为( ABCDE )。
A .22i i i i ˆY Y -Y Y ∑∑ (-) (-) B .221ii ˆX X β∑(-) C .22iiRY Y ∑(-) D .2iiˆY Y ∑(-) E .1iiiiˆX X Y Y β∑(-()-) 3.对于样本回归直线i 01iˆˆˆY X ββ+=,ˆσ为估计标准差,下列可决系数的算式中,正确的有( ABCDE )。
线性回归案例分析【篇一:线性回归案例分析】散布图—练习总评估价某建筑公司想了解位于某街区的住宅地产的销房产 79,760售价格y与总评估价x之 98,480间的相关程度到底有多 110,655大?于是从该街区去年 96,859售出的住宅中随机抽10 94,798的总评估价和销售资料 139,850如右表 170,34110 corporatecommunication 28.05.2007 corporatecommunication 28.05.2007 相关分析案例justin tao 销售价格y美元 95,000 116,500 156,900 111,000 110,110 100,000 130,000 170,400 211,500 185,000 绘制散布图,观察其相关关系输入数据点击graph scatterplot 弹出对话框,依次对应x、y输入变量列点击ok 散布图及关系分析从散布图可以看出:总评估价值x与销售价格y存在线性正相关,相关程度较大;随x增大,y有增长趋corporatecommunication 28.05.2007 corporatecommunication 28.05.2007 计算相关系数输入数据点击stat basic statistics correlation… 弹出对话框,输入x、y变量列点击ok 散布图(相关分析)案例下面是表示某公司广告费用和销售额之间关系的资试求这家公司的广告费和销售额的相关系数广告费 (10万) 销售额 (100万) 2022 15 17 23 18 25 10 20 得出相关系数及检验p值corporatecommunication 28.05.2007 corporatecommunication 28.05.2007 0.002 0.05 (留意水准) ,广告费和销售额的相关关系是有影响的 corporatecommunication 28.05.2007 corporatecommunication 28.05.2007 回归分析案例通过下例观察回归分析和决定系数。
概率与统计专题07 回归分析常见考点考点一 线性回归典例1.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:(1)求年推销金额y 关于工作年限x 的线性回归方程;(2)若第6名推销员的工作年限为11年,试估计他的年推销金额.附:回归直线的斜率和截距的最小二乘法估计公式分别为()()()121ˆ,ni i i nii tty y ba y bt tt==--==--∑∑.【答案】(1)0.50.4y x =+;(2)5.9万元. 【解析】 【分析】(1)根据表中的数据求出x ,y ,再利用公式可求出b ,a ,从而可求出推销金额y 关于工作年限x 的线性回归方程;(2)将11x =化入回归方程中求解即可 【详解】解(1)设所求的线性回归方程为y bx a =+,1(35679)65x =++++=,1(23345) 3.45y =++++=, 所以()()()5152110ˆ0.520iii i i xxy y bx x==--===-∑∑,0.4a y bx =-=.所以年推销金额y 关于工作年限x 的线性回归方程为0.50.4y x =+. (2)当11x =时,0.50.40.5110.4 5.9y x =+=⨯+=(万元). 所以可以估计第6名推销员的年推销金额为5.9万元变式1-1.某科技公司研发了一项新产品A ,经过市场调研,对公司1月份至6月份销售量及销售单价进行统计,销售单价x (千元)和销售量y (千件)之间的一组数据如下表所示:(1)试根据1至5月份的数据,建立y 关于x 的回归直线方程;(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差不超过065.千件,则认为所得到的回归直线方程是理想的,试问(1)中所得到的回归直线方程是否理想?参考公式:回归直线方程ˆˆˆybx a =+,其中i ii 122ii 1ˆnnx y n x yb xnx==-⋅⋅=-∑∑.参考数据:5i i i 1392x y ==∑,52i i 1502.5x ==∑.【答案】(1)ˆ3240y x =-+.;(2)是.【解析】 【分析】(1)先由表中的数据求出,x y ,再利用已知的数据和公式求出,b a ,从而可求出y 关于x 的回归直线方程;(2)当8x =时,求出y 的值,再与15比较即可得结论 【详解】(1)因为()199.51010.511105x =++++=,()1111086585y =++++=,所以23925108ˆ 3.2502.5510b-⨯⨯==--⨯,得()ˆ8 3.21040a=--⨯=, 于是y 关于x 的回归直线方程为 3.240ˆyx =-+; (2)当8x =时,ˆ 3.284014.4y=-⨯+=, 则ˆ14.4150.60.65yy -=-=<, 故可以认为所得到的回归直线方程是理想的.变式1-2.如图是某地2014年至2020年生活垃圾无害化处理量(单位:万吨)的折线图.注:年份代码1~7分别对应年份2014~2020.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以证明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2022年某地生活垃圾无害化处理量. 附注:参考数据:719.32i i y ==∑,7140.17i i i t y ==∑0.55= 2.646≈.参考公式:相关系数()()niit t y y r --=∑,回归方程ˆˆˆya bt =+中斜率和截距的最小二乘法估计公式分别为()()()121ˆnii i nii tty y btt==--=-∑∑,ˆˆay bt =-. 【答案】(1)存在较强的正相关关系,理由见解析(2)ˆ0.100.92yt =+,1.82万吨【解析】 【分析】(1)、结合参考数据及参考公式()()niit t y y r --∑(2)、根据参考公式求出回归直线方程,进而可以根据回归直线方程进行数据统计. (1)由折线图看出,y 与t 之间存在较强的正相关关系,理由如下:719.32ii y==∑,7140.17i i i t y ==∑0.55=,123456747t ++++++==,()()7770.993ii i itty y t ytyr ---∴==≈≈∑∑.0.9930.75>,故y 与t 之间存在较强的正相关关系.(2)由(1)结合题中数据可得()()()771177222117 2.89ˆ0.103287ii i i i i iii i tty y t y tybtttt ====---==≈≈--∑∑∑∑, ˆˆ 1.3310.10340.92ay bt =-≈-⨯≈, y ∴关于t 的回归方程ˆ0.100.92y t =+,2022年对应的t 值为9,故0.1090.9.ˆ2182y=⨯+=, 预测2022年该地生活垃圾无害化处理量为1.82万吨.变式1-3.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:根据最小二乘法公式求得经验回归方程为ˆ321518yx =-...(1)求m 的值,并利用已知的经验回归方程求出8月份对应的残差值8ˆe; (2)请先求出线性回归模型ˆ321518yx =-..的决定系数2R (精确到0.0001),若根据非线性模型267.76ln 1069.2y x =-求得解释变量(物流成本)对于响应变量(利润)的决定系数200.9057R =,请说明以上两种模型哪种模型拟合效果更好.参考公式及数据:22121ˆ()1()niii nii y yR y y ==-=--∑∑,84x =,()821904i i y y =-=∑.【答案】(1)100,7;(2)284.8R =,ˆ321518yx =-..拟合程度更好. 【解析】 【分析】(1)根据线性回归方程横过定点(,x y )可求m ,由ˆˆi i i ey y =-求得8ˆe ; (2)根据2R 的计算公式计算2R 的值,再与20R 比较大小即可得解. (1)∵ˆ321518yx =-..,84x =, ∴ 3.284151.8117y =⨯-=.则1141161061221321141321178m +++++++=⨯,解得100m =;8月份对应的残差值()8ˆ132 3.286.5151.87e=-⨯-=. (2)()()()()()82222222221ˆ0.20.6 1.831 4.61784.8i i i y y=-=+++-+-+-+-+=∑,则()()822210218ˆ84.8110.9062904iii i i y yR R y y==-==-=->-∑∑, ∴线性回归模型ˆ321518yx =-..拟合程度更好.考点二 非线性回归典例2.新冠肺炎疫情发生以来,我国某科研机构开展应急科研攻关,研制了一种新型冠状病毒疫苗,并已进入二期临床试验.根据普遍规律,志愿者接种疫苗后体内会产生抗体,人体中检测到抗体,说明有抵御病毒的能力.通过检测,用x 表示注射疫苗后的天数,y 表示人体中抗体含量水平(单位:miu/mL ,即:百万国际单位/毫升),现测得某志愿者的相关数据如下表所示.根据以上数据,绘制了散点图.(1)根据散点图判断,e dx y c =与y a bx =+(a ,b ,c ,d 均为大于0的实数)哪一个更适宜作为描述y 与x 关系的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果求出y 关于x 的回归方程,并预测该志愿者在注射疫苗后的第10天的抗体含量水平值;(3)从这位志愿者的前6天的检测数据中随机抽取4天的数据作进一步的分析,求其中的y 值大于50的天数为1的概率. 参考数据:其中ln w y =.参考公式:用最小二乘法求经过点()11,u v ,()22,u v ,()33,u v ,⋅⋅⋅,(),i i u v 的线性回归方程v bu a =+的系数公式,()()()1122211n niii i i i nniii i u u v v u v nuvb u u unu====---==--∑∑∑∑;a v bu =-.【答案】(1)e dx y c =更适合(2)0.740.90e x y +=,4023.87miu/mL (3)815【解析】 【分析】(1)根据散点图这些点的分布情况结合所学函数图象特点即可求解;(2)由(1)知该问题为变量之间的关系为非线性,先将非线性转化为线性关系,结合题目给出数据求出回归直线的相关系数,进而求出回归直线方程,在代入换 为y 关于x 的回归方程,将10x =代入方程中即可求出预报值. (3)根据古典概型的计算公式即可求解. (1)根据散点图可知这些点分布在一条曲线的附近,所以dx y ce =更适合作为描述y 与x 关系的回归方程类型. (2)设ln w y =,变换后可得ln w c dx =+,设ln p c =,建立ω关于x 的回归方程w p dx =+,()()()1621612.950.7417.50iii i i x w d xx w x ==--===-∑∑,所以 3.490.74 3.500.90p w d x =-=-⨯= 所以ω关于x 的回归方程为0.740.90w x =+,所以0.740.90e x y +=, 当10x =时,0.74100.908.3e e 4023.87y ⨯+==≈,即该志愿者在注射疫苗后的第10天的抗体含量水平值约为4023.87miu/mL. (3)由表格数据可知,第5,6天的y 值大于50,天数为1的概率314246815C C P C == 变式2-1.区块链技术被认为是继蒸汽机、电力、互联网之后,下一代颠覆性的核心技术区块链作为构造信任的机器,将可能彻底改变整个人类社会价值传递的方式,2015年至2019年五年期间,中国的区块链企业数量逐年增长,居世界前列现收集我国近5年区块链企业总数量相关数据,如表注:参考数据5174.691i i y ==∑,51312.761i i i x y ==∑,5110.980i i z ==∑,5140.457i i i x z ==∑(其中ln z y =).附:样本()(),1,2,,i i x y i n =⋅⋅⋅的最小二乘法估计公式为1221ni ii nii x y nxyb xnx==-=-∑∑,a y bx =-(1)根据表中数据判断,y a bx =+与e dx y c =(其中e 2.71828=⋅⋅⋅,为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由) (2)根据(1)的结果,求y 关于x 的回归方程;(3)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛比赛规则如下:①每场比赛有两个公司参加,并决出胜负;②每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司就获得此次信息化比赛的“优胜公司”,已知在每场比赛中,甲胜乙的概率为12,甲胜丙的概率为13,乙胜丙的概率为35,若首场由甲乙比赛,则求甲公司获得“优胜公司”的概率.【答案】(1)dx y ce = (2)0.75170.0591x y e -= (3)310【解析】 【分析】(1)根据表中数据判断y 关于x 的回归方程为非线性方程;(2)令ln z y =,将y 关于x 的非线性关系,转化为z 关于x 的线性关系,利用最小二乘法求解; (3)利用相互独立事件的概率相乘求求解; (1)根据表中数据e dx y c =适宜预测未来几年我国区块链企业总数量. (2)e dx y c =,ln ln y dx c ∴=+,令ln z y =,则ln z dx c =+,5110.980 2.19655ii zz ====∑,5112345355ii xx =++++===∑ 由公式计算可知122140.457310.980.7517,5545ni ii n i i x znxzb x nx==-⨯==--=-∑∑ˆln 2.1960.751730.0591c z dx =-=-⨯=- ln 0.75170.0591y x ∴=-,即ln 0.75170.0591y x ∴=-,即0.75170.0591x y e -=所以y 关于x 的回归方程为0.75170.0591x y e -= (3)设甲公司获得“优胜公司”为A 事件. 则11123112113232352253210()P A ⨯+⨯⨯⨯+⨯⨯⨯== 所以甲公司获得“优胜公司”的概率为310. 变式2-2.2021年11月4日,第四届中国国际进口博览会在上海开幕,共计2900多家参展商参展,420多项新产品,新技术,新服务在本届进博会上亮相.某投资公司现从中选出20种新产品进行投资.为给下一年度投资提供决策依据,需了解年研发经费对年销售额的影响,该公司甲、乙两部门分别从这20种新产品中随机地选取10种产品,每种产品被甲、乙两部门是否选中相互独立.(1)求20种新产品中产品A 被甲部门或乙部门选中的概率;(2)甲部门对选取的10种产品的年研发经费i x (单位:万元)和年销售额()1,2,,10i y i =(单位:十万元)数据作了初步处理,得到下面的散点图及一些统计量的值.根据散点图现拟定y 关于x 的回归方程为()23y b x a =-+.求a 、b 的值(结果精确到0.1);(3)甲、乙两部门同时选中了新产品A ,现用掷骰子的方式确定投资金额.若每次掷骰子点数大于2,则甲部门增加投资1万元,乙部门不增加投资;若点数小于3,则乙部门增加投资2万元,甲部门不增加投资,求两部门投资资金总和恰好为100万元的概率.附:对于一组数据()11,v u 、()22,v u 、、(),n n v u ,其回归直线u v αβ=+的斜率和截距的最小二乘估计分别为()()()121niii ni i v v u u v vβ==--=-∑∑,u v αβ=-,20162057.529877320520.5277-⨯=-⨯,2016657.51019877365 6.55567-⨯=-⨯. 【答案】(1)34; (2)0.1b =, 5.4a =;(3)100311443⎛⎫+⨯ ⎪⎝⎭.【解析】 【分析】(1)利用组合计数原理、古典概型的概率公式以及对立事件的概率公式可求得所求事件的概率; (2)令()23t x =-,计算出t 、y 的值,利用最小二乘法公式结合表格中的数据可求得a 、b 的值; (3)设投资资金总和恰好为n 万元的概率为n P ,则投资资金总和恰好为()1n +万元的概率为()1121233n n n P P P n +-=+≥,推导出数列{}1n n P P +-是首项为19,公比为13-的等比数列,利用累加法可求得100P 的值., (1)解:20种新产品中产品A 没有被甲部门和乙部门同时选中的概率1010191910102020C C 111C C 224P =⋅=⋅=,所以产品A 被甲部门或乙部门选中的概率为13144-=. (2)解:令()23t x =-,由题中数据得()10211320.510i i t x ==-=∑,10117.510i i y y ===∑,()101021132016i iii i i t y x y ===-=∑∑,()1010421138773i i i i t x ===-=∑∑,101102211020162057.5290.1877320520.527710i ii i i t y t yb t t==--⨯===≈-⨯-∑∑,297.520.5 5.4277a y bx =-=-⨯≈.(3)解:由题意知,掷骰子时甲部门增加投资1万元发生的概率为23,乙部门增加投资2万元发生的概率为13.设投资资金总和恰好为n 万元的概率为n P ,则投资资金总和恰好为()1n +万元的概率为()1121233n n n P P P n +-=+≥. 所以()()1112112333n n n n n n n P P P P P P P n +---=+-=--≥,因为123P =,212273339P =+⋅=,21721939P P -=-=, 所以数列{}1n n P P +-是首项为19,公比为13-的等比数列,所以111193n n n P P -+⎛⎫-=⨯- ⎪⎝⎭,所以()()()()10012132999810099P P P P P P P P P P =+-+-++-+-2982111111139939393⎛⎫⎛⎫⎛⎫=++⨯-+⨯-++⨯- ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭991001119323111344313⎡⎤⎛⎫⨯--⎢⎥ ⎪⎝⎭⎢⎥⎛⎫⎣⎦=+=+⨯ ⎪⎛⎫⎝⎭-- ⎪⎝⎭,所以投资资金总和恰好为100万元的概率是100311443⎛⎫+⨯ ⎪⎝⎭.变式2-3.某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y (元)与生产该产品的数量x (千件)有关,经统计得到如下数据:根据以上数据绘制了散点图观察散点图,两个变量间关系考虑用反比例函数模型b y a x=+和指数函数模型dx y ce =分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为0.19548.376x y e -=,ln y 与x 的相关系数10.929r =-.(1)用反比例函数模型求y 关于x 的回归方程;(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.001),并用其估计产量为10千件时每件产品的非原料成本;(3)根据企业长期研究表明,非原料成本y 服从正态分布()2,N μσ,用样本平均数y 作为μ的估计值μ,用样本标准差s 作为σ的估计值σ,若非原料成本y 在(,)μσμσ-+之外,说明该成本异常,并称落在(,)μσμσ-+之外的成本为异样成本,此时需寻找出现异样成本的原因.利用估计值判断上述非原料成本数据是否需要寻找出现异样成本的原因? 参考数据(其中1iu x =):参考公式:对于一组数据()()()1122,,,,,,n n x y x y x y ⋯,其回归直线ˆˆˆya bx =+的斜率和截距的最小二乘估计公式分别为:1221ˆni ii nii x ynx y bxnx==-⋅=-∑∑,ˆˆay bx =-,相关系数()()niix x y y r --=∑【答案】(1)506y x=+(2)反比例函数模型拟合效果更好,产量为10千件时每件产品的非原料成本约为11元, (3)见解析【解析】 【分析】(1)令1u x =,则b y a x=+可转化为y a bu =+,求出样本中心,回归方程的斜率,转化求回归方程即可,(2)求出y 与1x的相关系数2r ,通过比较12,r r ,可得用反比例函数模型拟合效果更好,然后将10x =代入回归方程中可求结果(3)利用已知数据求出样本标准差s ,从而可得非原料成本y 服从正态分布()223,13.9N ,再计算(,)μσμσ-+,然后各个数据是否在此范围内,从而可得结论(1)令1u x=,则b y a x=+可转化为y a bu =+, 因为184238y ==, 所以8228121893.0680.3423ˆ501.5380.348i ii ii u y u ybuu==-⋅-⨯⨯===-⨯-∑∑,所以ˆˆ23500.346ay bu =-=-⨯=,所以650y u =+, 所以y 关于x 的回归方程为506y x=+ (2)y 与1x的相关系数为()()82iiu u y y r --=∑88i iu y u y-=∑30.50.99330.705==≈ 因为12r r <,所以用反比例函数模型拟合效果更好,把10x =代入回归方程得5061110y =+=(元), 所以产量为10千件时每件产品的非原料成本约为11元 (3) 因为184238y ==,所以23μ=,因为样本标准差为13.9s ===,所以13.9σ=,所以非原料成本y 服从正态分布()223,13.9N ,所以()()(,)2313.9,2313.99.1,36.9μσμσ-+=-+=因为56.5在(,)μσμσ-+之外,所以需要此非原料成本数据寻找出现异样成本的原因巩固练习练习一 线性回归1.为实施乡村振兴,科技兴农,某村建起了田园综合体,并从省城请来专家进行技术指导.根据统计,该田园综合体西红柿亩产量的增加量y (千克)与某种液体肥料每亩使用量x (千克)之间的对应数据如下.(1)由上表数据可知,可用线性回归模型拟合y 与x 的关系,请计算相关系数r 并加以说明(若0.75r >,则线性相关程度很高,可用线性回归模型拟合);(2)求r 关于x 的回归方程,并预测当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为多少千克?附:相关系数公式()()niix x y y r --=∑ 3.16≈.回归方程y bx a =+中斜率和截距的最小二乘估计公式分别为()()()121nii i nii xx y yb xx==--=-∑∑,a y bx =-.【答案】(1)0.95,答案见解析;(2)700千克. 【解析】 【分析】(1)根据表中的数据先求出,x y ,再求()()51i i i x x y y =--∑求出相关系,再作判断即可,(2)根据线性回归方程公式求出回归方程,然后将15x =代入回归方程中可求得西红柿亩产量的增加量 【详解】解:(1)由已知数据可得2456855x ++++==,3004004004005004005y ++++==,所以()()()()()5131001000103100600i i i x x y y =--=-⨯-+-⨯+⨯+⨯+⨯=∑,====所以相关系数()()50.95iix x y y r --===≈∑.因为0.75r >,所以可用线性回归模型拟合y 与x 的关系.(2)()()()515216003020iii ii x x y y b x x ==--===-∑∑,400530250a =-⨯=, 所以回归方程为30250y x =+. 当15x =时,3015250700y =⨯+=,即当液体肥料每亩使用量为15千克时,西红柿由产量的增加量约为700千克. 2.下表是某公司从2014年至2020年某种产品的宣传费用的近似值(单位:千元)以x 为解释变量,y 为预报变量,若以11y b x a =+为回归方程,则相关指数210.9808R ≈;若以22ln y a b x =+为回归方程,则相关指数220.8457R ≈.(1)判断11y b x a =+与22ln y a b x =+,哪一个更适合作为该种产品的宣传费用的近似值y 关于年份代号x 的回归方程,并说明理由;(2)根据(1)的判断结果及表中数据,求出y 关于年份代号x 的回归方程(系数精确到0.1).参考数据:7711537.4,2334.1i i i i i y x y ====∑∑.参考公式:1221ˆˆˆ,ni ii nii x y nxybay bx xnx ==-==--∑∑. 【答案】(1)11y b x a =+更适合,理由见解析;(2)ˆ 6.650.4yx =+. 【解析】 【分析】(1)根据相关系数的绝对值越接近1,拟合效果越好即可得出答案. (2)利用最小二乘法即可求解. 【详解】(1)11y b x a =+更适合作为该种产品的宣传费用的近似值 y 关于年份代号x 的回归方程.因为20.98080.8457,R >越大,说明模型的拟合效果越好. (2)由表格中数据有123456747x ++++++==,72222222211234567140i i x==++++++=∑7172217ˆ7i ii ii x yxy bxx ==-==-∑∑537.42334.174537.47ˆ6.6, 6.6450.41401127a -⨯⨯≈=-⨯≈-,则ˆ 6.650.4yx =+. 3.某服装企业采用服装个性化设计为客户提供服务,即由客户提供身材的基本数据用于个人服装设计.该企业为了设计所用的数据更精准,随机地抽取了10位男子的身高和臂长的数据,数据如下表所示:(1)根据表中的数据,求男子的身高预报臂长的线性回归方程ˆˆˆybx a =+,并预报身高为170cm 的男子的臂长(男子臂长计算结果精确到0.01);(2)统计学认为,两个变量x 、y 的相关系数r 的大小可表明两变量间的相关性强弱.一般地,如果|r |∈[0.75,1],那么相关性很强;如果|r |∈[0.30,0.75),那么相关性一般;如果|r |∈[0,0.30),那么没有相关性.求出r 的值,并判断变量x 、y 的相关性强弱(结果精确到0.01).附:线性回归方程ˆˆˆy bx a =+其中ˆˆa y bx =-, 1.022b ∧≈,1011750i i x ==∑,101y 1730i i ==∑,()()niix x y y r --=∑101()()648i i i x x y y =--=∑715≈720≈【答案】(1) 1.02255ˆ.8y x =-;167.89cm;(2)0.91r ≈;变量,x y 间的相关性很强.【解析】 【分析】(1)根据表中的数据求出,x y,从而利用ˆˆa y bx =-可求出ˆa ,进而可得回归方程,然后当170x =时,代入回归方程可求出身高为170cm 的男子的臂长;(2)直接利用公式和已知的数据求解相关系数,再根据所给数据判断强弱 【详解】 (1)解:10117510ii xx ===∑,101y17310ii y ===∑由 1.022b ∧≈,得173 1.022ˆˆ175 5.85ay bx =-=-⨯=- 所以所求线性回归方程为 1.02255ˆ.8yx =- 当170x =时, 1.022170 5.85167.89ˆy=⨯-= 所以身高为170cm 的男性臂长约为167.89cm (2==10()()0.91iix x y y r --==≈∑因为r ∈[0.75,1],所以变量,x y 间的相关性很强.4.某汽车公司拟对“东方红”款高端汽车发动机进行科技改造,根据市场调研与模拟,得到科技改造投入x (亿元)与科技改造直接收益y (亿元)的数据统计如下:当016x <≤时,建立了y 与x 的两个回归模型:模型①: 4.111.8y x =+;模型②:21.314.4y x =;当16x >时,确定y 与x 满足的经验回归方程为:0.7y x a =-+.(1)根据下列表格中的数据,比较当016x <≤时模型①、②的相关指数2R ,并选择拟合精度更高、更可靠的模型,预测对“东方红”款汽车发动机科技改造的投入为16亿元时的直接收益.(附:刻画回归效果的相关指数()()22121ˆ1n i i i nii y yR y y ==-=--∑∑)(2)为鼓励科技创新,当科技改造的投入不少于20亿元时,国家给予公司补贴收益10亿元,以回归方程为预测依据,比较科技改造投入16亿元与20亿元时公司实际收益的大小.(附:用最小二乘法求经验回归方程ˆˆˆybx a =+的系数公式()()()1122211ˆˆˆ;n ni iiii i nniii i x y nx y x x y y bay bx xnx x x ====-⋅--===---∑∑∑∑) 【答案】(1)回归模型②刻画的拟合效果更好,70.8(亿元);(2)科技改造投入20亿元时,公司的实际收益更大. 【解析】【分析】(1)根据表中数据比较21R 和22R 可判断拟合效果,进而求出预测值;(2)求出,x y ,进而求出a ,得出回归方程,然后比较投入16亿元和20亿元时的收益即可求出结果. 【详解】由表格中的数据,有182.479.2>,即()()772211182.479.2iii i y y y y ==>--∑∑,()()772211182.479.211iit t y y y y ==∴-<---∑∑可见模型①的相关指数21R 小于模型②的相关指数22R . 说明回归模型②刻画的拟合效果更好.所以当16x =亿元时,科技改造直接收益的预测值为:ˆ21.314.470.8y ==(亿元).由已知可得:12345203,235x x ++++-==∴=,8.587.568607.6,67.65y y ++++-==∴=0.767.60.72383.7a y x ∴=+=+⨯=,∴当16x >亿元时,y 与x 满足的经验回归方程为:ˆ0.783.7yx +=-, ∴当20x 亿元时,科技改造直接收益的预测值y 0.72083.769.7=-⨯+=,∴当20x亿元时,实际收益的预测值为69.71079.7+=亿元70.8>亿元,∴科技改造投入20亿元时,公司的实际收益更大.练习二 非线性回归5.如图是某市2011年至2020年当年在售二手房均价(单位:千元/平方米)的散点图(图中年份代码1~10分别对应2011年~2020年).现根据散点图选择用y a bx =+和e c dx y +=两个模型对年份代码x 和房价y 的关系进行拟合,经过数据处理得到两个模型对应回归方程的相关指数2R 和一些统计量的值,如下表:表中ln i i w y =,101110i i w w ==∑.(1)请利用相关指数2R 判断:哪个模型的拟合效果更好;并求出该模型对应的回归方程(参数估计值精确到0.01);(2)根据(1)得到的方程预计;到哪一年,该市的当年在售二手房均价能超过10.5千元/平方米. 参考公式:对于一组数据()11,u v ,()22,u v ,…,(),n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为:()()()121ˆnii i nii uu v v uu β==--=-∑∑,ˆˆv u αβ=-.参考数据: 2.35e 10.49≈, 2.36e 10.59≈. 【答案】(1)模型e c dx y +=的拟合效果更好, 1.450.08ˆe x y+= (2)到2022年,该市的当年在售二手房均价能超过10.5千元/平方米 【解析】【分析】(1)根据相关指数的数值可知模型e c dx y +=的拟合效果更好,从而可得ln y c dx =+,利用最小二乘法即可求解.(2)由(1)将11,12x x ==代入即可求解. (1)由相关指数2R :0.90460.8821>,知模型e c dx y +=的拟合效果更好. ∵e c dx y +=,∴ln y c dx =+,令ln w y =,可知w 与x 满足线性模型回归方程ˆˆˆw c dx =+, ()11210 5.510x =++⋅⋅⋅+=, 则()()()10110216.60ˆ0.0882.5iii i i x x w w dx x ==--===-∑∑, ˆˆ 1.890.08 5.5 1.45cw dx =-=-⨯=, 所以回归方程为ˆ 1.450.08wx =+,即 1.450.08ˆe x y +=. (2)将11x =代入,可得 2.33 2.35ˆe e 10.5y=<<, 将12x =代入,可得 2.41 2.36ˆe e 10.5y=>>, 所以,根据方程预计:到2022年,该市的当年在售二手房均价能超过10.5千元/平方米. 6.某投资公司2012年至2021年每年的投资金额x (单位:万元)与年利润增量y (单位:万元)的散点图如图:该投资公司为了预测2022年投资金额为20万元时的年利润增量,建立了y 关于x的两个回归模型;模型①:由最小二乘公式可求得y 与x 的线性回归方程: 2.5020ˆ.5y x =-;模型②:由图中样本点的分布,可以认为样本点集中在由线:ln y b x a =+的附近,对投资金额x 做换元,令ln t x =,则y b t a =⋅+,且有101010102111122.00,230,569.00,50.92i i i i i i i i i t y t y t ========∑∑∑∑,(1)根据所给的统计量,求模型②中y 关于x 的回归方程;(2)分别利用这两个回归模型,预测投资金额为20万元时的年利润增量(结果保留两位小数);附:样本()()1,1,2,,i t y i n =⋯的最小乘估计公式为()()()121ˆˆˆ,nii i ni i tty y bay bt t t ==--==--∑∑;参考数据:ln20.6931,ln5 1.6094≈≈.【答案】(1)25l 32ˆn yx =- (2)模型①的年利润增量的预测值为47.50(万元),模型②的年利润增量的预测值为42.89(万元) 【解析】 【分析】(1)结合已知数据和公式求出ˆˆ,ab 这两个系数即可得回归方程; (2)把20x 代入模型①、②的回归方程,算出ˆy即可. (1)由题意,知10101122.00,230i i i i t y ====∑∑,可得 2.20,23t y ==,又由()()()10101110102221110569.0010 2.2023ˆ2550.9210 2.20 2.2010ii i i i i iii i tty y t y t ybtttt ====---⋅-⨯⨯====-⨯⨯--∑∑∑∑,则23252ˆ.2032ˆay bt =-=-⨯=- 所以,模型②中y 关于x 的回归方程25l 32ˆn yx =-. (2) 当20x 时,模型①的年利润增量的预测值为 2.5020 2.5047.5ˆ0y =⨯-=(万元),当20x时,模型②的年利润增量的预测值为()()ˆ25ln2032252ln2ln5322520.6931 1.60943242.89(y=⨯-=⨯+-≈⨯⨯+-=万元) 7.近年来,由于耕地面积的紧张,化肥的施用量呈增加趋势.一方面,化肥的施用对粮食增产增收起到了关键作用,另一方面,也成为环境污染、空气污染、土壤污染的重要来源之一如何合理地施用化肥,使其最大程度地促进粮食增产,减少对周围环境的污染成为需要解决的重要问题研究粮食产量与化肥施用量的关系,成为解决上述问题的前提某研究团队收集了10组化肥施用量和粮食亩产量的数据并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值化肥施用量为x (单位:公斤),粮食亩产量为y (单位:百公斤).参考数据:表中ln ,ln (1,2,,10)i i i i t x z y i ===.(1)根据散点图判断,y a bx =+与d y cx =,哪一个适宜作为粮食亩产量y 关于化肥施用量x 的回归方程类型(给出判断即可,不必说明理由);(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)根据(2)的回归方程,并预测化肥施用量为27公斤时,粮食亩产量y 的值;附:①对于一组数据(),(1,2,3,,)i i u v i n =,其回归直线ˆˆˆvu βα=+的斜率和截距的最小二乘估计分别为1221,ˆˆˆni i i ni i u v nuvav u unu ββ==-==--∑∑;②取 2.7e ≈.【答案】(1)d y cx =更适合作为y 关于x 的回归方程类型; (2)13y ex =; (3)810公斤. 【解析】 【分析】(1)根据散点图即可判断,d y cx =更适合作为y 关于x 的回归方程类型;(2)对d y cx =两边取对数,得ln ln ln y c d x =+,即ln z c dt =+,根据表中数据求出 1.5t z ==,再根据最小二乘法求出d 和c 的值,从而得出y 关于x 的回归方程; (3)由(2)得13y ex =,当27x =时,即可预测粮食亩产量y 的值. (1)解:根据散点图可判断,d y cx =更适合作为y 关于x 的回归方程类型. (2)解:对d y cx =两边取对数,得ln ln ln y c d x =+,即ln z c dt =+,由表中数据得:101115 1.51010i i t t ====∑,1011151.51010i i z z ====∑,101102211030.510 1.5 1.5146.510 1.5 1.5310i i i i i t z tzd tt ==--⨯⨯===-⨯⨯-∑∑,1ln 1.5 1.513c z dt =-=-⨯=,所以c e =,所以y 关于x 的回归方程为13y ex =. (3)解:由(2)得13y ex =,当27x =时,1327 2.738.1y e =⨯=⨯=,所以当化肥施用量为27公斤时,粮食亩产量约为810公斤. 8.某保险公司根据官方公布的历年营业收入,制成表格如下: 表1由表1,得到下面的散点图:根据已有的函数知识,某同学选用二次函数模型2y bx a =+(b 和a 是待定参数)来拟合y 和x 的关系.这时,可以对年份序号做变换,即令2t x =,得y bt a =+,由表1可得变换后的数据见表2.表2 (1)根据表中数据,建立y 关于t 的回归方程(系数精确到个位数);(2)根据(1)中得到的回归方程估计2021年的营业收入,以及营业收入首次超过4000亿元的年份.附:对于一组数据()()()1122,,,,,,n n u v u v uv ,其回归直线ˆˆv u βα=+的斜率和截距的最小二乘估计分别为()()()121ˆ nii i nii uu v vuuβ==--=-∑∑,ˆˆv u αβ=-. 参考数据:()()()10102451138.5,703.45, 1.05110, 2.32710i i i i i t y t t t t y y ===≈-≈⨯--≈⨯∑∑.【答案】(1)ˆ22144y t =-;(2)估计2021年的营业收入约为2518亿元,估计营业收入首次超过4000亿元的年份为2024年. 【解析】 【分析】(1)根据ˆ,ba 的公式,将题干中的数据代入,即得解;(2)代入121t =,可估计2021年的营业收入;令221444000t ->,可求解t 的范围,继而得到x 的范围,即得解 【详解】(1)()()()1051104212.32710ˆ221.05110iii i i t t y y bt t ==--⨯==≈⨯-∑∑, 703.452238.5144ˆˆay bt =-=-⨯≈-, 故回归方程为ˆ22144yt =-. (2)2021年对应的t 的值为121,营业收入ˆ221211442518y=⨯-=, 所以估计2021年的营业收入约为2518亿元. 依题意有221444000t ->,解得188.4t >,故2188.4x >.因为1314<<,所以估计营业收入首次超过4000亿元的年份序号为14,即2024年.。
1■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■ «»■■■■■■■.■■■■■■■■■■■■■■■■■■■Z 貫44 豎呦88£1?600Z线性回归分为一元线性回归和多元线性回归。
一元线性回归的模型为Y=/?O+0】X+£,这里X是自变量,Y是因变量,£是随机误差项。
通常假设随机谋差的均值为0,方差为(,>0),,与X的值无关。
若进一步假设随机谋差服从正态分布,就叫做正态线性模型。
一般情况,设有k个自变量和一个因变量,因变量的值可以分解为两部分:一部分是山于自变量的影响,即表示为自变量的函数,其中函数形式已知,但含有一些未知参数:另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。
当函数形式为未知参数的线性函数时,称为线性回归分析模型。
如果存在多个因变量,则回归模型为:Y = 00+ 81X1 +02X2 +…+ "iXi + £。
「h于直线模型中含有随机课差项,所以回归模型反映的-直线是不确立的。
回归分析的主要冃的是要从这些不确定的克线中找出一条最能拟合原始数据信息的直线,并将其作为回归模型來描述因变量和自变量之间的关系,这条直线被称为回归方程。
通常在曰归分析中,刘£有以下最为常用的经典假设。
1、£的期望值为0.2、£对于所有的X而言具有同方差性。
3、£是服从正态分布且相互独立的随机变量。
对线性回归的讲解,本文以例题为依托展开。
在下面的例题中既有一元回归分析,乂有二元回归分析。
例题(《数据据分析方法》习题2. 4_page79)某公司管理人员为了解某化妆品在一个城市的月销量Y (单位:箱)与该城市中适合使用该化妆品的人数& (单位:千人)以及他们人均月收入屁(单位:元)之间的关系,在某个月中对15个城市作了调査,得到上述乞量的观测值如表2. 12所示。
第10章 简单线性回归分析思考与练习参考答案一、最佳选择题1.如果两样本的相关系数21r r =,样本量21n n =,那么( D )。
A. 回归系数21b b = B .回归系数12b b < C. 回归系数21b b > D .t 统计量11r b t t = E. 以上均错2.如果相关系数r =1,则一定有( C )。
A .总SS =残差SSB .残差SS =回归SSC .总SS =回归SSD .总SS >回归SS E.回归MS =残差MS3.记ρ为总体相关系数,r 为样本相关系数,b 为样本回归系数,下列( D )正确。
A .ρ=0时,r =0B .|r |>0时,b >0C .r >0时,b <0D .r <0时,b <0 E. |r |=1时,b =14.如果相关系数r =0,则一定有( D )。
A .简单线性回归的截距等于0B .简单线性回归的截距等于Y 或XC .简单线性回归的残差SS 等于0D .简单线性回归的残差SS 等于SS 总E .简单线性回归的总SS 等于05.用最小二乘法确定直线回归方程的含义是( B )。
A .各观测点距直线的纵向距离相等B .各观测点距直线的纵向距离平方和最小C .各观测点距直线的垂直距离相等D .各观测点距直线的垂直距离平方和最小E .各观测点距直线的纵向距离等于零二、思考题1.简述简单线性回归分析的基本步骤。
答:① 绘制散点图,考察是否有线性趋势及可疑的异常点;② 估计回归系数;③ 对总体回归系数或回归方程进行假设检验;④ 列出回归方程,绘制回归直线;⑤ 统计应用。
2.简述线性回归分析与线性相关的区别与联系。
答:区别:(1)资料要求上,进行直线回归分析的两变量,若X 为可精确测量和严格控制的变量,则对应于每个X 的Y 值要求服从正态分布;若X 、Y 都是随机变量,则要求X 、Y 服从双变量正态分布。
直线相关分析只适用于双变量正态分布资料。
第10章简单线性回归分析
案例辨析及参考答案
案例10-1年龄与身高预测研究。
某地调查了4~18岁男孩与女孩身高,数据见教材表10-4,试描述男孩与女孩平均身高与年龄间的关系,并预测10.5岁、16.5岁、19岁与20岁男孩与女孩的身高。
教材表10-4 某地男孩与女孩平均身高与年龄的调查数据
采用SPSS对身高与年龄进行回归分析,结果如表教材10-5和教材表10-6所示。
教材表10-5 男孩身高对年龄的简单线性回归分析结果
估计值标准误P
Constant 83.736 3 1.882 4 44.483 9 0.000 0
AGE 5.274 8 0.167 6 31.479 8 0.000 0
=990.98 =98.5%
教材表10-6 女孩身高对年龄的简单线性回归分析结果
估计值标准误P
Constant 88.432 6 3.280 0 26.961 1 0.000 0
AGE 4.534 0 0.292 0 15.529 0 0.000 0
=241.15 =94.1%
经拟合简单线性回归模型,检验结果提示回归方程具有统计学意义。
结果提示,拟合效果非常好,故可认为:
(1)男孩与女孩的平均身高随年龄线性递增,年龄每增长1岁,男孩与女孩身高分别平均增加5.27 cm与4.53 cm,男孩生长速度快于女孩的生长速度。
(2)依照回归方程预测该地男孩10.5岁、16.5岁、19岁和20岁的平均身高依次为139.1 cm、170.8 cm、184.0 cm和189.2 cm;该地女孩10.5岁、16.5岁、19岁和20岁的平均身高依次为136.0 cm、163.2 cm、174.6 cm和179.1 cm。
针对以上分析结果,请考虑:
(1)分析过程是否符合回归分析的基本规范?
(2)回归模型能反映数据的变化规律吗?
(3)拟合结果和依据回归方程而进行的预测有问题吗?
(4)男孩生长速度快于女孩的生长速度的推断是否有依据?
案例辨析未绘制散点图,盲目进行简单线性回归分析;若实际资料反映两变量之间呈现某种曲线变化趋势,用简单线性回归方程去描述其变化规律就是不妥当的。
正确做法分析策略:作散点图,选择曲线类型,合理选择模型,统计预测。
(1)作散点图(案例图10-1)。
案例图10-1 儿童身高对年龄的散点图
(a)男孩身高;(b)女孩身高
由案例图10-1可见,随着年龄的增加,身高也增加,但呈曲线变化趋势,15~16岁后,增加趋势逐渐趋于平缓。
因此适合于拟合曲线回归方程。
(2)选择曲线类型,进行统计分析,几种曲线方程拟合结果如下。
Model Summary and Parameter Estimates
Dependent Variable: 男孩身高
The independent variable is 年龄。
Dependent Variable: 女孩身高
The independent variable is 年龄。
上述曲线类型依次为线性、二次、三次多项式曲线和生长曲线,由拟合结果可知,曲线拟合效果较好,进一步得到曲线图(案例图10-1):
(3)选择合理的模型,列出回归方程。
以女孩身高二次曲线为例,方程如下:
多项式曲线:
(4)统计预测:预测19岁女孩身高为60.788+10.805×18-0.292×182=160.7,与实际趋势相符。
其他预测方法相同。
案例10-2贫血患者的血清转铁蛋白研究。
第6章例6-1中,为研究某种新药治疗贫血患者的效果,将20名贫血患者随机分成两组,一组用新药,另一组用常规药物治疗,测得血红蛋白增加量(g/L)见表6-1。
问新药与常规药治疗贫血患者后的血红蛋白增加量有无差别?
张医生用检验比较新药与常规药治疗贫血患者后的血红蛋白增加量,计算得:
=27.99,=20.21, =4.137。
王医生认为,可以作线性回归分析。
在该数据中涉及了两个变量,一是观察效应变量(连续性),即血红蛋白增加量,将之作为回归分析中的因变量;另外一个变量为处理因素(二分类变量),即影响因素,将之作为自变量,其中新药组=1,常规药组=0。
数据转换为双变量资料形式(教材表10-7),经分析得回归方程, =4.137。
教材表10-7 两种药物治疗贫血患者结果
请考虑:
(1)王医生的分析方法对不对?
(2)回归分析能代行两样本均数t检验的任务吗?
(3)通过这个案例的实践,你得到哪些启发?
案例辨析王医生的分析方法是对的;回归分析能代行两样本均数t检验的任务。
其理由如下。
正确做法两样本合并后,总例数为=20。
进行直线回归分析,结果如下:
, =0.698。
经检验,贫血患者治疗后的血红蛋白增加量与治疗有关。
正常人均数:=20.21+7.78×0=20.21
患者均数:=20.21+7.78×1=27.99
截距与两样本均数的差值相等。
分别进行回归方程的方差分析与回归系数的t检验,得F=17.112,t=4.137。
回归系数的t检验结果与两样本均数的t检验结果完全一致。
以上结果说明,t检验的结果可以转化为直线回归方程分析。
当分组因素为k个组(样本)时,可以设置为k-1个指示变量,采用第11章的多重线性回归分析,这在多因素分析中是最常采用的办法。