高中数学 3.1回归分析的基本思想及其初步应用第2课时教案 新人教版选修2-3
- 格式:doc
- 大小:2.80 MB
- 文档页数:8
人教版高中选修2-33.1 回归分析的基本思想及其初步应用课程设计一、课程设计背景和目的《人教版高中选修2》是高中阶段的一门重要课程,涉及到较为复杂的数学知识和方法,需要学生们认真学习和掌握。
其中第33章“统计学基础(一)”中的第1节“回归分析的基本思想及其初步应用”是课程内容中比较重要的一部分。
通过本节课程的学习,可以帮助学生掌握回归分析这一重要的统计学方法,建立相关的模型,进行数据预测和分析以及决策制定。
本次课程设计的目的是通过教学手段,让学生掌握回归分析的基本思想,熟悉如何建立回归模型,并能在实际问题中应用回归分析方法解决问题。
在课堂上通过实例演示,引导学生独立思考和合作探究,提高学生的实际分析问题能力,拓宽学生的视野和思维方式。
二、课程设计内容和步骤1.课程设计内容:•回归分析的基本思想•如何进行回归分析•回归分析的应用实例2.课程设计步骤:Step 1:回归分析的基本思想在本节课程中,我们将首先介绍回归分析的基本思想。
通过给出一个实例,让学生能够了解回归分析的实际应用,引导学生思考问题产生的背景和根源。
通过精心设计的问题引导,让学生自主探索回归分析的基本思想,理解回归分析的本质和研究方法。
Step 2:如何进行回归分析通过讲解回归分析的计算步骤及实例演示,让学生掌握如何建立回归模型,如何计算回归系数、残差等。
同时,要求学生能够运用回归模型进行数据分析和预测,并感受回归分析在实际问题解决中的重要作用。
Step 3:回归分析的应用实例通过实际案例演示让学生了解回归分析在社会、企业等领域的实际应用。
并引导学生思考在其它领域中,如何将回归分析方法应用到实际问题中解决。
三、教学方法和手段为了使课程更具标志性和互动性,本次课程设计采用了多种教学方法和手段:•组织以小组为单位的讨论活动,让学生通过探究问题和交流思路,提高团队协作意识和解决问题能力。
•通过多媒体、黑板演示、幻灯片等方式展示引导学生理解和掌握回归分析的基本思想和应用方法。
两个变量呈现非线性关系,求回归模型的方法一只红铃虫的产卵数y 和温度x 有关.现收集了7组观测数据列于表中:(I )试建立产卵数y 与温度x 之间的回归方程,并预测温度为28C 0时产卵个数(I I )计算所建立的模型中温度在多大程度上解释了产卵数的变化解:由散点图可知样本点并没有分布在某个带状区域内,因此不呈线性相关关系,就不能直接利用线性 回归方程来建立两变量之间的关系用二次函数221C x C y +=来刻画温度x 与产卵数y 的相关性 目前我们只学过对线性方程拟合效果的相关指数故我们需要将二次函数221C x C y +=转化为a bx y +=形式 令2x t =,则221C x C y +=可化化为a bt y +=;相关列表如下:求得y 对t 的线性回归方程为54.202367.0ˆ-=t y 将2x t =代入54.202367.0ˆ-=t y得: 54.202367.0ˆ2-=x y当28=x 时,8554.20228367.0ˆ2≈-⨯=y()()802.0ˆ17127122=---=∑∑==i i i i y y y y R 因此二次函数模型中温度解释了002.80的产卵数变化用指数函数x C e C y 43=来刻画温度x 与产卵数y 的相关性 若令y z ln =可以将x C e C y 43=转化为a bx z +=形式温度x /C 02123 25 27 293235产卵数y /个 7 11212466 115 325温度x /C 0 21 23 2527 29 32 35 温度的平方t 441 529 625 729 841 1024 1225 产卵数y /个7 11212466 115 325对x C e C y 43=两边取对数343ln ln ln ln 4C x C e C y x C +=+=令y z ln =,b C =4,a C =3ln 则有a bx z +=;相关列表如下:求得z 对x 的线性回归方程为849.3272.0ˆ-=x z将272.04=C ,849.3-3e C =代入x C e C y 43=得:849.3272.0ˆ-=x e y当28=x 时,44ˆ849.328272.0≈=-⨯e y利用计算器求得98.02=R因此二次函数模型中温度解释了0098的产卵数变化综上可得用指数模型拟合效果较好,也就是说刻画产卵数与温度的关系更接近实际情况1.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( ) A .总偏差平方和 B .残差平方和 C .回归平方和 D .相关指数R 22.回归分析中,相关指数R 2的值越大,说明残差平方和( )A .越小B .越大C .可能大也可能小D .以上都不对3.若对于变量y 与x 的10组统计数据的回归模型中,相关指数95.02=R ,又知残差平方和为53.120,那么∑=-1012)(i i y y 的值为( ) (A ) 06.241 (B )6.2410 (C )08.253 (D )8.25304.在一次抽样调查中测得样本的5个样本点,数据如下: (1)画出散点图;(2)通过作出的散点图发现,y 与x 之间的关系可用函数a xby +=拟合,试确定a b ,的值 温度x /C 021232527293235y z ln = 1.946 2.398 3.405 3.178 4.19 4.745 5.784 产卵数y /个 7 11 21 24 66 115 325 x 0.25 0.5 1 2 4 y 16 125 2 1。
2016-2017学年高中数学3.1 回归分析的基本思想及其初步应用学案新人教A版选修2-3编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2016-2017学年高中数学3.1 回归分析的基本思想及其初步应用学案新人教A版选修2-3)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2016-2017学年高中数学3.1 回归分析的基本思想及其初步应用学案新人教A版选修2-3的全部内容。
3.1 回归分析的基本思想及其初步应用1.通过对典型案例的探究,了解回归分析的基本思想、方法及其初步应用.2.会求回归直线方程,并用回归直线方程进行预报.(重点)3.了解最小二乘法的思想方法,理解回归方程与一般函数的区别与联系.(难点)[基础·初探]教材整理1 回归直线方程阅读教材P80~P82探究上面倒数第一行,完成下列问题.1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.2.回归直线方程方程错误!=错误!x+错误!是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n)的回归方程,其中错误!,错误!是待定参数,其最小二乘估计分别为:错误!其中错误!=错误!错误!i,错误!=错误!错误!i,(错误!,错误!)称为样本点的中心.1.如图3。
1.1四个散点图中,适合用线性回归模型拟合其中两个变量的是________(填序号).图3。
1.1【解析】由图易知,①③两个图中的样本点在一条直线附近,因此适合用线性回归模型拟合.【答案】①③2.若y与x之间的一组数据为则y对x【解析】由表中数据得x=错误!=2,错误!=错误!=4.因回归直线必过样本中心点(x,错误!),所以y与x的回归直线一定经过的点是(2,4).【答案】(2,4)教材整理2 线性回归分析阅读教材P82探究~P89,完成下列问题.1.线性回归模型(1)表达式错误!(2)基本概念:①a和b为模型的未知参数.②e是y与bx+a之间的误差.通常e为随机变量,称为随机误差.③x称为解释变量,y称为预报变量.2.衡量回归方程的预报精度的方法(1)残差平方和法①错误!称为相应于点(x i,y i)的残差.②残差平方和错误!越小,模型的拟合效果越好.(2)残差图法残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型的拟合精度越高.(3)利用相关指数R2刻画回归效果其计算公式为:R2=1-错误!;其几何意义:R2越接近于1,表示回归的效果越好.3.建立回归模型的基本步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).选修2-3|第三章统计案例(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).(4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.判断(正确的打“√”,错误的打“×”)(1)求线性回归方程前可以不进行相关性检验.()(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号.()(3)利用线性回归方程求出的值是准确值.()(4)变量x与y之间的回归直线方程表示x与y之间的真实关系形式.( )(5)随机误差也就是残差.( )【解析】(1)×因为如果两个变量之间不具有线性相关关系,就不用求线性回归方程了,求出的回归直线方程当然也不能很好的反映两变量间的关系.(2)√因为由残差图的方法步骤可知,该说法正确.(3)×因为利用线性回归方程求出的值为估计值,而不是真实值.(4)×因为变量x与y之间的线性回归直线方程仅表示x与y之间近似的线性关系,x 与y之间满足y=bx+a+e,其中e为随机误差.(5)×因为随机误差e是真实值y与bx之间的误差,而残差错误!=y-错误!是随机误差e的估计量.【答案】(1)×(2)√(3)×(4)×(5)×[质疑·手记]预习完成后,请将你的疑问记录,并与“小伙伴们"探讨交流:疑问1:解惑:疑问2:解惑:疑问3:解惑:[小组合作型]求线性回归方程(2016·临沂高二检测)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:x3456y 2.534 4.5(1)(2)请根据上表提供的数据,用最小二乘法求出y关于x的回归直线方程错误!=错误!x +错误!;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的回归直线方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4。
第二课时教学目标知识与技能从相关指数和残差分析角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤.过程与方法在发现直接求回归直线方程存在缺陷的基础上,引导学生去发现解决问题的新思路——进行回归分析,进而介绍残差分析的方法和利用R2来表示解释变量对于预报变量变化的贡献率.情感、态度与价值观通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,掌握处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识解决实际问题的能力.教学中适当地利用学生的合作与交流,使学生在学习的同时,体会与他人合作的重要性.重点难点教学重点:从残差分析、相关指数角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤;教学难点:了解评价回归效果的两个统计量:相关指数、残差和残差平方和.教学过程引入新课上表是上一节课我们从某大学选取8名女大学生其身高和体重数据组成的数据表,在上一节课中我们通过数据建立了回归直线方程,并根据方程预测了身高为172 cm的女大学生的体重.当时,我们提到根据回归直线方程求得的体重数据,仅是一个估计值,其与真实值之间存在着误差,为了综合分析身高和体重的关系,我们引入了线性回归模型y=bx+a+e 来表示两变量之间的关系,其中e为随机变量,又称随机误差.线性回归模型y=bx+a+e 增加了随机误差项e,因变量y的值由自变量x和随机误差e共同确定.假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有的点将完全落在回归直线上.但是,在图中,数据点并没有完全落在回归直线上.这些点散布在回归直线附近,所以一定是随机误差把这些点从回归直线上“推”开了,即自变量x只能解释部分y的变化.同学们考虑一下,随机变量e的均值是多少?方差又是多少?活动设计:学生思考回答问题.学情预测:学生回答E(e)=0,D(e)=σ2>0.教师提问:能否通过D(e)来刻画线性回归模型的拟合程度?学情预测:随机误差e的方差越小,通过回归直线预报真实值y的精度越高.随机误差是引起预报值与真实值y之间的误差的原因之一,其大小取决于随机误差的方差.设计意图:说明研究随机误差e的必要性,通过研究随机误差e可以分析预报值的可信度.提出问题:既然可以用随机变量e的方差来衡量随机误差的大小,即通过方差σ2来刻画预报变量(体重)的变化在多大程度上与随机误差有关,那么如何获得方差σ2呢?学生活动:学生独立思考,小组合作交流讨论.活动结果:可以采用抽样统计的思想,通过随机变量e的样本来估计σ2的大小.设计目的:复习抽样统计思想,以便通过随机变量e 的样本来估计总体. 探究新知提出问题:既然e 表示了除解释变量以外其他各种影响预报值的因素带来的误差,那么如何获得e 的样本来计算σ2呢?学生活动:分组合作讨论交流.学情预测:由函数模型y ^=b ^x +a ^和回归模型y =bx +a +e 可知e =y -y ^,这样根据图表中女大学生的身高求出预报值,再与真实值作差,即可求得e 的一个估计值.教师:由于在计算回归直线方程时,利用公式求得的b ^和a ^为斜率和截距的估计值,它们与真实值a 和b 之间存在误差,因此y ^是估计值,所以e ^=y -y ^也是一个估计值.由上可知,对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )而言,它们的随机误差为e i =y i -bx i -a ,i =1,2,…n ,称其估计值e ^i =y i -y ^i 为相应于点(x i ,y i )的残差.将所有残差的平方加起来,即∑i =1ne ^2i ,这个和称作残差平方和.类比样本方差估计总体方差的思想,可以用σ^2=1n -2∑i =1n e ^ 2i =1n -2∑i =1n(y i -y ^i )2(n>2) 作为σ2的估计量,通常,σ^2越小,预报精度越高.这样,当我们求得回归直线方程后,可以通过残差来判断模型拟合程度的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.设计目的:通过问题诱思,引入残差概念. 理解新知提出问题:对照女大学生的身高和体重的原始数据,结合求出的回归直线方程,求出相应的残差数据.学生活动:独立完成.样的散点图称作残差图).学生活动:分组合作,共同完成. 活动结果:残差图提出问题:观察上面的残差图,你认为哪几个样本点在采集时可能存在人为的错误?为什么?学生活动:分组讨论. 活动结果:第一个和第六个样本点在采集过程中可能存在错误,因为其他的样本点基本都集中在一个区域内,只有这两个样本点的残差比较大,相对其他样本点来说,分布得较为分散.提出问题:如何从残差图来判断模型的拟合程度? 学生活动:独立思考也可相互讨论.活动结果:因为σ^2越小,预报精度越高,即模型的拟合程度越高,而σ^2越小,e ^的取值越集中,故若残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,且带状区域的宽度越窄,说明拟合精度越高,回归直线的预报精度越高.教师:在统计学上,人们经常用相关指数R 2来刻画回归的效果,其计算公式是:R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2提出问题:分析上面计算相关指数R 2的公式,如何根据R 2来判断模型的拟合效果? 学生活动:独立思考也可相互讨论,教师加以适当的引导提示.活动结果:因为对于确定的样本数据而言,∑i =1n(y i -y )2是一个定值,故R 2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.提出问题:在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率,R 2越接近1,表示回归的效果越好,即解释变量和预报变量的线性相关性越强,试计算关于女大学生身高与体重问题中的相关指数R 2.学生活动:学生独立计算获得数据. 活动结果:R 2≈0.64.根据R 2≈0.64就可得出“女大学生的身高解释了64%的体重变化”,或者说“女大学生的体重差异有64%是由身高引起的”.由此就不难理解为什么预报体重和真实值之间有差距了.设计目的:结合图象,让学生直观感受残差图在刻画回归模型拟合效果方面的应用,体会残差分析和相关指数的意义.提出问题:根据前面得到的回归方程,能否预测一名美国女大学生的体重?建立回归模型后能否一劳永逸,在若干年后还可以使用,或者适用于多年以前的女大学生体重预测?学生活动:讨论交流总结发言.活动结果:在使用回归方程进行预报时要注意: (1)回归方程只适用于我们所研究的样本的总体; (2)我们建立的回归方程一般都有时间性;(3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值.提出问题:结合我们刚学习的概念,现在能否将建立回归模型的步骤补充完整? 学生活动:讨论交流,合作完成.活动结果:一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程). (4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,或残差呈现不随机的规律性,等等).若存在异常,则检查数据是否有误,或模型是否合适等.设计意图:设计问题,让学生讨论分析,得出使用回归方程进行预报需注意的问题,并让学生完善建立回归模型的步骤.在这个过程中,教师不宜做太多引导,要放手给学生,让学生讨论,充分参与进来.运用新知例1一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试(1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差; (2)你认为这个模型能较好地刻画零件数和加工时间的关系吗? 分析:首先根据散点图粗略判断变量是否具有线性相关性,判断是否可以用线性回归模型来拟合数据,然后通过残差e ^1,e ^2,…,e ^n 来判断模型拟合的效果,判断原始数据是否存在可疑数据.解:(1)根据表中数据作出散点图如下:散点图由散点图可知变量之间具有线性相关关系,可以通过求线性回归方程来拟合数据.根据公式可求得加工时间对零件数的线性回归方程为y ^=0.668x +54.96.残差数据如下表:残差图由图可知,残差点分布较均匀,即用上述回归模型拟合数据效果很好,但需注意,由残差图也可以看出,第4个样本点和第5个样本点残差较大,需要确认在采集这两个样本点的过程中是否有人为的错误.点评:由散点图判断两个变量的线性相关关系,误差较大,利用残差图可以较好地评价模型的拟合程度,并能发现样本点中的可疑数据.【变练演编】例2求出y 对x 的回归方程,并说明拟合效果的好坏.思路分析:先根据散点图判断两个变量是否线性相关,若相关,求出回归直线方程,然后通过相关指数的大小来评价拟合效果的好坏.解:作出散点图:从作出的散点图可以看出,这些点在一条直线附近,可用线性回归模型来拟合数据.由数据可得x =18,y =45.4,由计算公式得b ^=-2.35,a ^=y -b ^x =87.7.故y 对x 的回归方程为y ^=-2.35x +87.7,列表:所以∑i =15(y i -y ^i )2=8.3,∑i =15(y i -y )2=229.2.相关指数R 2=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2≈0.946.因为0.964很接近1,所以该模型的拟合效果很好.变式1:若要分析是否在上述样本的采集过程中存在可疑数据,应如何分析? 活动设计:学生分组讨论,回顾课本解答问题. 活动成果:可以画出残差图来进行分析.变式2:既然利用残差图和相关指数都能够评价回归模型的拟合效果,能否总结一下两种方法各自的特点?活动成果:利用残差图可以直观展示拟合的效果,而且还可以发现样本数据中的可疑数据;而相关指数是把对拟合效果的评价转换为数值大小的判断,易于量化处理,并能在数量上表现解释变量对于预报变量变化的贡献率.设计意图:进一步熟悉判断拟合效果的方法以及各自的特点. 【达标检测】1.分析下列残差图,所选用的回归模型效果最好的是()ABC D 2.下列说法正确的是( )①回归直线方程适用于一切样本和总体;②回归直线方程一般都有时间性;③样本的取值范围会影响回归直线方程的适用范围;④根据回归直线方程得到的预测值是预测变量的精确值.A .①③④B .②③C .①②D .③④3.在研究气温和热茶销售杯数的关系时,若求得相关指数R 2≈__________,表明“气温解释了85%的热茶销售杯数变化”或者说“热茶销售杯数差异有85%是由气温引起的”.答案:1.D 2.B 3.0.85.课堂小结学生回顾本节课学习的内容,尝试总结,然后不充分的地方由学生相互补充,最后在老师的引导下,用精炼的语言进行概括:1.判断变量是否线性相关的方法以及各自的特点; 2.在运用回归模型时需注意的事项; 3.建立回归模型的基本步骤. 设计意图:让学生自己小结,这是一个多维整合的过程,是一个高层次的自我认识过程. 补充练习 【基础练习】1.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.②用相关指数R 2来刻画回归的效果,R 2值越接近于1,说明模型的拟合效果越好.③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是( )A .①②B .②③C .①③D .①②③2.甲、乙、丙、丁四位同学各自对A ,B 两变量做回归分析,分别得到散点图与残差平方和∑i =1n(y i -y ^i )2如下表115106124103哪位同学的实验结果体现拟合A ,B 两变量关系的模型拟合精度高?( ) A .甲 B .乙 C .丙D .丁 3.关于x 与y 为了对x ,y 两个变量进行统计分析,现有以下两种线性模型:甲:y ^=6.6x +17.5,乙:y ^=7x +17.试比较哪一个模型拟合效果更好.答案或提示:1.D 2.D3.解析:设甲模型的相关指数为R 21,则R 21=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2=1-1551 000=0.845;设乙模型的相关指数为R 22,则可求得R 22=0.82,因为R 21>R 22,所以甲模型的拟合效果更好.【拓展练习】 4.假设某种农作物基本苗数x 与有效穗数y 之间存在相关关系,今测得5组数据如下:(1)以x 为解释变量,y 为预报变量,作出散点图;(2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗数. (3)计算各组残差;(4)求R 2,并说明随机误差对有效穗数的影响占百分之几? 解:(1)散点图如图:(2)由图可以看出,样本点呈条状分布,有比较好的线性相关关系,因此可用线性回归方程来建立两个变量之间的关系.设线性回归方程为y ^=b ^x +a ^,由数据可以求得:b ^≈0.291,a ^=y -b ^x =34.67.故所求的线性回归方程为y ^=0.291x +34.67.当x =56.7时,y ^=0.291×56.7+34.67=51.169 7. 估计有效穗数为51.169 7.(3)各组数据的残差分别是e ^1≈0.37,e ^2≈0.72,e ^3≈-0.5,e ^4≈-2.22,e ^5≈1.61. (4)残差平方和:∑i =15(y i -y ^i )2=8.425 8,又∑i =15(y i -y )2=50.18,∴R 2=1-∑i =15(y i -y ^i )2∑i =15 (y i -y )2=1-8.425 850.18≈0.832.即解释变量(农作物基本苗数)对有效穗数的影响约占了83.2%,所以随机误差对有效穗数的影响约占1-83.2%=16.8%.设计说明 本课时从上一节课的案例出发,通过分析随机误差产生的原因,引入随机变量、残差、残差平方和、相关指数的有关概念,从相关指数和残差分析等角度探讨回归模型拟合的效果,并通过案例说明利用所建立的回归模型进行预报时需要注意的问题,然后总结建立回归模型的基本步骤.在教学过程中以问题为引导思考的动机,注重对学生合作意识的培养,通过对案例的分析,培养学生对数据的处理能力,让学生初步了解回归分析思想在实际生活中的运用.备课资料有关总偏差平方和、回归平方和、残差平方和以及相关指数等概念的说明 1.总偏差平方和:SST =∑i =1n(y i -y )2,刻画了预报变量y 的变化剧烈程度.2.回归平方和:SSR =∑i =1n(y ^i -y )2,公式中所有预测值的平均值也等于y ,故1n ∑i =1n y ^ i =1n ∑i =1n (b ^x i +a ^ )=b ^ x +a ^ =b ^ x +y -b ^x =y , 因此回归平方和又可以写成.从而回归平方和刻画了估计量y ^=a ^+b ^x 的变化程度.由于估计量由解释变量x 所决定,所以,回归平方和刻画了预报变量的变化中由解释变量通过线性回归模型引起的那一部分的变化程度.3.残差平方和:SSE =∑i =1n(y i -y ^i )2,刻画了残差变量变化的程度.4.偏差平方和分解:即指公式∑i =1n(y i -y )2=∑i =1n(y ^i -y )2+∑i =1n(y i -y ^i )2,称为平方和分解公式,用文字表示为: 总偏差平方和=回归平方和+残差平方和. 公式证明如下:假设观测数据为(x i ,y i ),i =1,2,…,n ,则∑i =1n(y i -y )2=∑i =1n(y i -y ^i +y ^i -y )2=∑i =1n(y i -y )2+∑i =1n(y i -y ^i )2+2∑i =1n(y ^ i -y )(y i -y ^i ).而∑i =1n(y ^ i -y )(y i -y ^i )=∑i =1n(b ^ x i -b ^ x )(y i -a ^ -b ^x i )=∑i =1nb ^(x i -x )[]y i -a ^ -b ^x -b(x i -x )=b ^∑i =1n(x i -x )[](y i -y )-b ^(x i -x )=b ^⎣⎢⎢⎡⎦⎥⎥⎤∑i =1n (x i-x )(y i -y )-b ^ ∑i =1n (x i -x )2=0, 代入上式即可证得平方和分解公式. 这样,可以把平方和分解公式解释为:预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量引起的变化程度之和.由平方和分解公式得1=∑i =1n(y ^i -y )2∑i =1n(y i -y )2+∑i =1n(y i -y ^i )2∑i =1n(y i -y )2这意味着在线性回归模型中,预报变量的1个单位的变化,需要由解释变量贡献∑i =1n(y ^i -y )2∑i =1n(y i -y )2,由残差变量贡献∑i =1n(y i -y ^i )2∑i =1n(y i -y )2,因此在线性回归模型中,我们说预报变量y的变化中的100×∑i =1n(y ^i -y )2∑i =1n(y i -y )2%是由解释变量x 所引起的,或者说解释变量x 可以解释预报变量y 的100×∑i =1n(y ^i -y )2∑i =1n(y i -y )2%的变化.又∑i =1n(y ^i -y )2∑i =1n(y i -y )2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2=R 2,即R 2=∑i =1n(y ^i -y )2∑i =1n(y i -y )2,这说明“预报变量y 的变化中的百分之100R 2是由解释变量x 所引起的,或者说解释变量x 可以解释预报变量y 的百分之100R 2的变化.因此,R 2越大拟合效果越好,反之越小.(设计者:杨雪峰)。
人教版高中选修2-33.1回归分析的基本思想及其初步应用课程设计课程背景随着社会的不断发展,数据在我们的生活中扮演着越来越重要的角色。
而回归分析作为一种统计量分析方法,在数据分析和决策制定中具有广泛的应用。
在人教版高中选修2中,33.1回归分析作为一章内容深度的分析,是培养学生数据分析和决策制定能力的重要内容。
本文主要介绍33.1回归分析的基本思想及其初步应用,帮助学生正确认识回归分析,加深其对数据科学的理解与掌握。
课程目标1.正确理解回归分析的基本思想,掌握回归分析的基本工具和方法;2.在实际问题中运用所学回归分析的方法,对数据进行处理和分析,从而得出相关结论;3.培养学生的数据分析和决策制定能力。
课程设计课程内容第一部分:回归分析的基本思想1.回归分析的概念和基本概率模型;2.构建简单线性回归模型,理解残差和回归系数的含义;3.多元线性回归模型,理解多个自变量对因变量的影响;4.假设检验、置信区间及相关系数等统计指标的解读。
第二部分:回归分析的初步应用5.利用Excel等工具进行简单线性回归分析,并从模型中得出结论;6.运用多元线性回归模型对实际问题进行分析,并得出相应结论;7.学习和应用回归分析的实践方法。
课程形式1.由老师讲授回归分析的基础理论;2.在课程中穿插实际案例的讲解和演示;3.带领学生利用Excel等工具进行数据的回归分析,小组讨论分析结果,并总结结论。
学习建议1.独立学习课程的核心基础理论知识,理解每个概念的含义;2.建议同时进行课堂学习和课后练习,加深对于每个概念的掌握;3.在理论学习和数学公式掌握的基础上,运用实际案例进行数据分析练习。
课程评价该课程结合了回归分析的基础理论和实际应用案例,既有基础的概念和理论知识的讲解,又能够让学生在实际操作中深入了解回归分析的实际运用。
通过该课程的学习,学生能够有效地掌握回归分析的基础知识及实际应用,为今后的学习和实践打下良好的基础。
3.1回归分析的基本思想及其初步应用(共计4课时) 授课类型:新授课一、教学内容与教学对象分析学生将在必修课程学习统计的基础上,通过对典型案例的讨论,了解和使用一些常用的统计方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。
二、学习目标1、知识与技能通过本节的学习,了解回归分析的基本思想,会对两个变量进行回归分析,明确建立回归模型的基本步骤,并对具体问题进行回归分析,解决实际应用问题。
2、过程与方法 本节的学习,应该让学生通过实际问题去理解回归分析的必要性,明确回归分析的基本思想,从散点图中点的分布上我们发现直接求回归直线方程存在明显的不足,从中引导学生去发现解决问题的新思路—进行回归分析,进而介绍残差分析的方法和利用R 的平方来表示解释变量对于预报变量变化的贡献率,从中选择较为合理的回归方程,最后是建立回归模型基本步骤。
3、情感、态度与价值观 通过本节课的学习,首先让显示了解回归分析的必要性和回归分析的基本思想,明确回归分析的基本方法和基本步骤,培养我们利用整体的观点和互相联系的观点,来分析问题,进一步加强数学的应用意识,培养学生学好数学、用好数学的信心。
加强与现实生活的联系,以科学的态度评价两个变量的相关系。
教学中适当地增加学生合作与交流的机会,多从实际生活中找出例子,使学生在学习的同时。
体会与他人合作的重要性,理解处理问题的方法与结论的联系,形成实事求是的严谨的治学态度和锲而不舍的求学精神。
培养学生运用所学知识,解决实际问题的能力。
三、教学重点、难点教学重点:熟练掌握回归分析的步骤;各相关指数、建立回归模型的步骤;通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法。
教学难点:求回归系数 a , b ;相关指数的计算、残差分析;了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较。
3.1 回归分析基本思想及其初步应用第二课时一、教学目标 1.核心素养:通过学习回归分析的基本思想及其初步应用,初步形成基本的数据分析能力. 2.学习目标(1)1.1.2.1 理解相关系数概念(2)1.1.2.2 判断刻画模型拟合效果的方法—相关指数和残差分析 (3)1.1.2.3 能用回归分析的方法对简单的案例进行分析. 3.学习重点判断刻画模型拟合效果的方法—相关系数、相关指数和残差分析 4.学习难点判断刻画模型拟合效果的方法—相关系数、相关指数和残差分析 二、教学设计 (一)课前设计 1.预习任务 任务1阅读教材P 4-P 6,思考在回归分析中,分析残差能够帮助我们解决那些问题?任务2刻画模型拟合效果的方法有哪些?2.预习自测1.下列说法正确的是 ( )A.在统计学中,回归分析是检验两个分类变量是否有关系的一种统计方法B.线性回归方程对应的直线a x b yˆˆˆ+=至少经过其样本数据点1122(,),(,),,(,)n n x y x y x y L 中的一个点C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D.在回归分析中,相关指数2R 为98.0的模型比相关指数2R 为80.0的模型拟合的效果差 【知识点:回归分析】解:C A.回归分析反映两个变量相关关系的数学方法,由建立回归方程来预报变量的情况.错误;B.线性回归方程对应的直线a x b yˆˆˆ+=,过其样本数据平均数点,错误;D.相关指数2R 越大,则相关性越强,模型的拟合效果越好. 错误;C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高. 正确.2.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数2R 如下,其中拟合效果最好的模型是( ) A.模型1的相关指数2R 为0.99 B.模型2的相关指数2R 为0.88 C.模型3的相关指数2R 为0.50 D.模型4的相关指数2R 为0.20 【知识点:回归分析】解:A 由相关指数的意义知,2R 越大说明相关性越强,故选A. (二)课堂设计 1.知识回顾⑴对于一组具有线性相关关系的数据1122(,),(,),,(,)n n x y x y x y L ,1211,n n i i x x x x x n n =+++==∑L 121y y y 1y y ,nn i i n n=+++==∑L 则称点),y x (为样本点的中心. (2)线性回归方程:∧∧∧+=a x b y ,其中.1122211()()()n niii ii i nniii i x x y y x y nx yb x x xnx∧====---==--∑∑∑∑,a ∧=x b ∧-y(3)线性回归模型:y =bx +a +e 其中a 和b 为模型的未知参数,e 称为随机误差. 2.问题探究问题探究一 什么是相关系数?相关系数可以用来解释什么?●活动一 理论研究,概念学习—相关系数我们知道,两个变量x 和y 正(负)相关时,它们就有相同(反)的变化趋势,因此可以用回归直线来描述这种关系.与此相关的一个问题:如何描述x 和y 之间种线性关系的强弱?在统计中用相关系数r 来衡量两个变量之间线性关系的强弱.若相应于变量x 的取值i x ,变量y 的观测值为i y (n i ≤≤1),则两个变量的相关系数r 的计算公式为∑∑∑===----=ni ni iini iiy yx x y yx x r 11221)()())((对于相关系数r ,当为正时,表明变量x 和y 正相关,当r 为负时,表明变量x 和y 负相关. 统计学认为,对于变量x,y ,如果[]75.0,1--∈r ,那么负相关很强;如果[]1,75.0∈r ,那么正相关很强;如果(]30.0,75.0--∈r 或[)75.0,3.0∈r ,那么相关性一般;若[]25.0,25.0-∈r ,那么相关性较弱.●活动二 学以致用,相关系数的应用例1 对下列各图中两个变量间的线性相关程度作出分析【知识点:相关系数】详解:图1,r =0.97相关性很强,而且是正相关;图2,r =-0.85相关性很强,而且是负相关 图3,r =0.24,不能用线性回归模型描述两个变量的关系;图4,r =-0.05乎没有什么关系,不能用线性回归模型描述两个变量的关系.点拨:当相关系数r 越接近1时,两个变量的线性相关程度越高,当相关系数r 越接近0时,两个变量的线性相关程度越低.问题探究二 什么是残差、及残差平方和、如何用残差判断拟合效果? ●活动一 残差的定义在线性回归模型中,e 是用bx +a 报真实值y 的随机误差,它是一个不可观测的量,那么应该怎样研究随机误差呢?在实际应用中,我们用回归方程∧∧∧+=a x b y 中的∧y 估计回归模型y =bx +a +e 中的bx +a .由于随机误差e =y -(bx +a ),所以∧∧-=y y e 是e 的估计值.对于样本点1122(,),(,),,(,)n n x y x y x y L 而言,它们的随机误差为,1,2,,i i i e y bx a i n =--=L 其估计值为∧∧∧∧--=-=a x b y y y e i i i i i 1,2,,i n =L 称i e ∧是相对于点),i i y x (的残差. ●活动二 学以致用,残差的应用如何发现数据中的错误,如何衡量模型的拟合效果?通过残差可以发现原始数据中的可疑数据,判断所建立模型的拟合效果.下表是女大学生身高和体重的原始数据以及相应的残差数据.我们可以利用图形来分析残差.作图时纵坐标为残差,横坐标可以选为样本的编号或者解释变量的数值,这样作出的图形称为残差图.下表是以女大学生编号为横坐标的残差图从残差图中可以看到第1个样本点和第6个样本点的残差较大,需要确认是否出现人为的错误.残差所能说明的情况:① 样本点的残差比较大,确认采集数据时是否出现人为的错误或其他原因;②残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,带状区域的宽度越窄,模型拟合精度越高,回归方程的预报精度越高.●活动三 多角度刻画拟合效果从残差图中我们可以大致判断模型的拟合效果,能否定性分析模型的拟合效果呢? 我们可以用2R 是刻画回归效果的量,除了表示回归模型的拟合效果,也表示解释变量和预报变量的线性相关关系(在线性回归模型中).其计算公式是22121ˆ()1()ni i nii y yR y y ==-=--∑∑对于已获取的样本数据,2R 表达式中的()∑=-ni i y y 12为确定的数.因此2R 越大,说明残差平方和()21ˆni i y y=-∑越小,模型的拟合效果越好;2R 越小,说明残差平方和()21ˆni i y y =-∑越大,模型的拟合效果越差.在线性回归模型中,2R 越接近于1,回归的效果越好(因为2R 越接近于1,表示解释变量和预报变量的线性相关性越强).在线性回归模型中,2R 同时也表示解释变量对预报变量变化的贡献率.()()64.0ˆ112122≈---=∑∑==ni ini i i y yy y R ,即解释变量对预报变量变化约贡献了64%,而随机误差贡献了剩余的36%. 问题探究三●活动一 学以致用例2.某运动员训练次数与运动成绩之间的数据关系如下:根据数据分别计算相关系数、残差、相关指数2R ,判断能否用线性回归模型,若能求出回归方程并试预测该运动员训练47次以及55次的成绩,若不能说明理由. 【知识点:线性回归,线性相关关系】详解:(1)作出该运动员训练次数x 与成绩y 之间的散点图,如图1所示,由散点图可知,它们之间具有线性相关关系.(2)列表计算:由上表可求得875.40,25.39==y x ,12656812=∑=i ix ,13731812=∑=i iy ,1318081=∑=ii i yx ,所以88118822211()()8 1.0415.()iii ii i iii i x x y y x y x yb x x xx====---==≈--∑∑∑∑00302.0-≈-=x b y a ,所以回归直线方程为.00302.00415.1^-=x y(3)计算相关系数将上述数据代入0.992704r r ==,查表可知707.005.0=r ,而05.0r r >,故y 与x 之间存在显著的相关关系. (4)残差分析:作残差图如图2,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.计算残差的方差得884113.02=σ,说明预报的精度较高. (5)计算相关指数2R计算相关指数2R =0.9855.说明该运动员的成绩的差异有98.55%是由训练次数引起的. (6)做出预报由上述分析可知,我们可用回归方程.00302.00415.1^-=x y 作为该运动员成绩的预报值.将x =47和x =55分别代入该方程可得y =49和y =57, 故预测运动员训练47次和55次的成绩分别为49和57.点拨:1.解答本类题目应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R 2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析. 2.在使用回归方程进行预报时要注意:(1)回归方程只适用于我们所研究的样本的总体; (2)我们所建立的回归方程一般都有时间性; (3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值. 3.课堂总结【知识梳理】(1)在统计中用相关系数r 来衡量两个变量之间线性关系的强弱.若相应于变量x 的取值i x ,变量y 的观测值为i y (n i ≤≤1),则两个变量的相关系数r 的计算公式为∑∑∑===----=ni ni iini iiy yx x y yx x r 11221)()())(((2)数据点和它在回归直线上相应位置的差异是随机误差的效应,称(1,2,3,n)i i e y y i ∧∧=-=L ,为残差.由,y ∧∧∧+=a x b i i 得(1,2,3,,)i i i e y b x a i n ∧∧∧=--=L .【重难点突破】(1)残差图分析:若残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度就越高.若残差点分布在其他形状的区域,则说明所选用的回归模型不是最好的,有改进的空间.(2)2R 越大,说明残差平方和21)y (∑=-ni i y 越小,模型的拟合效果越好;2R 越小,说明残差平方和21)y (∑=-ni i y 越大,模型的拟合效果越差.在线性回归模型中,2R 越接近于1,回归的效果越好(因为2R 越接近于1,表示解释变量和预报变量的线性相关性越强).在线性回归模型中, 2R 同时也表示解释变量对预报变量变化的贡献率. 4.随堂检测1.下列各组变量之间具有线性相关关系的是( ) A.出租车费与行驶的里程 B.学习成绩与学生身高 C.身高与体重 D.铁的体积与质量【知识点:线性回归,线性相关关系】解: C2.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程y ^=b ^x +a ^,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( ) A.b ^>b ′,a ^>a ′B.b ^ >b ′,a ^ <a ′C.b ^<b ′,a ^>a ′ D.b ^ <b ′,a ^<a ′【知识点:线性回归,线性相关关系】解:C b ′=2,a ′=-2,b ^ =57,a ^ =y -b ^ x =136-57×72=-13, ∴b ^ <b ′,a ^>a ′.选C.3.四名同学根据各自的样本数据研究变量y x ,之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且1.63.2-=∧x y ; ②y 与x 负相关且1.537.3--=∧x y ; ③y 与x 正相关且27.3-=∧x y ; ④y 与x 正相关且17.656.4+-=∧x y . 其中一定不正确的结论的序号是( ) A.①② B.②③ C.③④ D.①④【知识点:线性回归,线性相关关系】解:D ①中y 与x 负相关而斜率为正,不正确;④中y 与x 正相关而斜率为负,不正确. 4.如果散点图中的所有的点都在一条斜率不为0的直线上,则残差为_____,相关指数2R =_____. 【知识点:线性回归,线性相关关系】解:0, 1 由题意知,ˆi i y y = ∴相应的残差ˆˆ0i i i ey y =-=. 相关指数22121ˆ()110 1.()niii nii y yR y y ==-=-=-=-∑∑(三)课后作业 基础型 自主突破1.对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是( )相关系数为1r 相关系数为2r相关系数为3r 相关系数为4r A.24310r r r r <<<< B.31240r r r r <<<< C.13240r r r r <<<< D.31420r r r r <<<< 【知识点:相关系数】解:A2. 甲、乙、丙、丁四位同学在建立变量y x ,的回归模型时,分别选择了4中不同的模型,计算可得它们的相关指数2R 分别如下表,其中拟合效果最好的为( )A.甲B.乙C.丙D.丁 答案:A解析:【知识点:相关指数】3.已知变量x 与y 正相关,且由观测数据算得样本平均数x -=3,y -=3.5,则由该观测数据算得的线性回归方程可能是( ) A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5 D.y ^=-0.3x +4.4【知识点:回归方程,相关关系】解:A 因为变量x 和y 正相关,则回归直线的斜率为正,故可以排除选项C 与D.因为样本点的中心在回归直线上,把点(3,3.5)的坐标分别代入选项A 和B 中的直线方程进行检验,可以排除B ,只有A 可能.4.已知一组观测值1122,),(,),,(,)n n x y x y x y L (之间满足(1,2,,)y bx a e i n =++=L ,若e 恒为0,则2R 为 .【知识点:残差,相关指数】 答案:1.5.下表中给出了5组数据),(i i y x ,从中选出4组使其线性相关性最大,且保留第1组(-5,-3),那么应该去掉第_______组【知识点:残差分析】解: 3能力型 师生共研6.设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归方程的回归系数是∧b ,回归截距是∧a ,那么必有( ) A .∧b 与r 的符号相同 B .∧a 与r 的符号相同 C .∧b 与r 的相反D .∧a 与r 的符号相反 【知识点:相关关系】解:.A ∧b 决定正相关还是负相关,与r 的符号相同.7.回归分析中,相关指数2R 的值越大,说明残差平方和( ) A.越小 B.越大C.可能大也可能小D.以上都不对【知识点:相关指数】解: A 由2R 和残差平方和公式易得.8. 若对于变量y 与x 的10组统计数据的回归模型中,相关指数95.02=R ,又知残差平方和为53.120,那么∑=-1012)(i iy y的值为( )A.241.06B.2410.6C.253.08D.2530.8【知识点:相关指数】解: B 由2R 和残差平方和公式易得. 9.已知x ,y 之间的一组数据如下表:对于表中数据,现给出如下拟合直线:①5457+=x y ;②12+=x y ;③52-58x y =;④x y 2=.根据最小二乘法的思想,其中拟合程度最好的直线是________.(填正确序号) 【知识点:样本点中心,回归方程】解:① 直线必过样本点中心(3,5),依次检验即可. 探究型 多维突破(一般为2道题,具体课时可相应灵活调整)10.假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,现测得5组数据如下表:(1)以x 为解释变量,y 为预报变量,作出散点图;(2)球y 与x 间的回归方程,对于基本苗数56.7,预报其成熟期的有效穗;(3)求相关指数2R ,并说明残差变量对成熟期有效穗的影响占百分之几. 【知识点:散点图,回归方程,相关指数】 解:(1)略(2)由散点图可知,样本点呈条状分布,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.可求得线性回归方程为.291.0664.34x y +=∧当x =56.7时,.164.517.56291.0644.34≈⨯+=∧y 即估计其成熟期有效穗为51.164. (3)残差平方和为:,427.8512≈∑=i i e总偏差平方和:,18.50)512≈-∑=i i y y (故,832.018.50427.8-12≈=R 解释变量小麦基本苗数对成熟期有效穗的影响约占83.2%,残差变量的影响约占1-83.2%=16.8%.11.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得数据如下:(1)计算残差及残差和; (2)进行残差分析.【知识点:残差,残差分析,残差图】解:(1) 列出残差表(由已知可知7.91960.54668.0=+=∧y x y ,)如下所以残差平方和=2220.4-0.30.2 1.4+++=L ()()(),残差值如表中第四行的值.(2)残差分析:画出残差图,散点图(略),由散点图可以说明x 与y 有很强的相关性.可以观察到,第4个样本点和第5个样本点的残差比较大,需要纠正数据,重新利用线性回归模型拟合数据;残差图中的残差点比较均匀地落在水平的带状区域中,说明选用的线性回归模型较为合适,带状区域的宽度仅为1.3,比较狭窄,说明模型拟合精度较高. (四)自助餐1.从某大学随机抽取8名女大学生,其身高x (cm )和体重y (kg )的回归方程为712.85-849.0x y =∧,则身高172cm 的女大学生,由回归方程可以得知其体重( ) A.等于60.316kg B.约为60.316kg C.大于60.316kg D.小于60.316kg 【知识点:回归分析】 解:B2.在回归分析中,残差图的纵坐标为( ) A.残差 B.样本编号 C.等高条形图 D.独立性检验 【知识点:残差图】 解: A3.设1122(,)(,),,(,)n n x y x y x y L 是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是( )A.直线l 过点(,)x yB.x 与y 的相关系数为直线l 的斜率C.x 与y 的相关系数在0到1之间D.当n 为偶数时,分布在l 两侧的样本点的个数一定相同 【知识点:回归分析,相关系数】 解:A4.对两个变量x 和y 进行回归分析,得到一组样本数据: 1122(,)(,),,(,)n n x y x y x y L ,则下列说法中不正确的是( )A.由样本数据得到的回归方程ˆˆˆybx a =+必过样本点的中心(,)x y B.残差平方和越小的模型,拟合的效果越好C.用相关指数R 2来刻画回归效果,R 2的值越小,说明模型的拟合效果越好D.若变量y 和x 之间的相关系数r =-0.936 2,则变量y 和x 之间具有线性相关关系 【知识点:回归分析,相关系数】解: C 解析:R 2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好. 5.如图所示的是四个残差图,其中回归模型的拟合效果最好的是( )【知识点:残差图】解:B 残差图中,只有A 、B 是水平带状区域分布,且B 中残差点散点分布集中在更狭窄的范围内所以B 项中回归模型的拟合效果最好.6.变量x 与y 具有线性相关关系,当x 取值16,14,12,8时,通过观测得到y 的值为别为11,9,8.5.若在实际问题中,y 的最大取值是10,则x 的最大取值不能超过( ) A.16 B.17 C.15 D.12【知识点:回归方程】 解:C7.一家工厂对职工进行技能培训,收集数据如下:两变量的回归直线方程为__________,该函数模型的残差平方和为__________,相关指数为__________.【知识点:回归方程,残差,相关指数】 解:. 5.9817.0+=∧x y 34.126 957.0.8.若回归直线方程中的参数0=∧b ,则相关系数为 . 【知识点:相关系数】 解:0.9.关于x 与y 有如下数据为了对x ,y 两个变量进行统计分析,现有以下两种线性模型,甲:5.175.6+=∧x y ,乙:177+=∧x y ,则模型__________拟合效果更好.(填“甲”或“乙”) 【知识点:回归分析,样本点中心】 解:甲.10.关于x 与y 有以下数据:已知x 与y 线性相关,由最小二乘法得ˆb =6.5, (1)求y 关于x 的线性回归方程.(2)现有第二个线性模型:ˆy=7x +17,且相关指数R 2=0.82.若与(1)的线性模型比较,哪一个线性模型拟合效果比较好?请说明理由. 【知识点:回归分析,相关指数】解:(1)依题意设y 关于x 的线性回归方程为ˆˆ6.5yx a =+, 1(24568)=55x =⨯++++,1(3040605070)=505y =⨯++++∵ˆˆ6.5yx a =+经过样本点的中心(,)x y , ∴50=6.5×5+ˆa,∴ˆa =17.5, ∴y 与x 的线性回归方程为ˆy=6.5x +17.5. (2)由(1)的线性模型得ˆi i y y -与i y y -的关系如下表:所以52222221ˆ()(0.5)( 3.5)10( 6.5)0.5155i i i y y=-=-+-++-+=∑, 52222221()(20)(10)100201000ii y y =-=-+-+++=∑,所以52211521ˆ()155110.8451000()iii ii y yR y y ==-=-=-=-∑∑. 由于21R =0.845,R 2=0.82知21R >R 2, 所以(1)的线性模型拟合效果比较好.11.假设关于某设备的使用年限x (年)和所支出的维修费用y (万元)有关的统计资料如表所示.(1)求线性回归方程ˆˆˆybx a =+; (2)若相关指数R 2=0.9587,说明其含义; (3)估计使用年限为9年时,维修费用是多少? 【知识点:回归分析,相关指数】 解:(1)由已知数据制成表:由此可得x =4,y =5,121()()1.23()niii nii x x y y b x x ∧==--==-∑∑,ˆˆ0.08ay bx =-= ∴回归直线方程为ˆy=1.23x +0.08. (2)R 2=0.958 7,说明该设备的维修费用有95.87%由使用年限引起的.所以回归模型的拟合效果好.(3)回归直线方程为ˆy =1.23x +0.08,当x =9(年)时,ˆy =1.23×9+0.08=11.15(万元),即估计使用9年时维修费用是11.15万元.。
3.1回归分析的基本思想及其初步应用(二)教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用. 教学重点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 教学难点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 教学过程:一、复习准备:1.由例1知,预报变量(体重)的值受解释变量(身高)或随机误差的影响.2.为了刻画预报变量(体重)的变化在多大程度上与解释变量(身高)有关?在多大程度上与随机误差有关?我们引入了评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 二、讲授新课:1. 教学总偏差平方和、残差平方和、回归平方和:(1)总偏差平方和:所有单个样本值与样本均值差的平方和,即21()ni i SST y y ==-∑.残差平方和:回归值与样本值差的平方和,即21()ni i i SSE y y ==-∑.回归平方和:相应回归值与样本均值差的平方和,即21()ni i SSR y y ==-∑.(2)学习要领:①注意i y 、i y 、y 的区别;②预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和,即222111()()()nnni i i i i i i y y y y y y ===-=-+-∑∑∑;③当总偏差平方和相对固定时,残差平方和越小,则回归平方和越大,此时模型的拟合效果越好;④对于多个不同的模型,我们还可以引入相关指数22121()1()nii i n ii yy R yy ==-=--∑∑来刻画回归的效果,它表示解释变量对预报变量变化的贡献率. 2R 的值越大,说明残差平方和越小,也就是说模型拟合的效果越好. 2. 教学例题:为了对x 、Y 两个变量进行统计分析,现有以下两种线性模型: 6.517.5y x =+,717y x =+,试比较哪一个模型拟合的效果更好.分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论.(答案:52211521()155110.8451000()i i i ii y y R yy ==-=-=-=-∑∑,221R =-521521()18010.821000()ii i ii yy yy ==-=-=-∑∑,84.5%>82%,所以甲选用的模型拟合效果较好.)3. 小结:分清总偏差平方和、残差平方和、回归平方和,初步了解如何评价两个不同模型拟合效果的好坏.。
§3.1 回归分析的基本思想及其初步应用(2)
【学情分析】:
教学对象是高二理科学生,学生已掌握建立线性回归模型的知识,并能用所学知识解决一些简单的实际问题。
在教学中,要结合实例,让学生了解随机误差产生的原因。
初步了解可以通过求回归模型的相关指数或利用残差分析不同的回归模型的拟合精确度。
在起点高的班级中通过让学生观察、思考与讨论,进一步体会回归分析中的数理计算,及运用相关指数与残差分析来刻画模型拟合效果,初步形成运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。
【教学目标】:
(1)知识与技能:了解求线形回归方程的两个计算公式的推导过程,、回归平方和;了解随机误差产生的原因;了解判断刻画模型拟合效果的方法——相关指数和残差分析;了解非线
性模型通过变换转化为线性回归模型。
(2)过程与方法:本节内容先从大学中女大学生的甚高和体重之间的关系入手,求出相应的回归直线方程,从中也找出存在的不足,从而有进行回归分析的必要性,进而学习相关指数,
用相关指数来刻画回归的效果。
(3)情感态度与价值观:从实际问题中发现自己已有知识的不足之处,激发学生的好奇心和求知欲,
培养学生不满足于已有知识,勇于求知的良好个性品质,引导学生积极进
取。
【教学重点】:
1.了解判断刻画模型拟合效果的方法——相关指数和残差分析;
2.通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型。
【教学难点】:
1.了解随机误差产生的原因,用残差平方和衡量回归方程的预报精度;
2.了解判断刻画模型拟合效果的方法——相关指数和残差分析。
1. 下面4 个散点图中,不适合用线性回归模型拟合其中两个变量的是( A )
A .
B .
C .
D .
2. 将非线性模型x
e y 32=进行适当变形使之线性化。
答案:2ln 32ln ln 3ln +=⇒+=x z e x y
3. 已知回归方程35.0log 21.1ˆ2-=x y
,则样本点P (4,2.71)的残差为________________。
答案:()56.015.271.235.04log 2.171.2ˆˆ2=-=--=-=y y e
4. 已知线性相关的两变量x ,y 的三个样本点A (0,0),B (1,3),C (4,11),若用直线AB 作为其预
测模型,则点C 的残差是________。
答案:x y
AB 3ˆ=,12ˆ=C y ,1ˆ=C e 。
5. 若一组观测值(x 1,y 1)、(x 2,y 2)、…、(x n ,y n )之间满足y i =bx i +a +e i (i =1、2. …n)若e i 恒为0,则R 2
为
答案:1
6. 已知线性相关的两变量x ,y 的三个样本点A (0,0),B (1,3),C (4,11),若用直线AB 作为其预
测模型,则其相关指数=2
R ________。
答案:x y
AB 3ˆ=,7=y ,0ˆ1=y ,3ˆ2=y ,12ˆ3=y 7ˆ1-=-y y
,4ˆ2-=-y y ,5ˆ3=-y y 0ˆ1=e
,0ˆ2=e ,1ˆ3=e 989.090
1
12≈-
=R 7. 现有一个由身高预测体重的回归方程:体重预测值=4(磅/英寸)×身高-130(磅)。
其中体重和身
高分别以磅和英寸为单位,已知1英寸≈2.5 cm ,1磅≈0.45 kg ,则该回归方程应该是______________。
答案:体重预测值=0.72(kg / cm )×身高-58.5(kg )。