高二数学回归分析(2019年8月整理)
- 格式:ppt
- 大小:369.00 KB
- 文档页数:9
8.2.2 一元线性回归模型参数的最小二乘估计(第1课时)教学设计一、课时教学内容本节的主要内容是一元线性回归模型,它是线性回归分析的核心内容,也是后续研究两变量间的相关性有关问题的基础.通过散点图直观探究分析得出的直线拟合方式不同,拟合的效果就不同,它们与实际观测值均有一定的偏差.在经历用不同估算方法描述两个变量线性相关关系的过程中,解决用数学方法刻画从整体上看各观测点到拟合直线的距离最小的问题,让学生在此基础上了解更为科学的数据处理方式——最小二乘法,有助于他们更好地理解核心概念“经验回归直线”,并最终体现回归方法的应用价值.二、课时教学目标1.进一步掌握一元线性回归模型参数的统计意义,会用相关统计软件.2.了解非线性回归模型.3.会通过分析残差和利用R2判断回归模型的拟合效果.三、教学重点、难点1.重点:一元线性回归模型的基本思想,经验回归方程,最小二乘法.2.难点:求最小二乘估计,残差分析.四、教学过程设计环节一创设情境,引入课题在一元线性回归模型中,表达式Y bx a e=++刻画的是变量Y与变量x之间的线性相关关系,其中参数a和b未知,需要根据成对样本数据进行估计.由模型的建立过程可知,参数a和b刻画了变量Y与变量x的线性关系,因此通过成对样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.问题1:从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”?【设计意图】明确问题,指明思考的方向,引发学生思考.思路1:先画出一条直线,测量出各点到直线的距离,然后移动直线,到达一个使距离的和最小的位置,测量出此时的斜率和截距,就得到一条直线.问题2.我们怎样寻找一条“最好”的直线,使得表示成对样本数据的这些散点在整体上与这条直线最“接近”?【师生活动】教师提出探究问题,并引导学生得出探究目标,然后让学生小组合作讨论.学生分组合作讨论,然后各组派代表交流研究成果.【设计意图】培养学生的团结协作意识,提升学生的逻辑推理核心素养.后移动直线,到达一个使距离的和最小的位置,测量出此时的斜率和截距,就可得到一条直线,如图8.22所示.思路2:可以在散点图中选两点画一条直线,使得直线两侧点的个数基本相同,把这条直线作为所求直线.有的同学可能会想,可以在图中选择这样的两点画直线,使得直线两侧的点的个数基本相同,把这条直线作为所求直线,如图8.23所示.思路3:在散点图中多取几对点,确定出几条直线,再分别求出这些直线的斜率、截距的平均数作为所求直线的斜率和截距.还有的同学会想,在散点图中多取几对点,确定出几条直线的方程,再分别求出这些直线的斜率、截距的平均数,将这两个平均数作为所求直线的斜率和截距如图8.24所示.同学们不妨去实践一下,看看这些方法是不是真的可行.环节二观察分析,感知概念上面这些方法虽然有一定的道理,但比较难操作,我们需要另辟蹊径先进一步明确我们面临的任务:从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近”.通常,我们会想到利用点到直线y bx a =+的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度我们设满足一元线性回归模型的两个变量的n 对样本数据为11(,)x y ,22(,)x y ,…,(,)n n x y ,由1(1,2,,)i i y bx a e i n =++=,得()i i i y bx a e -=+.显然i e 越小,表示点(,)i i x y 与点(),i i x bx a +的“距离”越小,即样本数据点离直线y bx a =+的竖直距离越小,如图8.25所示.特别地,0i e =时,表示点(,)i i x y 在这条直线上.因此,可以用这n 个竖直距离之和1()ni i i y bx a =-+∑来刻画各样本观测数据与直线y bx a =+的“整体接近程度”. 问题3.你能结合具体实例解释产生模型①中随机误差项的原因吗?在实际应用中,因为绝对值使得计算不方便,所以人们通常用各散点到直线的竖直距离的平方之和来刻画“整体接近程度”.在上式中,,(1,2,3,...)i i x y i n =是已知的成对样本数据,所以Q 由a 和b 所决定,即它是a 和b 的函数.因为Q 还可以表示为21i i ne =∑,即它是随机误差的平方和,这个和当然越小越好,所以我们取使Q 达到最小的a 和b 的值,作为截距和斜率的估计值. 环节三 抽象概括,形成概念问题4:如何求a ,b 的值,使 最小?【设计意图】将距离最值问题抽象为函数求二元函数最值问题. 下面利用成对样本数据求使Q 取最小值的a ,b .记11n i i x x n ==∑,11ni i y y n ==∑.因为2211[()()]2[()()][()][()]ni i i i ni y y b x x y y b x x y bx a n y bx a ===---+---⨯--+--∑∑,注意到11[()()]()()[()()]ni z i n i i i y y b x x y bx a y bx a y y b x x ==-----=-----∑∑[]21(,)()ni i i Q a b y bx a ==-+∑所以221(,)[()()]()ni i i Q a b y y b x x n y bx a ==---+--∑.上式右边各项均为非负数,且前n 项与a 无关.所以,要使Q 取到最小值,后一项的值应为0,即.a y bx =-此时22221111(,)[()()]()2()()()nnni i ii i i i i i i Q a b y y b x x bx x b x x y x y y π=====---=----+-∑∑∑∑.上式是关于b 的二次函数,因此要使Q 取得最小值,当且仅当b 的取值为121()()()niii nii x x y y b x x ==--=-∑∑.综上,当a ,b 的取值为121()()()ˆni i i ni i x x y y b x x a y bx ==--=-=-⎧⎪⎪⎪⎨⎪⎪⎪⎩∑∑ (2) 时,Q 达到最小.我们将ˆˆˆybx a =+称为Y 关于x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的ˆb,a 叫做b ,a 的最小二乘估计(least squares estimate).问题5:利用下表的数据,依据用最小二乘估计一元线性回归模型参数的公式,求出儿子身高Y 关于父亲身高x 的经验回归方程。
高二数学第二章 回归分析(补充教材)回归分析是研究变量之间相关关系的一种统计推断法。
例如,人的血压y 与年龄x 有关,这里x 是一个普通变量,y 是随机变量。
Y 与x 之间的相依关系f(x)受随机误差ε的干扰使之不能完全确定,故可设有:ε+=)(x f y )'11.2(-式中f(x)称作回归函数,ε为随机误差或随机干扰,它是一个分布与x 无关的随机变量,我们常假定它是均值为0的正态变量。
为估计未知的回归函数f(x),我们通过n 次独立观测,得x 与y 的n 对实测数据(x i ,y i )i=1,……,n ,对f(x)作估计。
实际中常遇到的是多个自变量的情形。
例如 在考察某化学反应时,发现反应速度y 与催化剂用量x 1,反应温度x 2,所加压力x 3等等多种因素有关。
这里x 1,x 2,……都是可控制的普通变量,y 是随机变量,y 与诸x i 间的依存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设有:ε+=),,,(21k x x x f y )"11.2(-这里ε是不可观察的随机误差,它是分布与x 1,……,x k 无关的随机变量,一般设其均值为0,这里的多元函数f(x 1,……,x k )称为回归函数,为了估计未知的回归函数,同样可作n 次独立观察,基于观测值去估计f(x 1,……,x k )。
以下的讨论中我们总称自变量x 1,x 2,……,x k 为控制变量,y 为响应变量,不难想象,如对回归函数f(x 1,……,x k )的形式不作任何假设,问题过于一般,将难以处理,所以本章将主要讨论y 和控制变量x 1,x 2,……,x k 呈现线性相关关系的情形,即假定f(x 1,……,x k )=b 0+b 1x 1+……+b k x k 。
并称由它确定的模型 )11.2('-(k=1)及)11.2(''-为线性回归模型,对于线性回归模型,估计回归函数f(x 1,……,x k )就转化为估计系数b 0、b i (i=1,……,k) 。