回归分析jiaoan_ch2b 2
- 格式:doc
- 大小:486.48 KB
- 文档页数:16
《回归分析课程教案》课件第一章:引言1.1 课程目标让学生了解回归分析的基本概念和应用领域。
让学生掌握回归分析的基本原理和方法。
培养学生应用回归分析解决实际问题的能力。
1.2 教学内容回归分析的定义和分类回归分析的应用领域回归分析的基本原理和方法1.3 教学方法讲授法:讲解回归分析的基本概念和原理。
案例分析法:分析实际案例,让学生了解回归分析的应用。
1.4 教学资源课件:介绍回归分析的基本概念和原理。
案例:提供实际案例,让学生进行分析。
1.5 教学评估课堂讨论:学生参与课堂讨论,回答问题。
第二章:一元线性回归分析2.1 教学目标让学生了解一元线性回归分析的基本概念和原理。
让学生掌握一元线性回归模型的建立和估计方法。
培养学生应用一元线性回归分析解决实际问题的能力。
2.2 教学内容一元线性回归分析的定义和特点一元线性回归模型的建立和估计方法一元线性回归模型的检验和预测2.3 教学方法讲授法:讲解一元线性回归分析的基本概念和原理。
数据分析法:分析实际数据,让学生了解一元线性回归模型的建立和估计方法。
2.4 教学资源课件:介绍一元线性回归分析的基本概念和原理。
数据分析软件:用于一元线性回归模型的建立和估计。
2.5 教学评估课堂练习:学生进行课堂练习,应用一元线性回归分析解决实际问题。
第三章:多元线性回归分析3.1 教学目标让学生了解多元线性回归分析的基本概念和原理。
让学生掌握多元线性回归模型的建立和估计方法。
培养学生应用多元线性回归分析解决实际问题的能力。
3.2 教学内容多元线性回归分析的定义和特点多元线性回归模型的建立和估计方法多元线性回归模型的检验和预测3.3 教学方法讲授法:讲解多元线性回归分析的基本概念和原理。
数据分析法:分析实际数据,让学生了解多元线性回归模型的建立和估计方法。
3.4 教学资源课件:介绍多元线性回归分析的基本概念和原理。
数据分析软件:用于多元线性回归模型的建立和估计。
3.5 教学评估课堂练习:学生进行课堂练习,应用多元线性回归分析解决实际问题。
3.1回归分析(教案)教学目标:1. 通过对统计案例的探究,会对两个随机变量进行线性回归分析.2. 理解相关系数的含义,会计算两个随机变量的线性相关系数,会通过线性相关系数判断它们之间的线性相关程度.3. 通过对数据之间散点图的观察,能够对两个随机变量进行可线性化的回归分析. 教学重点:散点图的画法,回归直线方程的求解方法;相关系数的求法与应用. 教学难点回归直线方程的求解方法; 相关系数的求法与应用; ;能够对两个随机变量进 行可线性化的回归分析. 教法:启发诱导式第一课时(回归分析)教学过程 一、问题情境客观事物是相互联系的过去研究的大多数是因果关系,但实际上更多存在的是一种非因果关系比如说:某某同学的数学成绩与物理成绩,彼此是互相联系的,但不能认为数学是“因”,物理是“果”,或者反过来说事实上数学和物理成绩都是“果”,而真正的“因”是学生的理科学习能力和努力程度所以说,函数关系存在着一种确定性关系但还存在着另一种非确定性关系——相关关系 二、新授在必修课程中,我们已经学习了最小二乘法,并会建立变量之间的线性回归方程.引导学生阅读教材,然后完成知识点的填充.(一) 知识讲解 1.相关关系的概念两个变量间的关系可分为确定关系和非确关系,前者又称为函数关系,后者又称为相关关系.2.回归方程设有n 对观测数据(,)i i x y (1,2,3,,)i n = ,根据线性回归模型,对于每一个i x ,对应的随机偏差项()i i i y a bx ε=-+,我们希望总偏差越小越好,即要使21nii ε=∑越小越好.所以,只要求出使21(,)()niii Q y x αββα==--∑取得最小值时的α,β值作为a ,b 的估计值,记为 a,b . 注:这里的i ε就是拟合直线上的点(),i i x a bx +到点(),i i i P x y 的距离.用什么方法求 a,b ? 回忆《数学3(必修)》“2.4线性回归方程”P71“热茶问题”中求a ,b 的方法:最小二乘法.利用最小二乘法可以得到 a,b 的计算公式为 1122211()()()()n ni i i i i i n ni ii i x x y y x y nx y b x x x n x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑ , 其中11n i i x x n ==∑,11ni i y y n ==∑由此得到的直线 y a bx =+ 就称为这n 对数据的回归直线,此直线方程即为线性回归方程.其中 a ,b 分别为a ,b 的估计值, a 称为回归截距,b 称为回归系数, y 称为回归值.(二) 举例应用 例1.下表给出了我国从1949年至1999年人口数据资料,试根据表中数据估计我国2004年的人口数.解:为了简化数据,先将年份减去1949,并将所得值用x 表示,对应人口数用y表示,得到下面的数据表:作出11个点(),x y 构成的散点图,由图可知,这些点在一条直线附近,可以用线性回归模型y a bx ε=++来表示它们之间的关系.根据公式(1)可得14.453,527.591.b a ⎧≈⎪⎨≈⎪⎩ 这里的 ,ab 分别为,a b 的估 计值,因此线性回归方程 为 527.59114.453y x =+由于2004年对应的55x =,代入线性回归方程 527.59114.453y x =+可得1322.506y =(百万),即2004年的人口总数估计为13.23亿. 对应练习:课本6P 练习小结:1.线性相关的概念;2.理解回归方程的系数来历;3.求回归方程的步骤. 作业:课本15P 习题1-1,1题的第二问第二节相关系数教学过程: 一.问题情境对任意给定的样本数据,由计算公式都可以求出相应的线性回归方程,但求得的线性回归方程未必有实际意义.左图中的散点明显不在一条直线附近,不能进行线性拟合,求得的线性回归方程是没有实际意义的;右图中的散点基本上在一条直线附近,我们可以粗略地估计两个变量间有线性相关关系,但它们线性相关的程度如何,如何较为精确地刻画线性相关关系呢?为了回答这个问题,我们需要对变量x 与y 的线性相关性进行检验(简称相关性检验),那么就需要学习相关系数来处理. 二、新授(一)知识点讲解1.相关系数的计算公式:对于x ,y 随机取到的n 对数据(,)i i x y (1,2,3,,)i n = ,样本相关系数r 的计算公式为()()nniii ix x y y x y nx yr ---==∑∑.()22.相关系数r 的性质: (1)||1r ≤;(2)||r 越接近与1,x ,y 的线性相关程度越强; (3)||r 越接近与0,x ,y 的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. (二) 应用举例要分析学生高中入学的数学成绩对高一年级数学学习的影响,在高一年级学生中随机抽取10名学生,分析他们入学的数学成绩和高一年级期末数学考试成绩如下表:(2)如果x 与y 之间具有线性相关关系,求线性回归方程;(3)若某学生入学数学成绩为80分,试估计他高一期末数学考试成绩.解:(1)因为()16367767010x =⨯+++= ,()16578757610y =⨯+++= , 101()()1894xy i i i L x x y y ==--=∑,2101()2474xx i i L x x ==-=∑,1021()2056yy i i L y y ==-=∑.因此求得相关系数为10()()0.840iix x y y L r --===∑.结果说明这两组数据的相关程度是比较高的;点评:解决这类问题的解题步骤:(1)作出散点图,直观判断散点是否在一条直线附近; (2)求相关系数r ;(3)计算 a,b ,写出线性回归方程. 对应练习:课本9P 练习五.回顾小结:1.相关系数的计算公式与回归系数b计算公式的比较; 2.相关系数的性质;3.探讨相关关系的基本步骤.六.课外作业:1516P -习题1-1第2题.第三节可线性化的回归分析教学过程: 一.问题情境前面我们学习的是利用线性回归方程与相关系数判断两个随机变量间的相关关系的,那么能否利用散点图将其他的常见函数拟合成线性关系呢?这也是我们本节课将要学习的可线性化的回归分析问题 二、新授(一)知识点讲解在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.下面列举出一些常见的曲线方程,并给出相应的化为线性回归方程的换元公式. (1)b y a x =+,令'y y =,1'x x=,则有''y a bx =+. (2)by ax =,令'ln y y =,'ln x x =,'ln a a =,则有'''y a bx =+.(3)bx y ae =,令'ln y y =,'x x =,'ln a a =,则有'''y a bx =+. (4)b xy ae =,令'ln y y =,1'x x=,'ln a a =,则有'''y a bx =+. (5)ln y a b x =+,令'y y =,'ln x x =,则有''y a bx =+.(二)应用举例某地区对本地的企业进行了一次抽样调查,下表是这次抽查中所得到的各企业的人均资本x (万元)与人均产出y (万元)的数据:(1)设y 与x 之间具有近似关系b y ax ≈(,a b 为常数),试根据表中数据估计a 和b 的值; (2)估计企业人均资本为16万元时的人均产出(精确到0.01).分析:根据x ,y 所具有的关系可知,此问题不是线性回归问题,不能直接用线性回归方程处理.但由对数运算的性质可知,只要对b y ax ≈的两边取对数,就能将其转化为线性关系.解(1)在b y ax ≈的两边取常用对数,可得lg lg lg y a b x ≈+,设lg y z =,lg a A =,lg x X =,则z A bX ≈+.相关数据计算如图327--所示.仿照问题情境可得A ,b 的估计值 A ,b 分别为 0.2155,1.5677,A b ⎧=-⎪⎨=⎪⎩ 由 lg 0.2155a =-可得 0.6088a≈,即a ,b 的估计值分别为0.6088和1.5677.(2)由(1)知 1.56770.6088y x =.样本数据及回归曲线的图形如图328--(见书本102P页)当16x =时, 1.56770.60881647.01y =⨯≈(万元),故当企业人均资本为16万元时,人均产值约为47.01万元. 2.练习:13P 练习. 五.回顾小结:1. 线性回归模型y a bx ε=++与确定性函数y a bx =+相比,它表示y 与x 之间是统计相关关系(非确定性关系)其中的随机误差ε提供了选择模型的准则以及在模型合理的情况下探求最佳估计值 a,b 的工具; 2. 线性回归方程 y abx =+ 中 a ,b 的意义是:以 a 为基数,x 每增加1个单位,y 相应地平均增加b个单位; 3.求线性回归方程的基本步骤. 六.课外作业:16P 第4题.。
回归分析教案1. 教学目标- 理解回归分析的基本概念和原理- 掌握一元线性回归和多元线性回归的计算方法- 熟悉回归模型的假设检验和参数解释- 能够运用回归分析解决实际问题2. 教学内容- 回归分析的定义和背景介绍- 一元线性回归模型的建立和参数估计- 多元线性回归模型的建立和参数估计- 回归模型的假设检验- 回归系数的解释和模型拟合优度的评估- 实际案例分析3. 教学步骤步骤一:引入回归分析的概念和意义(15分钟)- 讲解回归分析在统计学中的重要性和应用领域- 分析回归分析与相关分析、方差分析的区别和联系步骤二:一元线性回归分析(30分钟)- 介绍一元线性回归模型的基本形式和假设- 讲解最小二乘法的原理和推导过程- 讲解参数估计和假设检验- 通过实例演示一元线性回归的计算和解释步骤三:多元线性回归分析(30分钟)- 介绍多元线性回归模型的基本形式和假设- 讲解最小二乘法的推导过程- 讲解参数估计和假设检验- 通过实例演示多元线性回归的计算和解释步骤四:模型拟合优度和解释(20分钟)- 介绍回归模型的拟合优度指标:R²、调整R²- 解释回归系数的意义和实际应用- 通过实例演示模型拟合优度和参数解释步骤五:实际案例分析(25分钟)- 提供一个实际问题,结合已学知识进行分析和解决- 通过实际案例,让学生熟悉回归分析在实际问题中的应用4. 教学方法- 讲授法:通过理论讲解,引导学生理解回归分析的基本概念和原理- 案例分析法:通过实际案例分析,让学生运用回归分析解决实际问题- 讨论互动法:引导学生参与讨论,分享分析思路和解决方法5. 教学评价- 课堂练习:布置回归分析相关练习题,检验学生对知识的掌握程度- 课后作业:布置实际问题的回归分析作业,培养学生独立解决问题的能力- 学生讨论和互评:鼓励学生在课后进行互相讨论和评价,促进学习和交流本教案以《回归分析》为标题,着重介绍了回归分析的基本概念和原理、一元线性回归和多元线性回归的计算方法、假设检验和参数解释等内容。
课时:2课时教学目标:1. 理解回归分析的基本概念和原理;2. 掌握一元线性回归和多元线性回归模型的建立方法;3. 能够运用回归分析解决实际问题;4. 培养学生独立思考和团队合作能力。
教学重点:1. 一元线性回归和多元线性回归模型的建立;2. 异方差性、自相关性和多重共线性的诊断与处理。
教学难点:1. 异方差性、自相关性和多重共线性的诊断与处理;2. 回归分析在实际问题中的应用。
教学准备:1. 多媒体教学设备;2. 相关教材和参考书籍;3. 案例分析资料。
教学过程:一、导入新课1. 引导学生回顾概率论与数理统计的基本知识,激发学生对回归分析的兴趣;2. 提出回归分析在自然科学、管理科学和社会、经济等领域的广泛应用,强调学习回归分析的重要性。
二、讲授新课1. 回归分析的基本概念和原理- 解释回归分析的定义和目的;- 介绍回归分析的基本假设和模型;- 讲解回归分析的数学基础。
2. 一元线性回归模型- 介绍一元线性回归模型的建立方法;- 讲解一元线性回归模型的参数估计和假设检验;- 通过实例分析,让学生掌握一元线性回归模型的运用。
3. 多元线性回归模型- 介绍多元线性回归模型的建立方法;- 讲解多元线性回归模型的参数估计和假设检验;- 通过实例分析,让学生掌握多元线性回归模型的运用。
4. 异方差性、自相关性和多重共线性的诊断与处理- 介绍异方差性、自相关性和多重共线性的概念;- 讲解诊断和解决这些问题的方法;- 通过实例分析,让学生掌握处理这些问题的技巧。
三、案例分析1. 选择与课程内容相关的案例,引导学生运用所学知识分析案例;2. 鼓励学生分组讨论,提出解决方案;3. 教师总结案例分析的成果,强调回归分析在实际问题中的应用。
四、课堂小结1. 总结本节课所学内容,强调重点和难点;2. 提出课后作业,巩固所学知识。
五、课后作业1. 完成课后习题,巩固一元线性回归和多元线性回归模型的建立方法;2. 查阅资料,了解回归分析在实际问题中的应用案例;3. 思考如何将回归分析应用于实际生活和工作中的问题。
回归分析教案教案标题:回归分析教案教学目标:1. 理解回归分析的基本概念和原理。
2. 掌握回归分析的基本步骤和方法。
3. 能够运用回归分析解决实际问题。
教学内容:1. 回归分析的概念和基本原理a. 线性回归和非线性回归的区别b. 回归方程和回归系数的含义c. 最小二乘法和最大似然估计方法2. 回归分析的步骤和方法a. 数据的收集和整理b. 模型的选择和建立c. 参数的估计和检验d. 模型的诊断和改进3. 回归分析的应用a. 实际问题的转化为回归模型b. 利用回归模型进行预测和解释c. 利用回归模型进行因果推断教学步骤:第一课时:1. 引入回归分析的概念和应用背景,激发学生的学习兴趣。
2. 讲解线性回归和非线性回归的区别,引导学生理解回归方程和回归系数的含义。
3. 通过示例演示最小二乘法和最大似然估计方法的应用过程。
第二课时:1. 复习上节课的内容,解答学生的疑问。
2. 讲解回归分析的步骤和方法,强调数据的收集和整理的重要性。
3. 指导学生选择适当的回归模型,解释模型的建立过程。
第三课时:1. 复习上节课的内容,进行小组讨论,让学生分享自己的模型选择和建立过程。
2. 讲解参数的估计和检验方法,引导学生理解参数的含义和可靠性。
3. 指导学生进行模型的诊断和改进,解释常见的模型诊断方法。
第四课时:1. 复习上节课的内容,解答学生的疑问。
2. 引导学生将实际问题转化为回归模型,进行模型的预测和解释。
3. 指导学生利用回归模型进行因果推断,引导学生思考相关问题。
教学评估:1. 在课堂上进行小组讨论和问题解答,检查学生对回归分析的理解和应用能力。
2. 布置回归分析的实践作业,要求学生选择合适的数据集进行回归分析,并撰写实验报告。
3. 对学生的实验报告进行评估,评价学生对回归分析的掌握程度和解决实际问题的能力。
教学资源:1. PowerPoint幻灯片,用于展示回归分析的概念、原理和应用。
2. 实际数据集,用于学生进行回归分析的实践。
第二章 多元线性回归§2.1 多元线性回归的统计模型 一、统计模型在实际中影响随机变量y 取值的自变量可能不止一个,设有t 个:,为此需要建立y 与间的相关关系(t ≥2)。
譬如:化工产品的得率y 与温度x t x x x ,,,21 t x x x ,,,21 1、压力x 2、配比x 3,…等有关。
在研究y 与间的关系时就不象一元那么直观,无法借用图象的帮助。
此时,常常由经验或直接假定y 与间为线性相关的关系,然后在求得了回归方程后再进行检验。
具体步骤如下:t x x x ,,,21 x t x x ,,,21 (1)收集数据(n i y x x x i it i i ,,2,1),,,,21 =, (2)假定t t x x Ey βββ+++=110,这是t +1维空间中的一个超平面。
这种假定是合理的。
实际上),,,(21t x x x f Ey =可能是一个曲面,一般是光滑的,在某点的一个小领域中可以用多项式去逼近,通过变换,就成为线性的,因此这一假定具有普遍性。
综上,多元线性回归模型可以表示为:=++++=),0(~,,2,12110σεεβββN iid ni x x y i i it t i i 各, 这里假定:为一般变量;t x x x ,,,21 t βββ,,,10 是回归系数,它们是未知参数;ε为不可观察的随机变量。
回归函数为t t x x Ey βββ+++=110我们的任务是:(1)从数据出发估计t βββ,,,10 ,并研究其性质; (2)对方程、系数作检验—这在多元回归中十分重要; (3)应用—预测。
二、矩阵表示上述多元线性悔改模型可以用矩阵表示,书写方便、简洁证明也显得简洁。
记:随机变量的观察向量为Y ,未知参数向量为=n y y y21=t ββββ 10不可观察的随机误差向量为,结构矩阵 =n εεεε 21=nt n t t x xx x x x X 1221111111注意X 的行数=Y 的行数(观察数),X 的列数=β的行数(未知参数个数),X 各列的元素分别是t βββ,,,10 的系数。
一、教学目标1. 知识目标:(1)使学生掌握回归分析的基本概念和原理;(2)使学生熟悉一元线性回归模型与多元线性回归模型;(3)使学生了解回归分析在实际问题中的应用。
2. 能力目标:(1)培养学生运用回归分析解决实际问题的能力;(2)提高学生分析问题和解决问题的能力;(3)培养学生的逻辑思维和创新能力。
3. 情感目标:(1)激发学生对统计学的兴趣;(2)培养学生的团队协作精神;(3)提高学生的综合素质。
二、教学内容1. 回归分析的基本概念和原理;2. 一元线性回归模型与多元线性回归模型;3. 回归分析在实际问题中的应用。
三、教学方法1. 讲授法:系统讲解回归分析的基本概念、原理和模型;2. 案例分析法:通过实际案例,引导学生运用回归分析解决实际问题;3. 讨论法:组织学生分组讨论,提高学生的团队协作能力和分析问题的能力。
四、教学过程1. 导入新课:介绍回归分析在统计学中的地位和作用,激发学生的学习兴趣。
2. 基本概念和原理:(1)讲解回归分析的基本概念,如因变量、自变量、回归系数等;(2)阐述回归分析的基本原理,如最小二乘法、线性回归模型等。
3. 一元线性回归模型与多元线性回归模型:(1)讲解一元线性回归模型的建立和参数估计;(2)讲解多元线性回归模型的建立和参数估计;(3)分析一元线性回归模型与多元线性回归模型的异同。
4. 回归分析在实际问题中的应用:(1)介绍回归分析在经济学、生物学、工程学等领域的应用;(2)通过实际案例,引导学生运用回归分析解决实际问题。
5. 案例分析:(1)组织学生分组讨论,分析案例,提出解决方案;(2)教师点评,总结案例中涉及的知识点和技巧。
6. 总结与反思:(1)总结本节课的重点和难点;(2)引导学生反思所学内容,提高自己的学习效果。
五、教学评价1. 课堂表现:观察学生的参与度、发言情况等;2. 作业完成情况:检查学生完成作业的质量;3. 案例分析:评估学生在案例分析中的表现,包括分析问题的能力、解决问题的能力等;4. 期末考试:考察学生对回归分析知识的掌握程度。
3.2回归分析教学设计引言:新一轮课程改革要求我们在教育教学的过程当中要着力落实“以生为本”的教学理念。
所谓“以生为本”就是以学生的发展为本,关注学生的思维能力的发展,动手能力的发展及应用意识的发展。
为此,讲授本节课之前,我做了如下的准备:一、教学内容分析及学情分析:(一)教学内容分析:《回归分析》是高中数学人教B版选修2—3第三章《统计案例》的第二节内容,本节是中学阶段统计学的完结篇。
其内容与第一节《独立性检验》及必修3中的统计知识均有着密切的联系。
它是必修3中回归直线方程知识的加深和升华,也是对第一节《独立性检验》中统计方法的补充。
其实,统计学发展到今天已经有许多较成熟的统计方法,独立性检验和回归分析只是其中的两种方法。
教材把一个个的案例直接呈现在学生面前,通过探究案例,解决问题,使学生们了解这两种统计方法的基本思想、解题步骤及其初步应用。
在统计案例的教学中,应培养学生对数据的直观感觉,认识统计方法的特点(如估计结果的随机性、统计推断可能犯错误等),体会统计方法应用的广泛性,理解其方法中蕴涵的思想。
避免学生单纯记忆和机械套用公式进行计算。
教学中应鼓励学生使用计算机及统计软件等现代技术手段来处理数据,解决实际问题。
应尽量给学生提供充分的实践活动机会,要求学生在实践中体会统计思想。
学习本节课后高中阶段的统计学知识全部学完,学生应该能够独立地分析简单的统计数据,能够独立完成简单的统计分析问题。
这种能力既是到高校继续深造的需要,更是作为新时代合格公民的必备素质。
(二)学情分析1、在学习本节课之前,学生已经在初中及高中数学人教B版必修3第二章中初步掌握了统计学的相关知识,特别是已经掌握了线性相关的回归直线方程的求法,能够通过对散点图的观察发现较直观的线性相关关系并求出其回归直线方程。
2、高二学生的自主学习能力和探究能力都很强,特别在学习了本章《统计案例》第一节的独立性检验的统计思想之后,初步掌握了统计分析的思想方法,这都为本节课教学奠定了坚实的基础。
第二章 回归分析 (补充教材)回归分析是研究变量之间相关关系的一种统计推断法。
例如,人的血压y 与年龄x 有关,这里x 是一个普通变量,y 是随机变量。
Y 与x 之间的相依关系f(x)受随机误差ε的干扰使之不能完全确定,故可设有:ε+=)(x f y )'11.2(-式中f(x)称作回归函数,ε为随机误差或随机干扰,它是一个分布与x 无关的随机变量,我们常假定它是均值为0的正态变量。
为估计未知的回归函数f(x),我们通过n 次独立观测,得x 与y 的n 对实测数据(x i ,y i )i=1,……,n ,对f(x)作估计。
实际中常遇到的是多个自变量的情形。
例如 在考察某化学反应时,发现反应速度y 与催化剂用量x 1,反应温度x 2,所加压力x 3等等多种因素有关。
这里x 1,x 2,……都是可控制的普通变量,y 是随机变量,y 与诸x i 间的依存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设有:ε+=),,,(21k x x x f y )"11.2(-这里ε是不可观察的随机误差,它是分布与x 1,……,x k 无关的随机变量,一般设其均值为0,这里的多元函数f(x 1,……,x k )称为回归函数,为了估计未知的回归函数,同样可作n 次独立观察,基于观测值去估计f(x 1,……,x k )。
以下的讨论中我们总称自变量x 1,x 2,……,x k 为控制变量,y 为响应变量,不难想象,如对回归函数f(x 1,……,x k )的形式不作任何假设,问题过于一般,将难以处理,所以本章将主要讨论y 和控制变量x 1,x 2,……,x k 呈现线性相关关系的情形,即假定f(x 1,……,x k )=b 0+b 1x 1+……+b k x k 。
并称由它确定的模型 )11.2('-(k=1)及)11.2(''-为线性回归模型,对于线性回归模型,估计回归函数f(x 1,……,x k )就转化为估计系数b 0、b i (i=1,……,k) 。
当线性回归模型只有一个控制变量时,称为一元线性回归模型,有多个控制变量时称为多元线性回归模型,本着由浅入深原则,我们重点讨论一元的,在此基础上简单介绍多元的。
§2.1 一元线性回归一、一元线性回归的数学模型(参见教材P23-P24 三)前面我们曾提到,在一元线性回归中,有两个变量,其中x 是可观测、可控制的普通变量,常称它为自变量或控制变量,y 为随机变量,常称其为因变量或响应变量。
通过散点图或计算相关系数判定y 与x 之间存在着显著的线性相关关系,即y 与x 之间存在如下关系:y=a+bx+ε (2.1-6)通常认为 ε~N (0,σ2)且假设σ2与x 无关。
将观测数据(x i ,y i )(i=1,……,n)代入(2.1-6)再注意样本为简单随机样本得:),0(,),,1(21σεεεN n i bx a y n i i i 独立同分布 =++= (2.1-7)称(2.1-6)或(2.1-7)(又称为数据结构式)所确定的模型为一元(正态)线性回归模型。
对其进行统计分析称为一元线性回归分析。
不难理解 模型(2.1-6)中EY=a+bx ,若记y=E(Y),则y=a+bx,就是所谓的一元线性回归方程,其图象就是回归直线,b 为回归系数,a 称为回归常数,有时也通称a 、b 为回归系数。
我们对一元线性回归模型主要讨论如下的三项问题: (1) 对参数a ,b 和σ2进行点估计,估计量b aˆ,ˆ称为样本回归系数或经验回归系数,而x b a yˆˆˆ+=称为经验回归直线方程,其图形相应地称为经验回归直线。
(2) 在模型(2.1-6)下检验y 与x 之间是否线性相关。
(3) 利用求得的经验回归直线,通过x 对y 进行预测或控制。
二、a 、b 的最小二乘估计、经验公式(参见教材P20-P23)现讨论如何根据观测值(x i ,y i ),i=1,2,……,n 估计模型(2.1-6)中回归函数f(x)=a+bx 中的回归系数。
采用最小二乘法,记平方和∑=--=nt t t bx a y b a 12)(),(Q )21.2(-找使Q(a.b)达到最小的a 、b 作为其估计,即),(min )ˆ,ˆ(b a b aQ Q = 为此,令 ⎪⎪⎪⎩⎪⎪⎪⎨⎧=--==--=∑∑==0)(220][2211nt t t t nt t t x bx a y bx a y a 2b Q2Q化简得如教材P21 (2.1-4)所示的方程组(称为模型的正规方程)a.b解得 ⎪⎪⎩⎪⎪⎨⎧===x b y a L L b xxxy ˆˆˆ (2.1-5)(2.1-5)所示的b aˆ,ˆ分别称为a 、b 的最小二乘估计,式中 ()∑∑∑∑∑∑∑=====-=--=-=-=ni ni ni ni i i i i xy ni ni ni i ii xx y x n y x y y x x L x n x x x L 1111112122))((1))(()(1称x b a yˆˆˆ+=为经验回归(直线方程),或经验公式。
例1 某种合成纤维的强度与其拉伸倍数有关。
下表是24个纤维样品的强度与相应的拉伸倍数的实测记录。
试求这两个变量间的经验公式。
将观察值(x i ,y i ),i=1,……,24在平面直角坐标系下用点标出,所得的图称为散点图。
(参见教材P21图2-1),从本例的散点图看出,强度y 与拉伸倍数x 之间大致呈现线性相关关系,一元线性回归模型是适用y 与x 的。
现用公式(2.1-5)求b aˆ,ˆ,这里n=24 946.1171.11324193.650756.1301.1135.1272416.731266.1525.12724161.8296.731,93.650,61.8291.113,5.1272222=⨯-==⨯⨯-==⨯-======∑∑∑∑∑yy xy xx iiiii i L L L yx y xy x∴15.0ˆˆ859.0ˆ=-===x b y aL L b xxxy由此得强度y 与拉伸倍数x 之间的经验公式为 x y 859.015.0ˆ+= 三、最小二乘估计b aˆ,ˆ的基本性质 定理2.1-1 一元线性回归模型(2.1-7)中,a 、b 的最小二乘估计b a ˆ,ˆ满足: (1) b bE a aE ==ˆ,ˆ (2) 2221)ˆ(,)1()ˆ(σσxxxx L bD L xn aD =+= (3) 2)ˆ,ˆcov(σxxL x b a-= 证:(1) 注意到对任意i=1,2,……,n 有a xb x b a b E x y E aE bLxxx x b y y x x E Lxx b E x x b y E Ey y y E Dy x b a y E bx a Ey ni i ni i i i i i i i i =-+=-==-=--=-=-=-=+=+=∑∑==ˆˆ)())((1ˆ)()(,,,12122于是σ(2)利用∑==-ni i x x 10)(,将b 、aˆˆ表示为: ∑∑==-=--=ni i i n i i i y x x Lxx y y x x Lxx b 11)(1))((1ˆ)61.2('-∑∑==--=-=ni i i n i i y L x x x x x nb x y n a 11])(1[ˆ1ˆ )71.2('- 由于y 1,y 2,……,y n 相互独立,有2221222212221222)1(])(1[])(1[)ˆ()(1)ˆ(σσσσσxxni xx i ni i ni ixxL xn L x x x n Lxx x x x n a D Lxxx xL bD +=-+=--==-=∑∑∑===221221222)(])(1[)()ˆ,ˆcov(σσσxx ni xx i n i xx i xx i L x L x x x L x x x n L x x b a -=--=---=∑∑== 定理2.1-1表明,a 、b 的最小二乘估计b 、aˆˆ是无偏的,从)61.2('-,)71.2('-还知道它们又是线性的,因此(2.1-5)所示的最小二乘估计b 、aˆˆ分别是a 、b 的线性无偏估计。
§2.2 建立回归方程后进一步的统计分析一、σ2的无偏估计由于σ2是误差εi (i=1,……,n)的方差,如果εi能观测,自然想到用∑ii n 21ε来估计σ,然而εi 是观测不到的,能观测的是y i.。
由i i i y x b a y E ˆˆˆˆ=+= (即Ey i 的估计),就应用残差i i yy ˆ-来估计i ε,因此,想到用∑∑===--=-n i ii n i i i b a Q n x b a y n y y n 1212)ˆ,ˆ(1)ˆˆ(1)ˆ(1 来估计σ2,我们希望得到无偏估计,为此需求残差平方和)ˆ,ˆ(b aQ 的数学期望,由定理2.1-1可推出 2)2()]ˆ,ˆ([σ-=n b aQ E (学员自验) 于是得∑=--=-=ni i i y y n n b a Q 122)ˆ(212)ˆ,ˆ(ˆσ为σ2的无偏估计,例如§2.1例1中2545.0ˆ=σ即有 Th2.2-1。
令2)ˆ,ˆ(ˆ2-=n b aQ σ,则22ˆσσ=E 。
我们称2)ˆ,ˆ(ˆ-=n b aQ σ为标准误差,它反映回归直线拟合的程度。
具体计算时可用)1()1(ˆ)ˆ,ˆ(222r L L L L L L b L b a Q yy yyxx xy yyxx yy -=-=-=。
二、预测与控制 1、预测问题对于一元线性回归模型 ⎪⎩⎪⎨⎧++=),0(~2σεεN bx a y (2.1-6)我们根据观测数据(x i ,y i ),i=1,…,n ,得到经验回归方程x b a yˆˆˆ+=,当控制变量x 取值x 0(x 0≠x i ,i=1,…,n ),如何估计或预测相应的y 0呢?这就是所谓的预测问题,自然我们想到用经验公式,取00ˆˆˆx b a y +=来估计实际的000ε++=bx a y ,并称0ˆy 为0y 点估计或点预测。
在实际应用中,若响应变量y 比较难观测,而控制变量x 却比较容易观察或测量,那么根据观测资料得到经验公式后,只要观测x 就能求得y 的估计和预测值,这是回归分析最重要的应用之一,例如在§2.1例1中,拉伸倍数x 0=7.5,则可预测强度59.65.7859.015.0ˆ0=⨯+=y但是,上面这样的估计用来预测y 究竟好不好呢?它的精度如何?我们希望知道误差,于是就有考虑给出一个类似于置信区间的预测区间的想法。