第九章变量之间的关系
- 格式:pdf
- 大小:3.00 MB
- 文档页数:7
单一方程模型一般描述的是单向因果关系,即解释变量引起被解释变量变化。
当两个变量之间存在双向因果关系时,用单一方程模型就不能完整的描述这两个变量之间的关系。
另外,对于一个比较复杂的经济系统而言,只用单一方程模型进行描述显然是不全面的。
例如,为某一地区的经济运行状况建立计量经济模型,要涉及工业、农业生产,基本建设投资,失业率,商品销售,居民生活等各个方面。
这时应该用多个方程的组合形式来描述整个经济系统。
从而引出联立方程模型的概念。
本章包括以下几小节:联立方程模型的概念联立方程模型的分类联立方程模型的识别联立方程模型的估计方法联立方程模型举例第一节联立方程模型的概念1 联立方程模型的概念联立方程模型就是描述经济变量间联立依存性的方程体系。
一个经济变量在某个方程中可能是被解释变量,而在另一个方程中却是解释变量。
在介绍联立方程模型之前,首先给出如下定义。
(1)内生变量:由模型内变量所决定的变量称作内生变量。
(2)外生变量:由模型外变量所决定的变量称作外生变量。
(3)前定变量:外生变量、外生滞后变量、内生滞后变量统称为前定变量。
注意,联立方程模型必须是完整的。
所谓完整即是指联立方程模型内的方程个数应该大于或等于内生变量个数。
否则联立方程模型无法估计。
下面介绍联立方程模型的分类。
第二节联立方程模型的分类联立方程模型可以分为三种类型,即结构模型,简化型模型和递归模型。
下面分别给予介绍。
1 结构模型把内生变量表达为其他内生变量、前定变量与随机误差项的联立方程模型称作结构模型。
例如有如下简单的凯恩斯模型C t = α0 +α1 Y t + u1t(9.1)I t = β0 + β1 Y t + β2 Y t-1 + u2t(9.2)Y t = C t + I t+ G t(9.3)其中,C t为宏观消费;Y t为国民收入;I t为投资;G t表示政府支出。
(9.1)式是消费函数。
(9.2) 式是投资函数。
(9.3) 式是国民收入恒等式。
第24讲一元线性回归分析教学目的:1. 使学生理解随机变量Y与普通变量x间的相关关系;2. 使学生理解Y与x间的一元线性回归模型Y a bxε=++;3. 使学生掌握未知参数a和b的最小二乘估计方法;4. 使学生掌握线性假设的显著性检验方法。
教学重点:使学生理解Y与x间的一元线性回归模型Y a bxε=++,掌握未知参数a和b的最小二乘估计方法。
教学难点:使学生理解Y与x间的一元线性回归模型Y a bXε=++。
教学时数:3学时。
教学过程:第九章回归分析§9.1回归分析的基本概念客观世界中普遍存在着变量间的关系,而变量间的关系一般可分为两类:确定性关系和非确定性关系。
确定性关系:可以用函数来表示的变量间关系。
非确定性关系:不能用函数来表示的变量间关系,也称为相关关系或统计关系。
如身高与体重之间的关系。
一般来说,人高一些,体重要重一些,但同样身高的人,体重往往不相同。
又如人的血压与年龄之间的关系,树高与生长时间之间的关系,商品的销售量与单价之间的关系等都是相关关系。
所谓回归分析是指通过试验和观测去寻找隐藏在变量间相关关系的一种数学方法,是研究变量间相关关系的一种有力的数学工具。
设随机变量Y(因变量)与普通变量x(自变量)之间存在着某种相关关系,由于F y x表示取确定值x Y是随机变量,对于x的各个取值,Y有它的分布,我们不妨用()F y x随着x取值的变化而变化时,对应的Y的分布函数。
可以想象如果我们掌握了()的规律,那么就能完全掌握Y与x之间的关系了,然而这样做往往非常复杂,甚至是不可能的。
作为一种近似,我们转而去考察取确定值x时Y的数学期望,若此时Y的数学μ,称为Y关于期望存在,则其值随x的取值而定,它是x的函数。
将这一函数记为()xx 的回归函数。
这样,我们就将讨论Y 与x 的相关关系的问题转化为讨论()()E Y x μ=与x 的函数关系问题了。
我们先看一个例子。
例1 为研究某一化学反应过程中,温度()x C ο对产品得率(%)Y 的影响,测得数据如下:温度()x C ο 100 110 120 130 140 150 160 170 180 190 得率(%)Y45515461667074788589这里自变量x 是普通变量,Y 是随机变量。
第九章相关与回归一.判断题部分题目1:负相关指的是因素标志与结果标志的数量变动方向是下降的。
()答案:×题目2:相关系数为+1时,说明两变量完全相关;相关系数为-1时,说明两个变量不相关。
()答案:√题目3:只有当相关系数接近+1时,才能说明两变量之间存在高度相关关系。
()答案:×题目4:若变量x的值增加时,变量y的值也增加,说明x与y之间存在正相关关系;若变量x的值减少时,y变量的值也减少,说明x与y之间存在负相关关系。
()答案:×题目5:回归系数和相关系数都可以用来判断现象之间相关的密切程度。
()答案:×题目6:根据建立的直线回归方程,不能判断出两个变量之间相关的密切程度。
()答案:√题目7:回归系数既可以用来判断两个变量相关的方向,也可以用来说明两个变量相关的密切程度。
()答案:×题目8:在任何相关条件下,都可以用相关系数说明变量之间相关的密切程度。
()答案:×题目9:产品产量随生产用固定资产价值的减少而减少,说明两个变量之间存在正相关关系。
()答案:√题目10:计算相关系数的两个变量,要求一个是随机变量,另一个是可控制的量。
()答案:×题目11:完全相关即是函数关系,其相关系数为±1。
()答案:√题目12:估计标准误是说明回归方程代表性大小的统计分析指标,指标数值越大,说明回归方程的代表性越高。
()答案×二.单项选择题部分题目1:当自变量的数值确定后,因变量的数值也随之完全确定,这种关系属于()。
A.相关关系B.函数关系C.回归关系D.随机关系答案:B题目2:现象之间的相互关系可以归纳为两种类型,即()。
A.相关关系和函数关系B.相关关系和因果关系C.相关关系和随机关系D.函数关系和因果关系答案:A题目3:在相关分析中,要求相关的两变量()。
A.都是随机的B.都不是随机变量C.因变量是随机变量D.自变量是随机变量答案:A题目4:测定变量之间相关密切程度的指标是()。
郑州轻工业学院数学与信息科学系第九章:相关分析与一元回归分析概率统计教研组变量之间的关系可以分为函数关系和相关关系两类,函数关系表示变量间确定的对应关系,而相关关系则是变量间的某种非确定的依赖关系.相关分析主要是研究随机变量间相关关系的形式和程度,在相关关系的讨论中,两个变量的地位是同等的,所使用的测度工具是相关系数,而回归分析则侧重考察变量之间的数量伴随关系,并通过一定的数学表达式将这种数量关系描述出来,用于解决预测和控制等实际问题.本章主要学习相关分析和一元回归分析的有关概念、理论和方法.●【回归名称的来历】―回归”这一词最早出现在1885年,英国生物学家兼统计学家——弗朗西斯⋅高尔顿(Francis Galton )在研究遗传现象时引进了这一名词.他研究分析了孩子和父母身高关系后发现:虽然高个子的父母会有高个子的后代,但后代的增高并不与父母的增高等量.他称这一现象为“向平常高度的回归”.尔后,他的朋友麦尔逊等人搜集了上千个家庭成员的身高数据,分析出儿子的平均身高和父亲的身高x 大致为如下关系:(英寸) 93.33516.0ˆ+=y●【回归名称的来历】这表明:(1)父亲身高增加1英寸,儿子的身高平均增加0.516英寸.(2)高个子父辈有生高个子儿子的趋势,但儿子的平均身高要比于父辈低一些.如x =80,那么低于父辈的平均身高.(3)低个子父辈的儿子们虽为低个子,但其平均身高要比父辈高一些.如x =80,那么高于父辈的平均身高,01.75ˆ=y,01.75ˆ=y●【回归名称的来历】可见儿子的高度趋向于“回归”到平均值而不是更极端,这就是“回归”一词的最初含义.诚然,如今对回归这一概念的理解并不是高尔顿的原意,但这一名词却一直沿用下来,成为数理统计中最常用的概念之一.回归分析的思想早已渗透到数理统计学科的其他分支,随着计算机的发展和各种统计软件的出现,回归分析的应用越来越广泛.主要内容§9.1相关分析§9.2回归分析在大量的实际问题中,随机变量之间虽有某种关系,但这种关系很难找到一种精确的表示方法来描述.例如,人的身高与体重之间有一定的关系,知道一个人的身高可以大致估计出他的体重,但并不能算出体重的精确值.其原因在于人有较大的个体差异,因而身高和体重的关系,是既密切但又不能完全确定的关系.随机变量间类似的这种关系在大自然和社会中屡见不鲜.例如,农作物产量与施肥量的关系,商业活动中销售量与广告投入的关系,人的年龄与血压的关系,每种股票的收益与整个市场收益的关系,家庭收入与支出的关系等等这种大量存在于随机变量间既互相联系,但又不是完全确定的关系,称为相关关系.从数量的角度去研究这种关系,是数理统计的一个任务.这包括通过观察和试验数据去判断随机变量之间有无关系,对其关系大小作出数量上的估计,我们把这种统计分析方法称为相关分析.相关分析通常包括考察随机变量观测数据的散点图、计算样本相关系数以及对总体相关系数的显著性检验等内容.●9.1.1散点图散点图是描述变量之间关系的一种直观方法.我们用坐标的横轴代表自变量X ,纵轴代表因变量Y ,每组观测数据(x i ,y i )在坐标系中用一个点表示,由这些点形成的散点图描述了两个变量之间的大致关系,从中可以直观地看出变量之间的关系形态及关系强度.图9-1 不同形态的散点图(a)(b)(c)(d)●9.1.1散点图图9-1 不同形态的散点图从散点图可以看出,变量间相关关系的表现形态大体上可分为线性相关、非线性相关、不相关等几种.就两个变量而言,如果变量之间的关系近似地表现为一条直线,则称为线性相关,如图9-1(a)和(b);(a)(b)(c)(d)●9.1.1散点图图9-1 不同形态的散点图如果变量之间的关系近似地表现为一条曲线,则称为非线性相关或曲线相关;如图9-1(c);如果两个变量的观测点很分散,无任何规律,则表示变量之间没有相关关系,如图9-1(d).(a)(b)(c)(d)●9.1.1散点图图9-1 不同形态的散点图在线性相关中,若两个变量的变动方向相同,一个变量的数值增加,另一个变量的数值也随之增加,或一个变量的数值减少,另一个变量的数值也随之减少,则称为正相关,如图9-1(a);(a)(b)(c)(d)●9.1.1散点图图9-1 不同形态的散点图若两个变量的变动方向相反,一个变量的数值增加,另一个变量的数值随之减少,或一个变量的数值减少,另一个变量的数值随之增加,则称为负相关,如图9-1(b).(a)(b)(c)(d)●9.1.1散点图通过散点图可以判断两个变量之间有无相关关系,并对变量间的关系形态做出大致的描述,但散点图不能准确反映变量之间的关系密切程度.因此,为准确度量两个变量之间的关系密切程度,需要计算相关系数.●9.1.2相关系数相关系数是对两个随机变量之间线性关系密切程度的度量.若相关系数是根据两个变量全部数据计算的,称为总体相关系数.设X ,Y 为两个随机变量,由定义4.5知,当D (X )D (Y )≠0时,总体相关系数的计算公式为:其中Cov (X ,Y )为变量X 和Y 的协方差,D (X )和D (Y )分别为X 和Y 的方差.,),(Cov DY DX Y X XY =ρ●9.1.2相关系数设(x i ,y i ),i =1,2,…,n ,为(X ,Y )的样本,记,11∑==n i i x n x ,11∑==ni i y n y ,)(11122∑=--=n i i x x x n s ∑=--=ni i y y y n s 122)(11●9.1.2相关系数【定义9.1】若s x s y ≠0,称为{x i }和{y i }的相关系数(也可简称为样本相关系数).r xy 常简记为r .r xy 的性质:(1)|r xy |≤1(2)|r xy |=1时,(x i ,y i ),i =1,2,…,n 在一条直线上.∑∑==----==n i i in i i i y x xyxy y y x xy y x x s s s r 1221)()())((●9.1.2相关系数【定义9.2】当r>0时,称{x i}和{y i}正相关,当r xy<0时,xy}和{y i}负相关,当r xy=0时,称{x i}和{y i}不相关称{xi实际应用中,为了说明{x}和{y i}的相关程度,通常将相i关程度分为以下几种情况:当|r|≥0.8时,可视{x i}与{y i}为高度线性相关;xy0.5≤|r|<0.8时,可视{x i}与{y i}为中度线性相关;xy0.3≤|r|<0.5时,视{x i}与{y i}为低度线性相关;xy当|r|<0.3时,说明{x i}与{y i}的线性相关程度极弱.xy●9.1.2相关系数说明:(1)有时个别极端数据可能影响样本相关系数,应用中要多加注意.(2)r xy=0,只能说明{x i}与{y i}之间不存在线性关系,并不能说明{xi}与{y i}之间无其他关系.(3)一般情况下,总体相关系数ρXY是未知的,通常是将样本相关系数rxy 作为ρXY的估计值,于是常用样本相关系数推断两变量间的相关关系.这一点要和相关系数的显著性检验结合起来应用.9.1.2相关系数【例9-1】用来评价商业中心经营好坏的一个综合指标是单位面积的营业额,它是单位时间内(通常为一年)的营业额与经营面积的比值.对单位面积营业额的影响因素的指标有单位小时车流量、日人流量、居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分.这几个指标中车流量和人流量是通过同时对几个商业中心进行实地观测而得到的.而居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分是通过随机采访顾客而得到的平均值数据.9.1.2相关系数【例9-1】某市随机抽取20个商业中心有关数据图9-2 商业中心经营状况指标与数据9.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.解:设各指标(变量)的变量名分别为:单位面积营业额:y,每小时机动车流量:x1,日人流量:x2,居民年消费额:x3,对商场环境的满意度:x4,对商场设施的满意度:x5,为商场商品丰富程度满意度:x6.(1)利用Excel分别作出y与x1,x2,…,x6的散点图.●9.1.2相关系数【例9-1】解:图9-3 y与x1,x2,…,x6的散点图可以看到,各散点图的散点分布和一条直线相比均有一定差别.●9.1.2相关系数【例9-1】解:图9-3 y与x1,x2,…,x6的散点图其中单位面积营业额(y)与日人流量(x2)、居民年消费额(x3)的线性关系相对较明显一些.●9.1.2相关系数【例9-1】解:图9-3 y与x1,x2,…,x6的散点图y与商场商品丰富程度满意度(x6)有一定的线性关系,而y与其余几个变量的线性关系较弱.●9.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取的20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.解:(1)利用Excel分别作出y与x1,x2,…,x6的散点图.实验操作:编号y x1x2x3x4x5x61 2.50.51 3.9 1.947962 3.20.26 4.24 2.867463 2.50.72 4.54 1.618874 3.4 1.23 6.98 1.92610105 1.80.69 4.210.7184760.90.36 2.910.625657 1.70.13 1.43 1.884928 2.60.58 4.14 1.9971069 2.10.81 4.660.9685710 1.90.37 2.15 1.8749311 3.4 1.26 6.47 2.110101012 3.90.12 5.33 3.475671310.23 2.530.5652414 1.70.56 3.780.7774615 2.6 1.04 5.53 1.3107916 2.7 1.18 5.98 1.2887917 1.40.61 1.27 1.4867118 3.2 1.05 5.77 2.1671099.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取的20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.,x2,…,x6的相关系数解:(2)利用Excel分别计算y与x1A B C D E F G22y与x1y与x2y与x3y与x4y与x5y与x6230.41270.790480.794330.341240.450200.69749=CORREL($B2:$B21,C2:C21)计算准备9.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取的20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.解:(2)利用Excel分别计算y与x,x2,…,x6的相关系数1编号y x1x2x3x4x5x61 2.50.51 3.9 1.947962 3.20.26 4.24 2.867463 2.50.72 4.54 1.618874 3.4 1.23 6.98 1.92610105 1.80.69 4.210.7184760.90.36 2.910.625657 1.70.13 1.43 1.884928 2.60.58 4.14 1.9971069 2.10.81 4.660.9685710 1.90.37 2.15 1.8749311 3.4 1.26 6.47 2.110101012 3.90.12 5.33 3.475671310.23 2.530.5652414 1.70.56 3.780.7774615 2.6 1.04 5.53 1.3107916 2.7 1.18 5.98 1.2887917 1.40.61 1.27 1.4867118 3.2 1.05 5.77 2.16710919 2.9 1.06 5.71 1.7469920 2.50.58 4.11 1.85796y与x1y与x2y与x3y与x4y与x5y与x60.410.790.790.340.450.7计算结果●9.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取的20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.解:(2)利用Excel分别计算y与x1,x2,…,x6的相关系数从相关系数的取值来看,单位面积营业额(y)与日人流量(x2)、居民年消费额(x3)接近高度相关;A B C D E F G 22y与x1y与x2y与x3y与x4y与x5y与x6 230.41280.79050.79430.34120.45020.69749●9.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取的20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.解:(2)利用Excel分别计算y与x1,x2,…,x6的相关系数y与商场商品丰富程度满意度(x6)则属于中度相关;A B C D E F G 22y与x1y与x2y与x3y与x4y与x5y与x6 230.41280.79050.79430.34120.45020.69749●9.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取的20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.解:(2)利用Excel分别计算y与x1,x2,…,x6的相关系数y与每小时机动车流量(x1)、对商场环境的满意度(x4)、对商场设施的满意度(x5)为低度相关;A B C D E F G22y与x1y与x2y与x3y与x4y与x5y与x6 230.41280.79050.79430.34120.45020.69749●9.1.3相关性检验设(xi ,yi),i=1,2,…,n,为(X,Y)的样本,相关性检验也就是检验总体X,Y的相关系数是否为0,通常采用费歇尔(Fisher)提出的t分布检验,该检验可以用于小样本,也可以用于大样本.检验的具体步骤如下:1)提出假设:假设样本是从不相关的两个总体中抽出的,即H0:ρXY= 0,H1:ρXY≠ 0如果否定了H就认为X,Y是相关的.●9.1.3相关性检验2)可以证明,当H 0成立时,统计量 因为H 0立时,|r xy |应该很小,从而T 的观测值应该取值较小,于是,在显著水平α下H 0的拒绝域是若T 的观测值记为t 0,衡量观测结果极端性的P 值:P = P {| T | ≥ | t 0|} = 2P {T ≥ | t 0 |})2(~122---=n t r n r T xyxy212xyxyr n r t --=)},2(|{|2/-≥n t t α●9.1.3相关性检验【例9-2】利用例9-1的数据,在显著水平 =0.05下,检验单位面积营业额与各变量之间的相关性.解:在例9.1的Excel工作表中继续如下操作:A B C D E F G22y与x1y与x2y与x3y与x4y与x5y与x623r=0.41270.790480.794330.341240.450200.69749 =B23*SQRT(20-2)/SQRT(1-B23^2)24t= 1.9224 5.4756 5.5519 1.5402 2.1391 4.129625P=0.0705 3.36E-05 2.86E-050.14090.46390.0006 =TDIST(B24,20-2,2)计算准备●9.1.3相关性检验【例9-2】利用例9-1的数据,在显著水平 =0.05下,检验单位面积营业额与各变量之间的相关性.解:在例9.1的Excel工作表中继续如下操作:编号y与x1x1x2x3x4x5x61 2.50.51 3.9 1.947962 3.20.26 4.24 2.867463 2.50.72 4.54 1.618874 3.4 1.23 6.98 1.92610105 1.80.69 4.210.7184760.90.36 2.910.625657 1.70.13 1.43 1.884928 2.60.58 4.14 1.9971069 2.10.81 4.660.9685710 1.90.37 2.15 1.8749311 3.4 1.26 6.47 2.110101012 3.90.12 5.33 3.475671310.23 2.530.5652414 1.70.56 3.780.7774615 2.6 1.04 5.53 1.3107916 2.7 1.18 5.98 1.2887917 1.40.61 1.27 1.4867118 3.2 1.05 5.77 2.16710919 2.9 1.06 5.71 1.7469920 2.50.58 4.11 1.85796y与x1y与x2y与x3y与x4y与x5y与x6r=0.412710.790480.794330.341240.45020.69749t= 1.92235 5.47556 5.54751 1.54023 2.13905 4.12956P=0.07053 3.4E-05 2.9E-050.14090.046390.00063计算结果●9.1.3相关性检验【例9-2】利用例9-1的数据,在显著水平 =0.05下,检验单位面积营业额与各变量之间的相关性.解:在例9.1的Excel工作表中继续如下操作:检验结果来看,单位面积营业额(y)与日人流量(x2)、居民年消费额(x3)、商场商品的丰富程度满意度(x6)、A B C D E F G 22y与x1y与x2y与x3y与x4y与x5y与x6 23r=0.41270.790480.794330.341240.450200.69749 24t= 1.9224 5.4756 5.5519 1.5402 2.1391 4.1296 25P=0.0705 3.36E-05 2.86E-050.14090.46390.0006●9.1.3相关性检验【例9-2】利用例9-1的数据,在显著水平α=0.05下,检验单位面积营业额与各变量之间的相关性. 解:在例9.1的Excel 工作表中继续如下操作:对商场设施的满意度(x 5)的相关系数显著不为0(P <α=0.05),即其相关性显著;A B C D E F G 22y 与x1y 与x2y 与x3y 与x4y 与x5y 与x623r =0.41270.790480.794330.341240.450200.6974924t = 1.9224 5.4756 5.5519 1.5402 2.1391 4.129625P =0.07053.36E-052.86E-050.14090.46390.0006●9.1.3相关性检验【例9-2】利用例9-1的数据,在显著水平 =0.05下,检验单位面积营业额与各变量之间的相关性. 解:在例9.1的Excel 工作表中继续如下操作:而不能拒绝y 与每小时机动车流量(x 1)、对商场环境的满意度(x 4)相关系数为0的假设(P >0.05),即其相关性不显著.A B C D E F G 22y 与x1y 与x2y 与x3y 与x4y 与x5y 与x623r =0.41270.790480.794330.341240.450200.6974924t = 1.9224 5.4756 5.5519 1.5402 2.1391 4.129625P =0.07053.36E-052.86E-050.14090.46390.0006回归分析是针对两个或两个以上具有相关关系的变量,研究它们的数量伴随关系,并通过一定的数学表达式将这种关系描述出来,建立回归模型.回归分析中总假设因变量是随机变量,自变量可以是随机变量也可以是一般变量(可以控制或精确测量的变量),我们只讨论自变量为一般变量的情况.为简单起见,以后的所有随机变量及其观测值均用小写字母表示.如果设随机变量y是因变量,x1,x2,…,xn是影响y的自变量,回归模型的一般形式为:y= f (x1,x2,…,x n) + ε其中ε为均值为0的正态随机变量,它表示除x1,x2,…,x n之外的随机因素对y的影响.在回归分析中,当只有一个自变量时,称为一元回归分析;当自变量有两个或两个以上时,称为多元回归分析;f是线性函数时,称线性回归分析,所建回归模型称为线性回归模型;f是非线性函数时,称非线性回归分析,所建回归模型称为非线性回归模型.线性回归模型的一般形式为:其中,β0和βi (i =1,2,…,k )是未知常数,称为回归系数,实际中常假定ε~N (0,σ2).一元线性回归模型的一般形式为:由ε~N (0,σ2)的假定,容易推出y ~N (β0+β1x ,σ2). 本章主要讨论一元线性回归分析和可化为线性回归的一元非线性回归分析.它们是反映两个变量之间关系的简单模型,但从中可了解到回归分析的基本思想、方法和应用,22110εββββ+++++=k k x x x y ,110εββ++=x y ),0(~2σεN●9.2.1一元线性回归分析让我们用一个例子来说明如何进行一元线性回归分析. 为了研究合金钢的强度和合金中含碳量的关系,专业人员收集了12组数据如表9-1所示.表9-1 合金钢的强度与合金中含碳量的关系序号123456789101112含碳量x(%)0.100.110.120.130.140.150.160.170.180.200.210.23合金钢的强度y(107Pa)42.043.045.045.045.047.549.053.050.055.055.060.0 试根据这些数据进行合金钢的强度y(单位:107Pa)与合金中含碳量x(%)之间的回归分析.●9.2.1一元线性回归分析为了研究这些数据中所蕴含的规律性,首先在Excel中由12对数据作出散点图,如图9-7所示.图9-7 画散点图从图看到,数据点大致落在一条直线附近,这告诉我们变量x和y之间大致可看作线性关系.●9.2.1一元线性回归分析为了研究这些数据中所蕴含的规律性,首先在Excel中由12对数据作出散点图,如图9-7所示.图9-7 画散点图从图中还看到,这些点又不完全在一条直线上,这表明x和y的关系并没有确切到给定x就可以唯一确定y的程度.●9.2.1一元线性回归分析为了研究这些数据中所蕴含的规律性,首先在Excel中由12对数据作出散点图,如图9-7所示.图9-7 画散点图事实上,还有许多其它随机因素对y产生影响.●9.2.1一元线性回归分析如果只研究x 和y 的关系,可考虑建立一元线性回归模型:(9.1)其中ε是除含碳量x 外其它诸多随机因素对合金钢强度y 的综合影响,假定它是零均值的正态随机变量. 由(9.1)式,不难算得y 的数学期望:(9.2)该式表示当x 已知时,可以精确地算出E (y ).称方程(9.2)为y 关于x 的回归方程.,110εββ++=x y ),0(~2σεN x y E 10)(ββ+=●9.2.1一元线性回归分析现对变量x ,y 进行了n 次独立观察,得样本(x i ,y i )(i =1,2,…,n ).据(9.1)式,此样本可由方程(9.3)来描述.这里εi 是第i 次观测时ε的值,是不能观测到的 由于各次观测独立,εi 看作是相互独立与ε同分布的随机变量.即有y i = β0+ β1x i + εi , (9.4)εi 相互独立,且εi ~N (0,σ2),i =1,2,…,ni i i x y εββ++=10●9.2.1一元线性回归分析y i = β0+ β1x i + εi , (9.4)εi 相互独立,且εi ~N (0,σ2),i =1,2,…,n(9.4)给出了样本(x 1,y 1),(x 2,y 2),…,(x n ,y n )的概率性质.它是对理论模型进行统计推断的依据,也常称(9.4)式为一元线性回归模型.要建立一元线性回归模型,首先利用n 组独立观测数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )来估计β0和β1,以估计值和分别代替(9.2)式中的β0和β1,得到(9.5)x y 10ˆˆˆββ+=●9.2.1一元线性回归分析(9.5) 由于此方程的建立有赖于通过观察或试验积累的数据,所以称其为经验回归方程(或经验公式),经验回归方程也简称为回归方程,其图形称为回归直线.当给定x= x0时,称为拟合值(预测值或回归值).那么,如何利用n组独立观察数据来估计β0和β1呢?一般常用最小二乘估计法和最大似然估计法,下面只介绍β和β1的最小二乘估计法.xy1ˆˆˆββ+=●9.2.1一元线性回归分析1.参数β0和β1的最小二乘估计设对模型(9.1)中的变量x ,y 进行了n 次独立观察,得样本(x i ,y i )(i =1,2,…,n ).由(9.3)式知随机误差εi =y i –(β0+β1x i ).最小二乘法的思想是:由x i ,y i 估计β0,β1时,使误差平方和达到最小的,分别作为β0,β1的估计,并称和为β0和β1的最小二乘估计.∑=+-=n i i i x y Q 121010)]([),(ββββ。