统计第七章讲稿
- 格式:doc
- 大小:455.00 KB
- 文档页数:8
1 第七章 相关分析和回归分析 管理中经常要研究变量与变量之间的关系,并据此做出决策。前面几章除2检验研究了变量之间是否独立或服从某种已知的分布外,其他的都是研究服从某种已知分布的随机变量的统计规律的。相关分析要研究的是更广泛的两个变量之间的关系。而回归分析则是要更具体地确定两个变量之间是否存在着某种统计关系,并据此对变量之间的关系有更深入的认识。
第一节 相关分析
一、变量间的关系和散点图 迄今为止所研究的变量之间的关系大多是完全确定的关系,即对于相互有关的两个变量,当一个变量确定以后另一个变量也就按某种规律唯一地确定下来了。例如,在价格P确定的条件下,销售收入Y与所销售的产品数量X之间的关系就是一种确定性的关系:Y=P·X。 但社会经济现象中还存在另一种变量之间的关系。这类变量之间只存在某种程度的不确定关系。例如,粮食产量与施肥量之间的关系就属于这种关系。一般地说,施肥多产量就高,因此,可以肯定当施肥量落在一定的范围内时,施肥越多,产量应当越高。但是,即使是在相邻的地块,采用同样的种子,施相同类型和数量的肥料,粮食产量仍会有所差异。统计上把这种不确定性的关系称为相关关系。相关分析就是研究这种变量间的不确定关系及其规律性的统计方法。 确定性关系和相关关系之间往往没有严格的界限。由于测量误差等原因,确定性关系在实际中往往通过相关关系表现出来;另一方面,通过对事物内部发展变化规律的更深刻的认识,相关关系又可能转化为确定性关系。 如果我们把存在相关关系的变量的一组观察值,描在X-Y坐标平面上就得到这组观察值的散点图。例如,某地区的人均年收入与同期某种耐用消费品的销售额之间的关系一般就是一种相关关系。例7-1就是某地区对这两个存在相关关系变量的一组观察值。如果作一直角坐标系,以人均月收入xi为横轴,销售额yi为纵轴,把表7-1中的数据画在这个X-Y坐标平面上,就得到这组观察值的散点图,如图7-1所示。 例7-1。某地区的人均月收入与同期某种耐用消费品的销售额之间的统计资料如表7-1所示。现要求确定两者之间是否存在相关关系。
表7-1 某地人均月收入与同期某种耐用消费品的销售额 年份 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 人均收入(千元) 1.6 1.8 2.3 3.0 3.4 3.8 4.5 4.8 5.2 5.4 销售额(百万元) 4.7 5.9 7.0 8.2 10.5 12 13 13.5 14 15
散点图直观明确地反映了变量X的值与变量Y的值之间的关系。从图7-1我们可以看出所有反映观察值的点几乎都落在一条直线上,可见两者的变化之间存在密切的关系。在本例中销售额的增长与人均年收入的增长几乎一直保持一定的比例。我们把这种相关关系称为线性相关关系。变量之间的相关关系除了线性相关关系之外还可能存在各种曲线相关关系,甚至是不相关的关系。
下面我们着重研究线性相关关系,对于某些曲线相关关系的问题,我们一般先把 2
它们转化为线性相关问题,然后用处理线性相关关系的方法来解决。 二、相关系数 具有相关关系的两个变量之间相关的程度可以用相关系数来表示。样本的相关系数常用r来表示。总体的相关系数常用来表示。其计算公式如下:
22yyxxyyxx
r
iiii
(7-1)
其中:iiyx,分别为变量X与Y的观察值, yx, 分别为变量X与Y的观察值的均值。
计算总体相关系数的公式也完全是同样的,只是计算r时采用样本的数据,而计算时采用总体的全部数据。
r2通常称为检验系数。r2越大,说明Y与X之间的线性相关程度越高;r2越
小,说明Y与X之间的线性相关程度越低。 按上述公式定义的r和都有:11r,11 。对于r的不同的具体值两变量间的相关关系分析如下: 1. 当r=1时,称变量Y与X为完全线性正相关;当r=-1时,称为完全线性负相关。 2. 当00时称Y与X正相关。当r<0时称Y与X是负相关。一般地说,当r209.时,称两变量间为“强”相关;
0.8r20.9时,称两变量间为“紧密”相关;0.6r20.8时,称两变量间为“一般”相关。r205.时,称两变量间为“弱”相关。但是,要更精确地度量两个变量间的相关关系,还需要考虑样本的大小。上述标准也仅是一种比较粗糙的判别方法。 3. 当r=0时,称变量Y与X为完全线性不相关。此时变量Y的变化与变量X的变化不存在线性相关关系。 对于例7-1的数据我们可以计算得到人均月收入与同期某种耐用消费品的销售额之间相关系数为: r=0.989,r2=0.979
因此,我们说当地人均月收入与同期某种耐用消费品的销售额之间是强相关的。
- 第二节 一元线性回归分析
一、一元线性回归模型 对于存在不确定性关系的两个变量,我们不仅要研究它们之间的相关关系,而且还希望进一步探索出它们之间的统计规律性。对这类统计规律性的研究就称为回归分析。回归分析就是以变量间的过去观察值为基础,探测某一未知变量未来值的一种统计分析方法。回归分析与相关分析不同。相关分析仅仅是研究变量之间是否存在相互依存关系,这种依存关系不一定是主从或因果关系;而回归分析则要研究变量间的主 3
从或因果关系,因此需要测定变量之间数量变化的规律。所以回归分析总是要建立一定的数学模型,以便对因变量进行估计和预测。根据回归分析所得到的数学表达式称为回归方程。 以表7-1所提供的数据为例,这种耐用消费品的销售额随当地人均月收入的增加而增加。因此,我们以人均月收入为自变量,以销售额为因变量来描述它们之间的关系。即: yi=a+bxi+ei in12,,,
其中:yi是因变量Y的第i个观察值, xi是自变量X的第i个观察值
a与b是回归系数,
n是样本容量, ei为对应于Y的第i个观察值的随机误差,这是一个随机变量。
在上述回归方程中,自变量X是个非随机变量,对于X的第i个观察值xi,Y的观察值yi是由两个部分所组成的:bxi和ei,前者是一个常数,后者是一个随机变量,所以也是一个随机变量。 对于上述回归模型中的随机误差ei要求满足如下的假设条件: 1. 应当服从正态分布,即ei满足“正态性”的假设。 2. ei的均值为零,即E(ei)=0,ei满足“无偏性”的假设。 3. ei的方差等于2ei=ei2,即所有的ei的方差都相同,即满足“共方差性”的假设。 4. 各个ei间相互独立,即对于任何两个随机误差ei和ejij其协方差等于
零,即,Cov(ei,ej)=0, ij),即满足“独立性”的假设。 综上所述,随机误差必须服从独立的相同分布。 基于上述假定,随机变量的数学期望和方差分别是: E(yi)=a+bxi iy2
=ei2
由此: yi~N(a+bxi,ei2) 这就意味着,当X=xi时,yi是一个服从正态分布的随机变量的某一个取值。如果不考虑式中的误差项,我们就得到简单的式子: yi=a+bx
i
这一式子称为Y对X的回归方程。由于方程只含有一个自变量,而且是线性的,
因此称为一元线性回归方程。依据这一方程在直角坐标系中所作的直线就称为回归直线。
二、模型参数的估计和估计平均误差 1. 回归参数的估计 回归模型中的参数a与b在一般情况下都是未知数,必须根据样本数据(xi,yi)来估计。确定参数a与b值的原则是要使得样本的回归直线同观察值的拟合状态最好,即要使得偏差最小。为此,可以采用“最小二乘法”来确定。 对应于每一个xi,根据线性回归方程可以求出一个yi,它就是yi的一个估计值。 4
估计值和观察值之间的偏差eyyiii。有n个观察值就有相应的n个偏差。要使模型的拟合状态最好,就是说要使n个偏差的总和最小。但为了计算方便起见,我们以误差的平方和最小为标准来确定回归模型。这就要求
Qyyyabxiiniiin
121
2
是个极小值。 根据微积分中的极值定理,要使上式取极值,其对a与b所求的偏导数应为0。即:
QayabxQbyabxxiiiii20
20 经整理后可得: ynabxxyaxbxiiiiii
2 解上式,可得:
bxynxyxnxaynbxniiiiiiii
1122
记 XxnYynii, 。
SxxxnxSxxyyxynxySyyynyXXiiiXYiiiiiiYYiii
222
222
111 于是,得到参数a与b的简单表达形式如下: bSSaybxXYXX
求出参数a与b以后,就可以得到回归模型 yabx
由此,只要给定了一个xi值,就可以根据回归模型求得一个yi来作为实际值yi
的预测值。
根据表7-1所提供的数据,以人均月收入为自变量x,以销售额为因变量y我们可以得到回归方程为: y=0.999+2.620x (7-3)
2. 估计平均误差的计算