统计学多元回归分析方法

  • 格式:doc
  • 大小:1.54 MB
  • 文档页数:33

下载文档原格式

  / 33
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多元线性回归分析

在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。

1.1 回归分析基本概念

相关分析和回归分析都是研究变量间关系的统计学课题。在应用中,两种分析方法经常相互结合和渗透,但它们研究的侧重点和应用面不同。

在回归分析中,变量y称为因变量,处于被解释的特殊地位;而在相关分析中,变量y与变量x处于平等的地位,研究变量y与变量x的密切程度和研究变量x与变量y的密切程度是一样的。

在回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;而在相关分析中,变量x和变量y都是随机变量。

相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数;而回归分析则是侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特定变量的影响程度。

具体地说,回归分析主要解决以下几方面的问题。

(1)通过分析大量的样本数据,确定变量之间的数学关系式。

(2)对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。

(3)利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。

作为处理变量之间关系的一种统计方法和技术,回归分析的基本思想和方法以及“回归(Regression)”名称的由来都要归功于英国统计学F·Galton(1822~1911)。

在实际中,根据变量的个数、变量的类型以及变量之间的相关关系,回归分析通常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等类型。

1.2 多元线性回归

1.2.1 多元线性回归的定义

一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。

一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照

时数、平均湿度等。

因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。

研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。

多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。

1.2.2 多元线性回归模型

1.2.2.1元线性回归模型及其矩阵表示

设y 是一个可观测的随机变量,它受到p 个非随机因索

1x ,2x ,…,p x 和随机因素ε的影响,若y 与1x ,2x ,…,p x 有如下线性关

系:

ε

βββ++++=p p x x y 110 (1.1)

其中0β,1β,…,p β是1+p 个未知参数,ε是不可测的随机误差,且通常假定),(20N ~σε.我们称式(1.1)为多元线性回归模型.称y 为被解释变量(因变量),),,2,1(p i x i =为解释变量(自变量). 称 p p x x y E βββ+++= 110)(

(1.2)

为理论回归方程.

对于一个实际问题,要建立多元回归方程,首先要估计出未知参数0β,1β,

…,p β,为此我们要进行n 次独立观测,得到n 组样本数据

);,,,(21i ip i i y x x x ,n i ,,2,1 =,他们满足式(1.1),即有

⎪⎪

⎩⎪⎪⎨

⎧+++++=+++++=+++++=n

np p n n n p p p p x x x y x x x y x x x y εββββεββββεββββ 221102

2222211021

112211101 (1.3) 其中n εεε,,,21 相互独立且都服从),0(2σN .

式(1.3)又可表示成矩阵形式: εβ+=X Y (1.4)

这里,T n y y y Y ),,,(21 =,T p ),,,(10ββββ =,T n ),,,(21εεεε =,

),0(~2n n I N σε,n I 为n 阶单位矩阵.

⎥⎥

⎥⎥⎦

⎢⎢⎢⎢

⎢⎣⎡=np n n p p x x x x x x

x x x X 21

22221

11211

111 )1(+⨯p n 阶矩阵X 称为资料矩阵或设计矩阵,并假设它是列满秩的,

即1)(+=p X rank .

由模型(1.3)以及多元正态分布的性质可知,Y 仍服从n 维正态分布,它的期望向量为βX ,方差和协方差阵为n I 2σ,即

),(~2n n I X N Y σβ.

1.2.2.2参数的最小二乘估计及其表示

1. 参数的最小二乘估计