数理统计结课论文

  • 格式:doc
  • 大小:3.93 MB
  • 文档页数:30

下载文档原格式

  / 30
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

黑龙江八一农垦大学

数理统计中回归分析的探究与应用

回归分析问题探究

摘要

本文主要针对数理统计中的回归分析问题,通过对一元线性回归、多元线性回归以及非线性回归原理的探究,分别运用了SPSS和MATLAB软件进行实例分析以及进一步的学习。

首先,通过变量之间关系的概念诠释引出回归函数;其次,针

对回归函数,分别对一元线性回归原理上的学习,了解并会运用这三种线性回归模型、参数估计和回归系数的显著性检验来处理和解决实际的一元线性回归问题;接着,对多元线性回归和非线性回归进行学习,掌握它们与一元线性回归在理论和实践的联系与区别;然后,通过实际问题运用SPSS进行简单的分析,熟悉SPSS软件的使用步骤和分析方法,能够运用SPSS进行简单的数理分析;最后,用MATLAB编程来处理线性回归问题,通过多种方法进行比较,进行线性回归拟合计算并输出Logistic模型拟合曲线。

关键词:回归分析;一元线性回归;多元线性回归;非线性回归;SPSS;MATLAB

一、回归概念

一般来说,变量之间的关系大致可以分为两类:一类是确定性的,即变量之间的关系可以用函数的关系来表达;另一类是非确定性的,这种不确定的关系成为相关关系。相关关系是多种多样的,回归分析就是研究相关关系的数理统计方法。它从统计数据出发,提供建立变量之间相关关系的近似数学表达式——经验公式的方法,给出相关行的检验规则,并运用经验公式达到预测与控制的目的。

如随机变量Y与变量x(可能是多维变量)之间的关系,当自变量x确定后,因变量Y 的值并不跟着确定,而是按照一定的停机规律(随机变量Y的分布)取值。这是我们将它们之间的关系表示为

其中是一个确定的函数,称之为回归函数,为随机项,且。回归分析的任务之一就是确定回归函数。当是一元线性函数形时,称之为一元线性回归;当是多元线性函数形时,称之为多元线性回归;当是非线性函数形时,称之为非线性回归。

二、回归分析

2.1 一元线性回归分析

2.1.1 一元线性回归模型

设随机变量Y与x之间存在着某种相关关系,这里x是可以控制或可以精确测量的普通变量。对于取定的一组不完全相同的值做独立实验得到n对观察值

一般地,假定x与Y之间存在的相关关系可以表示为

其中为随机误差且,未知,a和b都是未知参数。这个数学模型成为医院线性回归模型,称为回归方程,它所代表的直线称为回归直线,称b为回归系数。对于一元线性回归模型,显然有。

回归方程放映了变量X与随机变量Y之间的相关关系。回归分析就是要根据样本观测值找到a和b适当的估计值,建立线性回归方程,从而利用这个公式来近似刻画变量x与随机变量Y之间的关系。

2.1.2 参数估计

如何根据观测数据得到回归方程

呢?一个直观的做法就是:选取适当的a和b,使得直线上的点与实验数据中对应点之间的误差尽可能小。若记为直线上的点,为实验数据点,则表达式

就刻画了直线上点之间的偏离程度。通常我们记

这样就表示直线上相应点与全体数据点之间总的偏离程度。总得偏离程度越小,回归方程就越能客观放映出变量x与Y之间的线性关系。所以,在数理统计中,将能够使取得最小值的a与b所确定的方程视为变量x与Y之间的线性回归方程。而且把利用这种思想求出的估计值成为参数a与b的最小二乘估计,这种方法成为最小二乘法。

我们利用微积分的知识来确定取得最小值的条件。将表达式

分别对位置参数a与b求偏导数,并令其为零,即得

整理得

上式称为正规方程组。由于不完全相同,所以正规方程组的系数行列式

不为零。因此,我们得到的正规方程组的唯一解为

因此,我们得到了x与y之间的线性回归方程

这个线性回归方程表明,经验回归直线L是通过这n个数据点几何重心且斜率为的直线。为了计算方便起见,我们引入如下记号:

这样

2.1.3 回归系数的显著性检验

在上面的论述中,运用最小二乘法求回归方程的条件除了要求诸不完全相同外,没有其它条件,也就是说无论变量x与Y是否具有线性关系,只要诸不完全相同,使用最小二

乘法总能求出a与b的一个无偏估计与,并能得到变量x与Y的一个线性回归方程。若变量x与Y之间根本不存在线性关系,那么这个线性回归方程就没有任何意

义。因此,实际问题中,我们必须对用最小二乘法求出的线性回归方程进行检验,来判断变量x与Y之间相关关系是否真的可由所得到的线性回归方程给出。

若果变量x与Y之间存在线性相关关系,那么模型中b不应为零。否则,就有,这意味着x与Y没有任何关系。因此,我们需要假设

进行检验。当拒绝时,认为变量x与Y之间有显著的线性相关关系,也称为回归效果显

著。否则,称为回归效果不显著。这时变量x和Y之间的关系有很多种可能:或许二者之间关系不是线性的,或许除变量x之外还有其他不可忽视的因素对Y产生影响,甚至是它们的相关关系很弱,不是必须重视的。

为了给出显著检验的拒绝域,先做一些准备工作,记

称SS为总偏差平方和,它反映了数据中变量取值的离散程度。即

称为回归平方和,它放映了n个回归数值相对于的离散程度,它是由x去不同的值而引起的。将带入上述回归平方和表达式中,有

其中称为第i个残差,i=1,2,……,n。称为残差平方和,呀反映了n次试验的累计误差。由回归方程的意义知道,它是n次试验的累计误差的最小值,即

小面推导残差平方和的计算公式,由

推得

这样我们就得到平方和的分解公式

对回归系数的显著性检验一般有一下三种方法

(1)t检验法(回归系数的显著性检验)

取检验统计量

可以证明,当成立时,于是,在显著性水平下,当

时,拒绝,认为回归效果显著。在回归分析中,t 检验用于检验回归系数的显著性,即检验因变量y对自变量x的影响程度是否显著。(2)F检验法(回归系数的显著性检验)

取检验统计量

这里的F检验其实就是方差分析的内容,见下表2.1

表2.1 一元线性回归方程的方差分析表

方差来源平方和自由度均方F值