多元线性回归方程的建立
- 格式:docx
- 大小:136.25 KB
- 文档页数:12
多元线性回归方程的建立建立多元线性回归方程,实际上是对多元线性模型(2-2-4)进行估计,寻求估计式(2-2-3)的过程。
与一元线性回归分析相同,其基本思想是根据最小二乘原理,求解使全部观测值与回归值的残差平方和达到最小值。
由于残差平方和(2-2-5)是的非负二次式,所以它的最小值一定存在。
根据极值原理,当Q取得极值时,应满足由(2-2-5)式,即满足(2-2-6)(2-2-6)式称为正规方程组。
它可以化为以下形式(2-2-7)如果用A表示上述方程组的系数矩阵可以看出A是对称矩阵。
则有(2-2-8)式中X是多元线性回归模型中数据的结构矩阵,是结构矩阵X 的转置矩阵。
(2-2-7)式右端常数项也可用矩阵D来表示即因此(2-2-7)式可写成Ab=D (2-2-10)或(2-2-11)如果A满秩(即A的行列式)那么A的逆矩阵A-1存在,则由(2-10)式和(2-11)式得的最小二乘估计为(2-2-12)也就是多元线性回归方程的回归系数。
为了计算方便往往并不先求,再求b,而是通过解线性方程组(2-2-7)来求b。
(2-2-7)是一个有p+1个未知量的线性方程组,它的第一个方程可化为(2-2-13)式中(2-2-14)将(2-2-13)式代入(2-2-7)式中的其余各方程,得(2-2-15)其中(2-2-16)将方程组(2-2-15)式用矩阵表示,则有Lb=F (2-2-17)其中于是b=L-1F (2-2-18)因此求解多元线性回归方程的系数可由(2-2-16)式先求出L,然后将其代回(2-2-17)式中求解。
求b时,可用克莱姆法则求解,也可通过高斯变换求解。
如果把b直接代入(2-2-18)式,由于要先求出L 的逆矩阵,因而相对复杂一些。
例2-2-1 表2-2-1为某地区土壤内含植物可给态磷(y)与土壤内所含无机磷浓度(x1)、土壤内溶于K2CO3溶液并受溴化物水解的有机磷浓度(x2)以及土壤内溶于K2CO3溶液但不溶于溴化物的有机磷(x3)的观察数据。
二、多元线性回归模型在多要素的地理环境系统中,多个(多于两个)要素之间也存在着相互影响、相互关联的情况。
因此,多元地理回归模型更带有普遍性的意义。
(一)多元线性回归模型的建立假设某一因变量y 受k 个自变量k x x x ,...,,21的影响,其n 组观测值为(ka a a a x x x y ,...,,,21),n a ,...,2,1=。
那么,多元线性回归模型的结构形式为:a ka k a a a x x x y εββββ+++++=...22110(3.2.11)式中:k βββ,...,1,0为待定参数; a ε为随机变量。
如果k b b b ,...,,10分别为k ββββ...,,,210的拟合值,则回归方程为ŷ=k k x b x b x b b ++++...22110(3.2.12)式中:0b 为常数;k b b b ,...,,21称为偏回归系数。
偏回归系数i b (k i ,...,2,1=)的意义是,当其他自变量j x (i j ≠)都固定时,自变量i x 每变化一个单位而使因变量y 平均改变的数值。
根据最小二乘法原理,i β(k i ,...,2,1,0=)的估计值i b (k i ,...,2,1,0=)应该使()[]min (2)12211012→++++-=⎪⎭⎫⎝⎛-=∑∑==∧n a ka k a a a na a a xb x b x b b y y y Q (3.2.13)有求极值的必要条件得⎪⎪⎩⎪⎪⎨⎧==⎪⎭⎫ ⎝⎛--=∂∂=⎪⎭⎫⎝⎛--=∂∂∑∑=∧=∧n a ja a a jn a a a k j x y y b Q y y b Q 110),...,2,1(0202(3.2.14) 将方程组(3.2.14)式展开整理后得:⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎨⎧=++++=++++=++++=++++∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑===================na a ka k n a ka n a ka a n a ka a n a ka n a aa k n a ka a n a a n a a a na a na aa k n a ka a n a a a n a a n a a na ak n a ka n a a n a a y x b x b x x b x x b x y x b x x b x b x x b x y x b x x b x x b x b x y b x b x b x nb 11221211101121221221121012111121211121011112121110)(...)()()(...)(...)()()()(...)()()()(...)()( (3.2.15)方程组(3.2.15)式,被称为正规方程组。
多元线性回归模型过程
多元线性回归是一种常用的回归分析模型,它可以用来分析两个或多个自变量之间的线性关系。
下面介绍多元线性回归模型的过程:
一、建立模型
1、观察原始数据:首先要收集需要分析的原始数据,从数据中观察现象背后
的规律来获取有效信息;
2、定义自变量与因变量:根据原始数据形成假设,确定要分析的自变量和因
变量,从而确定要分析的模型;
3、归纳回归方程式:运用最小二乘法解决回归方程,归纳出多元线性回归模型;
二、检验模型
1、显著性检验:检验所选变量是否对因变量有显著影响;
2、线性有效性检验:检验多元线性回归模型的线性有效性,确定拟合数据的完整性;
3、自相关性检验:检验各个自变量间的线性关系是否存在自相关现象;
4、影响因素较差检验:检验因变量的预测值与实际值之间的相对关系;
三、参数估计
1、极大似然估计:根据已建立的多元线性回归模型,可以运用极大似然估计,得出模型中未知参数的点估计值;
2、大致估计:利用已经进行检验的多元线性回归模型,对模型参数进行大致
估计,求出平均偏差平方根,从而估计模型的精确度;
四、分析模型
1、确定因子影响:根据已建立多元线性回归模型,可以求出每个自变量的系数,从而确定影响因变量的主要因素;
2、决定系数:可以利用模型求出每个自变量的决定系数,从而求得因变量对自变量的百分比影响;
3、对因变量施加假设:多元线性回归模型可以根据模型参数影响程度和数据情况,在每个自变量上施加多种假设,以确定模型最合理的假设;
4、模型检验:根据已建立的多元线性回归模型,可以运用张量分析,根据模型的指标,检验模型的被解释力水平,判断模型的有效性。
回归方程是如何建立的?一、回归分析的基本概念回归分析是一种常用的统计工具,用于探究变量之间的关系以及预测未来的趋势。
它通过建立数学模型,研究自变量与因变量之间的函数关系,从而实现对未知数据的预测。
回归方程便是其中最为重要的数学模型,它描述了自变量与因变量之间的关系,并可以据此进行预测和解释。
二、回归方程的建立过程1. 数据收集与整理在建立回归方程之前,首先需要收集相关的数据。
这些数据应当全面、真实地反映自变量和因变量之间的关系,以确保回归分析结果的准确性和可靠性。
之后,需要对数据进行整理和清洗,排除异常值、缺失值等干扰因素,使得数据具备一定的可靠性和精确性。
2. 变量选择与处理在建立回归方程时,需要明确自变量和因变量。
在选择自变量时,应根据实际问题和研究目的进行合理的选择,避免自变量之间的相关性过高,以免产生多重共线性问题。
同时,还可以进行变量的处理,如变量变换、指标构建等,以充分利用数据的信息。
3. 建立回归模型在选择好自变量和因变量之后,可以根据实际问题和数据情况选择适合的回归模型。
常见的回归模型有线性回归、多元线性回归、非线性回归等。
线性回归是最简单和常用的回归模型,它可以通过最小二乘估计法来估计模型参数,进而得到回归方程。
4. 模型评估与拟合完成回归模型的建立后,需要对模型进行评估和拟合。
通过检验回归模型的显著性、解释度和拟合度,可以评判回归模型的合理性和可靠性。
常用的模型评估指标有残差分析、决定系数、方差分析等。
三、回归方程的应用和限制1. 应用范围回归方程可以应用于各个领域,如经济学、社会学、医学等。
它可以用于预测未来的趋势和变化,为决策提供科学依据。
同时,回归方程还可以用于解释因果关系和探究变量之间的关系。
2. 限制与注意事项在应用回归方程时,需要注意以下几个问题。
首先,回归方程是基于当前数据建立的,对于未来数据的预测存在一定的不确定性。
其次,回归方程建立的前提是自变量和因变量之间存在一定的相关性,如果相关性较弱,则回归分析的结果可能不够可靠。
多元线性回归模型(1)模型准备多元线性回归模型是指含有多个解释变量的线性回归模型,用于解释被解释的变量与其他多个变量解释变量之间的线性关系。
其数学模型为:上式表示一种 p 元线性回归模型,可以看出里面共有 p 个解释变量。
表示被解释变量y 的变化可以由两部分组成:第一部分,是由 p 个解释变量 x 的变化引起的 y 的线性变化部分。
第二部分,是要解释由随机变量引起 y 变化的部分,可以用 \varepsilon 部分代替,可以叫随机误差,公式中的参数都是方程的未知量,可以表示为偏回归常数和回归常数,则多元线性回归模型的回归方程为:(2)模型建立首先在中国A股票市场中,根据各指标与估值标准 y 的关联度来选取变量,选取指标为:年度归母净利润 x_{1} 、年度营业收入 x_{2} 、年度单只股票交易量 x_{4} 、年度单只股票交易量金额 x_{6} 。
有如下表达式为:其中 y 是因变量, x_{1},x_{2},x_{4},x_{6} 是自变量,α为误差项,b_{1},b_{2},b_{4},b_{6} 为各项系数。
(3)中国A股票市场模型求解运用SPSS软件,运用多元线性回归方程可以得出如下:下表模型有4个自变量,模型调整后的拟合度为0.976,说明模型的拟合度非常好。
下表为方差分析表,告诉我们F 的值值为1.794,显著性概率p 为0.004小于0.005,因此自变量系数统计较为显著。
下表给出模型常数项和自变量系数,并对系数统计显著性进行检验,常数项的值为2.618,显著性为0.002,统计比较显著,其它指标的显著性都小于0.005,故该模型比较准确。
故得出中国A股市场中的估值水平与这四个指标的线性关系为:(4)美国NASDAQ市场模型求解下表模型有4个自变量,模型调整后的拟合度为0.862,说明模型的拟合度非常好。
下表为方差分析表,告诉我们 F 值为15.081,显著性概率 p 为0.005等于0.005,因此自变量系数统计较为显著。
多元线性回归推导过程常用算法一多元线性回归详解1此次我们来学习人工智能的第一个算法:多元线性回归.文章会包含必要的数学知识回顾,大部分比较简单,数学功底好的朋友只需要浏览标题,简单了解需要哪些数学知识即可.本章主要包括以下内容数学基础知识回顾什么是多元线性回归多元线性回归的推导过程详解如何求得最优解详解数学基础知识回顾我们知道,y=ax+b这个一元一次函数的图像是一条直线.当x=0时,y=b,所以直线经过点(0,b),我们把当x=0时直线与y轴交点到x轴的距离称为直线y=ax+b图像在x轴上的截距,其实截距就是这个常数b.(有点拗口,多读两遍)截距在数学中的定义是:直线的截距分为横截距和纵截距,横截距是直线与X轴交点的横坐标,纵截距是直线与Y轴交点的纵坐标。
根据上边的例子可以看出,我们一般讨论的截距默认指纵截距.既然已知y=ax+b中b是截距,为了不考虑常数b的影响,我们让b=0,则函数变为y=ax.注意变换后表达式的图像.当a=1时,y=ax的图像是经过原点,与x轴呈45°夹角的直线(第一,三象限的角平分线),当a的值发生变化时,y=ax 的图像与x轴和y轴的夹角也都会相应变化,我们称为这条直线y=ax的倾斜程度在发生变化,又因为a是决定直线倾斜程度的唯一的量(即便b不等于0也不影响倾斜程度),那么我们就称a为直线y=ax+b的斜率.斜率在数学中的解释是表示一条直线(或曲线的切线)关于(横)坐标轴倾斜程度的量.还是y=ax+b,我们知道这个函数的图像是一条直线,每个不同的x对应着直线上一点y.那么当自变量x的值变化的时候,y值也会随之变化.数学中我们把x的变化量成为Δx,把对应的y的变化量成为Δy,自变量的变化量Δx与因变量的变化量Δy的比值称为导数.记作y'.y'=Δy-Δx常用的求导公式在这部分不涉及,我们用到一个记住一个即可.4-矩阵和向量什么是向量:向量就是一个数组.比如[1,2,3]是一个有三个元素的向量.有行向量和列向量之分,行向量就是数字横向排列:X=[1,2,3],列向量是数字竖向排列,如下图什么是矩阵:矩阵就是元素是数组的数组,也就是多维数组,比如[[1,2,3],[4,5,6]]是一个两行三列的矩阵,也叫2*3的矩阵. 行代表内层数组的个数,列代表内层数组的元素数.一个矩阵中的所有数组元素相同.5-向量的运算:一个数乘以一个向量等于这个数同向量中的每个元素相乘,结果还是一个向量.2 * [1,2,3] = [2,4,6]一个行向量乘以一个列向量,是两个向量对位相乘再相加,结果是一个实数.= 11 + 22 + 3*3 = 14附加:转置转置用数学符号T来表示,比如W向量的转置表示为.转置就是将向量或者矩阵旋转九十度.一个行向量的转置是列向量,列向量的转置是行向量.一个m*n的矩阵转置是n*m的矩阵.注:以上概念完全是为了读者能容易理解,并不严谨,若想知道上述名词的严谨解释,请自行百度.什么是多元线性回归我们知道y=ax+b是一元一次方程,y=ax1+bx2+c(1和2是角标,原谅我的懒)是二元一次方程.其中,"次"指的是未知数的最大幂数,"元"指的是表达式中未知数的个数(这里就是x的个数).那么"多元"的意思可想而知,就是表达式中x(或者叫自变量,也叫属性)有很多个.当b=0时,我们说y=ax,y和x的大小始终符合y-x=a,图像上任意一点的坐标,y值都是x值的a倍.我们把这种横纵坐标始终呈固定倍数的关系叫做"线性".线性函数的图像是一条直线.所以我们知道了多元线性回归函数的图像一定也是一条直线.现在我们知道了多元线性回归的多元和线性,而回归的概念我们在人工智能开篇(很简短,请点搜索"回归"查看概念)中有讲述,所以多元线性回归就是:用多个x(变量或属性)与结果y的关系式来描述一些散列点之间的共同特性.这些x和一个y关系的图像并不完全满足任意两点之间的关系(两点一线),但这条直线是综合所有的点,最适合描述他们共同特性的,因为他到所有点的距离之和最小也就是总体误差最小.所以多元线性回归的表达式可以写成:y= w0x0 + w1x1 + w2x2 + . + wnxn (0到n都是下标哦)我们知道y=ax+b这个线性函数中,b表示截距.我们又不能确定多元线性回归函数中预测出的回归函数图像经过原点,所以在多元线性回归函数中,需要保留一项常数为截距.所以我们规定 y= w0x0 + w1x1 + w2x2 + . + wnxn中,x0=1,这样多元线性回归函数就变成了: y= w0 + w1x1 + w2x2 + . + wnxn,w0项为截距.如果没有w0项,我们 y= w0x0 + w1x1 + w2x2 + . + wnxn就是一个由n+1个自变量所构成的图像经过原点的直线函数.那么就会导致我们一直在用一条经过原点的直线来概括描述一些散列点的分布规律.这样显然增大了局限性,造成的结果就是预测出的结果函数准确率大幅度下降.有的朋友还会纠结为什么是x0=1而不是x2,其实不管是哪个自变量等于1,我们的目的是让函数 y= w0x0 + w1x1 + w2x2 + . + wnxn编程一个包含常数项的线性函数.选取任何一个x都可以.选x0是因为他位置刚好且容易理解.多元线性回归的推导过程详解1-向量表达形式我们前边回顾了向量的概念,向量就是一个数组,就是一堆数.那么表达式y= w0x0 + w1x1 + w2x2 + . + wnxn是否可以写成两个向量相乘的形式呢?让我们来尝试一下.假设向量W= [w1,w2.wn]是行向量,向量X= [x1,x2.xn],行向量和列向量相乘的法则是对位相乘再相加, 结果是一个实数.符合我们的逾期结果等于y,所以可以将表达式写成y=W * X.但是设定两个向量一个是行向量一个是列向量又容易混淆,所以我们不如规定W和X都为列向量.所以表达式可以写成 (还是行向量)与向量X 相乘.所以最终的表达式为:y= * X,其中也经常用θ(theta的转置,t是上标)表示.此处,如果将两个表达式都设为行向量,y=W * 也是一样的,只是大家为了统一表达形式,选择第一种形式而已.2-最大似然估计最大似然估计的意思就是最大可能性估计,其内容为:如果两件事A,B 相互独立,那么A和B同时发生的概率满足公式P(A , B) = P(A) * P(B)P(x)表示事件x发生的概率.如何来理解独立呢?两件事独立是说这两件事不想关,比如我们随机抽取两个人A和B,这两个人有一个共同特性就是在同一个公司,那么抽取这两个人A和B的件事就不独立,如果A和B没有任何关系,那么这两件事就是独立的.我们使用多元线性回归的目的是总结一些不想关元素的规律,比如以前提到的散列点的表达式,这些点是随机的,所以我们认为这些点没有相关性,也就是独立的.总结不相关事件发生的规律也可以认为是总结所有事件同时发生的概率,所有事情发生的概率越大,那么我们预测到的规律就越准确.这里重复下以前我们提到的观点.回归的意思是用一条直线来概括所有点的分布规律,并不是来描述所有点的函数,因为不可能存在一条直线连接所有的散列点.所以我们计算出的值是有误差的,或者说我们回归出的这条直线是有误差的.我们回归出的这条线的目的是用来预测下一个点的位置.考虑一下,一件事情我们规律总结的不准,原因是什么?是不是因为我们观察的不够细或者说观察的维度不够多呢?当我们掷一个骰子,我们清楚的知道他掷出的高度,落地的角度,反弹的力度等等信息,那上帝视角的我们是一定可以知道他每次得到的点数的.我们观测不到所有的信息,所以我们认为每次投骰子得到的点数是不确定的,是符合一定概率的,未观测到的信息我们称为误差.一个事件已经观察到的维度发生的概率越大,那么对应的未观测到的维度发生的概率就会越小.可以说我们总结的规律就越准确.根据最大似然估计P(y) = P(x1,x2 . xn)= P(x1) * P(x2) . P(xn)当所有事情发生的概率为最大时,我们认为总结出的函数最符合这些事件的实际规律.所以我们把总结这些点的分布规律问题转变为了求得P(x1,x2 . xn)= P(x1) * P(x2) . P(xn)的发生概率最大.3-概率密度函数数学中并没有一种方法来直接求得什么情况下几个事件同时发生的概率最大.所以引用概率密度函数.首先引入一点概念:一个随机变量发生的概率符合高斯分布(也叫正太分布).此处为单纯的数学概念,记住即可.高斯分布的概率密度函数还是高斯分布.公式如下:公式中x为实际值,u为预测值.在多元线性回归中,x就是实际的y,u 就是θ * X.既然说我们要总结的事件是相互独立的,那么这里的每个事件肯定都是一个随机事件,也叫随机变量.所以我们要归纳的每个事件的发生概率都符合高斯分布.什么是概率密度函数呢?它指的就是一个事件发生的概率有多大,当事件x带入上面公式得到的值越大,证明其发生的概率也越大.需要注意,得到的并不是事件x发生的概率,而只是知道公式的值同发生的概率呈正比而已.如果将y= θT* X中的每个x带入这个公式,得到如下函数求得所有的时间发生概率最大就是求得所有的事件概率密度函数结果的乘积最大,则得到:求得最大时W的值,则总结出了所有事件符合的规律.求解过程如下(这里记住,我们求得的是什么情况下函数的值最大,并不是求得函数的解):公式中,m为样本的个数,π和σ为常数,不影响表达式的大小.所以去掉所有的常数项得到公式:因为得到的公式是一个常数减去这个公式,所以求得概率密度函数的最大值就是求得这个公式的最小值.这个公式是一个数的平方,在我国数学资料中把他叫做最小二乘公式.所以多元线性回归的本质就是最小二乘.J(w)′=2(Y?Xw)TXJ(w)^{#x27;}=2(Y-Xtextbf{w})^TXJ(w)′=2(Y?Xw )TXSystem.out.print("("+xy[0]+",");X为自变量向量或矩阵,X维度为N,为了能和W0对应,X需要在第一行插入一个全是1的列。
多元线性回归模型构建
多元线性回归是回归分析研究中最常用的模型之一,它能够在描述和预测定量数据间关系的基础上研究各变量之间的交互作用。
多元线性回归模型可以用于解释变量的变化机制并预测未来的变量趋势,同时也可以推断出该变量之间的不同程度的关联。
建立多元线性回归模型首先需要确定其回归方程,回归方程中需要引入一些未知系数,每个系数代表一种变量,决定了每个响应变量和对象间的关系,其中截距项代表了各变量的基础水平。
建模过程中,先来指定自变量的数量,有了变量的个数后,再计算所有系数在一定量上的最小平方和。
进而,当有足够的样本数据时,可以采用拟合方法来计算出系数,然后求出最佳解。
多元线性回归模型中需要对系数进行评价,以判断其对最终结果的影响程度。
主要有F检验和显著性检验。
F检验是检验给出的变量有效的测试,通过F检验,可以知道所用系数是否对结果有重要的影响,显著性检验则可以检验每个系数是否具有显著的影响。
建立多元线性回归模型后,可以计算出影响解决问题的变量,如因果关系及决定系数,以此来了解变量及其因果关系,帮助做出科学全面的决策,从而实现优化相关的绩效和效益。
综上所述,多元线性回归模型能够较好的解释定量数据之间的相互关系,解析出影响解决问题的变量,并帮助推断出不同变量之间的关联,从而得出效益收益的最大化,在不同专业领域中大有用武之地。
多元线性回归方程的建立
建立多元线性回归方程,实际上是对多元线性模型(2-2-4)进行估计,寻求估计式(2-2-3)的过程。
与一元线性回归分析相同,其基本思想是根据最小二乘原理,求解使全部观测值与回归值的残差平方和达到最小值。
由于残差平方和
(2-2-5)
是的非负二次式,所以它的最小值一定存在。
根据极值原理,当Q取得极值时,应满足
由(2-2-5)式,即满足
(2-2-6)
(2-2-6)式称为正规方程组。
它可以化为以下形式
(2-
2-7)
如果用A表示上述方程组的系数矩阵可以看出A是对称矩阵。
则有
(2-2-8)
式中X是多元线性回归模型中数据的结构矩阵,是结构矩阵X 的转置矩阵。
(2-2-7)式右端常数项也可用矩阵D来表示
即
因此(2-2-7)式可写成
Ab=D (2-2-10)
或
(2-2-11)
如果A满秩(即A的行列式)那么A的逆矩阵A-1存在,则由(2-10)式和(2-11)式得的最小二乘估计为
(2-2-12)也就是多元线性回归方程的回归系数。
为了计算方便往往并不先求,再求b,而是通过解线性方程组(2-2-7)来求b。
(2-2-7)是一个有p+1个未知量的线性方程组,它的第一个方程可化为
(2-2-13)式中
(2-2-14)将(2-2-13)式代入(2-2-7)式中的其余各方程,得
(2-2-15)其中
(2-2-16)
将方程组(2-2-15)式用矩阵表示,则有
Lb=F (2-2-17)
其中
于是
b=L-1F (2-2-18)
因此求解多元线性回归方程的系数可由(2-2-16)式先求出L,然后将其代回(2-2-17)式中求解。
求b时,可用克莱姆法则求解,也可通过高斯变换求解。
如果把b直接代入(2-2-18)式,由于要先求出L 的逆矩阵,因而相对复杂一些。
例2-2-1 表2-2-1为某地区土壤内含植物可给态磷(y)与土壤内所含无机磷浓度(x1)、土壤内溶于K2CO3溶液并受溴化物水解的有机磷浓度(x2)以及土壤内溶于K2CO3溶液但不溶于溴化物的有机磷(x3)的观察数据。
求y对x1,x2,x3的线性回归方程。
表2-2-1 土壤含磷情况观察数据
计算如下:
由(2-2-16)式
代入(2-2-15)式得
(2-2-19)若用克莱姆法则解上述方程组,则其解为
(2-2-20)其中
计算得
b 1=1.7848,b
2
=-0.0834,b
3
=0.1611
回归方程为
应用克莱姆法则求解线性方程组计算量偏大,下面介绍更实用的方法——高斯消去法和消去变换。
多项式回归
标签:c
2009-07-04 14:52 6443人阅读评论(0) 收藏举报在上一节所介绍的非线性回归分析,首先要求我们对回归方程的函数模型做出判断。
虽然在一些特定的情况下我们可以比较容易地做到这一点,但是在许多实际问题上常常会令我们不知所措。
根据高等数学知识我们知道,任何曲线可以近似地用多项式表示,所以在这种情况下我们可以用多项式进行逼近,即多项式回归分析。
一、多项式回归方法
假设变量y与x的关系为p次多项式,且在x i处对y的随机误
差(i=1,2,…,n)服从正态分布N(0,),则
令
x i1=x
i
, x
i2
=x
i
2,…,x
ip
=x
i
p
则上述非线性的多项式模型就转化为多元线性模型,即
这样我们就可以用前面介绍的多元线性回归分析的方法来解决上述问题了。
其系数矩阵、结构矩阵、常数项矩阵分别为
(2-4-11)
(2-4-12)
(2-4-
13)
回归方程系数的最小二乘估计为
(2-4
-14)
需要说明的是,在多项式回归分析中,检验b j是否显著,实质上就是判断x的j次项x j对y是否有显著影响。
对于多元多项式回归问题,也可以化为多元线性回归问题来解决。
例如,对于
(2-4 -15)
令x
i1=Z
i1
, x
i2
=Z
i2
, x
i3
=Z
i1
2, x
i4
=Z
i1
Z
i2
, x
i5
=Z
i2
2
则(2-4-15)式转化为
转化后就可以按照多元线性回归分析的方法解决了。
下面我们通过一个实例来进一步说明多项式回归分析方法。
一、应用举例
例2-4-2 某种合金中的主要成分为元素A和B,试验发现这两种元素之和与合金膨胀系数之间有一定的数量关系,试根据表2-4-3给出的试验数据找出y与x之间的回归关系。
表2-4-3 例2-4-2试验数据
首先画出散点图(图2-4-3)。
从散点图可以看出,y与x的关系可以用一个二次多项式来描述:
i=1,2,3…,13
现在我们就可以用本篇第二章介绍的方法求出
的最小二乘估计。
由表2-4-3给出的数据,求出
由此可列出二元线性方程组
将这个方程组写成矩阵形式,并通过初等变换求b1,b2和系数矩阵L的逆矩阵L-1:
于是
=-13.3854
b
1
=0.16598
b
2
=2.3323+13.385440-0.165981603.5=271.599
b
因此
下面对回归方程作显著性检验:
由(2-2-43)式
S
回
=由(2-2-42)式
S
总
=
S
残=L
yy
- S
回
=0.2572
将上述结果代入表2-2-2中制成方差分析表如下:
表2-4-4 方差分析表
查F检验表,F0。
01(2,10)=7.56, F>F0.01(2 ,10),说明回归方程是高度显著的。
下面对回归系数作显著性检验
由前面的计算结果可知:
b
1=-13.3854 b
2
=0.16598
c
11=51.125 c
22
=7.991610-3
由(2-2-54)式
由(2-2-53)式
检验结果说明的x一次及二次项对y都有显著影响。