二元线性回归
- 格式:doc
- 大小:1.60 MB
- 文档页数:18
二元logistics回归霍斯曼检验拟合度差原因二元logistics回归是一种常用的分类分析方法,通过建立逻辑回归模型,对二分类问题进行预测和判断。
在进行二元logistics回归时,我们经常会使用霍斯曼检验(Hosmer-Lemeshow test)来评估模型的拟合程度。
然而,当发现模型的拟合度差时,我们需要深入分析,找出造成拟合度差的原因。
本文将围绕这一问题展开讨论。
一、二元logistics回归模型回顾在开始讨论拟合度差的原因之前,我们先回顾一下二元logistics回归模型的基本原理。
二元logistics回归模型是一种广义线性回归模型。
它基于Logistic 函数,将自变量与因变量之间的关系映射为一个概率值。
该模型的数学表达式如下:P(Y=1|X) = 1 / (1 + e^-(β0 + β1X1 + β2X2 + ... + βnXn))其中,Y为因变量的取值,X为自变量的取值,β为模型的回归系数。
通过最大似然估计等方法,我们可以得到回归系数的估计值,从而建立模型。
二、霍斯曼检验的原理霍斯曼检验是一种用于评估二元logistics回归模型拟合度的统计检验方法。
该检验通过将样本按照预测概率值进行分组,然后计算预测值与实际值之间的残差来衡量模型的拟合程度。
具体而言,霍斯曼检验的步骤如下:1. 将样本按照预测概率值进行分组,通常将预测概率分为10个组。
2. 对每个组内的样本,计算实际值与预测值之间的残差,可以使用对数似然残差(log-likelihood residual)或分位数残差(quantile residual)。
3. 计算每个组内的残差平均值,得到每个组的平均残差。
4. 使用卡方检验或其它拟合优度检验方法,比较实际值与预测值之间的残差平均值是否存在显著差异。
如果在拟合度检验中发现存在显著差异,即拒绝原假设,说明模型的拟合不理想。
三、拟合度差的可能原因在进行霍斯曼检验时,如果发现模型的拟合度较差,我们需要深入分析,找出可能的原因。
计量经济学综合练习题(二元回归)设某商品的需求量Y(百件)、消费者平均收入X1(百元)、该商品价格X2(元)的统计数据如下:∑Y =800 ∑X1 = 80 ∑X2 = 60 n = 10 ∑X1X2 =439∑Y2 = 67450 ∑X12= 740 ∑X22 = 390 ∑YX1 = 6920 ∑YX2 = 4500经TSP计算,部分结果如下(表一、表二、表三中被解释变量均为Y, n = 10):表一VARIABLE COEFFICIENT STD.ERROR T-STAT 2-TAILSIGC 99. 13. 7. 0.000X1 2. 0. 3. 0.013X2 - 6. 1. - 4. 0.002R-squared 0. Mean of dependent var 80.00000Adjusted R- squared 0. S.D. of dependent var 19.57890S.E of regression 4. Sum of squared resid 174.7915Durbin-Watson stat 1. F – statistics 65.58230表二VARIABLE COEFFICIENT STD.ERROR T-STAT 2-TAILSIGC 38.40000 8. 4. 0.002X1 5. 0. 5. 0.001R-squared 0. Mean of dependent var 80.00000Adjusted R- squared 0. S.D. of dependent var 19.57890S.E of regression 9. Sum of squared resid 746.0000Durbin-Watson stat 1. F – statistics 28.99732表三VARIABLE COEFFICIENT STD.ERROR T-STAT 2-TAILSIGC 140.0000 8. 16. 0.000X2 -10.00000 1. -7. 0.000R-squared 0. Mean of dependent var 80.00000Adjusted R- squared 0. S.D. of dependent var 19.57890S.E of regression 7. Sum of squared resid 450.0000Durbin-Watson stat 0. F – statistics 53.33333要求:完成以下任务,并对结果进行简要的统计意义和经济意义解释(要求列出公式、代入数据及计算结果,计算结果可以从上面直接引用)。
二元线性回归分析预测法(复位向自二元线性回归预测法)什么是二元线性回归分析预测法二元线性回归分析预测法是指运用影响一个因变数的两个自变量进行回归分析的一种预测方法。
关键是通过因变数同两个自变量的因果关系进行回归分析术解回归方程,对回归方程进行检验得出预测值。
[编辑]二元线性回归分析模型[1]二元线性回归分析模型及参数的确定。
二元线性回归分析预测法的回归方程为:式中:x1,x2——自变数;——因变数,即线性回归分析估值,或预测值;a,b1,b2——待定回归方程参数。
最小二乘法建立的求参数的方程为:只需将历史数据自变量2和对应的因变量—v的数据代人上面公式,并联立求解方程组,即可求得回归参数a,b1,b2再将这些参数代人回归方程,即可得预测模型。
[编辑]二元线性回归分析模型的检验及参数确定[1]二元线性回归分析预测法预测模型的检验比一元线性回归预测模型的检验复杂得多。
常用的有经济意义检验、回归标准差检验、相关系数检验、F检验和t检验等。
(1)一般经济意义检验,是指根据一般的经济规律,从参数的符号来鉴别模型的真实性。
其它检验都需要根据统计分析来确定模型是否能够通过检验。
(2)回归标准差检验。
计算多元回归标准差的公式与计算一元线性方程回归标准差的公式相同,即:式中:yt——因变量第t期的观察值;——因变量第t期的估计值;n——观察期的个数;k——自由度,为变量的个数(包括因变量和自变量)。
判断回归标准差能否通过检验,仍用以下公式:式中:s——回归标准差;——因变量观察值的平均值。
当依此式计算出的值小于15%,说明预测模型通过了回归标准差检验。
(3)相关系数检验。
相关系数检验是检验变量之间线性关系密切程度的指针。
在多元回归分析中应计算复相关系数和偏相关系数。
•复相关系数复相关系数是反映因变量y与自变量x1,x2之间线性相关关系密切程度的指标,其计算公式为:即其中,r表示的是所有自变量作为一个整体对因变量y的影响。
python 二元方程拟合Python是一种功能强大且广泛应用于科学计算和数据分析的编程语言。
在Python中,我们可以使用二元方程拟合的方法来找到一条最佳的直线或曲线来拟合一组离散的数据点。
本文将介绍如何使用Python进行二元方程拟合,并探讨其应用和局限性。
一、什么是二元方程拟合二元方程拟合,也称为线性回归,是一种通过找到一条最佳拟合线来近似描述一组离散数据点的方法。
在二元方程拟合中,我们假设数据点之间存在线性关系,即可以用一条直线来拟合数据点。
根据最小二乘法,我们可以找到一条直线,使得所有数据点到直线的距离的平方之和最小化。
这样,我们就可以使用这条直线来预测未知的数据点。
二、如何使用Python进行二元方程拟合在Python中,有多种库可以用来进行二元方程拟合,其中最常用的是NumPy和SciPy库。
下面是使用这两个库进行二元方程拟合的步骤:1. 导入所需的库我们需要导入NumPy和SciPy库。
NumPy库提供了处理数组和矩阵的功能,而SciPy库则提供了用于科学计算和数据分析的各种函数和工具。
2. 准备数据接下来,我们需要准备要拟合的数据。
数据通常以两个数组的形式给出,一个数组表示自变量(x值),另一个数组表示因变量(y值)。
3. 进行拟合使用NumPy的polyfit函数可以方便地进行二元方程拟合。
该函数接受自变量数组、因变量数组和拟合的阶数作为参数,并返回拟合的系数。
4. 绘制拟合曲线我们可以使用Matplotlib库将数据点和拟合曲线绘制出来,以便进行可视化分析。
三、二元方程拟合的应用二元方程拟合在科学研究和工程领域中有广泛的应用。
例如,在物理学中,我们可以使用二元方程拟合来分析实验数据,并得出物理定律的近似表达式。
在金融领域,二元方程拟合可以用来预测股票价格的走势。
在医学领域,二元方程拟合可以用来分析病人的生长曲线,从而指导治疗和监测疾病的进展。
四、二元方程拟合的局限性尽管二元方程拟合在许多情况下非常有用,但它也有一些局限性。
第三章习题解答3.1 写出二元线性回归模型表达式:(1)总体回归函数表达式; (2)总体回归函数随机设定形式;(3)样本回归函数的表达式; (4)样本回归函数的随机设定形式; (5)回归模型的矩阵表达式。
答:(1)总体回归表达式为:(|)()i i i E Y X f X = 当函数形式为线性的时候,总体回归表达式为: 12(|)i i i E Y X X ββ=+上述为个别值的表达形式,也可以写成抽象形式,如(|)()E Y X f X = 线性表达式也可以写成多元的形式,如122(|)i i i ki E Y X X X ββ=+++(2)总体回归函数随机设定形式为:(|)i i i i Y E Y X u =+或()i i i Y f X u =+ 当函数是线性的时候,总体回归函数随机设定形式为:12i i i Y X u ββ=++同样,也可以写成抽象的形式:12Y X u ββ=++ 线性表达式可以写成多元的形式:122i i ki i Y X X u ββ=++++(3)、(4)样本回归函数的表达式为:12ˆˆˆi iY X ββ=+ 随机设定形式为:12ˆˆi i iY X e ββ=++ 多元线性回归模型时,样本回归函数的表达式为:12233ˆˆˆˆˆi i i k kiY X X X ββββ=++++ 随机设定形式为:12233ˆˆˆˆi i ik ki iY X X X e ββββ=+++++(5)回归模型的矩阵表达式:=+Y X βu3.2 对多元线性回归模型进行检验时,为什么在做了F 检验之后还要做t 检验呢?答:F 检验是各解释变量联合起来对被解释变量影响的显著性检验,是模型的整体性检验,其效果相等于R 2检验,但不能说明具体每个变量的统计显著性问题,因此,需要对每个变量进行t 检验才能看出其对应参数估计值的统计显著性。
3.3 多元线性回归模型的经典假定与简单线性回归模型有什么区别?答:区别在于多元线性回归模型的经典假定设置了解释变量之间无多重共线性的假定。
第三章二元线性回归分析¾回归方程的数学模型¾回归系数的确定¾回归方程的显著性检验¾回归系数的显著性检验¾回归平面的精度测控制¾预测和控制1¾应用举例一、回归方程的数学模型自变量因变量,自变量y 1x 2x 22110ˆx b x b b y++=2二、回归系数的确定最小二乘法n i x x y i i i ,,2,1),,,(21""=数据:实测值与回归值的残差i i i yy e ˆ−=)(22110i i i x b x b b y ++−=3二、回归系数的确定实测值与回归值的残差平方和:=ne b b b 2,,∑=i i Q 1210)(−=ni i yy 2)ˆ(∑=i 1−n2∑=++=i i i i x b x b b y 122110)]([4二、回归系数的确定因为由极值原理0≥b b b ,由极值原理,有),,(210Q ⎧=∂Q ⎪⎪⎪∂∂0)1(00b 0b ⎪⎪⎨=∂)2(1b Q111b L ⎪⎩=∂∂)3(02b Q121b L二、回归系数的确定消元法正规方程组的解法矩阵法行列式法6二、回归系数的确定⎧−=212022101L L L L b ⎪⎪⎪⎪⎨−−=−21101120221122211L L L L L L L L b L L L L 其中,⎩21122211∑∑−=−==21121111)()(i ni i x x x L ∑=−−==1221112))((ni i i x x x x L n∑∑=−−==i i i y y x x L 11110))((∑∑=−=222222()(i ni x x x L =1i ∑=−−=ni i y y x x L 2220))((三、回归方程的显著性检验方法1. 相关系数R检验法2方差分析法2. 方差分析法8三、回归方程的显著性检验1. 相关系数R检验法与一元类似,但取值范围不同:U R =yyL L b L b U +=接近1,表明与之间线性关系密切y x R 202101∑∑∑−=−=nii i yy y y y y y L 22)(9=i 1三、回归方程的显著性检验2.方差分析法=−−==Q m m U f U F U )1(n Q f Q Q ~−)3,2(n F F α线性回归方程是显著的,原假设可靠)3,2(−>n F F α)3,2(−<n F F α线性回归方程不显著,原假设不成立四、回归系数的显著性检验问题的提出¾在二元回归模型中,不仅要知道回归方程是否显著1x 2x y ¾还要知道,在,两因素中,对的影响哪个是显著的,以便剔除那些次要的、可有可无的变量,以建立更简单的回归方程1b 2b 1x 2x y ¾直接比较,不行,因为与和单位有关11四、回归系数的显著性检验方法1比较“标准回归系数”′方法1 比较标准回归系数i b L 2,1(==′i L b b yyiiii 绝对值越大越显著i b ′四、回归系数的显著性检验方法2 比较偏回归平方和P i对某个特定自变量的偏回归平方和程中剔除该自变量后而使回归平方和i x )(221211211LL b P −=(22222L b P −=22L越大越显著i P四、回归系数的显著性检验方法3 值检验法t P St i i =越大越显著i t )1(−−>m n t t i α五、回归平面的精度1=−−==m n Qf Q S Q第三章二元线性回归分析六、预报与控制1. 预测:对任一给定的观测点,推断观测值10x 0y 20x 据正态分布的性质,若,则的取值是以为中心而对101x x x =y 0ˆy大致在什么范围内称分布的,越靠近的地方出现的几率愈大,相反,离愈远202x =0ˆy 0ˆy的地方出现的几率愈小试验点落在区间内的概率为0.380y S y5.0ˆ0±试验点落在区间内的概率为0.6827试验点落在区间内的概率为0.95450y 0y S y±0ˆS y2ˆ0±16试验点落在区间内的概率为0.99730y S y3ˆ0±第三章二元线性回归分析六、预报与控制2. 控制:要求观测值取某个值或在一定范围内取值自变量0y y 21y y y <<值,自变量,应控制在什么范围内或在哪个区间取值=0051x 2x 给定显著水平α,eg :α0.05⎧⎩⎨<<+++≤≤−++21221102211022y y y Sx b x b b y S x b x b b 17今测得如下表数据试确定高磷钢的效率与七、应用举例例1 今测得如下表数据,试确定高磷钢的效率(y)与出钢量(x 1)和FeO 量(x 2)是否存在相关关系?如相关,则进行检验和预测。
Logistic回归分析之⼆元Logistic回归在研究X对于Y的影响时,如果Y为定量数据,那么使⽤多元线性回归分析(SPSSAU通⽤⽅法⾥⾯的线性回归);如果Y为定类数据,那么使⽤Logistic回归分析。
结合实际情况,可以将Logistic回归分析分为3类,分别是⼆元Logistic回归分析、多元有序Logistic回归分析和多元⽆序Logistic回归分析,如下图。
SPSSAU Logistic回归分析分类Logistic回归分析⽤于研究X对Y的影响,并且对X的数据类型没有要求,X可以为定类数据,也可以为定量数据,但要求Y必须为定类数据,并且根据Y的选项数,使⽤相应的数据分析⽅法。
如果Y有两个选项,如愿意和不愿意、是和否,那么应该使⽤⼆元Logistic回归分析(SPSSAU进阶⽅法->⼆元logit);如果Y有多个选项,并且各个选项之间可以对⽐⼤⼩,例如,1代表“不愿意”,2代表“⽆所谓”,3代表“愿意”,这3个选项具有对⽐意义,数值越⾼,代表样本的愿意程度越⾼,那么应该使⽤多元有序Logistic回归分析(SPSSAU进阶⽅法->有序logit);如果Y有多个选项,并且各个选项之间不具有对⽐意义,例如,1代表“淘宝”,2代表“天猫”,3代表“京东”,4代表“亚马逊中国”,数值仅代表不同类别,数值⼤⼩不具有对⽐意义,那么应该使⽤多元⽆序Logistic回归分析(SPSSAU进阶⽅法->多分类logit)。
本次内容将针对⼆元logistic(logit)回归进⾏说明,后续两篇⽂章将分别讲解有序logistic(logit)和多分类logistic(logit)回归。
1、⼆元logistic分析思路说明在进⾏⼆元Logistic回归分析时,通常会涉及3个步骤,分别是数据处理、卡⽅分析和影响关系研究,如下图。
⼆元Logistic回归分析步骤1.1 第⼀步为数据处理例如,在研究相关因素对样本将来是否愿意购买理财产品的影响情况时,性别,专业等均为影响因素,⽽且明显的,性别和专业属于定类数据,因此需要进⾏虚拟哑变量设置,可使⽤【数据处理->⽣成变量】完成。
⼆元线性回归本题给出的是50个数据样本点,其中x为这50个⼩朋友到的年龄,年龄为2岁到8岁,年龄可有⼩数形式呈现。
Y为这50个⼩朋友对应的⾝⾼,当然也是⼩数形式表⽰的。
现在的问题是要根据这50个训练样本,估计出3.5岁和7岁时⼩孩⼦的⾝⾼。
通过画出训练样本点的分布凭直觉可以发现这是⼀个典型的线性回归问题。
matlab函数介绍:legend: ⽐如legend('Training data', 'Linear regression'),它表⽰的是标出图像中各曲线标志所代表的意义,这⾥图像的第⼀条曲线(其实是离散的点)表⽰的是训练样本数据,第⼆条曲线(其实是⼀条直线)表⽰的是回归曲线。
hold on, hold off: hold on指在前⼀幅图的情况下打开画纸,允许在上⾯继续画曲线。
hold off指关闭前⼀副画的画纸。
linspace:⽐如linspace(-3, 3, 100)指的是给出-3到3之间的100个数,均匀的选取,即线性的选取。
logspace: ⽐如logspace(-2, 2, 15),指的是在10^(-2)到10^(2)之间选取15个数,这些数按照指数⼤⼩来选取,即指数部分是均匀选取的,但是由于都取了10为底的指数,所以最终是服从指数分布选取的。
实验结果:训练样本散点和回归曲线预测图:损失函数与参数之间的曲⾯图:损失函数的等⾼线图:采⽤normal equations⽅法求解:%%⽅法⼀x = load('ex2x.dat');y = load('ex2y.dat');plot(x,y,'*')xlabel('height')ylabel('age')x = [ones(size(x),1),x];w=inv(x'*x)*x'*yhold onplot(x(:,2),0.0639*x(:,2)+0.7502)%更正后的代码采⽤gradient descend过程求解:% Exercise 2 Linear Regression% Data is roughly based on 2000 CDC growth figures% for boys%% x refers to a boy's age% y is a boy's height in meters%clear all; close all; clcx = load('ex2x.dat'); y = load('ex2y.dat');m = length(y); % number of training examples% Plot the training datafigure; % open a new figure windowplot(x, y, 'o');ylabel('Height in meters')xlabel('Age in years')% Gradient descentx = [ones(m, 1) x]; % Add a column of ones to xtheta = zeros(size(x(1,:)))'; % initialize fitting parametersMAX_ITR = 1500; % 迭代次数alpha = 0.07; % 学习率for num_iterations = 1:MAX_ITR% This is a vectorized version of the% gradient descent update formula% It's also fine to use the summation formula from the videos% Here is the gradientgrad = (1/m).* x' * ((x * theta) - y);% Here is the actual updatetheta = theta - alpha .* grad;% Sequential update: The wrong way to do gradient descent —— 参数的不同维度要同时更新 % grad1 = (1/m).* x(:,1)' * ((x * theta) - y);% theta(1) = theta(1) + alpha*grad1;% grad2 = (1/m).* x(:,2)' * ((x * theta) - y);% theta(2) = theta(2) + alpha*grad2;end% print theta to screentheta% Plot the linear fithold on; % keep previous plot visibleplot(x(:,2), x*theta, '-')legend('Training data', 'Linear regression')%标出图像中各曲线标志所代表的意义hold off % don't overlay any more plots on this figure,指关掉前⾯的那幅图% Closed form solution for reference% You will learn about this method in future videosexact_theta = (x' * x)\x' * y% Predict values for age 3.5 and 7predict1 = [1, 3.5] *thetapredict2 = [1, 7] * theta% Calculate J matrix% Grid over which we will calculate Jtheta0_vals = linspace(-3, 3, 100);theta1_vals = linspace(-1, 1, 100);% initialize J_vals to a matrix of 0'sJ_vals = zeros(length(theta0_vals), length(theta1_vals));for i = 1:length(theta0_vals)for j = 1:length(theta1_vals)t = [theta0_vals(i); theta1_vals(j)];J_vals(i,j) = (0.5/m) .* (x * t - y)' * (x * t - y);endend% Because of the way meshgrids work in the surf command, we need to% transpose J_vals before calling surf, or else the axes will be flippedJ_vals = J_vals';% Surface plotfigure;surf(theta0_vals, theta1_vals, J_vals)xlabel('\theta_0'); ylabel('\theta_1');% Contour plotfigure;% Plot J_vals as15 contours spaced logarithmically between 0.01 and 100contour(theta0_vals, theta1_vals, J_vals, logspace(-2, 2, 15))%画出等⾼线xlabel('\theta_0'); ylabel('\theta_1');%类似于转义字符,但是最多只能是到参数0~9。
二元logistic回归模型操作摘要:1.二元logistic 回归模型概述2.二元logistic 回归模型的构建3.二元logistic 回归模型的操作步骤4.二元logistic 回归模型的应用实例5.二元logistic 回归模型的优缺点正文:【二元logistic 回归模型概述】二元logistic 回归模型是一种用于解决二分类问题的统计分析方法,它的主要目的是通过分析自变量与因变量之间的线性关系,从而预测某个样本属于某一类别的概率。
在实际应用中,该模型可以广泛应用于信用风险评估、市场营销、医学诊断等领域。
【二元logistic 回归模型的构建】构建二元logistic 回归模型主要包括以下几个步骤:1.确定自变量和因变量:自变量是模型中预测因变量的变量,因变量则是模型中被预测的变量,通常取值为0 或1。
2.确定模型形式:logistic 回归模型的形式为线性回归,但在输出时,将线性回归的结果通过逻辑斯蒂函数进行变换,从而得到每个样本属于正类的概率。
3.确定模型参数:模型参数包括自变量的系数和截距,这些参数需要通过数据进行估计。
【二元logistic 回归模型的操作步骤】操作二元logistic 回归模型主要包括以下几个步骤:1.数据收集:首先需要收集一组样本数据,包括自变量和因变量的值。
2.数据处理:对收集到的数据进行预处理,包括缺失值处理、异常值处理等。
3.模型训练:使用logistic 函数对数据进行拟合,得到模型参数。
4.模型评估:使用验证集或测试集对模型进行评估,计算模型的准确率、精确率、召回率等指标。
5.模型应用:使用训练好的模型对新数据进行预测,从而实现分类的目的。
【二元logistic 回归模型的应用实例】例如,我们可以使用二元logistic 回归模型来预测一个客户是否会申请信用卡。
在这个例子中,自变量可能包括客户的年龄、收入、信用评分等,而因变量则表示客户是否申请信用卡。
二元逻辑回归原理引言在机器学习领域中,逻辑回归是一种常用的分类算法。
它被广泛应用于各种领域,如金融、医疗和社交网络分析等。
二元逻辑回归是逻辑回归的一种特殊形式,用于处理二分类问题。
本文将深入探讨二元逻辑回归的原理及其应用。
二元逻辑回归的基本概念二元逻辑回归是一种监督学习算法,用于预测一个二分类变量的概率。
它基于线性回归模型,但通过使用逻辑函数(也称为sigmoid函数)将线性输出转换为概率值。
逻辑函数(sigmoid函数)逻辑函数是二元逻辑回归的核心组成部分。
它将任意实数映射到0到1之间的概率值。
逻辑函数的公式如下:σ(z)=11+e−z其中,z是线性回归模型的输出。
逻辑函数具有以下特性: - 当z趋近于正无穷时,σ(z)趋近于1; - 当z趋近于负无穷时,σ(z)趋近于0; - σ(0)=0.5。
线性回归模型线性回归模型是二元逻辑回归的基础模型。
它通过线性组合输入特征的权重来预测目标变量。
线性回归模型的公式如下:z=θ0+θ1x1+θ2x2+...+θn x n其中,x1,x2,...,x n是输入特征,θ0,θ1,θ2,...,θn是模型的参数。
二元逻辑回归的训练过程二元逻辑回归的训练过程主要包括参数初始化、模型训练和模型评估三个步骤。
参数初始化在训练之前,需要对模型的参数进行初始化。
常见的初始化方法包括随机初始化和零初始化。
模型训练模型训练的目标是通过最小化损失函数来调整模型的参数,使得模型的预测结果与实际标签尽可能接近。
常用的损失函数是对数似然损失函数。
对数似然损失函数对数似然损失函数是二元逻辑回归中常用的损失函数。
它基于最大似然估计原理,用于衡量模型的预测结果与实际标签之间的差异。
对数似然损失函数的公式如下:J(θ)=−1m∑[y(i)log(ℎθ(x(i)))+(1−y(i))log(1−ℎθ(x(i)))] mi=1其中,m是训练样本的数量,y(i)是第i个样本的实际标签,ℎθ(x(i))是模型对第i个样本的预测概率。
第三章 多元线性回归模型基本要求:1、理解多元线性回归模型的定义2、理解多元线性回归模型的假定3、掌握参数估计的计算4、理解参数统计性质第一节 多元线性回归模型及假定一、多元线性回归模型许多经济现象往往要受多个因素的影响,研究被解释变量受多个解释变量的影响,就要利用多元回归模型。
多元线性回归模型与一元线性回归模型基本类似,只不过解释变量由一个增加到两个以上,被解释变量Y 与多个解释变量k X X X ,,,21 之间存在线性关系。
假定被解释变量Y 与多个解释变量k X X X ,,,21 之间具有线性关系,是解释变量的多元线性函数,称为多元线性回归模型。
即μββββ+++++=k k X X X Y 22110 (3-1)其中Y 为被解释变量,(1,2,,)j X j k =为k 个解释变量,(0,1,2,,)j j k β=为1k +个未知参数,μ为随机误差项。
被解释变量Y 的期望值与解释变量k X X X ,,,21 的线性方程为: 01122()k k E Y X X X ββββ=++++ (3-2)称为多元总体线性回归方程,简称总体回归方程。
对于n 组观测值),,2,1(,,,,21n i X X X Y ki i i i =,其方程组形式为:01122,(1,2,,)i i i k ki i Y X X X i n ββββμ=+++++= (3-3)即⎪⎪⎩⎪⎪⎨⎧+++++=+++++=+++++=nkn k n n n k k k k X X X Y X X X Y X X X Y μββββμββββμββββ 2211022222121021121211101 其矩阵形式为⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡n Y Y Y 21=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡kn n nk k X X X X X XX X X 212221212111111⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡k ββββ 210+⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡n μμμ 21 即=+Y X βμ (3-4)其中=⨯1n Y ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡n Y Y Y 21为被解释变量的观测值向量;=+⨯)1(k n X ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡kn n n k k X X X X X X X X X 212221212111111为解释变量的观测值矩阵;(1)1k +⨯=β⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡k ββββ 210为总体回归参数向量;1n ⨯=μ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡n μμμ 21为随机误差项向量。
总体回归方程表示为:()E =Y X β (3-5) 与一元线性回归分析一样,多元线性回归分析仍是根据观测样本估计模型中的各个参数,对估计参数及回归方程进行统计检验,从而利用回归模型进行经济预测和分析。
多元线性回归模型包含多个解释变量,多个解释变量同时对被解释变量Y 发生作用,若要考察其中一个解释变量对Y 的影响就必须假设其它解释变量保持不变来进行分析。
因此多元线性回归模型中的回归系数为偏回归系数,即反映了当模型中的其它变量不变时,其中一个解释变量对因变量Y 的均值的影响。
由于参数012,,,,k ββββ都是未知的,可以利用样本观测值12(,,,;)i i ki i X X X Y 对它们进行估计。
若计算得到的参数估计值为012ˆˆˆˆ,,,,kββββ,用参数估计值替代总体回归函数的未知参数012,,,,k ββββ,则得多元线性样本回归方程:01122ˆˆˆˆˆi i ik knY X X X ββββ=++++ (3-6) 其中ˆ(0,1,2,,)jj k β=为参数估计值,ˆ(1,2,,)iY i n =为i Y 的样本回归值或样本拟合值、样本估计值。
其矩阵表达形式为:ˆˆ=YX β (3-7) 其中1ˆn ⨯=Y 12ˆˆˆn Y Y Y ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦为被解释变量样本观测值向量Y 的1n ⨯阶拟合值列向量;=+⨯)1(k n X ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡kn nnk k X X X X X XX X X 212221212111111为解释变量X 的(1)n k ⨯+阶样本观测矩阵;()=⨯+11k βˆ012ˆˆˆˆk ββββ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦为未知参数向量β的(1)1k +⨯阶估计值列向量。
样本回归方程得到的被解释变量估计值ˆi Y 与实际观测值i Y 之间的偏差称为残差i e 。
0112ˆˆˆˆˆ()i i i i i i ki kie Y Y Y X X ββββ=-=-++++ (3-8) 二、多元线性回归模型的假定与一元线性回归模型相同,多元线性回归模型利用普通最小二乘法(OLS)对参数进行估计时,有如下假定:假定1 零均值假定:()0,1,2,,i E i n μ==,即1122()()()0()n n E E E E E μμμμμμ⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥===⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦μ (3-9)假定2 同方差假定(μ的方差为同一常数):22()(),(1,2,,)i i Var E i n μμσ===假定3 无自相关性:(,)()0,(,,1,2,,)i j i j Cov E i j i j n μμμμ==≠=21112122212212212()(,,,)n n n n n n n E E E μμμμμμμμμμμμμμμμμμμμμ⎡⎤⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥'==⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦μμ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=)()()()()()()()()(2212221212121n n n n n E E E E E E E E E μμμμμμμμμμμμμμμ n u I 2222000000σσσσμμμ=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=(3-10)假定4 随机误差项μ与解释变量X 不相关(这个假定自动成立):),,2,1,,,2,1(,0),(n i k j X Cov i ji ===μ假定5 随机误差项μ服从均值为零,方差为2σ的正态分布:2~(0,)i n N μμσI假定6 解释变量之间不存在多重共线性: ()1rank k n =+≤X即各解释变量的样本观测值之间线性无关,解释变量的样本观测值矩阵X 的秩为参数个数k+1,从而保证参数012,,,,k ββββ的估计值唯一。
第二节 多元线性回归模型的参数估计及统计性质一、多元线性回归模型的参数估计(一)回归参数的最小二乘估计对于含有k 个解释变量的多元线性回归模型0112212n i i i k ki i Y X X X i ββββμ=+++++= (,,,)设k βββˆ,,ˆ,ˆ10 分别作为参数k βββ,,,10 的估计量,得样本回归方程为: 01122ˆˆˆˆˆi i i k kiY X X X ββββ=++++ 观测值Y i 与回归值ˆY i的残差i e 为: 0112ˆˆˆˆˆ()i i i i i iki kie Y Y Y X X ββββ=-=-++++ 由最小二乘法可知k βββˆ,,ˆ,ˆ10 应使全部观测值Y i 与回归值ˆY i的残差i e 的平方和最小,即使∑∑-==22210)ˆ()ˆ,,ˆ,ˆ,ˆ(i i i kY Y e Q ββββ ∑-----=222110)ˆˆˆˆ(kik i i i X X X Y ββββ (3-11) 取得最小值。
根据多元函数的极值原理,Q 分别对kβββˆ,,ˆ,ˆ10 求一阶偏导,并令其等于零,即 0,(1,2,,)ˆjQj k β∂==∂ (3-12)即011220011221101122ˆˆˆˆ2()(1)0ˆˆˆˆˆ2()()0ˆˆˆˆˆ()()0ˆi i i k ki i i i k ki i i i i k ki ki kQ Y X X X Q Y X X X X Q Y X X X X βββββββββββββββ∂⎧=------=⎪∂⎪⎪∂=------=⎪∂⎨⎪⎪∂⎪=------=⎪∂⎩∑∑∑ 化简得下列方程组011222011122111201122ˆˆˆˆˆˆˆˆˆˆˆˆi i k ki i i i i i k ki i i iki i ki i ki k ki ki i n X X X Y X X X X X X X Y X X X X X X X Y ββββββββββββ⎧++++=⎪⎪++++=⎨⎪⎪++++=⎩∑∑∑∑∑∑∑∑∑∑∑∑∑∑ (3-13) 上述(1)k +个方程称为正规方程,其矩阵形式为⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡∑∑∑∑∑∑∑∑∑∑∑∑∑∑i ki i i i k ki kiikiikii ki iiii ki i i Y X Y X Y X X XX XX X X XX XX X X Xn121022111221121ˆˆˆˆββββ (3-14) 因为⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡∑∑∑∑∑∑∑∑∑∑∑22111221121ki kii ki i kii ki iiii kii i X X X X X X XX XX XX X X Xn=⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡kn k k n n X X X X X X X X X 212222111211111⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡kn n nk k X X X X X XX X X212221212111111X X '==⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡∑∑∑i ki i i i Y X Y X Y 1⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡kn k k n n X X X X X X X X X212222111211111Y X '=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡n Y Y Y 21 设012ˆˆˆˆˆk ββββ⎡⎤⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦β为估计值向量 样本回归模型ˆ=+Y X βe 两边同乘样本观测值矩阵X 的转置矩阵'X ,则有 ˆ'''=+X Y X X βX e 得正规方程组:ˆ''=X Y X X β(3-15) 由假定(6),1)(+=k R X ,X X '为)1(+k 阶方阵,所以X X '满秩,X X '的逆矩阵1)(-'X X 存在。
因而1ˆ()-''=βX X X Y (3-16) 则为向量β的OLS 估计量。
以二元线性回归模型为例,导出二元线性回归模型的OLS 估计量的表达式。
由(3-3)式得二元线性回归模型为i i i i X X Y μβββ+++=22110为了计算的方便,先将模型中心化。