多元回归分析

  • 格式:ppt
  • 大小:2.28 MB
  • 文档页数:78

下载文档原格式

  / 78
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

i1
i1
n
2
(Y i (ˆ0ˆ1X 1 iˆ2X 2 i ˆkX k)i )
i 1
于是得到关于待估参数估计值的正规方程组:
((ˆˆ00(ˆ0ˆˆ11XX1ˆ1i1iX1ˆiˆ22i XXˆ222iiX2 i ˆˆkkXXˆkkkii))XXXki12)ii
Yi Yi X1i Yi X2i
7098.56
3389.5 2477.98
2456.59
1469.5 1100.86
2150.41
1005.2 1174.66
6002.54
1861.3 2076.36
2522.62
1044.6 969.03
4430.00
1622.4 1166.18
多元回归模型
Y i01X i12X i2 kX i,ki, 其 中 ii~ idN (0,2)且 i1 ,2,...,n
否),结构x3影响(高 层与砖混)
汽车销售
若公司管理人员要预测来年该公 司的汽车销售额y时,影响销 售额的因素---广告宣传费x1
还有个人可 支配收入x2, 价格x3
研究地区经济增长GDP,受劳动力投入人数 x1影响!
还有:资本要素X2,科 技水平X3的影响
多元回归应用
• 例:财政收入y为因变量。自变量如下:x1工 业总产值,x2农业总产值,x3建筑业总产 值,x4人口数,x5社会商品零售总额。
如果样本函数的参数估计值已经得到,则有:
i=1,2…n Y ˆ i ˆ 0 ˆ 1 X 1 i ˆ 2 X 2 i ˆ k X i Ki
根据最小二乘原理,参数估计值应该是下列方程
组的解
ˆ 0
Q
0
ˆ 1
Q
0
ˆ 2
Q
0
ˆ k
Q
0

n
n
中 Q ei2 (Yi Yˆi)2
馅饼销售
Multiple regression equation:
Sales = β0 +β1 (Price) +β2 (Advertising)
多元回归结果
Regression Statistics
Multiple R R Square
0.72213 0.52148
Adjusted R Square
Standard Error 114.25389 10.83213 25.96732
t Stat P-value 2.68285 0.01993 -2.30565 0.03979 2.85478 0.01449
Lower 95% 57.58835 -48.57626 17.55303
Upper 95% 555.46404 -1.37392 130.70888
▪ β0 ,β1,β2 ,,βk是参数
▪ 是被称为误差项的随机变量 ▪ 包含在y里面但不能被k个自变量的线性关系所解释
的变异性
地区
北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江
多元回归样本数据
GDP
就业人员 投资 (万人) (亿元)
3663.10
858.6 2169.26
2447.66
419.7 1039.39
模型矩阵表示 Y Y 1 21 1 X X1 21 1 Y n 1 Xn1
X X1 2k k1 01 2 Xnkk n
Y n 1X n (k 1 )β (k 1 ) 1εn 1
多元回归模型基本假定
1. 误差项ε是一个期望值为0的随机变量,即
E()=0 2. 对于自变量x1,x2,…,xk的所有值,的
X1i X1 2 i
XkX i 1i
X X X 1iX k k 2kii i ˆˆˆ1 k 0 X X 11 k11 X X 1 1 k22 X X 1 1 knn Y Y Y1 n 2

(XXβ ˆ)XY
(ˆ0 ˆ1X1i ˆ2X2i ˆkXki)Xki Yi Xki
解 该 ( k + 1) 个 方 程 组 成 的 线 性 代 数 方 程 组 , 即 可 得 到
(k + 1)个 待 估 参 数 的 估 计 值 j,j0 ,1 ,2, ,k。
正规方程组的矩阵形式
n
X1i
Xki
• 随着自变量个数的不断增加,会使得R2不断增 加,因此在作拟合优度检验的判定时,一般采 用调整的R2,以消除自变量的个数以及样本量 的大小对R2的影响。
R 2 ESS 1 RSS
TSS
TSS
R 2 1 n 1 RSS n p 1 TSS
修正多重判定系数
(adjusted multiple coefficient of determination)
• 例:股票价格Y,自变量为每股收益X1,每 股帐面价值X2。
• 例:失业的时间长度Y(月),自变量有学 历x1,年龄x2,工龄X3.
多元回归模型
(multiple regression model)
描述因变量 y 依赖于自变量 x1 , x2 ,…, xk 和误差项 的方程,称为多元回归模型
y 0 1 x 1 2 x 2 k x k
由于X’X满秩,故有 β ˆ(XX)1XY
多元回归方程
模型系数由样本数据估计得到
估计值
Estimated (or predicted) value of Y
截距
Estimated intercept
斜率Estimated slope coefficients
Y ˆ i 0 1 X 1 i 2 X 2 i k X k i
多元回归方程几何意义 Multiple Regression Equation
Y
Y ˆ01X12X2
X2 X1
最小二乘估计
E ( Y )0 1 x 1 p x p
• 最小 SSE:
^ ^ ^
^
Y01x 1 pxp
SS E Y Y ^ 2
回归残差示意图
<
< <
Y
Residual =
MS
14730.01 3
2252.776
F 6.53861
Significance F
0.01201
Intercept Price Advertising
Coefficient s
306.52619 -24.97509 74.13096
Standard Error 114.25389 10.83213 25.96732
用 Excel 计算得到回归系数
馅饼Pie销售量sale,受 价格price的影响。
还受广告费Advertising 的影响
星期
Week 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
销售 Pie Sales 350 460 350 430 350 380 430 470 450 490 340 300 440 450 300
价格 Price
($) 5.50 7.50 8.00 8.00 6.80 7.50 4.50 6.40 7.00 5.00 7.20 7.90 5.90 5.00 7.00
广告费 Advertising
($100s) 3.3 3.3 3.0 4.5 3.0 4.0 3.0 3.7 3.5 4.0 3.5 3.2 4.0 3.5 2.7
Standard Error
Observations
0.44172 47.46341
15Sa 3 le 0s 6 -2.4 5.2 c 96 e 7 7)5 4(.P 1 e3 rrit1 is
ANOVA
Regression Residual Total
df
2 12 14
SS
29460.027 27033.306 56493.333
1. 为避免增加自变量而高估 R2, 需要用样本量n和自变量的个数k去修正R2得到 计算公式为
Ra211R2 n n k1 1
意义与 R2类似,数值小于R2 1. 目的是惩罚过多使用不重要的自变量。 2. 用于比较多个模型
Regression Statistics
Multiple R
0.72213
R Square
0.52148
Adjusted R Square
0.44172
Standard Error
47.46341
Observations
15
Adjusted r2
ra2dj .44172
销量变化的44.2% 由价格和广告解释。
ANOVA
Regression Residual Total
b1 = -24.975: 表明每 周销售量将减少,
价格增加1美元, 销售量平均减少
24.975 个,(假 设广告的效果不变)
b2 = 74.131: 表明销 售量增加,广告费
增加100美元, 销售平均增加
74.131个/周, (假设价格不变)
用模型预测
预测价格为$5.50 ,广告费为 $350:
Multiple Linear Regression Analysis
一元线性回归模型复习
一个自变量X与一个因变量Y 作散点图 模型形式 Y=β0+β1X+ε 回归直线 模型的F检验,T检验,(P值相同,作用等价) R2决定系数---》相关系数
房屋售价
• 房价Y,受面积X1影响, • 还有影响因素吗? • 受地域x2(市中心与
Sale3s06.-52246.97c5e ()7 P4ri.13e 1r(tAisdin v g 306.-52246.9(5 7.557 04 ) .1(33.15) 428.62
预测销量为 428.62 pies
注意:单位百元,$350 意味 X2 = 3.5
模型的F检验 系数的T检验 拟合度检验--决定系数
Yi
εi = (Yi – Yi) Yi
样本观测
x1i X1
Y ˆb0b1X 1b2X 2
x2i X2
The best fit equation, Y , is found by minimizing the sum of squared errors, e2
普通最小二乘估计
对于随机抽取的n组观测值 ( Y i,X j) ii ,1 , 2 , ,n ,j 0 , 1 , 2 , k
t Stat P-value 2.68285 0.01993 -2.30565 0.03979 2.85478 0.01449
Lower 95% 57.58835 -48.57626 17.55303
Upper 95% 555.46404 -1.37392 130.70888
多元回归方程
Sa l3 es 06-.2542.6 9c 7e 57 )(4 P.r1i 3 e1 rt(iA s
误差平方和的分解
n
n
n
yiy2 y ˆiy2 yiy ˆ2
i 1
i 1
i 1
{ { {
总平方和 (SST)
假设不变
回归平方和 (SSR)
越大越好
反映自变量 xi 的变化 对因变量 y 取值变化 的影响,
残差平方和 (SSE)
越小反映越除好x i以外的
其他因素对 y 取 值的影响
SST = SSR + SSE
Multiple R
0.72213
R Square
0.52148
Adjusted R Square
0.44172
Standard Error
ห้องสมุดไป่ตู้47.46341
Observations
15
r2SSR29460.5.02148 SST56493.3
销量变化的52.1% ,由价格和广告 因素解释
ANOVA Regression Residual Total
多重判定系数-可决系数-拟合优度
(multiple coefficient of determination)
1. 回归平方和占总平方和的比例
2. 计算公式为
n
R2
yˆi
i1
y2
SSR1SSE
n
yi y2
SST
SST
i1
3. 因变量取值的变差中,能被多元回归方程
所解释的比例
决定系数
Regression Statistics
df 2
12 14
SS 29460.027 27033.306 56493.333
MS 14730.03 2252.776
F 6.53861
Significance F
0.01201
Intercept Price Advertising
Coefficien ts
306.52619 -24.97509 74.13096
方差 2都相同
3. 误差项ε是一个服从正态分布的随机变量, 即ε~N(0,2),且相互独立
多元线性回归方程的形式为
• E( y ) = 0+ 1 x1 + 2 x2 +…+ k xk
描述因变量 y 的平均值或期望值如何依赖于自 变量 x1, x2 ,…,xk的方程
偏回归系数βi表示假定其他变量不变,当 xi 每变动一个单位时,y 的平均变动值