当前位置:文档之家› SAS线性回归分析案例

SAS线性回归分析案例




































































































































线性回归



20094788 陈磊 计算2

西南交通大学


SouthWest JiaoTong University

-------------------------------------------------------------------


线性回归分为一元线性回归和多元线性回归。


一元线性回归的模型为
Y=..0+..1X+ε,
这里
X
是自变量,
Y
是因变量,
ε是随机误差项

通常假设随机误差的均值为
0
,方差为
..2(
..2>0),
..2与
X
的值无关。若进一步假设
随机误
差服从正态分布,就叫做正态线性模型。一般情况,设有
k
个自变量和一个因变量,因变量的
值可以分解为两部分:一部分是由于自变量的影响,即表示
为自变量的函数
,其中函数形式已
知,但含有一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。
当函数形式为未知参数的线性函数时,称为线性回归分析模型。


如果存在多个因变量,则回归模型为:
Y=..0+..1X1+..2X2+.+..iXi+..。
由于直线模
型中含有随机误差项,所以回归
模型反映的直线是不确定的
。回归分析的主要目的是要从这些
不确定的直线中找出一条最能拟合原始数据信息的直线,并将其作为回归模型来描述因变量和
自变量之间的关系,
这条直线被称为回归方程。



常在回归分析中,对
ε有以下最为常用的经典假设。


1、ε的期望值为
0.
2、ε对于所有的
X
而言具有同方差性。
3、ε是服从正态分布且相互独立的随机
变量。





对线性回归的讲解,
本文
以例题为依托展开。
在下面的例题中既有一元回归分析,又有二
元回归分析。


例题

《数据据分析方法》
_
习题
2.4_page79



某公司管理人员为了解某化妆品在一个城市的月销量
Y
(单位:箱)与该城市中


适合使用该化妆品的人数
..1(单位:千人)以及他们人均月收入
..2(单位:元)之间


的关系,在某个月中对
15
个城市作了调查,得到上述各量的观
测值如表
2.12
所示。



2.12
化妆品销售数据


城市

销量(y)

人数(x1)

收入(x2)



城市

销量(y)

人数(x1)

收入(x2)

1

162

274

2450

9

116

195

2137

2

120

180

3254

10

55

53

2560

3

223

375

3802

11

252

430

4020

4

131

205

2838

12

232

372

4427

5

67

86

2347

13



144

236

2660

6

169

265

3782

14

103

157

2088

7

81

98

3008

15

212

370

2605

8

192

330

2450











假设
Y

..1,
..2之间满足线性回归关系


....=..0+..1....1+..2....2+....,
..=1,2,…,15


其中
....独立同分布于
..(0,..2).



1

求线性回归系数
..0,
..1,
..2的最小二乘估计和误差方差
..2的估计,写出回归方程并
对回归系数
作解释;



2

求出方差分析表,解释对线性回归关系显著性检验结果
。求复相关系数的平方
..2的

并解释其意义;



3

分别求
..1和
..2的置信度为
95%
的置信区间




4


α=0.05,分别检验人数
..1及收入
..2对
销量
Y
的影响是否显著,利用
与回归系数



有关的一般假设检验方法检验
..1和
..2的交互作用(即
..1..2)对
Y
的影响是否显著






数据导入


在编辑窗口输入
此题

数据导入代码



title
‘《数据据分析方法》
_
习题
2.4_page79

;/*
标题,省略不影响分析结果
*/


data
mylib.ch2_2_4;
/*
首先新建逻辑库,
在逻辑库
mylib
中创建数据集
ch2_2_4*/


input y x1 x2 @@; /*@@
表示可连续输入

y
为因变量,
x1

x2
是自变量
*/


cards; /*
开始输入数据
*/


162 274 2450 120 180 3254 223 375 3802


131 205 2838 67 86 2347 169 265 3782


81 98 3008 192 330 2450 116 195 2137


55
53 2560 252 430 4020 232 372 4427


144 236 2660 103 157 2088 212 370 2605


;


/*
遗漏数据用“
.
”表示,否则对应的这组数据会被自动删除
*/


run
; /*run
语句用于说明处理当前程序步中该语句之前的所有行
*/





F8
运行后,打开逻辑库
mylib
即可看到新建的数据集
ch2_2_4

SAS
提供了多种导入数
据的方式,比如:


1

从文件读入数据,
infile

F

\
mylib
\
c
h2_2_4.txt
’;


2
、利用已经建立过数据集,
proc reg data=mylib.ch2_2_4



另外还可以从外部直接导入
Excel
等方式。上面的程序,是直接在编辑框内输入。





过程调用


本题所要调用的过程

proc reg
过程。
proc reg
过程是
SAS

统中众多回归分析过程的
一种,它除可拟合一般线性回归模型外,
还提供多种选取最优模型的方法及模型诊断检查方法。


其中(
1
)、(
2
)、(
3
)主要用到多元线性回归分析的结果。(
4
)将用到一元线性回归分析
的结果。





(一)
Y

....,
....的线性回归分析


proc
reg
;
/*

reg
过程用
*/


m
odel y=x1 x2;
/*
因变量为
y
,自变量为

x1

x2*/


run;




Model
语句:用于定义模型中因变量、自变量、模型选项及结果输出选项。


常用选项有
Selection=,
指定变量选择方法:
FORWARD
(向前输入法)、
BACKWARD
(向后删
除法)、
STEPWISE
(逐步回归法)

ADJRSQ
(修正复相关系数准则


CP

Cp准则)
等。


NOINT
,表示在模型中不包括常
数项;


STB
,输出标准化的回归系数;


CLI
,输出单个预测值置信区间;


R
,进行残差分
析,并输出分析结果;


I
,输出

XTX)
.1
矩阵




格式:
MODEL
因变量名
=
自变量名列
/[
选项
]



例:
model y=x1 x2 / selection=stepwise; /*
逐步回归
*/



运行程序后,得到结果



参数估计表



























1

最小二乘估计:
...=(...0,...1,...2)=(3.45261,0.49600,0.00920)


回归方程:
Y=3.45261+0.49600
..1+0.00920
..2



方差分析表

































2
)误差方差估计值:
...2=MSE=4.74040


复相关系数
的平方

..2=0.9989

R
-
Square



显著性:由复相关系数的值可以看出是高度显著的(
Y

..1,
..2)


复相关系数
的平方
也可以通
过计算得到:
..2=SSR/SST=53845/53902=0.9989



3

置信区间:
...k+
.t1.
..
2(n.p)s(...
..)



..0.975(12)=2.17881(通过查
t分布表得到)
也可以通过函数
Y=TINV

p

DF
)求得。



..1=0.496+/
-
2.179*0.00605
,得出(
0.4828

0.5092




..2=0.0092+/
-
2.179*0.00096811

得出(
0.0071

0.0113









Y

....的线性回归分析


proc
reg
data=mylib.ch2_2_4; /*
直接引用数据集
*/


model y=x1;


run
;

































































4
)复相关系数为:
0.9910

X1

Y
影响显著








Y

....的线性回归分析


proc
reg
data=mylib.ch2_2_4; /*
直接引用数据集
*/


model y=x2
;


run
;
























































4

复相关系数平方为:
0.4087

X2

Y
的影响不显著















Y

........的线性回归分析


data mylib.ch2_2_4;


set mylib.ch2_2_4;
/*
读入数据集
*/


z=x1*x2;
/*
新建自变量
z*/


run;





proc reg;


model y=z;
/*
自变量为
z*/


run;

























































4

复相关系数的平方为:
0.9030

X1X2

Y
的影响显著





利用模块进行线性回归分析


(一)
一元线性回归分析


启动
SAS
系统,依次单击“解决方案”
-
>
“分析”
-
>
“分析家”
,然后单击“文件”
-
>
“打开”,打开数据集“
ch2_2_4.sas7bdat

,
如图







































变量列表

自变量

因变量

置信度a的值

依次单击“统计”
-
>
“回归”
-
>
“简单”,弹出对话框
















































1

变量设置


在左侧的变量
列表
里选中
y
,单击“
Dependent
”按钮,将其设为因变量

选中
x2
,单击

Explanatory

按钮,将其设为自变量。



Model
”设置栏中默认选中“
Linear
”,表示线性回归




2

Tests
设置


单击“
Tests
”按钮,弹出对话框















































置信度默认值为
0.05
,可更改。
单击“
OK
”。



3

Plots
设置


单击“
Plots
”按钮,弹出作图选项设置对话框
,选择“
Residul
”选项卡


Studentized

表示学生化残差,“
Normal quantile
-
quantile plot
”代表正态
QQ
图检验。
设置如图












残差栏

正态检
验栏

变量栏

方差分析

参数估计











































单击“
OK
”,并在主设置对话框单击

OK
”,
于是









































并得到结果
















































回归方程

单击“
Analysis(new project)
”对话框中的“
Plot of RSTUDENT
vs
x2
”,弹出残差图
对话框




























































再单击

Plot of RSTUDENT
vs
NQQ

,弹出
QQ

























































由学生化残差的正态
QQ
图可以看出,模型误差项近似正态分布













自变量选择方式

(二)多
元线性回归分析


启动
SAS
系统,依次单击“解
决方案”
-
>
“分析”
-
>
“分析家”,然后单击“文件”
-
>
“打开”,打开数据集“
ch2_2_4.sas7bdat





依次单击“统计”
-
>
“回归”
-
>
“线性”,弹出对话框






















































选取自变量
x1

x2
,因变量
y
。单击“
Model
”按钮,弹出对话框
















































在“
Selection method
”栏中提供了自变量选择方式,如:
Stepwise selection
,表示逐
步回归法;
Adjusted R
-
square
,表示修正复相关系数准则。本例选择
逐步回归法。单击“
OK
”。


Plots
设置与一元回归分析情况类似
。最后单击“
OK
”。



多元线性分析结果:
















































































































































残差图




































































































































QQ


































































另外,单击“
Analysis(
new project
)

对话框中的“
code

即可弹出程序对话框。


以上过程主要讲解线性回归在
SAS
系统中的用法,因而对结果分析部分比较少。比如:由
QQ
图可以看出


趋近于一条直线,
表明
误差项
近似


分布。




相关主题
文本预览
相关文档 最新文档