- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( xi , Yi )
因 变 Yi 量 (Y)
SS ( C Total) (Yi Y ) 2
ˆ Yi b0 b1xi
Y
自变量(x)
xi
31
2007北京大学
一元线性回归分析
回归的方差分解
SS ( C - Total) SS (Model) SS (Error )
32
2007北京大学
上述四幅图分别说明了以下几种可能 的关系:
1、可用直线描述变量间的关系(变量间联 系中最简单的一种) ; 2、显示变量间有曲线关系; 3、可能有季节性的周期变化(在受季节影 响的经济指标中常会遇到) ; 4、变量间无明显的关系.
7
2007北京大学
相关分析
相关系数(Correlation Coef.)
X
21
2007北京大学
相关分析
相关与回归
相关分析量化连续型变量之间
线性相关的强度;
回归分析确定一个连续变量与
另一些连续变量间的相互依赖关 系.
22
2007北京大学
相关分析
本节的练习题
对学生数据(CLASS),用SAS菜单系统及编程完成以下 练习: (1) 计算AGE,WEIGHT,HEIGHT的相关系数
10
2007北京大学
相关分析
相关系数(Correlation Coef.)
正相关: 一个变量数值 增加时另一个 变量也增加
负相关: 一个变量数值 增加时另一个 变量减少
11
2007北京大学
相关分析
用Insight计算相关系数
为了定量地描述变量间的线性联系程度,就需要 计算他们之间的相关系数。 (1)打开CARS,选 分析(Analyze)→多元(Multivariate)(Y); (2) 选 MIDPRICE、CITYMPG、HWYMPG、EGNSIZE、RPM 和PERFORM → Y,即选这些变量为分析变量,计算 他们之间的相关系数, → OK。
9
2007北京大学
相关分析
相关系数
相关系数的值为 -1和+ 1之间; 若两个变量间有高度线性关系其值接近 任一个极端值; 若两个变量间无线性关系其值接近于零; ● 若相关系数的值大于零表示两变量有正相 关(即两变量同时增大) ; ● 若相关系数的值小于零表示两变量有负相 关(即一个变量增大时另一变量减小 或反之).
33
2007北京大学
一元线性回归分析
回归统计量(R2 ,修正R2和 PRESS)
SAS系统 与回归分析
计算机统计分析软件 (SAS系统9.1.2)
1
2007北京大学
SAS与回归分析目录
1. 2. 3. 4. 5. 6. 相关分析 一元线性回归分析 多元线性回归分析 变量选择 非线性回归(可化为线性) 回归诊断
2
2007北京大学
SAS与回归分析
回归分析是处理多个变量间相关关系 的一种数学方法. 变量间的关系有两种类型:确定性的 函数关系和相关关系.回归分析方法是处 理变量间相关关系的有力工具. 回归分析用于确定一个连续变量(因 变量)与另一些连续变量(自变量)间的相 互依赖关系.
一元线性回归分析
简单线性回归分析--模型检验的假设
H0: 1 = 0, H1: 1 ≠ 0; 检验结果若拒绝原假设就表示回归方程的 作用是显著的;接受原假设就表示所考虑的自 变量X对因变量Y的回归作用并不显著. 基线模型:Yi =
模型检验的假设为:
+ i
原假设: 简单线性回归模型拟合数据不比基线模型好; 备选假设: 简单线性回归模型拟合数据比基线模型好.
17
2007北京大学
相关分析
相关系数的计算--CORR过程
PROC CORR DATA=数据集名; RUN; PROC CORR DATA=数据集名; var 变量名列; with 变量名列; partial 变量名列; by 变量名列; RUN;
(reg11.sas)
18
2007北京大学
相关分析
4
2007北京大学
相关分析
散点图及变量的相关关系
中学生身高与体重数据的散点图
(用INSIGHT绘制. .红色为男 生,兰色为女生. 不同符号表示不同的年龄):
5
2007北京大学
相关分析
相关关系的类型
1. 用直线描述
2. 用曲线
描述
3.可能有周期变化
4.无明显关系
6
2007北京大学
相关分析
相关关系的类型
28
2007北京大学
一元线性回归分析
( Yi b0 b1 x i ) 2 m in
线性回归的拟合--最小二乘法估计(LSE)
n
i 1
^
29
2007北京大学
一元线性回归分析
回归的方差分解
因变量(Y)
ˆ Y b0 b1 x
自变量(x)
30
2007北京大学
一元线性回归分析
回归的方差分解
建立回归方程:
确定变量:Y 与变量x1, x2,. . , xm有相关关系 . 选择形式:Y 与 x1, x2,. . , xm 以什麽形式相联系, 即 f(.) 的表示式. 确定系数:确定 Y=a1x1+a2x1x2+a3x12+... 中的 ai (i=1,2,…) .
24
2007北京大学
一元线性回归分析
线性联系是描述变量间联系中最简单和最常 用的一种(Y=a1x1+a2x2+b); 相关系数是描述两个变量间线性联系程度 的统计指标; 相关系数的计算公式:
r
( X X )(Y Y ) ( X X ) (Y Y )
i i 2 i i
2
8
2007北京大学
相关分析
相关系数
两个区间型变量间的关系有很多种可能, 在考察散点图后,可用相关统计量将两个变量 的关系定量化.若两个变量间存在一个线性关 系,则他们为相关的,否则,变量间的相关是 不强的. 相关系数是描述变量间线性联系程度的一 个统计量,统计中有多个描述相关的指标,最 常用的是Pearson相关系数,简称相关系数.
简单线性回归模型
因变量Y和自变量x的n次观测数据(xi ,Yi) 可以用以下方程表示: Yi = 0 + 1 xi + i (i=1,2,. . .,n) Yi : 因变量的第 i 次观测值; xi : 自变量的第 i 次观测值;
0,1: 待估计的未知参数. 0是截距参数,它对应自变量为0时因变
多元分析生成分析变量的单变量统计量和这些 变量间的相关系数矩阵;
12
2007北京大学
相关分析
用Insight计算相关系数
为了得到检验相关系数是否为零的原假设的 p值,可选: 表(Tables)→相关系数P值(CORR P-Values); 则在输出结果的窗口下方又增加一张相关系数 的P值表.根据表中这些p-值可知,只有RPM和 MIDPRICE之间的p值(0.5518)大于0.05,这表示 不能拒绝这两个变量的相关系数等于零的假设 ,即可接受RPM和MIDPRICE之间的相关系数等于 零. 其余变量间的相关系数均显著地不等于零.
26
2007北京大学
一元线性回归分析
线性回归的拟合
ˆ Y b0 b1x
Yi (b0 b1 xi )
Hale Waihona Puke 272007北京大学线性回归的拟合--最小二乘法估计(LSE)
一元线性回归分析
使 达到最小值的点为b0 ,b1 。称 b0 ,b1 是参数的最小二乘估计(LSE)。
称Q为残差平方和。
(reg11.sas)
19
2007北京大学
相关分析
相关系数
在使用相关系数说明问题时要注意的是: (1) 相关系数很强并不表示变量间一定有 因果关系,也可能是两个变量同时受第三个 变量的影响而使他们有很强的相关(如学习 能力和鞋码大小); (2) 相关系数是说明线性联系程度的。相 关系数接近于0的变量间可能存在非线性联系 (可能是曲线关系); (3)有时个别极端数据可能影响相关系数。
绘制散点图—PLOT和GPLOT过程
散点图是直观地观察连续变化变量间相依关 系的重要工具。利用编程可绘制两个变量的散 proc plot data=class ; 点图。 或
plot weight*height=‘*’ ; Run ;
Symbol v=star cv=red; proc gplot data=class; plot weight*height ; Run ;
13
2007北京大学
相关分析
用Insight制作散点图矩阵及置信椭圆
为了利用图形来说明变量间的相关,可以 在多变量窗口生成散点图矩阵和置信椭圆,生 成这些椭圆时我们假定每一对变量(X,Y)是两 元正态分布的。 可以生成两类椭圆: 均值置信椭圆--预测两变量均值(EX,EY)分布 的置信区域; 预测值置信椭圆--预测两变量单个观测值 (X,Y)分布的置信区域.
3
2007北京大学
SAS与回归分析
回归分析是研究一个(或几个)因变量Y与另一 些变量的相互依赖关系.具体地说,我们研究以
下几方面问题:
① 建立因变量Y与x1,x2,…,xm的经验公式(回归 方程) ② 对经验公式的可信度进行检验; ③ 判断每个自变量xi(i=1,…,m)对Y的影响是 否显著? ④ 利用经验公式进行预报和控制,指导生产; ⑤ 诊断经验公式是否适合这组数据.
15
2007北京大学
相关分析
用Insight制作散点图矩阵及置信椭圆
对数据集CARS,为了在散点图矩阵上生成95%预测 值置信椭圆,可在多变量窗口中选: