SAS讲义 第三十课Spearman等级相关分析
- 格式:doc
- 大小:182.00 KB
- 文档页数:5
第三十课 Spearman 等级相关分析
一、 秩相关的Spearman 等级相关分析
前面介绍了使用非参数方法比较总体的位置或刻度参数,我们同样也可以用非参数方法比较两总体之间相关问题。秩相关(rank correlation )又称等级相关,它是一种分析i x 和i y 等级间是否相关的方法。适用于某些不能准确地测量指标值而只能以严重程度、名次先后、反映大小等定出的等级资料,也适用于某些不呈正态分布或难于判断分布的资料。
设i R 和i Q 分别为i x 和i y 各自在变量X 和变量Y 中的秩,如果变量X 与变量Y 之间存在着正相关,那么X 与Y 应当是同时增加或减少,这种现象当然会反映在(i x ,i y )相应的秩(i R ,i Q )上。反之,若(i R ,i Q )具有同步性,那么(i x ,i y )的变化也具有同步性。因此
∑∑==-==n i n
i i i i Q R d d 1
1
22
)(
(30.1)
具有较小的数值。如果变量X 与变量Y 之间存在着负相关,那么X 与Y 中一个增加时,另一个在减小,d 具有较大的数值。既然由(i x ,i y )构成的样本相关系数反映了X 与Y 之间相关与否的信息,那么在参数相关系数的公式),(Y X r 中以i R 和i Q 分别代替i x 和i y ,不是同样地反映了这种信息吗?基于这种想法,Charles Spearman 秩相关系数),(Q R r s 应运而生:
∑∑∑∑∑∑∑----
=
2
2)1
()1()1
)(1(),(i i i i i i
i i s Q n Q R n R Q n Q R n R Q R r (30.2)
),(Q R r s 与),(Y X r 形式上完全一致,但在),(Q R r s 中的秩,不管X 与Y 取值如何,总是只
取1到n 之间的数值,因此它不涉及X 与Y 总体其他的内在性质,例如秩相关不需要总体具有有限两阶矩的要求。由于
2
)
1(211
1
+=
+++==∑∑==n n n Q R n
i i n i i 6
)
12)(1(212221
21
2++=
+++==∑∑==n n n n Q R n
i i n i i
因此公式(30.2)可以化简为
)
1(61)
1()(612222
--
=---
=∑∑n n d n n Q R r i i i s (30.3)
显然在i R =i Q 时,秩相关系数s r 到达最大值+1。又因为
i i i i i i i i Q R n n n Q R Q R Q R ∑∑∑∑∑-++=
-+=-23
)
12)(1(2)(222
而
i
i
Q R ∑在每对i
R +i
Q =1+n 时到达最小值,最小值求法为
i i i i Q R Q R n ∑∑∑∑++=+2)
1(222
所以最小的
i
i
Q R ∑为
6
)
12)(1(2)1(2++-+n n n n n 最大的
2
)(∑-i i Q R 为
3
)1()1(3)12)(1(222
-=+-++n n n n n n n
故秩相关系数s r 的最小值为1-2=-1。
在原假设i R 和i Q 不相关的情况为真时,即秩相关系数为0时,s r 的期望值s r μ为0,样本的方差为
2
122--=n r s s r s
(30.4)
自由度为2-n 且分布关于零点对称。当≥n 10时,s r 的样本分布可以标准化为近似的t 分布
)2(~12
2
102
2---=---=
-=
n t r n r n r r s r t s
s
s s r r s s
s
μ (30.5)
例30.1某公司想要知道是否职工期望成为好的销售员而实际上就能有好的销售记录。为了调查这个问题,公司的副总裁仔细地查看和评价了公司10个职工的初始面试摘要、学科成绩、推荐信等材料,最后副总裁根据他们成功的潜能给出了单独的等级评分。二年后获得了实际的销售记录,得到了第二份等级评分,见表30.1中的第1到4列所示。统计问题为是否职工的销售潜能与开始二年的实际销售成绩一致。
表30.1 职工的销售潜能与销售成绩的秩相关分析 职工编号
潜能等级i R
销售成绩
成绩等级i Q
i i i Q R d -= 2i d
1 2 400 1 1 1 2 4 360 3 1 1 3 7 300 5 2 4 4 1 295 6 -5 25 5 6 280 7 -1 1 6 3 350 4 -1 1 7 10 200 10 0 0 8 9 260 8 1 1 9 8 220 9 -1 1 10
5
385
2
3
9 =∑2i
d
44
Spearman 秩相关系数),(Q R r s 的计算过程见表4.10中的第5到6列所示,最后计算结果
为
7333.0)
1100(10)
44(61)
1(6122=--
=--
=∑n n d r i s
表明潜能与成绩之间是较强的正相关,高的潜能趋向于好的成绩。秩相关系数),(Q R r s 原假设为0的t 检验统计量为
05.3)7333.0(12
107333
.02
=--=t
查表自由度为8,t =3.05的双侧p =0.0158。在0.05显著水平上,t 分布的上临界点为2.30,由于3.05>2.30,所以拒绝秩相关系数为0的原假设,接受潜能与成绩之间存在秩相关。
二、 Corr 相关过程
Corr 相关过程用于计算变量之间的相关系数,包括Pearson (皮尔逊)的乘积矩相关和加权乘积矩相关。还能产生三个非参数的关联测量:Spearman 的秩相关,Kendall 的tau-b 和Hoeffding 的相关性度量D 。该过程也可以计算偏相关等一些单变量的描述性统计量。 1. Corr 过程说明
proc corr 过程一般由下列语句控制:
proc corr data=数据集 <选项>;
var 变量列表; with 变量列表 ; partial 变量列表 ; weight 变量 ; freq 变量 ; By 变量列表 ; run ;