相关系数种类
- 格式:doc
- 大小:122.50 KB
- 文档页数:5
相關係數種類(一) Pearson 積差相關(K. Pearson product-moment correlation ;r ) 1.X 變數:等距、比率變數(連續變數) 2.Y 變數:等距、比率變數(連續變數) 3.公式:∑∑∑∑∑∑∑∑∑---=--===Ny y Nx x yx xy N S NS y y x x S S C NZ Zr i i i i yx yx xy yxxy 2222)()())((4.特性:數值穩定、標準誤小。
5.例:工作時數與收入的關係。
(二) Spearman 等級相關(Spearman rank correlation ;r s ) 1.X 變數:次序變數 2.Y 變數:次序變數 3.公式:(1) 未有相同等級者:)1(6122--=∑N N D r s (D 為二變數對稱之等級差)(2) 有相同等級者:∑∑∑∑∑-+=222222yx D y x r s∑∑--=Tx NN x 1232∑∑--=Ty NN y 1232123tt T -=∑ t :表示得到相同等第的人數。
4.特性:適用於二個評分者評N 件作品,或同一位評分者,先後二次評N 件作品。
5.例:兩位評審對N 件學生作品之評定。
(三) Kendall 等級相關(Kendall ’s coefficient of rank correlation ;τ(tau)) 1.X 變數:人為次序變數 2.Y 變數:人為次序變數 3.公式:)1(21-=N N S τ S :等第失序量數; N :被評者的人數或作品件數4.特性:相當簡便5.例:兩位評審對N 件學生作品之評定。
(四) Kendall 和諧係數(the Kendall ’s coefficient of concordance ;W ) 1.X 變數:次序變數2.Y 變數:次序變數3.公式:(1) 未有相同等級者:)(12132N N K SW -⋅⋅=;222)()(∑∑∑-=-=R R NR R S i i i(2) 有相同等級者:∑--⋅⋅=T K N N K SW )(12132 ; 123tt T -=∑ ;)3(≥KK :評分者人數;N :被評者的人數或作品件數4.特性:特別適用於評分者間信度(interjudge reliability );考驗多位評審者對N 件作品評定等第之一致性。
各种相关系数介绍与对比各种相关系数介绍与对比按照变量的不同测量层次对各种相关系数简单介绍:1、定类变量——定类变量用于测量两个定类变量的相关系数,主要有Lambda 与T au-y两种。
(1)Lambda(λ)系数分为:对称形式——用于测量两个变量间的关系是对等的,即无自变量与因变量之分。
非对称形式——测量两个变量间的关系有自变量与因变量之分。
(2) Tau-y系数:用于测量变量间非对称关系的。
2、定序变量——定序变量如果测量两个定序尺度变量间的关系,可用Gamma系数、dyx系数和斯皮尔曼等级相关系数。
(1)Gamma(G)系数:分析两个变量间的对等关系,即无自变量与因变量之分。
(2)dyx系数:等级相关系数,两个变量间的关系是非对称的。
(3)斯皮尔曼(Spearman)等级相关系数(ρ):考虑单个个案在两个变量上的等级差异,测量两变量间对等相关关系。
3、定距变量——定距变量测量两个定距变量相关系数的最常用指标是皮尔森(Pearson)相关系数(γ)。
(要求N≥50而且两个变量的分布应近似于正态分布。
)4、定类变量——定距变量两个变量中,自变量为定类变量,因变量为定距变量时,采用相关比率来测量两者间相关程度。
(又称eta平方系数 E)5、定类变量——定序变量对一个定类变量例如性别,与一个定序变量例如收入水平关系的分析:第一,用theta系数(θ),专门测量定类变量与定序变量间关系有无和强度,非对称关系。
第二,采用λ系数和Tau-y系数,即将定序变量作为定类变量处理。
6、定序变量——定距变量处理一个定序变量例如教育水平,与一个定距变量如年均收入之间的关系,采用二种办法:第一,将定序变量看作定类变量,采用相关比例测量法。
第二,将定序变量看作定距变量,采用γ相关系数。
小结:在分析两个变量关系时,选择哪种相关系数,主要考虑两个方面:1、变量的测量层次;2、变量关系的类别,即是对等的还是非对称的。
16种常⽤的数据分析⽅法-相关分析相关性分析研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关⽅向及相关程度。
相关分析是⼀种简单易⾏的测量定量数据之间的关系情况的分析⽅法。
可以分析包括变量间的关系情况以及关系强弱程度等。
如:⾝⾼和体重的相关性;降⽔量与河流⽔位的相关性;⼯作压⼒与⼼理健康的相关性等。
相关性种类客观事物之间的相关性,⼤致可归纳为两⼤类:⼀、函数关系函数关系是两个变量的取值存在⼀个函数来唯⼀描述。
⽐如销售额与销售量之间的关系,可⽤函数y=px(y表⽰销售额,p表⽰单价,x表⽰销售量)来表⽰。
所以,销售量和销售额存在函数关系。
这⼀类关系,不是我们关注的重点。
⼆、统计关系统计关系,指两事物之间的⾮⼀⼀对应关系,即当变量x取⼀定值时,另⼀个变量y虽然不唯⼀确定,但按某种规律在⼀定的范围内发⽣变化。
⽐如:⼦⼥⾝⾼与⽗母⾝⾼、⼴告费⽤与销售额的关系,是⽆法⽤⼀个函数关系唯⼀确定其取值的,但这些变量之间确实存在⼀定的关系。
⼤多数情况下,⽗母⾝⾼越⾼,⼦⼥的⾝⾼也就越⾼;⼴告费⽤花得越多,其销售额也相对越多。
这种关系,就叫做统计关系。
按照相关表现形式,⼜可分为不同的相关类型,详见下图:相关性描述⽅式描述两个变量是否有相关性,常见的⽅式有3种:1.相关图(典型的如散点图和列联表等等)2.相关系数3.统计显著性⽤可视化的⽅式来呈现各种相关性,常⽤散点图,如下图:相关性分析步骤Step1:相关分析前,⾸先通过散点图了解变量间⼤致的关系情况。
如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么⼤部分的数据点就会相对密集并以某种趋势呈现。
如上图,展现了平时成绩与能⼒评分之间的关系情况:X增⼤时,Y会明显的增⼤,说明X和Y之间有着正向相关关系。
Step2:计算相关系数散点图能够展现变量之间的关系情况,但不精确。
还需要通过相关分析得到相关系数,以数值的⽅式精准反映相关程度。
三种相关系数
1. 皮尔逊相关系数(Pearson correlation coefficient):用于衡量两个变量之间线性关系的强度和方向。
其取值范围为-1到1,取值为正表示正相关,取值为负表示负相关,取值为0表示无关系。
2. 斯皮尔曼相关系数(Spearman correlation coefficient):用于衡量两个变量之间的关联程度,但不需要假定变量之间是线性关系。
它将每个变量的值替换为它们在所考虑的数据集中的秩,然后计算这些秩之间的皮尔逊相关系数。
3. 切比雪夫相关系数(Chebyshev correlation coefficient):用于衡量两个变量之间的相似程度,通常用于比较两个分布或向量之间的相似性。
它等于两个向量之间的最大差异除以变量的范数之和。
如果取值为1,则表示两个向量完全不同,如果取值为0,则表示两个向量完全相同。
第六讲相关关系课时安排:6课时教学课型:理论课,课堂同步练习教学目的要求:理解相关分析的意义与条件;熟练掌握积差相关法的基本思想与分析方法;熟练掌握等级相关、点二列相关、二列相关及φ相关的使用前提与分析方法;能应用各种相关解决实际问题。
教学重点与教学难点:重点——积差相关的意义与应用;难点——各种相关方法的选择应用教学方法、手段、媒介:讲授、教材、板书、多媒体教学过程与教学内容:第一节相关与相关系数 (2)第二节积差相关 (8)第三节等级相关 (14)第四节质与量的相关 (22)第五节品质相关——φ相关 (25)本章小结 (28)学习目标:1.理解相关分析的意义与条件2.熟练掌握积差相关法的基本思想与分析方法(重点)3.熟练掌握等级相关、点二列相关、二列相关及φ相关的使用前提与分析方法(难点)4.能应用各种相关解决实际问题问题导入:在学校、社会及家庭教育中,人们常常会遇到一些涉及事物关系的问题,譬如学生品德与家庭教育的关系,个体的智力水平高低与成绩的关系,学生身高与体重的关系,各科成绩之间的关系,人的兴趣爱好与学科成绩的关系,一般能力与特殊能力的关系,智力与创造力的关系,教育经费投入与教学效果的关系等等。
对这些问题的解释需要借助相关分析的方法进行说明。
客观世界涉及事物关系的问题比比皆是。
然而,我们在前几章所处理的数据均属单—变量范围的,即分析一种变量及其取值的分布情况与特征,属单变量的分析。
而涉及事物的关系的时候,至少要有两个变量,分析或研究两个或两个以上变量之间相互关系的量数称相关量数。
第一节 相关与相关系数一、事物的关系与相关量数事物或现象之间的关系大致可分为三种类型:一是因果关系:这种关系说明的是事物之间互相依存、互为因果的关系,是事物之间存在的一种必然关系,即一种引起与被引起的关系,因在前果在后的顺序是不能颠倒的。
二是函数关系(共变关系):这是事物之间的一种共变关系,其特点是函数与反函数可以互换位置。
相关系数种类
(一) Pearson 积差相关(K. Pearson product-moment correlation ;r ) 1.X 变数:等距、比率变量(连续变量) 2.Y 变数:等距、比率变量(连续变量) 3.公式:∑∑∑∑∑∑∑∑∑-
-
-=
--==
=
N
y y
N
x x
y
x xy N S NS y y x x S S C N
Z Z r i i
i i
y
x y
x xy y
x
xy
2
22
2
)()())((
4.特性:数值稳定、标准误小。
5.例:工作时数与收入的关系。
(二) Spearman 等级相关(Spearman rank correlation ;r s ) 1.X 变数:次序变数 2.Y 变数:次序变数 3.公式:
(1) 未有相同等级者:)1(612
2
--=∑N N D r s (D 为二变量对称之等级差) (2) 有相同等级者:∑∑∑∑∑-+=
2
2
2
22
2y
x D y x r s
∑∑--=Tx N
N x 1232
∑∑--=Ty N
N y 1232
123t
t T -=∑ t :表示得到相同等第的人数。
4.特性:适用于二个评分者评N 件作品,或同一位评分者,先后二次评N 件作品。
5.例:两位评审对N 件学生作品之评定。
(三) Kendall 等级相关(Kendall’s coefficient of rank correlation ;τ(tau)) 1.X 变数:人为次序变数 2.Y 变数:人为次序变数 3.公式:)1(2
1
-=
N N S τ S :等第失序量数; N :被评者的人数或作品件数
4.特性:相当简便
5.例:两位评审对N 件学生作品之评定。
(四)
Kendall 和谐系数(the Kendall’s coefficient of concordance ;W )
1.X 变数:次序变数
2.Y 变数:次序变数
3.公式:
(1) 未有相同等级者:)(12
1
32N N K S
W -⋅⋅=
;
2
2
2
)()(∑∑∑-=-
=R R N
R R S i i i
(2) 有相同等级者:∑--⋅⋅=
T K N N K S
W )(12
1
32 ; 12
3t
t T -=∑ ;)3(≥K
K :评分者人数;N :被评者的人数或作品件数
4.特性:特别适用于评分者间信度(interjudge reliability );考验多位评审者对N 件作品评定等第之一致性。
5.例:多位评审对N 件学生作品之评定。
(五) Kappa 一致性系数(K coefficient of agreement ;K ) 1.X 变数:类别变项 2.Y 变数:类别变项
3.公式:Kappa 一致性系数是评分者实际评定一致的次数百分比与评分者理论上评定的最大可能次数百分比的比率(林清山,1992)。
公式为:
)
(1)()(E P E P A P K --=
P (A ):K 位评分者评定一致的百分比;11])1(1[)(11
2
---=∑∑==K n K NK A P N i m
j ij
N :总人数; K :评分者人数; m :评定类别; n :细格资料
P (E ):K 位评分者理论上可能评定一致的百分比;当评分者的评定等第完全一致时,则K=1,当评分者的评定等第完全不一致时,则K=0。
∑==m j j P E P 12
)( ; NK C P j
j = ;∑==N i ij j n C 1
4.特性:前述之肯得尔和谐系数,所论之评分者所评定对象是限定在可评定出等第的,亦即是可
以排列出次序的。
然而,在有些情况下是无法将被评定对象列出等级次序的,而仅能将其归于某一类别,此时,就必须使用Kappa 一致性系数,来表示评分者间一致性的关系。
5.例:K 位精神科医师,将N 名病患,经诊断后归类至m 个心理疾病类别中。
(六) 二系列相关(biserial correlation ;r bis ) 1. X 变数:人为二分变量(名义变量) 2. Y 变数:连续变量(等距、比率变量)
3. 公式:y
q
p S X X rbis t q p ⋅⋅
-= 4. 特性:项目分析时使用;标准误大;有可能出现r bis 大于1。
5. 例:智商与学业成绩及格与否的关系。
(七) 点二系列相关(point-biserial correlation ;r pq ) 1.X 变数:真正二分变量(名义变量) 2.Y 变数:连续变量 3.公式:pq S X X r t
q
p pq -=
p X :表第一类之平均数;q X :表第一类之平均数;St :表全体分数之标准偏差;
p :表第一类人数之百分比;q :表第二类人数之百分比。
4.特性:标准误较r bis 小。
5.例:性别(男、女)与收入的关系。
(八)
φ相关(phi coefficient ;φ)
1.X 变数:真正二分变量(名义变量)
2.Y 变数:真正二分变量(名义变量)
3.公式:)
)()()((D B C A D C B A AD
BC q p q p p p p y
y x
x y x xy ++++-=
-=
φ
4.特性:与卡方考验有密切关系。
5.例:父母对子女的管教方式(权威式、民主式)。
(九) 列联相关(contingency coefficient ;C ) 1.X 变数:真正二分以上名义变量 2.Y 变数:真正二分以上名义变量
3.公式:2
2
χ
χ+=N C , C 的最大值为m m 1- ,N 为总人数 4.特性:与卡方考验有密切关系。
5.例:人民(老师、学生)对于实施政策的态度(同意、无意见、不同意)。
(十) 四分相关(tetrachoric correlation ;tet )
1.X 变数:人为二分名义变量(原始数据为等距变量)
2.Y 变数:人为二分名义变量(原始数据为等距变量)
3.公式:)1180cos(AD BC
r o
tet +
=
4.例:学业成绩(及格、不及格)与智商(高、低)的关系。
(十一) 净相关(Partial correlation ;r 12.3) 1.X 变数:连续变量 2.Y 变数:连续变量
3.公式:22321323131231211r r r r r r --⋅-=⋅ (显著性考验t =3
12
3
123
12--⋅⋅N r r )
4.特性:去除与二变量皆有关的重要影响因素,可以求得纯粹二变量间的关系。
5.例:去掉智力的影响,求数学与国文成绩的相关。
(十二) 曲线相关或相关比(correlation ratio ;η) 1.X 变数:连续变量 2.Y 变数:连续变量 3.公式:t
b
xy SS SS =
η 4.特性:随着X 变量增加,Y 变量先增加,待增加至某一阶段后,反而开始下降,此二者之关系即称为曲线相关或相关比。
5.例:工作效率与焦虑的关系。
综合以上各项相关系数的变量类型,归纳汇整如表14-1所示:
表14-1 各类相关细述之适用变数整理
一、积差相关系数之特性
(一)11+≤≤-r 。
(二)相关系数之数值与N (个数)之大小有密切关系。
1. 由公式y
x xy S NS XY r ∑=
可得知N 是决定相关系数r 值大小的重要因素之一。
2. 仅看r 值之大小,仍不能说两个变量之间有高相关或低相关(因为有可能是机率所造成),尚须再考虑样本个数(N )与显著水平(α)的大小。
(1) 一般而言,N 愈小,相关系数r 值必须愈大,方能说此二个变量间有相关存在;相反
地,N 愈大时,相关系数不需太大,吾人也可说两个变量间有相关存在。
(2) α愈小,则相关系数值必须愈大,方能说其有相关存在。
如表14-2所示:
表14-2 α、N 与r 的关系表
(三)相关的程度不是与r 成正比。
相关系数只是表示二变项之间关系密切与否的指标,故不能将
相关系数视为比率或等距变数。
如:r 1=.80,r 2=.20,则不可说r 1之值为r 2之四倍。
(四)有关系存在,但不表示一定有因果关系。
两事件同时发生,或一前一后发生,吾人仅能说两
事件有相关关系,但不一定即有因果关系存在。