相关系数种类

格式：doc
大小：122.50 KB
文档页数：5

下载文档原格式

第7章相关分析与回归分析(含SPSS)

四、偏相关分析
（一）偏相关分析和偏相关系数偏相关分析也称净相关分析，它在控制其他变量的线性影响的条件下分析两变量间的线性相关性，所采用的工具是偏相关系数（净相关系数）。

偏相关分析的主要用途是根据观测资料应用偏相关分析计算偏相关系数，可以判断哪些解释变量对被解释变量的影响较大，而选择作为必须考虑的解释变量。这样在计算多元回归分析时，只要保留起主要作用的解释变量，用较少的解释变量描述被解释变量的平均变动量。
(7.7)

偏相关系数的取值范围及大小含义与相关系数相同。
2、对样本来自的两总体是否存在显著的偏相关进行推断。
（1）提出原假设：两总体的偏相关系数与零无显著差异。
（2）选择检验统计量。偏相关系数的检验统计量为 t 统计量。（3）计算检验统计量的观测值和相伴概率 p 。
（4）给定显著性水平，并作出决策。如果相伴概率值小于或等于给定的显著性水平，则拒绝原假设；如果相伴概率值大于给定的显著性水平，则不能拒绝原假设。

（二）偏相关系数在SPSS中的实现

1、建立或打开数据文件后，进入Analyze→ Correlate →Partial主对话框，如图7-6所示。
图7-6 偏相关分析主对话框
2、选择分析变量送入Valiables框，选择控制变
量进入Controlling for框。
3、在Test of Significance 栏中选择输出偏相
图7-7 偏相关分析的选项对话框
（1）Statistics 统计量选择项，有两个选项： ①
Means and standard deviations 复选项，要求
SPSSZero-order correlations 复选项，要求显示零阶

各种相关系数介绍与对比

各种相关系数介绍与对比各种相关系数介绍与对比按照变量的不同测量层次对各种相关系数简单介绍：1、定类变量——定类变量用于测量两个定类变量的相关系数，主要有Lambda 与T au-y两种。

（1）Lambda（λ）系数分为：对称形式——用于测量两个变量间的关系是对等的，即无自变量与因变量之分。

非对称形式——测量两个变量间的关系有自变量与因变量之分。

（2） Tau-y系数：用于测量变量间非对称关系的。

2、定序变量——定序变量如果测量两个定序尺度变量间的关系，可用Gamma系数、dyx系数和斯皮尔曼等级相关系数。

（1）Gamma（G）系数：分析两个变量间的对等关系，即无自变量与因变量之分。

（2）dyx系数：等级相关系数，两个变量间的关系是非对称的。

（3）斯皮尔曼(Spearman)等级相关系数(ρ)：考虑单个个案在两个变量上的等级差异，测量两变量间对等相关关系。

3、定距变量——定距变量测量两个定距变量相关系数的最常用指标是皮尔森（Pearson）相关系数（γ）。

（要求N≥50而且两个变量的分布应近似于正态分布。

）4、定类变量——定距变量两个变量中，自变量为定类变量，因变量为定距变量时，采用相关比率来测量两者间相关程度。

（又称eta平方系数 E）5、定类变量——定序变量对一个定类变量例如性别，与一个定序变量例如收入水平关系的分析：第一，用theta系数（θ），专门测量定类变量与定序变量间关系有无和强度，非对称关系。

第二，采用λ系数和Tau-y系数，即将定序变量作为定类变量处理。

6、定序变量——定距变量处理一个定序变量例如教育水平，与一个定距变量如年均收入之间的关系，采用二种办法：第一，将定序变量看作定类变量，采用相关比例测量法。

第二，将定序变量看作定距变量，采用γ相关系数。

小结：在分析两个变量关系时，选择哪种相关系数，主要考虑两个方面：1、变量的测量层次；2、变量关系的类别，即是对等的还是非对称的。

16种常用的数据分析方法-相关分析

16种常⽤的数据分析⽅法-相关分析相关性分析研究现象之间是否存在某种依存关系，对具体有依存关系的现象探讨相关⽅向及相关程度。

相关分析是⼀种简单易⾏的测量定量数据之间的关系情况的分析⽅法。

可以分析包括变量间的关系情况以及关系强弱程度等。

如：⾝⾼和体重的相关性；降⽔量与河流⽔位的相关性；⼯作压⼒与⼼理健康的相关性等。

相关性种类客观事物之间的相关性，⼤致可归纳为两⼤类：⼀、函数关系函数关系是两个变量的取值存在⼀个函数来唯⼀描述。

⽐如销售额与销售量之间的关系，可⽤函数y=px（y表⽰销售额，p表⽰单价，x表⽰销售量）来表⽰。

所以，销售量和销售额存在函数关系。

这⼀类关系，不是我们关注的重点。

⼆、统计关系统计关系，指两事物之间的⾮⼀⼀对应关系，即当变量x取⼀定值时，另⼀个变量y虽然不唯⼀确定，但按某种规律在⼀定的范围内发⽣变化。

⽐如：⼦⼥⾝⾼与⽗母⾝⾼、⼴告费⽤与销售额的关系，是⽆法⽤⼀个函数关系唯⼀确定其取值的，但这些变量之间确实存在⼀定的关系。

⼤多数情况下，⽗母⾝⾼越⾼，⼦⼥的⾝⾼也就越⾼；⼴告费⽤花得越多，其销售额也相对越多。

这种关系，就叫做统计关系。

按照相关表现形式，⼜可分为不同的相关类型，详见下图:相关性描述⽅式描述两个变量是否有相关性，常见的⽅式有3种：1.相关图（典型的如散点图和列联表等等）2.相关系数3.统计显著性⽤可视化的⽅式来呈现各种相关性，常⽤散点图，如下图：相关性分析步骤Step1：相关分析前，⾸先通过散点图了解变量间⼤致的关系情况。

如果变量之间不存在相互关系，那么在散点图上就会表现为随机分布的离散的点，如果存在某种相关性，那么⼤部分的数据点就会相对密集并以某种趋势呈现。

如上图，展现了平时成绩与能⼒评分之间的关系情况：X增⼤时，Y会明显的增⼤，说明X和Y之间有着正向相关关系。

Step2：计算相关系数散点图能够展现变量之间的关系情况，但不精确。

还需要通过相关分析得到相关系数，以数值的⽅式精准反映相关程度。

第五章相关系数

=9.48
将以上数值代入公式（4.1）
r N x Y
xy =
285 .1 =0.56 10 5.34 9.48
所以，语文测验成绩与英语测验成绩之间的相关系数 r=0.56。
2、用原始观测值求r 利用基本公式求r，麻烦且结果不够精确。可用原始观测值直接求r，公式为： X Y XY N (5.3) r X Y X N Y N 或者
2 2 2 2
r
N X 2 ( X ) 2 N Y 2 ( Y ) 2
N XY X Y
(5.4)
式中，、Y分别为两变量的观测值， X
N为观测值的对数
实际上，这两个公式是由公式（5.1）推导出来的。 X ， Y Y ， x X X ，把 X N N (Y Y ) 2 (X X ) 和，以及代入公 y Y Y
不完全相关：由两列变量成对的观测值的坐标
点不在一条直线上，呈椭圆形。零相关：指两变量间没有相关关系，即当一变量变化时，另一变量不显示出变化倾向，或即使有变化，也无一定规律。
不完全正相关
不完全负相关
零相关
从散布图的形状，我们可以大约地看出变量间相关程度的强弱、方向或性质，但并不能得知其相关的确切程度。为精确了解变量间的相关程度，还需进行进一步的统计分析，求出描述变量间相关程度的量数，即相关系数。
r N X 2 ( X 2 ) N Y 2 ( Y ) 2 （5.5） N X Y X Y
式中， X 是 X 变量各数值与其估计平均数
之差； Y 是
Y 变量各数值与其估计平均数之差。
练习:以上述资料为例，假定X变量的估计平均数为70，Y变量的估计平均数为72,计算相关系数.

三种相关系数

三种相关系数
1. 皮尔逊相关系数（Pearson correlation coefficient）：用于衡量两个变量之间线性关系的强度和方向。

其取值范围为-1到1，取值为正表示正相关，取值为负表示负相关，取值为0表示无关系。

2. 斯皮尔曼相关系数（Spearman correlation coefficient）：用于衡量两个变量之间的关联程度，但不需要假定变量之间是线性关系。

它将每个变量的值替换为它们在所考虑的数据集中的秩，然后计算这些秩之间的皮尔逊相关系数。

3. 切比雪夫相关系数（Chebyshev correlation coefficient）：用于衡量两个变量之间的相似程度，通常用于比较两个分布或向量之间的相似性。

它等于两个向量之间的最大差异除以变量的范数之和。

如果取值为1，则表示两个向量完全不同，如果取值为0，则表示两个向量完全相同。

SPSS的相关分析和回归分析

(如:身高和体重)
n
( Xi X )(Yi Y )
r
11
n
n
( Xi X )2 (Yi Y )2i 1i 1源自2021/3/611
计算相关系数
(一)相关系数 (3)种类:
n
n
Di2 (Ui Vi )2
i 1
i 1
R
1
6 n(n2
Di2 1)
• Spearman相关系数:用来度量定序或定类变量间的线性相
第八章 SPSS的相关分析和回归分析
2021/3/6
1
概述
(一)相关关系
(1)函数关系:(如:销售额与销售量;圆面积和圆半径.)
是事物间的一种一一对应的确定性关系.即:当一个变量x取一定值时,另一变量y可以依确定的关系取一个确定的值
(2)统计关系:(如:收入和消费;身高的遗传.)
事物间的关系不是确定性的.即:当一个变量x取一定值时,另一变量y的取值可能有几个.一个变量的值不能由另一个变量唯一确定
300
•散点图在进行相
200
关分析时较为粗略
100
领导(管理)人数
2021/3/6
0
Rsq = 0.7762
8 200 400 600 800 1000 1200 1400 1600 1800
普通职工数
计算相关系数
(一)相关系数 (1)作用:
– 以精确的相关系数(r)体现两个变量间的线性关系程度.
2021/3/6
17
计算相关系数
(五)应用举例
• 通过27家企业普通员工人数和管理人员数,利用相关系数分析人数之间的关系
– *表示t检验值发生的概率小于等于0.05,即总体无相关的可能性小于0.05;

第七章相关分析

（四）按变量多少划分可分为单相关、复相关
1.单相关：两个因素之间的相关关系叫单相关，即研究时只涉及一个自变量和一个因变量。 2.复相关：二个以上因素的相关关系叫复相关，即研究时涉及两个或两个以上的自变量和因变量。偏相关：在某一现象与多种现象相关的场合，当假定其他变量不边时，其中两个变量之间的相关关系称为偏相关。在实际工作中，如存在多个自变量，可抓住其中主要的自变量，研究其相关关系，而保持另一些因素不变，这时复相关为偏相关。
第七章直线相关与回归分析
含秩相关
第一节
相关分析的概念
一、相关分析的概念：相关分析是分析变量间是否有相关关系，确定相关关系是否存在，描述相关关系呈现的形式和方向，以及变量间相关的密切程度的方法。二、函数关系和相关关系：函数关系反映变量间的数量上，存在着确定的数量对应关系
，这种关系可用数学函数关系表达式，由一个变量精确计算出另一个变量。见函数关系散点图和曲线。相关关系反映变量间存在数量上的相关关系，但不具有确定性的对应关系。见相关关系散点图和曲线。
三、相关分析内容
相关分析通常包括考察随机变量观测数据的散点图、计算样本相关系数以及对总体相关系数的显著性检验等内容。散点图可以大致判断两个变量之间有无相关关系、变量间的关系形态以及变量之间的关系密切程度，但准确度量两个变量之间的关系密切程度，需要计算相关系数。一般情况下，总体相关系数ρ是未知的，通常是将样本相关系数r作为ρ的估计值，于是常用样本相关系数推断两变量间的相关关系．这一点要和相关系数的显著性检验结合起来应用。

2．回归分析的种类
（1）根据所涉及变量的多少不同，回归分析可分为简单回归和多元回归。简单线性回归又称一元回归或直线回归，是指两个变量之间的回归，研究一个自变量与另一个因变量的线性趋势数量关系。多元线性回归是研究多个自变量与一个因变量的线性趋势数量关系。（2）根据变量变化的表现形式不同，回归分析也可分为直线回归和曲线回归。对具有直线相关关系的现象，配之以直线方程进行回归分析，即直线回归；对具有曲线相关关系的现象，配之以曲线方程进行回归分析，则称为曲线回归。

第六章相关关系(0-1)

第六讲相关关系课时安排：6课时教学课型：理论课，课堂同步练习教学目的要求：理解相关分析的意义与条件；熟练掌握积差相关法的基本思想与分析方法；熟练掌握等级相关、点二列相关、二列相关及φ相关的使用前提与分析方法；能应用各种相关解决实际问题。

教学重点与教学难点：重点——积差相关的意义与应用；难点——各种相关方法的选择应用教学方法、手段、媒介：讲授、教材、板书、多媒体教学过程与教学内容：第一节相关与相关系数 (2)第二节积差相关 (8)第三节等级相关 (14)第四节质与量的相关 (22)第五节品质相关——φ相关 (25)本章小结 (28)学习目标：1．理解相关分析的意义与条件2．熟练掌握积差相关法的基本思想与分析方法（重点）3．熟练掌握等级相关、点二列相关、二列相关及φ相关的使用前提与分析方法（难点）4．能应用各种相关解决实际问题问题导入：在学校、社会及家庭教育中，人们常常会遇到一些涉及事物关系的问题，譬如学生品德与家庭教育的关系，个体的智力水平高低与成绩的关系，学生身高与体重的关系，各科成绩之间的关系，人的兴趣爱好与学科成绩的关系，一般能力与特殊能力的关系，智力与创造力的关系，教育经费投入与教学效果的关系等等。

对这些问题的解释需要借助相关分析的方法进行说明。

客观世界涉及事物关系的问题比比皆是。

然而，我们在前几章所处理的数据均属单—变量范围的，即分析一种变量及其取值的分布情况与特征，属单变量的分析。

而涉及事物的关系的时候，至少要有两个变量，分析或研究两个或两个以上变量之间相互关系的量数称相关量数。

第一节相关与相关系数一、事物的关系与相关量数事物或现象之间的关系大致可分为三种类型：一是因果关系：这种关系说明的是事物之间互相依存、互为因果的关系，是事物之间存在的一种必然关系，即一种引起与被引起的关系，因在前果在后的顺序是不能颠倒的。

二是函数关系（共变关系）：这是事物之间的一种共变关系，其特点是函数与反函数可以互换位置。

斯皮尔曼等级相关系数二

Pearson（皮尔逊）相关系数相关系数：考察两个事物（在数据里我们称之为变量）之间的相关程度。

如果有两个变量：X、Y，最终计算出的相关系数的含义可以有如下理解：(1)、当相关系数为0时，X和Y两变量无关系。

(2)、当X的值增大（减小），Y值增大（减小），两个变量为正相关，相关系数在0.00与1.00之间。

(3)、当X的值增大（减小），Y值减小（增大），两个变量为负相关，相关系数在-1.00与0.00之间。

相关系数的绝对值越大，相关性越强，相关系数越接近于1或-1，相关度越强，相关系数越接近于0，相关度越弱。

通常情况下通过以下取值范围判断变量的相关强度：相关系数0.8-1.0 极强相关0.6-0.8 强相关0.4-0.6 中等程度相关0.2-0.4 弱相关0.0-0.2 极弱相关或无相关Pearson（皮尔逊）相关系数1、简介皮尔逊相关也称为积差相关（或积矩相关）是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。

假设有两个变量X、Y，那么两变量间的皮尔逊相关系数可通过以下公式计算：公式一：公式二：公式三：公式四：以上列出的四个公式等价，其中E是数学期望，cov表示协方差，N表示变量取值的个数。

2、适用范围当两个变量的标准差都不为零时，相关系数才有定义，皮尔逊相关系数适用于：(1)、两个变量之间是线性关系，都是连续数据。

(2)、两个变量的总体是正态分布，或接近正态的单峰分布。

(3)、两个变量的观测值是成对的，每对观测值之间相互独立。

3、Matlab实现皮尔逊相关系数的Matlab实现（依据公式四实现）：[cpp]view plainc opy1.function coeff = myPearson(X , Y)2.% 本函数实现了皮尔逊相关系数的计算操作3.%4.% 输入：5.% X：输入的数值序列6.% Y：输入的数值序列7.%8.% 输出：9.% coeff：两个输入数值序列X，Y的相关系数10.%11.12.13.if length(X) ~= length(Y)14. error('两个数值数列的维数不相等');15.return;16.end17.18.fenzi = sum(X .* Y) - (sum(X) * sum(Y)) / length(X);19.fenmu = sqrt((sum(X .^2) - sum(X)^2 / length(X)) * (sum(Y .^2) - sum(Y)^2 /length(X)));20.coeff = fenzi / fenmu;21.22.end %函数myPearson结束也可以使用Matlab中已有的函数计算皮尔逊相关系数：[cpp]view plainc opy1.coeff = corr(X , Y);文案编辑词条B 添加义项?文案，原指放书的桌子，后来指在桌子上写字的人。

报告中的相关性和相关因素分析方法

报告中的相关性和相关因素分析方法一、导言报告是在各种场合中常见的一种文献形式，其目的是通过数据和信息的呈现，向读者传达特定的观点和结论。

而报告的相关性及相关因素分析是对报告进行深入解读和评估的方法。

本文将从报告的相关性、相关性分析的意义、相关因素的选择、相关性分析方法的选择等多个角度展开详细论述。

二、相关性的概念和种类相关性是指两个或多个变量之间存在某种关联或关系的度量。

在报告中，相关性主要体现在数据的联结和统计结果的分析上。

常用的相关性分析方法包括：Pearson相关系数、秩相关系数、偏相关系数等。

三、相关性分析在报告中的意义相关性分析在报告中起着重要的作用。

首先，相关性分析可以帮助读者快速了解变量之间的关系，例如，销售额与广告投入之间的相关性。

其次，相关性分析可以检验报告中给出的结论的可信度，例如，两份报告中关于消费者行为的结论是否一致。

最后，相关性分析还可以用于模型的建立和预测，例如，通过相关性分析，可以确定一组最相关的变量用于构建销售预测模型。

四、选择相关因素的方法在相关性分析中，选择相关因素是十分关键的一步。

首先，需要明确报告的目的和研究问题，例如，如果研究某个产品的销量影响因素，相关因素可能包括价格、市场环境、竞争对手等。

其次，需要考虑数据的可得性和可行性，例如，某项指标是否可以在短期内获得。

最后，需要考虑变量之间的理论联系和实际联系，例如，某个变量是否与其他变量存在逻辑联系或实际联系。

五、选择相关性分析方法的考虑因素在进行相关性分析时，需要根据实际情况选择合适的方法。

首先，需要考虑变量的性质，例如，如果变量呈现非线性关系，可以选择非参数方法进行相关性分析。

其次，需要考虑样本容量和相关系数的可靠性，例如，如果样本容量较小，可以选择秩相关系数而非Pearson相关系数。

最后，需要考虑数据的分布性和异常值的影响，例如，如果数据不服从正态分布或存在异常值，可能需要通过数据转换或剔除异常值的方法进行相关性分析。

第4章相关分析

完全正相关
-1.0
-0.5
0
+0.5
正相关程度增加
+1.0
r
负相关程度增加
相关系数的直观意义
结论：作为度量X 和Y 相关的一个数值，Σ (x − x)( y − y) 至少在符号上是对的（即Σ (x − x)( y − y) 的正与负表现了X 与y 相关的正与负）。而且，当X 与Y 之间没有什么线性联系时，观测点将均匀地散布在四个象限上，正项和负项抵消后Σ (x − x)( y − y) 将会是0。
单相关和复相关正相关和负相关线性相关和非线线相关完全相关、完全不相关和不完全相关
当一个变量每增减1个单位，另一相关变量按一个大致固定的增(减)量变化时称为线性相关；反之，相关变量不按固定增(减) 量变化时，则为非线性相关。当变量之间的依存关系密切到近
乎于函数关系时，称为完全相关；当变量之间不存在依存关系时，就称为不相关或零相关；大多数相关关系介于其间，称为不完全相关。
返回
相关表
相关表是一种显示变量之间相关关系的统计表。通常将两个变量的对应值平行排列，且其中某一变量按其取值大小顺序排列，便可得到相关表。如下表某商店10名售货员的工龄和日工资的相关系表
工龄（年）日工资（百元） 4 42 4 46 5 50 6 60 7 64 8 68 8 74 9 72 9 80 10 84
近似服从t (n 2).
Spearman等级相关系数 Spearman等级相关系数用来度量定序变量间的线性相关关系。该系数的设计思想与Pearson简单相关系数完全相同，仍然可依照式(4.1)计算，相应的指标特征也相似。然而在计算Spearman等级相关系数时，由于数据为非定距的，因此计算时并不直接采用原始数据(x，y)，而是利用数据的秩，用两变量的秩(U, V)代替(x, y)代人式(4.1)中，于是其中的x和y的取值范围被限制在1至 n之间．且式(4.1)可被简化为：

第九章相关与回归分析《统计学原理》PPT课件

［公式9—4］
r xy n • xy
x y
［公式9—5］
返回到内容提要
第三节回归分析的一般问题
一、回归分析的概念与特点
(一)回归分析的概念
现象之间的相关关系，虽然不是严格的函数关系，但现象之间的一般关系值，可以通过函数关系的近似表达式来反映，这种表达式根据相关现象的实际对应资料，运用数学的方法来建立，这类数学方法称回归分析。
单相关是指两个变量间的相关关系，如自变量x和因变量y的关系。
复相关是指多个自变量与因变量间的相关关系。
(二)相关关系从表现形态上划分，可分为直线相关和曲线相关
直线相关是指两个变量的对应取值在坐标图中大致呈一条直线。
曲线相关是指两个变量的对应取值在坐标图中大致呈一条曲线，如抛物线、指数曲线、双曲线等。
0.578
a y b x 80 0.578 185 3.844
n
n7
7
yˆ 3.844 0.578x
二、估计标准误差 (一)估计标准误差的概念与计算估计标准误差是用来说明回归直线方程代表性大小的统计分析指标。其计算公式为：
Syx
y yˆ 2
n
［公式9—8］
实践中，在已知直线回归方程的情况下，通常用下面的简便公式计算估计标准误差：
［例９—２］根据相关系数的简捷公式计算有：
r
n xy x y
n x2 x2 n y2 y2
7 218018580
0.978
7 5003 1852 7 954 802
再求回归直线方程：
yˆ a bx
b
n xy x y
n x2 x2
7 2180 18580 7 50031852

常用相关分析方法及其计算

二、常用相关分析方法及其计算在教育与心理研究实践中，常用的相关分析方法有积差相关法、等级相关法、质量相关法，分述如下。

（一）积差相关系数1. 积差相关系数又称积矩相关系数，是英国统计学家皮尔逊（Pearson ）提出的一种计算相关系数的方法，故也称皮尔逊相关。

这是一种求直线相关的基本方法。

积差相关系数记作XY r ，其计算公式为∑∑∑===----=ni in i ini iiXY Y y X x Y y X x r 12121)()())(( (2-20)式中i x 、i y 、X 、Y 、n 的意义均同前所述。

若记X x x i -=,Y y y i -=，则（2-20）式成为YX XY S nS xyr ∑= (2-21)式中nxy ∑称为协方差，nxy ∑的绝对值大小直观地反映了两列变量的一致性程度。

然而，由于X 变量与Y 变量具有不同测量单位，不能直接用它们的协方差nxy ∑来表示两列变量的一致性，所以将各变量的离均差分别用各自的标准差除，使之成为没有实际单位的标准分数，然后再求其协方差。

即：∑∑⋅==)()(1YX YX XY S yS x n S nS xyr Y X Z Z n∑⋅=1(2-22) 这样，两列具有不同测两单位的变量的一致性就可以测量计算。

计算积差相关系数要求变量符合以下条件：（1）两列变量都是等距的或等比的测量数据；（2）两列变量所来自的总体必须是正态的或近似正态的对称单峰分布；（3）两列变量必须具备一一对应关系。

2. 积差相关系数的计算利用公式 (2-20)计算相关系数，应先求两列变量各自的平均数与标准差，再求离中差的乘积之和。

在统计实践中，为方便使用数据库的数据格式，并利于计算机计算，一般会将(2-20)式改写为利用原始数据直接计算XY r 的公式。

即：∑∑∑∑∑∑∑---=2222)()(i ii iii i i XY y y n x x n y x y x n r (2-23)（二）等级相关在教育与心理研究实践中，只要条件许可，人们都乐于使用积差相关系数来度量两列变量之间的相关程度，但有时我们得到的数据不能满足积差相关系数的计算条件，此时就应使用其他相关系数。

分类变量相关系数解释

分类变量相关系数解释温馨提示：该文档是小主精心编写而成的，如果您有需求，可以下载它，希望它能够帮助您解决实际问题。

文档下载后可以进行修改，请根据您的实际需要进行调整。

本店铺还为大家提供各种类型的实用资料，比如工作总结、文案摘录、教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文等等。

如果您想了解更多不同的资料格式和写法，敬请关注后续更新文档。

谢谢！Tips: this document is carefully written by the small master,if you have needs, you can download it, I hope it can help yousolve practical problems. The document can be modified after download, please adjust according to your actual needs. The store also provides you with a variety of practical materials, such as work summary, copy excerpts, educational essays, diary appreciation, sentence excerpts, ancient poems, classic articles, topic composition and so on. If you want to know more about the different data formats and writing methods, please pay attentionto the following updates.thanks!分类变量相关系数是统计学中用来衡量两个分类变量之间关联程度的指标。

在研究中，人们经常会用相关系数来评估不同变量之间的关系，从而更好地理解数据背后的规律。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

相关系数种类
（一） Pearson 积差相关（K. Pearson product-moment correlation ；r ） 1.X 变数：等距、比率变量（连续变量） 2.Y 变数：等距、比率变量（连续变量） 3.公式：∑∑∑∑∑∑∑∑∑-
-
-=
--==
=
N
y y
N
x x
y
x xy N S NS y y x x S S C N
Z Z r i i
i i
y
x y
x xy y
x
xy
2
22
2
)()())((
4.特性：数值稳定、标准误小。

5.例：工作时数与收入的关系。

（二） Spearman 等级相关（Spearman rank correlation ；r s ） 1.X 变数：次序变数 2.Y 变数：次序变数 3.公式：
（1）未有相同等级者：)1(612
2
--=∑N N D r s （D 为二变量对称之等级差）（2）有相同等级者：∑∑∑∑∑-+=
2
2
2
22
2y
x D y x r s
∑∑--=Tx N
N x 1232
∑∑--=Ty N
N y 1232
123t
t T -=∑ t ：表示得到相同等第的人数。

4.特性：适用于二个评分者评N 件作品，或同一位评分者，先后二次评N 件作品。

5.例：两位评审对N 件学生作品之评定。

（三） Kendall 等级相关（Kendall’s coefficient of rank correlation ；τ(tau)） 1.X 变数：人为次序变数 2.Y 变数：人为次序变数 3.公式：)1(2
1
-=
N N S τ S ：等第失序量数； N ：被评者的人数或作品件数
4.特性：相当简便
5.例：两位评审对N 件学生作品之评定。

（四）
Kendall 和谐系数（the Kendall’s coefficient of concordance ；W ）
1.X 变数：次序变数
2.Y 变数：次序变数
3.公式：
（1）未有相同等级者：)(12
1
32N N K S
W -⋅⋅=
；
2
2
2
)()(∑∑∑-=-
=R R N
R R S i i i
（2）有相同等级者：∑--⋅⋅=
T K N N K S
W )(12
1
32 ； 12
3t
t T -=∑ ；)3(≥K
K ：评分者人数；N ：被评者的人数或作品件数
4.特性：特别适用于评分者间信度（interjudge reliability ）；考验多位评审者对N 件作品评定等第之一致性。

5.例：多位评审对N 件学生作品之评定。

（五） Kappa 一致性系数（K coefficient of agreement ；K ） 1.X 变数：类别变项 2.Y 变数：类别变项
3.公式：Kappa 一致性系数是评分者实际评定一致的次数百分比与评分者理论上评定的最大可能次数百分比的比率（林清山，1992）。

公式为：
)
(1)()(E P E P A P K --=
P （A ）：K 位评分者评定一致的百分比；11])1(1[)(11
2
---=∑∑==K n K NK A P N i m
j ij
N ：总人数； K ：评分者人数； m ：评定类别； n ：细格资料
P （E ）：K 位评分者理论上可能评定一致的百分比；当评分者的评定等第完全一致时，则K=1，当评分者的评定等第完全不一致时，则K=0。

∑==m j j P E P 12
)( ； NK C P j
j = ；∑==N i ij j n C 1
4.特性：前述之肯得尔和谐系数，所论之评分者所评定对象是限定在可评定出等第的，亦即是可
以排列出次序的。

然而，在有些情况下是无法将被评定对象列出等级次序的，而仅能将其归于某一类别，此时，就必须使用Kappa 一致性系数，来表示评分者间一致性的关系。

5.例：K 位精神科医师，将N 名病患，经诊断后归类至m 个心理疾病类别中。

（六）二系列相关（biserial correlation ；r bis ） 1. X 变数：人为二分变量（名义变量） 2. Y 变数：连续变量（等距、比率变量）
3. 公式：y
q
p S X X rbis t q p ⋅⋅
-= 4. 特性：项目分析时使用；标准误大；有可能出现r bis 大于1。

5. 例：智商与学业成绩及格与否的关系。

（七）点二系列相关（point-biserial correlation ；r pq ） 1.X 变数：真正二分变量（名义变量） 2.Y 变数：连续变量 3.公式：pq S X X r t
q
p pq -=
p X ：表第一类之平均数；q X ：表第一类之平均数；St ：表全体分数之标准偏差；
p ：表第一类人数之百分比；q ：表第二类人数之百分比。

4.特性：标准误较r bis 小。

5.例：性别（男、女）与收入的关系。

（八）
φ相关（phi coefficient ；φ）
1.X 变数：真正二分变量（名义变量）
2.Y 变数：真正二分变量（名义变量）
3.公式：)
)()()((D B C A D C B A AD
BC q p q p p p p y
y x
x y x xy ++++-=
-=
φ
4.特性：与卡方考验有密切关系。

5.例：父母对子女的管教方式（权威式、民主式）。

（九）列联相关（contingency coefficient ；C ） 1.X 变数：真正二分以上名义变量 2.Y 变数：真正二分以上名义变量
3.公式：2
2
χ
χ+=N C ， C 的最大值为m m 1- ，N 为总人数 4.特性：与卡方考验有密切关系。

5.例：人民（老师、学生）对于实施政策的态度（同意、无意见、不同意）。

（十）四分相关（tetrachoric correlation ；tet ）
1.X 变数：人为二分名义变量（原始数据为等距变量）
2.Y 变数：人为二分名义变量（原始数据为等距变量）
3.公式：)1180cos(AD BC
r o
tet +
=
4.例：学业成绩（及格、不及格）与智商（高、低）的关系。

（十一）净相关（Partial correlation ；r 12.3） 1.X 变数：连续变量 2.Y 变数：连续变量
3.公式：22321323131231211r r r r r r --⋅-=⋅ （显著性考验t ＝3
12
3
123
12--⋅⋅N r r ）
4.特性：去除与二变量皆有关的重要影响因素，可以求得纯粹二变量间的关系。

5.例：去掉智力的影响，求数学与国文成绩的相关。

（十二）曲线相关或相关比（correlation ratio ；η） 1.X 变数：连续变量 2.Y 变数：连续变量 3.公式：t
b
xy SS SS =
η 4.特性：随着X 变量增加，Y 变量先增加，待增加至某一阶段后，反而开始下降，此二者之关系即称为曲线相关或相关比。

5.例：工作效率与焦虑的关系。

综合以上各项相关系数的变量类型，归纳汇整如表14-1所示：
表14-1 各类相关细述之适用变数整理
一、积差相关系数之特性
（一）11+≤≤-r 。

（二）相关系数之数值与N （个数）之大小有密切关系。

1. 由公式y
x xy S NS XY r ∑=
可得知N 是决定相关系数r 值大小的重要因素之一。

2. 仅看r 值之大小，仍不能说两个变量之间有高相关或低相关（因为有可能是机率所造成），尚须再考虑样本个数（N ）与显著水平（α）的大小。

（1）一般而言，N 愈小，相关系数r 值必须愈大，方能说此二个变量间有相关存在；相反
地，N 愈大时，相关系数不需太大，吾人也可说两个变量间有相关存在。

（2） α愈小，则相关系数值必须愈大，方能说其有相关存在。

如表14-2所示：
表14-2 α、N 与r 的关系表
（三）相关的程度不是与r 成正比。

相关系数只是表示二变项之间关系密切与否的指标，故不能将
相关系数视为比率或等距变数。

如：r 1=.80，r 2=.20，则不可说r 1之值为r 2之四倍。

（四）有关系存在，但不表示一定有因果关系。

两事件同时发生，或一前一后发生，吾人仅能说两
事件有相关关系，但不一定即有因果关系存在。

相关系数种类

合集下载

第7章相关分析与回归分析(含SPSS)