当前位置:文档之家› 7相关系数

7相关系数

7相关系数
7相关系数

计量经济学

第1章 相关理论

相关分析是研究变量间相互关系的最基本方法。从相关分析中引出的相关系数是回归分析的一个基本统计量。掌握它有助于对经济问题和经济计量模型的分析与理解。

1.1 相关的定义与分类

定义:相关(correlation )指两个或两个以上变量间相互关系的程度或强度。 分类:①按强度分

完全相关:变量间存在函数关系。例,圆的周长,L = 2πR 高度相关(强相关):变量间近似存在函数关系。例,我国家庭收入与支出的关系。 弱相关:变量间有关系但不明显。例,近年来我国耕种面积与产量。 零相关:变量间不存在任何关系。例,某班学生的学习成绩与年龄。

200

400

600

800

10

20

30

40

50

Y

X

1

2

10

20

30

40

50

Y

X

0.5

1.0

1.5

2.02.5

3.0

2.0

2.5

3.0

3.5

4.0

4.5

Y

X

图1.1 完全相关 图1.2 高度相关、线性相关、正相关 图1.3 弱相关

②按变量个数分

按形式分:线性相关, 非线性相关 简单相关:指两个变量间相关

按符号分:正相关, 负相关, 零相关 复相关(多重相关和偏相关):指三个或三个以上变量间的相关。

050100

150

200

50

100

150

200

250

Y

X 1

2

10

20

30

40

50

Y X

-4-2

2

4

-4

-2

2

4

Y

X

图1.4 非线性相关 图1.5 负相关 图1.6 零相关

因非线性相关可以转化为线性相关处理,而复相关又可看作是简单相关基础上的拓展,所以后面重点介绍简单线性相关。

1.2 简单线性相关的度量

用简单线性相关系数,简称相关系数(correlation coefficient )度量两个变量间的线性相关强度,用 ρ 表示。ρ 的随机变量表达式是

ρ =

)

()()(t t t t y D x D y ,x Cov 。 (1)

ρ 的统计表达式是

ρ =

∑∑∑===----T

t y t T

t x t T

t y t x t y T

x T

y x T 12

121)(1)(1)

)((1μμμμ=

∑∑∑===----T

t y t T t x t T

t y t x t y x y x 12

121)()()

)((μμμμ (2)

其中T ,总体容量;x t , y t ,变量的观测值;x ,y ,变量观测值的均值。

下面解释 ρ 为什么能对变量间的线性相关强度进行定量度量。

因为 ρ 表达式的分子是协方差,Cov (x t , y t );分母是x i 和y t 的标准差之积。而x t 和y t

的标准差不会为零,所以Cov (x t , y t ) 是否为零,就决定了ρ 是否为零,即标志着变量x t , y t 间是否存在线性相关关系。

但Cov(x t , y t ) 有两个缺点:①它是一个有量纲的量,取值容易受测量单位的影响;②取值范围宽,相关性越强,Cov(x t , y t ) 取值越大。为克服上述缺点,用x t , y t 的标准差除Cov(x t , y t ),于是就得到相关系数 ρ 的统计表达式。它是一个无量纲量。

相关系数 ρ 是对总体而言。当研究某个问题时,所得数据常是一个样本。对样本来说,相关系数常用r 表示,即r 是总体相关系数 ρ 的估计值。

r = ρ

?=∑∑∑===----T

t t T t t T

t t t y y T x x T y y x x T 12121

)(1

-1)(1-1))((1-1=

∑∑∑===----T t t T t t T

t t t y y x x y y x x 12

12

1)()()

)(( (3)

1.3相关系数的取值范围

(1) 当两个变量严格服从线性关系时,∣ρ∣= 1。 证:设直线斜率为k , 即y = a + k x 。则有

ρ =

2

2

)

()())((y y x x y y x x t t t t -∑-∑--∑=

2

2

2

)

()()()(x x k x x x x k x x t t t t -∑-∑--∑= ±1 (4)

(2) 当两个变量不存在线性关系时,| ρ | = 0。

(3)上述是两种极端情形,所以相关系数的取值范围是 [-1,1]。当Cov (x t , y t ) > 0时,则 ρ > 0 (正相关);当Cov (x t , y t )< 0时,则 ρ < 0 (负相关);若Cov (x t , y t ) = 0,则 ρ = 0 (零相关)。

为什么图1为正相关?为什么图2为负相关?用∑ (x t –x ) ( y t –y )解释。

图1.7 图1.8

例1:考察1986年中国29个省市自治区农作物种植业产值y t (亿元)和农作物播种面积x t (万亩)的相关性(见图1.9)。

例2:考察1978~2000年天津市城镇居民人均消费与人均可支配收入的相关性性(见图1.10)。

0100200

300

5000

10000

15000

20000

X

Y

200

400

600800

10001200

1400

500

1000

1500

2000

X

Y

图1.9 r = 0.92 图1.10 r = 0.99

1.4 线性相关系数的局限性

(1) 只适用于考察变量间的线性相关关系。也就是说当 ρ = 0时,只说明二变量间不存在线性相关关系,但不能保证不存在其它非线性相关关系。所以变量不相关与变量相互独立在概念上是不同的。

(2) 相关系数的计算是一个数学过程。它只说明二变量间的相关强度,但不能揭示这种相关性的原因,不能揭示变量间关系的实质,即变量间是否真正存在内在联系,因果关系。所以在计算r 的同时,还要强调对实际问题的分析与理解。

(3) 一般说二变量相关时,可能属于如下一种关系。

① 单向因果关系。如施肥量与农作物产量;对金属的加热时间与温度值。 ② 双向因果关系。如工业生产与农业生产;商品供给量与商品价格。

③ 另有隐含因素影响二变量变化。如市场上计算机销量与电视机销量呈正相关。显然人均收入的增加是一个隐含因素。

④ 虚假相关。如年国民生产总值与刑事案件数呈正相关。显然二变量间不存在因果关系。应属虚假相关。中国和美国某个经济指标高度相关,显然这没有可比性,毫无意义。

7.0

7.5

8.0

8.5

9.0

9.5

1

2

3

4

5

C ASES

GD P

(file: correlation1)

1.5 简单相关系数的检验

(1) 直接检验(查相关系数临界值表) H 0:ρ = 0; H 1:ρ ≠ 0

用x t 和y t 的样本计算相关系数r ,以自由度f = T - 2查临界值表。检验规则是, 若 | r | > r α (T -2) (临界值),则x t 和y t 相关; 若 | r | < r α (T -2) (临界值),则x t 和y t 不相关。

附录:相关系数临界值表

0.10 0.05 0.02 0.01 0.001

1 0.98769 0.9969

2 0.999507 0.999877 0.9999988

2 0.90000 0.95000 0.98000 0.99000 0.99900

3 0.805

4 0.8783 0.93433 0.95873 0.99116

4 0.7293 0.8114 0.8822 0.91720 0.97406

5 0.6694 0.7545 0.8329 0.8745 0.95074

6 0.6215 0.706

7 0.7887 0.8343 0.92493

7 0.5822 0.6664 0.7498 0.7977 0.8982

8 0.5494 0.6319 0.7155 0.7646 0.8721

9 0.5214 0.6021 0.6851 0.7348 0.8471

10 0.4933 0.5760 0.6581 0.7079 0.8233

11 0.4762 0.5529 0.6339 0.6835 0.8010

12 0.4575 0.5324 0.6120 0.6614 0.7800

13 0.4409 0.5139 0.5923 0.6411 0.7603

14 0.4259 0.4973 0.5742 0.6226 0.7420

15 0.4124 0.4821 0.5577 0.6055 0.7246

16 0.4000 0.4683 0.5425 0.5897 0.7084

17 0.3887 0.4555 0.5285 0.5751 0.6932

18 0.3783 0.4438 0.5155 0.5614 0.6787

19 0.3687 0.4329 0.5034 0.5487 0.6652

20 0.3598 0.4227 0.4921 0.5368 0.6524

25 0.3233 0.3809 0.4451 0.4869 0.5974

30 0.2960 0.3494 0.4093 0.4487 0.5541

35 0.2746 0.3246 0.3810 0.4182 0.5189

40 0.2573 0.3044 0.3578 0.3932 0.4896

45 0.2428 0.2875 0.3384 0.3721 0.4648

50 0.2306 0.2732 0.3218 0.3541 0.4433

60 0.2108 0.2500 0.2948 0.3248 0.4078

70 0.1954 0.2319 0.2737 0.3017 0.3799

80 0.1829 0.2172 0.2565 0.2830 0.3568

90 0.1726 0.2050 0.2422 0.2673 0.3375

100 0.1638 0.1946 0.2301 0.2540 0.3211 注:P{|r| > rα ( f ) } = α, 其中α表示显著性水平,f表示自由度,rα ( f )为临界值。

附录:相关系数的EViews操作。

打开数据组窗口。选View/Correlation

得相关系数矩阵如下。

相关性分析(相关系数)

相关系数是变量之间相关程度的指标。样本相关系数用r表示,总体相关系数用ρ表示,相关系数的取值一般介于-1~1之间。相关系数不是等距度量值,而只是一个顺序数据。计算相关系数一般需大样本. 相关系数又称皮(尔生)氏积矩相关系数,说明两个现象之间相关关系密切程度的统计分析指标。 相关系数用希腊字母γ表示,γ值的范围在-1和+1之间。 γ>0为正相关,γ<0为负相关。γ=0表示不相关; γ的绝对值越大,相关程度越高。 两个现象之间的相关程度,一般划分为四级: 如两者呈正相关,r呈正值,r=1时为完全正相关;如两者呈负相关则r呈负值,而r=-1时为完全负相关。完全正相关或负相关时,所有图点都在直线回归线上;点子的分布在直线回归线上下越离散,r的绝对值越小。当例数相等时,相关系数的绝对值越接近1,相关越密切;越接近于0,相关越不密切。当r=0时,说明X和Y两个变量之间无直线关系。 相关系数的计算公式为<见参考资料>. 其中xi为自变量的标志值;i=1,2,…n;■为自变量的平均值, 为因变量数列的标志值;■为因变量数列的平均值。 为自变量数列的项数。对于单变量分组表的资料,相关系数的计算公式<见参考资料>. 其中fi为权数,即自变量每组的次数。在使用具有统计功能的电子计算机时,可以用一种简捷的方法计算相关系数,其公式<见参考资料>. 使用这种计算方法时,当计算机在输入x、y数据之后,可以直接得出n、■、∑xi、∑yi、∑■、∑xiy1、γ等数值,不必再列计算表。 简单相关系数: 又叫相关系数或线性相关系数。它一般用字母r 表示。它是用来度量定量变量间的线性相关关系。 复相关系数: 又叫多重相关系数

如何用SPSS求相关系数

参见: [1] 衷克定数据统计分析与实践—SPSS for Windows[M].北京:高等教育出版社,2005.4:195— [2] 试验设计与SPSS应用[M].北京,化学工业出版社,王颉著,2006.10:141— 多元相关与偏相关 如何用SPSS求相关系数 1 用列联分析中,计算lamabda相关系数,在分析——描述分析——列联分析 2 首先看两个变量是否是正态分布,如果是,则在analyze-correlate-bivariate中选择 pearson相关系数,否则要选spearman相关系数或Kendall相关系数。如果显著相关,输出结果会有*号显示,只要sig的P值大于0.05就是显著相关。如果是负值则是负相关。 在SPSS软件相关分析中,pearson(皮尔逊), kendall(肯德尔)和spearman(斯伯曼/斯皮尔曼)三种相关分析方法有什么异同 两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述. Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可。 Kendall's tau-b等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验;取值范围在-1-1之间,此检验适合于正方形表格; 计算积距pearson相关系数,连续性变量才可采用;计算Spearman秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。 计算相关系数:当资料不服从双变量正态分布或总体分布未知,或原始数据用等级表示时,宜用spearman或kendall相关 Pearson 相关复选项积差相关计算连续变量或是等间距测度的变量间的相关分析Kendall 复选项等级相关计算分类变量间的秩相关,适用于合并等级资料 Spearman 复选项等级相关计算斯皮尔曼相关,适用于连续等级资料 注: 1若非等间距测度的连续变量因为分布不明-可用等级相关/也可用Pearson 相关,对于完全等级离散变量必用等级相关 2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用Spearman 或Kendall相关。 3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使用,可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默认数据服从正态分布的,故用Pearson分析方法。 在SPSS里进入Correlate-》Bivariate,在变量下面Correlation Coefficients复选框组里有3个选项:

相关性平均值标准差相关系数回归线及最小二乘法概念

平均值、标准差、相关系数、回归线及最小二乘法相关性 线性相关 数据在一条直线附近波动,则变量间是线性相关 非线性相关 数据在一条曲线附近波动,则变量间是非线性相关 不相关 数据在图中没有显示任何关系,则不相关 平均值 N个数据的平均值计算公式: 标准差 标准差表示了所有数据与平均值的平均距离,表示了数据的散度,如果标准差小,表示数据集中在平均值附近,如果标准差大则表示数据离标准差比较远,比较分散。标准差计算公式: x、y两个变量组成了笛卡尔坐标系中的一 坐标(x,y),这个坐标标识了一个点的位置。 个 各包含n个常量的X,Y两组数据在笛卡尔坐标系中以n个点来进行表示。 相关系数 相关系数用字母r来表示,表示两组数据线性相关的程度(同时增大或减小的程度),从另一方面度量了点相对于标准差的散布情况,它没有单位。包含n个数值的X、Y两组数据的相关系数r的计算方法: 简单的说,就是r=[(以标准单位表示的x )X(以标准单位表示的y )]的平均数 根据上面点的定义,将X、Y两组数据的关系以点的形式在笛卡尔坐标系中画出,SD线表示了经过中心点(以数据组X、Y平均值为坐标的点),当r>0时,斜率=X的标准

差/Y的标准差;当r<0时,斜率=-X的标准差/Y的标准差;的直线。通常用SD线来直观的表示数据的走向: 1、当r<0时,SD线的斜率小于0时,则说明数据负相关,即当x增大时y减少。 2、当r>0时,SD线的斜率大于0时,则说明数据正相关,此时当x增大时y增大。 3、相关系数r的范围在[-1,1]之间,当r=0时表示数据相关系数为0(不相关)。当r=正负1时,表示数据负相关,此(x,y)点数据都在SD线上。 4、r的值越接近正负1说明(x,y)越靠拢SD线,说明数据相关性越强,r的值越接近0说明(x,y)点到SD线的散度越大(越分散),数据相关性越小。 回归方法主要描述一个变量如何依赖于另一个变量。y对应于x的回归线描述了在不同的x值下y的平均值情况,它是这些平均值的光滑形式,如果这些平均值刚好在一条直线上,则这些平均值刚好和回归线重合。通过回归线,我们可以通过x值来预测y值(已知x值下y值的平均值)。下面是y对应于x的回归线方程: 简单的说,就是当x每增加1个SD,平均而言,相应的y增加r个SD。 从方程可以看出: 1、回归线是一条经过点,斜率为的直线。 2、回归线的斜率比SD线小,当r=1或-1时,回归线和SD线重合。 当用回归线从x预测y时,实际值与预测值之间的差异叫预测误差。而均方根误差就是预测误差的均方根。它度量回归预测的精确程度。y关于x的回归线的均方根误差用下面的公式进行计算: 由公式可以看出,当r越接近1或-1时,点越聚集在回归线附近,均方根误差越小; 反之r越接近0时,点越分散,均方根误差越大。 最小二乘法寻找一条直线来拟合所有的点,使得这条直线到所有的点之间的均方根误差最小。可以看到,当求两个变量之间的关系时,最小二乘法求出的直线实际上就是回归线。只不过表述的侧重点不同:

第三章附录:相关系数r 的计算公式的推导

相 关 系 数 r AB 的计算公式的推导 设A i 、B i 分别表示证券A 、证券B 历史上各年获得的收益率;A 、B 分别表示证券A 、证券B 各年获得的收益率的平均数;P i 表示证券A 和证券B 构成的投资组合各年获得的收益率,其他符 号的含义同上。 2 A σ=1 1-n 2)(∑-A A i 2 B σ=1 1-n )(B B i -∑2 2 P σ= 12)1(-i i P P 公式(1)左右两端对A A 求一阶导数,并注意到A B =1—A A : (2P σ)′=2 A A 2A σ-2 (1-A A )2B σ+2 (1-A A )B A σσ r AB -2A A B A σσ r AB 令 (2P σ)′= 0 并简化,得到使2 P σ取极小值的A A : A A =AB B A B A AB B A B r r σσσσσσσ22 22-+- … …………………………………(3) 式中, 0≤A A ≤1,否则公式(3)无意义。 由于使(2P σ)′=0的A A 值只有一个,所以据公式(3)计算出的A A 使2 P σ为最小值。

以上分析清楚地说明:对于证券A和证券B,只要它们的系数r AB 适当小(r AB 的“上限”的 计算,本文以下将进行分析),由证券A和证券B构成的投资组合中,当投资于风险较大的证券B 的资金比例不超过按公式(3)计算的(1—A A ),会比将全部资金投资于风险较小的证券A的方 差(风险)还要小;只要投资于证券B的资金在(1—A A )的比例范围内,随着投资于证券B的资 金比例逐渐增大,投资组合的方差(风险)会逐渐减少;当投资于证券B的资金比例等于(1—A A )时,投资组合的方差(风险)最小。这种结果有悖于人们的直觉,揭示了风险分散化效应的内在特征。按公式(3)计算出的证券A和证券B的投资比例构成的投资组合称为最小方差组合,它是证券A和证券B的各种投资组合中方差(亦即风险)最小的投资组合。

第三章:相关系数r 的计算公式的推导

设A i 、B i 分别表示证券A 、证券B 历史上各年获得的收益率;A 、B 分别表示证券A 、证券B 各年获得的收益率的平均数;P i 表示证券A 和证券B 构成的投资组合各年获得的收益率,其他符号的含义同上。 2 A σ= 11 -n 2)(∑-A A i 2 B σ=1 1-n )(B B i -∑2 2 P σ=11-n 2)1(∑∑-i i P n P =2)](1 )[(11i B i A i B i A B A A A n B A A A n +-+-∑∑ =2)]()[(1 1 B A A A B A A A n B A i B i A +-+-∑ =2)]()([1 1 B B A A A A n i B i A -+--∑ =)])((2)()([1 122 22B B A A A A B B A A A A n i i B A i B i A --+-+--∑ =A 2 A × 2 2 1 )(B i A n A A +--∑× 1 )] )([(21 )(2 ---+ --∑∑n B B A A A A n B B i i B A i =A 1 )])([(22 2 2 2---? ++∑n B B A A A A A i i B A B B A A σσ 对照公式(1)得: = 1 )(2 --∑n A A i × 1 )(2 --∑n B B i × r AB ∴ r AB = ∑∑∑-?---2 2 ) ()()] )([(B B A A B B A A i i i i 这就是相关系数r AB 的计算公式。 投资组合风险分散化效应的内在特征 1.两种证券构成的投资组合为最小方差组合(即风险最小)时各证券投资比例的测定 公式(1)左右两端对A A 求一阶导数,并注意到A B =1—A A : (2 P σ)′=2 A A 2 A σ-2 (1-A A )2 B σ+2 (1-A A )B A σσ r AB -2A A B A σσ r AB 令 (2 P σ)′= 0 并简化,得到使2 P σ取极小值的A A : AB B A i i r n B B A A σσ =---∑1 )])([(

相关系数计算公式

相关系数计算公式 相关系数计算公式 Statistical correlation coefficient Due to the statistical correlation coefficient used more frequently, so here is the use of a few articles introduce these coefficients. The correlation coefficient: a study of two things (in the data we call the degree of correlation between the variables). If there are two variables: X, Y, correlation coefficient obtained by the meaning can be understood as follows: (1), when the correlation coefficient is 0, X and Y two variable relationship. (2), when the value of X increases (decreases), Y value increases (decreases), the two variables are positive correlation, correlation coefficient between 0 and 1. (3), when the value of X increases (decreases), the value of Y decreases (increases), two variables are negatively correlated, the correlation coefficient between -1.00 and 0. The absolute value of the correlation coefficient is bigger, stronger correlations, the correlation coefficient is close to 1 or -1, the higher degree of correlation, the correlation coefficient is close to 0 and the correlation is weak. The related strength normally through the following range of judgment variables: The correlation coefficient 0.8-1.0 strong correlation 0.6-0.8 strong correlation

相关系数及其几何意义

相关系数及其几何意义 在实际问题中,我们常常要研究两个变量的相关性.例如:研究某行业的变动对另一行业的影响,某生理指数与某疾病的相关性.更一般的,当我们观测多个变量时,要分析多个变量间的相关性,进而根据某种标准,对这些变量进行筛选.当然,两个变量是最基础的情况,故我们首先对两个变量间的相关性. 相关系数: 设11(,,),(,,)n n x x x y y y ''== 为两个向量,它们可能是从两个总体中抽样出来的数据.在数学中,我们希望定量的刻画它们的相关程度.自然地,我们会想到用误差平方和的最小值 20,1 1min ()n i i a i Q y a x n λλ==--∑ ( 1 ) 来衡量.如果有某个a 和λ使得0Q =0,则可以说x 与y 完全相似.否则 就以0Q 的大小来描述它们的相似程度.为求0Q 值,我们可对 21 1(,)()n i i i Q a y a x n λλ==--∑ ( 2 ) 关于a 和λ求导,并令其等于0,即 ()121 2()020n i i i n i i i i Q y a x a n Q y a x x n λλλ==?=---=????=---=???∑∑ 解得12 1()()()n i i i n i i x x y y x x λ==--=-∑∑, a y x λ=-. ( 3 )

将(3)式代入(1)式得: 221022111(()())1()1()()n i i n i i n n i i i i i x x y y Q y y n x x y y ====??--????=--??--???? ∑∑∑∑ =221 1()(1)n i xy i y y n ρ=--∑, 其中记1221/2 11()()(()())n i i i xy n n i i i i x x y y x x y y ρ===--=--∑∑∑, 由此还可以得到最小相对误差平方和 20 02111()xy n i i Q E y y n ρ===--∑. 由于0E 消除了x,y 的测量单位带来的影响,所以它比0Q 用来衡量x,y 的相关程度更为合理,等价的以xy ρ来作为衡量x 与y 相关的度量,并 称xy ρ为x,y 的相关系数,当xy ρ越大(从而0E 越小),则x,y 越相关,当 xy ρ越小(从而0E 越大),则x 与y 越不相关. 自然的,我们很容易证明相关系数的一个重要性质: 01xy ρ≤≤. 相关系数的几何意义 下面我们将研究相关系数的几何意义,同时,我们将引进无关系数的概念. 在n 维欧氏空间n R 中考虑数据向量x,y,在n R 中这两个向量的数积为1n i i i x y x y ='=∑,于是(1)定义的x,y 的相关系数为

相关系数确定方法实验

相关系数确定方法实验 Document serial number【KKGB-LBS98YT-BS8CB-BSUT-BST108】

相关系数确定方法实验 1、下表是平时两次考试的成绩分数,假设其分布为正态,分别用积差相关与等级相关方法计算相关系数,并回答,就这份资料用哪种相关法更恰当? 被试12345678910 A86587964914855823275 B83528978856847762556解:①求积差相关系数 解法一:用原始分数计算 被试A B X2Y2XY 18683739668897138 25852336427043016 37989624179217031 46478409660844992 59185828172257735 64868230446243264 75547302522092585 88276672457766232 932251024625800 107556562531364200 ∑670659480804719346993

解法二:用离均差、标准差计算 被试 A B x y xy 1 86 83 19 17.1 324.9 2 58 52 -9 -13.9 125.1 3 79 89 12 23.1 277.2 4 64 78 -3 12.1 -36.3 5 91 85 24 19.1 458.4 6 48 68 -19 2.1 -39.9 7 55 47 -12 -18.9 226.8 8 82 76 15 10.1 151.5 9 32 25 -35 -40.9 1431.5 10 75 56 8 -9.9 -79.2 ∑ 670 659 2840 根据表中数据求得:40.19s 86.17s 9.65 67Y ====,,, X Y X 把∑xy 、N 、s X 、s Y 代入公式得: ②求等级相关系数 被试 A B R X R Y D D 2 R X R Y 1 86 83 2 3 -1 1 6 2 58 52 7 8 -1 1 56 3 79 89 4 1 3 9 4 4 64 78 6 4 2 4 24 5 91 85 1 2 -1 1 2 6 48 68 9 6 3 9 54 7 55 47 8 9 -1 1 72 8 82 76 3 5 -2 4 15 9 32 25 10 10 0 0 100 10 75 56 5 7 -2 4 3 5 ∑ 55 55 34 368 解法一: 根据表中的计算,已知N=10,∑D 2 =34,把N 、∑D 2 代入公式,得:

常用相关分析方法及其计算

二、常用相关分析方法及其计算 在教育与心理研究实践中,常用的相关分析方法有积差相关法、等级相关法、质量相关法,分述如下。 (一)积差相关系数 1. 积差相关系数又称积矩相关系数,是英国统计学家皮尔逊(Pearson )提出的一种计算相关系数的方法,故也称皮尔逊相关。这是一种求直线相关的基本方法。 积差相关系数记作XY r ,其计算公式为 ∑∑∑===----=n i i n i i n i i i XY Y y X x Y y X x r 12121 )()())(((2-20) 式中i x 、i y 、X 、Y 、n 的意义均同前所述。 若记X x x i -=,Y y y i -=,则(2-20)式成为 Y X XY S nS xy r ∑=(2-21) 式中n xy ∑称为协方差,n xy ∑的绝对值大小直观地反映了两列变量的一致性程度。然而,由于X 变量与Y 变量具有不同测量单位,不能直接用它们的协方差n xy ∑来表示两列变量的一致性,所以将各变量的离均差分别用各自的标准差除,使之成为没有实际单位的标准分数,然后再求其协方差。即: Y X Z Z n ∑?=1(2-22) 这样,两列具有不同测两单位的变量的一致性就可以测量计算。 计算积差相关系数要求变量符合以下条件:(1)两列变量都是等距的或等比的测量数据;(2)两列变量所来自的总体必须是正态的或近似正态的对称单峰分布;(3)两列变量必须具备一一对应关系。 2. 积差相关系数的计算 利用公式(2-20)计算相关系数,应先求两列变量各自的平均数与标准差,再求离中差的乘积之和。在统计实践中,为方便使用数据库的数据格式,并利于计算机计算,一般会将(2-20)式改写为利用原始数据直接计算XY r 的公式。即:

第三章:相关系数r 的计算公式的推导

第三章附录:相关系数r的计算公式的推导 -CAL-FENGHAI.-(YICAI)-Company One1

相关系数r AB 的计算公式的推导 设A i 、B i 分别表示证券A 、证券B 历史上各年获得的收益率;A 、B 分别表示证券A 、证券B 各年获得的收益率的平均数;P i 表示证券A 和证券B 构成的投资组合各年获得的收益率,其他符号的含义同上。 2 A σ=1 1-n 2)(∑-A A i 2 B σ=1 1-n )(B B i -∑2 2 P σ=11-n 2)1(∑∑-i i P n P =2)](1 )[(11i B i A i B i A B A A A n B A A A n +-+-∑∑ =2)]()[(1 1 B A A A B A A A n B A i B i A +-+-∑ =2)]()([1 1 B B A A A A n i B i A -+--∑ =)])((2)()([1122 22B B A A A A B B A A A A n i i B A i B i A --+-+--∑ =A 2 A × 22 1 )(B i A n A A +--∑× 1 )] )([(21 )(2 ---+ --∑∑n B B A A A A n B B i i B A i =A 1 )])([(22222 ---? ++∑n B B A A A A A i i B A B B A A σσ 对照公式(1)得: = 1 )(2 --∑n A A i × 1 )(2 --∑n B B i × r AB ∴ r AB = ∑∑∑-?---2 2 ) ()()])([(B B A A B B A A i i i i 这就是相关系数r AB 的计算公式。 投资组合风险分散化效应的内在特征 1.两种证券构成的投资组合为最小方差组合(即风险最小)时各证券投资比例的测定 公式(1)左右两端对A A 求一阶导数,并注意到A B =1—A A : (2P σ)′=2 A A 2A σ-2 (1-A A )2B σ+2 (1-A A )B A σσ r AB -2A A B A σσ r AB 令 (2P σ)′= 0 并简化,得到使2P σ取极小值的A A : A A =AB B A B A AB B A B r r σσσσσσσ22 22 -+- … …………………………………(3) AB B A i i r n B B A A σσ =---∑1 )])([(

三种常用的不同变量之间相关系数的计算方法

三种常用的不同变量之间相关系数的计算方法 1.定类变量之间的相关系数. 定类变量之间的相关系数,只能以变量值的次数来计算,常用λ系数法, 其计算公式为: (3.2.12) 式中,为每一类x中y分布的众数次数;为变量y各分类次数的众数次数;n为总次数。一般来说,λ系数在0~1之间取值,值越大表明相关程度越高。 例如,性别与对吸烟的态度资料见表3—2。 表3—2 性别与对吸烟态度 态度y 性别x 男女合计(Fy) 容忍反对37 15 8 42 45 57 合计(Fx)52 50 102 从y的分布来看,对吸烟的态度众数是“反对”,众数次数为57,即=57。再从x的每 一个分组(男、女)中y的次数分布来看,男性中y的分布众数是“容忍”,次数为37(f1m);女性中y的分布众数是“反对”,次数为42(f2m);总次数为102(n)。于是, 从计算结果可知,性别与对吸烟态度的相关程度为0.49,属于中等相关。 2.定序变量之间的相关系数

定序变量之间的相关测量常用Gamma系数法和Spearman系数法。Gamma系数法计算公式为: (3.2.13) 式中,G为系数;Ns为同序对数目;Nd为异序对数目。 所谓序对是指表明高低位次的两两配对,如果一对个案在变量x,y的分类表现位次一致,则为同序对;如果位次相反,则为异序对。 G系数取值在—1--十1之间。G=1,表示完全正相关;G=-1,表示完全负相关;G=0,表示完全不相关;-1

相关系数

相关系数 相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。于是,著名统计学家卡尔·皮尔逊设计了统计指标——相关系数(Correlation coefficient)。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。 依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。资料个人收集整理,勿做商业用途 1、定义 相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。由于研究对象的不同,相关系数有如下几种定义方式。资料个人收集整理,勿做商业用途 相关系数公式 简单相关系数:又叫相关系数或线性相关系数,一般用字母r 表示,用来度量两个变量间的线性关系。

复相关系数:又叫多重相关系数。复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的季节性需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。资料个人收集整理,勿做商业用途 典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性关系的综合指标,再通过综合指标之间的线性相关系数来研究原各组变量间相关关系。资料个人收集整理,勿做商业用途 2、性质 (1)定理:| ρXY | = 1的充要条件是,存在常数a,b,使得P{Y=a+bX}=1; 相关系数ρXY取值在-1到1之间,ρXY = 0时, 称X,Y不相关;| ρXY | = 1时,称X,Y完全相关,此时,X,Y之间具有线性函数关系;| ρXY | < 1时,X的变动引起Y的部分变动,ρXY的绝对值越大,X的变动引起Y的变动就越大,| ρXY | > 0.8时称为高度相关,当| ρXY | < 0.3时称为低度相关,其它时候为中度相关。资料个人收集整理,勿做商业用途 (2)推论:若Y=a+bX,则有 证明:令E(X) = μ,D(X) = σ2 则E(Y) = bμ +a,D(Y) = b2σ2 E(XY) = E(aX + bX2) = aμ +b(σ2+ μ2) Cov(X,Y) = E(XY) ?E(X)E(Y) = bσ2 若b≠0,则ρXY≠ 0。 若b=0,则ρXY = 0。 软件公司在全国有许多代理商,为研究它的财务软件产品的广告投入与销售额的关系,统计人员随机选择10家代理商进行观察,搜集到年广

SPSS 3种相关系数的区别

3种相关系数的区别 在SPSS软件相关分析中,pearson(皮尔逊), kendall(肯德尔)和spearman(斯伯曼/斯皮尔曼)三种相关分析方法有什么异同两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述. Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可。 Kendall's tau-b等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验;取值范围在-1-1之间,此检验适合于正方形表格; 计算积距pearson相关系数,连续性变量才可采用;计算Spearman秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。 计算相关系数:当资料不服从双变量正态分布或总体分布未知,或原始数据用等级表示时,宜用spearman或kendall相关 Pearson 相关复选项积差相关计算连续变量或是等间距测度的变量间的相关分析 Kendall 复选项等级相关计算分类变量间的秩相关,适用于合并等级资料 Spearman 复选项等级相关计算斯皮尔曼相关,适用于连续等级资料 注: 1若非等间距测度的连续变量因为分布不明-可用等级相关/也可用Pearson 相关,对于完全等级离散变量必用等级相关 2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用Spearman 或Kendall相关。 3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使用,可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默认数据服从正态分布的,故用Pearson分析方法。 在SPSS里进入Correlate-》Bivariate,在变量下面Correlation Coefficients复选框组里有3个选项: Pearson Kendall's tau-b Spearman:Spearman spearman(斯伯曼/斯皮尔曼)相关系数 斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法” 斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究 Kendall's相关系数 肯德尔(Kendall)W系数又称和谐系数,是表示多列等级变量相关程度的一种方法。适用这种方法的数据资料一般是采用等级评定的

Excel中求相关系数

Excel中求相关系数 近日因本人做论文,不会用Excel求相关系数,于是求助百度,发现很多搜索结果,但都是同一道题,还是错的,(估计字打错了),明明求的是相关系数,却说有回归统计,如下:相关系数是描述两个测量值变量之间的离散程度的指标。用于判断两个测量值变量的变化是否相关,即,一个变量的较大值是否与另一个变量的较大值相关联(正相关);或者一个变量的较小值是否与另一个变量的较大值相关联(负相关);还是两个变量中的值互不关联(相关系数近似于零)。设(X,Y)为二元随机变量,那么: 为随机变量X与Y的相关系数。p是度量随机变量X与Y之间线性相关密切程度的数字特征。 注:本功能需要使用Excel扩展功能,如果您的Excel尚未安装数据分析,请依次选择“工具”-“加载宏”,在安装光盘中加载“分析数据库”。加载成功后,可以在“工具”下拉菜单中看到“数据分析”选项。 操作步骤 1. 打开原始数据表格,制作本实例的原始数据需要满足两组或两组以上的数据,结果将给出其中任意两项的相关系数。 2. 选择“工具”-“数据分析”-“描述统计”后,出现属性设置框,依次选择: 输入区域:选择数据区域,注意需要满足至少两组数据。如果有数据标志,注意同时勾选下方“标志位于第一行”; 分组方式:指示输入区域中的数据是按行还是按列考虑,请根据原数据格式选择; 输出区域可以选择本表、新工作表组或是新工作簿;

3.点击“确定”即可看到生成的报表。 可以看到,在相应区域生成了一个3×3的矩阵,数据项目的交叉处就是其相关系数。显然,数据与本身是完全相关的,相关系数在对角线上显示为1;两组数据间在矩阵上有两个位置,它们是相同的,故右上侧重复部分不显示数据。左下侧相应位置分别是温度与压力A、B和两组压力数据间的相关系数。 从数据统计结论可以看出,温度与压力A、B的相关性分别达到了0.95和0.94,这说明它们呈现良好的正相关性,而两组压力数据间的相关性达到了0.998,这说明在不同反应器

相关系数与回归分析

第八章相关与回归分析 114、什么叫相关分析? 研究两个或两个以上变量之间相关程度大小以及用一定涵数来表达现象相互关系的方法。 115、什么叫相关关系? 相关关系是一种不完全确定的依存关系,即因素标志的每一个数值都可能有若干结果标志的数值与之对应。 116、判定现象之间有无相关关系的方法有哪些? 判断现象之间有无相关关系,首先要对其作定性分析,否则很可能把虚假相关现象拿来作相关分析。相关表和相关图都是判定现象之间有无相关关系的重要方法。而相关系数主要是用来测定现象之间相关的密切程度的指标,估计标准误差是判定回归方程式代表性大小的指标。所以判断方法有客观现象作定性分析、编制相关表、绘制相关图。 117、什么叫相关系数? 测定变量之间相关密切程度和相关方向的指标。 118、相关系数有何特点? 参与相关分析的两个变量是对等的,不分自变量与因变量,因此相关系数只有一个。相关系数有正负号反映相关关系的方向中,正负瓜果正相关,负号反映负相关。计算相关系数的两个变量都是随机变量。 119、某产品产量与单位成本的相关系数是-0.8;(乙)产品单位成本与利润率的相关系数是-0.95;(乙)比(甲)的相关程度高吗? 相关系数是说明相关程度大小的指标,相关系数的取值范围在±1之间,相关系数越接近±1,说明两变量相关程度越高,越接近于0,说明相关程度越低。因此,(乙)比(甲)的相关程度高。 120、什么叫回归分析? 对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定一个相应的数学表达式,已从一个已知量推算另一个未知量,为估计预测提供一个重要方法。 121、与相关分析相比,回归分析有什么特点? 两个变量是不对等的,必须区自变量与因变量;因变量是随机的,自变量是可以控制的;对于一个没有因果关系的两个变量,可以求得两个回归方程,一个是Y倚X的回归方程,另一个是X倚Y的回归方程。 122、回归方程中回归系数的涵义是什么? 回归系数表示:当自变量X每增减一个单位时,因变量Y的平均增减值。 123、当所有的观测值都落在直线y c=a+bx上时,则x与y之间的相关系数为多少?

第三章附录:相关系数r 的计算公式的推导

相关系数r AB 的计算公式的推导 设A i 、B i 分别表示证券A 、证券B 历史上各年获得的收益率;A 、B 分别表示证券A 、证券B 各年获得的收益率的平均数;P i 表示证券A 和证券B 构成的投资组合各年获得的收益率,其他符号的含义同上。 2 A σ=11-n 2 )(∑-A A i 2B σ=11-n )(B B i -∑2 2P σ= 11-n 2 )1 (∑∑ - i i P n P =2 )](1 )[(11i B i A i B i A B A A A n B A A A n +- +-∑∑ =2 )]()[(11 B A A A B A A A n B A i B i A +-+-∑ =2 )]()([1 1 B B A A A A n i B i A -+--∑ = )])((2)()([1 1 2 222B B A A A A B B A A A A n i i B A i B i A --+-+--∑ =A 2A × 22 1 ) (B i A n A A +--∑× 1 )] )([(21 ) (2 ---+ --∑∑n B B A A A A n B B i i B A i =A 1 )])([(22222---? ++∑n B B A A A A A i i B A B B A A σ σ 对照公式(1)得: = 1 )(2 --∑ n A A i × 1 )(2 --∑ n B B i × r AB ∴ r AB = ∑∑∑-? ---2 2 ) ()()] )([(B B A A B B A A i i i i 这就是相关系数r AB 的计算公式。 投资组合风险分散化效应的内在特征 1.两种证券构成的投资组合为最小方差组合(即风险最小)时各证券投资比例的测定 公式(1)左右两端对A A 求一阶导数,并注意到A B =1—A A : (2 P σ)′=2 A A 2 A σ-2 (1-A A )2 B σ+2 (1-A A )B A σσ r AB -2A A B A σσ r AB 令 (2 P σ)′= 0 并简化,得到使2 P σ取极小值的A A : AB B A i i r n B B A A σσ=---∑1 )])([(

相关系数显著性检验表(完整润色版)

附表11(1)相关系数界值表 P(2): 0.50 0.20 0.10 0.05 0.02 0.01 0.005 0.002 0.001 P(1): 0.25 0.10 0.05 0.025 0.01 0.005 0.0025 0.001 0.0005 1 0.707 0.951 0.988 0.997 1.000 1.000 1.000 1.000 1.000 2 0.500 0.800 0.900 0.950 0.980 0.990 0.995 0.998 0.999 3 0.40 4 0.687 0.80 5 0.878 0.934 0.959 0.974 0.98 6 0.991 4 0.347 0.603 0.729 0.811 0.882 0.917 0.942 0.963 0.974 5 0.309 0.551 0.669 0.755 0.833 0.875 0.90 6 0.935 0.951 6 0.281 0.50 7 0.621 0.707 0.789 0.834 0.870 0.905 0.925 7 0.260 0.472 0.582 0.666 0.750 0.798 0.836 0.875 0.898 8 0.242 0.443 0.549 0.632 0.715 0.765 0.805 0.847 0.872 9 0.228 0.419 0.521 0.602 0.685 0.735 0.776 0.820 0.847 10 0.216 0.398 0.497 0.576 0.658 0.708 0.750 0.795 0.823 11 0.206 0.380 0.476 0.553 0.634 0.684 0.726 0.772 0.801 12 0.197 0.365 0.457 0.532 0.612 0.661 0.703 0.750 0.780 13 0.189 0.351 0.441 0.514 0.592 0.641 0.683 0.730 0.760 14 0.182 0.338 0.426 0.497 0.574 0.623 0.664 0.711 0.742 15 0.176 0.327 0.412 0.482 0.558 0.606 0.647 0.694 0.725 16 0.170 0.317 0.400 0.468 0.542 0.590 0.631 0.678 0.708 17 0.165 0.308 0.389 0.456 0.529 0.575 0.616 0.622 0.693 18 0.160 0.299 0.378 0.444 0.515 0.561 0.602 0.648 0.679 19 0.156 0.291 0.369 0.433 0.503 0.549 0.589 0.635 0.665 20 0.152 0.284 0.360 0.423 0.492 0.537 0.576 0.622 0.652 21 0.148 0.277 0.352 0.413 0.482 0.526 0.565 0.610 0.640 22 0.145 0.271 0.344 0.404 0.472 0.515 0.554 0.599 0.629 23 0.141 0.265 0.337 0.396 0.462 0.505 0.543 0.588 0.618 24 0.138 0.260 0.330 0.388 0.453 0.496 0.534 0.578 0.607 25 0.136 0.255 0.323 0.381 0.445 0.487 0.524 0.568 0.597 26 0.133 0.250 0.317 0.374 0.437 0.479 0.515 0.559 0.588 27 0.131 0.245 0.311 0.367 0.430 0.471 0.507 0.550 0.579 28 0.128 0.241 0.306 0.361 0.423 0.463 0.499 0.541 0.570 29 0.126 0.237 0.301 0.355 0.416 0.456 0.491 0.533 0.562 30 0.124 0.233 0.296 0.349 0.409 0.449 0.484 0.526 0.554 31 0.122 0.229 0.291 0.344 0.403 0.442 0.477 0.518 0.546 32 0.120 0.226 0.287 0.339 0.397 0.436 0.470 0.511 0.539 33 0.118 0.222 0.283 0.334 0.392 0.430 0.464 0.504 0.532 34 0.116 0.219 0.279 0.329 0.386 0.424 0.458 0.498 0.525 35 0.115 0.216 0.275 0.325 0.381 0.418 0.452 0.492 0.519 36 0.113 0.213 0.271 0.320 0.376 0.413 0.446 0.486 0.513 37 0.111 0.210 0.267 0.316 0.371 0.408 0.441 0.480 0.507 38 0.110 0.207 0.264 0.312 0.367 0.403 0.435 0.474 0.501 39 0.108 0.204 0.261 0.308 0.362 0.398 0.430 0.469 0.495 40 0.107 0.202 0.257 0.304 0.358 0.393 0.425 0.463 0.490

相关主题
文本预览
相关文档 最新文档