03 第三节 协方差及相关系数
- 格式:doc
- 大小:557.00 KB
- 文档页数:7
统计学中的协方差与相关系数统计学中的协方差和相关系数是两个重要的概念,它们用于描述两个变量之间的关系以及变量的变动程度。
本文将分别介绍协方差和相关系数的定义、计算方法,以及它们在实际应用中的意义。
一、协方差在统计学中,协方差是用来衡量两个变量之间的相关性的指标。
它反映了两个变量的变动是否同时发生以及变动程度的大小。
协方差的定义如下:假设有n个数据对(x₁, y₁), (x₂, y₂), ... , (xₙ, yₙ),则协方差的计算公式为:cov(X, Y) = Σ(xᵢ - ̄x)(yᵢ - ̄y) / n其中,X表示变量X的数据集,Y表示变量Y的数据集,xᵢ和yᵢ分别表示X和Y的第i个观测值,̄x和̄y分别表示X和Y的均值,n 表示数据对的总数。
协方差的计算结果可以为正、负或零。
正的协方差表示两个变量的变动趋势一致;负的协方差表示两个变量的变动趋势相反;零的协方差表示两个变量之间没有线性关系。
二、相关系数相关系数是用来衡量两个变量相关性强弱的指标。
它不仅考虑了两个变量的变动趋势,还考虑了它们之间的线性关系的紧密程度。
最常用的相关系数是皮尔逊积矩相关系数(Pearson correlation coefficient),也称作Pearson相关系数。
它的计算公式为:r = cov(X, Y) / (σₓ * σᵧ)其中,cov(X, Y)表示X和Y的协方差,σₓ和σᵧ分别表示X和Y的标准差。
相关系数的取值范围为-1到1。
当相关系数趋近于1时,表示两个变量之间存在着强正相关关系;当相关系数趋近于-1时,表示两个变量之间存在着强负相关关系;当相关系数接近于0时,表示两个变量之间的线性关系较弱。
三、协方差与相关系数的意义与应用协方差和相关系数在统计学和数据分析中有着广泛的应用。
它们可以帮助我们了解两个变量之间的关系及其变动的程度,从而进行更深入地数据分析和预测。
1. 多元数据分析:协方差和相关系数可以用于多个变量之间的分析。
协方差cov与相关系数公式协方差(covariance)和相关系数(correlation coefficient)是统计中常用于描述两个随机变量之间关系的概念。
协方差度量了两个变量的变动趋势是否一致,而相关系数则更进一步地衡量了两个变量的线性相关程度。
1.协方差:协方差是用来衡量两个随机变量的变动程度是否相似。
假设有两个随机变量X和Y,其协方差定义为:cov(X,Y) = E[(X - E[X])(Y - E[Y])],其中E[]表示期望值。
协方差的正负号表示了X和Y之间的线性关系的方向,具体解释如下:-当协方差为正时,表示X和Y的变动趋势是一致的,即X增加时Y也增加,或者X减少时Y也减少。
-当协方差为负时,表示X和Y的变动趋势是相反的,即X增加时Y减少,或者X减少时Y增加。
-当协方差接近于0时,表示X和Y之间没有线性关系,即X和Y之间的变动趋势是独立的。
2.相关系数:相关系数是衡量两个随机变量之间线性关系强弱的度量。
相关系数的取值范围是[-1,1],其定义为:ρ(X,Y) = cov(X,Y) / (σ(X)σ(Y)),其中σ(表示标准差。
相关系数衡量了两个变量之间的线性关系程度,具体解释如下:-当相关系数接近于1时,表示X和Y之间存在强正向线性关系,即X增加时Y也增加,或者X减少时Y也减少。
-当相关系数接近于-1时,表示X和Y之间存在强负向线性关系,即X增加时Y减少,或者X减少时Y增加。
-当相关系数接近于0时,表示X和Y之间没有线性关系,即X和Y 之间的变动趋势是独立的。
相关系数的计算可以通过协方差和标准差来获得。
相关系数是对协方差进行标准化的产物,因此可以消除量纲对结果的影响。
3.协方差和相关系数的关系:相关系数是协方差的一种标准化形式,通过除以两个变量的标准差来消除量纲。
相关系数一定在[-1,1]的范围内取值,而协方差的范围很大,因此相关系数更容易从其值直观地判断两个变量之间的关系。
协方差和相关系数之间的关系可以使用下面的公式表示:ρ(X,Y) = cov(X,Y) / (σ(X)σ(Y)) = cov(X,Y) /(sqrt(var(X))sqrt(var(Y))),其中var(表示方差。
相关系数和协方差的关系
一、首先要明白这2个的定义
1、相关系数是协方差与两个投资方案投资收益标准差之积的比值,
其计算公式为:
相关系数总是在-1到+1之间的范围内变动,-1代表完全负相关,+1代表完全正相关,0则表示不相关。
2、协方差是一个用于测量投资组合中某一具体投资项目相对于另一投资项目风险的统计指标。
其计算公式为:
当协方差为正值时,表示两种资产的收益率呈同方向变动;协方差为负值时,表示两种资产的收益率呈反方向变动。
二、要辨清两者的关系
1、相关系数与协方差一定是在投资组合中出现的,只有组合才有相关系数和协方差。
单个资产是没有相关系数和协方差之说的。
2、相关系数和协方差的变动方向是一致的,相关系数的负的,协方差一定是负的。
3、(1)协方差表示两种证劵之间共同变动的程度:相关系数是变量之间相关程度的指标根据协方差的公式可知,协方差与相关系数的正负号相同,但是协方差是相关系数和两证券的标准差的乘积,所以协方差表示两种证劵之间共同变动的程度。
(2)相关系数是变量之间相关程度的指标,相关系数在0到1之间,表示两种报酬率的增长是同向的;相关系数在0到-1之间,表示两种报酬率的增长是反向的,所以说相关系数是变量之间相关程度的指标。
总体来说,两项资产收益率的协方差,反映的是收益率之间共同变动的程度;而相关系数反映的是两项资产的收益率之间相对运动的状态。
两项资产收益率的协方差等于两项资产的相关系数乘以各自的标准差。
第三节 协方差及相关系数对多维随机变量, 随机变量的数学期望和方差只反映了各自的平均值与偏离程度,并没能反映随机变量之间的关系. 本节将要讨论的协方差是反映随机变量之间依赖关系的一个数字特征.内容分布图示★ 引言★ 协方差的定义 ★ 协方差的性质 ★ 例1 ★ 例2★ 相关系数的定义 ★ 相关系数的性质★ 例3 ★ 例4 ★ 例5 ★ 例6★ 矩的概念 ★ 协方差矩阵 ★ n 维正态分布的概率密度★ n 维正态分布的几个重要性质 ★ 例7★ 内容小结 ★ 课堂练习 ★ 习题4-3内容要点:一、 协方差的定义定义 设),(Y X 为二维随机向量,若)]}()][({[Y E Y X E X E --存在, 则称其为随机变量X 和Y 的协方差, 记为),(Y X Cov ,即)]}.()][({[),cov(Y E Y X E X E Y X --=按定义, 若),(Y X 为离散型随机向量,其概率分布为),2,1,(},{ ====j i p y Y x X P ijj i则 ∑--=ji j i Y E y X E x E Y X ,)]}.()][({[),cov(若),(Y X 为连续型随机向量, 其概率分布为),,(y x f 则⎰⎰+∞∞-+∞∞---=dxdy y x f Y E y X E x E Y X ),()]}()][({[),cov(.此外, 利用数学期望的性质, 易将协方差的计算化简.).()()()()()()()()()()]}()][({[),cov(Y E X E XY E Y E X E X E Y E Y E X E XY E Y E Y X E X E Y X -=+--=--= 特别地, 当X 与Y 独立时, 有 .0),cov(=Y X二、协方差的性质1. 协方差的基本性质 );(),cov()1(X D X X = );,cov(),cov()2(X Y Y X =),cov(),cov()3(Y X ab bY aX =,其中b a ,是常数;C X C ,0),cov()4(=为任意常数;).,cov(),cov(),cov()5(2121Y X Y X Y X X +=+(6) 若X 与Y 相互独立时,则.0),cov(=Y X2. 随机变量和的方差与协方差的关系),,cov(2)()()(Y X Y D X D Y X D ++=+ 特别地, 若X 与Y 相互独立时, 则)()()(Y D X D Y X D +=+.三、相关系数的定义与性质定义 设),(Y X 为二维随机变量,,0)(,0)(>>Y D X D 称)()(),(Y D X D Y X Cov XY =ρ为随机变量X 和Y 的相关系数.有时也记XY ρ为ρ. 特别地,当0=XY ρ时,称X 与Y 不相关. 相关系数的性质1. ;1||≤XY ρ2. 若X 和Y 相互独立, 则0=XY ρ.3. 若0,0>>DY DX ,则1||=XY ρ当且仅当存在常数).0(,≠a b a 使1}{=+=b aX Y P , 而且当0>a 时, 1=XY ρ;当0<a 时, 1-=XY ρ.注: 相关系数XY ρ刻画了随机变量Y 与X 之间的“线性相关”程度. ||XY ρ的值越接近1, Y 与X 的线性相关程度越高; ||XY ρ的值越近于0, Y 与Y 的线性相关程度越弱.当1||=XY ρ时, Y 与X 的变化可完全由X 的线性函数给出. 当0=XY ρ时, Y 与X 之间不是线性关系.4. 设,)]([2b aX Y E e +-=称为用b aX +来近似Y 的均方误差,则有下列结论. 设,0)(,0)(>>Y D X D 则)()(,)(),cov(000X E a Y E b X D Y X a -==使均方误差达到最小.注: 我们可用均方误差e 来衡量以b aX +近似表示Y 的好坏程度, e 值越小表示b aX +与Y 的近似程度越好.且知最佳的线性近似为.0b X a +而其余均方误差)1)((2XYY D e ρ-=. 从这个侧面也能说明. ||XY ρ越接近1, e 越小.反之, ||XY ρ越近于0, e 就越大.Y 与X 的线性相关性越小.四、矩的概念定义 设X 和Y 为随机变量, l k ,为正整数, 称)(k X E 为k 阶原点矩(简称k 阶矩阵); ))](([k X E X E - 为k 阶中心矩; )|(|k X E 为k 阶绝对原点矩; )|)((|k X E X E - 为k 阶绝对中心矩;)(l k Y X E 为X 和Y 的l k +阶混合矩;})]([)]({[l k Y E Y X E X E -- 为X 和Y 的l k +阶混合中心矩;注: 由定义可见:(1) X 的数学期望)(X E 是X 的一阶原点矩; (2) X 的方差)(X D 是X 的二阶中心矩;(3)协方差),(Y X Cov 是X 和Y 的二阶混合中心矩.五、协方差矩阵将二维随机变量),(21X X 的四个二阶中心矩)]}.()][({[)]},()][({[},)]({[},)]({[1122212211122222221111X E X X E X E c X E X X E X E c X E X E c X E X E c --=--=-=-=排成矩阵的形式: ⎪⎪⎭⎫⎝⎛22211211c c c c (对称矩阵),称此矩阵为),(21X X 的协方差矩阵. 类似定义n 维随机变量),,,(21n X X X 的协方差矩阵.若n j i X E X X E X E X X Cov c j j i i j i ij ,,2,1,)]}()][({[),( =--==都存在, 则称⎪⎪⎪⎪⎪⎭⎫⎝⎛=nn n n n n c c cc c cc c c C 212222111211为),,,(21n X X X 的协方差矩阵.六、n 维正态分布的概率密度七、n 维正态分布的几个重要性质例题选讲:协方差的性质例1 (E01) 已知离散型随机向量),(Y X 的概率分布为求),cov(Y X .解 容易求得X 的概率分布为,3.0}0{==X P ,45.0}1{==X P ;25.0}2{==X P Y 的概率分布为,55.0}1{=-=Y P ,25.0}0{==Y P ,2.0}2{==Y P于是有25.0245.013.00)(⨯+⨯+⨯=X E ,95.0= 2.0225.0055.0)1()(⨯+⨯+⨯-=Y E .15.0-=计算得0202.0001.0)1(0)(⨯⨯+⨯⨯+⨯-⨯=XY E 1.0215.0013.0)1(1⨯⨯+⨯⨯+⨯-⨯+1.02200215.0)1(2⨯⨯+⨯⨯+⨯-⨯+.0=于是 )()()(),cov(Y E X E XY E Y X -=.1425.015.095.0=⨯=例2 (E02) 设连续型随机变量),(Y X 的密度函数为 ⎩⎨⎧≤≤≤=其它,010,8),(y x xy y x f求),cov(Y X 和)(Y X D +.解 由),(Y X 的密度函数可求得其边缘密度函数分别为:,,010),1(4)(2⎩⎨⎧≤≤-=其它x x x x f X ,,010,4)(3⎩⎨⎧≤≤=其它y y y f Y于是 ⎰+∞∞-=dx x xf X E X )()(⎰-⋅=102)1(4dx xx x ,15/8=⎰+∞∞-=dy y yf Y E Y )()(⎰⋅=1034dy y y ,5/4=⎰⎰+∞∞-+∞∞-=dxdy y x xyf XY E ),()(⎰⎰⋅⋅=118xdy xy xy dx ,9/4=从而)()()(),cov(Y E X E XY E Y X -=,225/4= 又⎰+∞∞-=dx x f x X E X )()(22⎰-⋅=122)1(4dx x x x,3/1=⎰+∞∞-=dy y f y Y E Y )()(22⎰⋅=1324dy y y ,3/2=所以22)]([)()(X E X E X D -=,225/11=,75/2)]([)()(22=-=Y E Y E Y D 故),cov(2)()()(Y X Y D X D Y X D ++=+.9/1=相关系数的性质例3 (E03)易知)(X E 于是XY 不相关. 这表示Y X ,不存在线性关系. 但},1{}2{0}1,2{=-=≠==-=Y P X P Y X P 知Y X ,不是相互独立的.事实上, X 和Y 具有关系: ,2X Y =Y 的值完全可由X 的值所确定.例4 (E04) 设θ服从],[ππ-上的均匀分布, ,sin θ=X θcos =Y 判断X 与Y 是否不相关, 是否独立.?解 由于,0sin 21)(==⎰-ππθθπd X E ,0cos 21)(==⎰-ππθθπd Y E而.0cos sin 21)(2==⎰ππθθθπd XY E 因此),()()(Y E X E XY E =从而X 与Y 不相关.但由于X 与Y 满足关系: 122=+Y X 所以X 与Y 不独立.例5 已知)3,1(~2N X , ),4,0(~2N Y 且X 与Y 的相关系数 .21-=XY ρ 设,23YX Z -= 求)(Z D 及.XZ ρ 解 因,3)(2=X D ,4)(2=Y D 且XY Y D X D Y X ρ)()(),cov(=⎪⎭⎫⎝⎛-⨯⨯=2143,6-=所以⎪⎭⎫ ⎝⎛-=23)(Y X D Z D ⎪⎭⎫⎝⎛-+=2,3cov 2)(41)(91Y X Y D X D),cov(21312)(41)(91Y X Y D X D ⨯⨯-+=,7= 又因⎪⎭⎫ ⎝⎛-=23,cov ),cov(Y X X Z X ⎪⎭⎫⎝⎛-⎪⎭⎫ ⎝⎛=2,cov 3,cov Y X X X),cov(21),cov(31Y X Y X -=,6),cov(21)(31=-=Y X X D 故.772736)()(),cov(=⋅==Z D X D Z X XZ ρ例6 (E05) 设二维随机变量),,,,,(~),(2121ρσσμμN Y X 求相关系数.XY ρ 解根据二维正态分布的边缘概率密度知,)(1μ=X E ,)(2μ=Y E ,)(21σ=X D ,)(22σ=Y D 而 dxdy y x f x x Y X ),())((),cov(21⎰⎰+∞∞-+∞∞---=μμ⎰⎰+∞∞-+∞∞----=))((12121221μμρσπσy x.2)()1(21exp 2121211222dxdy x x y ⎥⎥⎦⎤⎢⎢⎣⎡--⎪⎪⎭⎫ ⎝⎛-----⨯σμσμρσμρ 令,1111222⎪⎪⎭⎫⎝⎛----=σμρσμρx y t ,11σμ-=x u 则有 ⎰⎰+∞∞-+∞∞--=tu Y X 2211(21),cov(ρσσπdtdu e u t u 2/)(22122)+-+σρσ⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫⎝⎛=⎰⎰∞+∞--∞+∞--dt edu eu t u 22221222πσρσ⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-+⎰⎰∞+∞--∞+∞--dt tedu uet u 222212221πρσσ ,22221πππσρσ⋅=即有,),cov(21σρσ=Y X 于是.)()(),cov(ρρ==Y D X D Y X XY注: 从本例的结果可见, 二维正态随机变量),(Y X 的分布完全由X 和Y 各自的数学期望、方差以及它们的相关系数所确定. 此外, 易见有结论: 若),(Y X 服从二维正态分布, 则X 与Y 相互独立, 当且仅当X 与Y 不相关.n 维正态分布的几个重要性质例7 (E06) 设随机变量X 和Y 相互独立,且),.2,1(~N X )1,0(~N Y ,试求32+-=Y X Z 的概率密度.解 ),1,0(~),2,1(~N Y N X 且X 与Y 独立, 故X 和Y 的联合分布为正态分布, X 和Y 的任意线性组合是正态分布, 即)),(),((~Z D Z E N Z,5323)()(2)(=+=+-=Y E X E Z E ,918)()(4)(=+=+=Y D X D Z D ),3,5(~2N Z即Z 的概率密度是.,231)(18)5(2+∞<<∞-=--z ez f z Z π课堂练习对不同品牌的某种机械的两项重要指标评分, 设21,X X 为其所得分数(百分制). 已知,9.68)(1=X E 8.72)(2=X E ; ,81)(1=X D ;49)(2=X D .36),cov(21=X X现以服从正态分布的综合分21167169X X Y +=来决定各参评品牌的名次 .(1) 试求Y 的分布; (2) 如果对综合分85≥Y 的品牌颁奖, 试计算获奖者的百分比.。