理学第讲方差协方差和相关系数
- 格式:pptx
- 大小:570.85 KB
- 文档页数:39
方差、标准差、协方差和Pearson相关系数及其间的关系方差、协方差和Pearson相关系数在机器学习的理论概念中经常出现,本文主要理一下这几个概念及其相互间的关系。
(一)方差:方差是每个样本值与全体样本值的平均数之差的平方值的平均数,公式如下:上式中mui为样本均值。
方差可以反应样本数据的离散程度,由上式可以看出,方差越大,样本离散程度也越大。
机器学习中,如果某一特征值的离散程度很小,即表示该特征取值很少,可以认为样本在这个特征上基本没有差异,那这个特征对于样本区分没有什么作用,可以将这个特征去除,从而做到特征选择。
(二)标准差:标准差即方差的开平方,不展开了,下面是公式:(三)协方差:协方差描述的是两个变量间的相关性,计算公式如下:也可以用以下公式表示,两者是等价的:cov(X, Y) = E[(X-E[X])(Y-E[Y])]上式中E[ ]表示求期望,其中E[X]为X特征期望或均值,E[Y]为Y 特征期望或均值。
对比方差和协方差的公式可以看出两者很像,但方差的结果是大于等于0的,当等于0时,说明样本的x特征取值唯一,反应的样本的x特征的离散程度;协方差的取值则可以大于零也可以小于零,当大于零时,说明对应的两个变量x和y与其均值相比都同大于或同小于,即两个变量的变化趋势相同(正相关);当小于零时,说明对应的两个变量x和y不同时大于或小于其均值,即两个变量的变化趋势相反(负相关);而当均方根接近零时,说明两个变量基本没有相关性,接近相互独立。
从以上描述可以看出,协方差可以衡量两个变量相关性大小,绝对值越大,说明越相关。
但是,却不好比较多个变量与另外同一个变量间相关性的相对大小,因为量纲没有统一。
为了便于比较不同变量与另外同一个变量间相关性的相对大小,Pearson相关系数被提出了。
Pearson相关系数:如上所述,Pearson相关性系数是为了比较不同变量与另外同一变量间相关性的相对大小,这里要注意的是:Pearson相关性系数衡量的是定距变量间的线性关系,可以用Pearson相关系数来进行特征特征选择。
均值、方差、标准方差、协方差和相关系数均值、方差、标准方差、协方差和相关系数是统计学中常用的概念,能够帮助我们更好地理解和描述数据的分布特征以及不同变量之间的关系。
一、均值均值是一组数据中各个数值的平均数。
它是描述数据集中趋势的一种方式,通过计算所有数据点的总和,然后除以数据点的个数来得到。
二、方差方差是衡量一组数据中数据点与其均值之间差异程度的度量。
它是各个数据点与均值差的平方的平均值。
方差越大,说明数据点与均值之间的离散程度越高。
三、标准方差标准方差是方差的平方根。
它衡量数据集中的观测值与均值之间的差异程度,并将其以与原始数据相同的单位进行测量。
标准方差可以帮助我们评估数据集的离散性。
四、协方差协方差是衡量两个变量之间关系的统计量。
它描述了这两个变量的变化趋势是否同向或反向。
具体地说,协方差是各个变量的差与其均值差的乘积的平均值。
协方差公式为:cov(X, Y) = E((X - E(X))(Y - E(Y)))E表示期望,X和Y分别代表两个变量。
五、相关系数相关系数是衡量两个变量之间关系强度和方向的数值。
它取值范围为-1到1之间,接近1表示两个变量正相关,接近-1表示两个变量负相关,接近0表示两个变量没有线性相关性。
相关系数公式为:cor(X, Y) = cov(X, Y) / [σ(X) * σ(Y)]cov(X, Y)表示X和Y的协方差,σ(X)表示X的标准方差,σ(Y)表示Y的标准方差。
相关系数的绝对值越接近于1,表示两个变量之间的线性关系越强。
如果相关系数为0,说明两个变量之间没有线性关系。
以上是关于均值、方差、标准方差、协方差和相关系数的基本介绍。
它们是统计学中常用的工具,能够帮助我们更好地理解和分析数据。
在实际应用中,我们可以利用这些统计量来描述数据的分布特征和变量之间的关系,并进行相应的推断和决策。
⽅差、标准差、协⽅差、相关系数【⽅差】 (variance)是在概率论和统计⽅差衡量或⼀组数据时离散程度的度量。
概率论中⽅差⽤来度量和其(即)之间的偏离程度。
统计中的⽅差(样本⽅差)是每个样本值与全体样本值的平均数之差的平⽅值的。
在许多实际问题中,研究⽅差即偏离程度有着重要意义。
⽅差是衡量源数据和期望值相差的度量值。
(百度百科) 在统计描述中,⽅差⽤来计算每⼀个变量(观察值)与总体均数之间的差异。
为避免出现离均差总和为零,离均差平⽅和受样本含量的影响,统计学采⽤平均离均差平⽅和来描述变量的变异程度。
总体⽅差计算公式: 实际⼯作中,总体均数难以得到时,应⽤样本统计量代替总体参数,经校正后,样本⽅差计算公式: S^2= ∑(X- ) ^2 / (n-1) S^2为样本⽅差,X为变量,为样本均值,n为样本例数。
(⽆偏估计)【标准差】 标准差(Standard Deviation),中⽂环境中⼜常称,是离均差平⽅的算术平均数的平⽅根,⽤σ表⽰。
标准差是⽅差的算术平⽅根。
标准差能反映⼀个数据集的离散程度。
平均数相同的两组数据,标准差未必相同。
标准差也被称为,或者实验标准差,公式为【协⽅差】 可以通俗的理解为:两个变量在变化过程中是同⽅向变化,还是反⽅向变化,同向或反向程度如何? 你变⼤,同时我也变⼤,说明两个变量是同向变化的,这时协⽅差就是正的。
你变⼤,同时我变⼩,说明两个变量是反向变化的,这时协⽅差就是负的。
从数值来看,协⽅差的数值越⼤,两个变量同向程度也就越⼤。
反之亦然。
公式简单翻译⼀下是:如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值,(其实是求“期望”,但就不引申太多新概念了,简单认为就是求均值了)。
【相关系数】 相关关系是⼀种⾮确定性的关系,相关系数是研究变量之间程度的量。
由于研究对象的不同,相关系数有如下⼏种定义⽅式。
简单相关系数:⼜叫相关系数或线性相关系数,⼀般⽤字母r 表⽰,⽤来度量两个变量间的线性关系。
协⽅差和相关系数的概念和含义1.协⽅差: 在概率论中,两个随机变量 X 与 Y 之间相互关系,⼤致有下列3种情况:当 X, Y 的联合分布像上图那样时,我们可以看出,⼤致上有: X 越⼤ Y 也越⼤, X 越⼩ Y 也越⼩,这种情况,我们称为“正相关”。
当X, Y 的联合分布像上图那样时,我们可以看出,⼤致上有:X 越⼤Y 反⽽越⼩,X 越⼩ Y 反⽽越⼤,这种情况,我们称为“负相关”。
当X, Y 的联合分布像上图那样时,我们可以看出:既不是X 越⼤Y 也越⼤,也不是 X 越⼤ Y 反⽽越⼩,这种情况我们称为“不相关”。
怎样将这3种相关情况,⽤⼀个简单的数字表达出来呢?在图中的区域(1)中,有 X>EX ,Y-EY>0 ,所以(X-EX)(Y-EY)>0;在图中的区域(2)中,有 X<EX ,Y-EY>0 ,所以(X-EX)(Y-EY)<0;在图中的区域(3)中,有 X<EX ,Y-EY<0 ,所以(X-EX)(Y-EY)>0;在图中的区域(4)中,有 X>EX ,Y-EY<0 ,所以(X-EX)(Y-EY)<0。
当X 与Y 正相关时,它们的分布⼤部分在区域(1)和(3)中,⼩部分在区域(2)和(4)中,所以平均来说,有E(X-EX)(Y-EY)>0 。
当 X与 Y负相关时,它们的分布⼤部分在区域(2)和(4)中,⼩部分在区域(1)和(3)中,所以平均来说,有(X-EX)(Y-EY)<0 。
当 X与 Y不相关时,它们在区域(1)和(3)中的分布,与在区域(2)和(4)中的分布⼏乎⼀样多,所以平均来说,有(X-EX)(Y-EY)=0 。
所以,我们可以定义⼀个表⽰X, Y 相互关系的数字特征,也就是协⽅差:cov(X, Y) = E(X-EX)(Y-EY)。
当 cov(X, Y)>0时,表明 X与Y 正相关; 当 cov(X, Y)<0时,表明X与Y负相关; 当 cov(X, Y)=0时,表明X与Y不相关。