相关性
- 格式:doc
- 大小:754.00 KB
- 文档页数:11
相关性与显着性计算公式相关性与显着性是统计学中两个重要的概念,它们用来衡量变量之间的关系以及这种关系是否具有统计学上的显著性。
在实际的数据分析中,我们经常需要计算变量之间的相关性和显着性,以便更好地理解数据以及进行进一步的统计推断。
本文将介绍相关性与显着性的计算公式以及它们的应用。
相关性的计算公式。
相关性用来衡量两个变量之间的关系强度和方向。
常用的相关性计算方法包括皮尔逊相关系数、斯皮尔曼相关系数和肯德尔相关系数等。
其中,皮尔逊相关系数是最常用的一种方法,它的计算公式如下:r = Σ((Xi X)(Yi Ȳ)) / √(Σ(Xi X)²Σ(Yi Ȳ)²)。
其中,r为皮尔逊相关系数,Xi和Yi分别为两个变量的取值,X和Ȳ分别为两个变量的均值。
通过计算得到的皮尔逊相关系数r的取值范围为-1到1,当r为1时表示两个变量完全正相关,当r为-1时表示两个变量完全负相关,当r为0时表示两个变量之间没有线性关系。
显着性的计算公式。
显着性用来判断样本数据中的观察结果是否具有统计学上的意义。
在进行显着性检验时,我们通常需要计算P值来判断观察结果的显著性。
P值是在假设检验中用来表示观察到的结果出现的概率,当P值小于显著性水平(通常取0.05)时,我们可以拒绝原假设,认为观察结果具有统计学上的显著性。
在实际的数据分析中,P值的计算通常需要借助于统计软件或者查找P值表。
以t检验为例,其P值的计算公式如下:P = 2 (1 F(|t|, n-2))。
其中,P为P值,t为t统计量,n为样本容量,F为t分布的累积分布函数。
通过计算得到的P值与显著性水平进行比较,可以判断观察结果的显著性。
相关性与显着性的应用。
相关性与显着性在实际的数据分析中具有重要的应用价值。
通过计算变量之间的相关性,我们可以了解它们之间的关系强度和方向,从而为进一步的分析提供依据。
同时,通过显着性检验,我们可以判断观察结果是否具有统计学上的显著性,从而进行科学的推断和决策。
测量不确定度评定中的相关性1.什么是相关性?相关(correlation)指两个或多个随机变量分布内,各随机变量间的关系。
相关是统计学中最重要的概念之一。
从数学上来讲,相关是根据线性相关系数ρ或其估计值r来考虑的。
JJF1059—1999《测量不确定度评定与表示》2.22节对相关系数给出了以下定义:相关系数是两个变量之间相互依赖性的度量,它等于两个变量间的协方差除以各自方差之积的正平方根,因此:其估计值:r(y,z)=[s(y,z)]/[s(y)s(z)]式中υ为协方差,σ为总体标准偏差,s为实验标准偏差,s(y,z)为υ的估计值,称为协方差的估计:式中y k与z k为输入量Y与Z的第k对观测结果,共进行了n对观测,分别为其算术平均值。
在不确定度评定中,上述计算式给出的结果为r的A类评定。
习惯上,r的绝对值大于≈0.7时,称为强相关。
否则称为弱相关。
r为正值时,称为正相关;为负值时,称为负相关。
例如当一个被测量Y的两个输入量X i和X j的估计值(随机变量)x i和x j,由于使用了相同的测量标准而可能同时偏大或偏小的情况下,就会出现正相关。
例如:为了测量一个矩形面积A(被测量),通过长l与宽b(输入量)的测量,按A=l·b得出。
如果使用了同一个钢卷尺,则由于这个计量标准器(钢卷尺)的最大允许误差的存在,导致l与b的估计值有可能同时偏大或同时偏小,特别是在这种测量中随机效应带来的不确定度较小的情况下。
如果l与b的测量结果不是为了得到A,它们的相关是没有意义的,更确切一点说,如果不是为了评定A的合成标准不确定度u c(A),r(l,b)没有意义。
又如:某省用他的一等50mm的量块,校准了两个市的二等50mm量块,无疑,由于这个一等量块修正值本身不确定度带来的影响,使得通过校准所给出的这两个二等量块的修正值同时偏大或同时偏小是十分明显的,虽然这两个二等量块的估计值(校准结果)明显相关,而且是正相关,但是,如果不把它们构成一个100mm的输出量,它们自己成为输入量,则它们之间的相关也是没有意义的。
数据分析中的相关性与因果关系分析数据分析在当今社会中扮演着越来越重要的角色。
通过对大量数据的收集、整理和分析,我们可以从中发现隐藏的规律和趋势,为决策提供有力的支持。
在数据分析中,相关性和因果关系是两个重要的概念,它们帮助我们理解数据之间的关系,并为我们提供有效的解释和预测。
相关性是指两个或多个变量之间的关联程度。
通过计算相关系数,我们可以衡量变量之间的相关性。
相关系数的取值范围在-1到1之间,当相关系数接近1时,表示变量之间存在强正相关;当相关系数接近-1时,表示变量之间存在强负相关;而当相关系数接近0时,表示变量之间几乎没有相关性。
相关性分析可以帮助我们发现变量之间的关联程度,从而为我们提供更准确的数据解读。
然而,相关性并不意味着因果关系。
因果关系是指一个事件或变量的变化直接导致另一个事件或变量的变化。
在数据分析中,我们常常需要通过因果关系来解释变量之间的关系。
因果关系的确定需要经过严谨的研究和分析,不能仅仅依靠相关性来进行判断。
相关性只是变量之间关系的一种度量,而因果关系需要考虑更多的因素和背景知识。
为了确定因果关系,我们可以使用实验设计和因果推断的方法。
实验设计通常涉及将变量分为实验组和对照组,通过对两组进行不同处理,观察其结果的差异,从而确定是否存在因果关系。
然而,在某些情况下,实验设计可能不可行或不道德,这时我们可以利用因果推断的方法。
因果推断通过观察数据的变化趋势和特征,结合领域知识和统计方法,来推断变量之间的因果关系。
除了实验设计和因果推断,我们还可以使用因果图来帮助分析因果关系。
因果图是一种图形工具,用于表示变量之间的因果关系。
通过绘制因果图,我们可以清晰地看到变量之间的关系链条,从而更好地理解因果关系。
因果图可以帮助我们识别主要因素和中介变量,从而更准确地分析和预测结果。
在数据分析中,相关性和因果关系是两个互补的概念。
相关性分析可以帮助我们发现变量之间的关联程度,为我们提供数据解读的线索;而因果关系分析则可以帮助我们理解变量之间的因果关系,为我们提供更深入的解释和预测。
初中数学什么是数据的相关性数据的相关性是指两个或多个变量之间的关联程度。
当两个变量的数值在某种程度上随着彼此的变化而变化时,我们可以说它们之间存在相关性。
相关性可以帮助我们理解和分析变量之间的关系,以及它们对彼此的影响程度。
本文将详细介绍数据的相关性及其度量方法。
I. 相关性的度量方法:相关性的度量方法主要有以下几种:1. 协方差(Covariance):协方差是衡量两个变量之间线性关系的度量。
它表示两个变量的变化趋势是否一致,以及变化的幅度是否相似。
协方差的值可以为正、负或零,分别表示正相关、负相关和无关。
协方差的计算公式如下:Cov(X, Y) = Σ((Xi - Xavg) * (Yi - Yavg)) / n其中,X 和Y 分别表示两个变量的值,Xavg 和Yavg 分别表示两个变量的平均值,Σ 表示求和,n 表示样本数量。
2. 相关系数(Correlation Coefficient):相关系数是一种标准化的度量方法,用于衡量两个变量之间的线性关系强度和方向。
它的取值范围在-1 到1 之间,绝对值越接近1,表示相关性越强。
相关系数的计算公式如下:ρ(X, Y) = Cov(X, Y) / (σX * σY)其中,ρ 表示相关系数,Cov(X, Y) 表示协方差,σX 和σY 分别表示两个变量的标准差。
3. 斯皮尔曼相关系数(Spearman's Rank Correlation Coefficient):斯皮尔曼相关系数是一种非参数的度量方法,用于衡量两个变量之间的单调关系。
它通过将变量的数值转换为排名,来消除数据的分布偏移和异常值的影响。
斯皮尔曼相关系数的取值范围在-1 到1 之间,绝对值越接近1,表示相关性越强。
II. 相关性的解读:根据相关性的度量结果,我们可以进行以下解读:1. 正相关:当相关系数为正值时,表示两个变量之间存在正相关关系。
即,随着一个变量的增加,另一个变量也会增加;或者随着一个变量的减少,另一个变量也会减少。
相关性分析的五种⽅法相关分析(Analysis of Correlation)是⽹站分析中经常使⽤的分析⽅法之⼀。
通过对不同特征或数据间的关系进⾏分析,发现业务运营中的关键影响及驱动因素。
并对业务的发展进⾏预测。
本篇⽂章将介绍5种常⽤的分析⽅法。
在开始介绍相关分析之前,需要特别说明的是相关关系不等于因果关系。
相关分析的⽅法很多,初级的⽅法可以快速发现数据之间的关系,如正相关,负相关或不相关。
中级的⽅法可以对数据间关系的强弱进⾏度量,如完全相关,不完全相关等。
⾼级的⽅法可以将数据间的关系转化为模型,并通过模型对未来的业务发展进⾏预测。
下⾯我们以⼀组⼴告的成本数据和曝光量数据对每⼀种相关分析⽅法进⾏介绍。
以下是每⽇⼴告曝光量和费⽤成本的数据,每⼀⾏代表⼀天中的花费和获得的⼴告曝光数量。
凭经验判断,这两组数据间应该存在联系,但仅通过这两组数据我们⽆法证明这种关系真实存在,也⽆法对这种关系的强度进⾏度量。
因此我们希望通过相关分析来找出这两组数据之间的关系,并对这种关系进度度量。
1,图表相关分析(折线图及散点图)第⼀种相关分析⽅法是将数据进⾏可视化处理,简单的说就是绘制图表。
单纯从数据的⾓度很难发现其中的趋势和联系,⽽将数据点绘制成图表后趋势和联系就会变的清晰起来。
对于有明显时间维度的数据,我们选择使⽤折线图。
为了更清晰的对⽐这两组数据的变化和趋势,我们使⽤双坐标轴折线图,其中主坐标轴⽤来绘制⼴告曝光量数据,次坐标轴⽤来绘制费⽤成本的数据。
通过折线图可以发现,费⽤成本和⼴告曝光量两组数据的变化和趋势⼤致相同,从整体的⼤趋势来看,费⽤成本和⼴告曝光量两组数据都呈现增长趋势。
从规律性来看费⽤成本和⼴告曝光量数据每次的最低点都出现在同⼀天。
从细节来看,两组数据的短期趋势的变化也基本⼀致。
经过以上这些对⽐,我们可以说⼴告曝光量和费⽤成本之间有⼀些相关关系,但这种⽅法在整个分析过程和解释上过于复杂,如果换成复杂⼀点的数据或者相关度较低的数据就会出现很多问题。
如何进行有效的相关性分析相关性分析是一种常用的统计方法,用于探索变量之间的关系。
它帮助我们理解不同变量之间的相关程度,以及它们之间的因果关系。
在本文中,我们将介绍如何进行有效的相关性分析,以及一些常见的工具和技术。
一、相关性分析的基本概念在开始进行相关性分析之前,我们首先需要了解一些基本概念。
1. 相关系数:相关系数是衡量两个变量之间关系强度的统计量。
常见的相关系数有皮尔逊相关系数、斯皮尔曼相关系数和切比雪夫距离等。
选择适当的相关系数取决于变量类型和数据特点。
2. 正相关与负相关:当两个变量的值朝相同方向变化时,它们之间存在正相关关系;当两个变量的值朝相反方向变化时,它们之间存在负相关关系。
3. 相关矩阵:相关矩阵是一个矩阵,用于展示多个变量之间的相关性。
矩阵中的每个元素代表两个变量之间的相关系数。
二、相关性分析的步骤进行有效的相关性分析,需要按照以下步骤进行:1. 收集数据:首先,需要收集相关的数据。
确保数据质量好,准确性高,并且涵盖了所有要分析的变量。
2. 数据预处理:在进行相关性分析之前,需要对数据进行预处理。
这包括数据清洗、缺失值处理、异常值处理等。
通过预处理,确保数据的准确性和完整性。
3. 确定相关系数:根据变量类型和数据特点,选择合适的相关系数。
常用的皮尔逊相关系数适用于连续变量之间的线性关系;斯皮尔曼相关系数适用于有序变量或非线性关系;切比雪夫距离适用于分类变量之间的关系。
4. 计算相关系数:使用选定的相关系数公式,计算各个变量之间的相关系数。
可以使用统计软件或编程语言来实现计算。
5. 相关性可视化:相关性可视化有助于更好地理解变量之间的关系。
常用的可视化方法包括散点图、热力图和线性回归图。
选择适当的可视化方法,将相关系数结果呈现出来。
6. 分析结果解读:根据相关系数的数值和可视化结果,进行结果解读。
判断变量之间的相关性强度、方向以及是否存在显著性差异。
注意结果解读时需谨慎,应结合具体情境和领域知识进行分析。
相关性分析相关性分析是指通过测量两个或多个变量之间的相关性程度来研究它们之间的关系。
相关系数是相关性分析的一种方法,用于衡量变量之间的线性关系强度。
相关系数的范围是-1到1之间,其中-1代表完全的负相关,1代表完全的正相关,0代表没有线性关系。
相关系数有多种计算方法,常用的有皮尔逊相关系数和斯皮尔曼相关系数。
皮尔逊相关系数适用于连续变量,它基于变量的协方差和标准差来计算相关性。
斯皮尔曼相关系数用于顺序变量,它基于变量的秩次来计算相关性。
皮尔逊相关系数的计算公式如下:\[r = \frac{\sum{(X_i-\bar{X})(Y_i-\bar{Y})}}{\sqrt{\sum{(X_i-\bar{X})^2}} \sqrt{\sum{(Y_i-\bar{Y})^2}}}\]其中,\(X_i\)和\(Y_i\)分别表示第i个数据点的变量X和Y的值,\(\bar{X}\)和\(\bar{Y}\)分别表示变量X和Y的平均值。
斯皮尔曼相关系数的计算公式如下:\[r_s = 1 - \frac{6 \sum{d_i^2}}{n(n^2-1)}\]其中,\(d_i\)表示变量X和Y的秩次差的绝对值,n表示样本大小。
相关系数的值越接近于-1或1,表示变量之间的关系越强;值越接近于0,表示变量之间的关系越弱。
当相关系数为0时,表示变量之间没有线性关系,但并不意味着没有其他类型的关系。
需要注意的是,相关系数只能衡量变量之间的线性关系,不能用于判断因果关系。
因此,在进行相关性分析时,需要避免因果解释的错误。
相关性分析的应用非常广泛。
在经济学中,相关性分析可以用来研究不同经济指标之间的关系,例如GDP与物价指数之间的关系。
在统计学中,相关性分析可以用来研究样本中不同变量之间的关系,例如身高和体重之间的关系。
在金融学中,相关性分析可以用来研究不同股票之间的关系,以及市场与指数之间的关系。
在市场研究中,相关性分析可以用来研究市场份额和销售量之间的关系。
统计学中的相关性和共线性问题在统计学中,相关性和共线性是两个重要的概念。
相关性是指两个或多个变量之间的关联程度,而共线性则是指多个自变量之间存在高度相关的情况。
本文将探讨相关性和共线性的定义、特征、影响以及处理方法。
一、相关性的定义和特征相关性是描述两个或多个变量之间关联程度的统计指标。
常用的相关性指标包括皮尔逊相关系数、斯皮尔曼等级相关系数和判定系数等。
1. 皮尔逊相关系数是最常用的相关性指标之一,其取值范围在-1到1之间。
当相关系数接近1时,表示变量之间具有强正相关关系;当相关系数接近-1时,表示变量之间具有强负相关关系;当相关系数接近0时,表示变量之间没有线性关系。
2. 斯皮尔曼等级相关系数适用于非线性关系的变量之间的相关性分析,其取值范围在-1到1之间。
与皮尔逊相关系数不同,斯皮尔曼等级相关系数是通过比较变量的等级而不是数值来计算相关性。
相关性的特征包括直线关系、曲线关系和无关系。
直线关系指的是变量之间存在线性关系,可以用一条直线来描述;曲线关系指的是变量之间存在非线性关系,通常需要用曲线来描述;无关系指的是变量之间没有明显的关系。
二、共线性的定义和影响共线性是指多个自变量之间存在高度相关的情况。
当自变量之间存在共线性时,会导致统计模型的可解释性下降,参数估计不准确,假设检验失效等问题。
共线性的影响主要表现在以下几个方面:1. 参数估计不准确:共线性会导致参数估计的标准误差增大,降低了参数估计的准确性,使得参数估计的置信区间变大。
2. 假设检验失效:共线性会导致模型中的自变量之间产生多重共线性,使得假设检验结果不可靠。
例如,当多个自变量之间存在较高的相关性时,模型可能会错误地认为这些变量对响应变量的影响是显著的。
3. 模型解释力下降:共线性会导致自变量之间的关系变得复杂,使得模型的可解释性下降。
在解释模型结果时,很难确定每个自变量对响应变量的独立贡献。
三、处理相关性和共线性的方法为了解决相关性和共线性问题,可以采取以下方法:1. 变量选择:通过选择与响应变量相关性较高且与其他自变量相关性较低的变量,来减少共线性的影响。
相关性分析方法相关性分析是一种常见的数据分析方法,用于确定变量之间的关系或相关程度。
通过相关性分析,我们可以了解变量之间的关联性,从而对数据进行更深入的研究和预测。
本文将简要介绍相关性分析的概念、常用的相关系数和相关性检验方法,并探讨相关性分析在不同领域的应用。
一、相关性分析的概念相关性指的是两个或多个变量之间存在的关联关系。
当一个变量的取值发生变化时,另一个或多个变量的取值也会有相应的变化。
例如,当温度上升时,冰淇淋的销售量也会随之增加。
相关性分析就是通过统计方法来确定变量之间的相关关系的强度和方向。
相关性分析的目的是找出变量之间的相互关系。
如果两个变量之间存在强相关性,那么我们可以使用一个变量来预测另一个变量。
相关性分析还可以帮助我们理解多个变量之间的相互作用,从而为决策提供有力的支持。
二、相关系数相关系数是衡量两个变量之间关联程度的统计指标。
常用的相关系数包括皮尔逊相关系数、斯皮尔曼相关系数和切比雪夫相关系数等。
1. 皮尔逊相关系数(Pearson correlation coefficient)是一种线性相关性的度量,用于衡量两个连续变量之间的关联程度。
计算公式如下:其中,r为皮尔逊相关系数,rr和rr分别为第r个数据点的x、y值,r¯和r¯分别为x和y的均值。
2. 斯皮尔曼相关系数(Spearman's rank correlation coefficient)是一种非线性相关性的度量,用于衡量两个变量之间的关联程度,不考虑变量的具体取值,而是根据变量的排名进行计算。
体检指标数据的相关性分析摘要本文讨论了19—22岁男学生10个体检指标间相关性的问题。
针对问题一,根据样本数据观测矩阵与其协方差矩阵、皮尔逊(Pearson)相关矩阵的关系并利用SAS系统proc corr过程(见附录),得到协方差矩阵S、皮尔逊(Pearson)相关矩阵R。
针对问题二,利用样本的次序统计量得到样本数据对应的秩统计量,根据斯皮尔曼相关系数(Spearman)与秩统计量的关系并利用SAS 系统proc corr过程,得到Spearman相关矩阵Q。
针对问题三,对于题一得到的Pearson相关矩阵R,由SAS系统proc corrα=与其检验p值比较,得到各指标过程得到对应的检验p值,取显著水平0.10的相关性(见附录表2);对于Spearman相关矩阵Q,由SAS系统proc corrα=与其p值比较,得到各指标的相过程得到对应的检验p值,取显著水平0.10关性(见附录表3)。
关键词协方差矩阵;Preason相关矩阵;Spearman相关矩阵;检验p值一、问题重述对19-22岁的男学生的10个体检指标,测得数据(见附录表1)所示。
其中:1x 为身高(cm ),2x 为坐高(cm ),3x 为体重(kg ),4x 为胸围(cm ),5x 为肩宽(cm ),6x 为骨盆宽(cm ),7x 为脉搏(次/min ),8x 为收缩压(mmHg ),9x 为舒张压(mmHg ),10x 为肺活量(mL )。
问题一:计算协方差矩阵、Pearson 相关矩阵; 问题二:计算Spearson 相关矩阵; 问题三:分析各指标间的相关性。
二、模型建立与求解根据19-22岁的男学生的10个体检指标的实验数据,计算样本数据观测矩阵的协方差矩阵、Pearson 相关矩阵及Spearson 相关矩阵并分析各指标间的相关性。
2.1计算协方差矩阵、Pearson 相关矩阵 (1)计算协方差矩阵由题中所给的28组观测数据,每组数据包含10个指标,得到一个10元样本。
记第j 个观测数据为T 1210(,,...,)j j j j x x x x =, 1,2,...,28j =,则样本数据观测矩阵11121212221212......[,,...,],...............n n nP P Pn x x x x x x X x x x x x x ⎡⎤⎢⎥⎢⎥==⎢⎥⎢⎥⎣⎦其中28,10n P ==.分以下三个步骤求样本观测矩阵的协方差矩阵: 1)第i 行i x 的均值i x -11nij j x n ==∑, 1,2,...,i P =.2)第i 行i x 的方差2211()1n iij ij s x x n -==--∑. 3)样本数据中任意两项,i k x x 的协方差为__11,,1,2,...,1n i ik ij kj k j s x x x x i k P n =⎛⎫⎛⎫=--= ⎪⎪-⎝⎭⎝⎭∑其中,ik ki s s =,ii s 为变量i x 的观测数据的方差,ik s 为变量i x 与k x 的协方差。
则样本观测数据的协方差矩阵为(),,1,2,ik S s i k P ==.由SAS 系统的proc corr 过程(见附录),算得样本观测数据的协方差矩阵为:⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣⎡----------------=68254.2597682063.19591825.13849868.12254183.788042.671378.10477323.21350574.7891037.17482063.19512720.3177280.659413.072772.020459.048579.391257.354715.112596.391825.13877280.654988.625552.041328.046136.024322.001162.265162.018578.149868.12259413.025552.069221.200341.007619.082597.017091.117205.047125.054183.772772.041328.000341.014760.007608.016953.003845.006207.005541.088042.620459.046136.007619.007608.020648.003283.018920.007681.011846.071378.10448579.324322.082597.016953.003283.078551.122655.137336.079469.077323.21391257.301162.217091.103845.018920.022655.197025.295598.011404.250574.7854715.165162.017205.006207.007681.037336.095598.047375.094497.091037.17412596.318578.147152.005541.011846.079469.011404.294497.006358.2S (2)求样本数据观测矩阵的Pearson 相关矩阵。
根据协方差矩阵中每个元素,可得到样本数据任意两项,i k x x 的相关系数ik r ,,1,2,,,ik r i k P ==ik r 是无量纲的量,总有1, 1.ii ik r r =≤Pearson 相关矩阵121212121...1..................1P P P P r r r r R r r ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦.由SAS 系统的proc corr 过程(见附录),算得Pearson 相关矩阵为1.000000.955730.853900.414000.181480.100390.200050.322530.390030.755460.95573 1.000000.805900.405950.245590.234710.152340.369920.402890.707680.853900.80590 1.000000.405950.241590.058080.414070.4560R ---=70.406910.769600.414000.405950.53261 1.000000.054070.330230.376730.071120.467570.486620.181480.245590.241590.05407 1.000000.435820.102190.396710.080700.093950.100390.234710.058080.330230.43582 1.0000----00.005410.420330.339510.121800.200050.152340.414070.376730.102190.00541 1.000000.060850.064900.463220.322530.369920.456070.071120.396710.420330.06085 1.000000.474330.336780.390030.402890.406910.--------467570.080700.339510.064900.47433 1.000000.217770.755460.707680.769600.486220.093950.121800.463220.336780.217771.00000⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥-⎣⎦2.2计算Spearson 相关矩阵由于Spearson 相关系数是一种秩相关系数,引入样本秩的概念([1]) 先确定样本的次序统计量,即对于28个男同学的10项指标样本,分别记其次序统计量为()()()28,...,2,1111x x x ;()()()28,...,2,1222x x x ;…;()()()28,...,2,1101010x x x ;若(),1,2,...,;,1,2,...,28ij i x x l i P j l ===,则l 为ij x 在样本中的秩,这样可求得每个指标的秩统计量。
记12,,...i i in x x x 的秩统计量是12,,...,i i in R R R ,kn k k x x x ,...,21的秩统计量是kn k k S S S ,...,,21,,1,2,...,i k P =,则样本数据的Spearson 相关系数即为任意两组秩统计向量的相关系数。
因此,__1nij i kj k j ik R R S S q =⎛⎫⎛⎫-⋅- ⎪ ⎪⎝⎭⎝⎭=∑其中_11n i ij j R R n ==∑,_11nk kj j S S n ==∑.又由秩的定义可知:_111112n n i ij j j n R R j n n ==+===∑∑ 同理可得,21_+=n S k ,因此ik q 可整理为:()221611nik ij j q d n n ==--∑ 其中,1,2,,,1,2,,ij ij ij d R S i P j n =-==,则 Spearson 相关矩阵121212121...1..................1p p n n q q q q Q q q ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦.由SAS 系统的proc corr 过程(见附录),算得1.000000.940730.843810.400270.375790.11050.192930.268260.419200.732920.94073 1.000000.794750.358510.343870.231590.170270.281290.346340.736180.843810.79475 1.000000.541870.337030.124560.417470.39167Q ---=0.398900.813900.400270.358510.54187 1.000000.167280.332880.365730.101070.417520.512860.375790.343870.337030.16728 1.000000.290430.036700.416080.230070.171120.110500.231590.124560.332880.29043 1.00000----0.021500.353290.360950.219550.192930.170270.417470.365730.036700.021501.000000.020550.083530.490560.268260.281290.391670.101070.416080.353290.02055 1.000000.519110.367840.419200.346340.398900.417------520.230070.360950.083530.519111.000000.270500.732920.736180.813900.512860.171120.219550.490560.367840.270501.00000⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥-⎣⎦2.3分析各指标的相关性。