第九课:相关分析——Correlate菜单详解
- 格式:pdf
- 大小:200.49 KB
- 文档页数:8
第七章相关分析任何事物的存在都不是孤立的,而是相互联系、相互制约的。
在医学领域中,身高与体重、体温与脉搏、年龄与血压等都存在一定的联系。
说明客观事物相互间关系的密切程度并用适当的统计指标表示出来,这个过程就是相关分析。
值得注意,事物之间有相关,不一定是因果关系,也可能仅是伴随关系。
但如果事物之间有因果关系,则两者必然相关。
由变量相依关系的特点,变量之间的依存关系可分为两大类型:(1)确定性关系——函数关系,例如圆面积S=πr2, y=e x+x2等。
(2)确定性关系——相关关系,例如人的血压y与年龄x之间的关系等。
以往我们讨论过的许多数学学科,如分析几何、代数等都是研究变量之间确定性关系的,但非确定性关系在自然界和我们熟知的教育领域中大量存在,例如学习成绩与智力因素或与非智力因素之间,数学成绩与物理成绩之间,性别与学习成绩之间等,都存在某种相互联系,相互制约的依存关系,这种关系不是那种严格的函数关系,而是一种非确定性的关系。
相关关系和函数关系也有联系:由于观察和测量中会产生误差,函数关系往往通过相关关系表现出来,变量间相关关系非常密切时,通常又呈现出某种函数关系趋势。
相关的种类按不同的分类标准,相关关系有多种分类1、简单相关和复相关简单相关——两个变量之间的相关关系按涉及变量的多少分复相关——一个变量与两个及以上个变量之间的相关关系2、线性相关和非线性相关线性相关(直线相关)按变量关系的表现形态,相关关系可分为非线性相关(曲线相关)3、正相关和负相关按变量数值变化方向的总趋势,相关关系可分为正相关、负相关正相关——两个变量变化方向的趋势相同(见教材P2,图1-2左)负相关——两个变量变化方向的趋势相反(见教材P2,图1-2右)4、完全相关、高度相关、低度相关和不相关按两变量联系的紧密程度分,相关关系可分为完全相关、高度相关、低度相关和不相关(零相关)相关分析的主要内容研究两个或两个以上变量之间是否存在相关关系,如果存在相关关系,其相关的性质和程度如何,这个过程在统计学上称为相关分析,相关分析的主要内容包括:1、确定变量之间有无相关关系存在,以及相关关系呈现的形态。
数据统计分析软件SPSS的应用(五)——相关分析与回归分析数据统计分析软件SPSS的应用(五)——相关分析与回归分析数据统计分析软件SPSS是目前应用广泛且非常强大的数据分析工具之一。
在前几篇文章中,我们介绍了SPSS的基本操作和一些常用的统计方法。
本篇文章将继续介绍SPSS中的相关分析与回归分析,这些方法是数据分析中非常重要且常用的。
一、相关分析相关分析是一种用于确定变量之间关系的统计方法。
SPSS提供了多种相关分析方法,如皮尔逊相关、斯皮尔曼相关等。
在进行相关分析之前,我们首先需要收集相应的数据,并确保数据符合正态分布的假设。
下面以皮尔逊相关为例,介绍SPSS 中的相关分析的步骤。
1. 打开SPSS软件并导入数据。
可以通过菜单栏中的“File”选项来导入数据文件,或者使用快捷键“Ctrl + O”。
2. 准备相关分析的变量。
选择菜单栏中的“Analyze”选项,然后选择“Correlate”子菜单中的“Bivariate”。
在弹出的对话框中,选择要进行相关分析的变量,并将它们添加到相应的框中。
3. 进行相关分析。
点击“OK”按钮后,SPSS会自动计算所选变量之间的相关系数,并将结果输出到分析结果窗口。
4. 解读相关分析结果。
SPSS会给出相关系数的值以及显著性水平。
相关系数的取值范围为-1到1,其中-1表示完全负相关,1表示完全正相关,0表示没有相关关系。
显著性水平一般取0.05,如果相关系数的显著性水平低于设定的显著性水平,则可以认为两个变量之间存在相关关系。
二、回归分析回归分析是一种用于探索因果关系的统计方法,广泛应用于预测和解释变量之间的关系。
SPSS提供了多种回归分析方法,如简单线性回归、多元线性回归等。
下面以简单线性回归为例,介绍SPSS中的回归分析的步骤。
1. 打开SPSS软件并导入数据。
同样可以通过菜单栏中的“File”选项来导入数据文件,或者使用快捷键“Ctrl + O”。
2. 准备回归分析的变量。
SPSS相关分析实例操作步骤-SPSS做相关分析SPSS(Statistical Product and Service Solutions)是目前在工业、商业、学术研究等领域中广泛应用的统计学软件包之一。
Correlation是SPSS的一个功能模块,可以用于分析两个或多个变量之间的关系。
下面是SPSS进行相关分析的具体步骤:1. 打开SPSS软件,选择“变量视图”(Variable View),输入相关的变量名,包括数字型变量和分类变量。
2. 进入“数据视图”(Data View),输入数据,并保存数据集。
3. 打开菜单栏中的“分析”(Analyze),选择“相关”(Correlate),再选择“双变量”(Bivariate)。
4. 在双变量窗口中,选择包含需要分析的变量的变量名,并将其移至右侧窗口中的变量框(Variables)。
5. 如果需要控制其他变量的影响,可以选择“控制变量”(Options)。
6. 点击“确定”(OK)按钮后,SPSS将输出结果,并将其显示在输出窗口中。
相关系数(Correlation Coefficient)介于-1和1之间,可以用来衡量两个变量之间的线性关系的强度。
7. 如果需要对结果进行图形化展示,可以选择“图”(Plots),并选择适当的图形类型。
需要注意的是,进行相关分析时需要确保变量之间存在线性关系。
如果变量之间存在非线性关系,建议使用其他统计方法进行分析。
同时,SPSS进行相关分析的结果只能描述变量之间的关系,不能用于说明因果关系。
以上是SPSS做相关分析的具体步骤,希望能对大家进行SPSS 数据分析有所帮助。
【stata代码模板】相关分析_correlate_pwcorr_pcorr_spearman_kendal黄色字体为自己填写部分,红色字体为可缺省部分。
(1)Correlate计算pearson相关系数pearson相关系数是最常用的相关分析依据,要求变量服从正态分布,代码为:——————————————模板——————————————correlate 变量1 变量2 … if var=value,means covariance——————————————模板——————————————此代码用来计算变量1、变量2…之间的相关系数矩阵。
If用来筛选满足条件的数据,可缺省。
Means要求显示一半描述统计量(均值、标准差、最小最大值)。
Covariance要求显示协方差矩阵而不是相关系数矩阵。
(2)pwcorr推断总体相关系数只用correlate计算样本的相关系数,会受到抽样波动的影响,样本相关不能说明总体相关。
Pwcorr不仅可以计算相关系数,还可对相关系数显著性进行检验,原假设是总体相关系数为0,即不相关。
代码为:————————————模板————————————pwcorr 变量1 变量2 … if var=value,sig star(#)————————————模板————————————Sig显示相关系数显著性的p值。
Star(#)是当相关系数显著性检验的p值小于设定的#%,则在相关系数旁标记星号。
比如,计算语文成绩与数学成绩的相关性,显著性水平为5%:Pwcorr Chinese maths,sig star(5)(3)pcorr计算偏相关系数偏相关分析的任务就是在研究两变量之间的相关关系时控制可能对其影响的其他变量。
————————————模板——————————————pcorr 变量1 其他变量1 其他变量2 … if var=value————————————模板——————————————上面代码是考察其他变量与变量1的偏相关系数。
第九章相关分析――Correlate菜单详解(医学统计之星:张文彤)上次更新日期:9.1 Bivariate过程9.1.1 界面说明9.1.2 分析实例9.1.3 结果解释9.2 Partial过程9.2.1 界面说明9.2.2 结果解释9.3 Distances过程在医学中经常要遇到分析两个或多个变量间关系的情况,有时是希望了解某个变量对另一个变量的影响强度,有时则是要了解变量间联系的密切程度,前者用下一章将要讲述的回归分析来实现,后者则需要用到本章所要讲述的相关分析实现。
SPSS的相关分析功能被集中在Statistics菜单的Correlate子菜单中,他一般包括以下三个过程:∙Bivariate过程此过程用于进行两个/多个变量间的参数/非参数相关分析,如果是多个变量,则给出两两相关的分析结果。
这是Correlate子菜单中最为常用的一个过程,实际上我们对他的使用可能占到相关分析的95%以上。
下面的讲述也以该过程为主。
∙Partial过程如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数,这种分析思想和协方差分析非常类似。
Partial过程就是专门进行偏相关分析的。
∙Distances过程调用此过程可对同一变量内部各观察单位间的数值或各个不同变量间进行距离相关分析,前者可用于检测观测值的接近程度,后者则常用于考察预测值对实际值的拟合优度。
该过程在实际应用中用的非常少。
§9.1Bivariate过程9.1.1 界面说明【Variables框】用于选入需要进行相关分析的变量,至少需要选入两个。
【Correlation Coefficients复选框组】用于选择需要计算的相关分析指标,有:∙Pearson复选框选择进行积距相关分析,即最常用的参数相关分析∙Kendall's tau-b复选框计算Kendall's等级相关系数∙Spearman复选框计算Spearman相关系数,即最常用的非参数相关分析(秩相关)【Test of Significance单选框组】用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。
相关性分析(correlation analysis)➢概述相关性分析可以用来验证两个变量间的线性关系,从相关系数r我们可以知道两个变量是否呈线性关系、线性关系的强弱,以及是正相关还是负相关。
➢适用场合·当你有成对的数字数据时;·当你画了一张散点图,发现数据有线性关系时;·当你想要用统计的方法测量数据是否落在一条线上时。
➢实施步骤尽管人工可以进行相关性分析,然而计算机软件可以使计算更简便。
按照以下的介绍来使用你的软件。
分析计算出相关性系数r,它介于-l到1之间。
·如果r接近0则两个变量没有线性相关性;·当r接近-l或者1时,说明两个变量线性关系很强;·正的r值代表当y值很小时x值也很小,当y值很大时r值也很大;·负的r值代表当y值很大时x值很小,反之亦然。
➢示例图表5.39到图表5.42给出了两个变量不同关系时的散点图。
图表5.39给出了一个近似完美的线性关系,r=0.98;图表5.40给出了一个弱的负线性相关关系,R=-0. 69,与图表5.39比较,数据散布在更宽的范围内;在图表5.41中,两个变量不相关,r=0.l5;在图表5.42中,相关性分析计算出相同的r值——=0.15,但是,在这个情况下显然两个变量是相关的,尽管不是线性的。
➢注意事项·如果,r=0,则变量不相关,但是可能有弯曲的相关性,如图表5.42那样。
为避免这种情况,首先画出数据的散点图来判断它们的关系。
相关性分析只对于存在线性关系的变量有意义。
·相关性分析可以证实两个变量间关系的强弱,但不能计算出那条回归线,如果想找到最符合的线,请参阅回归分析。
·对于系数的决定,回归分析中使用r2,它是相关系数r一的平方。
相关分析(Correlate)Correlation and dependenceIn statistics, correlation and dependence are any of a broad class of statistical relationships between two or more random variables or observed data values.Correlation is computed(用...计算)into what is known as the correlation coefficient(相关系数), which ranges between -1 and +1. Perfect positive correlation (a correlation co-efficient of +1) implies(意味着)that as one security(证券)moves, either up or down, the other security will move in lockstep(步伐一致的), in the same direction. Alternatively(同样的), perfect negative correlation means that if one security moves in either direction the security that is perfectly negatively correlated will move by an equal amount in the opposite(相反的)direction. If the correlation is 0, the movements of the securities are said to have no correlation; they are completely random(随意、胡乱).There are several correlation coefficients, often denoted(表示、指示)ρ or r, measuring(衡量、测量)the degree of correlation. The most common of these is the Pearson correlation coefficient, which is sensitive only to a linear(只进行两变量线性分析)relationship between two variables (which may exist even if one is a nonlinear function of the other).Other correlation coefficients have been developed to be more robust(有效的、稳健)than the Pearson correlation, or more sensitive to nonlinear relationships.Rank(等级)correlation coefficients, such as Spearman's rank correlation coefficient and Kendall's rank correlation coefficient (τ) measure the extent(范围)to which, as one variable increases, the other variable tends to increase, without requiring(需要、命令)that increase to be represented by a linear relationship. If, as the one variable(变量)increases(增加), the other decreases, the rank correlation coefficients will be negative. It is common to regard these rank correlation coefficients as alternatives to Pearson's coefficient, used either to reduce the amount of calculation or to make the coefficient less sensitive to non-normality in distributions(分布). However, this view has little mathematical basis, as rank correlation coefficients measure a different type of relationship than the Pearson product-moment correlation coefficient, and are best seen as measures of a different type of association, rather than as alternative measure of the population correlation coefficient.Common misconceptions(错误的想法)Correlation and causality(因果关系)The conventional(大会)dictum(声明)that "correlation does not imply causation" means that correlation cannot be used to infer a causal relationship between the variables.Correlation and linearityFour sets of data with the same correlation of 0.816The Pearson correlation coefficient indicates the strength of a linear relationship between two variables, but its value generally does not completely characterize their relationship. In particular, if the conditional mean of Y given X, denoted E(Y|X), is not linear in X, the correlation coefficient will not fully determine the form ofE(Y|X).The image on the right shows scatterplots(散点图)of Anscombe's quartet, a set of four different pairs of variables created by Francis Anscombe. The four y variables have the same mean (7.5), standard deviation (4.12), correlation (0.816) and regression line (y = 3 + 0.5x). However, as can be seen on the plots, the distribution of the variables is very different. The first one (top left) seems to be distributed normally, and corresponds to what one would expect when considering two variables correlated and following the assumption of normality. The second one (top right) is not distributed normally; while an obvious relationship between the two variables can be observed, it is not linear. In this case the Pearson correlation coefficient does not indicate that there is an exact functional relationship: only the extent to which that relationship can be approximated(大概)by a linear relationship. In the third case (bottom left), the linear relationship is perfect, except for one outlier which exerts enough influence to lower the correlation coefficient from 1 to0.816. Finally, the fourth example (bottom right) shows another example when one outlier(异常值)is enough to produce a high correlation coefficient, even though the relationship between the two variables is not linear.(离群值可降低、也可以增加数据的相关性。
第九章相关分析――Correlate菜单详解(医学统计之星:张文彤)上次更新日期:9.1 Bivariate过程9.1.1 界面说明9.1.2 分析实例9.1.3 结果解释9.2 Partial过程9.2.1 界面说明9.2.2 结果解释9.3 Distances过程在医学中经常要遇到分析两个或多个变量间关系的情况,有时是希望了解某个变量对另一个变量的影响强度,有时则是要了解变量间联系的密切程度,前者用下一章将要讲述的回归分析来实现,后者则需要用到本章所要讲述的相关分析实现。
SPSS的相关分析功能被集中在Statistics菜单的Correlate子菜单中,他一般包括以下三个过程:∙Bivariate过程此过程用于进行两个/多个变量间的参数/非参数相关分析,如果是多个变量,则给出两两相关的分析结果。
这是Correlate子菜单中最为常用的一个过程,实际上我们对他的使用可能占到相关分析的95%以上。
下面的讲述也以该过程为主。
∙Partial过程如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数,这种分析思想和协方差分析非常类似。
Partial过程就是专门进行偏相关分析的。
∙Distances过程调用此过程可对同一变量内部各观察单位间的数值或各个不同变量间进行距离相关分析,前者可用于检测观测值的接近程度,后者则常用于考察预测值对实际值的拟合优度。
该过程在实际应用中用的非常少。
§9.1Bivariate过程9.1.1 界面说明【Variables框】用于选入需要进行相关分析的变量,至少需要选入两个。
【Correlation Coefficients复选框组】用于选择需要计算的相关分析指标,有:∙Pearson复选框选择进行积距相关分析,即最常用的参数相关分析∙Kendall's tau-b复选框计算Kendall's等级相关系数∙Spearman复选框计算Spearman相关系数,即最常用的非参数相关分析(秩相关)【Test of Significance单选框组】用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。
【Flag significant correlations】用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。
此时P<0.05的系数值旁会标记一个星号,P<0.01的则标记两个星号。
【Options钮】弹出Options对话框,选择需要计算的描述统计量和统计分析:∙Statistics复选框组可选的描述统计量。
它们是:1.Means and standard deviations每个变量的均数和标准差2.Cross-product deviations and covariances各对变量的交叉积和以及协方差阵∙Missing Values单选框组定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。
默认为前者,以充分利用数据。
9.1.2 分析实例例9.1 请计算SPSS自带的样本数据judges.sav中意大利(judge1)和韩国法官(judge2)得分的相关性。
解:由于judge1和judge2的数据分布不太好,这里同时计算Pearson相关系数和Spearman相关系数。
操作如下:这种做法严格说来是有问题的,我这样做主要是想偷懒。
1.Variables框:选入judge1、judge22.Pearson复选框:选中3.Spearman复选框:选中4.单击OK钮9.1.3 结果解释例9.1的输出结果如下所示:Correlations在上面的结果中,变量间两两的相关系数是用方阵的形式给出的。
每一行和每一列的两个变量对应的格子中就是这两个变量相关分析结果结果,共分为三列,分别是相关系数、P值和样本数。
由于这里只分析了两个变量,因此给出的是2*2的方阵。
由上表可见judge1、judge2自身的相关系数均为1(of course),而judge1和judge2的相关系数为0.91,P<0.001,有非常显著的统计学意义。
如果需要得到具体的P值。
请进入表格的编辑模式,双击P值所在的单元格,就可以看到精确的P值大小。
上表的标题内容翻译如下:Nonparametric Correlations此处的表格内容和上面Pearson相关系数的结果非常相似,只是表格左侧注明为Spearman等级相关。
可见judge1和judge2的等级相关系数为0.92,P<0.001,有非常显著的统计学意义。
9.2 Partial过程9.2.1 界面说明【Variables框】用于选入需要进行偏相关分析的变量,至少需要选入两个。
【Controlling for框】用于选择需要在偏相关分析时进行控制的协变量,如果不选入,则进行的就是普通的相关分析。
【Test of Significance单选框组】意义同前,用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。
【Display actual significince level复选框】用于确定是否在结果中给出确切的P值,一般选中。
【Options钮】弹出Options对话框,选择需要计算的描述统计量和统计分析:∙Statistics复选框组可选的描述统计量。
它们是:1.Means and standard deviations每个变量的均数和标准差2.Zero-order correlations给出包括协变量在内所有变量的相关方阵∙Missing Values单选框组定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。
默认为前者,以充分利用数据。
9.2.2 结果解释偏相关分析的结果和普通相关分析几乎完全相同,非常容易看懂,比如说我们要在排除变量judge3的影响后计算变量judge1和judge2的相关性(只是举个例子而已,这样是没有实际依据的),则结果如下:Partial Corr- - - P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S - - -Controlling for.. JUDGE3JUDGE1 JUDGE2JUDGE1 1.0000 .5632( 0) ( 297)P= . P= .000JUDGE2 .5632 1.0000( 297) ( 0)P= .000 P= .(Coefficient / (D.F.) / 2-tailed Significance)" . " is printed if a coefficient cannot be computed这些结果一目了然,不用再解释了吧,可见当控制了变量judge3的影响后,judge1和judge2的相关系数值大大降低,但仍然具有统计学意义。
请注意,友好的统计软件界面是会骗人的:偏相关分析和协方差分析一样,里面蕴涵的统计学知识要远比你用统计软件进行操作时感觉到的内容复杂的多,这些分析都具有严格的适用条件,在进行分析之前需要对数据是否满足条件进行考察。
因此进行这些分析前一定要参考有关书籍,并慎重行事。
9.3 Distances过程Distances过程是专门进行距离相关分析用的,由于该方法大多数人用的非常少,里面又涉及到太深的统计原理,这里我只对界面做一解释,就不再深入下去了。
如要用到,请参考有关的多元统计专业书。
【Variables框】用于选入需要进行距离相关分析的变量,至少需要选入两个。
【Label cases by框】选择一个变量用于给各个记录加上标签,可以不选。
【Compute Distances单选框组】其中有两个选择,Between cases表示作变量内部观察值之间的距离相关分析,Between variables表示作变量之间的距离相关分析。
【Measure单选框组】用于选择分析时采用的距离类型:Dissimilarities为不相似性测距,Similarities为相似性测距。
【Measure钮】和前面的Measure单选框组配合使用,单击后弹出Distance:Dissimilarity Measure对话框,用户可根据数据特征选用测距方法:选择Dissimilarities时各种数据类型可用的测距方法有:1、计量资料∙Euclidean distance:以两变量差值平方和的平方根为距离;∙Squared Euclidean distance:以两变量差值平方和为距离;∙Chebychev:以两变量绝对差值的最大值为距离;∙Block:以两变量绝对差值之和为距离;∙Minkowski:以两变量绝对差值p次幂之和的p次根为距离;∙Customized:以两变量绝对差值p次幂之和的r次根为距离。
2、计数资料∙Chi-square measure:χ2值测距;∙Phi-square measure:ψ2值测距,即将χ2测距值除合计频数的平方根。
3、二分类变量∙Euclidean distance:二分差平方和的平方根,最小为0,最大无限;∙Squared Euclidean distance:二分差平方和,最小为0,最大无限;∙Size difference:最小距离为0,最大无限;∙Pattern difference:从0至1的无级测距;∙Variance:以方差为距,最小为0,最大无限;∙Lance and Williams:Bray-Curtis非等距系数,界于0至1之间。
选择Similarities时各种数据类型可用的测距方法有:1、计量资料∙Pearson correlation:以Pearson相关系数为距离;∙Cosine:以变量矢量的余弦值为距离,界于-1至+1之间。
2、二分类变量∙Russell and Rao:以二分点乘积为配对系数;∙Simple matching:以配对数与总对数的比例为配对系数;∙Jaccard:相似比例,分子与分母中的配对数与非配对数给予相同的权重;∙Dice:Dice配对系数,分子与分母中的配对数给予加倍的权重;∙Rogers and Tanimoto:Rogers and Tanimoto配对系数,分母为配对数,分子为非配对数,非配对数给予加倍的权重;∙Sokal and Sneath 1:Sokal and Sneath Ⅰ型配对系数,分母为配对数,分子为非配对数,配对数给予加倍的权重;∙Sokal and Sneath 2:Sokal and Sneath Ⅱ型配对系数,分子与分母均为非配对数,但分子给予加倍的权重;∙Sokal and Sneath 3:Sokal and Sneath Ⅲ型配对系数,分母为配对数,分子为非配对数,分子与分母的权重相同;∙Kulczynski 1:Kulczynski Ⅰ型配对系数,分母为总数与配对数之差,分子为非配对数,分子与分母的权重相同;∙Kulczynski 2:Kulczynski平均条件概率;∙Sokal and Sneath 4:Sokal and Sneath 条件概率;∙Hamann:Hamann概率;∙Lambda:Goodman-Kruskai相似测量的λ值;∙Anderberg's D:以一个变量状态预测另一个变量状态;∙Yule's Y:Yule综合系数,属于2×2四格表的列联比例函数;∙Yule's Q:Goodman-Kruskal γ值,属于2×2四格表的列联比例函数。