第八章 相关分析
- 格式:ppt
- 大小:863.50 KB
- 文档页数:61
第8章 相关分析相关分析(Correlations)是研究两个变量间。
或一个变量与多个变量间,或多个变量两两变量间,或两组变量间,或多个变量组与组之间密切程度的一种常用统计学方法。
变量间的密切程度常用相关系数(Correlation Coefficients)或统计量描述。
SAS /Win(v8)系统非编程有如下5种相关量度(Correlation Measure)。
(1)Pearson product-moment correlation ,皮尔逊积矩相关分析。
(2)Spearman coefficients ,斯皮尔曼相关系数s r(3)Cronbach ’coefficient alpha ,克龙巴哈系数α(4)Kendall ’s tan –b coefficient ,肯德尔b τ系数。
(5)Hoeffding ’s D statistic ,霍夫丁D 统计量。
同时将输出变量的简单统计量(Simple Statistics),相关系数(Correlation Coefficients),相应的P 值与图形(P1ots)等。
8-1皮尔逊积矩相关分析[例8-1] 已知5-6岁儿童体检数据的指标为编号(1x ),性别(2x ),月龄(3x ),体重(4x ,kg),身高(5x ,cm),坐高(6x ,cm),胸围(7x ,cm),头围(8x ,cm),左眼视力(9x )与右眼视力(10x ),并已建立SAS 数据集SASUSER.child 。
试对体重(4x )与身高(5x )做皮尔逊(Pearson)相关分析。
(1)进入SAS /Win(V8)系统,单击So1utions->Analysis->Analyst ,进入分析家窗口。
(2)单击File->open By SAS Name->Sasuser->Child->OK ,调入SAS 数据集SASUSER.child(3)单击statistics->Descriptive->correlations ,得到图8-1所示对话框。
第八章方差分析与相关分析一.方差分析1.基本概念方差分析的概念:比较组间方差是否可以用组内方差来进行解释,从而判断若干组样本是否来自同一总体。
方差分析,又称为ANOVA(Analysis Of Variance)分析。
方差分析可以一次检验多组样本,避免了t检验一次只能比较两组的缺陷。
方差分析只能反映出各组样本中存在着差异,但具体是哪一组样本存在差异,无法进行判定。
考察下列例子:某厂使用四种不同颜色对产品进行包装,经过在五个城市的试销,获得销售数据如下(单观察数据的列平均值,列平均值的差异反映出不同颜色包装的销售业绩差异。
此时,需要判断这种差异与同一颜色包装在不同城市间的差异相比,是否显著。
如果不显著,则这种2.方差分析原理计算观察值的组间方差和组内方差,并计算两者的比值,如果该比值比较小,说明组间方差与组内方差比较接近,组间方差可以用组内方差来解释,从而说明组间差异不存在。
●●建立原假设“H0:各组平均数相等”●●构造统计量“F=组间方差/组内方差”●●在计算组间方差时,使用自由度为(r-1),计算组内方差时,使用自由度为(n-r)。
●●F满足第一自由度为(r-1),第二自由度为(n-r)的F分布。
●●查表,若F值大于0.05临界值,则拒绝原假设,认为各组平均数存在差异。
根据方差计算的原理,生成方差分析表如下:其中:组间离差平方和 SSA (Sum of Squares for factor A) =39.084误差项离差平方和 SSE (Sum of Squares for Error) =76.8455总离差平方和 SST (Sum of Squares for Total)=115.9295P-value值为0.000466,小于0.05,所以拒绝原假设。
3.双因素方差分析观察下列销售数据,欲了解包装方式和销售地区是否对于销售业绩有影响,涉及到双因素的方差分析。
此时需分别计算SSA、SSB与SSE之间的比值是否超过临界值。
第八章相关分析一、单项选择⒈当自变量按必然数量转变时,因变量也相应随之而等量转变,这时两个变量之间存在着( )①直线相关关系;②曲线相关关系;③负相关关系;④正相关关系。
⒉当变量x值增加时,变量y值随之下降,那x和y两个变量之间存在着( ) ①正相关关系;②负相关关系;③曲线相关关系;④直线相关关系。
⒊假设变量x值减少,而变量y值却增加,那么变量x与变量y之间存在着( )①直线相关关系;②正相关关系;③曲线相关关系;④负相关关系。
⒋圆的面积与半径间存在着( )①相关关系;②因果关系;③函数关系;④比较关系。
⒌若是变量x和变量y之间的相关系数为-1,这说明两变量之间是( ) ①高度相关关系;②完全相关关系;③低度相关关系;④完全不相关。
⒍相关分析和回归分析相较,对变量的性质要求是不同的。
回归分析中要求( )①自变量是给定的,因变量是随机的; ②两个变量都是非随机的; ③两个变量都是随机的; ④以上三个都不对。
⒎若是变量x和变量y之间的相关系数为1,那么说明两个变量之间是( ) ①完全不相关;②高度相关关系;③完全相关关系;④低度相关关系。
⒏相关关系中,两个变量的关系是对等的,从而变量x对变量y的相关,同变量y对变量x的相关( )①完全不同;②有联系但不一样;③是同一问题;④不必然相同。
⒐已知某工厂甲产品产量和生产本钱有直接关系,在这条直线上,当产量为1000时,其生产本钱为30000元,其中不随产量转变的本钱为6000元,那么本钱总额对产量的回归方程是( )①y=6000+24x ;②y=6+;③y=24000+6x ;④y=24+6000x 。
⒑已知)(∑-x x 2是)(∑-y y 2的两倍,并已知)(∑-x x ·)(y y -是)(∑-y y 2的倍,那么相关系数r为( ) ①不能计算;②;③22.1;④22.1。
⒒在相关分析中,要求相关的两个变量( ) ①都是随机变量; ②都不是随机变量;③其中因变量是随机变量; ④其中自变量是随机变量。
第8章相关关系分析在数据分析中,相关关系是一种重要的统计技术,用于确定两个或多个变量之间的关联程度。
相关关系分析帮助我们了解变量之间的关系,以及它们对彼此的影响。
在本章中,我们将介绍相关关系分析的基本概念和方法,并探讨其在实际问题中的应用。
1.相关系数相关关系分析的核心是计算相关系数,它用于衡量两个变量之间的关联程度。
常用的相关系数包括皮尔逊相关系数、斯皮尔曼相关系数和判定系数等。
皮尔逊相关系数是最常用的相关系数,用于衡量两个连续变量之间的线性关系。
它的取值范围为-1到1之间,-1表示完全负相关,1表示完全正相关,0表示无相关关系。
斯皮尔曼相关系数适用于两个有序变量之间的关联分析,它不要求变量呈线性关系。
判定系数则用于衡量相关系数的解释能力,它的取值范围为0到1之间,数值越接近1表示相关关系的解释能力越强。
2.相关关系的检验在进行相关关系分析时,我们需要对相关系数进行显著性检验,以确定变量之间的关联是否真实存在。
常用的方法包括假设检验和置信区间估计。
假设检验用于判断相关系数是否显著不等于0,从而确定相关关系是否存在。
在进行假设检验时,我们需要设立原假设和备择假设,并通过计算p值来进行判断。
一般而言,当p值小于显著性水平(通常为0.05)时,我们可以拒绝原假设,认为相关关系存在。
置信区间估计用于确定相关系数的置信区间,从而提供有关相关关系范围的估计。
置信区间是对相关系数的不确定性进行估计的一种方法,一般取置信水平为95%。
3.相关关系的应用相关关系分析在实际问题中具有广泛的应用。
以下列举几个常见的应用场景:-市场营销:通过分析产品价格与销量的相关关系,帮助企业确定最合适的价格策略。
-金融投资:通过分析股票收益率之间的相关关系,帮助投资者进行风险评估和投资决策。
-医学研究:通过分析患者生活方式和患病风险的相关关系,帮助医生制定个性化的预防和治疗方案。
-企业管理:通过分析员工满意度与工作绩效之间的相关关系,帮助企业改善管理策略和营造良好的工作环境。
第8章 相关分析5. 相位互相关除了上面介绍的相关方式,还存在一种称为相位互相关的算法,它的理论基本是Fourier 变换的延迟特性和互相关特性,笔者在下面只以连续函数的形式对相位互相关进行简单说明,读者可以自己去推导相应的离散表达式。
5.1 定义假设有两个函数)(t x 和)(t y ,并存在)()(0t t x t y +=的关系,+F 为正向Fourier 变换算子,那么有:⎪⎩⎪⎨⎧⋅=⋅=+++)()()]([)()]([020f Y f X r F e f X t t x F xy ft j τπ (8-17) 其中,dt t y t x r xy ⎰+∞∞-+=)()()(ττ。
00222)()()()]([ft j ft j xy e f X e f X f X r F ππτ⋅=⋅⋅=+ (8-18)如果只保留公式(8-18)中的相位信息,那么可以得到由相位信息构造的互相关函数: )()(ˆ)()()()()](ˆ[020t t r f Y f X f Y f X e rF xy ft j xy +=⋅⋅==+δττπ (8-19)从公式(8-19)可以看出:无论是在频域,还是逆向变换到时域,都可以利用相位互相关函数计算出延迟量0t ,这就是相位互相关的基本概念,相位互相关是度量两个函数之间相关性的又一种方法。
相位互相关的计算结果不再体现原信号中的信息,如周期、幅值等参数,只保留了两个信号的相对延迟量的信息。
仅从理论角度来考虑,上面的推导会让读者感觉一维相位互相关是一种能够很好体现函数相关性的度量方法;但上面的推导过程是在理想情况下进行的,当函数)(t x 是窄带信号时,在某些频率段上会出现0)(=f X 的情况,就无法利用公式(8-19)中的除法来计算相位分布,从而会在相关结果中产生较大的偏差。
在进行信号处理的时候,经常遇到的是窄带信号,所以使用相位互相关算法的时候要谨慎处理0)(=f X 的情况。
第8章 相关分析6. 最大互相关方法(MCC)除了上面介绍的各种相关分析方法,还存在一种称为最大互相关方法(MCC :Maximum Cross Correlation)的算法。
MCC 算法是非常传统的算法,在许多文献中都有提及,其特性和缺陷也在许多文献中有所讨论。
MCC 算法是一种基于互相关系数,取决于两张图片相似性的模板匹配算法,国内外研究人员在极区海冰漂移分析和海洋表面流场分析中经常使用该方法,因为前面的举例中笔者已经列举了极区海冰漂移分析结果,笔者后面列举的算例中提供MCC 算法在海表流场中的遥感分析应用。
6.1 MCC 原理MCC 计算过程可用图8-14表示。
A :源模块B :诊断窗口C :位移矢量图8-14 MCC 计算过程简略图解 假定),(1n j m i I ++,2/2/M m M <≤-、2/2/N n N <≤-表示图8-14-A 中中心位置在(i ,j )、形状大小为M ×N 的图像块每一个点的数值(如图像灰度值),对应的),(2n l j m k i I ++++表示图8-14-B 中中心位置在(i+k ,j+l )、形状大小为M ×N 的图像块每一个点的数值。
源模块和目标模块之间的相似性可以用如下公式(8-34)的互相关系数量化表示出来:∑∑∑∑∑∑--=--=--=--=--=--=++-++++⨯-++++-++++⨯-++=1221222221221222111221222211)],(),([)],(),([)],(),([)],(),([),(M M m N N n M M m N N n M M m N N n l j k i I n l j m k i Ij i I n j m i I l j k i I n l j m k i I j i I n j m i I l k r (8-34) 上式中,),(1j i I 表示图8-14-A 中中心位置在(i ,j )的选定的源模块范围的平均值,),(2l j k i I ++表示图8-14-B 中中心位置在(i+k ,j+l )的选定的目标模块范围的平均值。