第8章 相关分析
- 格式:doc
- 大小:1.12 MB
- 文档页数:4
第8章 相关分析2. 离散相关与离散序列的卷积运算一样,离散序列的相关运算也可以分为线性相关和循环相关两种类型。
2.1 基本定义线性相互关的计算对应公式(8-1)的离散化形式,计算离散序列][n x 和][n y 的线性互相关,可得:∑+∞-∞=+⋅=i xy n i y i x n r ][][][ (8-6)对有限长度的离散序列][n x ,1,1,0-=L n 、][n y ,1,1,0-=P n ,且二者的长度分别为L 和P 。
那么,有如下公式成立:∑--=+⋅=nP i xy n i y i x n r 10][][][ (8-7)当P n i ≥+时,0][=+n i y ,所以公式(8-7)中的求和上限为n P --1。
因为序列][n r xy 下标n 的取值范围为:11-≤≤-P n M ,所以与线性卷积的长度一样,序列][n x 和][n y 的线性互相关序列的最大长度也是1-+P L 。
与离散Fourier 变换的相关特性对应的是循环相关(或称圆周相关),循环互相关的定义已在第二章中出现过,笔者在下面重新书写一遍。
∑-=+⋅=10])[(][][N i N xy n i y i x n r (8-8)其中,N n i )(+表示)(n i +除以N 的余数,][n r xy 下标n 的取值范围为:2/2/N n N <≤-。
可以利用循环相关来计算两个序列的线性相关,只是要对原有序列进行补零处理。
把长度为L 的序列][n x 和长度为P 的序列][n y 补零后拓展序列长度为N 的新序列][n x 和][n y ,只要满足1-+≥P L N ,两个新序列的循环相关就等同于原有两个序列的线性相关。
与连续函数的互相关函数一样,互相关序列][n r xy 既不是偶序列,也不是奇序列,但满足等式:][][n N r n r yx xy -=。
2.2 快速算法计算两个长度相等的序列的循环相关时,如果直接采用公式(8-8)的定义,计算量是非常大的,尤其在N 较大的情况下。
第八章方差分析与相关分析一.方差分析1.基本概念方差分析的概念:比较组间方差是否可以用组内方差来进行解释,从而判断若干组样本是否来自同一总体。
方差分析,又称为ANOVA(Analysis Of Variance)分析。
方差分析可以一次检验多组样本,避免了t检验一次只能比较两组的缺陷。
方差分析只能反映出各组样本中存在着差异,但具体是哪一组样本存在差异,无法进行判定。
考察下列例子:某厂使用四种不同颜色对产品进行包装,经过在五个城市的试销,获得销售数据如下(单观察数据的列平均值,列平均值的差异反映出不同颜色包装的销售业绩差异。
此时,需要判断这种差异与同一颜色包装在不同城市间的差异相比,是否显著。
如果不显著,则这种2.方差分析原理计算观察值的组间方差和组内方差,并计算两者的比值,如果该比值比较小,说明组间方差与组内方差比较接近,组间方差可以用组内方差来解释,从而说明组间差异不存在。
●●建立原假设“H0:各组平均数相等”●●构造统计量“F=组间方差/组内方差”●●在计算组间方差时,使用自由度为(r-1),计算组内方差时,使用自由度为(n-r)。
●●F满足第一自由度为(r-1),第二自由度为(n-r)的F分布。
●●查表,若F值大于0.05临界值,则拒绝原假设,认为各组平均数存在差异。
根据方差计算的原理,生成方差分析表如下:其中:组间离差平方和 SSA (Sum of Squares for factor A) =39.084误差项离差平方和 SSE (Sum of Squares for Error) =76.8455总离差平方和 SST (Sum of Squares for Total)=115.9295P-value值为0.000466,小于0.05,所以拒绝原假设。
3.双因素方差分析观察下列销售数据,欲了解包装方式和销售地区是否对于销售业绩有影响,涉及到双因素的方差分析。
此时需分别计算SSA、SSB与SSE之间的比值是否超过临界值。
第八章 相关分析与回归分析习题参考答案一、名词解释函数关系:函数关系亦称确定性关系,是指变量(现象)之间存在的严格确定的依存关系。
在这种关系中,当一个或几个相互联系的变量取一定的数值时,必定有另一个且只有一个变量有确定的值与之对应。
相关关系:是指变量(现象)之间存在着非严格、不确定的依存关系。
在这种关系中,当一个或几个相互联系的变量取一定的数值时,可以有另一变量的若干数值与之相对应。
这种关系不能用完全确定的函数来表示。
相关分析:相关分析主要是研究两个或者两个以上随机变量之间相互依存关系的方向和密切程度的方法,直线相关用相关系数表示,曲线相关用相关指数表示,多元相关用复相关系数表示。
回归分析:回归分析是研究某一随机变量关于另一个(或多个)非随机变量之间数量关系变动趋势的方法。
其目的在于根据已知非随机变量来估计和预测随机变量的总体均值。
单相关:单相关是指仅涉及两个变量的相关关系。
复相关:复相关是指一个变量对两个或者两个以上其他变量的相关关系。
正相关:正相关是指两个变量的变化方向是一致的,当一个变量的值增加(或减少)时,另一变量的值也随之增加(或减少)。
负相关:负相关是指两个变量的变化方向相反,即当一个变量的值增加(或减少)时,另一个变量的值会随之减少(或增加)。
线性相关:如果相关的两个变量对应值在直角坐标系中的散点图近似呈一条直线,则称为线性相关。
非线性相关:如果相关的两个变量对应值在直角坐标系中的散点图近似呈现出某种曲线形式,则为非线性相关。
相关系数:相关系数是衡量变量之间线性相关密切程度及相关方向的统计分析指标。
取值在-1到1之间。
两个变量之间的简单样本相关系数的计算公式为:()()niix x y y r --∑二、单项选择1.B;2.D;3.D;4.C;5.A;6.D 。
三、判断题(正确的打“√”,错误的打“×”) 1.×; 2.×; 3.√; 4.×; 5.×; 6.×; 7.×; 8.√. 四、简答题1、什么是相关关系?相关关系与函数关系有什么区别?答:相关关系,是指变量(现象)之间存在着非严格、不确定的依存关系。
第8章 相关分析
相关分析(Correlations)是研究两个变量间。
或一个变量与多个变量间,或多个变量两两
变量间,或两组变量间,或多个变量组与组之间密切程度的一种常用统计学方法。
变量间的密切程度常用相关系数(Correlation Coefficients)或统计量描述。
SAS /Win(v8)系统非编程有如下5种相关量度(Correlation Measure)。
(1)Pearson product-moment correlation ,皮尔逊积矩相关分析。
(2)Spearman coefficients ,斯皮尔曼相关系数s r
(3)Cronbach ’coefficient alpha ,克龙巴哈系数α
(4)Kendall ’s tan –b coefficient ,肯德尔b τ系数。
(5)Hoeffding ’s D statistic ,霍夫丁D 统计量。
同时将输出变量的简单统计量(Simple Statistics),相关系数(Correlation Coefficients),相
应的P 值与图形(P1ots)等。
8-1皮尔逊积矩相关分析
[例8-1] 已知5-6岁儿童体检数据的指标为编号(1x ),性别(2x ),月龄(3x ),体重(4x ,
kg),身高(5x ,cm),坐高(6x ,cm),胸围(7x ,cm),头围(8x ,cm),左眼视力(9x )与右眼视力(10x ),并已建立SAS 数据集SASUSER.child 。
试对体重(4x )与身高(5x )做皮尔逊(Pearson)相关分析。
(1)进入SAS /Win(V8)系统,单击So1utions->Analysis->Analyst ,进入分析家窗口。
(2)单击File->open By SAS Name->Sasuser->Child->OK ,调入SAS 数据集
SASUSER.child
(3)单击statistics->Descriptive->correlations ,得到图8-1所示对话框。
本例相关分析的变
量为4x ,5x 。
拖曳待选变量4x ,5x 到Correlate(相关变量)框。
图8-l Correlations :Child(相关分析)对话框
图8-1的右下方有如下5个备选项。
Options ,选择项。
Plots ,图形。
Save Data ,保存数据。
Titles ,标题。
Variables ,变量。
(1) 单击OK->Options ,得到图8-2所示对话框。
图8-2 Correlations:Options(选择项)对话框
在Correlations: Options对话框中有如下选项区
Correlation types, 相关分析类型。
Pearson, 皮尔逊积矩相关分析
r
Spearman, 斯皮尔曼相关系数
s
Cronbach's alpha, 克龙巴哈系数α。
τ系数
Kendall's tau-b, 肯德尔
b
Hoeffding's D, 霍夫丁D统计量‘
Pearson options, 皮尔逊积矩相关分析。
Covariances, 协方差
CSSCP matrix, 经均数校正的平方和及交叉积矩阵。
SSCP matrix, 平方和及交叉积矩阵。
)
Print, 打印(显示)
P-values, P值
Descriptive statistics, 描述性统计量
Correlation format, 相关分析结果的输出格式
Rectangular table, 长方形表。
Highest to lowest, 从高到低的格式
Exclude missing values, 剔除缺失值
Pairwise, 配对剔除
Listwise, 串列剔除
(5)单击OK按钮,返回图8-1所示对话框。
单击P1ots按钮,得到图8-3所示对话框。
在图8-3中可以进行如下设置。
Types of plots,图形的类型。
Scatter plots,散点图。
Add confidence ellipses,对散点图加置信椭圆。
Confidence ellipses options,置信椭圆。
Probability value:0.95,概率值(用户可任选)。
图8-3 Correlations:P1ots(图形)对话框
(6)单击OK按钮,返回图8-1所示对话框。
单击Save Data按钮,得到图8-4所示对话框。
在Correlations data set (相关分析数据集的保存)选项区可进行如下设置。
Save correlations,保存相关分析结果。
Add correlations,加相关系数。
Add covariance,加协方差。
6
Add sum of squares &products,加平方和与交叉积。
图8-4 Correlations:Save Data(保存数据)对话框
(7)单击OK按钮,返回图8-1所示对话框,单击Titles按钮,得到图8-5所示对话框。
Titles(标题)对话框有如下3个标签(本例未选择)。
Global,全局性的标题
Correlations,相关分析的标题。
Settings,设置标题。
图8-5 Titles(标题)对话框
(8)单击OK按钮,返回图8-1所示对话框。
单击V ariables按钮,得到图8-6所示对话框。
在Correlations:Variables对话框可进行如下设置(本例未选择)。
Weight,权重。
Frequency ,频数。
By Group ,按组分。
Partial ,偏相关分析变量。
图8-6 Correlations :Variables(变量)对话框
(9)单击OK 按钮,返回图8-1所示对话框。
单击OK 按钮,得到如下数值结果。
图形结果 如图8-7所示。
(10)由于在图8-2中选择了长方形相关分析表因此得到图8-8所示结果
结果分析与讨论
(1)本例的皮尔逊相关系数r =0.8261318097,P <0.0001。
相关有显著性意义。
(2)带置信椭圆的散点图(见图8-7,置信度为95%)表明,大部分散点落在椭圆内,或落在边界线上,只有2个散点在椭圆之外。
(3)如果在图8-6的By Group(按组分)选择性别1x (1x =1为男孩,2x =2为女孩),而其余选择同上,可以得到图8-9所示结果。
可见,体重与身高男孩的相关系数1r =0.8643091327大于女孩的相关系数2r =0.798621605。
图8-9 长方形相关分析表(1x =1为男孩,2x =2为女孩)。