统计学课件:列联表和对应分析
- 格式:ppt
- 大小:1.03 MB
- 文档页数:33
1.对应分析对应分析表(A correspondence table)是一个两维表(two-way table),表中的单元包含行变量和列表量之间对应测度的一些信息。
所谓的对应测度(The measure of correspondence),可以表明行变量或列变量之间的近似程度(similarity)、密切关系(affinity)、复杂关系(confusion)、关联程度(association)或交互作用(interaction)。
交叉列联表(a crosstabulation)是对应分析表中最普通的一种类型,该表中的单元格包含频数(计数)。
利用SPSS中的列联表分析也可以得到交叉列联表,但是交叉列联表并不总是能够清晰地刻画出行变量和列变量之间的本质关系。
当我们所感兴趣的变量是名义变量(没有内在的次序或秩序)同时还包含很多类型时,这种问题尤其突出。
一个有关职业和早餐谷类食品的交叉列联表,也许能够告诉我们观测单元频数和期望频数是否存在显著差异,但是它很难识别出从事何种职业的人们喜欢哪种类似的早餐食品,同时也很难对早餐口味进行归类。
利用多维空间图形,对应分析可以分析两个名义变量之间的关系。
这种图形称为对应分析图,是利用计算出来的行变量和列变量得分而绘制的。
变量中相似的类型在图形中比较接近,因此通过这种方法可以很容易看出某个变量的哪些类型和其它类型相似,也可以分析出行变量和列变量的哪些类型存在相关性。
SPSS的对应分析方法还容许用辅助点(supplementary points)对根据活动点定义出的空间进行拟合。
如果没有办法根据类型的得分排序,或者这种排序与我们的直觉不相符,那么可以设定某些类型的得分相同,实际上就是对类型的次序设定限定条件。
比如说,我们预期变量“吸烟行为”有四个类型:不吸烟、少量吸烟、适度吸烟和大量吸烟,每一类型都有对应于次序的得分,但是对应分析对这四个类型进行排序时,可以限定适度吸烟和大量吸烟的得分相同。
对应分析对应分析的基本思想对应分析( Correspondence Analysis )又称为相应分析,是由法国统计学家于1970提出的,是在R型和Q型因子分析基础上,发展起来的一种多元相依的变量统计分析技术。
它通过分析由定性变量构成的交互汇总表来揭示变量间的关系。
当以变量的一系列类别以及这些类别的分布图来描述变量之间的联系时,使用这一分析技术可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。
对应分析方法是通过对交互表的频数分析来确定变量及其类别之间的关系。
例如,在分析顾客对不同品牌商品的偏好时,可以将商品与顾客的性别、收入水平、职业等进行交叉汇总,汇总表中的每一项数字都代表着某一类顾客喜欢某一品牌的人数,这一人数也就是这类顾客与这一品牌的“对应”点,代表着不同特点的顾客与品牌之间的联系。
通过对应分析,可以把品牌、顾客特点以及它们之间的联系同时反映在一个二维或三维的分布图上,顾客认为比较相似的品牌在图上的分布就会彼此靠近在一起。
根据顾客特点与每一品牌之间的距离,就可以判断它们之间关系的密切程度。
在对应分析中,每个变量的类别差异是通过直观图上的分值距离来表示。
这个距离并不是我们通常所说的距离,而是经过加权的距离,在加权的过程中,以卡方值的差异表现出来。
因此,对应分析的基础是将卡方值转变为可度量的距离。
卡方值是由累计交叉汇总表中每一交互组的实际频数与期望频数的差值计算得出。
如果卡方值是负值,就说明这一单元中实际发生频数低于期望频数。
每一单元格(每个行变量类别与列变量类别在表中的交叉点)频数的期望值取决于它在行分布中所占比例和列分布中所占比例。
如果某一单元格的卡方值是正值,而且数值很大,就说明这一单元格对应的行变量与列变量有很强的对应关系,这两个类别在图上的距离就会很近。
反之,若为负值,则在图上的距离就会远。
总之,对应分析是通过对定性变量构成的交互表进行分析,将定性变量的数据转变成可度量的分值,减少维度并做出分值分布图。
对应分析问题1:分析列联表中属性之间的相关关系。
对应分析是列联表的一类加权主分量分析,用于寻求列联表的行于列之间的低维图形表示法。
看一个例子:我们从生物学中的一个“梯度分析”问题谈起。
设我们需要了解若干地区的干湿度和若干草类的喜湿性。
现对某n个地区是否生长p种不同草类的情况作了调查,得到一个列联表K,希望通过这一调查表对着各个地区的干湿度和各草类的喜湿性作一估计。
设列联表为其中j i j i k ij 不生长草类在地区生长草类在地区⎩⎨⎧=01经典的梯度分析方法是:先对p 种草类喜湿性作出估计p r r r ,,,21 ,然后用加权平均的方法得到关于各个地区干湿度的估计n i k r k s pj i j ij i ,,2,1,1 =∝∑=⋅反之,如果先对各个地区的干湿度作出估计n s s s ,,,21 ,然后用同样的方法得到关于各种草类喜湿性的估计p j k s k r ni j i ij j ,,2,1,1 =∝∑=⋅但是,如何先对草类的喜湿性或先对地区的干湿性进行估计就是一个难题,除非根据其他资料,否则无法仅从这个列联表出发,无论先估计那一个都会带有主观性,这就是经典梯度分析存在的一个问题。
是否有一个办法,从这张列联表出发能客观地同时把两者估计出来?应该是可能的,因为各个地区的干湿度是由各种喜湿性草类是否在该地区生长反映出来,而且草的喜湿性又是通过它在什么样的干湿度的地区生长反应出来,两者相互依赖,应从两者相互依赖中求解出各种量的估计。
为此我们来注意上述两式及它们之间的联系。
先引进一些矩阵的记号:)()(ij p n k K =⨯,{}⋅⋅=n n k k diag D ,,1 ,{}p p k k diag D ⋅⋅=,,1又记向量)',,(1n s s s =,)',,(1p r r r =,则前面的两式可表示为Kr D s n1-∝, s K D r p'1-∝其中∝表示“成比例于”。
对应分析对应分析的基本思想对应分析(Correspondence Analysis)又称为相应分析,是由法国统计学家于1970提出的,是在R型和Q型因子分析基础上,发展起来的一种多元相依的变量统计分析技术。
它通过分析由定性变量构成的交互汇总表来揭示变量间的关系。
当以变量的一系列类别以及这些类别的分布图来描述变量之间的联系时,使用这一分析技术可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。
汇总表中分值,1(点))2.主成分(principal components):通过主成分分析,可以在以两个主成分为坐标的空间中,标出行轮廓或列轮廓,或同时标出行、列轮廓,从而探索它们之间的关系。
这种近似的表示行轮廓和列轮廓的图形叫对应图。
3.惯量(inertials)和特征值(eigenvalues):惯量是度量行轮廓和列轮廓的变差的统计量。
总惯量表示轮廓点的全部变差,作图用的前两个维度分别对应于两个主惯量(principal inertias),表示在坐标方向上的变差;主惯量就是对行轮廓和列轮廓作主成分分析时得到的特征值,特征值的平方根叫奇异值(singular values)。
4.卡方(Chi-square)、似然比卡方(likelihood ratio Chi-square)、曼图—汉斯泽鲁卡方(Mantel-Haenszel Chi-square)、法系数(phi-coefficient)、列联系数(contingency coefficient),这些均是检验对应分析显着性或近似效果的统计量。
实例分析[例11-1]某公司进行一次市场调查,得到轿车特征与一些用户特征的数据。
如有:轿车大小(大、中、小)、轿车类型(家用型、跑车、商用车)、收入(一份收入、双份收入)、状态(已婚、已婚有孩子、未婚、未婚有孩子)、房子(租房、买房)等数据。
现请分析它们之间的联系。
以下是spss11.0作出的对应图:从对应图可以推断出下面一些结论:1.已婚有孩子、家用车和中型车相关性较大。