对应分析
- 格式:doc
- 大小:509.50 KB
- 文档页数:10
对应分析数据一、背景介绍在当今信息爆炸的时代,大量的数据被生成和收集,为了更好地理解和利用这些数据,对数据进行对应分析是非常重要的。
对应分析是一种统计方法,用于研究两组数据之间的关系和相互作用。
通过对数据进行对应分析,我们可以发现数据中的模式、趋势和相关性,从而为决策提供有价值的信息。
二、对应分析的定义和原理对应分析(Correspondence Analysis,简称CA)是一种多变量数据分析方法,它通过将高维数据映射到低维空间中,从而揭示数据之间的关系。
对应分析的原理基于数学上的奇异值分解(Singular Value Decomposition,简称SVD)和特征值分解(Eigenvalue Decomposition),通过计算数据矩阵的特征值和特征向量,将数据在低维空间中进行降维和可视化。
三、对应分析的步骤和方法1. 数据预处理:对数据进行清洗和标准化,去除异常值和缺失值,并将数据转换为适合对应分析的格式。
2. 计算数据矩阵:根据数据的特点,构建数据矩阵,其中行表示样本或观测对象,列表示变量或属性。
3. 计算对应分析的结果:通过对数据矩阵进行奇异值分解或特征值分解,得到对应分析的结果,包括特征值、特征向量和对应坐标。
4. 解释和解读结果:根据对应分析的结果,进行可视化和解释,发现数据中的模式、趋势和相关性,并提取有用的信息。
5. 结果验证和应用:对对应分析的结果进行验证和应用,评估模型的准确性和可靠性,并将结果应用于实际问题的决策和优化。
四、对应分析的应用领域对应分析广泛应用于各个领域,包括市场调研、消费者行为、社会科学、生物学、医学等。
以下是对应分析在几个典型领域的应用示例:1. 市场调研:通过对应分析,可以分析不同产品或品牌在市场中的位置和竞争关系,帮助企业制定市场策略和推广计划。
2. 消费者行为:对应分析可以帮助分析消费者对不同产品或服务的偏好和关联性,为企业提供精准的市场定位和产品定价策略。
对应分析数据一、概述对应分析数据是一种数据分析方法,用于研究两个或者多个变量之间的关系。
通过对数据进行对应分析,可以揭示变量之间的相关性,并匡助我们理解数据暗地里的模式和趋势。
本文将介绍对应分析数据的基本概念、步骤和应用场景。
二、基本概念1. 对应分析对应分析是一种多元数据分析方法,它通过将多个变量映射到一个低维空间中,从而揭示变量之间的关系。
对应分析可以匡助我们发现数据中的结构和模式,进而进行更深入的分析。
2. 对应图对应图是对应分析结果的可视化表示。
对应图通常是一个二维平面图,其中每一个数据点表示一个观测值,不同的颜色或者符号表示不同的组别或者类别。
通过观察对应图,我们可以看到数据点之间的关系和趋势。
三、步骤对应分析数据的步骤如下:1. 数据准备首先,需要准备要进行对应分析的数据。
数据可以是任何类型的,可以是定量数据(如数值)或者定性数据(如类别)。
确保数据的质量和完整性非常重要。
2. 数据标准化对应分析需要对数据进行标准化,以消除不同变量之间的量纲差异。
常用的标准化方法包括Z-score标准化和归一化等。
3. 计算对应分析利用对应分析的算法,对标准化后的数据进行计算,得到对应分析的结果。
对应分析的算法有多种,常用的包括主成份分析(PCA)和多维尺度分析(MDS)等。
4. 绘制对应图将对应分析的结果绘制成对应图,以便更直观地观察数据之间的关系和趋势。
对应图可以通过各种数据可视化工具来实现,如散点图、气泡图等。
5. 解读对应图通过观察对应图,我们可以解读数据之间的关系和趋势。
可以观察数据点的分布情况、类别之间的距离和相对位置等。
根据对应图的结果,可以进一步进行数据分析和决策。
四、应用场景对应分析数据在各个领域都有广泛的应用,以下列举几个常见的应用场景:1. 市场调研对应分析数据可以匡助市场调研人员了解不同产品或者品牌之间的关系和竞争状况。
通过对应分析,可以发现市场中的潜在细分市场和目标客户群体。
对应分析原理
对应分析原理是一种用来确定两个或多个事物之间的对应关系的方法。
它主要包括以下几个步骤:
1. 收集相关数据:首先,需要收集与待分析事物相关的数据。
这些数据可以是各种类型的,比如数字、文字、图像等。
2. 建立对应关系:在收集到足够的数据之后,需要根据数据的特征建立对应关系。
对应关系可以是一对一的,也可以是一对多的。
3. 分析数据特征:根据建立的对应关系,可以对数据的特征进行分析。
可以使用统计学方法、机器学习算法等来识别数据的模式和规律。
4. 验证对应关系:在分析数据特征之后,需要对建立的对应关系进行验证。
可以使用交叉验证、模型评估等方法来验证对应关系的准确性和可靠性。
5. 应用对应关系:最后,根据对应分析的结果,可以应用对应关系来解决实际问题。
比如,可以根据对应关系预测未知数据的属性或进行分类。
通过对应分析原理,我们可以更好地理解不同事物之间的对应关系,从而为实际问题提供科学的解决方案。
无论是在科学研究、工程设计还是商业决策中,对应分析都具有重要的应用价值。
对应分析法一、简介对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,是一种多元统计分析技术,主要分析定性数据的方法,也是强有力的数据图示化技术。
对应分析是一种数据分析技术,它能够帮助我们研究由定性变量构成的交互汇总表来揭示变量间的联系。
交互表的信息以图形的方式展示。
主要适用于有多个类别的定类变量,可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系,适用于两个或多个定类变量。
对应分析是由法国人Benzenci于1970年提出的,起初在法国和日本最为流行,然后引入到美国。
对应分析法是在R型和Q型因子分析的基础上发展起来的一种多元统计分析方法,因此对应分析又称为R-Q型因子分析。
在因子分析中,如果研究的对象是样品,则需采用Q型因子分析;如果研究的对象是变量,则需采用R型因子分析。
但是,这两种分析方法往往是相互对立的,必须分别对样品和变量进行处理。
因此,因子分析对于分析样品的属性和样品之间的内在联系,就比较困难,因为样品的属性是变值,而样品却是固定的。
于是就产生了对应分析法。
对应分析就克服了上述缺点,它综合了R型和Q型因子分析的优点,并将它们统一起来使得由R型的分析结果很容易得到Q型的分析结果,这就克服了Q 型分析计算量大的困难;更重要的是可以把变量和样品的载荷反映在相同的公因子轴上,这样就把变量和样品联系起来便于解释和推断。
对应分析数据的典型格式是列联表或交叉频数表。
常表示不同背景的消费者对若干产品或产品的属性的选择频率。
背景变量或属性变量可以并列使用或单独使用。
两个变量间——简单对应分析;多个变量间——多元对应分析。
对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。
首先选取了数据如下:欲分析该省这么多年各种产业生产总值的特征以及该省每一年的人口数与每一年各产业生产总值之间的关系。
一、对应分析对应分析又称为相应分析,是一种多元相依变量统计分析技术。
通过分析由属性变量构成的交互汇总数据来解释变量之间的内在联系。
同时,使用这种技术,还可以揭示同一变量的各个类别之间的差异及不同变量各个类别之间的对应关系。
而且变量划分的类别越多,这种方法就越明显。
对应分析的过程由两部分组成:表格和关联图。
对应分析中的表格是一个二维表格,由行和列构成。
每一行代表事物的一个属性,依次排开。
列则代表不同的事物本身,它由样本集合构成,排列顺序没有特别要求。
在关联图上,各个样品都浓缩为一个点集合,而样品的属性变量在图上同样也是以点集合的形式显示出来。
对应分析的基本思想就是利用降维的思想,通过分析原始数据结构,对一个列联表中的行与列同时进行处理。
它的最大特点就是可以在同一张图上同时表示出两类属性变量的各种状态,以直观、明了的方式揭示属性变量之间及属性变量各种状态之间的相互关系。
另外,对应分析还省去了公因子的选取和因子旋转等复杂的数学运算及中间过程,可以从因子载荷图上对事物进行分类,而且能够揭示分类的主要参数及依据。
具体实验步骤:(1)数据录入:打开SPSS文件,按顺序:文件——新建——数据打开一个空白数据文件,首先进行变量的编辑,点击在SPSS变量视图中建立变量“人口数”、“产业”、“数值”分别表示“全省户籍人口”、“生产总值情况”和“数据的权重”。
“人口数”为数值变量,分别将每年该省的户籍人口数赋值为“1”、“2”、“3”、“4”.....“24”。
“生产总值情况”为名义变量,分别将“农业生产总值”、“工业生产总值”、“建筑业生产总值”、“第三产业生产总值”赋值为“1”、“2”、“3”、“4”。
如图所示:在SPSS活动数据文件的数据视图中,把相关数据输入到各个变量中。
(2)打开数据文件,进入SPSS Statistics 数据编辑器窗口,在菜单栏中选择“数据——加权个案”命令,将变量“数值”选入加权个案,单击“确定”按钮。
对应分析对应分析的基本思想对应分析(Correspondence Analysis)又称为相应分析,是由法国统计学家于1970提出的,是在R型和Q型因子分析基础上,发展起来的一种多元相依的变量统计分析技术。
它通过分析由定性变量构成的交互汇总表来揭示变量间的关系。
当以变量的一系列类别以及这些类别的分布图来描述变量之间的联系时,使用这一分析技术可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。
汇总表中分值,1(点))2.主成分(principal components):通过主成分分析,可以在以两个主成分为坐标的空间中,标出行轮廓或列轮廓,或同时标出行、列轮廓,从而探索它们之间的关系。
这种近似的表示行轮廓和列轮廓的图形叫对应图。
3.惯量(inertials)和特征值(eigenvalues):惯量是度量行轮廓和列轮廓的变差的统计量。
总惯量表示轮廓点的全部变差,作图用的前两个维度分别对应于两个主惯量(principal inertias),表示在坐标方向上的变差;主惯量就是对行轮廓和列轮廓作主成分分析时得到的特征值,特征值的平方根叫奇异值(singular values)。
4.卡方(Chi-square)、似然比卡方(likelihood ratio Chi-square)、曼图—汉斯泽鲁卡方(Mantel-Haenszel Chi-square)、法系数(phi-coefficient)、列联系数(contingency coefficient),这些均是检验对应分析显着性或近似效果的统计量。
实例分析[例11-1]某公司进行一次市场调查,得到轿车特征与一些用户特征的数据。
如有:轿车大小(大、中、小)、轿车类型(家用型、跑车、商用车)、收入(一份收入、双份收入)、状态(已婚、已婚有孩子、未婚、未婚有孩子)、房子(租房、买房)等数据。
现请分析它们之间的联系。
以下是spss11.0作出的对应图:从对应图可以推断出下面一些结论:1.已婚有孩子、家用车和中型车相关性较大。
对应分析
对应分析适用于:两个大类(可以看做一个行和一个列)中每个大类的细分指标的相关关系研究。
例如有A和B两大类,A中有A1-A5五个类型,B中有B1-B5五个类型。
研究这些细分类型的相关关系。
首先做卡方检验(行列相关性分析,当P<0.05时,说明行和列中的指标有相关性),然后进行对应分析。
一、进行卡方检验,检验分组之间的相关性。
通过卡方检验,P<0.05。
说明这两组数据间有相关性。
二、对应分析
有两组变量,分别设为行和列;再定义范围,每组有几个小变量就是它的范围。
三、对应分析的卡方检验
通过卡方检验,P<0.05。
说明这两组数据间有相关性
四、分析图
五、结论
1、靠近原点的没有意义。
2、在同一个象限的,趋势相同的,说明有相关性。
3、第四象限:眼深色比其他眼睛颜色而言,头发出现深色和黑色的比例高。
4、第三象限:头发金色比其他颜色而言,眼睛出现浅色和蓝色的比例高。
最优尺度分析
最优尺度分析是对应分析的升级版,适用于:多个大类(大于等与3个大类)中每个大类的细分指标的相关关系研究。
例如有A、B 和C三大类,A中有A1-A5五个类型,B中有B1-B5五个类型,C中有C1-C5五个类型,类型间的相互关系。
对应分析(Correspondence Analysis)在进行数据分析时,经常要研究两个定性变量(品质变量)之间的相关关系。
我们曾经介绍过使用列联表和卡方检验来检验两个品质变量之间相关性的方法,但是该方法存在一定的局限性。
卡方检验只能对两个变量之间是否存在相关性进行检验,而无法衡量两个品质型变量各水平之间的内在联系。
例如,汽车按产品类型可以分豪华型、商务型、节能型、耐用型,按销售区域可分为华北区、华南区、华中区、华东区、西南区、西北区、东北区。
利用卡方检验,只能检验销售地区与对型的偏好之间是否相关,但无法知道不同地区的消费者到底比较偏好哪种车型。
对应分析方法(Correspondence Analysis)又称相应分析、关联分析,是一种多元相依变量统计分析技术,是对两个定性变量(因素)的多种水平之间的对应性进行研究,通过分析由定性变量构成的交互汇总数据来解释变量之间的内在联系。
同时,使用这种分析技术还可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。
特别是当分类变量的层级数比较大时,对应分析可以将列联表中众多的行和列的关系在低维的空间中表示出来。
而且,变量划分的类别越多,这种方法的优势就越明显。
对应分析以两变量的交叉列联表为研究对象,利用“降维”的方法,通过图形的方式,直观揭示变量不同类别之间的联系,特别适合于多分类定性变量的研究。
对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
它最大特点是能把众多的样品和众多的变量同时作到同一张图上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。
另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。
该统计研究技术在市场细分、产品定位、品牌形象以及满意度研究等领域得到了广泛的运用。
对应分析对应分析是指在进行某种事物或情况时,通过对应关系的分析来进行推理、研究或解决问题的方法。
在不涉及AI和人工智能的情况下,对应分析可以应用于各种领域和问题,例如产品定位、市场调研、销售策略等等。
下面将简要介绍对应分析的相关概念和应用。
对应分析是一种基于对应关系的研究方法。
对应关系是指在两个事物、情况或变量之间存在一种相互联系或相互影响的关系。
通过对这种关系进行分析,可以揭示隐藏在数据背后的规律和趋势,帮助人们做出决策和解决问题。
在实际应用中,对应分析可以用于产品定位。
产品定位是指将一种产品或服务与目标市场中其他产品或服务区分开来,使其在市场中具有独特的竞争优势。
通过对目标市场中其他产品的特点和消费者需求进行对应分析,可以找到产品定位的破局点,从而设计出能够满足消费者需求并有竞争力的产品。
另外,对应分析也可以用于市场调研。
市场调研是指通过各种研究方法和技术,对市场中的消费者需求、竞争对手、市场环境等进行调查和分析,为企业的决策提供可靠的数据支持。
通过对消费者需求与产品特点、价格、品牌等进行对应分析,可以了解到消费者的购买动机和购买偏好,进而制定有针对性的市场策略。
此外,对应分析还可以应用于销售策略。
销售策略是指企业通过制定一系列销售计划和策略,以实现销售目标的过程。
通过对销售数据、市场需求和竞争对手等因素进行对应分析,可以找出市场中的机会和挑战,为销售策略的制定提供指导。
总而言之,对应分析是一种揭示数据背后规律和趋势的方法。
通过对数据和情况之间的对应关系进行分析,可以帮助人们做出决策和解决问题。
在产品定位、市场调研和销售策略等方面,对应分析都有重要的应用价值。
对应分析不仅能够帮助企业了解市场需求和消费者偏好,还可以为企业的决策提供科学依据。
对应分析练习题一.对应分析的思想方法及特点(一)对应分析的基本思想及特点对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。
另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。
(二)对应分析方法的优缺点1.定性变量划分的类别越多,这种方法的优越性越明显2.揭示行变量类间与列变量类间的联系3.将类别的联系直观地表现在图形中4.不能用于相关关系的假设检验5.维数有研究者自定6.受极端值的影响二.对应分析中的总惯量总惯量不仅反映了行剖面集定义的各点与其重心加权距离的总和,同时与2 统计量仅相差一个常数,而统计量反映了列联表横联与纵联的相关关系,因此总惯量也反映了两个属性变量各状态之间的相关关系。
对应分析就是在对总惯量信息损失最小的前提下,简化数据结构以反映两属性变量之间的相关关系。
三.对应分析具体案例1.搜集5387位中学生眼睛颜色与头发颜色的调查数据,应用对应分析比较两变量的关系2.对数据进行预处理,以频数变量进行加权:分析-降维-对应分析3.结果分析(1)对应分析反映的是眼睛颜色和头发颜色不同组合下的实际样本数(2)对应分析摘要维度=最小分类数(眼睛颜色数)-1,前两个维度就解释了99.6%的信息。
(3)对应分析坐标值及贡献值质量栏表示各种类别的构成比,维中的得分栏表示个类别在相关维度上的评分,惯量栏给出了总惯量在行变量中的分解情况,数值越大表示该类别对惯量的贡献越大。
深色、蓝色、浅色都主要分布在第一维度上,棕色主要分在第二维度上,总计表示各唯独的信息比例之和,可见红色这一类别在前两位中只提出80.3%的信息,效果最差。
日常分析中,经常会做的是研究变量间的关系,对于分类变量,常用的方法是卡方检验、Logistic模型等,但是对于分类变量很多,或者分类变量的类别很多时,用上述方法除了就会非常复杂,并且结果解释起来也不够直观,此时,可以使用对应分析加以分析。
对应分析也称为关联分析,是一种多元统计分析技术,目的在于揭示变量之间或变量各类别之间相互关系的多元统计分析方法,主要特点是可以将众多变量同时呈现在一张图表上,因此也是一种数据图示化技术。
根据分析资料的类型不同,对应分析根据数据资料的不同,分为1.定性资料:基于频数的对应分析2.连续性资料:基于均值的对应分析在定性资料中,对两个分类变量进行的对应分析称为简单对应分析,对两个以上的分类变量进行的对应分析称为多重对应分析。
要注意,对应分析并没有涉及统计检验,只是通过数据变换与计算,得出每个变量在图中的坐标,并加以图表展现,因此对应分析是一种描述性统计方法。
由于对应分析特别适合分类变量、定性数据的分析,加之其在图形展示上的优势,因此在市场分析领域应用很广。
一、对应分析的基本思想由于对应分析最大优势是直观的图形展示,因此确定对应分析图中的坐标值,是该分析方法的主要工作。
对应分析的基本思想是在一个两变量列联表的基础上提取信息,将变量内部各水平之间的联系以及变量与变量之间的联系通过坐标值反映在一张二维或三维的散点图上,并使关系紧密的类别点聚集在一起,而关系疏远的类别点距离较远。
那么如何确定坐标值呢?做法如下:首先计算两变量列联表的概率矩阵P,并据此确定数据点坐标,在变量的类别较多时,数据点所在空间维数必然较高。
由于高维空间比较抽象,且高维空间中的数据点很难直观地表示出来,因此最直接的解决方法便是降维。
对应分析采用类似因子分析的方式分别对行变量类别和列变量类别实施降维,并以因子载荷为坐标,将行列变量的多个分类点直观地表示在对应分布图中,实现了定性变量各类别间差异的量化。
通过观察对应分布图中各数据点的远近就能判断各类别之间联系的强弱。
第九章对应分析(一)教学目的通过本章的学习,对对应分析有一个全面地认识,理解对应分析的基本思想和基本原理,掌握用聚类分析解决实际问题的能力。
(二)基本要求了解对应分析的定义,理解对应分析方法的方法和原理,掌握对应分析的计算步骤。
(三)教学要点1、对应分析的定义和基本思想;2、对应分析方法的原理;3、R型因子分析和Q型因子分析的对应关系;4、对应分析方法及计算步骤;(四)教学时数3课时(五)教学内容1、对应分析的基本思想;2、对应分析方法的方法和原理;我们知道,主成分分析、因子分析都是研究多维变量之间相互的关系。
但在某些实际问题中,既要研究变量之间的关系,还需要研究样品之间的关系。
不仅如此,人们往往还希望能够在同一个直角坐标系内直观地同时表达变量和样品之间的相互关系。
为实现这一目的就需要进行对应分析。
对应分析能够提供变量之间,样品之间以及变量和样品之间相互关系的信息。
第一节对应分析的基本思想一、什么是对应分析对应分析(correspondence analysis)又称为相应分析,是一种目的在于揭示变量和样品之间或者定性变量资料中变量与其类别之间的相互关系的多元统计分析方法。
根据分析资料的类型不同,对应分析分为定性资料(分类资料)的对应分析和连续性资料的对应分析(基于均数的对应分析)。
其中,根据分析变量个数的多少,定性资料的对应分析又分为简单对应分析和多重对应分析。
对两个分类变量进行的对应分析称为简单对应分析,对两个以上的分类变量进行的对应分析称为多重对应分析。
一般认为对应分析起源于20世纪30~20世纪40年代的一批互相独立的文献如Richardson 和Kuder(1933)、Hirshfeld(1935)、Horst(1935)、Fisher(1940)、Cuttman (1941)等,很难说哪位统计学家是该方法的真正作者,但所有方法的基本原理是相同的。
这里主要介绍的是1970年由Beozecri提出的主要是用于连续性资料分析的对应分析方法。
对应分析实际是在R型因子分析和Q型因子分析的基础上发展起来的一种方法。
因子分析可以用最少的几个公共因子去提取研究对象的绝大部分信息,既减少了因子的数目,还把握住了研究对象间的相互关系。
因子分析有R型因子分析和Q型因子分析两种类型,R型因子分析是将变量转换为变量因子,其实质是对变量进行降维和消除相关性,变量因子的个数小于或等于变量的个数,并且变量因子之间不相关。
Q型因子分析是将样品转换为样品因子,其实质是对样品进行降维和消除相关性,样品因子的个数小于或等于样品的个数,并且样品因子之间不相关。
但是,因子分析也有其局限性:一是,R型因子分析和Q型因子分析是分开进行的。
当研究的对象是变量时,通常作R型因子分析,当研究的对象是样品时,则采用Q型因子分析,而且把R型和Q型看成两种分离的概念,无法使R型和Q型因子分析同时进行,这样将R型和Q型割裂开后就会损失很多有用的信息,而且还不能揭示指标与样品之间的相关信息。
二是,在处理实际问题中,样品容量往往较大,使Q型因子分析的计算量非常巨大,比如有100个样品,就要计算100×100阶矩阵的特征根和特征向量,这对于一般小型计算机的容量和速度都是难以胜任的。
三是,在进行数据处理时,为了将数量级相差很大的变量进行比较,需要对变量进行标准化处理,然而这种只按照变量列进行的标准化处理对于变量和样品是非对等的,这给寻找R型因子分析和Q型因子分析的联系带来—定的困难。
对应分析就是为了克服因子分析的上述不足而发展起来的。
对应分析将R型因子分析和Q型因子分析结合起来进行统计分析,它是从R型因子分析出发,而直接获得Q型因子分析的结果。
克服了由于样品容量大,进行Q型因子分析带来的计算上的困难。
另外根据对原始数据进行规格化处理,找出R型因子分析和Q型因子分析的内在联系,可将变量和样品同时反映到相同坐标轴的一张图形上,便于对问题的分析和解释。
对应分析的重要输出结果之一在于,把变量与样品同时反映到相同坐标轴(因子轴)的一张图形上,结合计算结果,在绘出的图形上能够直观地观察变量之间的关系、样品之间的关系以及变量与样品之间的对应关系。
为此也有人认为,对应分析的实质是将变量、样品的交叉表变换成为一张散点图,从而将表格中包含的变量、样品的关联信息用各散点空间位置关系的形式表现出来。
随着计算机软件的应用,对应分析的方法在社会科学和自然科学领域都有着广泛的应用价值。
特别是近年来在市场调查与研究中,有关市场细分、产品定位、品牌形象以及满意度研究等领域正得到越来越广泛的重视和应用。
二、对应分析的基本思想对应分析的关键是利用一种数据变换,使含有p 个变量n 个样品的原始数据矩阵,变换成为一个过渡矩阵Z ,并通过矩阵Z 将R 型因子分析和Q 型因子分析有机地结合起来。
具体地说,首先给出进行R 型因子分析时变量点的协差阵Z Z A '=和进行Q 型因子分析时样品点的协差阵Z Z B '=,由于Z Z '和Z Z '有相同的非零特征根,记为m λλλ≥≥≥ 21,),min(0n p m ≤<,依据证明,如果A 的特征根i λ对应的特征向量为i U ,则B 的特征根i λ对应的特征向量就是i i V ZU ∆,根据这个结论就可以很方便地借助R 型因子分析而得到Q 型因子分析的结果。
因为求出A 的特征根和特征向量后很容易地写出变量点协差阵对应的因子载荷矩阵,记为F 。
则⎪⎪⎪⎪⎪⎭⎫⎝⎛=m pm p p m m m m u u u u u u u u u F λλλλλλλλλ 221122221211212111 这样,利用关系式i i V ZU ∆也很容易地写出样品点协差阵B 对应的因子载荷阵,记为G 。
则⎪⎪⎪⎪⎪⎭⎫⎝⎛=m nm n n m m m m v v v v v v v v v G λλλλλλλλλ 221122221211212111 从分析结果的展示上,由于A 和B 具有相同的非零特征根,而这些特征根正是公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便显示出变量点和样品点之间的相互关系,并且可以一并考虑进行分类分析。
第二节 对应分析方法的方法和原理一、对原始数据规格变换,使R 型和Q 型因子分析有机结合在以往的对实际问题的统计分析中,若变量值的量纲不同以及数量级相差很大时,通常先将对变量作标准化的处理,然而这种对变量进行的标准化处理是按各个变量列进行的,并没有考虑到样品之间的差异,对于变量和样品而言是非对等的,为了使之具有对等性,以便将R 型因子分析和Q 型因子分析建立起联系,就需将原始数据阵)(ij x X =变换成矩阵)(ij z Z =,即将ij x 变换成ij z 之后,ij z 应满足使变量和样品具有对等性,并且能够通过ij z 把R 型因子分析和Q 型因子分析的联系建立起来。
具体数据矩阵Z 是按照如下的方法变换得到的,即......i j i j ij ij x x x x x x z -=其中,∑==pj iji xx 1. ∑==ni ijj xx 1. ∑∑==ij ijxx T ..这一数据变换,实际是根据在列联表上进行独立性检验时,计算2χ统计量的方法所启发得到的。
2χ统计量的计算公式是:∑∑⎪⎪⎭⎫⎝⎛-=i jj i j i ijn n n nn n n ..2..2χ为了便于理解上述的数据变换,下面给出进一步的解释。
设有n 个样品,每个样品有p 项指标,原始资料阵为:⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x x x x x X212222111211假定矩阵X 的元素0>ij x ,否则对所有的数据同加上一个适当的数,便可满足这个要求,然后写出X 的行和、列和总和,分别记为j i x x ..,和..x 。
其中,∑==j iji xx 1. ∑==ni ijj xx 1. ∑∑==ijijxx T ..。
这里把..x 记为T ,用它去除矩阵X 的每一个元素,相当于改变了测度尺度,使变量与样品具有相同比例大小,即Tx x x p ij ij ij =∆..,显然10<<ij p ,且1=∑∑ijijp,因而ij P 可解释为“概率”,这样得到一个规格化的“概率”矩阵p n ij p P ⨯=)(。
类似地可写出P 阵的行和、列和,分别记为j i p p ..,。
其中∑==j iji pp 1.,∑=niijj pp .。
(一)对于R 型因子分析的情况如果将n 个样品,看成是p 维空间的点,则其n 个点的坐标用⎪⎪⎭⎫⎝⎛..2.1i ip i i i i p p p p p p ,,,(n i ,, 1=)表示,称为n 个样品点。
这实际是用各变量在该样品中的相对比例来表示的一种常见的方法,这样对n 个样品之间相互关系的研究就可转化为对n 个样品点的相对关系的研究。
如果要对样品分类,就可用样品点的距离远近来刻划了。
若引入欧氏距离则任两个样品点k 与l 之间的欧氏距离为∑=-=pj l lj k kj p p p p l k D 12..2)(),(为进一步消除各变量的数量级的不同,如第k 个变量有较大的数量级,在计算距离时就会抬高这个变量的作用尺度差异的影响。
所以再用系数jp .1去乘距离公式就得到一个加权的距离公式,有∑=-=pj j l lj k kj p p p p p l k D 1.2..2*)(),(21....∑=⎪⎪⎭⎫ ⎝⎛-=pj l j lj k j kjp p p p p p 上式也可以说是坐标为⎪⎪⎭⎫⎝⎛...2.2.1.1,,,i p ipi i i i p p p p p p p p pn i ,,1 = 的n 个样品点中两个样品点k 与l 之间的距离。
更进一步的,把各个样品点的坐标写出来,实际上也可以得到概率加权后的样品点的数据矩阵为,⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛p p np p n p n p p p pp p p p p p p pp p p p p p p p p p p p p p p p p p p ..2..21..1..222..2221..221..112..1121..111通过计算两两样品点或两两变量点之间的距离,可对样品点或变量点进行分类,但这样做还不能用图表示出来。
为了更直观地表示变量点和样品点之间的关系,采用R 型因子分析的处理方法时,就需要根据上述的数据矩阵给出变量点协差阵的定义。
为此先给上述数据矩阵中第i 个变量的均值为,j jj niij ji ni i j ij p p p p p p p p p (1)..1===∑∑=p j ,,1 =这里不是求算术平均,而是按概率.i p 进行加权,可以验证上式的结果不仅是诸样品平均点坐标,恰好也是各变量的平均值。