对应分析
- 格式:docx
- 大小:563.86 KB
- 文档页数:11
多元统计分析——对应分析多元统计分析是指在研究中同时考虑两个或多个自变量对因变量的影响,并通过统计方法进行分析。
对应分析是多元统计分析的一种方法,用于确定两个或多个分类变量之间的关联性。
对应分析可以帮助人们理解变量之间的相关性,并提供用于可视化和解释数据的工具。
在本文中,我们将详细介绍对应分析的概念、原理、应用以及一些重要的注意事项。
对应分析的应用非常广泛。
它可以用于数据挖掘、市场研究、生态学、社会科学等领域。
在市场研究中,对应分析可以用于确定消费者对产品的喜好和需求,帮助企业调整产品定位和市场战略。
在生态学中,对应分析可以用于研究不同物种之间的相互作用,并帮助我们了解生态系统的结构和动态。
在社会科学中,对应分析可以用于研究不同社会群体之间的关系,例如分析不同年龄段人群的消费行为和购买偏好。
然而,对应分析也需要注意一些重要的事项。
首先,对应分析是一种描述性的分析方法,不能确定因果关系。
其次,对应分析对数据的分布假设了一定的要求,例如对称分布、线性关系等。
如果数据的分布不满足这些假设,结果可能会不准确。
最后,对应分析通常在两个分类变量之间进行,而不适用于连续变量或混合类型的变量。
在总结中,对应分析是多元统计分析的一种方法,用于确定两个或多个分类变量之间的关联性。
它可以帮助我们理解变量之间的相关性,并提供用于可视化和解释数据的工具。
对应分析有着广泛的应用领域,但也需要注意一些重要的事项。
通过理解对应分析的原理和应用,我们可以更好地利用这一方法来分析和解释数据。
对应分析原理
对应分析原理是一种用来确定两个或多个事物之间的对应关系的方法。
它主要包括以下几个步骤:
1. 收集相关数据:首先,需要收集与待分析事物相关的数据。
这些数据可以是各种类型的,比如数字、文字、图像等。
2. 建立对应关系:在收集到足够的数据之后,需要根据数据的特征建立对应关系。
对应关系可以是一对一的,也可以是一对多的。
3. 分析数据特征:根据建立的对应关系,可以对数据的特征进行分析。
可以使用统计学方法、机器学习算法等来识别数据的模式和规律。
4. 验证对应关系:在分析数据特征之后,需要对建立的对应关系进行验证。
可以使用交叉验证、模型评估等方法来验证对应关系的准确性和可靠性。
5. 应用对应关系:最后,根据对应分析的结果,可以应用对应关系来解决实际问题。
比如,可以根据对应关系预测未知数据的属性或进行分类。
通过对应分析原理,我们可以更好地理解不同事物之间的对应关系,从而为实际问题提供科学的解决方案。
无论是在科学研究、工程设计还是商业决策中,对应分析都具有重要的应用价值。
对应分析法一、简介对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,是一种多元统计分析技术,主要分析定性数据的方法,也是强有力的数据图示化技术。
对应分析是一种数据分析技术,它能够帮助我们研究由定性变量构成的交互汇总表来揭示变量间的联系。
交互表的信息以图形的方式展示。
主要适用于有多个类别的定类变量,可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系,适用于两个或多个定类变量。
对应分析是由法国人Benzenci于1970年提出的,起初在法国和日本最为流行,然后引入到美国。
对应分析法是在R型和Q型因子分析的基础上发展起来的一种多元统计分析方法,因此对应分析又称为R-Q型因子分析。
在因子分析中,如果研究的对象是样品,则需采用Q型因子分析;如果研究的对象是变量,则需采用R型因子分析。
但是,这两种分析方法往往是相互对立的,必须分别对样品和变量进行处理。
因此,因子分析对于分析样品的属性和样品之间的内在联系,就比较困难,因为样品的属性是变值,而样品却是固定的。
于是就产生了对应分析法。
对应分析就克服了上述缺点,它综合了R型和Q型因子分析的优点,并将它们统一起来使得由R型的分析结果很容易得到Q型的分析结果,这就克服了Q 型分析计算量大的困难;更重要的是可以把变量和样品的载荷反映在相同的公因子轴上,这样就把变量和样品联系起来便于解释和推断。
对应分析数据的典型格式是列联表或交叉频数表。
常表示不同背景的消费者对若干产品或产品的属性的选择频率。
背景变量或属性变量可以并列使用或单独使用。
两个变量间——简单对应分析;多个变量间——多元对应分析。
对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。
对应分析对应分析的基本思想对应分析( Correspondence Analysis )又称为相应分析,是由法国统计学家于1970提出的,是在R型和Q型因子分析基础上,发展起来的一种多元相依的变量统计分析技术。
它通过分析由定性变量构成的交互汇总表来揭示变量间的关系。
当以变量的一系列类别以及这些类别的分布图来描述变量之间的联系时,使用这一分析技术可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。
对应分析方法是通过对交互表的频数分析来确定变量及其类别之间的关系。
例如,在分析顾客对不同品牌商品的偏好时,可以将商品与顾客的性别、收入水平、职业等进行交叉汇总,汇总表中的每一项数字都代表着某一类顾客喜欢某一品牌的人数,这一人数也就是这类顾客与这一品牌的“对应”点,代表着不同特点的顾客与品牌之间的联系。
通过对应分析,可以把品牌、顾客特点以及它们之间的联系同时反映在一个二维或三维的分布图上,顾客认为比较相似的品牌在图上的分布就会彼此靠近在一起。
根据顾客特点与每一品牌之间的距离,就可以判断它们之间关系的密切程度。
在对应分析中,每个变量的类别差异是通过直观图上的分值距离来表示。
这个距离并不是我们通常所说的距离,而是经过加权的距离,在加权的过程中,以卡方值的差异表现出来。
因此,对应分析的基础是将卡方值转变为可度量的距离。
卡方值是由累计交叉汇总表中每一交互组的实际频数与期望频数的差值计算得出。
如果卡方值是负值,就说明这一单元中实际发生频数低于期望频数。
每一单元格(每个行变量类别与列变量类别在表中的交叉点)频数的期望值取决于它在行分布中所占比例和列分布中所占比例。
如果某一单元格的卡方值是正值,而且数值很大,就说明这一单元格对应的行变量与列变量有很强的对应关系,这两个类别在图上的距离就会很近。
反之,若为负值,则在图上的距离就会远。
总之,对应分析是通过对定性变量构成的交互表进行分析,将定性变量的数据转变成可度量的分值,减少维度并做出分值分布图。
应用多元统计分析第九章对应分析对应分析又称相应分析,于1970年由法国统计学家J.P.Beozecri提出的.它是在R型和Q型因子分析基础上发展起来的多元统计分析方法,故也称为R-Q型因子分析.因子分析方法是用少数几个公共因子去提取研究对象的绝大部分信息,既减少了因子的数目,又把握住了研究对象的相互关系.在因子分析中根据研究对象的不同,分为R型和Q型,如果研究变量间的相互关系时采用R型因子分析;如果研究样品间相互关系时采用Q型因子分析.无论是R型或Q型都未能很好地揭示变量和样品间的双重关系.另方面在处理实际问题中,样本的大小经常是比变量个数多得多.当样品个数n很大(如n>100),进行Q型因子分析时,计算n阶方阵的特征值和特征向量对于微型计算机的容量和速度都是难以胜任的.还有进行数据处理时,为了将数量级相差很大的变量进行比较,常常先对变量作标准化处理,然而这种标准化处理对于变量和样品是非对等的,这给寻找R型和Q型之间的联系带来一定的困难.第九章什么是对应分析对应分析方法是在因子分析的基础上发展起来的,它对原始数据采用适当的标度方法.把R型和Q型分析结合起来,同时得到两方面的结果---在同一因子平面上对变量和样品一块进行分类,从而揭示所研究的样品和变量间的内在联系.对应分析由R 型因子分析的结果,可以很容易地得到Q 型因子分析的结果,这不仅克服样品量大时作Q 型因子分析所带来计算上的困难,且把R 型和Q 型因子分析统一起来,把样品点和变量点同时反映到相同的因子轴上,这就便于我们对研究的对象进行解释和推断. 第九章 对应分析的基本思想由于R 型因子分析和Q 型分析都是反映一个整体的不同侧面,因而它们之间一定存在内在的联系. 对应分析就是通过一个变换后的过渡矩阵Z 将二者有机地结合起来.具体地说,首先给出变量间的协差阵R S =Z'Z 和样品间的协差阵Q S =ZZ' ,由于Z'Z 和ZZ'有相同的非零特征根,记为12...m λλλ≥≥≥,如果R S 的特征根i λ对应的特征向量为i v ,则Q S 的特征根i λ对应的特征向量i u Zv =由此可以很方便地由R 型因子分析而得到Q 型因子分析的结果.对应分析的基本思想由A 的特征根和特征向量即可写出R 型因子分析的因子载荷阵(记为R A )和Q 型因子分析的因子载荷阵(记为Q A ).§9.1 什么是对应分析基本思想由于A和B具有相同的非零特征根,而这些特征根又正是各个公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便对变量点和样品点一起考虑进行分类.第十章典型相关分析相关分析是研究多个变量与多个变量之间的相关关系.如研究两个随机变量之间的相关关系可用简单相关系数表示;研究一个随机变量与多个随机变量之间的相关关系可用全相关系数表示.1936年Hotelling首先将相关分析推广到研究多个随机变量与多个随机变量之间的相关关系,故而产生了典型相关分析,广义相关系数等一些有用的方法.第十章什么是典型相关分析在实际问题中,经常遇到要研究一部分变量和另一部分变量之间的相关关系,例如:在工业中,考察原料的主要质量指标(1,.....,p X X ) 与产品的主要质量指标(1,.....,p Y Y )间的相关性;在经济学中,研究主要肉类的价格与销售量之间的相关性; 在地质学中,为研究岩石形成的成因关系,考察岩石的化学成份与其周围围岩化学成份的相关性;在气象学中为分析预报24小时后天气的可靠程度,研究当天和前一天气象因子间的相关关系;第十章 什么是典型相关分析在教育学中,研究学生在高考的各科成绩与高二年级各主科成绩间的相关关系;在婚姻的研究中,考察小伙子对追求姑娘的主要指标与姑娘想往的小伙子的主要尺度之间的相关关系;在医学中,研究患某种疾病病人的各种症状程度与用科学方法检查的一些结果之间的相关关系;在体育学中,研究运动员的体力测试指标与运动能力指标之间的相关关系等.第十章 什么是典型相关分析一般地,假设有一组变量1,.....,p X X 与另一组变量1,.....,p Y Y (也可以记为1,....,p p q X X ++),我们要研究这两组变量的相关关系,如何给两组变量之间的相关性以数量的描述,这就是本章研究的典型相关分析.当p=q=1时,就是研究两个变量X 与Y 之间的相关关系.简单相关系数是最常见的度量.其定义为第十章 什么是典型相关分析当p ≥ 1 ,q=1时(或 q ≥ 1 , p =1) 设 则称为Y 与(X1,…,Xp) 的全相关系数.其实Y 对X 的回归为1(|)()()Y YX XX X E Y X x def x μμϕ-=+∑∑-且 并称R 为全相关系数 .第十章 什么是典型相关分析当p,q>1时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新变量之间的相关.也就是求α=(α1,…, αp ) '和β =(β1,…, βq ) ' , 使得新变量:V = α1X 1+…+αp X p = α 'X1~(,),0XX XY p YX YY X N Y μσ+∑∑⎛⎫⎛⎫∑∑=> ⎪ ⎪∑⎝⎭⎝⎭1/21YX XX XY YY R σ-⎛⎫∑∑∑= ⎪⎝⎭(,())Y x Rρϕ=W = β1Y 1+…+ βq Y q = β 'Y 之间有最大可能的相关,基于这个思想就产生了典型相关分析(Canonical correlatinal analysis).第十章 总体典型相关设X=(X1,...,Xp )及Y=(Y1,...,Yq)为随机向量(不妨设p ≤q),记随机向量Z 的协差阵为 其中Σ11是X 的协差阵,Σ22是Y 的协差阵,Σ12=Σ’21是X,Y 的协差阵. 第十章 总体典型相关我们用X 和Y 的线性组合V=a X 和W=b Y 之间的相关来研究X 和Y 之间的相关.我们希望找到a 和b,使ρ(V,W) 最大.由相关系数的定义:又已知⎪⎭⎫ ⎝⎛∑∑∑∑=∑22211211第十章总体典型相关故有对任给常数c1,c2,d1,d2,显然有ρ(c1V+d1, c2W+d2)=ρ(V,W)即使得相关系数最大的V=a'X和W=b'X并不唯一.故加附加约束条件 Var(V)=a'Σ11a=1,Var(W)=b'Σ22b=1.问题化为在约束条件Var(V)= 1,Var(W)=1下,求a和b,使得ρ(V,W)= a'Σ12b达最大 .第十章样本典型相关设总体Z=(X1,...,X p,Y1,…,Y q )’.在实际问题中,总体的均值E(Z)= 和协差阵D(Z)= 通常是未知的,因而无法求得总体的典型相关变量和典型相关系数.首先需要根据观测到的样本资料阵对其进行估计.已知总体Z的n个样品:第十章 样本典型相关样本资料阵为若假定Z ~N(μ,∑),则协差阵 的最大似然估 计为第十章 样本典型相关我们从协差阵 的最大似然估计S*(或样本协差阵S)出发,按上节的方法可以导出样本典型相关变量和样本典型相关系数.还可以证明样本典型相关变量和样本典型相关系数是总体典型相关变量和样本典型相关系数的极大似然估计.也可以从样本相关阵R 出发来导出样本典型相关变量和样本典型相关系数.第十章 样本典型相关典型相关系数的显著性检验:总体Z 的两组变量X=(X 1,...,X p )’和Y =(Y 1, …,Y q )’如果不相()()()()1(1,2,...,)t t t p q X Z t n Y +⨯⎛⎫== ⎪⎝⎭'()()11()()nt t t Z Z Z Z def Sn ∧=∑=--∑关,即COV(X,Y )=∑12=0,以上有关两组变量典型相关的讨论就毫无意义.故在讨论两组变量间相关关系之前,应首先对以下假设H 0作统计检验.(1) 检验H 0 : ∑12=0 (即λ1=0)设总体Z ~N p+q (μ,∑).用似然比方法可导出检验H 0的似然比统计量为(A ,A 11,A 22为离差阵)第十章 样本典型相关典型相关系数的显著性检验 (2)检验H 0(i): λi =0 (i =2,...,p )当否定H 0时,表明X,Y 相关,进而可得出至少第一个典型相关系数λ1≠ 0.相应的第一对典型相关变量V 1,W 1可能已经提取了两组变量相关关系的绝大部分信息.在实际问题中,经常迂到需要研究两组多重相关变量间的相互依赖关系,并研究用一组变量(常称为自变量或预测变量)去预测另一组变量(常称为因变量或响应变量),除了最小二乘准则下的经典多元线性回归分析(MLR),提取自变量组主成分的主成分回归分析(PCR)等方11221122||||||A S A A S S Λ==⨯⨯法外,还有近年发展起来的偏最小二乘(PLS)回归方法.第十一章什么是偏最小二乘回归偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。
对应分析对应分析的基本思想对应分析(Correspondence Analysis)又称为相应分析,是由法国统计学家于1970提出的,是在R型和Q型因子分析基础上,发展起来的一种多元相依的变量统计分析技术。
它通过分析由定性变量构成的交互汇总表来揭示变量间的关系。
当以变量的一系列类别以及这些类别的分布图来描述变量之间的联系时,使用这一分析技术可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。
汇总表中分值,1(点))2.主成分(principal components):通过主成分分析,可以在以两个主成分为坐标的空间中,标出行轮廓或列轮廓,或同时标出行、列轮廓,从而探索它们之间的关系。
这种近似的表示行轮廓和列轮廓的图形叫对应图。
3.惯量(inertials)和特征值(eigenvalues):惯量是度量行轮廓和列轮廓的变差的统计量。
总惯量表示轮廓点的全部变差,作图用的前两个维度分别对应于两个主惯量(principal inertias),表示在坐标方向上的变差;主惯量就是对行轮廓和列轮廓作主成分分析时得到的特征值,特征值的平方根叫奇异值(singular values)。
4.卡方(Chi-square)、似然比卡方(likelihood ratio Chi-square)、曼图—汉斯泽鲁卡方(Mantel-Haenszel Chi-square)、法系数(phi-coefficient)、列联系数(contingency coefficient),这些均是检验对应分析显着性或近似效果的统计量。
实例分析[例11-1]某公司进行一次市场调查,得到轿车特征与一些用户特征的数据。
如有:轿车大小(大、中、小)、轿车类型(家用型、跑车、商用车)、收入(一份收入、双份收入)、状态(已婚、已婚有孩子、未婚、未婚有孩子)、房子(租房、买房)等数据。
现请分析它们之间的联系。
以下是spss11.0作出的对应图:从对应图可以推断出下面一些结论:1.已婚有孩子、家用车和中型车相关性较大。
对应分析
对应分析适用于:两个大类(可以看做一个行和一个列)中每个大类的细分指标的相关关系研究。
例如有A和B两大类,A中有A1-A5五个类型,B中有B1-B5五个类型。
研究这些细分类型的相关关系。
首先做卡方检验(行列相关性分析,当P<0.05时,说明行和列中的指标有相关性),然后进行对应分析。
一、进行卡方检验,检验分组之间的相关性。
通过卡方检验,P<0.05。
说明这两组数据间有相关性。
二、对应分析
有两组变量,分别设为行和列;再定义范围,每组有几个小变量就是它的范围。
三、对应分析的卡方检验
通过卡方检验,P<0.05。
说明这两组数据间有相关性
四、分析图
五、结论
1、靠近原点的没有意义。
2、在同一个象限的,趋势相同的,说明有相关性。
3、第四象限:眼深色比其他眼睛颜色而言,头发出现深色和黑色的比例高。
4、第三象限:头发金色比其他颜色而言,眼睛出现浅色和蓝色的比例高。
最优尺度分析
最优尺度分析是对应分析的升级版,适用于:多个大类(大于等与3个大类)中每个大类的细分指标的相关关系研究。
例如有A、B 和C三大类,A中有A1-A5五个类型,B中有B1-B5五个类型,C中有C1-C5五个类型,类型间的相互关系。
对应分析(Correspondence Analysis)在进行数据分析时,经常要研究两个定性变量(品质变量)之间的相关关系。
我们曾经介绍过使用列联表和卡方检验来检验两个品质变量之间相关性的方法,但是该方法存在一定的局限性。
卡方检验只能对两个变量之间是否存在相关性进行检验,而无法衡量两个品质型变量各水平之间的内在联系。
例如,汽车按产品类型可以分豪华型、商务型、节能型、耐用型,按销售区域可分为华北区、华南区、华中区、华东区、西南区、西北区、东北区。
利用卡方检验,只能检验销售地区与对型的偏好之间是否相关,但无法知道不同地区的消费者到底比较偏好哪种车型。
对应分析方法(Correspondence Analysis)又称相应分析、关联分析,是一种多元相依变量统计分析技术,是对两个定性变量(因素)的多种水平之间的对应性进行研究,通过分析由定性变量构成的交互汇总数据来解释变量之间的内在联系。
同时,使用这种分析技术还可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。
特别是当分类变量的层级数比较大时,对应分析可以将列联表中众多的行和列的关系在低维的空间中表示出来。
而且,变量划分的类别越多,这种方法的优势就越明显。
对应分析以两变量的交叉列联表为研究对象,利用“降维”的方法,通过图形的方式,直观揭示变量不同类别之间的联系,特别适合于多分类定性变量的研究。
对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
它最大特点是能把众多的样品和众多的变量同时作到同一张图上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。
另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。
该统计研究技术在市场细分、产品定位、品牌形象以及满意度研究等领域得到了广泛的运用。
对应分析对应分析是指在进行某种事物或情况时,通过对应关系的分析来进行推理、研究或解决问题的方法。
在不涉及AI和人工智能的情况下,对应分析可以应用于各种领域和问题,例如产品定位、市场调研、销售策略等等。
下面将简要介绍对应分析的相关概念和应用。
对应分析是一种基于对应关系的研究方法。
对应关系是指在两个事物、情况或变量之间存在一种相互联系或相互影响的关系。
通过对这种关系进行分析,可以揭示隐藏在数据背后的规律和趋势,帮助人们做出决策和解决问题。
在实际应用中,对应分析可以用于产品定位。
产品定位是指将一种产品或服务与目标市场中其他产品或服务区分开来,使其在市场中具有独特的竞争优势。
通过对目标市场中其他产品的特点和消费者需求进行对应分析,可以找到产品定位的破局点,从而设计出能够满足消费者需求并有竞争力的产品。
另外,对应分析也可以用于市场调研。
市场调研是指通过各种研究方法和技术,对市场中的消费者需求、竞争对手、市场环境等进行调查和分析,为企业的决策提供可靠的数据支持。
通过对消费者需求与产品特点、价格、品牌等进行对应分析,可以了解到消费者的购买动机和购买偏好,进而制定有针对性的市场策略。
此外,对应分析还可以应用于销售策略。
销售策略是指企业通过制定一系列销售计划和策略,以实现销售目标的过程。
通过对销售数据、市场需求和竞争对手等因素进行对应分析,可以找出市场中的机会和挑战,为销售策略的制定提供指导。
总而言之,对应分析是一种揭示数据背后规律和趋势的方法。
通过对数据和情况之间的对应关系进行分析,可以帮助人们做出决策和解决问题。
在产品定位、市场调研和销售策略等方面,对应分析都有重要的应用价值。
对应分析不仅能够帮助企业了解市场需求和消费者偏好,还可以为企业的决策提供科学依据。
日常分析中,经常会做的是研究变量间的关系,对于分类变量,常用的方法是卡方检验、Logistic模型等,但是对于分类变量很多,或者分类变量的类别很多时,用上述方法除了就会非常复杂,并且结果解释起来也不够直观,此时,可以使用对应分析加以分析。
对应分析也称为关联分析,是一种多元统计分析技术,目的在于揭示变量之间或变量各类别之间相互关系的多元统计分析方法,主要特点是可以将众多变量同时呈现在一张图表上,因此也是一种数据图示化技术。
根据分析资料的类型不同,对应分析根据数据资料的不同,分为1.定性资料:基于频数的对应分析2.连续性资料:基于均值的对应分析在定性资料中,对两个分类变量进行的对应分析称为简单对应分析,对两个以上的分类变量进行的对应分析称为多重对应分析。
要注意,对应分析并没有涉及统计检验,只是通过数据变换与计算,得出每个变量在图中的坐标,并加以图表展现,因此对应分析是一种描述性统计方法。
由于对应分析特别适合分类变量、定性数据的分析,加之其在图形展示上的优势,因此在市场分析领域应用很广。
一、对应分析的基本思想由于对应分析最大优势是直观的图形展示,因此确定对应分析图中的坐标值,是该分析方法的主要工作。
对应分析的基本思想是在一个两变量列联表的基础上提取信息,将变量内部各水平之间的联系以及变量与变量之间的联系通过坐标值反映在一张二维或三维的散点图上,并使关系紧密的类别点聚集在一起,而关系疏远的类别点距离较远。
那么如何确定坐标值呢?做法如下:首先计算两变量列联表的概率矩阵P,并据此确定数据点坐标,在变量的类别较多时,数据点所在空间维数必然较高。
由于高维空间比较抽象,且高维空间中的数据点很难直观地表示出来,因此最直接的解决方法便是降维。
对应分析采用类似因子分析的方式分别对行变量类别和列变量类别实施降维,并以因子载荷为坐标,将行列变量的多个分类点直观地表示在对应分布图中,实现了定性变量各类别间差异的量化。
通过观察对应分布图中各数据点的远近就能判断各类别之间联系的强弱。
标签:市场研究统计分析
对应分析是一种多元统计分析技术,主要分析定性数据Category Data方法,也是强有力的数据图示化技术,当然也是强有力的市场研究分析技术。
这里主要介绍大家了解对应分析的基本方法,如何帮助探索数据,分析列联表和卡方的独立性检验,如何解释对应图,当然大家也可以看到如何用SPSS操作对应分析和对数据格式的要求!
对应分析是一种数据分析技术,它能够帮助我们研究由定性变量构成的交互汇总表来揭示变量间的联系。
交互表的信息以图形的方式展示。
主要适用于有多个类别的定类变量,可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。
适用于两个或多个定类变量。
主要应用领域:
∙概念发展(Concept Development)
∙新产品开发 (New Product Development)
∙市场细分 (Market Segmentation)
∙竞争分析 (Competitive Analysis)
∙广告研究 (Advertisement Research)
主要回答以下问题:
∙谁是我的用户?
∙还有谁是我的用户?
∙谁是我竞争对手的用户?
∙相对于我的竞争对手的产品,我的产品的定位如何?
∙与竞争对手有何差异?
∙我还应该开发哪些新产品?
∙对于我的新产品,我应该将目标指向哪些消费者?
数据的格式要求
∙对应分析数据的典型格式是列联表或交叉频数表。
常表示不同背景的消费者对若干产品或产品的属性的选择频率。
背景变量或属性变量可以并列使用或单独使用。
两个变量间——简单对应分析。
多个变量间——多元对应分析。
案例分析:自杀数据分析
上面的交互分析表,主要收集了48961人的自杀方式以及自杀者的性别和年龄数据!POISON(毒药)GAS(煤气)HANG(上吊)DROWN(溺水)GUN(开枪)JUMP(跳楼)(我们就不翻译成中文了,读者可以把六个方式想象成品牌或别的什么)
当然,我们拿到的最初原始数据可能是SPSS数据格式记录表,
其中,性别取值1-male 2-female,年龄取值1-5,分别表示不同年龄段。
要回答的问题是:
1-不同性别的人在选择自杀方式上有什么差别?
2-不同年龄的人在选择自杀方式上有什么差别?
3-不同性别年龄的人在选择自杀方式上有什么差别?
我们首先,把性别字段乘上10加上年龄字段生成新字段sexage,取值是11-15,21-25,然后分别用M/F和年龄组中值代表Sexage字段的变量值标,这样我们就可以进行简单对应分析了!
现在问大家,如果你看到上面的6×10的矩阵-列联表,你能看出什么差异?
现在我们采用SPSS软件进行对应分析!
(我现在用的是SPSS17.0多语言版本,前两天听博易智讯的人说,现在SPSS已经有18.0版本了,不过从对应分析方法角度我还是希望用11.5版本,因为可以自己拆分重新组合修改图形,现在的版本是图片了,不能随心所欲的修改,不爽!)
分别定义好行列变量以及它们的取值范围!
对应分析中,6×10的列联表(交互表)可以得到行列维度最小值减1的维度,我们看到第一维度Dim1解释了列联表的60.4%,第二维度Dim2解释了列联表的33.0%,说明在两个维度上已经能够说明数据的93.4%,这是比较理想的,当然我们也可以看卡方检验等!
下面我们主要解释如何解读对应图(小蚊子的博客中也有非常相似的解释,我非常欣赏他的博客)
首先对SPSS分析得到的对应图进行修饰和编辑,在零点增加两条中线!
解读方法:
1-总体观察:
我们从图上左右可以看出,左边全部是M*,男性,右边F*全部是女性,说明男女有显著差异;同时看横轴中线上方都是年龄大的,下面都是年龄小的,说明年龄有差异;这样就一目了然看出和回答了前两个问题;
2-观察邻近区域
我们从图上可以看出,老的男性比较喜欢HANG,GAS和GUN是年轻男性的偏好;老的女性比较喜欢DAWN,年轻的女性比较偏好POISON;
3-向量分析——偏好排序
我们可以从中心向任意点连线-向量,例如从中心向GUN做向量,然后让所有的人往这条向量及延长线上作垂线,垂点越靠近向量正向的表示越偏好这种方法。
记住:是垂点到GUN正向排名,从图中我们可以看出,希望GUN方法的人依次是M15、M30、M45、M60、M80、F15等等;依次类推,我们还可以从中心向任意一种方法作垂线,都可以排出每种方法选择人群的偏好次序;当然,你也可以从中心往所有的人作向量,得到每一类人在选择六种方法上的偏好排名!
你是否可以看出,F15年轻的女性对六个“品牌”的偏好吗?
4-向量的夹角——余弦定理
接着,我们可以从向量夹角的角度看不同方法或不同人之间的相似情况,从余弦定理的角度看相似性!
从图上我们可以看出,当我们从中心向任意两个点(相同类别)做向量的时候,夹角是锐角的话表示两个方法具有相似性,锐角越小越相似;也就是说,GUN和GAS是相似品牌,当如也是竞争品牌,也具有替代性,如果这次开枪没有自杀成功,下次他一定选择毒气啦;我们也看出F15和F30的人比较相似,但F15与M80就有非常大的差异了,因为如果作向量他们是钝角,几乎是平角了!
5-从距离中的位置看:越靠近中心,越没有特征,越远离中心,说明特征越明显
从这张对应图中我们看到,有些点远离中心,有些点靠近中心,这说明什么呢?从几何空间的角度,如果我对每一人都一样的好,在规范图上我就应该站在大家的重心,也就是中心;这说明越靠近中心的点,越没有差异,(记住:没有差异并不代表不重要,只是没有差异,因为统计的技术是研究差异的技术,差异越大往往重要性就大!),越远离中心特征越明显,也就是说,如果听到一个M80的人自杀了,估计你就会想到是不是HANG啦!
从品牌角度思考,说明越远离中的的品牌,消费者很容易识别,说明品牌特征(特色、特点)明显,越靠近中心的品牌,
消费者不易识别,也说明你的品牌定位没有显著可识别的特征,没有差异认知!
6-坐标轴定义和象限分析
我们还没有定义坐标轴呢?从第一点的分析,其实我们很快就可以定义坐标轴的含义了!(当然有时候对应图的座位是非常难定义的)
因此,落在第四象限的是年轻的女性所喜欢的品牌!
7-产品定位:理想点与反理想点模型
我们可以在图上以POISON为定位点,以POISON为圆心,以它的利益为半径画圆,那么我们可以得出这样的结论:越先圈进来的人就是最喜欢这个品牌的消费群,越先圈进来的品牌越可能是竞争品牌;当然,你也可以以某类人作为圆心,同意解读;如果POISON是市场不存在的,在调查中可以设定为理想点,这样我们就可以得到理想点模型,同理也可以得到反理想点模型分析!
8-市场细分和定位
最后,研究人员可以根据前面的分析和自身市场状况,进行市场细分,找到目标消费群,然后定位进行分析!最终选择不同的目标市场制定有针对性的营销策略和市场投放!
我们也可以尝试采用多元对应分析,但不如简单对应分析有意义!
简单对应分析的优点:
定性变量划分的类别越多,这种方法的优势越明显,揭示行变量类别间与列变量类别间的联系,将类别联系直观地表现在二维图形中(对应图),可以将名义变量或次序变量转变为间距变量。
简单对应分析的缺点:不能用于相关关系的假设检验,维度要由研究者决定,有时候对应图解释比较困难,对极端值比较敏感。