对应分析spss例析
- 格式:docx
- 大小:21.00 KB
- 文档页数:4
例说SPSS统计分析H时,2χ服从自由度为(n-1)(m-1)的2χ明,在n足够大的情况下,当原假设为分布。
通过对2χ的检验,可以判断两个分类变量是否独立,而当拒绝原假设后,要了解两个分类变量及分类变量各个状态之间的相关关系,可以采用对应分析方法。
对应分析利用降维思想,通过分析原始数据结构,以简洁明了的方式揭示属性变量之间及属性变量各种状态之间的相互关系,其特点是在一张二维图上同时表示出两类属性变量的各种状态,直观地描述原始数据结构。
11.2 对应分析的基本操作下面以SPSS 15为例,介绍对应分析的基本操作流程。
首先单击“Analyze”下“Data Reduction”里的“Correspondence Analysis”,指定行列变量到“Row(Column)”列表框里,并指定对应的行列变量范围,如图11-1所示。
图11-1 对应分析基本操作流程图11.3 对应分析的应用举例对某公司不同职业类型的人员吸烟行为进行调查,共调查有效数据193例,如表11-3所示。
被调查者职业分为5个层次,分别为高级管理者、初级管理者、高级职员、初级职员和文秘,表中用数字1~5表示;吸烟行为分为4种类型,分别为不吸烟、轻微、中等和严重,利用数字1~4表示。
利用对应分析研究职业类型和吸烟行为之间的关系。
(数据来源:SPSS15帮助实例文件smoking.sav)。
表11-3 吸烟行为和职业调查数据职业类型吸烟行为人数职业类型吸烟行为人数1 1 4 3 3 121 2 2 3 4 41 3 3 4 1 181 42 4 2 242 1 4 43 332 234 4 132 3 7 5 1 102 4 4 5 2 63 1 25 5 3 73 2 10 54 2执行〖Analyze〗/〖Data Reduction〗/〖Correspondece Analysis〗命令,弹出“Correspondece Analysis”主对话框,如图11-2所示。
一、实验目的及要求:1、目的用SPSS软件实现对应分析、联合分析及其应用。
2、内容及要求用SPSS自带数据GSS93 subset.sav分析父亲受教育程度和本人受教育程度的关系,母亲受教育程度和本人受教育程度之间的关系以及父亲、母亲受教育程度之间的关系。
二、实验方法与步骤:利用SPSS对GSS93 subset.sav数据进行对应分析,依次点选分析→降维→对应分析,进入对应分析对话框,做如下图所示的设置,得到所需要的结论。
三、实验结果与数据处理:父亲受教育程度和本人受教育程度的关系:表5-1 对应表R's Highest Degree Father's Highest DegreeLT High School High School Junior College Bachelor Graduate 有效边际Less than HS 156 27 1 6 3 193 High school 308 248 11 43 22 632 Junior college 29 34 2 7 3 75 Bachelor 45 79 8 47 27 206 Graduate 25 37 3 18 16 99 有效边际563 425 25 121 71 1205 表5-1对应表(Correspondence Table)是由原始数据按Degree与Padeg分类的列联表,可以看到观测总数n=1205而不是原始数据观测个数1500,这是因为原始数据中有295条记录有缺失。
表5-2 行简要表R’s Highest Degree Father’s Highest DegreeLT High School High School Junior College Bachelor Graduate 有效边际Less than HS .808 .140 .005 .031 .016 1.000 High school .487 .392 .017 .068 .035 1.000 Junior college .387 .453 .027 .093 .040 1.000 Bachelor .218 .383 .039 .228 .131 1.000 Graduate .253 .374 .030 .182 .162 1.000 质量.467 .353 .021 .100 .059表5-3 列简要表R's Highest Degree Father's Highest DegreeLT High School High School Junior College Bachelor Graduate 质量Less than HS .277 .064 .040 .050 .042 .160 High school .547 .584 .440 .355 .310 .524 Junior college .052 .080 .080 .058 .042 .062 Bachelor .080 .186 .320 .388 .380 .171 Graduate .044 .087 .120 .149 .225 .082 有效边际 1.000 1.000 1.000 1.000 1.000表5-2 行简要表和表5-3 列简要表为在统计量(Statistics)对话框中选择行轮廓表(Row profiles)和列轮廓表(Column profiles)交由程序运行的结果。
对应分析1、作用对应分析,又称为 R-Q 型因子分析,适用于有多个类别的分类变量,可以揭示同一个变量各个类别之间的差异,以及不同变量各个类别之间的对应关系,与卡方检验不同的是,对应分析不单单展示了不同分组的差异性,也能通过 2 维、3 维的方式展示其在空间的关系。
2、输入输出描述输入:至少两项或以上的定类变量。
输出:两个定类变量里面不同分组的空间关系与差异性。
3、案例示例案例:检验不同收入的消费者对品牌的选择的距离。
4、案例数据对应分析案例数据算法至少两项或以上的定类变量,案例数据为品牌和收入水平两个定类变量,定类变量即为离散变量。
5、案例操作Step1:新建分析;Step2:上传数据;Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;Step4:选择【对应分析】;Step5:查看对应的数据数据格式,【对应分析】要求特征序列为类变量,且至少有两项;Step6:点击【开始分析】,完成全部操作。
6、输出结果分析输出结果 1:卡方交叉列联表图表说明:上表为交叉列联表,展示了交叉对应表的结果,包括卡方值、显著性P等。
根据卡方显著性(P < 0.05),若呈现显著性,则目标字段(Y)与控制字段(X)有着差异关系,否则不适合做对应分析。
结果分析:交叉列联的结果显示,以变量收入为分组项,显著性输出结果 2:因子分析表图表说明:上表为因子分析表,可以分析字段提取的维度的贡献率。
维度的累计贡献率越高,表示可解释的效度与信度效果越好,一般认为累计贡献率高于 80%时,模型表现较为优秀;奇异值:即惯量的平方根,相当于相关分析里的相关系数;主惯量:即常说的特征根,用于说明对应分析的各个维度,能够解释列联表的两个变量之间相互联系的程度。
结果分析:惯量分析表结果显示,当维度达到 2 个的时候,累计贡献率达到 1.0,模型的表现非常优秀。
输出结果 3:维度分析表图表说明:上表为因子维度得分表,即为各个类别项在各维度上的坐标具体值,其代表各点在空间中的距离和位置可反映点之间的关系情况,用于画类别点的联合图,即可直观看出各个类别的距离。
人力资源第12章 SPSS的对应分析第12章 SPSS的对应分析12.1 对应分析概述12.1.1 对应分析的提出研究两个或多个品质型变量之间的相关关系,例如研究储户收入水平与所选择的储蓄种类间是否存在联系的问题,再如分析顾客职业与购买汽车的品牌之间的关系等。
分析品质变量之间的关系通常从编制两变量的交叉列联表入手,并通过对列联表的进一步研究探究变量间的联系。
常见的方法有列联表的卡方检验等。
在变量分类值较多时,上述分析方法通常较难直观地揭示出变量之间的联系以及变量各分类之间的联系。
对应分析正是解决该类问题的一种基于图形分析的直观有效的多元统计分析方法。
12.1.2 对应分析的基本思想对应分析以两变量的交叉列联表为研究对象,利用“降维”的方法,通过图形的方式,直观揭示变量不同类别之间的联系,特别适用于多分类品质型变量的研究。
对应分析的基本思想是:首先编制两品质型变量的交叉列联表,将交叉列联表中的每个数据单元看成两变量在相应类别上的对应点;然后,对应分析将变量及变量之间的联系同时反应在一张二维或三维的散点图,即对应分布图上,并使联系密切的类别点较集中,联系疏远的类别点较分散;最后,通过观察对应分布图就能直观地把握变量类别之间的联系。
12.2 对应分析的基本操作及案例 12.2.1 对应分析的基本操作步骤(1)选择菜单Analyze?Data Reduction?Correspondence,出现窗口如图所示(2)将行变量选择到Row框中,将列变量选择到Column框中,并分别单击Define Range按钮指定行列变量的分类值范围。
在Minimum value框后输入分类最小值,在Maximum框后输入分类最大值,并单击Update按钮,于是各分类值会依次显示在窗口下方的框中;Category Constraints框中的选项,None表示不再对分类值重新分组,Categories must beequal表示指定将哪些分类值合并为一类,Category is supplemental表示指定某些分类值不参与分析。
对应分析spss例析在现实研究中,研究人员很多情况下所关心的除行和列本身变量之间关系外,更想了解行列变量之间的相互关系;将R和Q型分析合二为一;对应分析应运而生。
对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。
可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。
主要应用在市场细分、产品定位、地质研究以及计算机工程等领域中。
原因在于,它是一种视觉化的数据分析方法,它能够将几组看不出任何联系的数据,通过视觉上可以接受的定位图展现出来。
对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。
另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。
对应分析法整个处理过程由两部分组成:表格和关联图。
对应分析法中的表格是一个二维的表格,由行和列组成。
每一行代表事物的一个属性,依次排开。
列则代表不同的事物本身,它由样本集合构成,排列顺序并没有特别的要求。
在关联图上,各个样本都浓缩为一个点集合,而样本的属性变量在图上同样也是以点集合的形式显示出来。
例:在对218名受访人员进行收入水平和品牌选择关系的调查研究中,得到如下调查数据,对其进行对应分析。
SPSS需要的数据格式如下DATA ---- weight casesAnalyze----→data reduction--→correspondence analysisModel对话框中Dimensions in solution 2,解的维度;即将样本和指标在二维空间中对应的进行分类。
SPSS处理对应分析实验⼋:对应分析⼀.实验⽬的1)掌握对应分析⽅法在SPSS 软件中的实现; 2)熟悉对应分析的⽤途和操作⽅法;⼆.实验要求某⽣产纯⽔的企业为其产品命名,决定对选定的备选名称⽅案进⾏品牌测试,采⽤问卷调查的⽅式对消费者进⾏名称联想调查,以便最终确定产品品牌名称。
调查数据表如下雪糕纯⽔碳酸饮料果汁饮料保健饮料空调洗⾐机⽟泉5050855109341120雪源4421106895292812期望2151364130214664波澜1483713637113365天⼭绿5088471251353913美纯20605374342208品牌名称产品名称是通过对应分析说明选定的品牌在消费者的⼼⽬中是否达到了预期效果。
三.实验内容1. 试验步骤:(1)数据录⼊。
打开SPSS 数据编辑器,建⽴“对应分析.sav ”⽂件。
在变量视窗中录⼊3个变量,⽤A 表⽰“品牌”,⽤B 表⽰“产品”,⽤C 表⽰“频数”,对A 变量和B 变量输⼊对应的标签和值,C 变量输⼊对应的标签。
然后在数据视图中将数据对应录⼊,其相关操作及变量视图的效果如下图⼀所⽰:【图⼀】(2)进⾏对应分析。
依次点击“数据→加权个案→描述”再将“频数”导⼊“频率变量”,如下图⼆所⽰:【图⼆】依次点击“分析-数据降维→点击对应分析→将pp(品牌名称)导⼊⾏→定义全距→最⼩值为1,最⼤值为6→将cpmc(产品名称)导⼊列→定义全距→最⼩值为1,最⼤值为7→点击更新→点击继续”,如下图三所⽰:【图三】依次点击“模型→选择距离度量中的卡⽅→继续”如下图四所⽰:【图四】依次点击“统计量→选择⾏轮廓表,列轮廓表,对应表,⾏点概览,列点概览→点击继续”,如下图五所⽰:【图五】依次点击“图→选择散点图中的⾏点,列点→选择线图中的已转换的⾏类别,已转换的列类别→继续”,如下图六所⽰:【图六】2.试验结果输出,如下表⼀:【表⼀】3.实验分析1) “对应表”是产品名称与品牌名称的交叉列联表,表中的数据为相应的频数,有效边际是相应的合计数据。
250
对应分析是多维图示分析技术的一种,该技术是“探索”和“观看”多维数据间联系的一种强有力的方法,是通过进行主成分分析来描述两个或多个分类变量各水平间相关性的分析方法,它的分析结果主要采用反映变量间相互关系的对应分析图来表示。
与因子分析不同的是,对应分析对数据表中的行与列同时进行处理,以低维图形表示数据表中行与列之间的关系。
对应分析方法广泛用于对属性变量构成的列联表数据研究,利用对应分析可以在一张二维图上同时画出属性变量不同取值的情况,列联表的每一行及每一列均以二维图上的一个点来表示,以直观、简洁的形式描述属性变量各种状态之间的相互关系及不同属性变量之间的相互关系。
本章包括:
对应分析的基本原理 对应分析的基本操作 对应分析的应用举例
11.1 对应分析的基本原理
对应分析实际上是在R 型因子分析(对变量作因子分析)和Q 型因子分析(对样品作因子分析)基础上发展起来的一种多元统计方法。
一般地,假设按两个特性对事物进行研究,特性A 有n 类,特性B 有m 类,属于i j A B 的个体数目为ij n (i=1,2,……,n ;j=1,2,……,m ),则可以得到形如表11-1所示的列联表。
表11-1
特性A 和特性B 的频数统计表
特性B
合计 1B 2B j B m B 特性A
1A
11n 12n 1j n 1m n 1n ∙ 2A 21n 22n 2j n 2m n 2n ∙。
spss对应分析实验报告SPSS对应分析实验报告引言:对应分析是一种常用的统计分析方法,它可以帮助研究者确定两个或多个变量之间的关系。
在本次实验中,我们使用SPSS软件对一组数据进行了对应分析,并得出了一些有意义的结论。
实验设计:我们的实验设计是基于一个假设:消费者的年龄与其购买的产品类型之间存在关联。
为了验证这个假设,我们收集了一组消费者的数据,包括他们的年龄和购买的产品类型。
我们使用SPSS软件进行了对应分析,并得出了以下结果。
数据收集和处理:我们随机选择了200名消费者作为研究对象,并询问了他们的年龄和购买的产品类型。
在数据收集后,我们将数据输入SPSS软件进行处理。
首先,我们创建了两个变量:年龄和产品类型。
然后,我们使用对应分析功能进行了计算。
结果分析:通过对应分析,我们得到了一些有意义的结果。
首先,我们发现年龄与产品类型之间确实存在关联。
具体而言,我们观察到年龄较小的消费者更倾向于购买儿童玩具,而年龄较大的消费者更倾向于购买家居用品。
这一结果与我们的假设相符合。
进一步分析还显示了其他有趣的关联。
例如,我们发现中年消费者更倾向于购买电子产品,而青年消费者更倾向于购买时尚服装。
这些结果为我们进一步了解消费者行为提供了有价值的信息。
讨论和结论:我们的实验结果表明,消费者的年龄与其购买的产品类型之间存在关联。
这一发现对于市场营销和产品定位具有重要意义。
通过了解不同年龄段消费者的购买偏好,企业可以更好地制定市场策略和推广计划,以满足消费者的需求。
然而,我们也需要注意到对应分析只能显示变量之间的关联,并不能确定因果关系。
因此,在实际应用中,我们需要结合其他方法和数据,以更全面地了解消费者行为和市场趋势。
总结:本次实验使用SPSS软件进行了对应分析,研究了消费者的年龄与其购买的产品类型之间的关联。
通过对数据的处理和分析,我们得出了一些有意义的结果,并对市场营销和产品定位提供了一定的指导。
然而,我们也要意识到对应分析只是统计分析的一种方法,需要结合其他数据和方法进行综合分析。
383 对应分析 第 17 章矩阵F 的头两列(等价于取m = 2)所组成的散点图,与矩阵G 的头两列所组成的散点图叠加,就形成了对应分析图。
由于各种模型的选项不同,实际的点图和这两组载荷向量所构成的图形可能会有所不同,但这种不同不会影响对数据进行探索性分析的结果。
17.2.2 SPSS 简单对应分析实例1.问题和数据描述1992年美国大选,克林顿击败了老布什和佩罗当选总统,本节来分析一下在这次选举中,不同教育程度选民的选举倾向性有何特点。
所用数据来自随盘文件“Chapter 17\92年美总统选举数据.sav ”,数据格式如图17-1所示。
图17-1 1992年美国大选抽调数据注 意:简单对应分析适合的变量只能是数值型的无序分类变量,否则需先行进行转换。
如果分析变量是有序的,可以使用主成分分析法。
2.简单对应分析的操作和设置依次单击菜单“分析→降维→对应分析…”打开对应分析对话框,其主设置面板如图17-2所示。
(1)变量设置。
首先在变量列表中选中“候选人”变量,然后单击“行”左侧的按钮,将其指定为行变量;接着在变量列表中选中“受教育程度”变量,然后单击“列”左侧的按钮,将其指定为列变量。
单击选中“行”选框,单击它下面的“定义范围”按钮,弹出如图17-3所示的设置界面,在“最小值”、“最大值”后面分别输入“1”、“3”后,单击“更新”按钮,再单击“继续”按钮返回主界面;单击选中“列”选框,单击它下面的“定义范围”按钮,弹出与图17-3相同的设置界面,在“最小值”、“最大值”后面分别输入“0”、“4”后,单击“更新”按钮,再单击“继续”按钮返回主界面。
设置好后的界面如图17-4所示。
图17-2 对应分析主设置面板1 图17-3 定义范围设置界面图17-4 对应分析主设置面板2 ① 主界面的“行”、“列”选框,分别表示对应分析的行变量和列变量。
变量列表限制条件。
卡方检验只能对两个分类变量之间是否存在联系进行检验,如果分类变量有多个水平的话,则无法衡量每个水平间的联系。
对此,虽然可以使用逻辑回归进行建模,但是如果分类变量的水平非常多,就需要分别设定哑变量,这样对于操作和解释都非常繁琐。
而对应分析则是专门解决上述问题的方法,它特别擅长对两个分类变量的多个水平之间的对应性进行分析。
常用于市场细分、产品定位、品牌形象及满意度研究。
对应分析最大的特点是通过直观的图形方式,展现分类变量不同水平之间的联系,水平越多,效果越好。
对应分析是一种多元统计分析方法,由于只是运用数学原理对数据进行处理和转换,当中没有涉及假设检验,因此本质上也只是一种描述性、探索性统计方法,但是由于结果直观易懂,也在某些研究领域经常使用,它的使用前提是,变量间各水平要存在联系,这点可以通过卡方检验进行判断。
对应分析可以分为简单对应分析和多重对应分析,前者只是涉及两个变量,一般是列联表形式;而后者则针对多个分类变量。
SPSS把对应分析认为是一种降维技术,因此放在了降维过程中。
一、简单对应分析分析—降维—对应分析我们想分析头发颜色和眼睛颜色之间的关系,特收集了这两个变量,头发颜色有五个水平,眼睛颜色有四个水平,数据组成形式如下,注意频数要进行加权首先对数据进行预分析,由于是频数数据,因此需要做条形图以上的对应分析是针对单元格为频数的资料进行的,但有时候,我们收集来的数据资料并不是频数资料,而是均值、总和等,如下面的数据形式,单元格中为均值,此时需要使用基于均值的对应分析之后的结果解释和基于频数的对应分析一致。
==================================================二、多重对应分析分析—降维—最优尺度对于多个变量间的对应分析,需要使用最优尺度变换过程,看一个例子该数据有7个变量,都属于无序多分类或二分类变量。
对应分析spss例析
在现实研究中,研究人员很多情况下所关心的除行和列本身变量之间关系外,更想了解行列变量之间的相互关系;将R和Q型分析合二为一;对应分析应运而生。
对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。
可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。
主要应用在市场细分、产品定位、地质研究以及计算机工程等领域中。
原因在于,它是一种视觉化的数据分析方法,它能够将几组看不出任何联系的数据,通过视觉上可以接受的定位图展现出来。
对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。
另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。
对应分析法整个处理过程由两部分组成:表格和关联图。
对应分析法中的表格是一个二维的表格,由行和列组成。
每一行代表事物的一个属性,依次排开。
列则代表不同的事物本身,它由样本集合构成,排列顺序并没有特别的要求。
在关联图上,各个样本都浓缩为一个点集合,而样本的属性变量在图上同样也是以点集合的形式显示出来。
例:在对218名受访人员进行收入水平和品牌选择关系的调查研究中,得到如下调查数据,对其进行对应分析。
SPSS需要的数据格式如下
DATA ----✍weight cases
Analyze----✍data reduction--✍correspondence analysis
Model对话框中
Dimensions in solution 2,解的维度;即将样本和指标在二维空间中对应的进行分类。
Distance measure:距离测度上采用默认的Chi square,标准对应分析要求使用此测度。
Standardization method正规化方法选择上,由于上面选择的是卡方距离,所以这里只能用row and column means are removed(即同时对行和列进行中心化处理)
Statistic 对话框中
Correspondence table现实原始数据,还包括行列的边际和及总和;可以用来核对输入的数据的准确性。
Overview of row/column points:此项必须选择,行列变量在各个维度上的分量。
Plot 对话框:
行归一化处理表:行和为分母进行归一化处理的结果,mass为列的边际概率,即
各列和占总和比例。
inertia英音:[in'?:?i?]美音:[?n'???] 惯性;惯量;惰性;就是常说的特征根;说明各个维度对原来列联表的解释程度。
Contribution Of Point to Inertia of Dimension给出的是占总方差的百分比及累计百分比;
可以看出前两个维度解释了总信息量的100%;因此二维图形完全可以表示两个变量间的信息。
第三第四列是列联表的卡方检验结果,P<0.05,表明列联表行列变量之间存在较
品牌类别和收入类别的坐标值组成的对应分析点图。
从图中看出,低收入人群倾向于选择品牌B和E;中收入水平倾向于选择品牌D;高收入水平倾向于品牌A C和F。