交叉表分析
- 格式:doc
- 大小:218.00 KB
- 文档页数:9
交叉分析法怎么分析交叉分析法是一种常用的数据分析方法,主要用于对多个变量之间的关系进行分析。
采用交叉分析法可以发现不同变量之间的相互影响和作用方式,从而更好地理解数据背后的规律和特征。
在下面的文章中,我们将介绍交叉分析法的具体分析流程和注意事项,帮助读者更好地了解和应用这种方法。
一、交叉分析法的定义交叉分析法,也称为交叉表法或列联表法,是一种通过将不同变量交叉排列建立交叉表的方法来研究变量之间相关性的一种统计方法。
交叉分析法根据样本数据构造一个列联表,以便比较各个不同维度之间的差异,从而进一步发现其内在联系和潜在规律。
二、交叉分析法的分析流程1. 选取研究对象和指标首先需要确定研究对象和研究指标。
在选择研究对象时,要确保大样本数量和充分代表性,以免数据偏误。
在选择指标时,应该着重考虑研究目的,避免指标内部关联性太强而导致冗余信息。
2. 建立交叉表将所选变量进行顺序或随机排列,形成一个行×列的交叉表。
在表格中,每一行代表一种分类变量的不同组别,每一列代表另一种分类变量的不同组别。
然后根据实际情况,填入相应的数据或统计概率。
3. 描述表格特征通过观察交叉表格中的特征,了解各个指标之间的关系和变化趋势。
这可以从几个方面来分析,例如行、列、总体、对角线等方面考虑。
归纳总结这些特征,可以为后续分析提供有力支撑。
4. 进行自由度统计自由度(df)指代两种分类变量所构成的列联表中具有独立划分的单元格个数。
在使用交叉分析法时,通常需要根据列联表的大小和分类变量的个数计算可用的自由度。
一般来说,自由度等于“列数-1×行数-1”。
5. 计算卡方值和P值卡方值是用来衡量观察值与理论值之间差异的一个指标。
在进行交叉分析时,一般会使用χ^2检验计算卡方值。
当卡方值越大时,表明所观察到的差异也越大。
在计算卡方值之后,还需要计算对应的P值。
P值是一个统计学上的重要指标,用于表示样本与总体误差概率大小。
如果P 值小于等于0.05,可以认为差异显著,反之则不显著。
多变量描述统计分析交叉表分析法一、交叉表分析法的概念交叉表(交叉列联表) 分析法是一种以表格的形式同时描述两个或多个变量的联合分布及其结果的统计分析方法,此表格反映了这些只有有限分类或取值的离散变量的联合分布。
当交叉表只涉及两个定类变量时,交叉表又叫做相依表。
交叉列联表分析易于理解,便于解释,操作简单却可以解释比较复杂的现象,因而在市场调查中应用非常广泛。
频数分布一次描述一个变量,交叉表可同时描述两个或更多变量。
交叉表法的起点是单变量数据,然后依研究目的将这些数据分成两个或多个细目。
下面是一个描述交叉表法应用的例子。
某保险公司对影响保户开车事故率的因素进行调研,并对各种因素进行了交叉表分析。
表1 驾驶员的事故率类别比率,%无事故61至少有一次事故39样本总数,人17800从初始表1中可以看出,有61%的保险户在开车过程中从未出现过事故。
然后,在性别基础上分解这个信息,判断是否在男女驾车者之间有差别。
这样就出现了二维交叉表2。
表2 男女驾驶员的事故率类别男,%女,%无事故5666至少有一次事故4434样本总数,人93208480这个表的结果令男士懊恼,因为他们的事故率较女士驾车时涉及的事故率要高。
但人们会提出这样的疑问而否定上述判断的正确性,即男士的事故多,是因为他们驾驶的路程较长。
这样就引出第三个因素"驾驶距离",于是出现了三维交叉表3。
表3 不同驾驶距离下的事故率类别男,%女,%驾驶距离>1万公里<1万公里>1万公里<1万公里无事故51735073至少有一次事49275027故样本总数,人7170215024306050结果表明,男士驾驶者的高事故率是由于他们的驾驶距离较女士长,但并没有证明男士和女士哪个驾驶得更好或更谨慎,仅证明了驾车事故率只与驾驶距离成正比,而与驾驶者的性别无关。
二、两变量交叉列联表分析例如,研究城镇居民在某地的居住时间与其对当地百货商场的熟悉程度之间的关系,对“居住时间”和“熟悉程度”这两个变量进行交叉列联分析。
交叉分析法怎么分析交叉分析法是一种常用的数据分析方法,通过对不同因素之间的关系进行交叉比较和分析,帮助研究者发现变量之间的联系和差异。
本文将介绍交叉分析法的基本概念和步骤,并以具体案例进行说明。
一、交叉分析法概述交叉分析法(Cross-Tabulation Analysis)也被称为列联表分析(Contingency Table Analysis),是一种定量分析方法,用来研究两个或更多变量之间的关系。
通过构建列联表,对不同变量之间的交叉频数进行统计和比较,可以揭示变量之间的关联性和差异性。
二、交叉分析法步骤1. 确定研究问题:明确研究问题并选择需要分析的变量。
例如,假设我们想研究消费者对不同手机品牌的偏好与性别之间的关系。
2. 构建列联表:根据所研究的变量,构建列联表(也称为交叉表)。
横列为一个变量的不同水平(例如手机品牌),纵列为另一个变量的不同水平(例如性别)。
在交叉点上填写交叉频数。
3. 计算频数和比例:根据列联表,计算每个交叉点上的频数和比例。
频数表示各组别的数量,比例表示各组别所占比例。
4. 绘制图表:通过绘制图表,直观地展示不同变量之间的关系。
常用的图表包括堆叠柱状图、簇状柱状图、饼图等。
5. 进行统计检验:为了验证变量之间的关系是否显著,可以进行统计检验,如卡方检验。
卡方检验可以检验各组别之间的差异是否由随机因素引起。
6. 分析结果和讨论:根据交叉分析的结果,进行结果分析和讨论。
解释变量之间的关系和差异,并提出合理的解释和解决方案。
三、交叉分析方法案例以消费者对不同手机品牌的偏好与性别之间的关系为例,进行交叉分析。
我们调查了300名消费者,结果如下表所示:--------------------------------------------------| Apple | Samsung | Huawei | Others--------------------------------------------------男性 | 50 | 30 | 20 | 10--------------------------------------------------女性 | 20 | 40 | 50 | 20--------------------------------------------------根据上表,我们可以计算出各组别的频数和比例,如下所示:--------------------------------------------------| Apple | Samsung | Huawei | Others--------------------------------------------------男性 | 50 | 30 | 20 | 10--------------------------------------------------女性 | 20 | 40 | 50 | 20--------------------------------------------------| 70(23%) | 70(23%) | 70(23%) | 30(10%)--------------------------------------------------通过绘制堆叠柱状图,我们可以直观地看到不同手机品牌在不同性别中的偏好程度。
Excel中的数据表进行交叉分析和数据汇总Excel是一款功能强大的电子表格软件,广泛应用于数据管理和数据分析领域。
在Excel中,我们可以利用数据表进行交叉分析和数据汇总,以便更好地理解和解释数据。
本文将介绍如何在Excel中进行这些操作,并提供一些实用的技巧和注意事项。
一、交叉分析交叉分析是指通过对多个变量进行组合,对数据表中的数据进行交叉比较和统计分析,从而探索不同变量之间的关系和趋势。
在Excel中,我们可以利用数据透视表和数据透视图来进行交叉分析。
1. 数据透视表数据透视表是一种快速、灵活且易于使用的分析工具,可以帮助我们从大量的数据中提取有用的信息。
使用数据透视表,我们可以对数据进行透视、汇总、过滤和分析。
创建数据透视表的步骤如下:(1)选择数据表中的任意一个单元格,并点击Excel菜单栏中的“数据”选项卡。
(2)在“数据”选项卡中的“数据工具”分组中,点击“数据透视表”按钮。
(3)选择要分析的数据范围,然后选择创建数据透视表的位置。
(4)在数据透视表字段列表中,将需要进行交叉分析的字段拖放到“行”、“列”或“值”区域中。
(5)根据需要,对数据透视表进行格式化、排序、筛选等操作。
通过数据透视表,我们可以方便地对数据进行交叉分析和统计,比如计算总和、平均值、最大值、最小值等,同时可以根据不同字段的值进行分类汇总。
2. 数据透视图除了数据透视表,Excel还提供了数据透视图的功能,可以直观地展示数据的交叉分析结果。
数据透视图通常以交叉表的形式展示数据,并通过颜色、图表等方式对数据进行可视化呈现。
创建数据透视图的步骤如下:(1)在数据透视表的基础上,点击“数据透视表分析工具”选项卡。
(2)在“工具”选项卡中的“报表”分组中,点击“数据透视图”按钮。
(3)根据需要,选择交叉表的布局和样式。
(4)点击“确定”按钮,生成数据透视图并展示交叉分析的结果。
通过数据透视图,我们可以更直观地理解和解释数据,快速发现数据中的规律和趋势。
交叉分析法怎么分析交叉分析法是一种常用的数据分析方法,能够帮助研究者探索不同变量之间的关系。
本文将介绍交叉分析法的基本原理、步骤以及应用场景,并讨论如何使用该方法进行分析。
一、交叉分析法的基本原理交叉分析法是一种基于交叉表的统计分析方法。
它通过将两个或多个变量的数据汇总并交叉对比,从而发现它们之间的关联性和差异性。
通过交叉分析,我们可以发现变量之间的相互作用,了解不同群体或者不同条件下的差异。
二、交叉分析法的步骤1. 确定变量:首先,我们需要明确需要分析的变量。
这些变量可以是名义变量、顺序变量或连续变量。
选择合适的变量对于交叉分析的成功至关重要。
2. 创建交叉表:将所选的变量数据进行整理,并创建交叉表。
交叉表通常具有两个或多个维度,可使用行和列展示不同的变量。
在交叉表中,我们可以清晰地观察到各个变量之间的交叉情况。
3. 分析数据:通过对交叉表的分析,我们可以获得各个变量之间的比较结果。
可以使用不同的统计指标,如频数、百分比、平均值等,对交叉表中的数据进行计算和分析。
4. 解读结果:根据交叉分析的结果,我们需要解读所得到的数据。
通过对比不同的交叉表数据,我们可以得出结论,了解变量之间的相互关系。
三、交叉分析法的应用场景1. 市场调研:交叉分析法可以帮助我们了解不同人群在不同市场条件下的偏好和需求差异,从而为企业的市场决策提供依据。
2. 社会调查:通过对人口统计学特征与不同社会问题之间的交叉分析,可以揭示群体之间的差异性和相关性,为社会决策提供参考。
3. 资源配置:交叉分析法可以帮助我们了解资源分配对不同变量的影响,从而进行合理的资源优化和调整。
4. 绩效评估:交叉分析法可以对不同因素对绩效的影响进行比较和分析,从而找到绩效改进的关键因素。
四、交叉分析法的实践案例以一家餐厅为例,我们希望了解美食的种类与消费者的性别之间存在何种关系。
首先,我们收集了该餐厅的消费者信息和点菜情况,然后创建了交叉表进行分析。
多变量描述统计分析交叉表分析法一、交叉表分析法的概念交叉表(交叉列联表) 分析法是一种以表格的形式同时描述两个或多个变量的联合分布及其结果的统计分析方法,此表格反映了这些只有有限分类或取值的离散变量的联合分布。
当交叉表只涉及两个定类变量时,交叉表又叫做相依表。
交叉列联表分析易于理解,便于解释,操作简单却可以解释比较复杂的现象,因而在市场调查中应用非常广泛。
频数分布一次描述一个变量,交叉表可同时描述两个或更多变量。
交叉表法的起点是单变量数据,然后依研究目的将这些数据分成两个或多个细目。
下面是一个描述交叉表法应用的例子。
某保险公司对影响保户开车事故率的因素进行调研,并对各种因素进行了交叉表分析。
表1 驾驶员的事故率类别比率,%无事故61至少有一次事故39样本总数,人17800从初始表1中可以看出,有61%的保险户在开车过程中从未出现过事故。
然后,在性别基础上分解这个信息,判断是否在男女驾车者之间有差别。
这样就出现了二维交叉表2。
表2 男女驾驶员的事故率类别男,%女,%无事故5666至少有一次事故4434样本总数,人93208480这个表的结果令男士懊恼,因为他们的事故率较女士驾车时涉及的事故率要高。
但人们会提出这样的疑问而否定上述判断的正确性,即男士的事故多,是因为他们驾驶的路程较长。
这样就引出第三个因素"驾驶距离",于是出现了三维交叉表3。
表3 不同驾驶距离下的事故率类别男,%女,%驾驶距离>1万公里<1万公里>1万公里<1万公里无事故51735073至少有一次事49275027故样本总数,人7170215024306050结果表明,男士驾驶者的高事故率是由于他们的驾驶距离较女士长,但并没有证明男士和女士哪个驾驶得更好或更谨慎,仅证明了驾车事故率只与驾驶距离成正比,而与驾驶者的性别无关。
二、两变量交叉列联表分析例如,研究城镇居民在某地的居住时间与其对当地百货商场的熟悉程度之间的关系,对“居住时间”和“熟悉程度”这两个变量进行交叉列联分析。
多变量描述统计分析交叉表分析法一、交叉表分析法的概念交叉表(交叉列联表) 分析法是一种以表格的形式同时描述两个或多个变量的联合分布及其结果的统计分析方法,此表格反映了这些只有有限分类或取值的离散变量的联合分布。
当交叉表只涉及两个定类变量时,交叉表又叫做相依表。
交叉列联表分析易于理解,便于解释,操作简单却可以解释比较复杂的现象,因而在市场调查中应用非常广泛。
频数分布一次描述一个变量,交叉表可同时描述两个或更多变量。
交叉表法的起点是单变量数据,然后依研究目的将这些数据分成两个或多个细目。
下面是一个描述交叉表法应用的例子。
某保险公司对影响保户开车事故率的因素进行调研,并对各种因素进行了交叉表分析。
表1 驾驶员的事故率从初始表1中可以看出,有61%的保险户在开车过程中从未出现过事故。
然后,在性别基础上分解这个信息,判断是否在男女驾车者之间有差别。
这样就出现了二维交叉表2。
表2 男女驾驶员的事故率这个表的结果令男士懊恼,因为他们的事故率较女士驾车时涉及的事故率要高。
但人们会提出这样的疑问而否定上述判断的正确性,即男士的事故多,是因为他们驾驶的路程较长。
这样就引出第三个因素"驾驶距离",于是出现了三维交叉表3。
表3 不同驾驶距离下的事故率结果表明,男士驾驶者的高事故率是由于他们的驾驶距离较女士长,但并没有证明男士和女士哪个驾驶得更好或更谨慎,仅证明了驾车事故率只与驾驶距离成正比,而与驾驶者的性别无关。
二、两变量交叉列联表分析例如,研究城镇居民在某地的居住时间与其对当地百货商场的熟悉程度之间的关系,对“居住时间”和“熟悉程度”这两个变量进行交叉列联分析。
如表4所示。
间低于30年的居民比居住时间在30年以上的居民似乎更熟悉百货商场。
进一步计算出百分比,则可以看得更直观一些。
见表5。
表5 居住时间与对百货商场的熟悉程度的交叉列联分析(%)行百分比与列百分比的选择取决于哪个变量是因变量哪个变量是自变量。
data05-02为某公司工资数据(n=15)。
使用变量性别sex、收入高低earnings分析男女经理间薪金是否平等。
可以利用data05-01中的数据,使用变量occcat80为工作性质分类,region为地区,childs 为每个家庭的孩子数。
将childs为行变量,occcat80为列变量,region为控制变量选入Layer of框中,进行交叉表分析。
列联表(交叉表)分析1、项目名称Crosstabs过程4、实训原理Crosstabs过程用于定类数据和定序数据进行统计描述和简单的统计推断。
在分析时可以产生二维至n维列联表,并计算相应的百分数指标。
4-1 列联表分析的含义与任务在实际分析中,当问题涉及到多个变量时,我们不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系。
很明显,如果还采用单纯的频数分析方法显然不能满足要求。
因此,我们需要借助交叉分组下的频数分析,即列联表分析。
列联表分析的主要任务有两个:(1)根据样本数据产生二维或多维交叉列联表。
交叉列联表是两个或两个以上变量交叉分组后形成的频数分布表。
(2)在交叉列联表的基础上,分析两变量之间是否具有独立性或一定的相关性。
4-2 卡方检验的原理为了理解列联表中行变量(Row)和列变量(Column)之间的关系,我们需要借助非参数检验方法。
通常采用的方法是卡方检验。
和一般假设检验一样,卡方检验主要包括三个步骤:(1)建立零假设:行变量和列变量相互独立。
(2)选择和计算检验统计量。
列联表分析中的检验统计量是Pearson卡方统计量。
其公式为:()∑∑==-=r i cj eij e ij o ijf f f1122χ(4-9-1)其中,r 为列联表的行数,c 为列联表的列数,0f 为实际观测频数,e f 期望观测频数。
期望频数的计算公式为:nCTRT f e ⨯=(4-9-2) 其中,RT 是指定单元格所在行的观测频数合计,CT 是指定单元格所在列的观测频数合计,n 是观测频数的合计。
如何在Excel中使用数据进行交叉分析在Excel中进行交叉分析是一种常见的数据分析方法,它可以帮助我们深入了解数据之间的关系和相互影响。
本文将介绍如何在Excel中使用数据进行交叉分析,以及如何使用相关工具和函数来进行数据计算和图表展示。
一、交叉分析的基本概念交叉分析又称为交叉表分析或交叉报表分析,是一种用来比较和分析两个或多个维度之间关系的方法。
它可以帮助我们对大量数据进行整理、汇总和分析,发现数据之间的规律和趋势。
在Excel中,交叉分析主要通过制作交叉表来实现。
交叉表是一种以行和列形式展示数据交叉关系的表格,可以直观地显示不同维度数据之间的关系和差异。
二、创建交叉表的基本步骤1. 整理数据:将需要分析的数据整理成表格形式,并确保每个数据项都具有唯一的标识符。
2. 选择数据表格:在Excel中选择整个数据表格,包括表头和所有数据。
3. 插入交叉表:在Excel菜单栏中选择“插入”选项卡,在“表格”功能区选择“交叉表”按钮,并设置交叉表的位置和输出样式。
4. 设定交叉表字段:在“字段列表”中,将需要分析的数据字段拖动到交叉表的“行标签”、“列标签”和“值”区域。
可以根据具体需求设置数据字段的顺序和显示方式。
5. 进行数据计算:根据具体需求选择合适的数据计算方式,如求和、平均值、计数等。
在交叉表的值区域右键点击,选择“值字段设置”进行设置。
6. 格式化交叉表:对交叉表进行格式化,包括调整行高、列宽、字体样式、边框线条等,以使交叉表更加清晰和美观。
7. 分析交叉表:根据交叉表的分析需求,使用Excel提供的各种数据处理和图表功能进行数据分析和可视化展示。
比如使用排序、筛选、条件格式、图表等功能。
三、常用的交叉分析工具和函数Excel提供了多种工具和函数来进行交叉分析,以下是一些常用的工具和函数介绍:1. 透视表:透视表是一种功能强大的交叉分析工具,能够灵活地对数据进行汇总、统计和分析。
通过拖动和放置数据字段,可以动态生成汇总表,方便对数据进行不同维度的分析。
进行交叉表分析时需要注意:(1)卡方检验要求各单元的期望频数均大于5或小于5的比例不能超过20%;当样本数小于40时,需要进行小样本的交叉表分析。
即选择输出结果中的Fisher精确检验结果(Fisher's Exact Test)(2)若变量为定距以上的变量需要先转化为定类或定序变量data05-02为某公司工资数据(n=15)。
使用变量性别sex、收入高低earnings分析男女经理间薪金是否平等。
可以利用data05-01中的数据,使用变量occcat80为工作性质分类,region为地区,childs 为每个家庭的孩子数。
将childs为行变量,occcat80为列变量,region为控制变量选入Layer of框中,进行交叉表分析。
列联表(交叉表)分析1、项目名称Crosstabs过程4、实训原理Crosstabs过程用于定类数据和定序数据进行统计描述和简单的统计推断。
在分析时可以产生二维至n维列联表,并计算相应的百分数指标。
4-1 列联表分析的含义与任务在实际分析中,当问题涉及到多个变量时,我们不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系。
很明显,如果还采用单纯的频数分析方法显然不能满足要求。
因此,我们需要借助交叉分组下的频数分析,即列联表分析。
列联表分析的主要任务有两个:(1)根据样本数据产生二维或多维交叉列联表。
交叉列联表是两个或两个以上变量交叉分组后形成的频数分布表。
(2)在交叉列联表的基础上,分析两变量之间是否具有独立性或一定的相关性。
4-2 卡方检验的原理为了理解列联表中行变量(Row)和列变量(Column)之间的关系,我们需要借助非参数检验方法。
通常采用的方法是卡方检验。
和一般假设检验一样,卡方检验主要包括三个步骤:(1)建立零假设:行变量和列变量相互独立。
(2)选择和计算检验统计量。
列联表分析中的检验统计量是Pearson 卡方统计量。
其公式为:()∑∑==-=r i cj eij e ij o ijf f f1122χ(4-9-1)其中,r 为列联表的行数,c 为列联表的列数,0f 为实际观测频数,e f 期望观测频数。
期望频数的计算公式为:nCTRT f e ⨯=(4-9-2) 其中,RT 是指定单元格所在行的观测频数合计,CT 是指定单元格所在列的观测频数合计,n 是观测频数的合计。
由式(4-9-1)可以看出,卡方统计量的大小取决于两个因素:一个是列联表的格子数;另一个是观测频数和期望频数的差值。
在列联表固定的情况下,卡方统计量取值的大小取决于观测频数和期望频数的总差值。
当总差值越大时,卡方值也就越大,表明行列变量之间越相关;反之,当总差值越小时,卡方值也就越小,表明行列变量之间越独立。
(3)得出结论并做决策。
根据卡方统计量的概率P 值和显著性水平α进行比较,做出拒绝还是接受原假设的结论。
如果卡方检验的概率P 值小于显著性水平α,则拒绝原假设,认为行列变量之间不独立,两者之间存在依存关系。
反之,如果卡方检验的概率P 值大于显著性水平α,则接受原假设,认为行列变量之间独立,两者之间不存在依存关系。
在卡方检验中还需要注意:交叉列联表中不应有期望频数小于1的单元格,或者不应有大量期望频数小于5的单元格。
如果交叉列联表中有20%以上单元格中的期望频数小于5,则不应用卡方检验,可以采用似然比(Likelihood Ratio )卡方检验等方法进行修正。
5、背景材料某新产品上市前一个月中,分别对北京、上海、深圳三地进行了市场调查,调查表中有一项是关于顾客获知该产品的渠道。
随机抽取了300份调查表,统计顾客获知产品渠道的数据如下,SPSS 数据文件见4-9.sav 。
表4-9-1 顾客获知某新产品渠道的调查数据城市北京上海深圳合计朋友电视网络报刊2096034261333261653028622712388合计123 98 79 3006、实训步骤6-1 选择菜单“Analyze”→“Descriptive Statistics”→“Crosstabs”弹出如图4-9-1所示的窗口,进入列联表分析界面。
图4-9-1 列联表分析窗口6-2 选择列联表中的行变量进入Row(s)框,如表4-9-1中的获取新产品的渠道变量。
6-3 选择列连表中的列变量进入Column(s)框,如表4-9-1中的城市变量。
6-4 Layer框:Layer指的是层,对话框中的许多设置都可以分层设定,在同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。
如果要让不同的变量做不同的分析,则将其选入Layer框,并用Previous和Next 钮设为不同层。
Layer在这里用的比较少,在多元回归中我们将进行详细的解释。
6-5 选择Display clustered bar charts复选框表示输出分组条图。
选择Suppress table复选框表示禁止在结果中输出列联表。
6-6 单击按钮,弹出Exact Tests子对话框,如图4-9-2所示。
图4-9-2 Exact Tests子对话框Exact Tests子对话框是针对2*2以上的行*列表设定计算确切概率的方法,可以是不计算(Asymptotic only)、蒙特卡罗模拟(Monte Carlo)或确切计算(Exact)。
其中,系统默认是不计算;蒙特卡罗模拟默认进行10000次模拟,给出99%置信区间;确切计算默认计算时间限制在5分钟内。
这些默认值均可更改。
6-7 单击按钮,弹出Statistics子对话框,用于定义所需计算的统计量。
如图4-9-3所示。
图4-9-3 Statistics子对话框Statistics子对话框包括:χ值。
(1)Chi-square复选框:选择是否进行卡方检验,计算2(2)Correlaitons复选框:计算列联表两变量的Pearson相关系数和Spearman 等级相关系数。
(3)Nominal复选框组:选择是否输出反映分类资料相关性的指标,很少使用,共有四个选项:Contingency coefficient复选框:列联系数,其值界于0~1之间,取值越大说明两变量之间的相关性越强。
Phi and Cramer’s V复选框:这两者也是基于2χ值的,Phi在四格表2χ检验χ检验中界于0~1之间;Cramer’s V则界于0~1中界于-1~1之间,在R*C表2之间。
该指标的绝对值越大,说明两变量之间的相关性越强。
Lambda复选框:在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测因变量好,为0时表明自变量预测因变量差。
Uncertainty coefficient复选框:不确定系数,以熵为标准的比例缩减误差,其值接近1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。
(4)Ordianl复选框组:选择是否输出反映定序资料相关性的指标,很少使用。
包括以下组成部分:Gamma复选框:界于-1~1之间,所有观察实际数集中于左上角和右下角时,其值为1,取1和-1代表两变量完全一致或不一致,取0代表两变量完全不相关。
Somers’d复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例。
界于-1~1之间,结果解释同上;Kendall’s tau-b复选框:界于-1~1之间,结果解释同上;Kendall’s tau-c复选框:界于-1~1之间,结果解释同上;(5)Nominal by Interval:Eta复选框:计算Eta值,用于分类变量的检验,其平方值可认为是因变量受不同因素影响所致方差的比例;(6)Kappa复选框:计算Kappa值,即内部一致性系数。
通常Kappa大于0.75则认为两变量的一致性较好;小于0.4则认为两变量的一致性较差;(7)Risk复选框:计算相对危险系数;(8)McNemar复选框:进行McNemar检验(一种非参检验),该检验只有在行列数相等时才能用;(9)Cochran’s and Mantel-Haenszel statistics复选框:进行独立性和齐性检验。
6-8 单击按钮弹出Cell子对话框,用于定义列联表单元格中需要计算的指标,如图4-9-4所示。
图4-9-4 Cell子对话框Cell子对话框主要包括以下几部分:Counts复选框:是否输出实际观察数( Observed)和期望数(Expected);Percentages复选框:是否输出行百分数(Row)、列百分数(Column)以及合计百分数(Total);Residuals复选框:选择残差的显示方式,可以是实际数与期望数的差值(Unstandardized)、标化后的差值(standardized,将差值转化为标准正态分布),或者被标准误除的单元格残差(Adj.standardized);Noninteger Weights:当频数因为加权而变成小数时,选择该项对频数进行取整。
主要包括五种方法:Round cell counts:对频数进行四舍五入取整;Round case weights:对加权样本在使用前进行四舍五入取整;Truncate cell counts:对频数进行舍位取整;Truncate case weights:对加权样本在使用前进行舍位取整;No adjustments:不调整。
6-9 单击按钮,弹出Format子对话框,用于选择行变量是升序还是降序。
单击按钮返回主界面,单击按钮完成操作。
7、实训解析由于背景资料中表4-9-1的数据给出的直接是频数表,因此在建立SPSS数据集时可以直接输入三个变量:——行变量、列变量和指示每个单元格中频数的变量,然后指定频数变量,最后进行2检验。
因此,我们要检验原假设:“获知方式”与“城市”两变量之间是独立的,需要首先用Data菜单中的“Weight Cases”命令,设置频数变量;然后在“Crosstabs”命令中将“获知方式”、“城市”分别设置为行列变量;选中Display clustered bar charts选项,在Statistics对话框中选择Chi-square选项,在Cells对话框中选择Observed、Expectde选项,设置完成后点击OK按钮,完成操作,结果如表4-9-2、表4-9-3和图4-9-5所示。
表4-9-3是卡方检验结果,共使用了三种检验方法。
Pearson Chi-Square的显著水平0.107大于0.05,因此不能拒绝原假设,认为“获知方式”与“城市”两变量之间独立,即它们之间不存在相互依赖关系。
Pearson Chi-Square 10.450a 6 .107 Likelihood Ratio 10.183 6 .117 Linear-by-Linear Association .046 1 .830N of Valid Cases 300a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 7.11.图4-9-5 获知方式与城市交叉分组的条形图。