当前位置:文档之家› 第七章 列联表分析

第七章 列联表分析

第七章 列联表分析
第七章 列联表分析

第七章列联表分析

7.1 列联表(Crosstabs)分析的过程

7.2 列联表的实例分析

7.1 列联表 (Crosstabs) 分析的过程

列联表分析的过程是对两个变量之间关系的分析方法。被分析的变量可以是定类变量也可以是定序变量。系统是通过生成列联表对两个变量进行列联表分析的。

列联表分析的功能可以通过下述操作来实现。

图7-1 列联表分析对话框

1.打开列联表分析对话框

执行下述操作:

Analyze→Descriptive→Crosstabs 打开Crosstabs 对话框如图7-1 所示。

2.确定列联分析的变量

从左侧的源变量窗口中选择两个定类变量或定序变量分别进入Row(s)(行)窗口和Column(s)(列)窗口。进入Row(s)窗口的变量的取值将作为行的标志输出,而进入Column(s)窗口的变量的取值将作为列的标志输出。Display clustered bar charts 是在输出结果中显示聚类条图。Suppress table 是隐藏表格,如果选择此项,将不输出R×C 列联表。

3.选择统计分析内容

单击statistics 按钮,打开statistics 对话框,如图7-2 所示。

图7-2statistics 对话框

下面介绍该对话框中的选项和选项栏的内容:

(1)Chi-square 是卡方(X2)值选项,用以检验行变量和列变量之间是否独立。适用于定类变量和定序变量。

(2)Correlations 是皮尔逊(Pearson)相关系数r 的选项。用以测量变量之间的线性相关。适用于定序或数值变量(定距以上变量)。

(3)Nominal 是定类变量选项栏。选项栏中的各项是当分析的两个变量都为定类变量时可以选择的参数。

1)Contingency coefficient:列联相关的C 系数,由卡方系数修正而得。

2) Phi and Cramer's V:列联相关的V 系数,由卡方系数修正而得。

3)Lambda:λ系数。

4)Uncertainty Coefficient:不定系数。

(4)Ordinal 是定序变量选项栏。选项栏中的各项是当分析的两个变量都为定序变量时可以选择的参数。

1)Gramma:Gramma 等级相关系数。

2)Somers’d:Somers 等级相关d 系数。

3)Kendall’s tau-b:肯得尔等级相关tau-b 系数。

4)Kendall’s tau-c:肯得尔等级相关tau-c 系数。

(5)Nominal by Interval 选项栏中的Eta 是当一个变量为定类变量,另一个变量为数值变量时,测量两个变量之间关系的相关比率。

系统默认状态是不输出上述参数。如需要可自行选择。上述选择做完以后,单击Continue 返回到Crosstabs 对话框。

4.确定列联表内单元格值的选项

单击Cells(单元格)按钮,打开Cell Display 对话框,如图7-3 所示。

图7-3 Cell Display 对话框

(1)Counts 是单元格的频次选项栏。

1)Observed:观测值的频次。

2)Expected:期望频次。

系统默认状态是输出观测值的频次。

(2)Percentages 是确定输出百分比的选项栏。该选项栏中的选项用于确定在输出文件中的列联表单元格中是否要输出百分比。

1)Row:单元格中个案的数目占行总数的百分比。

2)Column:单元格中个案的数目占列总数的百分比。

3)Total:单元格中个案的数目占个案总数的百分比。

(3)Residuals 是确定残差的选项栏。

1)Unstandardized:非标准化残差。

2)Standardized: 标准化残差

3) Adj. Standardized:调整的标准化残差

上述选择做完以后,单击Continue 按钮,返回到Crosstabs 对话框。

5.确定列联表的行顺序

单击Format(格式)按钮,打开Format 对话框,如图7-4 所示。在该对话框中可以选择在输出的列联表中行的排列是升序还是降序。系统默认是升序。选择做完以后,单击Continue 按钮,返回到Crosstabs 对话框。

图7-4Format 对话框

6.单击OK 按钮,提交运行。即可在输出文件的Output 窗口中输出列联表。

7.2 列联表的实例分析

实例:对“休闲调查1”中的“性别”和“对闲暇生活的满意度—夫妻共度闲暇时间状况”进行列联表分析,并进行卡方检验。

打开数据文件“休闲调查1”后,执行下述操作:

1.Analyze→Descriptive→Crosstabs 打开Crosstabs 对话框。

2.从左侧的源变量窗口中选择“性别”变量进入到Row(s)窗口中,选择“对闲暇生活的满意度—夫妻共度闲暇时间状况”变量进入到Column(s) 窗口中。

3.单击Statistics 按钮,打开statistics 对话框。选择Chi-square 选项。单击Continue 返回到Crosstabs 对话框。

4.单击Cell 按钮,打开Cell Display 对话框。选择Row 选项。单击Continue 返回到Crosstabs 对话框。

5.单击OK 按钮,提交运行。系统打开Output 窗口并输出如表7-1、表7-2、和表7-3的统计分析结果。

表7-1 统计概要

Case Processing Summary

表7-2 列联表

性别* 对闲暇生活的满意度—夫妻共度闲暇时间状况 Crosstabulation

表7-3 卡方检验表

Chi-Square Tests

a.2 cells (20.0%) have expected count less than 5. Theminimum expected count is 3.47.

在卡方检验表中中各项的内容分别为:

◆Pearson Chi-Square:皮尔逊卡方值

◆Likelihood Ratio:似然比卡方(初学者可不必了解)。

◆N of Valid Cases:有效Cases 数

◆Asymp. Sig. (2-sided):双尾的非对称的显著性检验。

卡方检验表下面的说明是:有2 个格值(占总格值数的20%)的期望频次小于5。卡方检验要求期望频次小于5 的格值数不应超过25%,本实例的检验满足要求,卡方检验的结果是有效的。

卡方检验的结果表明,皮尔逊卡方值为检验的显著性水平已达到0.014,小于0.05,说明男女两性对夫妻共度闲暇时间状况的满意度有显著差异。结合表7-2 中的行百分比可以看出女性的满意度低于男性,而不满意度则高于男性。说明女性更渴望夫妻共同度过闲暇时间。

第八章多选变量分析

8.1 用多选变量生成新变量

8.1.1 用多选变量生成新变量的过程

8.1.2 用多选变量生成新变量的实例

8.2 多选变量的频次分析

8.2.1 对多选变量进行频数分析的过程

8.2.2 对多选变量进行频数分析的实例

8.3 多选变量的列联分析

8.3.1 对新变量进行列联分析的过程

8.3.2 对新变量进行列联分析的实例

多选变量是指对于包含了多个答案的一个问题,可以允许被调查者在其中作多项选择。

多项选择题可以在SPSS 中做成多个内容相同的变量。对于多选变量进行分析时,我们不仅希望知道某些选项在第一选、第二选或第三选中分别被多少人选择过(通过frequency 解决),我们还希望知道某些选项在多次选择中总共被选择了多少次,这个问题要通过多选变量分析来解决。现以“休闲调查1”中的“娱乐活动目的”一题的回答结果为例,来阐述多选变量的分析过程。由于娱乐活动目的是多方面的,因此允许被调查者在给出的六个答案中做三项选择。每一项选择都在SPSS 的数据文件中做成一个变量,即做成了三个相同内容的变量。对这三个变量的分析就是多选变量的分析。但要注意,一定要把这些变量设置成为数值型变量,否则无法进行多选变量的分析。多选变量分析的基本过程分为两步来进行。第一步是用三个多选变量生成一个新变量。第二步是对新生成的变量进行分析。

8.1 用多选变量生成新变量

8.1.1 用多选变量生成新变量的过程

1.选择要分析的多选变量

执行下述操作:

Analyze→Multiple Response(多选变量)拉出二级菜单,如图8-1 所示。

图8-1 多选变量分析的二级菜单

在Multiple Response 的二级菜单中。下面两项是隐含的,只有Define Sets(定义多选变量)可以选择。单击Define Sets 打开定义多选变量对话框,如图8-2 所示。

图8-2 多选变量分析对话框

在该对话框中Set Definition 窗口左上角列出的是备选变量。Variables in Set 窗口中的是被选中的变量。在Set Definition 窗口中选择将要进行分析的多选变量,使之进入Variables in Set 窗口中。

2.确定多选变量的值

在多选变量分析对话框中,Variables Are Coded As 是定义多选变量的值的选项栏。Dichotomies 为二分模式,即所有属于“Counted value”项的值均被计为1,而其它值则被计为0。Categories 为分类模式,可在指定范围内保持原有数据的值。范围以外的将被视为缺失值。可将多选变量的取值范围输入到后面的两个窗口中。前一个窗口输入范围的低值,后一个窗口输入范围的高值。

3.确定新生成的变量名和变量名的标签

在Name 窗口中输入新生成的变量名。

在Label 窗口中输入新生成的变量名的标签。

4.上述选项作完以后,便激活了Add 按钮。单击Add 按钮,便把定义好的变量添加到Mult response Sets(多选变量集)的窗口中。

5.单击Close 按钮完成多选变量集的定义。此时,系统已生成了一个新的变量。

8.1.2 用多选变量生成新变量的实例

用“休闲调查1”中的“娱乐1”,“娱乐2”,“娱乐3”生成一个新的变量。

打开数据文件“休闲调查1”后,执行下述操作:

1.Analyze→Multiple Response→Define Sets 打开如图8-2 所示的对话框。

2.在Set Definition 窗口中选择“娱乐1”,“娱乐2”,“娱乐3”,并将这三个变量进入到Variables in Set 窗口中。

3.由于被分析的多选变量有6 个选项,从1 到6 为合法值。所以选择Categories 选项,激活后面的Range 和through 窗口。在Range 窗口中输入1,在through 窗口中输入7。

4.在Name 窗口中输入“娱乐”作为新生成的变量名。此时激活Add 按钮。单击Add按钮,将新生成的变量“娱乐”添加到Mult Response Sets 窗口中。

5.单击Close 按钮,关闭该对话框。系统已生成了一个名为“娱乐”的新变量。但这个新变量并不直接出现在数据窗口中。下一节中介绍这个新变量的使用方法。

8.2 多选变量的频次分析

上述用多选变量生成新变量的工作完成以后,执行下述操作:

Analyze→Multiple Response 拉出二级菜单,如图8-3 所示。

图8-3 多选变量分析的二级菜单

在Multiple Response 的二级菜单中。下面两项原来隐含着的Frequencies 和Crosstabs两相已被激活,即可以对多选变量进行频数分析和列联列表分析。单击任何一项,都可以打开相应的对话框。具体的分析方法将在下面结合实例进行阐述。

8.2.1 对多选变量进行频数分析的过程

1.打开频数分析对话框

执行下述操作:

Analyze→Multiple Response→Frequencies 打开频数分析对话框,如图8-4 所示。

图8-4 多选变量频数分析对话框

(1)Mult Response Sets(多选变量集)窗口中的变量即是用多选变量生成的新变量。(2)Table(s)for 窗口中的变量是要分析的变量。

(3)Missing Values 是处理缺失值方法的选项栏。

1)Exclude cases listwise within dichotomies 是否排除二分变量中的缺失值。

2)Exclude cases listwise within categories 是否排除分类变量中的缺失值。

2.确定要分析的变量

选择Mult Response Sets 窗口中的变量,并使之进入到Table(s)for 窗口中

3.单击OK 按钮,提交运行。系统将在输出文件Output 窗口中输出频数分布表。

8.2.2 对多选变量进行频数分析的实例

实例:对生成的新变量“娱乐”进行频数分析。

打开数据文件“休闲调查1”后,执行下述操作:

1.Analyze→Multiple Response→frequencies 打开如图8-4 所示的多选变量频数分析对话框。

2.选择Mult Response Sets 窗口中的变量“途径”。单击图8-4 中间的箭头按钮,将变量“途径”进入到Table(s)窗口中,同时激活OK 按钮。

3.单击OK 提交运行后。系统打开输出窗口,可看到如表8-1 所示的频数分布表。

表8-1 多选变量频数分布的输出结果

Group $娱乐

Pct of Pct of Category label Code Count Responses Casess 消磨时间 1 87 12.8 30.7

松弛身心 2 210 30.8 74.2

结交朋友 3 106 15.6 38.5

愉悦精神忘却烦恼 4 196 28.8 69.3

为了更好地工作 5 75 11.0 26.5

其它 6 7 1.0 2.5

------- ----- -----

Total responses 681 100.0 240.6

0 missing cases; 283 valid cases

表中的Count下的数据是每个选项被回答的次数。Total responses是回答的总次数。Responses下面的数据是以回答次数作为分母的百分比,Cases下面的数据是以Cases数为分母的百分比。由于每个人都可以做多项选择,所以以Cases数为分母的百分比要大于回答次数作为分母的百分比。从表中可以看出,有283个有效数据,有681个选择结果。也就是说,有283个人共作了681项选择。

8.3 多选变量的列联分析

8.3.1对量进行列联分析的过程

1.打开对话框

执行下述操作:

Analyze→Multiple Response→Crosstabs 打开列联分析对话框,如图8-5 所示。

图8-5 多选变量的列联分析对话框

该对话框的左上方的窗口的内容是单选变量集,左下方的窗口的内容是多选变量集,即用多选变量生成的新变量。Row(s)是行变量窗口,Column(s)是列变量窗口。Layer(s)是层变量窗口。

2.选择列联分析的变量

将多选变量和将要与之进行列联分析的变量分别进入行变量窗口和列变量窗口,此时Define Ranges(确定范围)按钮被激活。

3.确定分析变量的范围

单击Define Ranges 按钮,打开对话框,如图8-6 所示。

图8-6 Define Ranges 对话框

在Minimum 窗口和Maximum 窗口,分别填上与多选变量进行列联分析的那个变量的的最小值和最大值,同时激活Continue 按钮。单击Continue 按钮返回多选变量列联分析对话框。4.确定输出内容

单击Options 按钮,打开对话框,如图8-7 所示。

图8-7 Options 对话框

该对话框包括了三个选项栏。

(1)Cell Percentages 是在输出的列联表的每个单元格中输出百分比的选项栏。

1)Row 是输出行百分比(以行总数为分母)。

2)Column 是输出列百分比(以列总数为分母)。

3)Total 是输出总百分比(以总数为分母)。

多选变量由于是对多个同样变量的选择结果进行了合并。因此选择总数要大于个案总数。相应输出的边缘频率分布也有两种。一种是以个案总数为分母计算的,一种是以选择总数(Responses)为分母计算的。

(2)Match variables across response sets 是确定使用选择数还是个案数的选项。

如果选择了该项,则输出与多选变量进行列联分析的匹配变量的选择数和以选择总数为基础计算的边缘频率分布。如果不作此项选择,系统将输出与多选变量进行列联分析的匹配变量的个案数和以个案总数为基础计算的边缘频率分布。

(3)Percentages Based on 是确定列联表中的百分比计算是采用个案数(Cases)还是以回答总数(Responses)作分母的选项栏。系统默认的是采用个案数作分母。

(4)Missing Value 是处理缺失值的方法的选项栏。

1)Exclude cases listwise within dichotomoes 是排除在二分名义变量中的缺失值。2)Exclude cases listwise within categories 是排除在分类变量中的缺失值。

上述选项做完以后,单击Continue 按钮,返回多选变量列联分析对话框。

5.单击OK 按钮,提交运行。系统将在输出文件Output 窗口中输出列联分析结果。

8.3.2对实例:对多选变量“娱乐”与“性别”进行列联分析。

打开数据文件“休闲调查1”后,执行下述操作:

1.Analyze→Multiple Response→Crosstabs 打开如图8-5 所示的对话框。

2.在左侧单选变量集窗口选择“性别”进入Column(s)窗口,在多选变量集窗口中选

择“娱乐”进入Row(s)窗口,此时Define Ranges 按钮被激活。

3.单击Define Ranges 按钮,打开如图8-6 所示的对话框。在Minimum 窗口中填入1,

在Maximum 窗口中填入2(1 和2 是变量“性别”的最小值和最大值)。单击Continue 按钮,返回多选变量列联分析对话框。

4.单击Options 按钮,打开如图8-7 所示的对话框。在Cell Percentages 选项栏中选

择Row 选项。单击Continue 按钮,返回多选变量列联分析对话框。

5.单击OK 按钮,提交运行。可在输出窗口中看到输出文件表8-2。从表中可以看

出,有效的Cases 数是283 个,有效的回答数是681 个。表中的数据是回答数而不是Cases 数。表中的百分比是基于回答数计算的。从表中可以看出,男性“结交朋友”和“为了更好地工作”两相的选择上明显高于女性,而女性在“愉悦精神忘却烦恼”选择上明显高于男性。表8-2 多选变量列联分析输出表

SPSS统计分析教程列联表分析

2 列联表分析(Crosstabs) 列联表是指两个或多个分类变量各水平的频数分布表,又称频数交叉表。SPSS的Crosstabs过程,为二维或高维列联表分析提供了22种检验和相关性度量方法。其中卡方检验是分析列联表资料常用的假设检验方法。 例子:山东烟台地区病虫测报站预测一代玉米螟卵高峰期。预报发生期y为3级(1级为6月20日前,2级为6月21-25日,3级为6月25日后);预报因子5月份平均气温x1(℃)分为3级(1级为16.5℃以下,2级为16.6-17.8℃,3级为17.8℃以上),6月上旬平均气温x2(℃)分为3级(1级为20℃以下,2级为20.1-21.5℃,3级为21.5℃以上),6月上旬降雨量x3(mm)分为3级(1级为15mm以下,2级为15.1-30mm,3级为30mm以上),6月中旬降雨量x4(mm)分为3级(1级为29mm以下,2级为29.1-36mm,3级为36mm以上)。数据如下表。 山东烟台历年观测数据分级表() 注:摘自《农业病虫统计测报》 131页。 1) 输入分析数据 在数据编辑器窗口打开“”数据文件。 数据文件中变量格式如下: 2)调用分析过程 在菜单选中“Analyze-Descriptive- Crosstabs”命令,弹出列联表分析对话框,如下图 3)设置分析变量 选择行变量:将“五月气温[x1],六月上气温[x2],六月上降雨[x3],六月中降雨[x4]”

变量选入“Rows:”行变量框中。 选择列变量:将“玉米螟卵高峰发生期[y]”变量选入“Columns:”列变量框中。 4)输出条形图和频数分布表 Display clustered bar charts: 选中显示复式条形图。 Suppress table: 选中则不输出多维频数分布表。。 5)统计量输出 点击“Statistics”按钮,弹出统计分析对话框(如下图)。 Chi-Square: 卡方检验。选中可以输出皮尔森卡方检验(Pearson)、似然比卡方检验(Likelihood-ratio)、连续性校正卡方检验 (Continuity Correction)及Fisher精确概率检验(Fisher’s Exact test)的结果。 Correlations: 选中输出皮尔森(Pearson)和Spearman相关系数,用以说明行变量和列变量的相关程度。 Nominal: 两分类变量的关联度(Association)测量 Contingency Coefficient: 列联系数,其值越大关联性越强。 Phi and Cramer’s V:Cramer列联系数,其值越大关联性越强。 Lambda: 减少预测误差率,1表示预测效果最好,0表示预测效果最差。 Uncertainty Coefficient: 不定系数 Ordinal: 两有序分类变量(等级变量)的关联度测量 Gamma: 关联度,+1表示完全正关联,-1表示负关联,0表示无联。 Somers’d:列联度,其取值范围和意义同上。 Kendall’s tau-b: Nominal by Interval: 一个定性变量和一个定量变量的关联度

第七章 列联表分析

第七章列联表分析 7.1 列联表(Crosstabs)分析的过程 7.2 列联表的实例分析 7.1 列联表 (Crosstabs) 分析的过程 列联表分析的过程是对两个变量之间关系的分析方法。被分析的变量可以是定类变量也可以是定序变量。系统是通过生成列联表对两个变量进行列联表分析的。 列联表分析的功能可以通过下述操作来实现。 图7-1 列联表分析对话框 1.打开列联表分析对话框 执行下述操作: Analyze→Descriptive→Crosstabs 打开Crosstabs 对话框如图7-1 所示。 2.确定列联分析的变量 从左侧的源变量窗口中选择两个定类变量或定序变量分别进入Row(s)(行)窗口和Column(s)(列)窗口。进入Row(s)窗口的变量的取值将作为行的标志输出,而进入Column(s)窗口的变量的取值将作为列的标志输出。Display clustered bar charts 是在输出结果中显示聚类条图。Suppress table 是隐藏表格,如果选择此项,将不输出R×C 列联表。 3.选择统计分析内容 单击statistics 按钮,打开statistics 对话框,如图7-2 所示。

图7-2statistics 对话框 下面介绍该对话框中的选项和选项栏的内容: (1)Chi-square 是卡方(X2)值选项,用以检验行变量和列变量之间是否独立。适用于定类变量和定序变量。 (2)Correlations 是皮尔逊(Pearson)相关系数r 的选项。用以测量变量之间的线性相关。适用于定序或数值变量(定距以上变量)。 (3)Nominal 是定类变量选项栏。选项栏中的各项是当分析的两个变量都为定类变量时可以选择的参数。 1)Contingency coefficient:列联相关的C 系数,由卡方系数修正而得。 2) Phi and Cramer's V:列联相关的V 系数,由卡方系数修正而得。 3)Lambda:λ系数。 4)Uncertainty Coefficient:不定系数。 (4)Ordinal 是定序变量选项栏。选项栏中的各项是当分析的两个变量都为定序变量时可以选择的参数。 1)Gramma:Gramma 等级相关系数。 2)Somers’d:Somers 等级相关d 系数。 3)Kendall’s tau-b:肯得尔等级相关tau-b 系数。 4)Kendall’s tau-c:肯得尔等级相关tau-c 系数。 (5)Nominal by Interval 选项栏中的Eta 是当一个变量为定类变量,另一个变量为数值变量时,测量两个变量之间关系的相关比率。 系统默认状态是不输出上述参数。如需要可自行选择。上述选择做完以后,单击Continue 返回到Crosstabs 对话框。 4.确定列联表内单元格值的选项 单击Cells(单元格)按钮,打开Cell Display 对话框,如图7-3 所示。

应用SPSS软件进行列联表分析

应用SPSS软件进行列联表分析 在许多调查研究中,所得到的数据大多为定性数据,即名义或定序尺度测量的数据。例如在一项全球教育水平的研究中,调查了400余人的个人信息,包括性别、学历、种族等,对原始资料进行整理就可以得到频数分布表。 定义四个变量:gender(性别)、educat(学历)、minority(种族)、count(人数),其中前三个为分类变量,并且gender变量取值为0、1,标签值定义为:0表示female,1表示male;educat变量取值为1、2、3,标签值定义为:1表示学历低,2表示学历中等,3表示学历高;minority变量值为0、1,标签值定义为:0表示非少数种族,1表示为少数种族。下面做gender、educat、minority的三维列联表分析及其独立性检验。数据文件如图1所示。 图1 第一步:用“count”变量作为权重进行加权分析处理。从菜单上依次选Data--weight Cases 命令,打开对话框,如图2所示。

图2 点选Weight Cases by项,并将变量“count”移入Frequency Variable栏下,之后单击OK按钮。 第二步:从菜单上依次点选Analyze--Deseriptive Statistics--Crosstabs命令,打开列联分析对话框(Crosstabs),如图3所示。 图3 第三步:在Crosstabs对话框中,如图4将变量性别gender从左侧的列表框内移入行变量Row(s)框内,并将受教育年限编码后得到的学历变量educat移入列变量Column(s)框内(若

此时单击OK按钮,则会输出一个2*3的二维列联表)。这里要输出一个三维列联表,将变量种族minority作为分层变量移入Layer框中,并且可以勾选左下方的Display clustered bar charts项,以输出聚集的条形图,如图8图9所示。 图4 第四步:选择统计量,单击Cosstabs对话框下侧的Statistics按钮,打开其对话框,如图5 所示。 图5 在Statistics对话框内,勾选Chi-square项,以输出表2进行独立性检验。这里由于不是定距

上机练习3列联表分析与方差分析

上机练习 3 列联表分析与方差分析 本上机练习的主要目的:熟悉如何利用SPSS与Excel进行列联表分析及方差分析。本练习所使用数据文件为 和“Salary.sav”。“carown.dat”、“fastfood.sav” 1. 列联表分析 Q:如何利用列联表分析考察家庭成员数与家庭所拥有汽车数之间 的关系?(数据文件为“Carown.dat”) 在这之前,我们首先检验各变量是否存在野码(wild code)或异常值 (outlier),这可以通过频数表以及箱形图(boxplot)来判断。 在家庭成员数的频数表中,我们发现,有一个样本的家庭成员数为0,而 ,该样本取值在其范围之外,即为野码(wild 该变量的取值范围为[1, +∞] code)。对于野码的处理,一般可以采用将该样本的此变量设为缺失值或 直接去掉该样本的做法。

在家庭所拥有汽车数的频数表中,我们发现,有一个样本的家庭所拥有汽 车数为9,显然是一个极端值。我们利用boxplot也证实了该样本为一个异常值(outlier)。异常值处于该变量的正常取值范围内,但可能会对该 变量的相关统计结果产生较为严重的影响。对于异常值的处理,一般可以 采用直接去掉该样本的做法或者根据情况进行调整。而对于上述我们发现 的异常值来说,我们可以直接去掉该样本。 在上述数据清理的工作完成之后,我们可以开始进行列联表分析。因为列 联表分析只适用于分类变量,我们需要利用Transform Recode Into Different Variables…对家庭人数以及家庭所拥有汽车数进行分类,分别 定义新变量member1和cars1与之对应。具体对应关系如下: 旧变量新变量新变量类别旧变量新变量新变量类别

第12章 列联表和对应分析

第十二章 列联表和对应分析 我们前面介绍的相关分析可以用来分析定量变量之间的关系,但不能用于定性变量的分析。本章介绍的列联表检验和对应分析方法则可以用来分析定性变量之间的关系。 第一节 列联表与独立性检验 【例12.1】美国的一般社会调查(General Social Survey )是由美国芝加哥大学的民意调查中心进行的一项随机抽样调查,调查对象为18岁以上的成年人。调查中获得了居民的婚姻状况和幸福状况方面的数据。下面我们根据1996年的调查结果来分析两个变量之间的关系(数据文件gss96.sav )。在调查中,婚姻状况的取值为已婚、丧偶、离异、分居和未婚(分别用1-5表示);幸福状况的取值为:非常幸福、比较幸福和不太幸福(分别用1-3表示)。在SPSS 软件中打开数据文件,选择“分析”→“描述统计”→“交叉表”,把“婚姻状况”设为行变量,把“幸福状况”设为列变量,可以得到表12-1所示的列联表。从表中我们可以看出,从婚姻状况看,已婚人员的比重最高;从幸福状况看,比较幸福的人员比重最高。但从表中我们很难直观地看出两个变量之间的内在联系。 表12-1 婚姻状况和幸福状况列联表 幸福状况 合计 非常幸福 比较幸福 不太幸福 婚姻状况 已婚 574 726 82 1382 丧偶 70 149 59 278 离异 83 292 79 454 分居 14 73 30 117 未婚 136 419 99 654 合计 877 1659 349 2885 要研究二维列联表中的两个变量是否相互独立,可以使用我们在非参数检验中讲过χ2 检验。检验的零假设和备择假设为 H 0:婚姻状况和幸福状况这两个变量相互独立;H 1:婚姻状况和幸福状况不相互独立。 假定样本量为n ,列联表有r 行、s 列,表中各行的合计值分别为r i R i ,,2,1,Λ=,各列的合计值分别为s j C j ,2,1,Λ=。每个单元格中的频数为j i O ,。在零假设成立,即行变量和列变量相互独立时,每个单元格频数的期望值可以按照式(12-1)计算: n C R n n C n R E j i j i ij ?= ??= (12-1) 显然,如果期望频数ij E 和观测频数ij O 相差不大,则零假设可能是正确的;如果二者差别很大,则零假设可能不成立。按照式(12-2)构造检验统计量:

列联表分析

列联表分析 【例1】性别与所喜爱颜色的调查表。 双向列联表:性别×颜色 【程序】 proc freq data=SASUSER.data9_01; tables SEX*COLOR / CHISQ NOPERCENT NOROW; weight F; run; 【例3】下面数据是某个“统计入门”课程的数据,记录了该课程中所有学生的性别和专业 (“是”为统计专业,“非”为其他专业)。对数据进行整理生成列联表并分析。 【操作:解决方案-分析-分析家调入数据统计-表分析】 【程序】 *** Table Analysis ***; proc freq data=SASUSER.data9_03; tables SEX*MAJOR; run;

【例5】雇员情况数据集Employee变量有:性别(gender)、工种(jobcat)、薪水(salary) /薪水等级(salaryrank,分高(=1)100人,中(=2)200人,低(=3)其他人)、初薪(begsalary) /薪水等级(begsalaryrank,分高(=1)100人,中(=2)200人,低(=3)其他人)和受教 育年限。试作三向、四向、五向列联表。 【程序prog9_05_1】三向表:对性别、薪水等级和工种的情况进行统计(生成2张表) *** Table Analysis ***; proc freq data=SASUSER.data9_05; tables GENDER*SALARYRANK*JOBCAT; run; 【程序prog9_05_3】五向表:对性别、薪水等级、初薪等级、受教育年限和工种的情况进 行统计(生成18张表) *** Table Analysis ***; proc freq data=SASUSER.data9_05; tables GENDER*SALARYRANK*BEGSALARYRANK*EDUCATION*JOBCAT; run; 【例6】下表是一个由220名饮酒者组成的随机样本,对饮酒者进行酒类型偏好的调查。检 验性别与饮酒偏好是否有关?(α=0.05) 【程序】 data sasuser.data9_06; input sex wine people; datalines; 1 1 60 2 1 40 1 2 50 2 2 70 ; proc freq; weight people; tables sex*wine/chisq; run;

相关主题
文本预览
相关文档 最新文档