当前位置：文档之家› 应用SPSS软件进行列联表分析

应用SPSS软件进行列联表分析

在许多调查研究中，所得到的数据大多为定性数据，即名义或定序尺度测量的数据。例如在一项全球教育水平的研究中，调查了400余人的个人信息，包括性别、学历、种族等，对原始资料进行整理就可以得到频数分布表。

定义四个变量：gender（性别）、educat（学历）、minority（种族）、count（人数），其中前三个为分类变量，并且gender变量取值为0、1,标签值定义为：0表示female，1表示male;educat变量取值为1、2、3，标签值定义为：1表示学历低，2表示学历中等，3表示学历高；minority变量值为0、1，标签值定义为：0表示非少数种族，1表示为少数种族。下面做gender、educat、minority的三维列联表分析及其独立性检验。数据文件如图1所示。

图1

第一步：用“count”变量作为权重进行加权分析处理。从菜单上依次选Data--weight Cases 命令，打开对话框，如图2所示。

图2

点选Weight Cases by项，并将变量“count”移入Frequency Variable栏下，之后单击OK按钮。

第二步：从菜单上依次点选Analyze--Deseriptive Statistics--Crosstabs命令，打开列联分析对话框(Crosstabs),如图3所示。

图3

第三步：在Crosstabs对话框中，如图4将变量性别gender从左侧的列表框内移入行变量Row(s)框内，并将受教育年限编码后得到的学历变量educat移入列变量Column(s)框内（若

此时单击OK按钮，则会输出一个2*3的二维列联表）。这里要输出一个三维列联表，将变量种族minority作为分层变量移入Layer框中，并且可以勾选左下方的Display clustered bar charts项，以输出聚集的条形图，如图8图9所示。

图4

第四步：选择统计量，单击Cosstabs对话框下侧的Statistics按钮，打开其对话框，如图5 所示。

图5

在Statistics对话框内，勾选Chi-square项，以输出表2进行独立性检验。这里由于不是定距

及定比尺度测量的数据，因此可以不选择简单相关系数Correlations 项。接下来根据数据的类型而选择相应的列联相关的测量值：在定类数据Nominal 栏下，勾选列联系数Contingency coefficient 和Phi and Cramer ’s V 选项（这里Phi 系数可以不选，因它只用于2*2的列联表，但SPSS 把它与Cramer 的V 统计量放在一个选项上，也就只好一并选上了），以及Lamabda 和不确定系数Uncertainty coefficient 。也可选择定序数据Ordinal 栏下得Gamma 、Somers 的d 、Kendall 的b τ和c τ。至于Nominal by Interval 栏下的Eta 选项就不必选了，因为这里不是定距及定比尺度测量的数据。单击Continue 按钮回到Crosstabs 主对话框。

第五步：单击Crosstabs 对话框下侧的Cells 按钮，打开其对话框，如图6所示。在Cell Display 对话框内，勾选Counts(计数)栏下的Observed(观测频数)与Expected(期望频数)两个选项；并勾选Percentage 百分栏下得Row(行百分比)、Column(列百分比)和Total(总百分比)三个选项。由此，可以输出列联表（如表1）。单击Continue 按钮回到Crosstabs 主对话框。

图6

第六步：单击Crosstabs 对话框下侧的Format 按钮，打开Table Format 对话框，如图7所示。它只是一个输出格式的定义，行序（Row Order ）按照Ascending(升序)还是Descending(降序)排列，系统隐含设置是按照Ascending(升序)排列（事实上，一般不必打开此对话框，只用系统隐含设置即可）。单击Continue 按钮回到Crosstabs 主对话框。

图7

第七步：在Crosstabs对话框中，单击OK按钮执行。

输出结果如表1~4所示。

表1性别、学历、种族交叉表

表2卡方检验表

表3方向性测度

表4对称性测度

在三维列联表中，结合图7图8，可以看出：非少数种族的女性低学历的比例为72.9%,高于男性低学历的比例25.8%;而相反女性高学历的比例仅为0.6%，远远低于男性高学历的比例。在少数种族中，从低学历至高学历，无论男女都是同样的递减趋势，即低学历的所占比百分比高，中等学历的所占百分比其次，最少的就是高学历的所占百分比，只不过女性这种趋势更明显，分别为75%、25%、0%。

图8

图9

χ=93.724，非常大，相应的p值小于0.001.因此在0.001的显著水在非少数种族类型中：2

平下高度显著，即拒绝：性别与学历相互独立的原假设，两者之间具有高度显著的相关关联。由聚集的条形图可以直观的看到：女性低学历比例比男性高，同时男性高学历比例又比女性高。

χ=5.926，p=0.052>0.05,因此在0.05的显著水平下，没有理由拒绝在少数种族类型内：2

两个变量独立的原假设，表示性别与学历这两个变量之间相互独立，没有显著的相关关联。

在表3的方向性测度(Directional Measures)中，有两类系数：不确定系数（Uncertainty Coefficient）和Somers’d。每种系数均有三种形式：对称的（Symmetric）、以性别为因变量的及以学历为因变量的。事实上，我们关心的是两种形式——对称的（Symmetric）和以学历为因变量的。在这里非少数种族的对称不确定系数为0.173，而少数种族的对称不确定系数为0.050；并且以学历为因变量的非少数种族的对称不确定系数为0.148，而少数种族的列联相关程度高于少数种族的。

在对称性测度（Symmetric Measures）中，Crammer的V值列联表系数、Kendall的τ系数值以及γ值（Gamma）,非少数种族的上述各项值均高于少数种族的，显示出预测力以非少数种族更强。事实上，在少数种族的Crammer的V值列联表系数的近似的p值为0.052，在0.05的显著水平下不显著。

在列联表分析中，列联表的分布除了观察值的分布外，还要构造条件百分比表。这个百分比就是由于对比的基数不同，从而分为行百分比、列百分比和总百分比。所以，列联表由于维数的增加而使得它所包含的信息要比“单个变量”的频数（包括频率）分布表包含的信息多得多，由此我们可以分析出来的内容也更加丰富有价值。

参考文献：数据分析与SPSS应用高祥宝董寒青编著，清华大学出版社

第4章 SPSS基本统计分析(课后练习参考)

第三章 1、利用习题二第6题数据，采用SPSS数据筛选功能将数据分成两份文件。其中，第一份数据文件存储常住地是“沿海或中心繁华城市”且本次存款金额在1000至5000之间的调查数据；第二份数据文件是按照简单随机抽样所选取的70%的样本数据。第一份文件：选取数据数据——选择个案——如果条件满足——存款>=1000&存款<5000&常住地=沿海或中心繁华城市。第二份文件：选取数据数据——选择个案——随机个案样本——输入70。 2、利用习题二第6题数据，将其按常住地（升序）、收入水平（升序）、存款金额（降序）进行多重排序。排序数据——排序个案——把常住地、收入水平、存款金额作为排序依据分别设置排列顺序。 3、利用习题二第4题的完整数据，对每个学生计算得优课程数和得良课程数，并按得优课程数的降序排序。计算转换——对个案内的值计数输入目标变量及目标标签，把所有课程选取到数字变量，定义值——设分数的区间，之后再排序。 4、利用习题二第4题的完整数据，计算每个学生课程的平均分以及标准差。同时，计算男生和女生各科成绩的平均分。方法一：利用描述性统计，数据——转置学号放在名称变量，全部课程放在变量框中，确定后，完成转置。分析——描述统计——描述，将所有学生变量全选到变量框中，点击选项——勾选均值、标准差。先拆分数据——拆分文件按性别拆分，分析——描述统计——描述，全部课程放在变量框中，选项——均值。方法二：利用变量计算，转换——计算变量分别输入目标变量名称及标签——均值用函数mean完成平均分的计算，标准差用函数SD完成标准差的计算。数据——分类汇总——性别作为分组变量、全部课程作为变量摘要、（创建只包含汇总变量的新数据集并命名）——确定 5、利用习题二第6题数据，大致浏览存款金额的数据分布状况，并选择恰当的组限和组距进行组距分组。根据存款金额排序，观察其最大值与最小值，算出组数和组距。转换——重新编码为其他变量——将存款金额作为输出变量——定义输出变量的名称及标签——设定旧值和新值. 6、在习题二第6题数据中，如果认为调查中“今年的收入比去年增加”且“预计未来一两年收入仍会增加”的人是对自己收入比较满意和乐观的人，请利用SPSS的计数和数据筛选功能找到这些人。转换——对个案的值计数——设定目标变量及标签——将“今年的收入比去年增加”和“预计未来一两年收入仍会增加”两个变量选中——定义值。 7、对习题二第5题数据，选择恰当的加权变量进行加权处理进而还原为原始数据为后续分析做准备。数据——加权个案——点击加权个案——将人数作为频率变量——确定。第四章

SPSS基本统计分析

第6章SPSS基本统计分析 6-1定距变量的描述统计 1、有关概念（1）均值Mean （2）标准差Standard Deviation与方差Variance （3）最小值Minimum、最大值Maximum与总和Sum （4）极差Range （5）峰度Kurtosis （6）偏度Skewness ☆正态：偏度为0的分布 ☆右偏态：偏度大于0 ☆左偏态：偏度小于0 （7）均值的标准误差Standard error of Mean 主要用来描述样本均值与总体均值之间平均差异程度的统计量 2、操作（1）基本菜单选项 ——Statistics ->Summarize ->Descriptive ——将需要描述的变量放入Variables选择框（2）其他重要的菜单选项 Save Standardized values as variable 将变量标准化处理（3）Option选项 ☆选择描述统计量 ☆选择统计量的输出顺序Display Order 3、syntax Descriptive variable=relative friend others /STATISTICS=Mean stddev variance range min max semean kurtosis skewmess. 6-2 定序与定类变量的统计描述一、频数、百分比

1、有关概念（1）频次与频率（2）百分比与有效百分比 2、操作 3、syntax FREQUENCIES variables=commtype ethnic hktype /STATISTICS=MODE /ORDER=ANALYSIS. FREQUENCIES all. 二、分位值Percentile Value 1、有关概念（1）分位点与分位点数（2）分位点与分位值 2、菜单操作方法：频数统计的其他选项——Statistic选项 ——Chart —— format Order by Suppress MutipleVariable 3、syntax: FREQUENCIES V ARIABLES=relative friend others /NTILES=4 /NTILES=10 /STATISTICS=MODE /ORDER=ANALYSIS. 三、异质性指数（index of qualitatitive variation） 1、概念异众比率：异质性指数： 2、计算方法 IQV=A/M