SPSS统计分析教程列联表分析
- 格式:docx
- 大小:21.46 KB
- 文档页数:5
第七节计数数据统计分析的SPSS操作对于计数数据的统计分析,SPSS提供了不同的分析和检验方法,从总体上来说,大致可以分为:用于比率差异的非参数二项检验,用于离散型变量配合度检验的卡方检验、用于连续型变量配合度检验的单样本K-S检验和正态图检验法和用于独立性检验的列联表分析等,这一节我们简单介绍如何通过SPSS操作解决这些常见的计数数据分析的统计问题。
一、二项分布的非参数检验方法我们常常需要检验一个事件在特定条件下发生的概率是否与已知结论相同,如某地区出生婴儿的性别比例是否与通常男女各半的结论相符,或在一次抽样中,男女两性所占的比例是否与原先设计好的比例相符。
此时即可用二项分布(Binomial)方法进行检验。
下面结合具体数据说明Binomial方法在检验比率差异时的应用。
1.数据所用数据文件为SPSS目录下之GSS93 subset.sav。
这里我们将该数据文件另寸为“8-6-1.sav”。
该文件中有一变量SEX,是回答者的性别,我们想检验这些回答者的性别是否各占一半。
2.理论分析从上面数据来看,我们的目的是检验数据中男生和女生所占的比例是否相等,这等价于检验男生所占的比例是否等于0.5,可以用比例检验的方法进行检验。
在SPSS中对应于二项分布的检验(Binomial Test)过程。
3.二项分布检验过程(1)打开该数据文件后点击菜单Analyze,在下拉菜单中选择Nonparametrics Tests子菜单中的Binomial…,单击可进入二项检验(Binomial Test)的主菜单。
把SEX变量选入到检验变量表列中,其他选项请保持默认(图8-1)。
图8-1:二项分布检验主对话框(2)请单击Options…按钮,打开对话框如图8-2所示。
在此我们想同时在结果中输出一些描述统计量及百分位数,可设置如图所示。
设置完成单击Continue按钮回到主对话框。
图8-2:二项分布Options窗口(3)在主对话框中点击OK得到程序运行结果。
描述性统计分析(Descriptive Statistics)统计分析往往是从了解数据的基本特征开始的。
描述数据分布特征的统计量可分为两类:一类表示数量的中心位置,另一类表示数量的变异程度(或称离散程度)。
两者相互补充,共同反映数据的全貌。
这些内容可以通过SPSS中的“Descriptive Statistics”菜单中的过程来完成。
1 频数分析 (Descriptive Statistics - Frequencies)频数分布分析主要通过频数分布表、条形图和直方图,以及集中趋势和离散趋势的各种统计量来描述数据的分布特征。
下面我们通过例子来学习单变量频数分析操作。
1) 输入分析数据在数据编辑器窗口打开“data1-2.sav”数据文件。
2)调用分析过程在主菜单栏单击“Analyze”,在出现的下拉菜单里移动鼠标至“Descriptive Statistics”项上,在出现的次菜单里单击“Frequencies”项,打开如图3-4所示的对话框。
图3-4 “Frequencies” 对话框3)设置分析变量从左则的源变量框里选择一个和多个变量进入“Variable(s):”框里。
在这里我们选“三化螟蚁螟 [虫口数]”变量进入“Variable(s):”框。
4)输出频数分布表Display frequency tables,选中显示。
5)设置输出的统计量单击“Statistics”按钮,打开图3-5所示的对话框,该对话框用于选择统计量:图3-5 “Statistics”对话框① 选择百分位显示“Percentiles Values”栏:Quartiles:四分位数,显示25%、50%和75%的百分位数。
Cut points for 10 equal groups:将数据平分为输入的10个等份。
Percentile(s)::用户自定义百分位数,输入值0—100之间。
选中此项后,可以利用“Add”、“Change”和“Remove”按钮设置多个百分位数。
SPSS超详细操作:卡⽅检验(R×C列联表)医咖会之前推送过⼀些卡⽅检验相关的⽂章,包括:卡⽅检验(2x2)、卡⽅检验(2xC)、配对卡⽅检验、分层卡⽅检验等。
今天我们再和⼤家分享⼀下,如何⽤SPSS来做RxC列联表的卡⽅检验。
⼀、问题与数据研究者拟分析购房⼈与购房类型的关系,共招募了在过去12个⽉中有过购房记录的333位受试者,收集了购房⼈类型(buyer_type)和房屋类型(property_type)的变量信息。
其中研究对象类型按照单⾝男性(single male)、单⾝⼥性(single female)、已婚两⼈(married couple)和多⼈家庭(family)分类;房屋类型按照楼房(flat)、平房(bungalow)、独栋别墅(detached house)和联排别墅(terrace)分类,部分数据如下图。
其中,Individual scores for each paticipant(左图)列出了每⼀个研究对象的情况,⽽Total count data (frequencies)(右图)则是对相同情况研究对象的数据进⾏了汇总。
⼆、对问题的分析研究者想分析多种购房⼈类型与多种房屋类型的关系,建议使⽤卡⽅检验(R×C),但需要先满⾜3项假设:假设1:存在两个⽆序多分类变量,如本研究中购房⼈类型和房屋类型均为⽆序分类变量。
假设2:具有相互独⽴的观测值,如本研究中各位研究对象的信息都是独⽴的,不会相互⼲扰。
假设3:样本量⾜够⼤,最⼩的样本量要求为分析中的任⼀期望频数⼤于5。
本研究数据符合假设1和假设2,那么应该如何检验假设3,并进⾏卡⽅检验(R×C)呢?三、SPSS操作1. 数据加权如果数据是汇总格式(如上图中的Total count data),则在进⾏卡⽅检验之前,需要先对数据加权。
如果数据是个案格式(如上图中的Individual scores for each paticipant),则可以跳过“数据加权”步骤,直接进⾏卡⽅检验的SPSS操作。
SPSS基本统计分析(三):列联表分析1、引入在医学统计中,计数资料是非常常见的,比如(患病、未患病),(男、女),(有效、无效)等等,这类资料通常会被整理成列联表的形式,我们平常接触到的列联表多数都是二维的(R×C列联表)。
根据变量是否有序,又分为单向有序、双向有序属性相同、双向有序属性不同列联表,不同的列联表所用统计方法是不一样的。
在后续定性资料统计推断中我们会一一介绍其操作步骤,这节先通过一个例子看一下简单的2×2列联表的卡方检验(反映理论频数和实际频数的差异大小)过程。
2、问题与数据为了探讨吸烟与慢性支气管炎有无关系,调查了339人,结果如下:3、操作步骤3.1 数据录入注意数据的录入方式,给不同变量的不同分类定义新的标签值,这里,变量x代表是否吸烟:0代表吸烟,1代表不吸烟;变量y代表是否患病:0代表患病,1代表不患病。
3.2 数据加权因为数据是汇总格式,所以需要先对数据进行加权。
弹出个案加权对话框后,选择个案加权系数,激活频率变量,将人数放入频率变量栏中,点击确定。
3.3 卡方检验和Fisher精确检验将是否吸烟选入行,是否患慢性支气管炎选入列(结局变量放入列)点击精确,弹出的对话框中选择卡方点击格式,计数框中选择实测和期望,百分比框中选择列。
4、结果解读4.1个案处理摘要表中可以看出有效个案数、缺失个案数和总计个案数。
4.2交叉表由于使用卡方检验要求每个单元格频数不少于5,当条件不满足时,应当用Fisher精确检验。
由表格可以看出期望计数的最小值为22.14,大于5,所以可以直接采用卡方检验。
4.3卡方检验由结果得χ2=7.469,P=0.006<0.05,所以应该拒绝原假设,认为患慢性支气管炎与吸烟之间不是相互独立的。
研究问题时,当任何一个期望计数小于5时,便不再使用卡方检验,而是采用Fisher精确检验,由表格可以看出,本题的费希尔精确检验的双侧P值为0.007。
应用SPSS 软件进行列联表分析应用SPSS软件进行列联表分析在许多调查研究中,所得到的数据大多为定性数据,即名义或定序尺度测量的数据。
例如在一项全球教育水平的研究中,调查了400余人的个人信息,包括性别、学历、种族等,对原始资料进行整理就可以得到频数分布表。
定义四个变量:gender(性别)、educat (学历)、minority (种族)、count (人数),其中前三个为分类变量,并且gender变量取值为0、1,标签值定义为:0表示female,1表示male;educat变量取值为1、2、3,标签值定义为:1表示学历低,2表示学历中等,3表示学历高;minority变量值为0、1,标签值定义为:0表示非少数种族,1表示为少数种族。
下面做gen der.educa t minority的三维列联表分析及其独立性检验。
数据文件如图1所示。
ye Edit 辿ew Derta Transforfti Analyse Graphs Utlltie^ Add-cns Window Help®■昌国穷》8h再鄭H<5曲圜flj靄20图1第一步:用’Count”变量作为权重进行加权分析处理。
从菜单上依次选Data--weight Cases命令,打开对话框,如图2所示。
点选Weight Cases by项,并将变量“count”移入Frequency Variable栏下,之后单击OK按钮。
第二步:从菜单上依次点选An alyze--Deseriptive Statistics-Crosstabs命令,打开列联分析对话框(Crosstabs)如图3所示Fdi 迥 E住rH 丁 T W TPI►i : K 「Tl19CnprCdlK1 13131X5 0GCl 71H 1 9 1 tc 0 11皿F 耳第三步:在Crosstabs 对话框中,如图4将变量性别gender 从左侧的列表框内移 入行变量Row(s)框内,并将受教育年限编码后得到的学历变量educat 移入列变量Column(s)框内(若此时单击OK 按钮,则会输出一个2*3的二维列联表)。
列联表分析分析:从表中可以看出,每箱数量的低、中、高与品牌偏好的低、中、高基本一致,说明每箱数量对是有影响的。
分析:从表中可以看出,价格低时,品牌偏好度不高,而在价格高时,品牌偏好高的一组值达到了87.8%,说明价格对品牌偏好有明显的影响。
分析:从表中可以看出,价值低时,品牌偏好不明显,价格适中时,品牌偏好有高值的趋势,价值高时,品牌偏好度达到了88.0%,说明消费者在考虑产品的价值时,品牌偏好比较明显。
分析:从表中可以看出,在护肤的低、中、高三组中,品牌偏好度高的比例都比较高,说明消费者在考虑产品护肤时,有较高的品牌偏好。
分析:从表中可以看出,在样式的低、中、高三组中,品牌偏好度高的比例都比较高,说明消费者在考虑产品样式时,有较高的品牌偏好。
分析:从表中可以看出,随着吸水性由低到高,品牌偏好的高值比例也在增加,说明吸水性越好,品牌选择偏好越明显。
分析:从表中可以看出,随着渗漏值由低到高,品牌偏好的高值比例也在增加,说明渗漏越差,品牌选择偏好越明显。
分析:从表中可以看出,在舒适度上,品牌偏好的高值比例一直都很高,说明在考虑产品的舒适度时,品牌偏好非常明显。
分析::从表中可以看出,在考虑舒胶带时,品牌偏好的高值比例一直都很高,说明在考虑产品是重复粘贴胶带还是普通胶带时,品牌偏好非常明显。
分析:这是控制了价格时的每箱数量和品牌偏好,可以看出,在价格低时,每箱数量的低、中、高与品牌偏好的低、中、高还是有关系的,但是与没有控制价格时相比,两者之间的关系被削弱了。
价格适中时,也是如此。
在价格高时,关系更加清晰。
分析:这是控制了样式时的护肤与品牌偏好,可以看出,在样式低组和中组,护肤与品牌偏好之间原有的关系被逆反了,只有在样式的值高的时候,护肤与品牌偏好才有一定正向相关关系。
分析:这是控制胶带时的舒适度与品牌偏好,可以看出,控制胶带以后,舒适度与品牌偏好完全一致,这加强了舒适度与品牌偏好之间原有的高度相关性。
2 列联表分析(Crosstabs)
列联表是指两个或多个分类变量各水平的频数分布表,又称频数交叉表。
SPSS的Crosstabs过程,为二维或高维列联表分析提供了22种检验和相关性度量方法。
其中卡方检验是分析列联表资料常用的假设检验方法。
例子:山东烟台地区病虫测报站预测一代玉米螟卵高峰期。
预报发生期y为3级(1级为6月20日前,2级为6月21-25日,3级为6月25日后);预报因子5月份平均气温x1(℃)分为3级(1级为16.5℃以下,2级为16.6-17.8℃,3级为17.8℃以上),6月上旬平均气温x2(℃)分为3级(1级为20℃以下,2级为20.1-21.5℃,3级为21.5℃以上),6月上旬降雨量x3(mm)分为3级(1级为15mm以下,2级为15.1-30mm,3级为30mm以上),6月中旬降雨量x4(mm)分为3级(1级为29mm以下,2级为29.1-36mm,3级为36mm以上)。
数据如下表。
山东烟台历年观测数据分级表()
注:摘自《农业病虫统计测报》 131页。
1) 输入分析数据
在数据编辑器窗口打开“”数据文件。
数据文件中变量格式如下:
2)调用分析过程
在菜单选中“Analyze-Descriptive- Crosstabs”命令,弹出列联表分析对话框,如下图
3)设置分析变量
选择行变量:将“五月气温[x1],六月上气温[x2],六月上降雨[x3],六月中降雨[x4]”
变量选入“Rows:”行变量框中。
选择列变量:将“玉米螟卵高峰发生期[y]”变量选入“Columns:”列变量框中。
4)输出条形图和频数分布表
Display clustered bar charts: 选中显示复式条形图。
Suppress table: 选中则不输出多维频数分布表。
5)统计量输出
点击“Statistics”按钮,弹出统计分析对话框(如下图)。
Chi-Square: 卡方检验。
选中可以输出皮尔森卡方检验(Pearson)、似然比卡方检验(Likelihood-ratio)、连续性校正卡方检验
(Continuity Correction)及Fisher精确概率检验(Fisher’s Exact test)的结果。
Correlations: 选中输出皮尔森(Pearson)和Spearman相关系数,用以说明行变量和列变量的相关程度。
Nominal: 两分类变量的关联度(Association)测量
Contingency Coefficient: 列联系数,其值越大关联性越强。
Phi and Cramer’s V:Cramer列联系数,其值越大关联性越强。
Lambda: 减少预测误差率,1表示预测效果最好,0表示预测效果最差。
Uncertainty Coefficient: 不定系数
Ordinal: 两有序分类变量(等级变量)的关联度测量
Gamma: 关联度,+1表示完全正关联,-1表示负关联,0表示无联。
Somers’d:列联度,其取值范围和意义同上。
Kendall’s tau-b:
Nominal by Interval: 一个定性变量和一个定量变量的关联度
Eta:关联度统计量。
Kappa:吻合度系数,其取值-1至+1,其值越大吻合程度越高。
Risk:危险度分析。
McNemar:配对计数资料的卡方检验。
Cochran’s and Mantel-Haenszel statistics:检验在协变量存在下,两个二分类变量是否独立。
6) 设置列联表的显示
单击“Cells”按钮,弹出列联表显示内容对话框(如下图)。
Counts: 频数
Observed: 观测频数。
Expected: 期望频数。
Percentages: 百分比
Row: 占本行的百分比。
Column: 占本列的百分比。
Total: 占全部的百分比。
Residuals: 残差分析
Unstandardized: 非标准化残差分析。
Standardized: 标准化残差分析。
Adj. Standardized: 调整的标准化残差分析。
Noninteger Weights:
⊙ Round cell counts: 临近列计算。
○ Truncate cell counts:。
○ Round case Weights临近记录度量
○ Truncate case Weights
○ No adjustments: 不调整。