用SPSS软件包构建列联表频数数据的简易方法
- 格式:pdf
- 大小:74.21 KB
- 文档页数:2
利用SPSS建立数据文件与维度分数一、建立数据文件的基本步骤1.问卷的审查与编号2.对问卷进行编码3.利用Data Editor数据编辑窗口建立数据文件◆打开SPSS,数据编辑窗口“Unititled SPSS Data Editor”中包含了两个子窗口:变量窗口(Variable View)和数据窗口(Data View),其中Variable View用来定义变量窗口Variable View中数据结构。
◆变量窗口中设有变量名(Name)、数据类型(Type)、变量名标签(Label)、变量值标签(Values)、测量等级(Measure)。
等。
◆将问卷中的各项作为变量(基本信息可用汉字,第一部分的题目依次用X1、X2……作为变量名,第二部分依次用Y1、Y2……作为变量名),并通过粘贴完成变量名标签,再做变量值标签。
◆单击数据编辑窗口下方的Data View,进入到数据窗口开始录入数据,对于缺失值可直接跳过去,作为系统缺失值处理(作为练习,请将Excel文件中的数据粘贴过来,然后保存)。
◆检查数据中的异常值:清理异常值可以分两步走:第一步,普查,即在所有的变量中,查找含有异常值的变量。
第二步,对于含有异常值的变量,查找异常值出现在哪一行,问卷的学号是多少,即看异常值出现在哪一份问卷中,并决定是否需要修改。
具体操作:(1)利用频数分析:第一步:依次单击Analyze→Descriptive Statistics→Frequencies,查找异常值第二步:利用排序(依次单击Data→ Sort Cases)或通过查询(将当前单元定位到要找的变量列的任何一个个案上,然后依次单击Edit→ Find,),找到异常值的位置并进行修改。
(2)利用数据探索:第一步:依次单击Analyze→Descriptive Statistics→Explore,将需进行分析的变量移入Dependent List框内,将变量“学号”作为标志变量移入Label Cases by框中,在输出结果中将指明异常值所在的问卷的学号,以便方便查找。
2 列联表分析(Crosstabs)列联表是指两个或多个分类变量各水平的频数分布表,又称频数交叉表。
SPSS的Crosstabs过程,为二维或高维列联表分析提供了22种检验和相关性度量方法。
其中卡方检验是分析列联表资料常用的假设检验方法。
例子:山东烟台地区病虫测报站预测一代玉米螟卵高峰期。
预报发生期y为3级(1级为6月20日前,2级为6月21-25日,3级为6月25日后);预报因子5月份平均气温x1(℃)分为3级(1级为16.5℃以下,2级为16.6-17.8℃,3级为17.8℃以上),6月上旬平均气温x2(℃)分为3级(1级为20℃以下,2级为20.1-21.5℃,3级为21.5℃以上),6月上旬降雨量x3(mm)分为3级(1级为15mm以下,2级为15.1-30mm,3级为30mm以上),6月中旬降雨量x4(mm)分为3级(1级为29mm以下,2级为29.1-36mm,3级为36mm以上)。
数据如下表。
山东烟台历年观测数据分级表()注:摘自《农业病虫统计测报》 131页。
1) 输入分析数据在数据编辑器窗口打开“”数据文件。
数据文件中变量格式如下:2)调用分析过程在菜单选中“Analyze-Descriptive- Crosstabs”命令,弹出列联表分析对话框,如下图3)设置分析变量选择行变量:将“五月气温[x1],六月上气温[x2],六月上降雨[x3],六月中降雨[x4]”变量选入“Rows:”行变量框中。
选择列变量:将“玉米螟卵高峰发生期[y]”变量选入“Columns:”列变量框中。
4)输出条形图和频数分布表Display clustered bar charts: 选中显示复式条形图。
Suppress table: 选中则不输出多维频数分布表。
5)统计量输出点击“Statistics”按钮,弹出统计分析对话框(如下图)。
Chi-Square: 卡方检验。
选中可以输出皮尔森卡方检验(Pearson)、似然比卡方检验(Likelihood-ratio)、连续性校正卡方检验(Continuity Correction)及Fisher精确概率检验(Fisher’s Exact test)的结果。
应用SPSS软件进行列联表分析在许多调查研究中,所得到的数据大多为定性数据,即名义或定序尺度测量的数据。
例如在一项全球教育水平的研究中,调查了400余人的个人信息,包括性别、学历、种族等,对原始资料进行整理就可以得到频数分布表。
定义四个变量:gender(性别)、educat(学历)、minority(种族)、count(人数),其中前三个为分类变量,并且gender变量取值为0、1,标签值定义为:0表示female,1表示male;educat变量取值为1、2、3,标签值定义为:1表示学历低,2表示学历中等,3表示学历高;minority变量值为0、1,标签值定义为:0表示非少数种族,1表示为少数种族。
下面做gender、educat、minority的三维列联表分析及其独立性检验。
数据文件如图1所示。
图1第一步:用“count”变量作为权重进行加权分析处理。
从菜单上依次选Data--weight Cases 命令,打开对话框,如图2所示。
图2点选Weight Cases by项,并将变量“count”移入Frequency Variable栏下,之后单击OK按钮。
第二步:从菜单上依次点选Analyze--Deseriptive Statistics--Crosstabs命令,打开列联分析对话框(Crosstabs),如图3所示。
图3第三步:在Crosstabs对话框中,如图4将变量性别gender从左侧的列表框内移入行变量Row(s)框内,并将受教育年限编码后得到的学历变量educat移入列变量Column(s)框内(若此时单击OK按钮,则会输出一个2*3的二维列联表)。
这里要输出一个三维列联表,将变量种族minority作为分层变量移入Layer框中,并且可以勾选左下方的Display clustered bar charts项,以输出聚集的条形图,如图8图9所示。
图4第四步:选择统计量,单击Cosstabs对话框下侧的Statistics按钮,打开其对话框,如图5 所示。
用SPSS进行列联表分析(Crosstabs)实例列联表分析(Crosstabs)列联表是指两个或多个分类变量各水平的频数分布表,又称频数交叉表。
SPSS的Crosstabs过程,为二维或高维列联表分析提供了22种检验和相关性度量方法。
其中卡方检验是分析列联表资料常用的假设检验方法。
例子:山东烟台地区病虫测报站预测一代玉米螟卵高峰期。
预报发生期y为3级(1级为6月20日前,2级为6月21-25日,3级为6月25日后);预报因子5月份平均气温x1(℃)分为3级(1级为16.5℃以下,2级为16.6-17.8℃,3级为17.8℃以上),6月上旬平均气温x2(℃)分为3级(1级为20℃以下,2级为20.1-21.5℃,3级为21.5℃以上),6月上旬降雨量x3(mm)分为3级(1级为15mm以下,2级为15.1-30mm,3级为30mm以上),6月中旬降雨量x4(mm)分为3级(1级为29mm以下,2级为29.1-36mm,3级为36mm以上)。
数据如下表。
注:摘自《农业病虫统计测报》131页。
1) 输入分析数据在数据编辑器窗口打开“data1-3.sav”数据文件。
数据文件中变量格式如下:2)调用分析过程在菜单选中“Analyze-Descriptive- Crosstabs”命令,弹出列联表分析对话框,如下图3)设置分析变量选择行变量:将“五月气温[x1],六月上气温[x2],六月上降雨[x3],六月中降雨[x4]”变量选入“Rows:”行变量框中。
选择列变量:将“玉米螟卵高峰发生期[y]”变量选入“Columns:”列变量框中。
4)输出条形图和频数分布表Display clustered bar charts: 选中显示复式条形图。
Suppress table: 选中则不输出多维频数分布表。
5)统计量输出点击“Statistics”按钮,弹出统计分析对话框(如下图)。
Chi-Square: 卡方检验。
用SPSS软件包构建列联表频数数据的简易方法王乐三 (湖南医科大学,长沙,410078)中图分类号:R195.1 文献标识码:A 统计软件包SPSS(S tatistical Package for the S ocial Science)给医学科研工作者统计分析提供了很大方便。
SPSS for Windows 版本推出后,使用者无需编写程序也可完成统计分析。
在医学统计教学、咨询和医学科研实践中,经常遇到对已列成列联表的频数数据的分析。
SPSS for Windows中Crosstabs过程中只对依据分类变量资料原始数据构建列联表的方法提供了介绍,国内一些介绍SPSS for Windows书籍中[1~2]对Crosstabs过程也只提供依据分类变量资料原始数据构建列联表方法的例题:个别作者则采用将已列成列联表的频数数据还原为原始数据的方法[2],但在实际操作中不方便且容易出错。
本文介绍一种用SPSS软件包中Weight Cases功能构建列联表频数数据的简易方法以达到通过Crosstabs等过程来完成统计分析。
1 二维列联表频数数据(以2×2表为例)111 实例例1.应用团体病例对照研究考察吸烟史与肺癌的关系,病例组108人中68人吸烟,对照组108人中49人吸烟,结果见表1。
问两组吸烟率有无差别?若有差别进而求比值比和总体比值比的95%可信限。
表1 吸烟史与肺癌关系的病例对照研究吸烟史病例对照合计吸烟 68 49 117不吸烟405999合计108108216112 统计分析(以spss for windows9.0为例,下同)11211 建立数据文件examplel.sav如下:sm oke group f1168124921402259注: sm oke为吸烟史指示变量;1代表吸烟,2代表不吸烟。
group为组别指示变量;1代表病例,2代表对照。
f为频数变量。
11212 构建及分析步骤1121211 通过“DAT A”→Weight Cases”打开“Weight Cases”对话框,激活“Weight Case by”选项;从左边源变量名称框中选择频数变量f作为权变量,将其选入“frequency variable”框中;单击“OK”图标按钮,执行加权命令。
⼀SPSS⼊门与⽤软件进⾏频数分析及画直⽅图⼀ SPSS基本操作⼊门运⽤SPSS进⾏数据分析的基本步骤:1、进⼊SPSS界⾯,界⾯介绍:SPSS 统计软件的主菜单及⼦菜单2、定义变量单击Variable View,进⼊变量编辑窗⼝,依次对所数据的名称、类型、宽度、⼩数点位数、标签等分别进⾏定义,做好数据输⼊准备⼯作。
3、输⼊数据(略)4、保存数据(略)5、预分析⽬的:探测数据究竟是否适合使⽤某种统计分析⽅法(1)简单描述描述数据的基本情况,包括集中趋势和离中趋势。
调⽤描述统计分析过程。
(2)图形描述统计指标只能给出数据的精确指标,但⽆法直观的体现分布情况,通常通过绘制统计图形来显⽰数据是否基本上呈正态分布。
6、统计分析结合题⽬要求以及预分析结果选择合适的统计分析⽅法。
7、保存和导出结果⼀般选择保存结果⽂件或者是导出结果保存结果⽂件:File——Save ,输出结果表现为*.SPO类型导出结果:右键——Export⼆频数分析与直⽅图摘要性分析是对原始数据进⾏描述性分析,这是统计⼯作的出发点。
统计学的⼀系列基本描述指标,不仅让⼈了解资料的特征,⽽且可启发⼈们对之作进⼀步的深⼊分析。
通过调⽤摘要性分析的诸个过程,可完成许多统计学指标,对于计量资料,可完成均数、标准差、标准误等指标的计算;对于计数和⼀些等级资料,可完成构成⽐、率等指标的计算和χ2 检验。
1 主要功能调⽤此过程可进⾏频数分布表的分析。
频数分布表是描述性统计中最常⽤的⽅法之⼀,此外还可对数据的分布趋势进⾏初步分析。
2 ⽤SPSS进⾏统计实例操作[例1] (P74)新⼤学毕业⽣⼯资,试作频数分析和画出直⽅图。
2.1 数据准备激活数据管理窗⼝,定义⼯资的变量名为X,然后输⼊成绩的原始数据,并保存。
2.2 统计分析点击Analyze菜单,选Descriptive statistics中的Frequencies...命令项,弹出Frequencies对话框。
应用SPSS 软件进行列联表分析在许多调查研究中,所得到的数据大多为定性数据, 即名义或定序尺度测量的数据。
例如在一项全球教育水平的研究中,调查了 400余人的个人信息,包括性别、学历、种族等, 对原始资料进行整理就可以得到频数分布表。
定义四个变量:gender (性别)、educat (学历)、minority (种族)、count (人数), 其中前三个为分类变量,并且 gender 变量取值为0、1,标签值定义为:0表示female ,1 表示male;educat变量取值为1、2、3,标签值定义为:1表示学历低,2表示学历中等,3表示学历高;minority 变量值为0、1,标签值定义为:0表示非少数种族,1表示为少数 种族。
下面做gender 、educat 、minority 的三维列联表分析及其独立性检验。
数据文件 如图1所示。
第一步:用"count ”变量作为权重进行加权分析处理。
从菜单上依次选 Data--weightCases 命令,打开对话框,如图2所示。
图1点选Weight Cases by 项,并将变量"count ”移入Frequency Variable 栏下,之后单击OK按钮。
第二步:从菜单上依次点选Analyze--Deseriptive Statistics-Crosstabs 命令,打开列联分析对话框(Crosstabs),如图3所示。
图3第三步:在Crosstabs对话框中,如图4将变量性别gender从左侧的列表框内移入行变量Row(s)框内,并将受教育年限编码后得到的学历变量educat移入列变量Column(s)框内(若此时单击 0K 按钮,则会输出一个 2*3的二维列联表)。
这里要输出一个三维列联 表,将变量种族 minority 作为分层变量移入 Layer 框中,并且可以勾选左下方的 Display clustered bar charts 项,以输出聚集的条形图,如图 8图9所示。
用SPSS软件包构建列联表频数数据的简易方法王乐三 (湖南医科大学,长沙,410078)中图分类号:R195.1 文献标识码:A 统计软件包SPSS(S tatistical Package for the S ocial Science)给医学科研工作者统计分析提供了很大方便。
SPSS for Windows 版本推出后,使用者无需编写程序也可完成统计分析。
在医学统计教学、咨询和医学科研实践中,经常遇到对已列成列联表的频数数据的分析。
SPSS for Windows中Crosstabs过程中只对依据分类变量资料原始数据构建列联表的方法提供了介绍,国内一些介绍SPSS for Windows书籍中[1~2]对Crosstabs过程也只提供依据分类变量资料原始数据构建列联表方法的例题:个别作者则采用将已列成列联表的频数数据还原为原始数据的方法[2],但在实际操作中不方便且容易出错。
本文介绍一种用SPSS软件包中Weight Cases功能构建列联表频数数据的简易方法以达到通过Crosstabs等过程来完成统计分析。
1 二维列联表频数数据(以2×2表为例)111 实例例1.应用团体病例对照研究考察吸烟史与肺癌的关系,病例组108人中68人吸烟,对照组108人中49人吸烟,结果见表1。
问两组吸烟率有无差别?若有差别进而求比值比和总体比值比的95%可信限。
表1 吸烟史与肺癌关系的病例对照研究吸烟史病例对照合计吸烟 68 49 117不吸烟405999合计108108216112 统计分析(以spss for windows9.0为例,下同)11211 建立数据文件examplel.sav如下:sm oke group f1168124921402259注: sm oke为吸烟史指示变量;1代表吸烟,2代表不吸烟。
group为组别指示变量;1代表病例,2代表对照。
f为频数变量。
11212 构建及分析步骤1121211 通过“DAT A”→Weight Cases”打开“Weight Cases”对话框,激活“Weight Case by”选项;从左边源变量名称框中选择频数变量f作为权变量,将其选入“frequency variable”框中;单击“OK”图标按钮,执行加权命令。
1121212 通过“Analyze”→“Descriptive S tatistics”→“Crosstabs”打开“Crosstabc”对话框;将左边源变量名称框中“sm oke”作为行变量调入”R ow(s)”下的矩形框:“group”作为列变量调入“C olcimn (s)”下的矩形框。
1121213 选择“Crosstabs”对话框中的“statistics”选项,在“Crosstabs:statistics”对话框中,激活“chi-square”、“Risk”→单击“continue”图标按钮,回到“Crosstabs”对话框。
1121214 在“Crosstabs”对话框中,单击“OK”图标按钮。
11213 主要结果输出如下,分析详见文献[3]。
Pears onχ2=6.732,d f=1,P=0.009;Mantel-Haenszelχ2=6.701, d f=1,p=0.010;比值比(OR)=21407;总体OR95%可信区间(CI)为11188~315272 多维列维表(以2×2×2表为例)211 实例例题2.用病例对照研究考察心肌梗死与饮用咖啡的关系,按吸烟与否分层后结果如表2试分析其结果。
表2 心肌梗死与饮用咖啡的病例对照研究饮咖啡史吸烟组病例对照合计不吸烟组病例对照合计饮咖啡16832200601676不饮咖啡590152742258104362合计758184942318120438212 统计分析21211 建立数据文件example2.sav如下:sm oke coffee group f sm oke coffee group f1 1 1 1682 1 1 601123221216121590221258122152222104注: sm oke为吸烟史指示变量;1代表吸烟,2代表不吸烟。
coffee为饮咖啡史指示变量;1代表饮咖啡,2代表不饮咖啡。
group为组别指示变量;1代表病例,2代表对照。
f为频数变量。
21212 构建及分析步骤2121211 通过“DAT A”→Weight Cases”打开“Weight Cases”对话框,激活“Weight Case by”选项;从左边源变量名称框中选择频数变量f作为权变量,将其选入“frequency variable”框中;单击“OK”图标按钮,执行加权命令。
2121212 通过“Analyze”→“Descriptive S tatistics”→“Crosstabs”打开“Crosstabc”对话框;将左边源变量名称中“coffee”作为行变量调入”R ow(s)”下的矩形框:“group”作为列变量调入“C olcimn(s)”下的矩形框;“sm oke”作为层变量(混杂因子)调入“layer l of”的矩形框。
2121213 选择“Crosstabs”对话框中的“statistics”选项,在“Crosstabs:statistics”对话框中,激活“chi-square”、“Risk”、“C ochran’s and Mantel-Haenszel S tatitics”→单击“continue”图标按钮,回到“Crosstabs”对话框。
2121214 在“Crosstabs”对话框中,单击“OK”图标按钮。
一起氯气中毒的调查陶柏文 赖燕 (湖南省劳动卫生职业病防治研究所,长沙 410007)中图分类号:R135.1+4 文献标识码:A 1999年3月30日湘西自治州某厂发生了一起造成职工和周围居民135人中毒,死亡3人的重大氯气中毒事件,现将调查结果报告如下。
1 中毒经过与临床表现3月30日18时该厂在给厂区生活饮用水消毒时使用一罐存放2年的015吨氯气罐,使用过程中发现钢瓶有一小裂缝,当时工人闻到剌鼻气味,感到有氯气泄漏,当即采取水封方法试图阻止氯气外泄,但未奏效,裂缝越来越大,最后整罐氯气全部外泄。
由于厂区与周围居民居住环境三面环山,加上夜间氯气向外弥散缓慢,尽管卫生与公安部门接到报告后全力抢救,疏散居民,但还是造成了135人中毒,死亡3人的重大事故。
中毒者,男72例,女63例,入院时都有不同程度的咳嗽、咳痰、眼红、流泪、胸闷、憋气症状,其中呼吸困难15例、咳粉红色泡沫痰7例。
查体,体温大于3715℃者43例,脉搏大于20次/ min者86例,血压低于90/60mmHg者2例,昏迷者2例,口唇明显发绀者15例,双肺可闻及干湿罗音者47例。
实验室检查,胸片示肺纹理增多增粗者82例,斑片状模糊阴影者32例,大片均匀密度增高阴影者13例,蝴蝶翼状阴影者2例,白细胞高于1010×109/L者43例。
上述情况按文献[1]分类,重度中毒16例,中度中毒32例,轻度中毒与氯气刺激反应87例。
经抢救治疗,1例死于中毒现场,2例死于呼吸衷竭,其余132例治愈出院。
2 现场监测由于事故发生突然,故没有立即对现场空气中的氯气浓度进行测定,第二天早晨8点布点监测现场空气中氯气浓度为:中心地带112mg/m3,按同心园半径增加500m布点结果分别为018mg/m3、015mg/m3、012mg/m3。
上述监测结果虽然距事故发生时间相隔14个小时,但中心地带氯气浓度仍然超过国家卫生标准,且离事故发生地点越近氯气浓度越高。
3 讨论氯气是一种强烈的刺激性气体[2],吸入呼吸道后即与粘膜上的水份化合生成次氯酸和新生态氧和盐酸,刺激粘膜和肺泡上皮细胞,临床上出现咳嗽、呼吸困难、进行性发绀和低氧血症、严重导致ARDS的出现,氯还可以损害中枢神经系统,引起植物神经功能紊乱,吸入高浓度氯气后,引起迷走神经反射性心跳骤停而出现“电击样”死亡[2]。
抢救成功的关键是使用同步呼吸机,当然早期、足量、短程应用糖皮质激素及常规使用抗生素等内科综合治疗也可起到非常重要作用。
急性氯气中毒在化工生产企业较为常见,企业一般都有一套完善的安全吸收处理装置及事故报警装置,因此事故发生时常能得到及时处理,造成的影响相对较小。
该厂属于食品生产企业,氯气仅在需要自己供应生活饮用水时使用,因而氯气钢瓶长期搁置未用。
由于缺乏设备保养措施,导致钢瓶破损,加之工人缺乏氯气泄漏后的应急知识,疏散措施滞后,是导致这起事故发生的重要原因,今后应引起高度重视。
参考文献 [1] 中国预防医学科学院标准处.职业病诊断国家标准汇编.北京:中国标准出版社.1992.42~43.[2] 顾学箕,王移兰,主编.劳动卫生学.第二版.北京:人民卫生出版社.1989.61~62.(收稿日期:1999-08-11)21213 主要结果输出如下,分析详见文献[3]。
吸烟组:Pears on x2=2.016,d f=1,P=0.156;Mantel-Haen2 szel x2=2.014,d f=1,p=0.156;OR=11353;95%CI为01890~21054不吸烟组:Pears on x2=1.861,d f=1,P=0.173;Mantel-Haenszel x2=1.857,d f=1,p=0.173;OR=11512;95%CI为01832~21745 OR同质性检验:Breslow-Day x2=01090,d f=1,P=01765汇总:Mantel-Haenszel x2=3.476,d f=1,p=0.062总体OR估计值=11403,95%CI为01997~119763 有序分类列联表有序分类的列联表的构建方法与上类似,根据分析研究目的调用Crosstabs、N onparametric T ests等过程的使用方法此处不再赘述。
参考文献 [1]卢纹岱,主编.SPSS for W indows从入门到精通.北京:电子工业出版社,1997.[2]马斌荣,主编.SPSS for W indows在医学科研统计中的应用.北京:科学出版社,1998.[3]章杨熙.流行病学常用的统计方法.中华流行病学杂志,1988,9(1):53~56.(收稿日期:1999-11-16)。