第十一章 无序分类资料的统计分析
- 格式:doc
- 大小:149.00 KB
- 文档页数:9
无序资料与计量资料相关分析一.两组或多组计量资料的比较1.两组资料:1)大样本资料或服从正态分布的小样本资料(1)若方差齐性,则作成组t检验(2)若方差不齐,则作t’检验或用成组的秩和检验2)小样本偏态分布资料,则用成组的秩和检验2.多组资料:1)若大样本资料或服从正态分布,并且方差齐性,则作完全随机的方差分析。
如果方差分析的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:LSD检验,检验等)进行两两比较。
2)如果小样本的偏态分布资料或方差不齐,则作Wallis的统计检验。
如果 Wallis的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:用成组的秩和检验,但用方法校正P值等)进行两两比较。
二.分类资料的统计分析1.单样本资料与总体比较1)二分类资料:(1)小样本时:用二项分布进行确切概率法检验;(2)大样本时:用U检验。
2)多分类资料:用Pearson c2检验(又称拟合优度检验)。
2.四格表资料1)n>40并且所以理论数大于5,则用Pearson c22)n>40并且所以理论数大于1并且至少存在一个理论数<5,则用校正c2或用Fisher’s确切概率法检验3)n£40或存在理论数<1,则用Fisher’s检验3.2×C表资料的统计分析1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则行评分的CMH c2或成组的秩和检验2)列变量为效应指标并且为二分类,列变量为有序多分类变量,则用趋势c2检验3)行变量和列变量均为无序分类变量(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s确切概率法检验4.R×C表资料的统计分析1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则CMH c2或 Wallis的秩和检验2)列变量为效应指标,并且为无序多分类变量,行变量为有序多分类变量,作none zero correlation analysis的CMH c23)列变量和行变量均为有序多分类变量,可以作相关分析4)列变量和行变量均为无序多分类变量,(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s确切概率法检验三.Poisson分布资料1.单样本资料与总体比较:1)观察值较小时:用确切概率法进行检验。
《卫生统计学》思考题参考答案第一章绪论1、统计资料可以分为那几种类型?举例说明不同类型资料之间是如何转换的?答:(1)1定量资料(离散型变量、连续型变量)、2无序分类资料(二项分类资料、无序多项分类资料)、3有序分类资料(即等级资料);(2)例如人的健康状况可分为“非常好、较好、一般、差、非常差”5个等级,应归为等级资料,若将该五个等级赋值为5、4、3、2、1,就可按定量资料处理。
2、统计工作可分为那几个步骤?答:设计、收集资料、整理资料、分析资料四个步骤。
3、举例说明小概率事件的含义。
答:某人打靶100次,中靶次数少于等于5,那么该人一次打中靶的概率≤0.05,即可称该人一次打中靶的事件为小概率事件,可以视为很可能不发生。
第二章调查研究设计1、调查研究有何特点?答:(1)不能人为施加干预措施(2)不能随机分组(3)很难控制干扰因素(4)一般不能下因果结论2、四种常用的抽样方法各有什么特点?答:(1)单纯随机抽样:优点是操作简单,统计量的计算较简便;缺点是当总体观察单位数量庞大时,逐一编号繁复,有时难以做到。
(2)系统抽样:优点是易于理解、操作简便,被抽到的观察单位在总体中分布均匀,抽样误差较单纯随机抽样小;缺点是在某些情况下会出现偏性或周期性变化。
(3)分层抽样:优点是抽样误差小,各层可以独立进行统计分析,适合大规模统计;缺点是事先要进行分层,操作麻烦。
(4)整群抽样:优点是易于组织和操作大规模抽样调查;缺点是抽样误差大。
3、调查设计包括那些基本内容?答:(1)明确调查目的和指标(2)确定调查对象和观察单位(3)选择调查方法和技术(4)估计样本大小(5)编制调查表(6)评价问卷的信度和效度(7)制定资料的收集计划(8)指定资料的整理与分析计划(9)制定调查的组织措施4、调查表中包含那几种项目?答:(1)分析项目直接整理计算的必须的内容;(2)备查项目保证分析项目填写得完整和准确的内容;(3)其他项目大型调查表的前言和表底附注。
与这个地区人群的血型分布是否一致?53.计算χ统计量及自由度22()20.38A T Tχ−==∑10与消咳喘治疗慢性支气管炎的疗效是否相同?11数据,其余数据均由此派生。
13•一般地,R 行C 列的理论频数n :总频数n R :第R 行频数合计n C :第C 列频数合计•两个独立样本率的比较可用基本公式•亦可用上述基本公式的展开式n n n T CR =∑−=TT A 22)(χ)1(22−=∑CR n n A n χ14•四格表专用公式•在此,式(11-1)、(11-3)及(11-4)等价。
•由于受到“行频数合计等于n ,且列频数合计等于n ”条件的约束,自由度为•对于两独立样本四格表资料,自由度22()()()()()ad bc na b c d a c b d χ−=++++)(列数)行数11(−×−=ν11212(=−×−=)()ν151.建立检验假设,确定检验水准H 0:π1=π2,即两种药物治疗慢性支气管炎的疗效相同H 1:π1≠π2,即两种药物治疗慢性支气管炎的疗效不同α=0.05162.求检验统计量χ2值和自由度v•首先,计算a 、b 、c 、d 对应的理论频数。
•当然,在计算T 11基础上,其余三个理论数也可以按以下方式计算。
253.100237/19812011=×=T 747.19237/3912012=×=T 747.97237/19811721=×=T 253.19237/3911722=×=T 747.19253.10012012=−=T 747.97253.10019821=−=T 253.19747.9711722=−=T 17然后,计算检验统计量χ2值和自由度v•四个表专用公式:45.30 253.19)253.1935(747.97)747.9782(747.19)747.194(253.100)253.100116( )(222222=−+−+−+−=−=∑TT A χ1ν=×(2-1)(2-1)=222()()()()()(11635482)23730.44631(1164)(8235)(11682)(435)ad bc na b c d a c b d −=++++×−××==+×+×+×+χ183.确定P 值,下结论•查附表8,χ20.05,1=3.84,χ2=30.45>χ20.05,1,P<0.05,按α=0.05水准拒绝H 0,差别有统计学意义,可认为慢支口服液II 号治疗慢性支气管炎有效率高于消咳喘。
有时并不知道样本所代表的总体呈何分布
:该山区人群和这个地区人群的血型分布是一致的:该山区人群和这个地区人群的血型分布不一致
卡方检验是以卡方分布为基础的一种常用假设检验方法,主要用于分类变量,它基本的无效假设
为真时,实际观察数与理论数之差A i-T i
为真时,检验统计量
另一方面,残差大小是一个相对的概念,相对于期望频数为10时,20的残差非常大;可相对于期望频数为
从卡方的计算公式可见,当观察频数与期望频数完全
分布是一种连续性分布,而分类变量资料属离散性分布,由此得到的统计量也是不连续的。
为改
在实际工作中,对于四格表资料,通常规定
两种药物对急性细菌性肺炎
显然,本例对同一个个体有两次不同的测量,从设计的角度上讲可以被理解为自身配对设计
两种培养基白喉杆菌生长情况
+c)/2,对
由于该检验只考虑了不一致的情况(b与c),
McNemar检验(配对卡方检验)只会利用非主对角线单元格上的信息,即它只关心两者不一致的评价
2检验的范畴,但常
在四格表周边合计不变的条件下,在相应的总体中进行抽样,四格表中出现各种排列组合情况的
时的概率分布计算
家医院住院病人院内感染情况,随机抽查同一时期各医院住院病人院内感
血型有关,与对照组
备注
理论频数不宜太小,一般认为不宜有1/5以上格。
第十一章无序分类资料的统计分析的Stata实现
例11-1 根据某地区的血型普查结果可知,该地区人群中血型为O的占30%,血型为A的占25%,血型为B的占35%,血型为AB的占10%。
研究者在邻近该地区的一个山区人群中进行一个血型的流行病调查,在该山区人群中随机抽样调查了200人,检测这些对象的血型,表11-1给出了血型检测的结果。
问该山区人群与这个地区人群的血型分布是否一致?
表11-1 山区人群血型抽样调查结果
血型O A B AB 合计
人数50 70 50 30 200
例11-2 某研究小组为研究慢支口服液II号对慢性支气管炎治疗效果,以口服消咳喘为对照进行了临床试验,试验组120人、对照组117人(两组受试者病程、病情等均衡),疗程2周,疗效见表11-3。
问慢支口服液II号与消咳喘治疗慢性支气管炎的疗效是否相同?
表11-3 试验组与对照组疗效
组别有效无效合计有效率(%)试验组116 4 120 96.67
对照组82 35 117 70.09
合计198 39 237 83.54
1.建立检验假设,确定检验水准
0H :21ππ=,即两种药物治疗慢性支气管炎的疗效相同 1H :21ππ≠,即两种药物治疗慢性支气管炎的疗效不同
05.0=α
结果:
Pearson chi2(1) = 30.4463 Pr = 0.000,05.0<P ,按α=0.05水准拒
绝0H ,差别有统计学意义,可认为慢支口服液II 号治疗慢性支气管炎有效率高于消咳喘。
例11-3 为评价中西结合治疗抑郁发作的疗效。
将187例患者随机分为2组,两组患者均选用阿咪替林西医综合治疗,中西医结合组在上述治疗的同时,再配合中医辨证治疗,根据中医辨证分型采用不同的方剂,治疗结果见表11-5,问两种治疗方案的疗效有无差别?
表11-5 试验组与对照组疗效
组别 有效 无效 合计 有效率(%)
中西医结合组 92(88.973) 2(5.027) 94 97.87 西医组
85(88.027)
8(4.973)
93
91.40
注 ;括号内为理论频数 例11-3 假设检验步骤
1.建立检验假设,确定检验水准
0H :21ππ=,即两种治疗方案疗效相同 1H :21ππ≠,即两种治疗方案疗效不同
05.0=α Stata 命令:
结果:
本例需要用校正卡方,p=0.1005,两种治疗方案疗效的差异无统计学意义。
例11-4 为了解国产紫外线瞬间消毒器与进口高压蒸汽消毒机对牙科手机消毒灭菌的效果,将刚去腐揭卡过垢等待处理的牙科手机29个随机分为A 、B 两组,A 组为紫外线消毒组,B 组为高压蒸汽组。
消毒前细菌培养均为阳性,消毒后细菌培养结果见下表。
问两种消毒法消毒后细菌培养阳性率有无差别?
表11-6 两种方法消毒后细菌培养结果
组别 阳性 阴性 合计 A 10 5 15 B 1 13 14 合计 11
18
29
由于总频数29小于40,对两组阳性率的比较宜采用Fisher 精确概率检验,假设检验步骤如下:
1.建立检验假设,确定检验水准
0H :21ππ=,即两种方法消毒后细菌培养阳性率相同
1H :21ππ≠,即两种方法消毒后细菌培养阳性率不同
05.0=α
本例需要用Fisher's 确切概率法,p=0.002,两种方法消毒后细菌培养阳性率不同。
例11-5 为探讨埃兹蛋白(Ezrin )在胃癌组织中的表达情况,采用免疫组化法检测50
例胃癌组织、25例胃粘膜不典型增生和25例正常胃粘膜中Ezrin 的表达,结果见表11-9。
问不同胃组织Ezrin 表达阳性率是否相同?
表11-9 Ezrin 在不同胃组织中的表达
组别 观测例数 阳性例数 阴性例数 阳性率(%)
正常胃粘膜 25 7(15.250) 18(9.750) 28.0 不典型增生 25 11(15.250) 14(9.750) 44.0 胃癌组织 50 43(30.500)
7(19.500)
86.0 合计
100
61
39
61.0
注 :括号内为理论频数
这是一个3个样本率的比较问题,假设检验步骤为: 1.建立检验假设,确定检验水准
0H :321πππ==,即3种不同胃组织Ezrin 表达阳性率相等
1H :1π、2π、3π不全相等,即3种不同胃组织Ezrin 表达阳性率不全相等
05.0=α
结果:
H,差别有统计学意义,可认为3种不同胃组织Ezrin表05
.0
P,按α=0.05水准拒绝
<
达阳性率不全相等。
例11-6 为评价国产注射用头孢美唑钠(A)治疗中、重度呼吸系统细菌性感染性疾病的临床有效性及安全性,以先锋美他醇(B)为对照进行临床试验,入组受试者疾病类型构成情况见表11-10。
问A、B两组受试者疾病类型总体构成有无差别?
表11-10 两组受试者疾病类型
组别急性扁桃体炎肺炎急支炎慢支炎急发支扩伴感染
A 5(6.042)21(19.636)21(21.650)20(20.643)5(4.028)
B 7(5.958)18(19.364)22(21.350)21(20.357)3(3.972)
注:括号内为理论频数
这是一个2组构成比比较的问题,其假设检验步骤为:
1.建立检验假设,确定检验水准
H:A、B受试者疾病类型总体构成相同
H:A、B受试者疾病类型总体构成不同
1
α
05
=
.0
例11-7 将100份样品一分为二,分别用含血培养基与无血培养基接种培养,观察弯曲菌检出情况,结果如表11-12所示。
试问:两种培养基接种培养弯曲菌的阳性率是否相等?两种培养基培养结果间是否有关联性?
将表11-12整理为表11-13形式
表11-13 两种培养基弯曲菌检出结果
无血培养基
含血培养基
合计+ -
+ 52 17 69
- 8 23 31
合计60 40 100 0
H:两种培养基接种培养弯曲菌的阳性率相同
1
H:两种培养基接种培养弯曲菌的阳性率不同
05
.0
=
α
利用Stata的即时命令
结果为:
H,尚不能认为两种培养基接种培养弯曲菌的阳性率不05
.0
P,按α=0.05水准不拒绝
>
相同。
H:两种培养基培养结果之间无关联性
H:两种培养基培养结果之间有关联性
1
α
=
.0
05
Stata命令为:
结果为:
H,可认为两种培养基接种培养弯曲菌结果之间存在关联P,按α=0.05水准拒绝
05
<
.0
性。