当前位置：文档之家› 第九章常见偏倚及其控制

第九章常见偏倚及其控制

第九章常见偏倚及其控制(Biases and Their Control）

第一节研究结果的变异性

1、研究结果的变异性（Variability）数据（指标）的变动或波动。它可存在于不同水平，包括个体水平，群体水平和样本（研究）水平。

2、变异性的来源：⑴生物学（真实）变异和测量变异：物学变异反映真实的客观变异，测量变异反映测量过程的误差。⑵随机变异和系统变异：随机变异（误差）的绝对值和方向（符号）交错变化，并呈有界范围的正态分布。系统变异（误差）的绝对值和方向保持恒定。测量误差分为随机误差和系统误差。

3变异的水平：⑴个体水平的变异性：指某个体特征测量值的变化，它可以是个体真值随时间的改变，也可以是由于测量误差引起的变化

⑵群体水平的变异性：可以看成是各个体的累计变异，因为构成群体的各个体具有不同的遗传素质并受到不同的环境影响。群体的变异程度常常大于个体的变异。也受到测量误差的影响。

⑶样本水平的变异性：指通过不同样本的研究所得结果的差异性。

第二节研究的真实性

一、概述

研究真实性或效度（Validity）指研究收集的数据、分析结果和所得结论与客观实际的符合程度。

研究误差是研究真实性的反面。

研究误差的两种常见类型：随机误差(random error)

系统误差(systematic error)

随机误差(random error)：指随机抽样所得统计量与总体参数的差异

由抽样（机遇）所致，通常与测量过程及其它变量的影响无关，无方向性

可通过统计学方法估计和评价

是不可避免的，但通过合理的设计、正确的抽样（加大样本量等）可使之减小

系统误差(systematic error)

随机误差以外的误差，任何研究都有发生的可能

在流行病学调查研究中系统误差又叫偏倚（bias）

可以通过严格的设计、实施、分析来尽可能地控制

重复试验及增加样本含量并不能减小系统误差

研究的可靠性或信度（reliability）亦称精确度（precision），就是反映研究结果中随机误差大小的程度，随机误差小则研究信度高。

二、内部真实性

内部真实性internal validity指研究结果与实际研究对象真实情况的符合程度,它回答一个研究本身是否真实或有效。改善措施：限制研究对象的类型和研究的环境条件。

三、外部真实性

外部真实性（external validity）研究结果与推论对象真实情况的符合程度，又称为普遍性（generalizability）。它回答一个研究能否推广应用到研究对象以外的人群。

改善措施：增加研究对象的异质性，使得研究对象的代表性范围扩大。如：多中心临床试验的开展

第三节研究的偏倚

1946年，Berkson做最著名的偏倚研究并给予证实，又称为Berkson偏倚。选择偏倚

1976年，Miettinen详细讨论了偏倚的定义，并给出分类框架，分三类信息偏倚

混杂偏倚

一、选择偏倚（selection bias）

㈠定义：研究对象的选取过程中，由于选取方式不当，导致入选对象与未入选对象之间存在系统差异，由此造成的偏倚称为选择偏倚。例如研究对象采用志愿者，方便样本，或者研究对象的无应答或失访等。

㈡常见的种类：

1、入院率偏倚（admission rate bias）也叫Berkson偏倚，当利用医院病人作为病例和对照时，由于各种疾病的入院率不同导致病例组与对照组某些特征上的系统差异而导致的系统误差

常见于以医院为基础的病例对照研究、临床防治试验、预后判断等。

2、现患病例—新病例偏倚（prevalence-incidence bias）也称奈曼偏倚（Neyman’s bias）在病例对照研究或现况研究中，用于研究的病例一般是现患病例或存活病例，由于形成的病例样本与单纯由新病例构成的样本暴露特点等不同，致使调查结果出现的系统误差

在病例对照和现况研究中产生此偏倚的原因：⑴用于研究的病例一般是研究时的存活者- 现患病例（暴露特点和死亡病例不同）⑵某些病人在患病后，可能会改变其原来某些因素的暴露状况

3、检出征候偏倚（detection signal bias）在疾病和暴露之外存在一个征候因素，即一种临床症状或体征；这种症状或体征不是疾病的危险因素，但人们因具有这种征候去就诊，从而提高了早期病例的检出率；致使过高地估计了暴露程度，因而发生了系统误差，最终可能得出该征候因素与该疾病有联系的错误结论

4、无应答偏倚和志愿者偏倚(non-respondent and volunteer bias)：无应答者是指研究对象中那些因为各种原因不能回答调查研究工作所提出的问题的人。一项研究工作中的无应答者可能在某些重要特征或暴露上与应答者不同，由此产生的偏倚称为无应答偏倚。常见于现况研究和队列研究。大学生健康状况调查

志愿者偏倚是与无应答偏倚相对的情况

5、时间效应偏倚：

㈢选择偏倚控制方法

1、建立健全的健康信息系统（health information system,HIS）

2、采用严格的科学的研究设计，了解整个研究中可能出现的选择偏倚

严格掌握研究对象纳入排除标准

取得研究对象合作，减少无应答、失访

病例对照研究中尽量选择新诊断的病人作研究对象；用医院病人作研究对象时，尽量采用多种对照

二、信息偏倚（information bias）

㈠定义又称测量偏倚（measurement bias）或观察偏倚（observation bias），是来自于测量或资料收集方法的问题，使得获取的资料存在系统误差。由于流行病学的暴露或疾病多为分类测量，所以信息偏倚又可称为错误分类（错分）偏倚（misclassification bias）。

表现为研究对象的特征被错误分类

由于所收集的有关暴露或疾病的信息不准确或不完整，造成对研究对象的归类错误

差异错分（differential misclassification）暴露或疾病的错误分类同研究分组有关，各比较组间存在差异；由于错误分类组间存在差异的偏向可能不同,所以造成高估或低估研究效应值无差异错分（non-differential misclassification）暴露或疾病的错误分类同研究分组无关，各比较组间不存在差异；

在多数情况下模糊了研究组的差异，一般使研的效应值偏低(OR趋向1)

㈡差异性信息偏倚的两种常见类型

回忆偏倚（recall bias）产生于研究对象记忆过去活动和暴露能力的差异。不可避免

调查者偏倚（interviewer bias）产生于调查者对研究对象有差异性地收集信息。采取盲法，可以降低调查者偏倚。

㈢信息偏倚的控制：

①明确资料收集方法和严格质量控制②尽可能采用“盲法”收集资料③尽量收集客观指标的资料铅暴露④采用调查技巧避免回忆偏倚⑤严格的调查设计和研究人员的科学态度⑥调查之前应开展预调查

三、混杂偏倚（confounding bias）

㈠定义是指暴露因素与疾病发生的相关(关联)程度受到其他因素的歪曲或干扰。

混杂的本来含义是“混合掺杂”( mixing together )，这里是指暴露因素对疾病的独立效应与混杂因素的效应混在一起，造成对暴露因素效应的估计偏差。

㈡混杂因素的判断条件：必须同时具备以下三个条件：

①必须是所研究疾病的独立危险因素

②必须与所研究的暴露因素存在统计学联系

以上是判断可疑混杂因素的两项基本条件

③不应是暴露因素与疾病因果链中的一个环节或中间变量（否定或排除条件）（饮酒-肝硬化-肝癌）

㈢混杂偏倚引起的假关联

Ⅰ继发关联（secondary association）是一种纯粹由混杂偏倚产生的关联。即怀疑的病因（暴露）E与疾病D并不存在因果关系，而是由于两者（E,D）有共同的原因C，E,D同C存在关联，从而继发产生E与D的关联。

Ⅱ直接因果关联的歪曲:如果怀疑的病因（暴露）E与疾病D既存在直接关联，又存在间接关联或与其他危险（保护）因素F存在相关，E与D的总关联等于E-D直接关联同E-F-D间接关联之和。如果直接关联与间接关联混在一起，而将其作为直接关联的估计，就会出现混杂偏倚。

㈣判定原则：比较混杂因素调控前后的暴露因素效应估计值，如果存在专业上有意义的差异（注意不是统计学的显著性差异），就产生了混杂偏倚。

㈤混杂偏倚的控制

设计阶段：采用随机化(randomization）、限制(restriction)进入或匹配(matching)

分析阶段：采用分层分析、标准化率分析、多变量分析

四、混杂偏倚的分层分析

M-H(Mantel-Haenszel)分层分析方法的步骤

对可能的混杂因素进行分层

判定层间RR或OR是否相等或相近

得到控制混杂后的调整RR或OR

再将调整RR或OR与分层前的粗RR或粗OR（cRR或cOR）进行比较

五、混杂偏倚与其它偏倚（选择及信息偏倚）的异同

相同：是一种系统误差，不能通过增大样本量来控制

不同：

①后两种偏倚主要都限于样本内，即人群中实际无此误差。

②而混杂偏倚不止是样本的问题。首先是某第三因子在目标人群中同所研究的结果变量存在固有的联系。

③一般偏倚（选择及信息偏倚）是一种错误，所造成的误差是我们不愿看到的，因此应尽量避免。

④对混杂偏倚来说，它告戒我们在下结论时应特别谨慎，但同时它在认识整个病因网的过程中起了一定的作用。因为混杂因子往往正是某个结果变量的危险因子，应尽量去发现。

⑤有时受科学知识的限制，在设计和分析阶段未对其作适当的处理，结论仍会有第三因子、第四因子的混杂。

偏倚及其控制

流行病学中常见的偏倚及其控制误差（error）对事物某一特征的测量值偏离真实值的部分。包括随机误差、系统误差随机误差：指随机抽样所得的均值与总体参数的差异，也称抽样误差。只能减少，不能避免。随机误差的两个特点 1、样本的观察值都在平均值上下分布，从许多无偏倚样本中得到的观察值均数，假如数量较大，总是趋向于接近总体值； 2、随机误差的范围可以用可信区间估计，当保持随机方法而加大样本时，样本均值逐渐向总体均值接近。系统误差：当对群体的某一特征做一次测量或对某一个体的某一特征做多次测量时，所得均值与总体间的真实性也会产生误差，如果误差向量的方向一致或基本一致时，这种误差称为系统误差。随机误差和系统误差的区别 1、假设一项研究可以将样本量增至无穷大，如果研究样本无穷大能使误差减小到零，则此误差为随机误差。系统误差不受样本量增加的影响，因此在研究样本无穷大时仍然存在的误差是系统误差； 2、适当的重复试验或增加样本含量可以减少随机误差，但不能减少系统误差。偏倚（bias）：指在流行病学研究中样本人群所测得的某变量系统地偏离了目标人群中该变量的真实值，使得研究结果或推论的结果与真实情况之间出现偏差，这是由系统误差造成的。选择偏倚（selection bias ）：指被选入到研究中的研究对象与没有被选入者特征上的差异所造成的系统误差。主要产生于研究的设计阶段，在各类流行病学研究中均可能发生，以在病例对照研究与现况研究中为常见。常见的选择偏倚 1、入院率偏倚（admission rate bias）亦称伯克森偏倚（Berkson’s bias）,是指利用医院就诊或住院病人作为研究对象时，由于入院率的不同或就诊机会的不同而导致的偏倚。用住院病例进行研究时可能没有包括： 1)抢救不及时死亡的病例 2)距离医院远的病例 3)无钱住院的病例 4)病情轻的病例 2、现患-新发病例偏倚（Prevalence-incidence bias）又称奈曼偏倚（Neyman bias）,凡因现患病例与新病例的构成不同，只调查典型病例或现患病例的暴露状况，致使调查结果出现的系统误差都属于本类偏倚。 3、无应答偏倚和志愿者偏倚（non-respondent bias and volunteer bias）无应答者指调查对象中那些因为各种原因不能回答调查研究工作所提出的问题的人。一项研究工作的无应答者可能在某些重要特征或暴露上与应答者有所区别。如果无应答者超过一定比例，就会使研究结果产生偏倚，即无应答偏倚。 4、检出征候偏倚（detection signal bias）亦称为揭露伪装偏倚（unmasking bias），指某因素与某疾病在病因学上虽无关联，担由于该因素的存在而引起该疾病症状或体征的出现，从而使患者及早就医，接受多种检查，导致该人群较高的检出率，以致得出该因素与该病相关联的错误结论。 5、易感性偏倚（susceptibility bias）有些因素可能直接或间接影响观察人群或对照人群对所研究疾病的易感性，导致某因素与某疾病间的虚假联系，由此产生的偏倚称为易感性偏倚。 6、排除偏倚（exclusive bias）在研究对象的确定过程中，没有按照对等的原则或标准，而自观察组或对照组中排除某些研究对象，这样导致因素与疾病之间联系的错误估计，称为排除

偏倚及其控制修订稿

偏倚及其控制 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

第十一章常见偏倚及其控制教案

常见偏倚及其控制（Biases and Their Control）流行病学研究结果的真实性（validity）是极其重要的问题，研究的真实性直接关系到能否获得正确的结论。进行流行病学研究时，不论采用任何研究方法，有许多因素可影响其准确性，使研究结果与真实值情况存在偏差，有时相去甚远。造成这种偏差的原因，归纳起来有两个方面：一是随机误差（random error），二是系统误差（systematic error）即偏倚（bias）。因此，研究者应尽可能地采取措施减少这两类误差的发生，减少随机误差以提高研究的精确性（精确度）（precision），减少或避免偏倚以提高研究的真实性（validity）。随机误差难以避免，可通过研究设计和统计学方法予以减少与评价。偏倚是随机误差以外的，可导致研究结果与真实情况差异的系统误差，其可发生于研究的各个环节，有方向性，理论上可以避免。偏倚的种类很多，一般将其分为三类，即选择偏倚（selection bias）、信息偏倚（information bias）和混杂偏倚（confounding bias）。【案例一】某研究者计划研究恶性黑色瘤同高血脂的关系，恶性黑色瘤病例取自医院，同时，他从医院某病区随机抽取相应人数的骨折患者作为对照。在某人群中，发现恶性黑色瘤患者共6000例，骨折患者也是6000例，在恶性黑色瘤患者或骨折患者中各有20%的人同时患有高血脂。并假定恶性黑色瘤、骨折、高血脂三者之间无任何关联，三者的入院率是相对独立。恶性黑色瘤和骨折相对于高血脂：χ2=0，P>0.05；OR=1200×4800/1200×4800=1.0 表明人群中恶性黑色瘤、骨折、高血脂三者之间并无关联。若该人群患恶性黑色瘤、骨折和高血脂的患者入院率分别为60%、25%、40%，那么以入院病人作为对象来研究恶性黑色瘤与高血脂和骨折与高血脂的关系，就可以得出以下的调查结果。恶性黑色瘤和骨折相对于高血脂：χ2=81.25，P=0.0000；OR=912×1200/660×2880=0.58 表明人群中高血脂是恶性黑色瘤的保护因素，而对骨折是一个危险因素。【问题的提出】一、流行病学中的偏倚及其种类？

第九章常见偏倚及其控制

第九章常见偏倚及其控制(Biases and Their Control）第一节研究结果的变异性 1、研究结果的变异性（Variability）数据（指标）的变动或波动。它可存在于不同水平，包括个体水平，群体水平和样本（研究）水平。 2、变异性的来源：⑴生物学（真实）变异和测量变异：物学变异反映真实的客观变异，测量变异反映测量过程的误差。⑵随机变异和系统变异：随机变异（误差）的绝对值和方向（符号）交错变化，并呈有界范围的正态分布。系统变异（误差）的绝对值和方向保持恒定。测量误差分为随机误差和系统误差。 3变异的水平：⑴个体水平的变异性：指某个体特征测量值的变化，它可以是个体真值随时间的改变，也可以是由于测量误差引起的变化 ⑵群体水平的变异性：可以看成是各个体的累计变异，因为构成群体的各个体具有不同的遗传素质并受到不同的环境影响。群体的变异程度常常大于个体的变异。也受到测量误差的影响。 ⑶样本水平的变异性：指通过不同样本的研究所得结果的差异性。第二节研究的真实性一、概述研究真实性或效度（Validity）指研究收集的数据、分析结果和所得结论与客观实际的符合程度。研究误差是研究真实性的反面。研究误差的两种常见类型：随机误差(random error) 系统误差(systematic error) 随机误差(random error)：指随机抽样所得统计量与总体参数的差异 ?由抽样（机遇）所致，通常与测量过程及其它变量的影响无关，无方向性 ?可通过统计学方法估计和评价 ?是不可避免的，但通过合理的设计、正确的抽样（加大样本量等）可使之减小系统误差(systematic error) ?随机误差以外的误差，任何研究都有发生的可能 ?在流行病学调查研究中系统误差又叫偏倚（bias） ?可以通过严格的设计、实施、分析来尽可能地控制 ?重复试验及增加样本含量并不能减小系统误差研究的可靠性或信度（reliability）亦称精确度（precision），就是反映研究结果中随机误差大小的程度，随机误差小则研究信度高。二、内部真实性内部真实性internal validity指研究结果与实际研究对象真实情况的符合程度,它回答一个研究本身是否真实或有效。改善措施：限制研究对象的类型和研究的环境条件。三、外部真实性外部真实性（external validity）研究结果与推论对象真实情况的符合程度，又称为普遍性（generalizability）。它回答一个研究能否推广应用到研究对象以外的人群。

实习五偏倚及其控制

实习五偏倚及其控制【目的】了解偏倚的类型及常见偏倚的测量与控制方法。【时间】～学时【内容】课题一：某研究所采用病例对照研究方法来研究服用缓泻药对风湿性关节炎的影响。选择社区人群病例和住院病例进行的两次研究结果见下表。不同来源研究对象的病例对照研究结果社区人群资料医院资料危险因素风湿性关节炎病例对照合计风湿性关节炎病例对照合计服用缓泻药未服缓泻药合计、如何解释两种不同来源研究对象研究结果的差异？其可能的原因是什么？、与以社区人群为研究对象相比，对以医院病例为对象的病例对照研究结果所产生偏倚的大小与方向予以测量。、在流行病学研究过程中，如何控制该种偏倚？课题二：在医院内做病例对照研究，调查大量饮用咖啡者心肌梗死的危险性是否提高，得出大量饮用咖啡对心肌梗死发病并无影响的结论。而队列研究得出，大量饮用咖啡者心肌梗死发病危险性是对照组的倍。问：可能存在何种偏倚影响病例对照研究的结果？分析其产生的原因。应如果控制？课题三：德国研究所开展了一项青少年健康状况的调查，共发出家庭问卷份，初步得到反馈问卷份。分析应答人群特征：非德国籍家庭应答率为％，德国籍家庭应答率为％；农村家庭应答率为％，城市家庭应答率为％；德国西部家庭应答率为％，德国东部家庭应答率为％，首都柏林家庭应答率为％。问：、你认为仅根据应答家庭的资料能否反映真实情况？为什么？、在流行病学调查研究过程中，可能产生无应答偏倚的原因有哪些？、如何控制与处理无应答偏倚？课题四：研究类风湿关节炎家族史的病例对照研究，选择类风湿关节炎病人为病例组时，有家族史者的，的％可信限为～。然而，再从病例家中未患类风湿关节炎的同胞兄弟姐

偏倚及其控制

偏倚及其控制文件编码（GHTU-UITID-GGBKT-POIU-WUUI-8968）

第九章偏倚及其控制概要

第九章偏倚及其控制一、学习要求 1. 应掌握内容偏倚的概念，以及流行病学三种主要偏倚的概念；控制混杂偏倚的分层分析方法的基本思路。 2. 需熟悉的内容研究真实性的概念，分类；选择偏倚、信息偏倚及混杂偏倚产生的原因及对结果真实性的影响。 3. 需了解的内容研究结果变异的概念及来源；分层分析的计算方法。二、学习要点（一）研究结果的变异性 1. 变异性的概念研究结果包括描述性和分析性数据（指标）的变动或波动，称为研究结果的变异性（variability）。 2. 变异性的来源与水平（1）变异的来源：包括生物学真实变异和测量误差，其中测量误差可再分为随机误差和系统误差。（2）变异的水平：包括个体水平、群体水平和样本水平三个层次。个体水平的变异性是指某个体特征测量值的变化，它可以是个体真值随时间的改变，也可以是由于测量误差引起的变化。群体水平的变异性可以看成是各个体的累计变异，因为构成群体的各个体具有不同的遗传素质并受到不同的环境影响。样本（研究）水平的变异性是指通过不同样本的研究所得结果的差异性。（二）研究的真实性 1. 真实性的概念及与研究变异性的关系（1）研究的真实性或效度（validity）是指研究收集的数据、分析结果和所得结论与客观实际的符合程度。（2）研究的误差是研究真实性的反面，反映了研究数据的测量误差的程度，因此包括系统误差和随机误差两部分。研究中的系统误差部分称为偏倚（bias）。研究中的随机误差大小用信度（reliability）来反映，信度越高则随机误差越小，反之则随机误差越大。 2. 内部真实性和外部真实性（1）内部真实性（internal validity）：是指研究结果与实际研究对象真实情

第九章偏倚及其控制

1．error 2．bias 3．validity 4．reliability 5．internal validity 6．external validity 7．selection bias 8．information bias 9．confounding bias 选择题 1．下列偏倚中不属于选择偏倚的是 A 入院偏倚 B 现患病例偏倚 C 回忆偏倚 D 志愿者偏倚 E 失访偏倚 2．下列措施中不能控制混杂的是（ A 匹配 B 随机化 C 分层分析 D 多变量分析 E 盲法简答题 1．研究变异的来源有哪些？ 2．何谓选择偏倚，如何对其进行控制？填空题 1．偏倚的类型分为、、。信息偏倚的种类：和，后者常见类型有和。参考答案

1．误差：是指研究结果与真实性的偏差，可分为随机误差和系统误差。 2．偏倚：即系统误差。样本人群测得的变量值系统地偏离了目标人群中该变量值的真实值，使在研究结果或推论结果时与真实情况间出现的偏差。可分为选择偏倚、信息偏倚和混杂偏倚。 3．真实性：也称效度，是指研究收集的数据、分析结果和所得结论与客观实际的符合程度。 4．可靠性：也称信度或精确度，是反映研究结果重随机误差大小的程度，随即误差小择研究信度高。 5．内部真实性：是指研究结果与实际研究对象真实情况的符合程度。 6．外部真实性：是指研究结果与推论对象真实情况的符合程度。 7．选择偏倚：是在研究对象的选取过程重，由于选取方式不当，导致入选对象与未入选对象之间存在系统差异。 8．信息偏倚：又称测量偏倚或观察偏倚，是来自于测量或资料收集方法的问题。 9．混杂偏倚：是指混杂因素对暴露因素与疾病发生的相关（关联）程度产生的歪曲或干扰。选择题 1.C 2.E 简答题 1．研究变异的来源有哪些？答：变异的来源分为两个层次：①生物学（真实）变异和测量变异，生物学变异反映真实的客观变异，测量的变异反映测量过程的误差。②随机变异和系统变异，随机变异（误差）的绝对值和方向（符号）交错变化，并呈有界范围的正态分布。系统变异（误差）的绝对值和方向保持恒定。 2．何谓选择偏倚，如何对其进行控制？答：是在研究对象的选取过程重，由于选取方式不当，导致入选对象与未入选对象之间存在系统差异。其控制措施为：严密掌握对象选取的各个环节，注意选取对象的代表性，避免有问题的选取方式，严格掌握对象的纳入与排除标准，以及增加应答和减少失访等。

文档之家

第九章常见偏倚及其控制

偏倚及其控制

偏倚及其控制修订稿

第十一章常见偏倚及其控制教案

第九章 常见偏倚及其控制

最新流行病学重点总结

实习五 偏倚及其控制

偏倚及其控制

第九章 偏倚及其控制概要

第九章 偏倚及其控制

第九章常见偏倚及其控制

实习五偏倚及其控制

第九章偏倚及其控制概要

第九章偏倚及其控制