混杂偏倚confounding bias与交互作用课堂
- 格式:ppt
- 大小:3.16 MB
- 文档页数:41
医学科研中的偏倚与交互作用与控制第一节概念一、误差科研设计、实施及分析过程中产生的各种误差(error),可能导致研究结果不能真实地、精确地反映实际正确的结果。
误差是指对事物某一特征的度量值偏离真实值的部分,即测定值与真实值之差。
因此,必须有“金标准”(golden standard)或相对可靠的标准来度量真实值才能度量误差。
研究结果与真实情况的差异即为误差。
误差有两类:(1)随机误差(random error),(2)系统误差(systematic error)或称偏倚。
随机误差(random error):广义的随机误差,泛指因机遇不同估计总体参数时所产生的误差,机遇既可以指选择的机遇,也可以指时间的机遇。
如果误差由机遇以外的原因所造成,则为非随机误差。
狭义的随机误差指随机抽样所得均值对总体均值的误差。
随机误差主要是由抽样误差引起,其中包括一些随机测量误差。
抽样误差指随机抽样所得均值对总体均值的误差,它由总体中个体的变异引起,其大小决定于研究设计和评价指标的统计学特点。
抽样误差无一定方向,可以相互抵消,并可通过改进抽样技术(如严格遵守随机化原则,分层抽样,增加样本含量,重复试验以及提高抽样对象的受检率,减少失访率等)加以控制,但不可能完全避免。
因此在资料分析阶段,必须用统计学方法计算抽样误差的大小。
二、偏倚偏倚是指在调查研究设计或实施阶段,由于某种或某些因素的影响,使得研究或推论的结果与真实的情况存在系统误差,或指在研究或推论过程中所获得的结果系统地偏离其真实值,属于系统误差。
偏倚造成的结果与真值间的差异,具有方向性,它可以发生在高于真值的方向,也可发生在低于真值的方向。
偏倚是影响流行病学研究真实性的重要原因之一,由于有时难以得到判断真实性的金标准,因此即便在很严格的流行病学研究设计之下,也很难判断是否完全避免了偏倚。
尽管如此,如果对偏倚的来源和产生原因有了深刻的认识,则有可能最大限度地减少偏倚的发生,以便取得有价值的研究结果。
【1091】混杂因素与交互作用杂谈!统计学在科学研究中的最大的贡献,其实就是对误差的控制。
在控制相关因素导致的误差之后,我们才能得到的事物背后的必然规律。
在统计学的研究中,我们经常听说混杂因素和交互作用,今天就带大家认识一下混杂与交互!1.混杂因素混杂因素(confouding)是指能同时导致研究因素和研究疾病,若在比较的人群组中分布不均衡,可以夸大或者缩小研究因素与疾病之间真实的联系的因素。
混杂模式图混杂因素的条件:①必须是所研究疾病的独立危险因子;②必须与研究因素(暴露因素)有关;③一定不是研究因素与研究疾病因果链上的中间变量。
2.交互作用交互作用(interaction)是指一个因素各个水平之间反应量的差异随其他因素的不同水平而发生变化的现象。
它的存在说明同时研究的若干因素的效应非独立。
交互作用的效应可度量一个因素不同水平的效应变化依赖于另一个或几个因素的水平的程度。
交互作用模式图3.统计分析(1)从统计学的角度来看,假设我们先建立一个简单线性回归模型:E(Y) = β0+β1X1(2)如果探讨变量X2是否是混杂因素,我们将变量X2作为一个新的自变量带入上面的线性模型:E(Y) = β0+β1X1+β2X2【如果β2回归系数有意义,说明X2是一个独立的混杂因素】(3)统计学角度来看,我们建立一个仅有两个自变量的线性回归模型:E(Y) = β0+β1X1+β2X2+β3X1X2【如果β3回归系数有意义,说明X1X2存在交互作用。
】4.松哥漫谈存在混杂那就发现了独立的风险因子,对于科学研究来说,已经有一定的价值。
而如果发现交互作用,那也称为发现了效应修饰因子,对于科学研究来说,价值更大。
正如你抓住了小偷,是不是已经很不错了;但是如果你还挖出了同伙,那价值是不是更大啦!所以对于发表高分论文的研究者而言,当您确定某个独立的风险因素之后,基于专业应该对可能因素进行交互作用分析。
将极大提高论文的价值。
如何识别和控制临床研究中的混杂与偏倚临床研究中常常充满各种人为的、客观的、明显的、潜在的混杂和偏倚。
然而,一项研究的质量很大程度上取决于研究者能否有效地识别和控制混杂和偏倚。
因为这直接影响到研究结果的可靠性和有效性。
1混杂(confounding)因素在临床研究中,常常存在一些非研究因素,它们与研究因素和研究结局之间有一定的关联,使真正的因果关系被其“修正”。
这些非研究因素就是混杂因素。
混杂因素有两个条件:①可影响结局,如可能促进或阻止阳性结局的发生;②它不均匀地分布于暴露组和非暴露组之间。
必须具备这两个条件才能构成混杂,危及研究结果。
我们要研究某因素A是否为某疾病B的致病因子,在这个研究中,我们必须警惕是否存在另一个因素C。
这个C也可能影响B,而且不均匀地分布在暴露于和不暴露于A的人群中。
下面举两个显而易见的例子说明。
例1:在一项研究吸烟是否导致消化性溃疡的研究中,需要考虑饮酒和喝茶可能是混杂因素。
吸烟人群中嗜茶和酗酒者的比率较高(不均等分布),饮酒和喝茶均可能促进消化性溃疡的发生(影响研究结局)。
所以如果忽略这些混杂因素,研究结果可能导致过分地估计吸烟对消化性溃疡的危险性。
例2:如果简单地用死亡率评价两所医院的诊疗水平,结果收治危重病人较多的医院却因死亡率高而被认为是诊疗水平低。
如果将住院病人的病情轻重这一混杂因素加以考虑,对两所医院的住院病人的病情进行权重积分,或加以标准化处理,这样就可以通过统计学方法进行校正,较准确地评价两所医院的诊疗水平。
之所以人们将随机对照试验称为金标准的临床医学研究,是因为它能通过随机分组而避免混杂因素的影响。
然而,随机对照试验不可能代替其他的研究策略。
各种观察性研究均不可避免存在混杂因素。
幸好统计学能帮助我们在资料分析时消除混杂因素的影响。
常用于控制混杂因素的方法有Mantal-Haenszel法和多元回归分析等。
限于篇幅,统计学方法不在这里讨论。
作为临床医生,首先必须认识,并在研究前充分考虑各种可能的混杂因素,否则在资料收集和记录时将它们遗漏了,等到资料分析时,再好的统计学家或统计学软件均无法弥补,辛辛苦苦收集的资料将前功尽弃。
混杂偏倚名词解释混杂偏倚(miscompensation bias)又称为多重共线性,是指通道之间由于存在着非线性关系而导致输入数据不能直接利用。
在处理和分析随机噪声时应考虑混杂偏倚,它常被看成是误差增大和谱变宽的原因。
(1)将同一个噪声加到所有通道上; (例如,对图像中的每个象素加上相同的噪声);(2)使用不同的滤波器组,不是根据具体情况选择最佳滤波器; (3)改变统计测量或测试程序,以期降低共线性带来的影响。
例如,假定有两个独立的传感器组测得同一幅图像的相关系数为0.8,现要用另外两个分别独立的传感器组分别测得相关系数。
结果显示出:除了混杂不严重之外,它们与独立传感器组的测试结果没有什么区别。
因此,假设认为在两个独立的传感器组之间并无明显的噪声。
(2)对传感器的输出信号进行单位抽样; (3)在每一个通道上都叠加噪声。
显然,当这三种方法同时进行时,系统总会遇到问题。
有人提出了一种自动方法来减少混杂,即预先对系统进行调整,以尽量使用一个特征通道,然后把剩下的个特征通道输出叠加在一起。
当通过混合后的个特征通道对原始图像进行测量时,输出就会受到某些干扰,但在很大的统计范围内不会产生严重的问题。
4、先抽取100个个别值,再加到总的样本上去。
那么在误差限内采用加权平均作为样本的代表值也是完全可以接受的。
混杂可以用来描述高斯噪声,这种噪声本身具有混杂的特性,具有简单的高斯函数形式。
(1)从这样的观点出发,我们认为可以忽略混杂的影响。
而且,即便混杂影响较大,也不会带来太严重的后果,因为可以用平滑滤波来解决这个问题。
(2)目前,已经提出了许多措施来减少共线性带来的影响。
这些方法包括:用更高的测试数据去进行校正,降低图像的相关度,选择不同的传感器,或者用平滑滤波来降低混杂的影响等。
6、这种方法在随机模型的数据处理中也是适用的。
将系统划分成若干部分,各部分做成独立的传感器,每次只检测一小部分的环境参数,其他未知部分则仍按照最初设想继续工作,并求得系统的输出。