医学论文中统计学处理常见问题及应对措施
- 格式:doc
- 大小:17.50 KB
- 文档页数:2
医学论文常见统计学错误与纠正一、设计与实施1.对象合格标准不明确●只报告来源和时间段,总体不清晰:大杂烩,得不到科学结论;●事前未规定合格标准和排除标准,事后排除;●不报告按照合格标准和排除标准筛选对象的过程。
2.结局指标多而杂--是事先规定的最重要的结局指标,通常以此为准来计算样本量。
常见错误:终点指标过多, 大海捞针临床试验时,不知道哪个指标在组与组间有差异;“确定某个指标后,万一组间没有差异,岂不被动?!”生理、生化、组织学、基因,都做;“内容丰富,显得水平高?!”许多仪器一下子可以做许多项目;“许多项目一一分析,哪个有意义,就报告哪个指标?!”哪些指标可能有组间差异,必须心中有数。
假说:预计将要得到的结论——假说是科研的灵魂心中无数,不要“先上马再说”●指标多,实验工作量大。
大海捞针——碰运气,不是科研!●指标多,翻来覆去分析,制造假阳性!Nature杂志统计学指南:➢常见错误之一。
仅分析1个指标时,P(假阳性)=0.05,P(1次分析不犯错误)=0.95 λ,同时分析2个指标时,P(2次分析均不犯错误) = [P(1 次分析不犯错误)] 2 P(假阳性)=1 - 0.952 ≈ 0.10, 同时分析3 个指标时,P(假阳性)=1 - 0.953 ≈ 0.14 λ同时分析10个指标时,P(假阳性)=1 - 0.9510 ≈ 0. 40➢常见错误之一(Nature) ----多重比较不校正多重比较: 对一组数据作多项比较时,必须说明如何校正α水平,以避免增大第一类错误的机会---- Bonfferoni校正(α/k来校正,k为两两比较次数)3 不重视对照为何必需对照?●消除非研究因素的混杂实验组和对照组受非研究因素的影响尽可能相同,使两组的差异主要反映研究因素的效应。
●鉴别研究因素的效应和自然发展结果。
例如,研究某药物对口腔溃疡模型兔的疗效,口腔溃疡有自愈的倾向,必须有对照扣除自愈效应。
常见错误➢没有对照!千方百计省去对照组,以减少一半工作量!? ω自身前后对照/历史对照/文献对照/ “标准”对照➢对照不当ω对照太弱:安慰剂对照/对照过强:西药+加中药~西药/对照剂量有争议:试验药,大剂量~对照药,中小剂量/对照基线不可比:试验组年轻、病轻~ 对照组年老、病重应当如何?ω事先明确研究假说,例如,新药比常规药好:以常规药为对照ω设计:研究组新药~ 对照组常规药可比性:基线可比、过程可比、终点可比ω保证可比性措施:干预性研究: 随机化观察性研究:匹配4样本量无根据ω干预性研究:“ 500 例患者随机分成两组……” 为什麽500 例?不多不少?500 例从天而降?现成送上门来?ω观察性研究:“ 10年期间A组3000例,B组258例……” ---- 有多少用多少!?应当如何?---- 报告最小样本量估算及其依据1. 比较两组测定值的均数依据:(1)预计欲比较的两总体参数的差值δ(2)预计总体标准差σ(3)允许出现假阳性结果的机会α(4)允许出现假阴性结果的机会β :例:格列美脲、格列苯脲对比研究以HbA1c 为主要终点报告依据✓欲检出HbA1c临床差异≥0.65%✓假定标准差为1.3%✓双侧检验水平0.05✓功效80% ω✓退出率20% 计算:157例2. 比较两组达标率依据:(1)预计一组发生某结局的百分比为π1(2)预计另一组发生某结局的百分比为α(3)允许犯假阳性错误的机会β(4)允许犯假阴性错误的机会π2例:格列美脲、格列苯脲对比研究以HbA1c达标为主要终点(1)预计一组发生某结局的百分比为45%(2)预计另一组发生某结局的百分比为25%(3)允许犯假阳性错误的机会α= 5%(4)允许犯假阴性错误的机会β= 20% 计算: 176 例5. 随机化,说而不做,做而不严处理分配的随机化为什么这么重要?(1) 消除分配处理有意或无意的偏倚。
文章编号:1005-619X (2021)02-0223-02D O I 编码:10.13517/m .2021.02.042作者单位:066104应急管理部北戴河康复院中国疗养医学编辑部通信作者:丛乃霞医学论文中常见的统计学问题分析及对策丛乃霞陈颂医学统计学在医学科学研究中应用比较广泛。
在文献研究设计、实验观察、数据收集、资料分析、结果表达与解释、论文写作和发表等环节无不涉及统计学问题。
如果统计学内容出了差错,就会造成实验设计不合理、实验方法错误、数据错误,导致结果和结论出现偏差等严重问题,因此,医学论文正确运用统计学是保证科学研究可信度的关键,也是确保医学论文质量的关键[1-2]。
程亮星发现[3],《肿瘤基础与临床》编辑部修回稿件的直观性统计学差错分析中,796篇修回稿件,直观性统计学差错率为85.93%。
郝丽洁等[4]发现,某医学期刊413篇论文中,255篇存在统计学差错问题,发生率为61.74%。
汪媛等[5]发现,24种肿瘤学期刊中,18种期刊在论文报告值时出现了值的误用情况,占75.00%。
近几年,作者和编辑越来越重视统计学问题,但从作者投稿和出刊情况来看,统计学差错问题依然很多。
本文通过整理常见问题加以分析,希望引起作者和编辑的重视,减少统计学常见差错问题。
1一般资料和方法在《中国疗养医学》杂志稿件库中,随机抽取某一年100篇连续编号的文章,其中有3篇文章未涉及统计学内容,97篇文章纳入统计学分析,通过直观审核和SPSS 26.0软件统计分析判断正误。
2结果通过对97篇文章的审核,发现统计学问题比较突出,主要表现在5个方面,见表1。
3统计学问题分析3.1统计学方法描述不全面统计学方法描述过于简单和笼统,不能很好地解释和概况研究方法,编辑人员也无法审核研究方法的正误,统计学方法应写的具体和详细。
比如,对于计量资料,只写采用检验,没有写清楚具体采用了何种检验,因为检验包括单样本检验、独立样本检验和配对样本检验。
队列研究医学论文中常见统计学问题目的了解目前我国医学期刊中采用队列研究设计的文章中统计学方法的应用情况,发现问题并提出相应对策,以提高此类文章的数据处理及撰写水平。
方法检索2014~2015年中国知网、万方数据库收录的有关队列研究的论文,对其进行系统的统计学方法分析。
结果论文中普遍存在的统计学问题包括χ2检验和Logistic回归的误用、研究对象描述不清楚、结局事件及其判断标准描述不全面等。
结论论文作者应充分认识流行病与医学统计学方法在科学研究中的重要性,并具备一定的相关理论知识;期刊编辑部应加强论文的流行病与医学统计方法学的审查工作。
标签:医学期刊;队列研究;统计学问题;对策队列研究又称前瞻性研究、随访研究及纵向研究,是将一个范围明确的人群按是否暴露于某可疑因素及暴露程度分为不同的亚组,追踪其各自的结局,比较亚组之间结局的差异,从而判定暴露因子与结局之间有无因果关联以及关联大小的一种观察性研究方法[1]。
这里暴露是指研究对象接触过某种待研究的物质(如重金属等)、具备某种待研究的特征(如年龄、性别及遗传因素等)或行为(如吸烟等)[2]。
观察的结局主要是与暴露因子可能有关的结局。
队列研究中先因后果的时间顺序相对明确,受一些偏倚的影响小,是观察性研究方法中验证病因能力最强的研究方法[3],其证据等级仅次于严格设计的随机对照试验。
尽管我国的前瞻性队列研究起步较晚,但自20世纪八九十年代起也陆续开展了一些队列研究[4]。
如果这些研究未能正确使用该研究方法,不但不能有效验证病因假设,还有可能得出错误的结论。
本文收集并分析了近年国内公开发表的队列研究论文,发现其中存在的统计学问题并提出改进意见和建议,旨在引起作者、编者和审稿专家的重视,提高期刊论文的质量。
1队列研究文献的检索以“队列研究”“前瞻性研究”“随访研究”“纵向研究”为关键词,在中国知网(CNKI)和万方数据库中检索2014~2015年公开发表的队列研究文献共1874篇,剔除重复文献和非研究性文献后,获得研究性文献929篇(表1)。
医学论文中常用统计分析方法错误大全在医学研究领域,准确合理地运用统计分析方法对于得出可靠的研究结论至关重要。
然而,在实际的医学论文中,却存在着各种各样的统计分析方法错误,这些错误可能会导致研究结果的偏差,甚至得出错误的结论。
下面,我们就来详细探讨一下医学论文中常见的统计分析方法错误。
一、数据类型判断错误数据类型的正确判断是选择合适统计分析方法的基础。
医学研究中常见的数据类型包括计量资料、计数资料和等级资料。
然而,很多研究者在数据类型判断上出现失误。
例如,将原本应该是计数资料的数据(如疾病的治愈、好转、无效等)当成计量资料进行分析,错误地使用了均值和标准差等统计指标,而应该使用频率和百分比等指标,并采用卡方检验等方法。
二、样本量计算不合理样本量的大小直接影响到研究结果的可靠性和准确性。
一些医学论文在研究设计阶段没有充分考虑样本量的计算,导致样本量过小或过大。
样本量过小,可能会使研究结果缺乏统计学意义,无法检测出真实存在的差异;样本量过大,则会造成资源的浪费,同时增加研究的难度和成本。
正确的样本量计算应该综合考虑研究的设计类型、预期效应大小、检验水准和检验效能等因素。
三、选择错误的统计方法这是医学论文中常见的错误之一。
例如,对于两组独立样本的均数比较,应该使用 t 检验,但如果两组数据的方差不齐,就需要使用校正的 t 检验或者非参数检验方法(如 Wilcoxon 秩和检验)。
然而,很多研究者在这种情况下仍然使用了普通的 t 检验,导致结果不准确。
再比如,对于多组均数的比较,如果方差分析结果有统计学意义,还需要进一步进行多重比较。
但有些研究在这一步没有进行恰当的多重比较方法选择,导致结论不够准确。
四、忽视数据的正态性检验在进行某些统计分析(如 t 检验、方差分析等)时,要求数据服从正态分布。
然而,很多研究者在使用这些方法之前,没有对数据进行正态性检验。
如果数据不服从正态分布,却仍然使用基于正态分布假设的统计方法,就会得出错误的结论。
医学论文中统计学处理常见问题及应对措施1存在问题1)统计软件名称和版本不全。
最常见的问题是作者只写统计软件名称而漏掉了统计软件版本。
2)统计数据描述含糊不清。
如笼统说“用-x±s 表示”,而不分定量资料或定性资料。
3)误用统计学方法并且统计方法描述不详细。
例如:对定量资料盲目套用t检验,多组均数比较没有采用方差分析和q检验;对定性资料,盲目套用χ2检验;非参数检验资料没有采用秩和检验或Ridit检验; 对回归分析没有结合专业知识和散点图选用合适的回归类型,而盲目套用简单直线回归分析;在逻辑上无明显相关的2个或2个以上指标检测结果勉强进行相关性分析等;对随访资料没有使用生存分析等。
另一个问题是统计学方法的描述不详细。
例如: 使用t检验,没有说明是完全随机设计资料的t检验, 还是配对设计资料的t检验;使用方差分析时,没有说明是完全随机设计资料的方差分析,还是随机区组设计资料的方差分析,或是巢式设计资料的方差分析;对于四格表资料,没有交代是一般四格表资料χ2检验, 还是四格表资料的校正的χ2检验。
4)假设检验结果的表达和解释中存在的问题。
假设检验的结果表达没有根据不同的统计分析方法, 给出相应的检验统计量的实际值及相应的值,如t检验的t值、方差分析的F值、卡方检验的χ2值、相关分析的相关系数及相应的r值等。
此外,统计结果的解释存在如下问题:假设检验是在“无效假设”正确(比如2种药物的疗效没有差异) 的前提下,用P值大小说明实际观察结果是否符合“无效假设”。
P值小(如P<0·05或P<0. 01)则怀疑“无效假设”的正确性,应得2种药物疗效的差异有统计学意义或差异有高度统计学意义的结论,而不应得差异显著或差异非常显著的结论;P值大(如P> 0·05),则不能拒绝“无效假设”,应得2种药物疗效的差异无统计学意义的结论,而不应得无差异的结论。
这是典型地把统计结论作为专业结论而犯的错误。
医学论文中统计学处理常见问题及应对措施
1存在问题1)统计软件名称和版本不全。
最常见的问题是作者只写统计软件名称而漏掉了统计软件版本。
2)统计数据描述含糊不清。
如笼统说“用-x±s 表示”,而不分定量资料或定性资料。
3)误用统计学方法并且统计方法描述不详细。
例如:对定量资料盲目套用t检验,多组均数比较没有采用方差分析和q检验;对定性资料,盲目套用χ2检验;非参数检验资料没有采用秩和检验或Ridit检验; 对回归分析没有结合专业知识和散点图选用合适的回归类型,而盲目套用简单直线回归分析;在逻辑上无明显相关的2个或2个以上指标检测结果勉强进行相关性分析等;对随访资料没有使用生存分析等。
另一个问题是统计学方法的描述不详细。
例如: 使用t检验,没有说明是完全随机设计资料的t检验, 还是配对设计资料的t检验;使用方差分析时,没有说明是完全随机设计资料的方差分析,还是随机区组设计资料的方差分析,或是巢式设计资料的方差分析;对于四格表资料,没有交代是一般四格表资料χ2检验, 还是四格表资料的校正的χ2检验。
4)假设检验结果的表达和解释中存在的问题。
假设检验的结果表达没有根据不同的统计分析方法, 给出相应的检验统计量的实际值及相应的值,如t检验的t值、方差分析的F值、卡方检验的χ2值、相关分析的相关系数及相应的r值等。
此外,统计结果的解释存在如下问题:假设检验是在“无效假设”正确(比如2种药物的疗效没有差异) 的前提下,用P值大小说明实际观察结果是否符合“无效假设”。
P值小(如P<0·05或P<0. 01)则怀疑“无效假设”的正确性,应得2种药物疗效的差异有统计学意义或差异有高度统计学意义的结论,而不应得差异显著或差异非常显著的结论;P值大(如P> 0·05),则不能拒绝“无效假设”,应得2种药物疗效的差异无统计学意义的结论,而不应得无差异的结论。
这是典型地把统计结论作为专业结论而犯的错误。
5)样本数过少。
临床资料的统计学分析要求一定的病例数量,如果不够小样本分析的最少例数,就不符合医学统计分析的基本要求,得出的结果“差异显著”并无实际意义。
对于少见病例的精确统计学计算,有其特殊的规定和方法,并不都适用于一般资料的统计分析。
在进行多元回归分析时亦应注意样本容量和自变量个数之间要符合统计学基本要求。
在日常编500第6期肖丽娟等:医学论文中统计学处理常见问题及应对措施辑工作中我们也会遇到仅仅因为病例数少而被审稿专家否定导致退稿的情形。
6)统计学符号书写不规范。
如不分大小写,正斜体等。
2应对措施2·1要指明所采用的统计软件的名称和版本SPSS和SAS是全世界学术界公认且最常用的2大统计软件包[4]。
要标出本研究所采用的统计包软件名称和版本。
2·2弄清资料类型分类这是最关键的一步。
资料类型的传统划分方法是将资料分为计量资料、计数资料和等级资料3类。
资料类型的现代划分方法是将资料先粗分为定量资料和定性资料2大类,然后,再将定量资料划分为计量资料和计数资料2小类;将定性资料划分为名义资料(2项分类如性别男女,多项分类如A、B、AB、O血型)和有序资料2小类[5]。
资料类型的传统划分方法是从资料的收集方式角度来定义,也可以说是就“形式”而言;而资料类型的现代划分方法是从资料的性质角度来定义,也可以说是就“本质”而言。
按现代划分方法来命名统计资料, 有利于抓住问题的本质。
编辑要对此做到心中有数, 才能对相关论文的统计学问题提出修改意见。
2·3正确描述统计资料例如:近似正态分布的资料用-x±s表示描述集中与离散趋势,区分资料是正态或偏态分布,可以通过SPSS、SAS统计软件程序判断,也可以通过目测数据是否有“极端值”,即特别大或特别小的数据,进行判断[6];近似对数正态分布的资料用G 描述集中趋势,偏态分布的资料用M描述集中趋势。
2·4正确选用统计分析方法依据资料类型的现代划分方法,下面分别介绍常见的统计学分析方法。
1)定量资料的统计分析方法,包括参数法和非参数法。
参数法如t检验(2均数比较)、方差分析(2组以上均数比较);非参数法如秩和检验。
选择的关键在于弄清资料分布的类型。
如果资料符合正态分布且组间方差齐(即各组标准差彼此接近),则选用参数法,不符合则选用非参数法[7]。
①2均数比较的t检验。
②多组均数比较的方差分析,又叫F检验,包括有完全随机设计的方差分析、区组随机设计的方差分析、多个样本均数的两两比较(SNK检验,亦即q检验和LSD-t检验)、析因设计的方差分析、重复测量资料的方差分析等[8]81-88。
③非参数法的秩和检验,有配对设W ilcoxon符号秩和检验、2样本W ilcoxon检验、完全随机设计多样本比较的H检验、随机区组设计的M检验等[8]97-102。
2)定性资料的统计。
为了方便按定性资料的现代定义将定性资料整理与归纳后,主要分为3种类型, 即四格表资料(只有2组,且结果变量为2分类变量, 总格子数为4)、行×列表资料(总格子数>4)和列联表资料(又称双向有序资料)。
行×列表资料又包括单向有序资料(即等级资料, 2组或2组以上,结果变量为有序多分类变量)。
不同资料类型采用的统计分析方法有所不同[9]。
①四格表资料χ2检验。
医学论文中,四格表资料χ2检验的应用很常见,但使用时应注意具体的应用条件。
当总例数>40,且每个格子的理论频数均不<5 时,应用未校正的χ2检验;如果总例数>40,有1个格子的理论频数<5但>1时,则采用校正的χ2检验;如果总例数<40,或有1个格子的理论频数<1,则采用Fisher确切概率法。
实际应用中,许多作者不考虑应用的前提条件,统统使用未校正的χ2检验,从而导致结果不可靠。
②行×列表资料χ2检验。
行×列表资料χ2检验主要用于多个率或构成比的比较。
此时要求所有格子中理论频数<5的格子数少于总格子数的1/5。
如果>1/5,则相邻格子应删除或合并后再计算。
此时若需了解具体哪些率之间差异有统计学意义,就需进行χ2分割来确定。
③单向有序资料。
此类资料如果是比较组间治疗效果差异有无统计学意义,则应采用秩和检验、CMH检验以及Ridit分析。
如果采用χ2检验,仅表明各组的疗效构成差异有无统计学意义;因为此时只利用了每组构成比提供的信息,损失了有序指标提供的“等级”信息。
这也是许多作者误用统计学方法的资料类型的一种典型现象,需尤其注意。
④列联表资料χ2检验。
此类资料的特征为对同一组观察对象,分别观察其2种有序分类变量的表现, 归纳成双向交叉排列的统计表,分析2个分类变量是否有相关联系的假设检验,采用行×列表χ2检验。
此外,应写明所用统计分析方法的具体名称,如成组设计资料的检验、2因素析因设计资料的方差分析、多个均数之间两两比较的q检验等。
医学论文选题的重要性和技巧
医学论文写作与研究工作的各个环节紧密相关。
论文的价值取决于主题,主题的确定取决于研究工作,研究工作是否有意义,又取决了课题的选题,即学术论文的撰写所要研究的问题是从科研选题开始的。
选题即选择一个科研题目,就是提出问题,提出了一个有价值而又适合研究者个人能力与客观条件的课题,是每项科研工作的首要环节,即工作的起点。
科研课题是研究者对某一问题的理论认识和实践手段的概括,课题是经过充分的思想准备和实践准备提出来的,它集中体现了选题的科学思维、理论深度和实践能力,反映了命题者与实践者智慧、经验与技巧。
科研题目是贯穿科研工作的主线,是整个科研工作的主导思想,课题选择正确与否,决定着科研工作的成败。
选题的关键是明确课题是否重要,是否有先进性。
选题不只是横向专业知识和科学信息理论上的提炼,而且是对医学发展实践的纵向挖掘,离开了这一点,许多课题可能永远实现不了预期目的。
提出一个既有价值又适合研究者个人能力与客观条件的课题,并不是轻而易举的事情,所以不少科学家深有体会地告诚人们:提出问题比解决问题更困难,选题的本身就是提出问题。
模仿和类比模仿和类比是认识事物的方法之一。
在医学科研的选题中,常借助于模仿与类比的方法提出问题。
发现新线索可根据已有的科研课题,寻找细微的差异扩大选题。
改变选题的组合因素推陈出新发现空白点立题查新,由情报部门提供有关信息。
浏览专业文献,注意有关专业的核心期刊中哪些选题被遗漏,哪些选题还没有被期刊所重视,哪些问题尚未交待清楚,且有探索价值,从而得到启发,发现空白。
发现空白之后,应立即对这方面的历史和现状作全面考证,尤其应注意近几年有关期刊的选题动向,确认是空白时即可立题。
在争论焦点中选题结合地区特色这种选题方式是针对不同地区的环境特点、气候因素、民族居住地域进行分析,根据其地区差别、影响所致的疾病分布类型与种类选题。
根据地区特点确定选题在可行性方面占有优势,并且常是填补地方空白的急待解决的应用性课题。