当前位置:文档之家› (完整word版)第五章 假设检验的功效与样本量

(完整word版)第五章 假设检验的功效与样本量

(完整word版)第五章 假设检验的功效与样本量
(完整word版)第五章 假设检验的功效与样本量

第五章 假设检验的功效与样本量

? 当假设检验不拒绝H 0时,推断正确的概率称为检验功效。 ? 临床科研中不时遇到假设检验无统计学意义,此时,很有必要对检验功效作出评价。

5.1 两类错误与功效

1. 两类错误的概率

H 0: μ=μ0, H 1: μ>μ0 (5.1) (略) Z =n X σμ0-

(5.2) (略) ? 任何假设检验都可能出现两类错误,用两个概率来度量 第Ⅰ类错误概率=P(拒绝H 0|H 0为真)≤α (5.3) 第Ⅱ类错误概率=P(不拒绝H 0|H 1为真)≤β (5.4a) 也可以理解为

第Ⅱ类错误概率=P(不拒绝H 0|H 0为假)≤β (5.4b) ? 如果将诊断是否患有某病也视为一个假设检验问题: H 0:无病, H 1:有病

第Ⅰ类错误:假阳性∕误诊,概率 P(阳性|无病) (α) 第Ⅱ类错误:假阴性∕漏诊,概率 P(阴性|有病) (β) ? 两类错误的背景:

拒绝H 0时可能犯第Ⅰ类错误

不拒绝H 0时可能犯第Ⅱ类错误

? 两类错误的后果:

第Ⅰ类错误可能将“真实无效误作有效”∕误诊 第Ⅱ类错误可能将“真实有效误作无效”∕漏诊 ? 一般α, β的数值要在科研设计时事先确定

2. 功效 (power)

? 假设检验发现真实差异的功效就不低于1-β,即 检验功效=P(拒绝H 0|H 1为真)≥1-β

(5.5) 检验功效=P(拒绝H 0|H 0为假)≥1-β

(5.5) ? 功效就是真实有效的药物被发现的概率∕疾病被诊断出

来的概率

5.2 影响功效的四要素

? 假设检验的功效至少受四个要素的影响,参看(5.2)式 n X σμ0- ≥Z α (5.6) ? 功效的影响因素为:δ=0μ-x ,σ,n ,α

X ≥μ0+Z αn σ (5.7) (略) ? 现用X 分布图形来定性地讨论四要素对功效的影响

1. 客观差异越大,功效越大

X ~N(μ,σ2/n) (5.8) (略)

若H 0为真,X ~N(μ0,σ2/n) (5.9) (略)

若H 1为真,X ~N(μ0+δ,σ2/n) (5.10) (略)

2. 个体间标准差越小, 功效越大。

3. 样本量越大,功效越大

4. α值越大,功效越大

? 筛选新药时α大些,以免漏掉有苗头的新药(α=0.10/0.20) 新药上市前α小些,以免误将真实无效的新药大量生产(α=0.01)

(a)个体标准差s 1较大或样本量n 1较小; (b)个体标准差s 2较小或样本量n 2较大 图5.2 个体间标准差越小或样本量越大,功效越大

(a) α1较小; (b) α2较大

图5.3 α值越大,功效越大

(a)均数间实际距离d 1较小 (1.5); (b)均数间实际距离d 2较大(1.8) 图5.1 均数间差异越大,功效越大

5.3 功效与四要素的定量关系

1. 单组样本均数的检验

()()βασδμσμZ n n Z -=+-+00 (5.11) (略) 简化后得到

例5.1 某药的平均有效时间原为6小时,现改进了配方,据称可延长至7小时。为核实这一点,某研究组观察了25例该病患者,得到的却是阴性结果(P >0.05),即不能认为平均有效时间长于6小时,试分析原因。

解 这个问题实际上是检验假设 H 0:μ=6, H 1: μ>6 据题意,不妨令δ=1。σ的数值可参考此次25例的观察结果,设连同以往经验猜测σ=2。

将δ=1,σ=2,n =25和单侧Z 0.05=1.64代入(5.12)式 Z β=05.02

125Z Z n -?=-ασδ

= 0.86 查标准正态分布表得()8051

.086.0=Φ,即1-β=0.8051 果表明,此项检验的功效为80.51%

2. 两组样本均数的检验 欲检验假设

图5.4 两组样本均数检验示意图

例5.2 一项关于降血压药的临床试验分设两组随机样本,各含15例同病患者。一组服用常规药,另一组服用新药。如果新药的降压效果至少比常规药平均高出0.8kPa 方可考虑在临床推广; 据以往经验,不论常规药还是这种新药,个体降压值的标准差约为1kPa 。经α=0.05水平的两组均数比较的统计检验,两组平均降压效果的差异尚无统计学意义,此事如何理解?

解 据题意,这是关于两组均数的一项单侧检验 δ=0.8,σ=1,n =15,单侧Z 0.05=1.64,代入(5.18)式得 Z β =21518.0??

? ??- Z 0.05 = 0.5509

查标准正态分布表,得()7088.05509.0=Φ,即1-β=0.7088只有70.88%的机会被此检验得出有差异的结论。

3. 两组样本频率的检验(大样本)

欲检验假 H 0:π1=π2, H 1:π1>π2 (5.19) (略) 根据正态近似两组样本均数的检验,有功效的计算公式

其中,δ=π1-π2

例5.3 一项关于维生素C 预防感冒作用的研究随机抽取两组正常人各30名,一组服用维生素C ,另一组服用安慰剂,欲比较一定时期内发生感冒的频率。结果,安慰剂组有6人发生感冒,维生素C 组有3人发生感冒,经α=0.05水平的检验,差异无统计学意义,此事如何理解?

解 π1=20%,假定π2=10%或更低时认为值得重视,n =30和α=0.05代入(5.19)式,

()()

5446.0645.110.0110.020.0120.03010.0-=--+-=βZ

查标准正态分布表得()2929.05446.0=-Φ,即1-β=0.2929,功效只有29.29%。

5.4 常用统计检验的样本量估算

1.

单组样本均数的检验 改写功效估计公式(5.12)得 ? 估计样本含量的影响因素,类似于功效:α,β,δ,σ

例5.4 为较好地解决例5.1中的新药论证问题,至少需要多大样本量?

解 α=0.05, β=0.01, δ=1, σ=2,以及Z 0.05=1.64,单侧Z 0.01=2.33,代入公式,

n =2

201.005.05.033.264.121??? ??+=???? ??+Z Z =63.0436≈63

以n =63查t 界值表,得t 0.05(62)与t 0.01(62)再次代入公式计算,如此多次迭代计算,当结果变化很小时便获得n 的估计值。

? 近似计算:在据Z α和Z β求得的n 值基础上再增补0.5Z 2α作为最终的样本量估算值。这样,例5.3的样本量可取为

n =63.0436+0.5(1.64)2=64.3884≈65。

2. 两组样本均数的检验

类似地,改写(5.18)式,我们又有

例5.5 为较好地解决例5.2中新药论证问题,至少需要多大样本量?

解 仍象例5.2那样取δ=0.8,σ=1,单侧Z 0.05=1.64。为减少埋没较好药物的机会,令β=0.05,代入(5.21)式, n =22

205.005.08.064.164.118.0??? ??+=???? ??+Z Z =33.62≈34 类似地近似计算得

n =33.62+0.25(1.64)2=34.2924≈35。

3. 两组样本频率的检验(大样本)

改写(5.20)式,我们有样本量的计算公式

例5.6 为较好地进行例5.3中维生素C 预防作用的研究,至少需要多大样本量?

解 仍取π1=20%,π2=10%。为了不致埋没维生素C 的预防作用,取β=0.01。将单侧Z 0.05=1.64, 单侧Z 0.01=2.33连同π1和π2的数值代入(5.22)式,

n =210.033.264.1??? ??+ [0.20(1-0.20)+0.10(1-0.10)]

=394.0225≈394

5.5 实例点评

? 新药强力新甘草甜素(SNMC)治疗慢性乙型肝炎的效果, ? 资料与方法:

1.病人选择 2.试验药物及使用方法

表5.1 治疗前的基本资料 HB Ag

对照组 28±8.4 23 1 26.2 24 0 23 0 1

表5.2 治疗前的主要肝功能指标(8项)

?点评要点:

(1)作者设计周密

(2)因样本含量过小,功效很低(国家药监局规定每组n>100)

结论:尚不能认为新药与对照药疗效相同

结语:

重点是对两类错误、功效、样本含量估计的理解(计算次要)

1. 对总体推论时要时刻想着两类错误问题

2. 试验设计时必须事先估计检验功效与样本含量

功效和样本量

功效和样本量 一、概述: 使用Minitab 的功效和样本数量功能在设计和运行试验之前(预期)或执行试验之后(回顾)评估功效和样本数量。 预期研究在收集数据之前使用以考虑设计敏感度。您要确保功效足够大,以检测出您确定为重要的差值(效应)。例如,您可以通过增大样本数量或采取措施降低错误方差来提高设计敏感度。 回顾研究在收集数据之后使用以帮助了解已执行的检验的功效。例如,假设您进行一项试验,但数据分析并未显示任何在统计意义上显著的结果。然后可以根据所希望检测到的最小差异(效应)计算功效。如果检测此差值的功效较低,则您可能要修改试验设计以提高功效并继续评估相同问题。但是,如果功效值较高,则您可能要断定不存在有意义的差值(效应),并停止试验。 什么是功效 功效是当确实存在显著差值(效应)时能够将其认定的可能性。假设检验有四种可能的结果。结果取决于原假设(H0) 为真还是假,以及您决定“否定”还是“不能否定”H0。检验的功效就是当H0为假时正确地将其否定的概率。 这四种可能的结果总结如下: 原假设 决策真假 不能否定H0正确决策 p = 1 类型II 错误p = 否定H0类型I 错误 p = 正确决策p = 1 当H0为真而却否定它时,就发生了类型I 错误。发生类型I 错误的概率(p) 称为alpha (),有时称为检验的显著性水平。 当H0为假却没有否定它时,就发生了类型II 错误。发生类型II 错误的概率称为beta ()。 选择概率水平

当确定检验的和值的时候,应该考虑 发生错误的严重程度错误越严重,越希望少发生这种情况。因此,应该向更严重的错误指定更小的概率值。 要检测的效应的量值功效是当H0为假时正确否定它的概率(p = 1 - )。理想状态下,您检测所关注的差值时要有高功效,检测没有意义的差值时要有低功效。 例如,假设您制造储存容器,并要评估一种潜在更耐高温的新型塑料。如果新型塑料将产品的平均熔点提高20°或更多,则这项支出就值得考虑。检验更多的样本可以增大检测出此类差异的机会,但是检验过多的样本会增加时间和费用,还可能检测到不重要的差异。您可以使用双样本t 的功效和样本数量来估计检测具有足够功效的差值20°需要多少样本。 影响功效的因子 许多因子都影响功效: ,发生类型I 错误的概率(也称为显著性水平)。当增大时,发生类型II 错误() 的概率减小。因此,当增大时,功效(等于 1 )也随之增大。 ,总体的变异性(或试验变异性)。当减小时,功效也随之减小。 效应的大小。当效应大小增大时,功效也随之增大。 样本数量。当样本数量增大时,功效也随之增大。 补充内容:估计标准误 对于“功效和样本数量”的计算,(总体标准差或试验变异性)的估计值取决于您是否已经收集了数据。 预期研究在收集数据前进行,因此必须估计。您可以使用相关研究、初步研究或学科知识来估计。 回顾研究在数据收集后进行,因此可以使用数据估计。 对于单样本Z 或单样本t,使用样本的标准差。 对于双样本t,如果假设方差相等,则使用合并标准差。

临床试验样本量的估算

临床试验样本量的估算 样本量的估计涉及诸多参数的确定,最难得到的就是预期的或者已知的效应大小(计数资料的率差、计量资料的均数差值),方差(计量资料)或合并的率(计数资料各组的合并率),一般需通过预试验或者查阅历史资料和文献获得,不过很多时候很难得到或者可靠性较差。因此样本量估计有些时候不是想做就能做的。SFDA的规定主要是从安全性的角度出发,保证能发现多少的不良反应率;统计的计算主要是从power出发,保证有多少把握能做出显著来。 但是中国的国情?有多少厂家愿意多做? 建议方案里这么写: 从安全性角度出发,按照SFDA××规定,完成100对有效病例,再考虑到脱落原因,再扩大20%,即120对,240例。 或者:本研究为随机双盲、安慰剂平行对照试验,只有显示试验药优于安慰剂时才可认为试验药有效,根据预试验结果,试验组和对照组的有效率分别为65.0%和42.9%,则每个治疗组中能接受评价的病人样本数必须达到114例(总共228例),这样才能在单侧显著性水平为5%、检验功效为90%的情况下证明试验组疗效优于对照组。假设因调整意向性治疗人群而丢失病例达10%,则需要纳入病人的总样本例数为250例。 非劣性试验(α=0.05,β=0.2)时:

计数资料: 平均有效率(P)等效标准(δ) N= 公式:N=12.365×P(1-P)/δ2 计量资料: 共同标准差(S)等效标准(δ) N= 公式:N=12.365× (S/δ)2 等效性试验(α=0.05,β=0.2)时: 计数资料: 平均有效率(P)等效标准(δ) N= 公式:N=17.127×P(1-P)/δ2 计量资料: 共同标准差(S)等效标准(δ) N= 公式:N=17.127× (S/δ)2 上述公式的说明: 1) 该公式源于郑青山教授发表的文献。 2) N 是每组的估算例数N1=N2,N1 和N2 分别为试验药和参比药的例数; 3) P 是平均有效率,

影响样本量大小的几个因素1

IFN2γ广泛应用于抗病毒、抗肿瘤和免疫调节。体内外实验研究表明还具有抗vS MCs增生和抑制血管内膜形成的作用。在我们的实验体系中,给予实验动物皮下注射rIFN2γ(1万U?kg-1?d-1),结果显示rIFN2γ可显著抑制1周和2周时内膜面积,抑制率分别为60100%和66167%;考虑内膜增生与管腔大小的关系更能反映内膜形成对血管腔的影响,我们计算了内膜面积与管腔面积的比值,发现rIFN2γ显著抑制1周和2周时内膜面积与管腔面积比值,抑制率分别为66167%和76170%;抑制1周和1个月时内膜vS MCs表达PC NA,抑制率分别为88150%和58189%。在一份研究报告中显示,IFN2γ可抑制大鼠再狭窄模型病变中75%的血管vS MCs增生,血管内膜面积减少50%。本实验中,rIFN2γ对早期(1周和2周)的内膜形成具有显著抑制作用,但对后期(1月)改变作用不明显,从我们对病变的动态观察发现,在损伤后第2周细胞间质已经开始增多,仅靠近管腔的vS MCs保持增生状态,于1个月时细胞外基质逐渐成为新生内膜的主要成分,因此可能对rIFN2γ的作用不甚敏感。可见rIFN2γ早期治疗决定了内膜增生的远期效应。另外,rIFN2γ对2周时内膜PC NA表达的影响无显著性可能与vS MCs增生周期有关;或许是损伤后第2周内膜细胞开始以合成细胞外基质为主,此时rIFN2γ可能主要参与vS MCs 分化的调节而对其增生不甚敏感之故[5]。根据近几年的研究结果,IFN2γ可能主要通过以下几个途径抑制血管vS MCs增生和内膜病变形成的:(1)IFN2γ刺激后以一氧化氮(NO)依赖性机制诱导vS MCs的凋亡,即NO对vS MCs发挥了局部细胞毒作用[6]; (2)通过活化可溶性鸟苷酸环化酶来增加vS MCs中cG MP水平,抑制vS MCs增殖的第二信使系统使vS MCs的DNA合成能力下降[7];(3)通过抑制白细胞介素Ⅰ和血小板衍生生长因子诱导的vS MCs DNA 合成抑制vS MCs增生;抑制PDG F2BB诱导的c2fos高表达并通过改变c2fos表达来控制调节vS MCs由中膜向内膜的迁移和转化[8];此外,IFN2γ减少vS MCs 中表皮细胞生长因子受体的表达;在其它细胞因子共同作用下也可减少血管紧张素Ⅱ受体mRNA表达,认为这亦是通过NO依赖机制而实现的[9];(4)诱导2’25’2寡腺嘌呤合成酶mRNA表达及酶的生成,此酶可激活内源性RNA酶使RNA降解,抑制多种生长因子的mRNA表达和蛋白合成,从而抑制vS MCs的增生[8]。值得重视的是血管局部产生的IFN2γ可能是vS MCs的内源性抑制剂,在维持再狭窄血管内膜vS MCs量的动态平衡中可能具重要作用。我们也观察到在内膜受损后的各个时期,增生的内膜中除了主要有vS MCs构成外还可见少数散在浸润的淋巴细胞和巨噬细胞等,这些细胞可能是内源性IFN2γ的主要来源。因此,面临的问题是怎样利用基因工程技术发挥内源性IFN2γ的作用。 我们的研究结果表明,虽然IFN2γ可显著抑制血管vS MCs的增生,但仅部分限制了新生内膜的形成。血管壁vS MCs的增生和新生内膜的形成,最终导致再狭窄的发生机制是极其复杂的,尽管如此,我们为再狭窄的防治寻找到又一可行的途径。 4 参考文献 1 袁晋青.分子生物学与经皮冠状动脉腔内成形术后再狭窄的预防.中国循环杂志,1996,11(11):697~700. 2 钱济先,钱兆奇.γ干扰素抑制血管平滑肌细胞增生.国外医学创伤与外科基本问题分册,1998,19(3):146~148. 3 M orim oto S,M izuno Y,H iramitsu S,et al.Restenosis after PTCA2a histopathological study using autopsied hearts.Jpn Circ J,1990,54:43~ 56. 4 W ilcox JN.M olecular biology:Insight into the causes and prevention of restenosis after arterial intervention.Am J Cardiol,1993,72:88~95E. 5 Shim okado K,Y okota T,K ato N,et al.Bidirectional regulation of sm ooth muscle cell proliferation by IFN2gamma.J Atheroscler Thromb,1994, (suppl1):29~33. 6 S irsjo A,S oderkvist P,Sundqvist T,et al.Different induction mechanisms of mRNA for inducible nitric oxide synthase in rat sm ooth muscle cells in culture and in aortic strips.FE BS Lett,1994,338(2):191~196. 7 Beasley D,M cguiggin M.Interleukin1activates s oluble guanylate cyclase in human vascular sm ooth muscle cells through a novel nitric oxide2inde2 pendent pathway.J Exp M ed,1994,179(1):71~80. 8  W amer S JC,Fiedman G B,Libby P.Immune interferon inhibits prolifera2 tion and induce2’25’2olig oadenylate synthetase gene expression in human vascular sm ooth muscle cells.J Clin Invest,1989,83:1174~1182. 9 Sasamura H,Z akazato Y,Hayashida T,et al.Regulation of vascular type 1angiotensin receptors by cytokines.Hypertension,1997,30(1pt1):35 ~41. 影响样本量大小的几个因素 样本量的大小,一般与以下几个因素有关:①处理效果:效果越明显,所需的样本量越小;②实验误差:误差越小,越易达到统计学显著性,所需样本越小;③抽样误差:样本的个体差异越小,反应越一致,所需样本越小;④资料的性质:一般计数资料样本需要大些,计量资料样本量相对小些。 本刊编辑部 11实用医学杂志2000年第16卷第1期

临床试验样本量的估算

临床试验样本量的估算样本量的估计涉及诸多参数的确定,最难得到的就是预期的或者已知的效应大小(计数资料的率差、 计量资料的均数差值),方差(计量资料)或合并的率(计数资料各组的合并率),一般需通过预试验或者查阅历史资料和文献获得,不过很多时候很难得到或者可靠性较差。因此样本量估计有些时候不是想做就能做的。SFDA的规定主要是从安全性的角度出发,保证能发现多少的不良反应率;统计的计算主要是从power 出发,保证有多少把握能做出显著来。 但是中国的国情有多少厂家愿意多做 建议方案里这么写: 从安全性角度出发,按照SFDA××规定,完成100 对有效病例,再考虑到脱落原因,再扩大20%,即120 对,240 例。或者:本研究为随机双盲、安慰剂平行对照试验,只有显示试验药优于安慰剂时才可认为试验药有效,根据预试验结果,试验组和对照组的有效率分别为%和%,则每个治疗组中能接受评价的病人样本数必须达到114 例(总共228 例),这样才能在单侧显著性水平为5%、检验功效为90%的情况下证明试验组疗效优于对照组。假设因调整意向性治疗人群而丢失病例达10%,则需要纳入病人的总样本例数为250 例。

非劣性试验(α=,β=)时:计数资料: 平均有效率(P) N= 公式:N=×P(1 - P)/ δ2 计量资料: 共同标准差(S) N= 公式:N=× (S/ δ)2 等效性试验(α=,β=)时:计数资料: 平均有效率(P) N= 公式:N=×P(1 - P)/ δ2 计量资料: 共同标准差(S) N= 公式:N=× (S/ δ)2 上述公式的说明:等效标准(δ) 等效标准(δ)等效标准(δ) 等效标准(δ) 1)该公式源于郑青山教授发表的文献。 2)N 是每组的估算例数N1=N2,N1 和N2 分别为试验药和参比药的例数;

临床试验样本量的估算

临床试验样本量的估算 LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】

临床试验样本量的估算 样本量的估计涉及诸多参数的确定,最难得到的就是预期的或者已知的效应大小(计数资料的率差、计量资料的均数差值),方差(计量资料)或合并的率(计数资料各组的合并率),一般需通过预试验或者查阅历史资料和文献获得,不过很多时候很难得到或者可靠性较差。因此样本量估计有些时候不是想做就能做的。SFDA的规定主要是从安全性的角度出发,保证能发现多少的不良反应率;统计的计算主要是从power出发,保证有多少把握能做出显着来。 但是中国的国情有多少厂家愿意多做 建议方案里这么写: 从安全性角度出发,按照SFDA××规定,完成100对有效病例,再考虑到脱落原因,再扩大20%,即120对,240例。 或者:本研究为随机双盲、安慰剂平行对照试验,只有显示试验药优于安慰剂时才可认为试验药有效,根据预试验结果,试验组和对照组的有效率分别为%和%,则每个治疗组中能接受评价的病人样本数必须达到114例(总共228例),这样才能在单侧显着性水平为5%、检验功效为90%的情况下证明试验组疗效优于对照组。 假设因调整意向性治疗人群而丢失病例达10%,则需要纳入病人的总样本例数为250例。 非劣性试验(α=,β=)时:

计数资料: 平均有效率(P)等效标准(δ) N= 公式:N=×P(1-P)/δ2 计量资料: 共同标准差(S)等效标准(δ) N= 公式:N=× (S/δ)2 等效性试验(α=,β=)时: 计数资料: 平均有效率(P)等效标准(δ) N= 公式:N=×P(1-P)/δ2 计量资料: 共同标准差(S)等效标准(δ) N= 公式:N=× (S/δ)2 上述公式的说明: 1) 该公式源于郑青山教授发表的文献。 2) N 是每组的估算例数N1=N2,N1 和N2 分别为试验药和参比药的例数; 3) P 是平均有效率,

临床试验样本量的估算

临床试验样本量的估算 Document serial number【LGGKGB-LGG98YT-LGGT8CB-LGUT-

临床试验样本量的估算 样本量的估计涉及诸多参数的确定,最难得到的就是预期的或者已知的效应大小(计数资料的率差、计量资料的均数差值),方差(计量资料)或合并的率(计数资料各组的合并率),一般需通过预试验或者查阅历史资料和文献获得,不过很多时候很难得到或者可靠性较差。因此样本量估计有些时候不是想做就能做的。SFDA的规定主要是从安全性的角度出发,保证能发现多少的不良反应率;统计的计算主要是从power出发,保证有多少把握能做出显着来。 但是中国的国情有多少厂家愿意多做 建议方案里这么写: 从安全性角度出发,按照SFDA××规定,完成100对有效病例,再考虑到脱落原因,再扩大20%,即120对,240例。 或者:本研究为随机双盲、安慰剂平行对照试验,只有显示试验药优于安慰剂时才可认为试验药有效,根据预试验结果,试验组和对照组的有效率分别为%和%,则每个治疗组中能接受评价的病人样本数必须达到114例(总共228例),这样才能在单侧显着性水平为5%、检验功效为90%的情况下证明试验组疗效优于对照组。假设因调整意向性治疗人群而丢失病例达10%,则需要纳入病人的总样本例数为250例。 非劣性试验(α=,β=)时: 计数资料: 平均有效率(P) ? ? ? 等效标准(δ) N=

公式:N=×P(1-P)/δ2 计量资料: 共同标准差(S) ? ? ? ? ? 等效标准(δ) N= 公式:N=× (S/δ)2 等效性试验(α=,β=)时: 计数资料: 平均有效率(P) ? ? ? ? 等效标准(δ) N= 公式:N=×P(1-P)/δ2 计量资料: 共同标准差(S) ? ? ? ? 等效标准(δ) N= 公式:N=× (S/δ)2 上述公式的说明: 1) ? ? 该公式源于郑青山教授发表的文献。 2) ? ? N 是每组的估算例数N1=N2,N1 和N2 分别为试验药和参比药的例数; 3) ? ? P 是平均有效率, 4) ? ? S 是估计的共同标准差, 5) ? ? δ 是等效标准。 6) ? ? 通常都规定α=,β=(把握度80%)

第五章-假设检验的功效与样本量

第五章 假设检验的功效与样本量 当假设检验不拒绝H 0时,推断正确的概率称为检验功效。 临床科研中不时遇到假设检验无统计学意义,此时,很有必要对检验功效作出评价。 5.1 两类错误与功效 1. 两类错误的概率 H 0: =0, H 1: >0 (5.1) (略) Z =n X σμ0- (5.2) (略) 任何假设检验都可能出现两类错误,用两个概率来度量 第Ⅰ类错误概率=P(拒绝H 0|H 0为真)≤ (5.3) 第Ⅱ类错误概率=P(不拒绝H 0|H 1为真)≤ (5.4a) 也可以理解为 第Ⅱ类错误概率=P(不拒绝H 0|H 0为假)≤ (5.4b) 如果将诊断是否患有某病也视为一个假设检验问题: H 0:无病, H 1:有病 第Ⅰ类错误:假阳性∕误诊,概率 P(阳性|无病) () 第Ⅱ类错误:假阴性∕漏诊,概率 P(阴性|有病) () 两类错误的背景: 拒绝H 0时可能犯第Ⅰ类错误 不拒绝H 0时可能犯第Ⅱ类错误 两类错误的后果: 第Ⅰ类错误可能将“真实无效误作有效”∕误诊 第Ⅱ类错误可能将“真实有效误作无效”∕漏诊 一般 , 的数值要在科研设计时事先确定 2. 功效 (power) 假设检验发现真实差异的功效就不低于1-β,即 检验功效=P(拒绝H 0|H 1为真)≥1-β (5.5) 检验功效=P(拒绝H 0|H 0为假)≥1-β (5.5) 功效就是真实有效的药物被发现的概率∕疾病被诊断出来的概率 5.2 影响功效的四要素

假设检验的功效至少受四个要素的影响,参看(5.2)式 n X σμ0- ≥Z (5.6) 功效的影响因素为:=0μ-x ,,n , X ≥0+Z n σ (5.7) (略) 现用X 分布图形来定性地讨论四要素对功效的影响 1. 客观差异越大,功效越大 X ~N(,2/n) (5.8) (略) 若H 0为真,X ~N(0,2/n) (5.9) (略) 若H 1为真,X ~N(0+,2/n) (5.10) (略) 2. 个体间标准差越小, 功效越大。 3. 样本量越大,功效越大 (a)个体标准差s 1较大或样本量n 1较小; (b)个体标准差s 2较小或样本量n 2较大 α α H 0 H 0 μ0 x x x x μ0 μ0+δ μ0+δ 1-β2 1-β1 β2 β1 H 1 H 1 (a)均数间实际距离d 1较小 (1.5); (b)均数间实际距离d 2较大(1.8) 图5.1 均数间差异越大,功效越大 H 0 H 0 α α μ0 x x x x μ0 μ0+δ1 μ0+δ2 1-β2 1-β1 β2 β1 H 1 H 1

临床试验样本量的估算

临床试验样本量的估算

临床试验样本量的估算 样本量的估计涉及诸多参数的确定,最难得到的就是预期的或者已知的效应大小(计数资料的率差、计量资料的均数差值),方差(计量资料)或合并的率(计数资料各组的合并率),一般需通过预试验或者查阅历史资料和文献获得,不过很多时候很难得到或者可靠性较差。因此样本量估计有些时候不是想做就能做的。SFDA的规定主要是从安全性的角度出发,保证能发现多少的不良反应率;统计的计算主要是从power出发,保证有多少把握能做出显著来。 但是中国的国情?有多少厂家愿意多做? 建议方案里这么写: 从安全性角度出发,按照SFDA××规定,完成100对有效病例,再考虑到脱落原因,再扩大20%,即120对,240例。 或者:本研究为随机双盲、安慰剂平行对照试验,只有显示试验药优于安慰剂时才可认为试验药有效,根据预试验结果,试验组和对照组的有效率分别为65.0%和42.9%,则每个治疗组中能接受评价的病人样本数必须达到114例(总共228例),这样才能在单侧显著性水平为5%、检验功效为90%的情况下证明试验组疗效优于对照组。假设因调整意向性治疗人群而丢失病例达10%,则需要纳入病人的总样本例数为250例。 非劣性试验(α=0.05,β=0.2)时:

计数资料: 平均有效率(P)等效标准(δ) N= 公式:N=12.365×P(1-P)/δ2 计量资料: 共同标准差(S)等效标准(δ) N= 公式:N=12.365× (S/δ)2 等效性试验(α=0.05,β=0.2)时: 计数资料: 平均有效率(P)等效标准(δ) N= 公式:N=17.127×P(1-P)/δ2 计量资料: 共同标准差(S)等效标准(δ) N= 公式:N=17.127× (S/δ)2 上述公式的说明: 1) 该公式源于郑青山教授发表的文献。 2) N 是每组的估算例数N1=N2,N1 和N2 分别为试验药和参比药的例数; 3) P 是平均有效率,

第五章 假设检验的功效与样本量

第五章 假设检验的功效与样本量 ? 当假设检验不拒绝H 0时,推断正确的概率称为检验功效。 ? 临床科研中不时遇到假设检验无统计学意义,此时,很有必要对检验功效作出评价。 5.1 两类错误与功效 1. 两类错误的概率 H 0: μ=μ0, H 1: μ>μ0 (5.1) (略) Z =n X σμ0- (5.2) (略) ? 任何假设检验都可能出现两类错误,用两个概率来度量 第Ⅰ类错误概率=P(拒绝H 0|H 0为真)≤α (5.3) 第Ⅱ类错误概率=P(不拒绝H 0|H 1为真)≤β (5.4a) 也可以理解为 第Ⅱ类错误概率=P(不拒绝H 0|H 0为假)≤β (5.4b) ? 如果将诊断是否患有某病也视为一个假设检验问题: H 0:无病, H 1:有病 第Ⅰ类错误:假阳性∕误诊,概率 P(阳性|无病) (α) 第Ⅱ类错误:假阴性∕漏诊,概率 P(阴性|有病) (β) ? 两类错误的背景: 拒绝H 0时可能犯第Ⅰ类错误 不拒绝H 0时可能犯第Ⅱ类错误 ? 两类错误的后果: 第Ⅰ类错误可能将“真实无效误作有效”∕误诊 第Ⅱ类错误可能将“真实有效误作无效”∕漏诊 ? 一般α, β的数值要在科研设计时事先确定 2. 功效 (power) ? 假设检验发现真实差异的功效就不低于1-β,即 检验功效=P(拒绝H 0|H 1为真)≥1-β (5.5) 检验功效=P(拒绝H 0|H 0为假)≥1-β (5.5) ? 功效就是真实有效的药物被发现的概率∕疾病被诊断出 来的概率 5.2 影响功效的四要素 ? 假设检验的功效至少受四个要素的影响,参看(5.2)式 n X σμ0- ≥Z α (5.6) ? 功效的影响因素为:δ=0μ-x ,σ,n ,α X ≥μ0+Z αn σ (5.7) (略) ? 现用X 分布图形来定性地讨论四要素对功效的影响 1. 客观差异越大,功效越大

样本量估计

样本含量估算方法及其软件实现(一) 样本含量(sample size)即观察例数的多少,又称样本大小。在保证研究结论具有一定的可靠性(精度和检验功效)的前提下,常需要在设计阶段就人估计最少的受试对象。在医学科研中,只要是抽样研究,就要考虑样本含量的估计。 样本含量估计充分反映了科研设计中“重复”的基本原则,过小过大都有其弊端。样本含量过小,所得指标不稳定,用于推断总体的精密度和准确度差;检验的功效性低,应有的差别不能显示出来,难以获得正确的研究结果,结论也缺乏充分的证据;样本含量过大,会整加实际工作的困难,浪费人力、物力、财力和时间。由于过分追求数量,可能会引起更多的混杂因素,从而影响数据的质量。 影响假设检验时样本含量估计的因素有四个: 1.第一类错误概率的大小α也称检验水准。α越小所需样本含量越多,对于相同α,双侧检验比单侧检验所需要的样本含量更多。 2.检验功效(1-β)或第二类错误概率的大小β检验功效越大,第二类错误的概率愈小,所需要样本含量愈多。 3.容许误差δ容许误差δ愈大,所需的样本含量愈小。 4.总体标准差σ或总体概率σ愈大,所需样本含量自然愈多。总体概率越接近0.5,则所需样本含量愈多。 样本含量的估算方法有查表法和计算法两种。随着计算机的普遍使用,统计学家也开发了一些专门的样本含量估算软件。其算法都是根据上述影响因素结合统计学原理求得。 我就通过实例的样本含量的计算过程,使大家对样本含量有一个更加直观

的认识。 1 计量资料单组设计基于t检验的差异性检验 举例:已知中国50-70岁男性的平均收缩压为158 mmHg,标准差为18,用药物AAA干预,平均收缩压下降10 mmHg 则认为有临床意义,α=0.05, Power=90%,Power =1-β, 双側检验,需要多少病例数。 启动医学研究样本含量估算系统SASA1.0,在桌面上双击SASA1.0快捷方式或点击开始 \ 所有程序 \ Sample Size Adviser \ Sample Size Adviser,进入SASA1.0主窗口。在Goal栏目中选定Means(计量资料)在Group栏目中选定1,在Analysis Method栏目中选定Test(差异性检验)。

样本大小与功效

样本大小与功效 我们在进行假设检验的时候,一般会设置显著性水平,即我们发生第一类错误的概率, α=P(第I类错误)=P(拒绝H0|H0为真) 基于显著性水平,我们可以进行拒绝域的计算,从而基于当前样本数据来推断整体数据的假设,随着计算机技术的进步,我们更能方便的通过计算的P值来判断当前样本假设检验的情况。 如果有两组样本都通过了我们的假设检验,是否说明这两组样本数据所代表的整体数据是一致的呢? 就拿我们上周的找真爱这个例子,陷入爱河的两个人,为了爱情做出了很多让人惊叹的爱情故事,这时的她觉得当前这个人就是她的白马王子,此时的她,觉得他是如此的完美,但她的闺蜜却看到了一些不好的事情,并告诉她,他是很爱他,但是他也许并不是那么的完美。我们这时候需要引入一致最大功效(UMP)准则来判断,谁的判断是更好的。 所谓的一致最大功效(UMP)准则,就是当给定检验水平α后,在所有满足的可供选择的检验样本中,哪个的样本的功效越大,那么那个假设样本则更为准确,这个就是所谓的一致最大功效检验,简称UMP检验,即: Power=1?β=P(拒绝H0|H1为真) 从上述公式来看,所谓功效,就是当原假设为假的时候,你能拒绝它的概率,它反映了这个假设能够识别错误的能力。当假设检验都能够通过显著性检验之后,我们可以假设检验具备了一定的检验正确情况的能力,此时,如果哪个假设样本的功效越大,意味着它识别错误的能力越强,那它就是更好的假设检验判定。 图:如何判断真爱

如上图所示,深陷爱海中的她,觉得他一切都是好的,把一些假爱的行为也认为是真爱;而更加冷静的闺蜜,则看出了这些行为,所以相比她,闺蜜的判断则是更为准确的。这种能够将错误行为识别出来的能力,我们称为POWER(功效),它是衡量这次通过显著性水平的假设检验中,谁更好的一个重要参数。 POWER(功效)是如此重要的参数,我们接下来看看它的大小会和那些因素有关联: 1.客观差异越大,功效越大。就是样本同检验标准之间的差异越大,此时假设检验的 功效越大,就拿我们的中国足球来说,有人说随着国内联赛的水平提升,国家队的 水平也得到了进步。是否取得了进步,我们就要拿国家队的比赛成绩来判断,例如 在世界杯十二强赛中,中国对主城战胜了韩国队,我们就认为中国队水平得到了提 升,但现在十二强赛还没有结束,中国队基本已经无缘世界杯,这说明我们之前作 出的这个判断可能是错误的。究其原因,主要是中国队同韩国队的水平差异并不是 很明显,如果中国队下次战胜巴西队,那么那时候再来说中国队水平得到了提升, 就更为准确了。 2.个体间标准差越小,功效越大。个体间标准差越小,就是样本之间的变异越小,这 时检验的功效越大。例如我们来判断一个人的成绩好不好,如果一个人每次考试的 成绩波动很小,那么我们更容易对他做出正确的判断,反之,如果一个人一次考试 90分,一次60分,波动很大,我们则很难对他做出一个正确的判断。 3.样本量越大,功效越大。就像刚才说的十二强赛一样,当中国队战胜韩国队时,我 们以此判断中国队的水平得到了提升,但对于十二强赛十场比赛的综合表现来看, 这个基于单次比赛得出的判断具有偶然性,而整个系列赛的结果则更为客观。 4.α值越大,功效越大。功效的值为1?β,所以β越小,则值Power越大;而α值越大, 则β越小,功效越大。 检验功效的意义在于,当研究的数据样本同H0的确有差异时,能够使我们知道发现它(拒绝H0)的概率是多少;此外,即使假设检验未能拒绝H0时,我们也可以通过功效来判断是否当前总体参数是否没有异常,还是当前的结果是由于样本量过小造成的,从而来降低我们做出判断带来的风险。

五假设检验的功效与样本量

第五章假设检验的功效与样本量 ?当假设检验不拒绝H o时,推断正确的概率称为检验功效。 ?临床科研中不时遇到假设检验无统计学意义,此时,很有必要对检验功效作出评价。 5.1两类错误与功效 1. 两类错误的概率 (5.1)(略) (5.2)(略) ?任何假设检验都可能出现两类错误,用两个概率来度量第I类错误概率=P(拒绝H o | H o为真)屯(5.3) 第H类错误概率=P(不拒绝H o | H i为真)w R (5.4a)也可以理解为 第H类错误概率=P(不拒绝H o | H o为假)W B (5.4b)?如果将诊断是否患有某病也视为一个假设检验问题: H o:无病, H i:有病 第I类错误:假阳性/ 误诊,概率 P(阳性|无病)(:)第n类错误:假阴性/ 漏诊,概率P(阴性|有病)?两类错误的背景: 「拒绝H o时可能犯第I类错误 不拒绝H o时可能犯第n类错误 ?两类错误的后果: 「第I类错误可能将“真实无效误作有效”/误诊第n类错误可能将“真实有效误作无效”/漏诊 ?一般:,'■的数值要在科研设计时事先确定 2. 功效(power) *假设检验发现真实差异的功效就不低于1- 即 检验功效=P(拒绝H o| H1为真)> 1- 3 (5.5) *功效就是真实有效的药物被发现的概率/ 疾病被诊断出来的概率

5.2影响功效的四要素 ?假设检验的功效至少受四个要素的影响,参看(5.2)式 (5.6) ?功效的影响因素为:、; = 球-■.二o,匚,n, :■ (5.7)(略) ?现用X分布图形来定性地讨论四要素对功效的影响 1. 客观差异越大,功效越大 X ?N( 7 ;m/n) (5.8) (略) 若H o为真, X?N(」o,;弓/n) (5.9) (略) 若H i为真, X ?N( ._o+、,^/n) (5.10) (略 ) 2. 个体间标准差越小,功效越大。 3. 样本量越大,功效越大 (a)均数间实际距离d i较小(1.5); (b)均数间实际距离d2较大(1.8) 图5.1均数间差异越大,功效越大

第五章-假设检验的功效与样本量

第五章 假设检验的功效与样本量 ? 当假设检验不拒绝H 0时,推断正确的概率称为检验功效。 ? 临床科研中不时遇到假设检验无统计学意义,此时,很有必要对检验功效作出评价。 5.1 两类错误与功效 1. 两类错误的概率 H 0: μ=μ0, H 1: μ>μ0 (5.1) (略) Z =n X σμ0- (5.2) (略) ? 任何假设检验都可能出现两类错误,用两个概率来度量 第Ⅰ类错误概率=P(拒绝H 0|H 0为真)≤α (5.3) 第Ⅱ类错误概率=P(不拒绝H 0|H 1为真)≤β (5.4a) 也可以理解为 第Ⅱ类错误概率=P(不拒绝H 0|H 0为假)≤β (5.4b) ? 如果将诊断是否患有某病也视为一个假设检验问题: H 0:无病, H 1:有病 第Ⅰ类错误:假阳性∕误诊,概率 P(阳性|无病) (α) 第Ⅱ类错误:假阴性∕漏诊,概率 P(阴性|有病) (β) ? 两类错误的背景: 拒绝H 0时可能犯第Ⅰ类错误 不拒绝H 0时可能犯第Ⅱ类错误 ? 两类错误的后果: 第Ⅰ类错误可能将“真实无效误作有效”∕误诊 第Ⅱ类错误可能将“真实有效误作无效”∕漏诊 ? 一般α, β的数值要在科研设计时事先确定 2. 功效 (power) ? 假设检验发现真实差异的功效就不低于1-β,即 检验功效=P(拒绝H 0|H 1为真)≥1-β (5.5) 检验功效=P(拒绝H 0|H 0为假)≥1-β (5.5) ? 功效就是真实有效的药物被发现的概率∕疾病被诊断出 来的概率 5.2 影响功效的四要素 ? 假设检验的功效至少受四个要素的影响,参看(5.2)式 n X σμ0- ≥Z α (5.6) ? 功效的影响因素为:δ=0μ-x ,σ,n ,α X ≥μ0+Z αn σ (5.7) (略) ? 现用X 分布图形来定性地讨论四要素对功效的影响 1. 客观差异越大,功效越大

临床试验样本量的估算

样本量的估计涉及诸多参数的确定,最难得到的就是预期的或者已知的效应大小(计数资料的率差、计量资料的均数差值),方差(计量资料)或合并的率(计数资料各组的合并率),一般需通过预试验或者查阅历史资料和文献获得,不过很多时候很难得到或者可靠性较差。因此样本量估计有些时候不是想做就能做的。SFDA的规定主要是从安全性的角度出发,保证能发现多少的不良反应率;统计的计算主要是从power出发,保证有多少把握能做出显著来。 但是中国的国情?有多少厂家愿意多做? 建议方案里这么写: 从安全性角度出发,按照SFDA××规定,完成100对有效病例,再考虑到脱落原因,再扩大20%,即120对,240例。 或者:本研究为随机双盲、安慰剂平行对照试验,只有显示试验药优于安慰剂时才可认为试验药有效,根据预试验结果,试验组和对照组的有效率分别为%和%,则每个治疗组中能接受评价的病人样本数必须达到114例(总共228例),这样才能在单侧显著性水平为5%、检验功效为90%的情况下证明试验组疗效优于对照组。假设因调整意向性治疗人群而丢失病例达10%,则需要纳入病人的总样本例数为250例。 非劣性试验(α=,β=)时:

计数资料: 平均有效率(P)等效标准(δ) N= 公式:N=×P(1-P)/δ2 计量资料: 共同标准差(S)等效标准(δ) N= 公式:N=× (S/δ)2 等效性试验(α=,β=)时: 计数资料: 平均有效率(P)等效标准(δ) N= 公式:N=×P(1-P)/δ2 计量资料: 共同标准差(S)等效标准(δ) N= 公式:N=× (S/δ)2 上述公式的说明: 1) 该公式源于郑青山教授发表的文献。 2) N 是每组的估算例数N1=N2,N1 和N2 分别为试验药和参比药的例数; 3) P 是平均有效率,

最新第15章-样本含量估计思考与练习参考答案

第15章 样本含量估计 思考与练习参考答案 一、最佳选择题 1. 在假设检验中,样本含量的确定( C )。 A. 只与Ⅰ类错误概率α有关 B. 只与Ⅱ类错误概率β有关 C. 与α、β都有关 D. 与α、β都无关 E. 只与α、β有关 2. 以下关于检验功效的描述,不正确的是( C )。 A. 假设检验中,若0H 客观上不成立,但根据假设检验的规则,将有β大小的概率错误地得出“差异无统计学意义”的推断结论,这种错误称为Ⅱ类错误,相应地,推断正确的概率为β-1,称为检验功效。 B. 检验功效受客观事物差异的大小、个体间变异的大小、样本量和α值等要素的影响。 C. 假设检验的“阴性”结果(P >0.05)可以作为“总体参数之间的差异无统计学意义”这一结论的证据。 D. 假设检验得出“阴性”结果(P >0.05)是“总体参数之间的差异无统计学意义”这一结论的必要条件而非充分条件。 E. 当假设检验出现“阴性”结果(P >0.05)时,有必要复核样本含量和检验功效是/否偏低,以便正确分析假设检验“阴性”结论的正确性。 3.在调查研究中,计算配对设计均数比较所需样本含量的公式为( A )。 A. 2])([δβαS t t n += B. 2])([2δβαS t t n +?= C. 2])([δβαS t t N += D. 2 221) () )(1(2p p Z Z p p n -+-=βα E. =n 22212211)(] )1()1()1(2[p p p p p p Z p p Z --+-+-βα 4. 在调查研究中,计算两样本率比较所需样本含量的公式为( E )。

统计功效和效应值(学生用)

统计功效与效应大小 华中师范大学心理学院刘华山 一、统计功效(检验功效,效力,Power) 统计功效指某检验能够正确地拒绝一个错误的虚无假设的能力。用1-β表示。 或说:当总体实际上存在差异,应该拒绝虚无假设时,正确地拒绝虚无假设的概率,或不犯β错误的概率。它表示某个检验探查出实际存在的差异,正确拒绝虚无假设的能力。在实验设计中,统计功效反映了假设检验能够正确侦查到真实的处理效应的能力。 统计功效的大小取决于四个条件: 1.两总体差异。当两总体实有差异越大,或处理效应越大,则假设检验的统计功效越大; 2.显著性标准α。显著性标准α越大,则β错误越小,从而统计功效1-β越大;反之,α变小,1-β变小 3.检验的方向:当两总体差异一定,对于同样的显著性标准α,单侧检验比双侧检验的统计功效要大。 4.样本容量。样本容量越大,样本平均数分布的标准误越小,分布曲线越瘦削,统计功效越大。 二、效应量 (效应大小,Effect Size,ES ) 效应量,反映处理效应大小的度量。其实,两样本平均数的差异就是一个效应量。效应量表示两个总体分布的重叠程度。ES越大,表示两总体重叠的程度越小,效应越明显。由计算出的ES大小,可由专门的表格中查出两样本分布的

重叠的百分比。故效应量经常用两总体重叠的程度为指标,重叠的部分百分比越大,效应量越小。或以两个样本不重叠的程度为指标,不重叠的部分百分比越大,效应量越大。 三、效应量检验的功能 1.效应量有助于我们判断统计上显著差异是否有实际的意义 效应量检验,也就是要检验自变量作用的大小。它不同于差异显著性的检验。 统计显著性与实际显著性的区别:差异的统计显著性、相关的统计显著性只是告诉你在特定的条件下,这差异、这相关系数是存在的、并不是完全由抽样误差造成的,但并不意味着这差异有实际意义。大样本比较容易获得统计显著性的结果,但这并不意味着差异是有意义的。 2.有些效应量,主要是有相关意义的效应量,如相关系数,点二列相关系数的平方,,可以反映自变量解释因变量变异的百分比。 3.在同一个实验中,如果有几个自变量,可以根据效应量大小把自变量的重要性排序。 4.在元分析中,将各个不同的相关研究进行概括分析的基础便是各个不同研究的效应量(的合成)。 5.效果量的计算还为改进研究设计、提高检验能力提供了根据。 APA出版手册第五版要求报告差异检验结果时一般要报告ES值。 美国心理学会1994 年发出通知,要求公开发表的研究报告包含效应量的测定结果。当具有统计上的显著性后,一定要计算效应量, 看你进行的研究是否有价值。 四、效应量和统计功效 前述检验功效与两总体差异(或说处理效应大小)、样本容量、显著性水平、检验的方向性四个因素有关。可见,统计功效和效应量有关。统计功效受效应量的制约。在检验方向、样本容量、显著性水平固定的条件下,效应量与检验功效有对应关系。见下表。【独立样本】 表在0.05水平下假设检验的功效 样本容量效应大小

相关主题
文本预览
相关文档 最新文档