当前位置:文档之家› 临床医学研究对象样本量的估计

临床医学研究对象样本量的估计

临床医学研究对象样本量的估计
临床医学研究对象样本量的估计

临床医学研究对象样本量的估计

宁夏医学杂志副主编蒋兴国

临床医学研究没有绝对的样本量标准,不同的研究方法、研究目的,研究要求和研究资料决定了样本量。一般而言,样本越小,结果的估计越精确。但样本过大或过小均可影响研究的可行性。因此,科学地确定样本量可增加研究的可靠性,得到可信的研究结果。

1.估计样本量的决定因素[1]

1.1 资料性质

计量资料如果设计均衡,误差控制得好,样本可以小于30例; 计数资料即使误差控制严格,设计均衡, 样本需要大一些,需要30-100例。

1.2 研究事件的发生率

研究事件预期结局出现的结局(疾病或死亡),疾病发生率越高,所需的样本量越小,反之就要越大。

1.3 研究因素的有效率

有效率越高,即实验组和对照组比较数值差异越大,样本量就可以越小,小样本就可以达到统计学的显著性,反之就要越大。

1.4 显著性水平

即假设检验第一类(α)错误出现的概率。为假阳性错误出现的概率。α越小,所需的样本量越大,反之就要越小。α水平由研究者具情决定,通常α取0.05或0.01。

1.5 检验效能

检验效能又称把握度,为1-β,即假设检验第二类错误出现的概率,为假阴性错误出现的概率。即在特定的α水准下,若总体参数之间确实存在着差别,此时该次实验能发现此差别的概率。检验效能即避免假阴性的能力,β越小,

检验效能越高,所需的样本量越大,反之就要越小。β水平由研究者具情决定,通常取β为0.2,0.1或0.05。即1-β=0.8,0.1或0.95,也就是说把握度为80%,90%或95%。

1.6 容许的误差(δ)

如果调查均数时,则先确定样本的均数( )和总体均数(m)之间最大的误差为多少。容许误差越小,需要样本量越大。一般取总体均数(1-α)可信限的一半。

1.7 总体标准差(s)

一般因未知而用样本标准差s代替。

1.8 双侧检验与单侧检验

采用统计学检验时,当研究结果高于和低于效应指标的界限均有意义时,应该选择双侧检验,所需样本量就大; 当研究结果仅高于或低于效应指标的界限有意义时,应该选择单侧检验,所需样本量就小。当进行双侧检验或单侧检验时,其α或β的U a界值通过查标准正态分布的分位数表即可得到。

表1 标准正态分布的分位数表

2. 样本量的估算方法

由于对变量或资料采用的检验方法不同,具体设计方案的样本量计算方法各异,只有通过查阅资料,借鉴他人的经验或进行预实验确定估计样本量决定因素的参数,便可进行估算。

2.1 现况研究

现况研究包括普查和抽样调查两类。抽样调查是从总体中随机抽取一定数量的观察单位组成样本,然后用样本信息来推断总体特征,在设计中要考虑样本含量问题。

2.1.1 首先确定样本量的估算的参数

容许的误差(δ):如果调查均数时,则先确定样本的均数( )和总体均数(m)之间最大的误差为多少;在率的调查中,确定样本的率(p)和总体率(P)的最大容许误差为多少。

显著性水平(容许误差的概率α):一般取0.05或0.01。

总体标准差(s):根据以往的资料或小规模预调查的结果进行估计。

2.1.2 计量资料

2.1.2.1 对总体平均数m做估计调查的样本估计

公式: n=(Uασ/δ)(式2.1.2.1)

式中:n为所需样本大小;Ua为双侧检验中,a时U的界值,当a=0.05时, U0.05=1.96,a=0.01时,U0.01=2.58;s为总体标准差;δ为容许的误差。

例1:某学校有学生3500人,用单纯随机抽样调查学生的白细胞水平,根据预查标准差为950个/ mm ,允许误差

不超过100个/mm ,应调查多少人?

N=3500 d=100个/mm s=950个/mm

a=0.05(双侧) Ua=1.96

n=(1.96×950/100) ≈347

2.1.2.2对样本均数与总体均数的差别做显著性检验时,所需样本的估计。

单侧检验用:n=[(U2α+ U2β)s/δ]

(式2.1.2.2-1)

双侧检验用:n=[(Uα+ U2β)s/δ]

(式2.1.2.2-2)

式中:α与β分别为第一类错误及第二类错误出现的概率,Uα、 U2α、U2β分别为α、2α、2β检验水准的t值。

2.1.3 计数资料

2.1.

3.1 对总体率π做估计调查的样本大小

公式: n=(Uα/δ) /P(1-P)(式2.1.3.1)

式中:δ为容许的误差:即允许样本率(p)和总体率(P)的最大容许误差为多少。P为样本率。

例2:对某地HBsAg阳性率进行调查,希望所得的样本率(p)和总体率(P)之差不超过2%,基于小规模预调查样本率P=14%,应调查多少人? (规定a=0.05)

已知:δ=0.02, P=0.14,a=0.05 , Ua=1.96

n=(1.96/0.02)2/×0.14(1-0.14) =1156

需调查约1160人.

2.1.

3.2 对样本率与总体率的差别做显著性检验时,所需样本的估计。

单侧检验用:n=(U2α+ U2β/δ2)(式2.1.3.2-1)

双侧检验用:n=(Uα+ U2β/δ )(式2.1.3.2-2)

式中:α与β分别为第一类错误及第二类错误出现的概率,Uα、 U2α、U2β分别为α、2α、2β检验水准的t值。

2.1.

3.3对样本均数与总体均数的差别做显著性检验时,所需样本的估计。

单侧检验用:n=[(U2α+ U2β)s/δ] P(1-P)

式2.1.3.3-1)

双侧检验用:n=[(Uα+ U2β)s/δ] P(1-P)

(2.1.3.3-2)

式中: Uα、 U2α、U2β分别为α、2α、2β检验水准的U值。

2.2 病例对照研究的样本量估计

选择患有特定疾病的人群作为病例组,和未患这种疾病的人群作为对照组,调查两组人群过去暴露于某种(些)可能危险因素的比例,判断暴露危险因素是否与疾病有关联及其关联程度大小的一种观察性研究。

2.2.1设置估算样本量的相关值

①人群中研究因素的暴露率(对照组在目标人群中估计的暴露率);

②比值比 (odds ratio,OR) 估计出的各研究因素的相对危险度或暴露的比值比(即RR或OR)

③α值,检验的显著性水平,通常取α=0.01或0.05;

④期望的把握度(1-β),通常区β=0.10或0.20;即把握度为90%或80%。

根据以上有关参数查表或代公式计算

公式为:

n=(U +U ) /(p1-p0)2(式2.2.2)

p1=p0×OR/1-p0+OR×P0

=1/2(p1+p0) =1-

q1=1-p1 q0=1-p0

式中:

U U 分别为a与β检验水准的U值。

p0与P1分别为对照组及病例组人群估计的暴露率;

OR为主要暴露因子的相对危险度或暴露的比值比(RR或OR)。

q0=1-P0, q1=1-P1;

为两组暴露史比例的平均值,

既 =(P1+P2)/2, Q1=1-P1;

例:拟用病例对照研究法调查孕妇暴露于某因子与婴儿先天性心脏病的关系。估计孕妇有30%暴露于此因子。现要求在暴露造成相对危险度为2时,即能在95%的显著性水平以90%的把握度查出,病例组和对照组各需多少例?

p0=0.3 OR=2,设α=0.05, β=0.10,

用双侧检验Uα=1.96 Uβ =1.282

p1=(0.3×2)/[1+0.3(2-1)]=0.46

q0=1-0.3=0.7 =1/2(0.3+0.46)=0.38

q1=1-0.46=0.54 =1-0.38=0.62

n=(1.96 +1.282 )2/(0.46-0.3)2≈192 ,即病例组与对照组各需192人.

2.3实验研究的样本量计算

2.3.1 计量资料: 计量资料指身高、体重、血压、血脂和胆固醇等数值变量。

估计公式为:

n=2(Uα+Uβ)2δ2/ d2 (2-3-1)

n为计算所得一个组的样本人数,如果两组的人数相等,则全部试验所需的样本大小为2n;

Uα为显著性水平相应的标准正态差;

Uβ为β相应的标准正态差;

δ为估计的标准差,δ2=(δ12+δ22)/2;

d为两组数值变量均值之差,

例题:某新药治疗高血压,将研究对象随机分为治疗组和对照组。假设:a=0.05, β=0.10,血压的标准差分别为9.7与12.3mmHg,检测两组的血压差为2.6mmHg。查表:zα=1.96,

zβ=1.282(双侧检验),需要多大样本。

2.3.2 计数资料:即非连续变量资料,如发病率、感染率、阳性率、死亡率、病死率、治愈率、有效率等。当现场试验的评价指标是非连续变量时,按下式计算样本大小:

n=[U +U ] /(P -P ) (2.3.2)

P :对照组发生率

P :实验组发生率

:(P + P )/2

U 、U 和n所示意义同上。

例:假设对照组发病率40%,通过干预措施发病率下降到30%。α水平为5%,1-β为90%,本研究为双侧检验,问二组要观察多少人?

=(0.4+0.3)/2=0.35

代入公式(16-8):

n=[1.96 +1.282 ] /(0.4-0.3)

≈476

即各组需476人。

2.4 诊断试验的样本量估计

2.4.1 设置估算样本量的相关值

①灵敏度60%;

②特异度60%;

③α值,检验的显著性水平,通常取α=0.01或0.05;

④期望的把握度(1-β),通常区β=0.10或0.20;即把握度为90%或80%。

2.4.2 计算公式

公式: n=(Uα/δ) /P(1-P)(式2.4.2)

式中:

Uα为显著性水平相应的U值,通常取α=0.01或0.05;

δ为容许的误差:即允许样本率(p)和总体率(P)的最大容许误差为多少。

P为诊断试验的灵敏度或特异度;

例:预计所评价的诊断试验的灵敏度为90%,特异度85%;

δ=0.025,规定a=0.05,病例组和对照组应调查多少人? ()

已知:δ=0.02, a=0.05 , Ua=1.96

n=(1.96/0.025)2/×0.85(1-0.85) =783

n=(1.96/0.025)2/×0.90(1-0.90) =553

对照组需783人, 病例组需553人。

参考文献

天小胖给大家简单介绍一下最常见的power-based sample size calculation,不外乎两种最常见的情况,一是连续性变量的比较和分类变量的比较。

1. 连续性变量:

假如你想比较治疗组与对照组某个变量的均值,那么每组需要的样本量是:

N=f(α,β)*2*S2/δ2

f(α,β):根据α和β计算所得,最常用的为:

当α=0.05, β=0.2时,f(α,β)=7.9

当α=0.05, β=0.1时,f(α,β)=10.5

δ为你认为的有意义的两组最小能检测出的差异值,通常根据文献以及临床实践来确定

S 为标准差,需要根据以前的研究来确定

血压的例子:

假设标准差为20mmHg,有90%的把握度在0.05显著水平上能检验出治疗组和对照组10mmHg的差异,则需要的样本量为每组:

N=f(α,β)*2*S2/δ2=10.5*2*202/102=84

以下是关于这类样本量计算的描述,供大家写方案时参考:

英文:

The total target sample size will be … subjects (…subjects per treatment). With this sample size, a difference of …between (active arm) and (control arm) in (primary endpoint) can be detected with (X) % power assuming a stan dard deviation of … and significance level of ….

中文:

假设标准差为xx,则需xx例受试者(每组xx)有90%的把握度在xx显著水平上检验出治疗组和对

照组xx的差异。

当然在最后的样本量确定时,还要考虑一定的失访率。。。

总结一下,在这个两均数比较的样本量的计算中,你需要知道的什么?

标准差和差异!

Remember!

一、参数估计的意义

一组调查或实验数据,如果是计量资料可求得平均数,标准差等统计指标,如果是计数资料则求百分率藉以概括说明这群观察数据的特征,故称特征值。由于样本特征值是通过统计求得的,所以又

称为统计量以区别于总体特征值。

总体特征值一般称为参数(总体量)。我们进行科研所要探索的是总体特征值即总体参数,而我们得到的却是样本统计量,用样本统计量估计或推论总体参数的过程叫参数估计。

本章第一节例6.1通过检查110个健康成人的尿紫质算得阳性率为10%,这是样本率,可用它来估计总体率,说明健康成人的尿紫质阳性率水平,这样的估计叫“点估计”。但由于存在抽样误差,不同样本(如再检查110人)可能得到不同的估计值。因此我们常用“区间估计”总体率(或总体均数)大概在那一个范围内,这个范围就叫可信区间。区间小的一端叫下限,大的一端叫上限。常用的有95%可信区间与99%可信区间。根据同一资料所作95%可信区间比99%可信区间窄些(上、下限较靠近),但估计错误的概率后者为1%,前者为5%,进行总体参数的区间估计时可根据研究目的与标准误的大

小选用95%、或99%。

二、总体均数的估计

为了说明常用的总体均数之区间估计法,我们不妨回顾一下上节所叙的t分布。

由求t的基本公式

我们看到X与μ的距离等于t(SX),又根据X集中分布在μ周围的特点,若取t的5%界即

t0.05,(或1%界)乘以SX作为X与μ的距离范围,就可用式(6.6)或式(6.7)求出区间来估计总体均数μ所在医`学教`育网搜`集整理范围,估错的概率仅有5%或1%,因此称95%或99%可信区间。

下面用实例说明其求法。95%可信区间X-t0.05,νSX<μ99%可信区间X-t0.05,νSX<μ

例6.2上面抽样实验中第1号样本的均数为488.6,标准差为61.65,例数10,自由度ν=10-1=9,

试求95%与99%可信区间。

1.求标准误

95%可信区间488.6-2.262(19.50)<μ<488.6+2.262(19.50),即有95%的把握估计μ是在444.49~532.71区间内99%可信区间488.6-3.250(19.50)<μ<488.6+3.250(19.50),可有99%的把握

估计μ是在425.22~551.98区间内这里两个可信区间都包含μ=500在内,所以这次估计是估计对了。

抽样实验共抽了100个样本,除1号样本外其余99个样本均数也对μ作了区间估计,这些95%可信区间列在表6.4中。我们看到,只有5个95%可信区间(右上角标有星号)不包含总体均数μ=500在内,

它们是:

平时我们并不重复抽取许多样本来一次次估计总体均数而仅是一次,至于算出的均数会类似一百

个样本均数中的那一个就很难说了。如果不遇到类似上列那些均数过大或过小的样本,求出可信区间

后总体均数真是在该区间内,那么便是一次成功的估计:但是极少数情况下我们也会遇到极端的样本,以至总体均数并不在我们提出的区间内。不过,我们具体所作的这次估计到底属于前种情况还是后一种,这是无法知道的,因为我们不知道μ是多少(若已知μ便不必估计它了)。然而象后种情况那样作出错估的概率终究很小,只5%或1%,所以用这样的方法估计总体均数还是可行的。

三、总体率的估计

上面已经提到,计数资料可以计算相对数(率)。我们若由样本统计量P估计总体参数π,同样

要考虑率的抽样误差,据数理统计研究结果,样本率的分布也近似正态分布,尤其当π比较靠近50%且样本较大时。于是对样本,百分率的可信区间可利用正态分布规律估计,公式是:

95%可信区间P-1.96Sp<π

99%可信区间P-2.58Sp<π

(按正态分布,双侧尾部面积α=0.05时的u值为1.96,α=0.01时的u值为2.58,故用这两式求可

信区间时不必查表找临界u值,记住这两数即可。)

例6.3某医院收治200例急性菌痢患者,其中粪便细菌培养阳性者共80例,试估计菌痢细菌培养

的总体阳性率95%与99%可信区间。

1.求阳性率P=80/200×100%=40%(或0.40)

2.

3.求可信区间

95%可信区间40%-1.96(3.46%)<π<40%+1.96(3.46%),即估计π在33.22%~46.78%之间99%可信区间40%-2.58(3.46%)<π<40%+2.58(3.46%),即估计π在31.07%~48.93%之间

如果是小样本的百分率,求可信区间可通过查表获得,附表4是n为10、15、20、30时查95%与99%可信区间的一个简表。此外,统计学专著中还有更详细的表可查。

(完整版)样本量计算(DOC)

1.估计样本量的决定因素 1.1资料性质 计量资料如果设计均衡,误差控制得好,样本可以小于30例;计数资料即使误差控制严格,设计均衡,样本需要大一些,需要30-100例。 1.2研究事件的发生率 研究事件预期结局出现的结局(疾病或死亡),疾病发生率越高,所需的样本量越小,反之就要越大。 1.3 1.4 1.5 度为 1.6 1.7 1.8双侧检验与单侧检验 采用统计学检验时,当研究结果高于和低于效应指标的界限均有意义时,应该选择双侧检验,所需 样本量就大;当研究结果仅高于或低于效应指标的界限有意义时,应该选择单侧检验,所需样本量 就小。当进行双侧检验或单侧检验时,其α或β的Ua?界值通过查标准正态分布的分位数表即可得到。

2.样本量的估算 由于对变量或资料采用的检验方法不同,具体设计方案的样本量计算方法各异,只有通过查阅资料,借鉴他人的经验或进行预实验确定估计样本量决定因素的参数,便可进行估算。 护理中的量性研究可以分为3种类型:①描述性研究:如横断面调查,目的是描述疾病的分布情况或现况调查;②分析性研究:其目的是分析比较发病的相关因素或影响因素;③实验性研究:即队列研究或干预实验。研究的类型不同,则样本量也有所不同。 2.1描述性研究 例. =0.1, 2.2 2.2.1探索有关变量的影响因素研究 有关变量影响因素研究的样本量大多是根据统计学变量分析的要求,样本数至少是变量数的5-10倍。例如,如果研究肺结核患者生存质量及影响因素,首先要考虑影响因素有几个,然后通过文献回顾,可知约有12个预测影响变量,如年龄、性别、婚姻、文化程度、家庭月收入、医疗付费方式、病程、排菌、喀血、结核中毒症状、心理健康、社会支持,那么研究的变量就可以在60-120例。这是一种较为简便的估算样本量的方法,在获得相关文献支持下,最好根据公式计算,计量

临床试验样本量的估算

临床试验样本量的估算 样本量的估计涉及诸多参数的确定,最难得到的就是预期的或者已知的效应大小(计数资料的率差、计量资料的均数差值),方差(计量资料)或合并的率(计数资料各组的合并率),一般需通过预试验或者查阅历史资料和文献获得,不过很多时候很难得到或者可靠性较差。因此样本量估计有些时候不是想做就能做的。SFDA的规定主要是从安全性的角度出发,保证能发现多少的不良反应率;统计的计算主要是从power出发,保证有多少把握能做出显著来。 但是中国的国情?有多少厂家愿意多做? 建议方案里这么写: 从安全性角度出发,按照SFDA××规定,完成100对有效病例,再考虑到脱落原因,再扩大20%,即120对,240例。 或者:本研究为随机双盲、安慰剂平行对照试验,只有显示试验药优于安慰剂时才可认为试验药有效,根据预试验结果,试验组和对照组的有效率分别为65.0%和42.9%,则每个治疗组中能接受评价的病人样本数必须达到114例(总共228例),这样才能在单侧显著性水平为5%、检验功效为90%的情况下证明试验组疗效优于对照组。假设因调整意向性治疗人群而丢失病例达10%,则需要纳入病人的总样本例数为250例。 非劣性试验(α=0.05,β=0.2)时:

计数资料: 平均有效率(P)等效标准(δ) N= 公式:N=12.365×P(1-P)/δ2 计量资料: 共同标准差(S)等效标准(δ) N= 公式:N=12.365× (S/δ)2 等效性试验(α=0.05,β=0.2)时: 计数资料: 平均有效率(P)等效标准(δ) N= 公式:N=17.127×P(1-P)/δ2 计量资料: 共同标准差(S)等效标准(δ) N= 公式:N=17.127× (S/δ)2 上述公式的说明: 1) 该公式源于郑青山教授发表的文献。 2) N 是每组的估算例数N1=N2,N1 和N2 分别为试验药和参比药的例数; 3) P 是平均有效率,

最新【科研】如何确定临床实验设计中的样本量资料

科研】如何确定临床实验设计中的样本量? 在临床实验研究中,无论是实验组还是对照组都需要有一定数量的受试对象。这是因为同一种实验处理在不同的受试对象身上表现出的实验效应是存在着变异的。仅凭一次实验观测结果或单个受试者所表现出来的实验效应说明不了什么问题。必须通过一定数量的重复观测才能把研究总体真实的客观规律性显示出来,并且可以对抽样误差做出客观地估计。但重复观测次数越多(即样本含量越大)试验所要消耗的人力、物力、财力和时间越多,可能会使试验研究成为不可能。而且,样本含量过大还会增加控制试验观测条件的难度,有可能引入非随机误差,给观测结果带来偏性(bias) 。所以在实验设计中落实重复原则的一个重要问题就是如何科学合理确定样本量。由于在各对比组例数相等时进行统计推断效能最高,因此多数情况下都是按各组样本含量相等来估计。但在个别情况下,也可能要求各组样本含量按一定比例来估计。 1 与样本含量估计有关的几个统计学参数在估计样本含量之前,首先要对以下几个统计学参数加以确定或作出估计。 1.1规定有专业意义的差值3,即所比较的两总体参数值相差多大以上才有专业意义。3 是根据实验目的人为规定的, 但必须有一定专业依据。习惯上把8称为分辨力或区分度。 8值越小表示对二个总体参数差别的区分度越强,因而所需样本含量也越大。

1.2确定作统计推断时允许犯I类错误(“弃真”的的误率a,即当对比的双方总体参数值没有差到8。但根据抽样观测 结果错误地得出二者有差别的推断结论的可能性,a 确定的 越小,所需样本含量越大。在确定a时还要注意明确是单侧 检验的a,还是双侧检验的a。在同样大小的a条件下;双侧检验要比单侧检验需要更大的样本含量。 1.3提出所期望的检验效能power,用1- B表示。B为允许犯H类错误(“取伪”的错误概率。检验效能就是推断结论不犯H类错误的概率1- B称把握度。即当对比双方总体参数值间差值确实达到8以上时,根据抽样观测结果在规定的a水准上能正确地作出有差别的推断结论的可能性。在科研设计中常把1- B定为0.90或0.80。一般来说1- B不宜低于0.75 , 否则可能出现非真实的阴性推断结论。 1.4给出总体标准差c或总体率n的估计值。它们分别反映计量数据和计数数据的变异程度。一般是根据前人经验或文献报道作出估计。如果没有前人经验或文献报道作为依据, 可通过预实验取得样本的标准差s或样本率P分别作为c和n的估计值。c的估计值越大,n的估计值越接近0.5 ,所需样本含量越大。 在对以上统计学参数作出规定或估计的前提下,就可以根据不同的推断内容选用相应的公式计算出所需样本含量。由于在同样的要求和条件下完全随机设计(成组设计)所需样本含 量最大,故一般都要按完全随机设计作出样本含量的估计。

-临床试验中的随机分组方法

正确使用随机分组是取得比较组间初始可比性、避免选择性偏倚的保证。随机化分组的方法有多种,但真正的随机化应符合下列原则: (1)医生和患者不能事先知道或 决定患者将分配到哪一组接受治疗; (2)医生和患者都不能从一个患者已经进入的组 别推测出下一个患者将分配到哪一组。随机序列的产生可以采用计算机、计算 器、随机数字表和抛硬币的方法来实现。其随机分组方法包括: 简单随机 化( simple rando mizaton)、区组随机化( blockrandomi zation )、分段(或分层) 随机化( stratifiedrandomization)、分层区组随机 化( stratified blockrandomization) 及动态随机化( dy namicrandomization)等。 1. 1 简单随机化分组 简单随机化分组又称为完全随机化分组,是对研究对象直接进行随机分组,常通过 掷硬币或随机数字表,或用计算机产生随机数来进行随机化,在事先或者实施过程中 不作任何限制和干预或调整。简单随机化分组方法对小样本试验操作起来很简单,但是如果研究对象例数较少时,则各组例数会出现不平衡现象。例如,掷硬 币的方法在小样本的试验中由于随机误差难以保证组间病例数的均衡。有研究表明, 当总例数为100时,每组刚好50例的概率仅为8%。因此,采用随机数字表的方法,以及随机数余数分组法可以很好地解决这个问题, 使分组后各组例数相等。 操作步骤: (1)编号: 将N个实验单位从1 到N 编号。动物可按体重大小,患者可按预 计的样本量编号;(2)获取随机数字: 从随机数字表中任意一个数开始,沿同一方向顺序获取每个实验单位一个随机数字; (3)求余数: 随机数除以组数求余数。若整除则余数取组数; (4)分组: 按余数分组; (5)调整: 假如共有n例待调整,需要从中抽取1例,便 续抄一个随机数,除以n后将得到的余数作为所抽实验单位的序号(若整除则余数为n)。例1: 欲将15例病例随机等分到3个组中去。方法:从随机数字表中任意选择起始数, 现将从第5行第5列开始向右的随机数按随机数余数分组的分类结果列于表1中。第一次分组后,甲组6例,乙组5例,丙组4例。由于各组例数不等,须将甲组调整1例到丙组。因此,继续查随机数字表,下一个随机数字为58。58 /3余1,因此继续查随机数字表,下一个随机数字为58。58 /3余1,因此,将第1 例从甲组调整到丙组中去。

临床试验样本量的估算

临床试验样本量的估算样本量的估计涉及诸多参数的确定,最难得到的就是预期的或者已知的效应大小(计数资料的率差、 计量资料的均数差值),方差(计量资料)或合并的率(计数资料各组的合并率),一般需通过预试验或者查阅历史资料和文献获得,不过很多时候很难得到或者可靠性较差。因此样本量估计有些时候不是想做就能做的。SFDA的规定主要是从安全性的角度出发,保证能发现多少的不良反应率;统计的计算主要是从power 出发,保证有多少把握能做出显著来。 但是中国的国情有多少厂家愿意多做 建议方案里这么写: 从安全性角度出发,按照SFDA××规定,完成100 对有效病例,再考虑到脱落原因,再扩大20%,即120 对,240 例。或者:本研究为随机双盲、安慰剂平行对照试验,只有显示试验药优于安慰剂时才可认为试验药有效,根据预试验结果,试验组和对照组的有效率分别为%和%,则每个治疗组中能接受评价的病人样本数必须达到114 例(总共228 例),这样才能在单侧显著性水平为5%、检验功效为90%的情况下证明试验组疗效优于对照组。假设因调整意向性治疗人群而丢失病例达10%,则需要纳入病人的总样本例数为250 例。

非劣性试验(α=,β=)时:计数资料: 平均有效率(P) N= 公式:N=×P(1 - P)/ δ2 计量资料: 共同标准差(S) N= 公式:N=× (S/ δ)2 等效性试验(α=,β=)时:计数资料: 平均有效率(P) N= 公式:N=×P(1 - P)/ δ2 计量资料: 共同标准差(S) N= 公式:N=× (S/ δ)2 上述公式的说明:等效标准(δ) 等效标准(δ)等效标准(δ) 等效标准(δ) 1)该公式源于郑青山教授发表的文献。 2)N 是每组的估算例数N1=N2,N1 和N2 分别为试验药和参比药的例数;

如何确定抽样统计的最小样本量

如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格) 在电视节目中经常看到关于选举的报道中经常会后有支持率的数字,例如:调查结果为 ?a方支持率为%; ?b方支持率为%; ?c方支持率为%; ?... 最后都会说明一下,此次电话调查的数量2352,置信度为95%﹐最大抽样误差为±%。 抽样调查的典型情景:对一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。这里就需要了解置信度和抽样误差的概念; 抽样误差:假如相同规模的抽样调查进行多次,抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合的,例如下图:横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况); 最小抽样量的计算公式:抽样量需要> 30个才算足够多,可以用以下近似的误差/样本量估算公式; n:为样本量; :,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采 样量越多; E:为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为 1/2,抽样量需要增加为4倍; : 为可靠性系数,即置信度,置信度为95%时,=,置信度为90%时,=,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%; 为了体现相对差距:假设抽样为y 相对抽样误差h = E / y C= σ / y 以下是基于抽样得分的抽样误差估算表格:方差越大需要的样本量越多,数据离散度越低,需要的抽样量越少; 置信度相对抽样误差(假设:C=

【科研】如何确定临床实验设计中的样本量

【科研】如何确定临床实验设计中的样本量? 在临床实验研究中,无论是实验组还是对照组都需要有一定数量的受试对象。这是因为同一种实验处理在不同的受试对象身上表现出的实验效应是存在着变异的。仅凭一次实验观测结果或单个受试者所表现出来的实验效应说明 不了什么问题。必须通过一定数量的重复观测才能把研究总体真实的客观规律性显示出来,并且可以对抽样误差做出客观地估计。但重复观测次数越多(即样本含量越大)试验所要消耗的人力、物力、财力和时间越多,可能会使试验研究成为不可能。而且,样本含量过大还会增加控制试验观测条件的难度,有可能引入非随机误差,给观测结果带来偏性(bias)。所以在实验设计中落实重复原则的一个重要问题就是如何 科学合理确定样本量。由于在各对比组例数相等时进行统计推断效能最高,因此多数情况下都是按各组样本含量相等来估计。但在个别情况下,也可能要求各组样本含量按一定比例来估计。 1 与样本含量估计有关的几个统计学参数 在估计样本含量之前,首先要对以下几个统计学参数加以确定或作出估计。 1.1 规定有专业意义的差值δ,即所比较的两总体参数值相差多大以上才有专业意义。δ是根据实验目的人为规定的,

但必须有一定专业依据。习惯上把δ称为分辨力或区分度。δ值越小表示对二个总体参数差别的区分度越强,因而所需样本含量也越大。 1.2 确定作统计推断时允许犯Ⅰ类错误(“弃真”的错误)的概 率α,即当对比的双方总体参数值没有差到δ。但根据抽样观测结果错误地得出二者有差别的推断结论的可能性,α确定的越小,所需样本含量越大。在确定α时还要注意明确是单侧检验的α,还是双侧检验的α。在同样大小的α条件下;双侧检验要比单侧检验需要更大的样本含量。 1.3 提出所期望的检验效能power,用1-β表示。β为允许犯Ⅱ类错误(“取伪”的错误)的概率。检验效能就是推断结论不犯Ⅱ类错误的概率1-β称把握度。即当对比双方总体参数值间差值确实达到δ以上时,根据抽样观测结果在规定的α水准上能正确地作出有差别的推断结论的可能性。在科研设计中常把1-β定为0.90或0.80。一般来说1-β不宜低于0.75,否则可能出现非真实的阴性推断结论。 1.4 给出总体标准差σ或总体率π的估计值。它们分别反映计量数据和计数数据的变异程度。一般是根据前人经验或文献报道作出估计。如果没有前人经验或文献报道作为依据,可通过预实验取得样本的标准差s或样本率P分别作为σ和π的估计值。σ的估计值越大,π的估计值越接近0.5,所需样本含量越大。

抽样调查样本量确定

抽样调查样本量的确定 在贸易统计中, 对于限额以下批零餐饮企业普遍采用抽样调查方法进行解决。然而,由于当前市场经济情况的多样性,经济发展的不均衡性,以及地域宽广性,导致情况多种多样;实际情况的复杂,决定了方案的复杂性,增加了具体抽样的难度。经过多年的探讨,区域二相抽样调查比较符合当前我国的实际情况,我们在这里根据试点所掌握的情况针对采用区域二相抽样调查的贸易抽样方案中如何确定样本量进行分析。 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。

临床试验样本量的估算

临床试验样本量的估算 LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】

临床试验样本量的估算 样本量的估计涉及诸多参数的确定,最难得到的就是预期的或者已知的效应大小(计数资料的率差、计量资料的均数差值),方差(计量资料)或合并的率(计数资料各组的合并率),一般需通过预试验或者查阅历史资料和文献获得,不过很多时候很难得到或者可靠性较差。因此样本量估计有些时候不是想做就能做的。SFDA的规定主要是从安全性的角度出发,保证能发现多少的不良反应率;统计的计算主要是从power出发,保证有多少把握能做出显着来。 但是中国的国情有多少厂家愿意多做 建议方案里这么写: 从安全性角度出发,按照SFDA××规定,完成100对有效病例,再考虑到脱落原因,再扩大20%,即120对,240例。 或者:本研究为随机双盲、安慰剂平行对照试验,只有显示试验药优于安慰剂时才可认为试验药有效,根据预试验结果,试验组和对照组的有效率分别为%和%,则每个治疗组中能接受评价的病人样本数必须达到114例(总共228例),这样才能在单侧显着性水平为5%、检验功效为90%的情况下证明试验组疗效优于对照组。 假设因调整意向性治疗人群而丢失病例达10%,则需要纳入病人的总样本例数为250例。 非劣性试验(α=,β=)时:

计数资料: 平均有效率(P)等效标准(δ) N= 公式:N=×P(1-P)/δ2 计量资料: 共同标准差(S)等效标准(δ) N= 公式:N=× (S/δ)2 等效性试验(α=,β=)时: 计数资料: 平均有效率(P)等效标准(δ) N= 公式:N=×P(1-P)/δ2 计量资料: 共同标准差(S)等效标准(δ) N= 公式:N=× (S/δ)2 上述公式的说明: 1) 该公式源于郑青山教授发表的文献。 2) N 是每组的估算例数N1=N2,N1 和N2 分别为试验药和参比药的例数; 3) P 是平均有效率,

样本量计算

样本量计算 Last revision date: 13 December 2020.

1.估计样本量的决定因素 资料性质 计量资料如果设计均衡,误差控制得好,样本可以小于30例; 计数资料即使误差控制严格,设计均衡, 样本需要大一些,需要30-100例。 研究事件的发生率 研究事件预期结局出现的结局(疾病或死亡),疾病发生率越高,所需的样本量越小,反之就要越大。 研究因素的有效率 有效率越高,即实验组和对照组比较数值差异越大,样本量就可以越小,小样本就可以达到统计学的显着性,反之就要越大。 显着性水平 即假设检验第一类(α)错误出现的概率。为假阳性错误出现的概率。α越小,所需的样本量越大,反之就要越小。α水平由研究者具情决定,通常α取或。 检验效能 检验效能又称把握度,为1-β,即假设检验第二类错误出现的概率,为假阴性错误出现的概率。即在特定的α水准下,若总体参数之间确实存在着差别,此时该次实验能发现此差别的概率。检验效能即避免假阴性的能力,β越小,检验效能越高,所需的样本量越大,反之就要越小。β水平由研究者具情决定,通常取β为,或。即1-β=,或,也就是说把握度为80%,90%或95%。 容许的误差(δ) 如果调查均数时,则先确定样本的均数( )和总体均数(m)之间最大的误差为多少。容许误差越小,需要样本量越大。一般取总体均数(1-α)可信限的一半。 总体标准差(s) 一般因未知而用样本标准差s代替。 双侧检验与单侧检验 采用统计学检验时,当研究结果高于和低于效应指标的界限均有意义时,应该选择双侧检验,所需样本量就大; 当研究结果仅高于或低于效应指标的界限有意义时,应该选择单侧检验,所需样本量就小。当进行双侧检验或单侧检验时,其α或β的Ua界值通过查标准正态分布的分位数表即可得到。

临床试验样本量的估算

临床试验样本量的估算 Document serial number【LGGKGB-LGG98YT-LGGT8CB-LGUT-

临床试验样本量的估算 样本量的估计涉及诸多参数的确定,最难得到的就是预期的或者已知的效应大小(计数资料的率差、计量资料的均数差值),方差(计量资料)或合并的率(计数资料各组的合并率),一般需通过预试验或者查阅历史资料和文献获得,不过很多时候很难得到或者可靠性较差。因此样本量估计有些时候不是想做就能做的。SFDA的规定主要是从安全性的角度出发,保证能发现多少的不良反应率;统计的计算主要是从power出发,保证有多少把握能做出显着来。 但是中国的国情有多少厂家愿意多做 建议方案里这么写: 从安全性角度出发,按照SFDA××规定,完成100对有效病例,再考虑到脱落原因,再扩大20%,即120对,240例。 或者:本研究为随机双盲、安慰剂平行对照试验,只有显示试验药优于安慰剂时才可认为试验药有效,根据预试验结果,试验组和对照组的有效率分别为%和%,则每个治疗组中能接受评价的病人样本数必须达到114例(总共228例),这样才能在单侧显着性水平为5%、检验功效为90%的情况下证明试验组疗效优于对照组。假设因调整意向性治疗人群而丢失病例达10%,则需要纳入病人的总样本例数为250例。 非劣性试验(α=,β=)时: 计数资料: 平均有效率(P) ? ? ? 等效标准(δ) N=

公式:N=×P(1-P)/δ2 计量资料: 共同标准差(S) ? ? ? ? ? 等效标准(δ) N= 公式:N=× (S/δ)2 等效性试验(α=,β=)时: 计数资料: 平均有效率(P) ? ? ? ? 等效标准(δ) N= 公式:N=×P(1-P)/δ2 计量资料: 共同标准差(S) ? ? ? ? 等效标准(δ) N= 公式:N=× (S/δ)2 上述公式的说明: 1) ? ? 该公式源于郑青山教授发表的文献。 2) ? ? N 是每组的估算例数N1=N2,N1 和N2 分别为试验药和参比药的例数; 3) ? ? P 是平均有效率, 4) ? ? S 是估计的共同标准差, 5) ? ? δ 是等效标准。 6) ? ? 通常都规定α=,β=(把握度80%)

临床试验样本量的估算

临床试验样本量的估算

临床试验样本量的估算 样本量的估计涉及诸多参数的确定,最难得到的就是预期的或者已知的效应大小(计数资料的率差、计量资料的均数差值),方差(计量资料)或合并的率(计数资料各组的合并率),一般需通过预试验或者查阅历史资料和文献获得,不过很多时候很难得到或者可靠性较差。因此样本量估计有些时候不是想做就能做的。SFDA的规定主要是从安全性的角度出发,保证能发现多少的不良反应率;统计的计算主要是从power出发,保证有多少把握能做出显著来。 但是中国的国情?有多少厂家愿意多做? 建议方案里这么写: 从安全性角度出发,按照SFDA××规定,完成100对有效病例,再考虑到脱落原因,再扩大20%,即120对,240例。 或者:本研究为随机双盲、安慰剂平行对照试验,只有显示试验药优于安慰剂时才可认为试验药有效,根据预试验结果,试验组和对照组的有效率分别为65.0%和42.9%,则每个治疗组中能接受评价的病人样本数必须达到114例(总共228例),这样才能在单侧显著性水平为5%、检验功效为90%的情况下证明试验组疗效优于对照组。假设因调整意向性治疗人群而丢失病例达10%,则需要纳入病人的总样本例数为250例。 非劣性试验(α=0.05,β=0.2)时:

计数资料: 平均有效率(P)等效标准(δ) N= 公式:N=12.365×P(1-P)/δ2 计量资料: 共同标准差(S)等效标准(δ) N= 公式:N=12.365× (S/δ)2 等效性试验(α=0.05,β=0.2)时: 计数资料: 平均有效率(P)等效标准(δ) N= 公式:N=17.127×P(1-P)/δ2 计量资料: 共同标准差(S)等效标准(δ) N= 公式:N=17.127× (S/δ)2 上述公式的说明: 1) 该公式源于郑青山教授发表的文献。 2) N 是每组的估算例数N1=N2,N1 和N2 分别为试验药和参比药的例数; 3) P 是平均有效率,

样本量估计

样本含量估算方法及其软件实现(一) 样本含量(sample size)即观察例数的多少,又称样本大小。在保证研究结论具有一定的可靠性(精度和检验功效)的前提下,常需要在设计阶段就人估计最少的受试对象。在医学科研中,只要是抽样研究,就要考虑样本含量的估计。 样本含量估计充分反映了科研设计中“重复”的基本原则,过小过大都有其弊端。样本含量过小,所得指标不稳定,用于推断总体的精密度和准确度差;检验的功效性低,应有的差别不能显示出来,难以获得正确的研究结果,结论也缺乏充分的证据;样本含量过大,会整加实际工作的困难,浪费人力、物力、财力和时间。由于过分追求数量,可能会引起更多的混杂因素,从而影响数据的质量。 影响假设检验时样本含量估计的因素有四个: 1.第一类错误概率的大小α也称检验水准。α越小所需样本含量越多,对于相同α,双侧检验比单侧检验所需要的样本含量更多。 2.检验功效(1-β)或第二类错误概率的大小β检验功效越大,第二类错误的概率愈小,所需要样本含量愈多。 3.容许误差δ容许误差δ愈大,所需的样本含量愈小。 4.总体标准差σ或总体概率σ愈大,所需样本含量自然愈多。总体概率越接近0.5,则所需样本含量愈多。 样本含量的估算方法有查表法和计算法两种。随着计算机的普遍使用,统计学家也开发了一些专门的样本含量估算软件。其算法都是根据上述影响因素结合统计学原理求得。 我就通过实例的样本含量的计算过程,使大家对样本含量有一个更加直观

的认识。 1 计量资料单组设计基于t检验的差异性检验 举例:已知中国50-70岁男性的平均收缩压为158 mmHg,标准差为18,用药物AAA干预,平均收缩压下降10 mmHg 则认为有临床意义,α=0.05, Power=90%,Power =1-β, 双側检验,需要多少病例数。 启动医学研究样本含量估算系统SASA1.0,在桌面上双击SASA1.0快捷方式或点击开始 \ 所有程序 \ Sample Size Adviser \ Sample Size Adviser,进入SASA1.0主窗口。在Goal栏目中选定Means(计量资料)在Group栏目中选定1,在Analysis Method栏目中选定Test(差异性检验)。

临床试验样本量的估算

临床试验样本量的估算The final revision was on November 23, 2020

临床试验样本量的估算 样本量的估计涉及诸多参数的确定,最难得到的就是预期的或者已知的效应大小(计数资料的率差、计量资料的均数差值),方差(计量资料)或合并的率(计数资料各组的合并率),一般需通过预试验或者查阅历史资料和文献获得,不过很多时候很难得到或者可靠性较差。因此样本量估计有些时候不是想做就能做的。SFDA的规定主要是从安全性的角度出发,保证能发现多少的不良反应率;统计的计算主要是从power出发,保证有多少把握能做出显着来。 但是中国的国情有多少厂家愿意多做 建议方案里这么写: 从安全性角度出发,按照SFDA××规定,完成100对有效病例,再考虑到脱落原因,再扩大20%,即120对,240例。 或者:本研究为随机双盲、安慰剂平行对照试验,只有显示试验药优于安慰剂时才可认为试验药有效,根据预试验结果,试验组和对照组的有效率分别为%和%,则每个治疗组中能接受评价的病人样本数必须达到114例(总共228例),这样才能在单侧显着性水平为5%、检验功效为90%的情况下证明试验组疗效优于对照组。假设因调整意向性治疗人群而丢失病例达10%,则需要纳入病人的总样本例数为250例。 非劣性试验(α=,β=)时: 计数资料: 平均有效率(P)等效标准(δ) N=

公式:N=×P(1-P)/δ2 计量资料: 共同标准差(S)等效标准(δ) N= 公式:N=× (S/δ)2 等效性试验(α=,β=)时: 计数资料: 平均有效率(P)等效标准(δ) N= 公式:N=×P(1-P)/δ2 计量资料: 共同标准差(S)等效标准(δ) N= 公式:N=× (S/δ)2 上述公式的说明: 1) 该公式源于郑青山教授发表的文献。 2) N 是每组的估算例数N1=N2,N1 和N2 分别为试验药和参比药的例数; 3) P 是平均有效率, 4) S 是估计的共同标准差, 5) δ是等效标准。 6) 通常都规定α=,β=(把握度80%)

样本量的确定方法

样本量的确定方法(2008-10-14 09:12:34)一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内 样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 二、样本量的确定方法 如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量 计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的 公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。所以,区域二相抽样不能计算样本量的说法是不科学的。 1 / 5 1.简单随机抽样确定样本量主要有两种类型: (1)对于平均数类型的变量 对于已知数据为绝对数,我们一般根据下列步骤来计算所需要的样本量。已知期望调查结果的精度(E), 期望调查结果的置信度(L),以及总体的标准差估计值σ的具体数据,总体单位数N。2222/N) σ/(e/Z+σ计算公式为:n=222/e特殊情况下,如果是很大总体,计算公式变为:n= Zσ95%调查结果在例如希望平均收入的误差在正负人民币30元之间,95%的置信范围以内,其。根据估计总体的标准差为150元,总体单位数为1000。的统计量为的置信度要求 Z1.96:n=150*150/(30*30/(1.96*1.96))+150*150/1000)=88 样本量 (2)于百分比类型的变量(E),,一般根据下列步骤计算样本量。已知调查结果的精度值百分比对于已知数据为百分比。,的精度即样本变异程度,总体数为N以及置信度(L),比例估计(P)22+ P(1-P)/N) :n=P(1-P)/(e/Z则计算公式为22公式为:n= ZP(1-P)/e同样,特殊情况下如果不考虑总体, 。取其样本变异程度最大时的值为我们不知道,P的取值,0.5一般情况下的置信95%,其的置信范围以内之间例如:希望平均收入的误差在正负0.05,调查结果在95%。样本量0.5,1.96度要求Z的统计量为,估计P为总体单位数为

如何确定抽样统计的最小样本量

?a方支持率为45.3%; ?b方支持率为30.2%; ?c方支持率为8.5%; ?... 最后都会说明一下,此次电话调查的数量2352,置信度为95%﹐最大抽样误差为±2.5%。 抽样调查的典型情景:对一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。这里就需要了解置信度和抽样误差的概念; 抽样误差:假如相同规模的抽样调查进行多次,抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合标准正态分布的,例如下图:横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况);

最小抽样量的计算公式:抽样量需要> 30个才算足够多,可以用以下近似的误差/样本量估算公式; n:为样本量; :方差,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采样量越多; E:为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为1/2,抽样量需要增加为4倍; : 为可靠性系数,即置信度,置信度为95%时,=1.96,置信度为90%时,=1.645,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%; 为了体现相对差距:假设抽样均值为y 相对抽样误差h = E / y 变异系数C= σ / y

以下是基于抽样得分的抽样误差估算表格:方差越大需要的样本量越多,数据离散度越低,需要的抽样量越少; 相对抽样误差(假设:C=0.4) π为按照经验得出的最后比例,在未知时π可取50%,待算出结果后再重新拟合,比例越悬 从而看出大部分的电话抽样调查:95%置信度的情况下,误差要控制在2%以内取样量一般在2000-5000;为了方便计算抽样调查的误差和估算抽样量,制作了一个Excel表格附后,调整颜色框中的抽样量数字就可以得到相应的误差或根据指定的误差范围估算出抽样量;

临床试验样本量的估算

临床试验样本量得估算 样本量得估计涉及诸多参数得确定,最难得到得就就是 预期得或者已知得效应大小(计数资料得率差、计量资料得均数差值),方差(计量资料)或合并得率(计数资料各组得合并率),一般需通过预试验或者查阅历史资料与文献获得,不过很多时候很难得到或者可靠性较差。因此样本量估计有些时候不就是想做就能做得。SFDA得规定主要就是从安全性得角度出发,保证能发现多少得不良反应率;统 计得计算主要就是从power出发,保证有多少把握能做出显著来。 但就是中国得国情?有多少厂家愿意多做? 建议方案里这么写: 从安全性角度出发,按照SFDA××规定,完成100对有效病例,再考虑到脱落原因,再扩大20%,即120对,240例。 或者:本研究为随机双盲、安慰剂平行对照试验,只有显示试验药优于安慰剂时才可认为试验药有效,根据预试验结果,试验组与对照组得 有效率分别为65、0%与42、9%,则每个治疗组中能接受评价得病人样本数必须达到114例(总共228例),这样才能在单侧显著性水平为5%、检验功效为90%得情况下证明试验组疗效优于对照组。假设因调整意向性治疗人群而丢失病例达10%,则需要纳入病人得总样本例数为250例。 非劣性试验(α=0、05,β=0、2)时:

计数资料: 平均有效率(P) 等效标准(δ) N= 公式:N=12、365×P(1-P)/δ2 计量资料: 共同标准差(S) 等效标准(δ) N= 公式:N=12、365× (S/δ)2 等效性试验(α=0、05,β=0、2)时: 计数资料: 平均有效率(P) 等效标准(δ) N= 公式:N=17、127×P(1-P)/δ2 计量资料: 共同标准差(S) 等效标准(δ) N= 公式:N=17、127× (S/δ)2 上述公式得说明: 1) 该公式源于郑青山教授发表得文献。 2) N 就是每组得估算例数N1=N2,N1 与N2 分别为试验药与参比药得例数; 3) P 就是平均有效率,

样本量估算

1.单因素二水平设计定量资料的非劣效性检验时样本量的估算 1.1计算公式: 非劣效性检验应当采用单侧的检验水准α,假定允许的第二类错误概率不超过β,则非劣效性检验每组需要的样本含量为: 22211)/()(2θδβα-+=--L S u u n (1-1)[1] 2221)/()(2δβαe s z z n n ?+==(1-2)[2] 1.2式中各参数代表的意义,n 为每组样本含量,α-1u 、β-1u 为单侧标准正态离差界值,S 为估计的共同标准差,L δ为非劣界值,且L δ<0,θ为试验组与对照组总体均值差值的估计值。 说明:单因素二水平设计定量资料的非劣效性检验时样本量的估算公式与上式完全类似,只需将非劣界值L δ(L δ<0)替换成优效界值u δ(u δ>0)即可。 1.3例题:某利尿新药拟进行Ⅱ期临床试验,与阳性药按1:1的比例安排例数,考察24h 新药利尿量(ml )是否不差于阳性药。根据以往的疗效和统计学的一般要求,取α=0.05,β=0.20,非劣效界值L δ=﹣60ml ,已知两组共同标准差S =180ml ,假定新药与阳性对照药总体利尿量的差值θ=﹣20ml ,问每组需要多少病例? 将05.01-u =1.645,20.01-u =0.845,s=180,L δ=﹣60,θ=﹣20代入公式,得: 22211)/()(2θδβα-+=--L S u u n =2(1.645+0.845)2×1802/(﹣60﹣(﹣20))2≈251.1, 取n=252,即每组需要252例。 2.单因素二水平设计定性资料的非劣效性检验时样本含量的估算 2.1计算公式: 非劣效性检验应当采用单侧检验,检验水准为α,假定允许的第二类错误概率不超过β,试验组与对照组总体率的差值为C T ππθ -=(T π、C π未知时可用样本频率估计),两组的平均有效率为2/)(C T πππ+=,非劣界值为u δ<0,则在两组样本含量相等的情况下,非劣效性检验每组需要的样本含量为: 2211)/()1()(2θδππβα--+=--L u u n (2-1)[1] 2合合221/)-1()(2δβαp p z z n n +==(2-2)[2] 说明:单因素二水平设计定性资料的优效性检验时样本含量的估计公式与式(2-1)完全类似,只需将非劣界值L δ(L δ<0)替换成优效界值u δ(u δ>0)即可。 2.2例题:某新药拟进行Ⅱ期临床试验,与阳性药按1:1的比例安排例数,考察新药临床治愈率是否不差于阳性药。根据以往的疗效和统计学的一般要求,取α=0.05,β=0.20,非劣界值δ=﹣0.15,平均有效率P=0.80,并假定两组总体有效率相等,问每组需

抽样调查样本量确定.

抽样调查样本量确定.

抽样调查样本量的确定 在贸易统计中, 对于限额以下批零餐饮企业普遍采用抽样调查方法进行解决。然而,由于当前市场经济情况的多样性,经济发展的不均衡性,以及地域宽广性,导致情况多种多样;实际情况的复杂,决定了方案的复杂性,增加了具体抽样的难度。经过多年的探讨,区域二相抽样调查比较符合当前我国的实际情况,我们在这里根据试点所掌握的情况针对采用区域二相抽样调查的贸易抽样方案中如何确定样本量进行分析。 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1研究对象的变化程度,即变异程度; (2要求和允许的误差大小,即精度要求; (3要求推断的置信度,一般情况下,置信度取为95%; (4总体的大小; (5抽样的方法。

也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 二、样本量的确定方法 如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样 本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算 样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根 据一定方法分配到各个子域中去。所以,区域二相抽样不能计算样本量的说法是不科学的。 1.简单随机抽样确定样本量主要有两种类型: (1对于平均数类型的变量 对于已知数据为绝对数,我们一般根据下列步骤来计算所需要的样本量。已知期望调查 结果的精度(E, 期望调查结果的置信度(L,以及总体的标准差估计值σ的具体数据,总体

相关主题
文本预览
相关文档 最新文档