当前位置:文档之家› 第03章抽样误差

第03章抽样误差

第03章抽样误差
第03章抽样误差

第3章抽样误差

3.1 抽样误差的概念

医学科研中通常采用抽样研究的方法,从某总体中随机抽取一个样本来进行研究,而所得样本统计量与总体参数常不一致,这种由抽样引起的样本统计量与总体参数间的差异属于抽样误差(sampling error),这在抽样研究中是不可避免的。

例如,假设某地成年男子血红蛋白的总体均数(μ)为13.76(g/100ml),随机抽查了360名男子,算得平均血红蛋白含量X=13.45(g/100ml),若用此X作为该地区成年男子血红蛋白的总体均数(μ)的一个估计值,则(13.76-13.45)=0.31(g/100ml),此差值属于抽样误差。

抽样误差有两种表现形式,其一是:样本统计量与总体参数间的差异,如样本均数与总体均数间的差异;其二是:不同样本的统计量间的差异,如从同一总体中抽取含量相等的两样本得到的两个样本均数之间的差异。

从理论上讲,若进行K次抽样,所得的K个样本统计量(例如X)则很可能各不相同,若将这些样本统计量编制成频率分布表或绘制成频率分布图,则可看出样本统计量的抽样分布是有规律的。

3.2 抽样误差产生的条件

抽样误差产生的两个必备条件:

(1) 抽样研究。抽样研究是产生抽样误差的必备条件之一。只有对总体中的部分个体进行研究,才可能导致样本指标与总体指标的不一致,而且在从同一总体进行抽样的研究中,样本含量越少的研究,理论上抽样误差必然越大。

(2) 个体变异。个体变异是产生抽样误差的另一必备条件。在医学科研领域,许多被研究对象都存在着变异现象,如血压、疗效、药物反应等。在抽样方法和样本含量不变的条件下,变异大的研究样本其抽样误差也大,反之则小。

以上是产生抽样误差的必备条件,缺一不可。若进行普查,则被研究对象的个体变异将不会产生抽样误差;若个体间无变异,当然无需作抽样研究,也无抽样误差可言。

3.3 均数的抽样误差及标准误

虽然均数的抽样误差可表现为样本均数与总体均数之差值,但由于总体均数往往是未知的,故这个差值实际上是得不到的,只能估计。均数的抽样误差也可用多个样本均数间的离散度表示,但由于对同一问题很少做多次同样的抽样研究,所以这个离散度一般也是得不到的。那么,如何衡量抽样误差的大小,揭示抽样误差的规律呢?这就要应用数理统计中的中心极限定理(central limit theorem)了。

中心极限定理的涵义:

(1) 从均数为μ、标准差为 σ 的正态总体中独立、重复、随机抽取含量为n 的样本,样本均数的分布仍为正态分布,其均数为μ,标准差为X σ。

(2) 即使从非正态总体(均数为μ、标准差为σ )中独立、重复、随机抽取含量为n 的样本,只要样本含量足够大(如n ≥50),样本均数也近似服从均数为μ、标准差为X σ的正态分布。

n

X σ

σ=

(3.1)

在统计理论上将样本统计量的标准差称为统计量的标准误(standard error ,SE ),用来衡量抽样误差的大小。据此,样本均数的标准差X σ称为均数的标准误,简称标准误。由上式可见,此标准误与个体变异σ 成正比,与样本含量n 的平方根成反比。

实际工作中,σ 往往是未知的,一般可用样本标准差s 代替σ ,求得X σ的估计值X s 。即:

n

s s X =

(3.2)

因为标准差s 随样本含量的增加而趋于稳定,故增加样本含量可以降低抽样误差。

为了形象地展示中心极限定理,表3.1设计了4个非正态分布的总体,其中,总体A 是偏三角分布,总体B 是均匀分布,总体C 是指数分布,总体D 为双峰分布。分别从各总体中抽取10000个样本含量为n 的样本,计算每个样本的均数,并根据10000个样本均数绘制频率分布图(图3.1)。

由图可见,样本均数的分布不再显示原来的非正态分布之特征,且随着样本含量n 的增大,样本均数的分布很快接近正态分布,并显示均匀分布接近正态分布的速度快于偏态分布,单峰分布快于双峰分布。因此,根据中心极限定理,即使对于总体的精确分布并不清楚(这种情况在分析实际资料时较为常见),我们也可以利用这一特性对样本均数的抽样误差进行各种分析。

表3.1 4个总体不同样本含量时10000个模拟样本的均数和标准误

与相应理论值的比较

均数±标准误,X σμ±

总体A

n =2 1.3340±0.3357 1.3333±0.3333 n =4 1.3328±0.2355 1.3333±0.2357 n =10 1.3322±0.1493 1.3333±0.1491 n =25 1.3325±0.0937

1.3333±0.0943

总体B

n =2 0.4965±0.2042 0.5000±0.2041 n =4 0.5007±0.1454 0.5000±0.1443 n =10 0.5013±0.0919 0.5000±0.0913 n =25 0.5002±0.0576

0.5000±0.0577

总体C

n =2 0.9992±0.7065 1.0000±0.7071 n =4 1.0001±0.5041 1.0000±0.5000 n =10 1.0026±0.3154 1.0000±0.3162 n =25 0.9962±0.1985

1.0000±0.2000

总体D

n =2 1.0069±0.5486 1.0000±0.5477 n =4 1.0074±0.3945 1.0000±0.3873 n =10 0.9965±0.2472 1.0000±0.2450 n =25

0.9997±0.1560

1.0000±0.1549

表 3.1中12个抽样分布的均数及标准误与理论值均非常接近。实际工作中,常用

SE X ±表示某指标的均数及其抽样误差。同时,中心极限定理通过图3.1显示:从不同分布类型的总体抽样时,达到样本均数趋向正态分布所需的最小样本含量之参考数。一般而言,样本含量大于10时,其均数分布趋向正态的效果已经比较明显。

本节描述了来自不同总体的样本均数之抽样误差和抽样分布规律。事实上,任何一个样本统计量均有其抽样分布规律,如来自正态分布总体的样本方差服从χ2分布;方差之比服从F 分布;相关系数作适当变换后近似服从正态分布;率的分布与样本含量n 和率的大小有关,在样本含量较小时服从二项分布,在n 足够大时,近似服从正态分布;等。统计量的抽样分布规律是进行统计推断的理论基础。

下面介绍从正态分布总体中随机抽样,均数和方差的有关抽样分布。

总体分布D

n=2 总体分布C

3.4 t 分布

中心极限定理表明,从任何总体中随机抽样,当样本含量较大时,其均数的抽样分布将趋于正态分布。如果是从正态分布总体中抽样,英国统计学W.S.Gosset (1908)导出了样本均数的确切分布。

设从正态分布N (μ,σ2)中随机抽取含量为n 的样本,样本均数和标准差分别为X 和s ,且:

n

s X s X t X

μ

μ-=-=

(3.3) 则t 值服从自由度为n -1的t 分布(t -distribution)。Gosset 于1908年在《Biometrika 》(生物统计)杂志第6卷第1期上发表了题为《The probable error of a mean 》(平均数的概率误差)的论文,当时用的是笔名“Student”,故t 分布又称Student t 分布。

t 分布曲线可用图3.2表示。

图3.2 自由度分别为1、5、∞时的t 分布

t 分布有以下的特征:

(1) t 分布为一簇单峰分布曲线。 (2) t 分布以0为中心,左右对称。

(3) t 分布与自由度ν有关,自由度越小,t 分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t 分布逐渐逼近标准正态分布;当自由度为无穷大时,t 分布就是标准正

-4

-3

-2

-1

0 1 2

3

4

图3.1 中心极限定理图示(b)

t

态分布。

每一自由度下的t 分布曲线都有其自身分布规律,这个规律可见于t 界值表(附表2),表中横标目为自由度,纵标目为概率P ,表中数据为相应的t 界值,常记为t α,ν。

t 分布表明,从正态分布总体中随机抽取的样本,由样本计算的t 值接近0的可能性较大,远离0的可能性较小。t 0.05,10=2.228,表明,从正态分布总体中抽取样本含量为n =11的样本,则由该样本计算的t 值大于等于2.228的概率为0.025,小于等于-2.228的概率亦为0.025。可表示为:

P (t ≤-2.228)+P (t ≥2.228)=0.05

或:P (-2.228

3.5 χ2 分布

设从正态分布N (μ,σ2)中随机抽取含量为n 的样本,样本均数和标准差分别为X 和s ,且:

2

2

2

)1(σχs n -=

(3.4)

则χ2值服从自由度为n -1的χ2分布(χ2-distribution),χ是小写希腊字母,读作chi 。可见,

χ2分布是方差的抽样分布。

统计学家Karl Pearson 在研究定性资料时指出,可以用χ2分布近似描述具有某种属性的实际频数A i 与理论频数T i 之间的抽样误差,即:

∑-=i

i i T T A 2

2

)(χ (3.5)

并指出,如果样本含量和理论频数均较大(如n ≥40,T i ≥5),或自由度大于1时,近似程度较好。因此,χ2分布除用于方差的抽样分布研究外,还可用于样本分布与理论分布的拟合优度检验(见第9章)、率或构成比的比较(见第7章),等。

χ2分布有以下的特征:

(1) χ2分布为一簇单峰正偏态分布曲线,χ2取值范围为0~∞。ν=1时分布最为偏斜。随ν的逐渐加大,分布趋于对称。图3.3给出了6个不同自由度时的χ2分布。

(2) 自由度为ν的χ2分布,其均数为ν,方差为2ν。

(3) ν=1时χ2分布实际上是标准正态分布变量之平方。自由度为ν的χ2分布实际上是ν个标准正态分布变量之平方和。可表示为:

χ2=u 12+ u 22+……+ u v 2 (3.6)

其中,u i 为标准正态变量。该性质说明,χ2分布具有可加性。

(4) 每一自由度下的χ2分布曲线都有其自身分布规律,这个规律可见于χ2界值表(附表3),表中横标目为自由度,纵标目为概率P ,表中数据为相应的χ2界值,常记为χ2α,ν。当自由度ν确定后,χ2与P 的关系如该表右上角插图所示:图中阴影部分表示大于χ2α,ν的

尾部面积的百分数,即概率α。例如,自由度为1时,χ20.05,1=3.84,表示当ν =1,右侧α=0.05时,χ2的界值为3.84,也即按χ2分布规律,ν =1时,理论上χ2≥3.84的概率为0.05。

χ2分布说明,从正态分布的总体中随机抽样,所得样本的方差s 2接近于总体方差σ2的可能性大,远离总体方差的可能性小。即χ2值接近其均数n -1的可能性大,远离n -1的可能性小。自由度=10时,χ20.025,10=20.48,χ20.975,10=3.25,说明,从正态分布的总体中随机样本含量为n =11的样本,得到的χ2值大于等于20.48的概率为0.025,小于等于3.25

的概率亦为0.025。可表示为:

P (χ2≤3.25)+P (χ2≥20.48)=0.05

或:P (3.25<χ2<20.48)=1-0.05=0.95。

图3.3

χ2分布曲线(自由度为1~6)

3.6 F 分布

设从两个方差相等的正态分布N (μ1,σ2)和N (μ2,σ2)总体中随机抽取含量分别为n 1和n 2

的样本,样本均数和标准差分别为1X 、s 1和2X 和s 2,且:

22

2

1

s s F =

(3.7)

则F 值服从自由度为(n 1-1,n 2-1)的F 分布(F -distribution)。F 分布有两个自由度,F 取值范围为0~∞。可见,F 分布是方差比的分布,常用于方差齐性检验,方差分析等(见第6章)。

F 分布有以下的特征:

(1) F 分布为一簇单峰正偏态分布曲线,与两个自由度有关。图3.4给出了4组不同自由度时的F 分布。

χ2

0.2f(χ2)

f (F )

(2) 若F 服从自由度为(ν1,ν2)的F 分布,则其倒数1/F 服从自由度为(ν2,ν1)的F 分布。 (3) 自由度为(ν1,ν2)的F 分布,其均数为ν2/(ν2-2),与第一自由度无关。

(4) 第一自由度ν1=1时,F 分布实际上是t 分布之平方;第二自由度ν2=∞时,F 分布实际上等于χ2分布。

(5) 每一对自由度下的F 分布曲线下的面积分布规律,见方差分析用F 界值表(附表4),表中横标目为第一自由度,纵标目为第二自由度,表中分别给出了右侧尾部概率为0.05和0.01时的F 界值,记为()1

2

,,F ανν。

图3.4 不同自由度时的F 分布曲线

F 分布表明,从两个方差相等的正态分布总体中随机抽取含量分别为n 1和n 2的样本,按式(3.7)计算所得F 值之均值应接近v 2/(v 2-2),当第二个样本含量增加时,F 值趋近于1。查附表4得F 0.05,(20,10)= 2.77,该界值表明:从方差相等的正态分布总体中随机抽取n 1=21,n 2=11的样本,则由两样本方差计算的F 值大于等于2.77的可能性为0.05。

0.2 0.4 0.6 0.8 1.0

F

F

第03章抽样误差

第3章抽样误差 3.1 抽样误差的概念 医学科研中通常采用抽样研究的方法,从某总体中随机抽取一个样本来进行研究,而所得样本统计量与总体参数常不一致,这种由抽样引起的样本统计量与总体参数间的差异属于抽样误差(sampling error),这在抽样研究中是不可避免的。 例如,假设某地成年男子血红蛋白的总体均数(μ)为13.76(g/100ml),随机抽查了360名男子,算得平均血红蛋白含量X=13.45(g/100ml),若用此X作为该地区成年男子血红蛋白的总体均数(μ)的一个估计值,则(13.76-13.45)=0.31(g/100ml),此差值属于抽样误差。 抽样误差有两种表现形式,其一是:样本统计量与总体参数间的差异,如样本均数与总体均数间的差异;其二是:不同样本的统计量间的差异,如从同一总体中抽取含量相等的两样本得到的两个样本均数之间的差异。 从理论上讲,若进行K次抽样,所得的K个样本统计量(例如X)则很可能各不相同,若将这些样本统计量编制成频率分布表或绘制成频率分布图,则可看出样本统计量的抽样分布是有规律的。 3.2 抽样误差产生的条件 抽样误差产生的两个必备条件: (1) 抽样研究。抽样研究是产生抽样误差的必备条件之一。只有对总体中的部分个体进行研究,才可能导致样本指标与总体指标的不一致,而且在从同一总体进行抽样的研究中,样本含量越少的研究,理论上抽样误差必然越大。 (2) 个体变异。个体变异是产生抽样误差的另一必备条件。在医学科研领域,许多被研究对象都存在着变异现象,如血压、疗效、药物反应等。在抽样方法和样本含量不变的条件下,变异大的研究样本其抽样误差也大,反之则小。 以上是产生抽样误差的必备条件,缺一不可。若进行普查,则被研究对象的个体变异将不会产生抽样误差;若个体间无变异,当然无需作抽样研究,也无抽样误差可言。

抽样误差及参数估计补充习题

1. 测得某地区100名健康成年男子的血红蛋白值,算得均数为135 g/l ,标准差为7g/l , 如按95% 概率估计该地所有健康成年男子的血红蛋白均数所在的范围 ,宜选用的主要计算公式是:___。 A 、X ±1.96·S B 、X ±1.96S X · C 、X ±2.58S X · D 、 X -1.645·S E 、X +1.645·S 2. 已知某地25岁正常成年男性的平均收缩压为11 3.0mmHg ,从该地随机抽取20名25岁 正常成年男性,测得其平均收缩压为119.0 mmHg 。119.0mmHg 与113.0mmHg 不同,主要原因是__________。 A.样本例数太少 B.抽样误差 C.总体均数不同 D.系统误差 E.样本均数不可比 3. 从上题的同一个地区中再随机抽取20名8岁正常男孩,测得其平均收缩压为90.0 mmHg ,标准差为9.8mmHg 。90.0 mmHg 与113.0mmHg 不同,主要原因是__________。 A.样本例数太少 B.抽样误差 C.总体均数不同 D.系统误差 E.样本均数不可比 4. 用上题的样本,估计该地8岁正常男孩的平均收缩压的95%置信区间为_____。 A. 8.90.11319,2/05.0?±t B 90.0±1.96?9.8 C. 20/8.90.9019,2/05.0?±t D 20/8.996.10.90?± E. 8.90.9019,2/05.0?±t 5. 某地成年男子红细胞数普查结果为:均数为4.8?109,标准差为0.41?109,那么标准差反 映的是: A 抽样误差 B 总体均数不同 C 随机误差 D 个体差异 E 以上均不正确 6. 某地成年男子红细胞普查结果为:均数为4.8?109,标准差为0.41?109,随机抽取10名 男子,测得红细胞均数为4.0?109,标准误0.5?109,那么标准误反映的是: A 抽样误差 B 总体均数不同 C 随机误差 D 个体差异 E 以上均不正确

相关主题
文本预览
相关文档 最新文档