参数估计基础
- 格式:doc
- 大小:441.50 KB
- 文档页数:22
6. 参数估计6.1. 参数估计概述统计学包括四个方面的问题,其中之一就是统计推断。
所谓统计推断就是指,如果有一个总体,其分布和统计量都不知道,如一批生产出来的产品的质量。
这样就需要对其进行推断,如一批灯泡的平均使用寿命是多少,是否为合格品等。
统计推断就是解决这些问题。
统计推断分为两个方面,一方面是参数估计,另一方面是假设检验。
6.1.1.参数估计所谓参数估计就是通过对样本的研究,来确定总体的统计量。
其中又可分为点估计和区间估计两类。
点估计就是估计出总体的某一统计量的确切值,如总体的均值、方差等。
通常可以通过样本的相应值来进行估计。
如:样本的平均值∑=i X nx 1是总体平均值的估计量; 样本的方差为∑=--=ni i x x n s 122)(11是总体方差的估计量; 点估计的优点在于它能明确地给出所估计的参数。
但是一般说来,估计的数值与实际值之间是肯定会有误差存在的。
在实际工作中常常需要对这种误差进行衡量,也就是说还需要确定这个估计值的精度,或误差范围和可信程度。
因此就产生了区间估计的问题。
区间估计是通过样本来估计总体参数可能位于的区间。
例如说一批产品的平均使用寿命为1000小时,这仅仅是一个点估计,还需要说明大多数产品(95%)的使用寿命的上限和下限值,比如说位于800~1200小时之间,这就是一个区间估计值。
因此,在进行区间估计时,除了要给出一个区间值外,还需要同时指明可以信赖的程度,即在进行区间估计时,需要确定的是αθθθ-=<<1)ˆˆ(21p ,其中α为事先给定的一个很小的正数,如0.10, 0.05, 0.01或0.001等,称之为显著水平;1-α称为参数θ的置信概率,或置信水平。
θ1和θ2为所估计的参数θ的区间范围的上下限。
其含为我们有100(1-α)%的把握相信所估计的参数θ位于θ1和θ2的区间范围内。
6.1.2.估计量的评价标准对于所给出的估计来说,有些是好的,有些则不是。
参数估计基础抽样研究的目的就是要用样本信息来推断相应总体的特征,这一过程称为统计推断。
统计推断包括两方面的内容:参数估计和假设检验总体样本抽取部分观察单位统计量参数统计推断统计推断statistical inferenceμ如:样本均数样本标准差S样本率P 如:总体均数总体标准差总体率σπX 内容:1.参数估计(estimation of parameters)包括:点估计与区间估计2. 假设检验(testof hypothesis)误差:泛指测得值与真值之差,样本指标与总体指标之差。
误差按其产生的原因与性质分为两大类(系统误差和偶然误差)。
1.系统误差:由于受试对象、研究者、仪器设备、研究方法、非实验因素影响等确定性原因造成,有一定倾向性或规律性的误差。
可以避免。
2.随机测量误差:由于多种无法控制的偶然因素引起,对同一样品多次测量数据的不一致。
无倾向性,不可避免。
只可控制在一定的范围内。
3.抽样误差:由个体变异产生的、由于抽样而造成的样本统计量与样本统计量及样本统计量与总体参数之间的差异称为抽样误差。
无倾向性,不可避免。
均数的抽样误差、总体均数的估计、分布t1、均数的抽样误差和标准误抽样试验以110名20岁健康男大学生的身高作为假设的有限总体,其总体均数,标准差。
)(73.172cm =μ)(09.4cm =σ每次随机抽取10个人的身高作为一个样本,记录下数据并计算均数、标准差,再放回重新抽样,共重复100次,求得100个样本均数和标准差,其样本均数列入表3.1。
数理统计推理和中心极限定理表明:●从中随机抽取n 例的样本,样本均数也服从正态分布,且●即使从非正态总体中抽取样本,当n 足够大(n>30),分布仍近似正态分布。
●随着样本量的增大, 样本均数的变异范围也逐渐变窄。
X ),(2σμN X ),(~2x N x σμ2 样本频率的抽样分布与抽样误差从同一总体中随机抽出观察单位相等的多个样本,样本率与总体率及各样本率之间都存在差异,这种差异是由于抽样引起的,称为频率的抽样误差。
实习六参数估计基础[实习目的与要求]1、掌握均数及频率标准误的计算;掌握总体均数95%和99%置信区间的计算及适用条件;掌握总体概率的95%和99%置信区间的计算及适用条件2、熟悉t分布的特征。
(一)最佳选择题1. 表示均数抽样误差大小的统计指标是__________ 。
A.标准差B.方差C.均数标准差D.变异系数E.样本标准误2. S x表示 ________ 。
A. 总体均数B•样本均数的标准差 C.总体均数离散程度D.变量x的离散程度E.变量x的可靠程度3. 标准误越大,则表示此次抽样得到的样本频率 ____________ 。
A. 系统误差大B.可靠程度越大C.抽样误差越大D.可比性越差E.代表性越差4. 要减小抽样误差,通常的做法是____________ 。
A.适当增加样本例数B.将个体变异控制在一个范围内C.严格挑选观察对象D.增加抽样次数E.减小系统误差5. 关于t分布的图形,下述那项是错误的 ________ 。
A. 当' 趋于::时,标准正态分布是t分布的特例B. 当逐渐增大,t分布逐渐逼近标准正态分布C. >越小,则t分布的尾部越高D. t分布是一条以为中心左右对称的曲线E. t分布是一簇曲线,故临界值因自由度的不同而不同6. 已知某地25岁正常成年男性的平均收缩压为113.0mmHg,从该地随机抽取20名25岁正常成年男性,测得其平均收缩压为119.0mmHg。
113.0mmHg与119.00mmHg不同,原因是_________ 。
A.样本例数太少B.抽样误差C.总体均数不同D.系统误差E.个体差异太大7. 从上题的同一地区中再随机抽取20名8岁男孩,测得其平均收缩压为90.0mmHg ,标准差为9.8mmHg。
90.0mmHg 与113.0mmHg 不同,原因是__________ 。
A.样本例数太少B.抽样误差C.总体均数不同D.系统误差E.样本均数不可比8. 用上题的样本,估计该地8岁正常男孩的平均收缩压的95%的置信区间为_________ 。
第五章 参数估计基础【内容精要】1. 抽样误差的概念及其特点(重点)从同一总体中反复多次地随机抽取样本含量相同的若干份样本,由于受个体差异和偶然性的影响,样本统计量与总体参数之间可存在差异,这种差异称为抽样误差(sampling error)。
从同一总体中随机抽取样本含量相同的若干份样本,所得样本统计量之间也不尽相同,这也是抽样误差的表现。
在抽样研究中,抽样误差是不可避免的。
反映抽样误差大小的指标是标准误。
增加样本含量可以降低抽样误差。
2. 均数的标准误与频率的标准误(重点)样本均数的标准差称为均数的标准误(standard error of mean ,SEM 或SE),用于反映均数抽样误差的大小。
其计算公式为nX σσ=。
实际应用中,总体标准差σ常常未知,需要用样本标准差S 来估计,此时,均数标准误的估计值为nS S X =。
频率的标准误用于反映频率抽样误差的大小,可按公式()np ππσ-=1计算。
实际应用中,总体概率π常常未知,需要用样本频率p 来估计,因此,频率标准误的估计值为np p n p p S p )1(1)1(-≈--=。
3. t 分布当X 服从均数为μ的正态分布时,统计量 XX t S μ-=服从自由度为1-=n ν的t 分布。
ν不同, t 分布的形态也不同;ν趋于∞时,t 分布趋近标准正态分布。
4. 参数估计方法(重点)参数估计有两种方法:一种是直接利用样本统计量的值来估计总体参数,称为点估计(point estimation);另一种是区间估计(interval estimation),即按一定的置信度来估计总体参数所在的范围,该范围称为总体参数的置信区间(confidence interval ,CI),最常用的是95%置信区间。
由于考虑了抽样误差的大小,区间估计优于点估计。
5. 总体均数及总体概率的区间估计(重点)根据资料的已知条件及样本含量n 的不同,总体均数置信区间的计算公式亦不同(见表5-1)。
根据样本含量n 和样本频率p 的大小,总体概率置信区间的计算方法有两种:①当n ≤ 50,特别是p 很接近0或100%时,用查表法;②当n 足够大,且np 与)1(p n -均大于5时,用正态近似法,即/2p p Z S α±。
6. 总体均数的置信区间与医学参考值范围的区别表5-1 参考值范围与总体均数置信区间的区别【学习目标】1. 论述抽样误差的概念及其特点。
2. 学会均数的标准误及其估计值的计算方法。
3. 学会频率的标准误及其估计值的计算方法。
4. 知道当X 服从均数为μ的正态分布时,统计量 XX t S μ-=服从自由度为1-=n ν的t 分布。
5. 知道ν不同, t 分布的形态也不同;ν趋于∞时,t 分布趋近标准正态分布。
6. 阐述参数估计的两种方法。
7. 分析区间估计优于点估计的原因。
8. 根据资料的已知条件及样本含量n 的不同,能计算总体均数95%和99%置信区间(难点)。
9. 根据样本含量n 和样本频率p 的大小,能计算总体概率95%和99%置信区间(难点)。
10. 简要说明总体均数置信区间与医学参考值范围的区别(难点)。
【案例讨论参考答案】案例5-1 不合适。
由医学专业知识可知,血铅值高于某上限才被看作异常,故本资料总体均数的置信区间应采用)64.1(lg lg lg 1X X X S X +-(X 指血铅值),计算单侧95%置信区间的上限,而不应选择适合双侧95%置信区间估计的公式X S X 96.1±。
需要进一步说明的是,通过前面理论课的学习可以知道,从非正态分布总体中作随机抽样,当样本含量足够大时(如,50≥n ),样本均数的抽样分布近似于正态分布,可用正态分布近似法来估计总体均数的置信区间。
因此,本研究若为简便起见,尽管本例中的样本呈正偏峰分布,但因其样本含量较大(n =200),亦可直接采用正态近似法来估计总体均数的置信区间,选用X S X 64.1+公式来估计该地正常成人平均血铅含量的单侧95%置信区间的上限,正态近似法与对数转换法计算出来的置信区间值会很接近。
【电脑实验及结果解释】实验5-1 正态总体样本均数的分布程序5-1 正态总体样本均数的分布SAS程序/***************************************************************//* 人民卫生出版社《卫生统计学》教材第7版SAS程序库*//* *//* 索引号:v7HS5-01 *//* 标题:正态总体样本均数的分布*//* 章节:第5章*//* 关键字:正态总体、样本均数、分布*//* 主要过程(PROC):GCHART、UNIV ARIATE *//* 结果变量: 身高*//* 分组因素:无*//* 协变量: 无*//* 创建日期:2013年3月21日*//* 作者:钱聪马骏*//***************************************************************/DATA D05_01; /*建立SAS数据集*/ARRAY x(30) x1-x30;DO i = 1 TO 100; /*完成100次重复抽样*/DO j = 1 TO 30; /*每次生成的样本量为30*/x(j)=155.4+5.3*RANNOR(0);END;m30 = MEAN(OF x1-x30); /*计算30个观察值的样本均数*/ OUTPUT;END;PROC PRINT; VAR m30; /*打印100个样本均数*/DATA D05-01g;SET a(KEEP = m30);g=152.5+ int((m30-152.25)/0.5)*0.5; /*将100个样本均数重新分组*/ PROC UNIVARIATE freq; VAR g; /*计算每组频数*/PROC GCHART; /*绘制频数分布图*/VBAR m30/ MIDPOINTS = 152.5 TO 158BY 0.5 SPACE=0;RUN;实验结果05-1 正态总体样本均数的分布图5-1 正态总体抽样后样本均数频数分布图实验5-2非正态总体样本均数的分布程序5-2非正态总体样本均数分布的SAS程序/***************************************************************/ /* 人民卫生出版社《卫生统计学》教材第7版SAS程序库*/ /* */ /* 索引号:v7HS5-02 */ /* 标题:非正态总体样本均数的分布*/ /* 章节:第5章*/ /* 关键字:指数分布、非正态总体、样本均数*/ /* 主要过程(PROC):GCHART */ /* 结果变量: 随机变量X */ /* 分组因素:无*/ /* 协变量: 无*/ /* 创建日期:2013年3月21日*/ /* 作者:钱聪马骏*/ /***************************************************************/ DATA D05_02; /*建立数据集*/DO n=5,10,30,50; /*抽取n=5,10,30,50的样本各1000次*/DO i=1 TO 1000;m=0;DO j=1 TO n;x = RANEXP(0); /*随机数函数产生服从指数分布的随机数*/m = m + x/n; /*分别计算1000个样本均数*/END;OUTPUT;END;END;PROC PRINT; /*打印这4 000个样本均数*/PROC GCHART; /*绘制随机变量的频率分布图*/VBAR x/TYPE=PCTMIDPOINTS=0 TO 5BY 0.1 AXIS=30 SPACE=0;PROC GCHART; /*分别对n=5,10,30,50的样本均数绘制频率分布图*/ VBAR m /TYPE=PCTMIDPOINTS=0 TO 5BY 0.1 AXIS=30 SPACE=0;BY n;RUN;图5-2b 从指数分布总体抽样后样本均数频数分布图(n=10)图5-2d 从指数分布总体抽样后样本均数频数分布图(n=50)实验5-3样本频率的分布程序5-3样本频率分布的SAS程序/***************************************************************//* 人民卫生出版社《卫生统计学》教材第7版SAS程序库*//* *//* 索引号:v7HS5-03 *//* 标题:非正态总体样本均数的分布*//* 章节:第5章*//* 关键字:摸球试验、二项分布*//* 主要过程(PROC):GCHART *//* 结果变量: 随机变量X、Y *//* 分组因素:无*//* 协变量: 无*//* 创建日期:2013年3月21日*//* 作者:钱聪马骏*//***************************************************************/DATA D05_03; /*建立数据集*/DO i = 1 TO 100; /*100次摸球实验*/x = 0;DO j = 1 TO 50; /*每次实验重复摸50个球*/z = RANBIN(1,1,0.2); /*RANBIN(SEED,n,p) 产生服从二项分布的随机数*/ x = x + z; /*计算黑球的频数*/END;y = x/50; /*计算黑球的频率*/OUTPUT;END;PROC PRINT; VAR x y;PROC FREQ; TABLE x y;/*输出x和y的频率分布表*/PROC GCHART; /*绘制x的频率分布图*/VBAR x/SPACE=0;RUN;实验结果5-3摸球试验黑球出现频数的频率分布表x 频数百分比累积频数累积百分比3 1 1.00 1 1.004 3 3.00 4 4.005 6 6.00 10 10.006 3 3.00 13 13.007 8 8.00 21 21.008 17 17.00 38 38.009 8 8.00 46 46.0010 12 12.00 58 58.0011 5 5.00 63 63.0012 15 15.00 78 78.0013 10 10.00 88 88.0014 5 5.00 93 93.0015 3 3.00 96 96.00摸球试验黑球出现频率的频率分布表y 频数百分比累积频数累积百分比0.06 1 1.00 1 1.00 0.08 3 3.00 4 4.00 0.1 6 6.00 10 10.00 0.12 3 3.00 13 13.00 0.14 8 8.00 21 21.00 0.16 17 17.00 38 38.00 0.18 8 8.00 46 46.00 0.2 12 12.00 58 58.00 0.22 5 5.00 63 63.00 0.24 15 15.00 78 78.00 0.26 10 10.00 88 88.00 0.28 5 5.00 93 93.00 0.3 3 3.00 96 96.00 0.32 2 2.00 98 98.00 0.34 1 1.00 99 99.00 0.38 1 1.00 100 100.00图5-3摸球试验黑球出现频率分布图实验5-4不同自由度的t分布图形程序5-4不同自由度的t分布图形的SAS程序/***************************************************************//* 人民卫生出版社《卫生统计学》教材第7版SAS程序库*//* *//* 索引号:v7HS5-04 *//* 标题:不同自由度的t分布图形*//* 章节:第5章*//* 关键字:t分布*//* 主要过程(PROC):GCHART *//* 结果变量: 随机变量X *//* 分组因素:无*//* 协变量: 无*//* 创建日期:2013年3月21日*//* 作者:钱聪马骏*//***************************************************************/DATA D05_04a; /*建立数据集*/mean = 155.4; std = 5.3; /*设定总体均数和总体标准差*/ARRAY x(50) x1-x50; /*从已知正态总体中产生一随机数x,重复1000次*/ DO i=1 TO 1000; /**/DO j=1 TO 50;x(j)=mean+std*RANNOR(1); /**/END;OUTPUT;END;DATA D05_04b;SET a; /*以下是求出前3个和前50个观察值的均数、标准差和标准误*/ m3 = MEAN(OF x1-x3 );m50 = MEAN(OF x1-x50);m3_std = STD( OF x1-x3 );m50_std = STD( OF x1-x50);m3_se = m3_std/SQRT(3);m50_se= m50_std/SQRT(50);t3 = (m3-mean)/m3_se; /*计算样本含量为3和50时的t值*/t50 = (m50-mean)/m50_se;PROC GCHART DATA=b; /*绘制不同自由度时t值的频率分布图*/VBAR t3/MIDPOINTS=-12 TO 12 BY 0.5AXIS=200 SPACE=0;VBAR t50/MIDPOINTS=-12 TO 12 BY 0.5AXIS=200 SPACE=0;RUN;实验结果5-4图5-4a 自由度为3时的t分布频数图图5-4b 自由度为50时的t分布频数图实验5-5总体均数的置信区间程序5-5总体均数的置信区间的SAS程序/***************************************************************//* 人民卫生出版社《卫生统计学》教材第7版SAS程序库*//* *//* 索引号:v7HS5-05 *//* 标题:总体均数的置信区间*//* 章节:第5章*//* 关键字:总体均数置信区间*//* 主要过程(PROC):GCHART *//* 结果变量: 随机变量X *//* 分组因素:无*//* 协变量: 无*//* 创建日期:2013年3月21日*//* 作者:钱聪马骏*//***************************************************************/DATA D05_05a;/*建立数据集*/mean=155.4; std=5.3;a=0.05;/*设定总体均数和总体标准差,取a=0.05*/ARRAY x(30) x1-x30;DO i=1 TO 100;/*完成100次重复抽样,每次随机抽取30个观察值*/DO j=1 TO 30;x(j)= mean+std*RANNOR(0);END; OUTPUT;END;DATA D05_05b;SET D05_05a;/*计算100次实验的样本均数、标准差和标准误,估计总体均数的95%置信区间*/ m30=MEAN(OF x1-x30);m30_std = STD(OF x1-x30);m30_se = m30_std/SQRT(30);ci_l= m30-TINV(1-a/2,30-1)*m30_se;ci_u= m30+TINV(1-a/2,30-1)*m30_se;g=ci_l> mean or ci_u< mean ;/*判断每个置信区间是否包含总体均数,若包含则变量g为0,不包含则变量g为1*/PROC PRINT; /*输出100次实验的置信区间和g值,计算g值的和*/VAR ci_l ci_u g;SUM g;RUN;试验结果5-5100份随机样本总体均数置信区间1 152.827 157.547 02 154.667 158.649 03 152.003 156.920 04 151.982 155.617 05 154.281 158.097 06 154.589 158.651 07 152.709 156.591 08 153.410 157.065 09 154.729 158.264 010 154.364 158.376 011 153.748 157.670 012 153.547 157.374 013 152.423 156.465 014 151.100 155.956 015 154.349 158.343 016 152.454 156.655 017 152.672 157.545 018 153.877 157.464 019 152.906 156.511 020 153.739 157.488 021 155.162 159.435 022 155.314 158.424 023 152.115 155.616 024 152.379 156.446 025 155.110 158.329 026 153.019 156.877 027 151.697 155.978 028 154.060 158.298 029 153.087 157.588 030 154.225 157.866 031 153.228 157.838 032 153.065 156.751 033 152.421 156.488 034 152.397 156.198 035 150.897 155.306 136 155.128 159.156 037 153.640 157.515 038 153.337 156.691 039 154.201 158.918 040 153.739 157.258 041 154.094 158.525 042 154.816 159.364 043 153.196 157.277 044 152.679 156.269 045 151.554 156.271 046 152.876 157.633 047 155.706 159.240 148 153.796 158.460 049 154.276 159.013 050 152.773 157.419 051 153.039 156.856 052 152.322 156.022 053 154.215 157.691 054 151.589 156.091 055 155.149 158.877 056 153.499 157.575 057 153.732 157.689 058 152.685 156.394 059 154.936 159.400 060 152.439 155.489 061 153.935 157.469 062 153.037 156.192 063 154.549 158.646 064 153.142 157.411 065 151.721 156.238 066 152.400 156.252 067 154.516 158.450 068 154.992 158.753 069 152.922 157.472 070 152.516 156.649 071 152.861 156.999 072 152.585 156.507 073 154.315 158.370 074 152.633 156.712 075 155.254 158.686 076 154.545 159.092 077 151.137 154.787 178 151.939 156.526 079 155.092 158.558 080 153.856 157.159 081 153.917 157.477 082 152.488 156.723 083 152.638 157.027 084 153.585 158.465 0备注1:95%置信区间上限;备注2:计算95%置信区间下限;备注3:计算不包含总体均数的区间个数【思考与练习的参考答案】1、抽样误差:从某一总体中随机抽取一个或多个样本,所得的样本统计量与相应的总体参数之间的差异,或者各个样本统计量之间的差异称为抽样误差。