-抽样误差与假设检验
- 格式:ppt
- 大小:1003.00 KB
- 文档页数:53
假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。
其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。
生物现象的个体差异是客观存在,以致抽样误差不可避免,所以我们不能仅凭个别样本的值来下结论。
当遇到两个或几个样本均数(或率)、样本均数(率)与已知总体均数(率)有大有小时,应当考虑到造成这种差别的原因有两种可能:一是这两个或几个样本均数(或率)来自同一总体,其差别仅仅由于抽样误差即偶然性所造成;二是这两个或几个样本均数(或率)来自不同的总体,即其差别不仅由抽样误差造成,而主要是由实验因素不同所引起的。
假设检验的目的就在于排除抽样误差的影响,区分差别在统计上是否成立,并了解事件发生的概率。
在质量管理工作中经常遇到两者进行比较的情况,如采购原材料的验证,我们抽样所得到的数据在目标值两边波动,有时波动很大,这时你如何进行判定这些原料是否达到了我们规定的要求呢?再例如,你先后做了两批实验,得到两组数据,你想知道在这两试实验中合格率有无显著变化,那怎么做呢?这时你可以使用假设检验这种统计方法,来比较你的数据,它可以告诉你两者是否相等,同时也可以告诉你,在你做出这样的结论时,你所承担的风险。
假设检验的思想是,先假设两者相等,即:μ=μ0,然后用统计的方法来计算验证你的假设是否正确。
假设检验的基本思想1.小概率原理如果对总体的某种假设是真实的,那么不利于或不能支持这一假设的事件A(小概率事件)在一次试验中几乎不可能发生的;要是在一次试验中A竟然发生了,就有理由怀疑该假设的真实性,拒绝这一假设。
2.假设的形式H0——原假设,H1——备择假设双尾检验:H0:μ = μ0,单尾检验:,H1:μ < μ0,H1:μ > μ0假设检验就是根据样本观察结果对原假设(H0)进行检验,接受H0,就否定H1;拒绝H0,就接受H1。
假设检验亦称“显著性检验(Test of statistical significance)”,是假设检验用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。
其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。
生物现象的个体差异是客观存在,以致抽样误差不可避免,所以我们不能仅凭个别样本的值来下结论。
当遇到两个或几个样本均数(或率)、样本均数(率)与已知总体均数(率)有大有小时,应当考虑到造成这种差别的原因有两种可能:一是这两个或几个样本均数(或率)来自同一总体,其差别仅仅由于抽样误差即偶然性所造成;二是这两个或几个样本均数(或率)来自不同的总体,即其差别不仅由抽样误差造成,而主要是由实验因素不同所引起的。
假设检验的目的就在于排除抽样误差的影响,区分差别在统计上是否成立,并了解事件发生的概率。
在质量管理工作中经常遇到两者进行比较的情况,如采购原材料的验证,我们抽样所得到的数据在目标值两边波动,有时波动很大,这时你如何进行判定这些原料是否达到了我们规定的要求呢?再例如,你先后做了两批实验,得到两组数据,你想知道在这两试实验中合格率有无显著变化,那怎么做呢?这时你可以使用假设检验这种统计方法,来比较你的数据,它可以告诉你两者是否相等,同时也可以告诉你,在你做出这样的结论时,你所承担的风险。
假设检验的思想是,先假设两者相等,即:µ=µ0,然后用统计的方法来计算验证你的假设是否正确。
用的假设检验有Z检验、T检验、配对检验、比例检验、秩和检验、卡方检验等。
编辑本段意义假设检验是抽样推断中的一项重要内容。
它是根据原资料作出一个总体指标是否等于某一个数值,某一随机变量是否服从某种概率分布的假设,然后利用样本资料采用一定的统计方法计算出有关检验的统计量,依据一定的概率原则,以较小的风险来判断估计数值与总体数值(或者估计分布与实际分布)是否存在显著差异,是否应当接受原假设选择的一种检验方法。
练习题答案第一章医学统计中的基本概念简答题常见的三类误差是什么?应采取什么措施和方法加以控制?[参考答案]常见的三类误差是:(1)系统误差:在收集资料过程中,由于仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗效标准偏高或偏低等原因,可造成观察结果倾向性的偏大或偏小,这叫系统误差。
要尽量查明其原因,必须克服。
(2)随机测量误差:在收集原始资料过程中,即使仪器初始状态及标准试剂已经校正,但是,由于各种偶然因素的影响也会造成同一对象多次测定的结果不完全一致。
譬如,实验操作员操作技术不稳定,不同实验操作员之间的操作差异,电压不稳及环境温度差异等因素造成测量结果的误差.对于这种误差应采取相应的措施加以控制,至少应控制在一定的允许范围内。
一般可以用技术培训、指定固定实验操作员、加强责任感教育及购置一定精度的稳压器、恒温装置等措施,从而达到控制的目的.(3)抽样误差:即使在消除了系统误差,并把随机测量误差控制在允许范围内,样本均数(或其它统计量)与总体均数(或其它参数)之间仍可能有差异。
这种差异是由抽样引起的,故这种误差叫做抽样误差,要用统计方法进行正确分析。
抽样中要求每一个样本应该具有哪三性?[参考答案]从总体中抽取样本,其样本应具有“代表性”、“随机性”和“可靠性”。
(1)代表性: 就是要求样本中的每一个个体必须符合总体的规定。
(2)随机性: 就是要保证总体中的每个个体均有相同的几率被抽作样本。
(3)可靠性: 即实验的结果要具有可重复性,即由科研课题的样本得出的结果所推测总体的结论有较大的可信度.由于个体之间存在差异,只有观察一定数量的个体方能体现出其客观规律性。
每个样本的含量越多,可靠性会越大,但是例数增加,人力、物力都会发生困难,所以应以“足够"为准。
需要作“样本例数估计"。
什么是两个样本之间的可比性?[参考答案]可比性是指处理组(临床设计中称为治疗组)与对照组之间,除处理因素不同外,其他可能影响实验结果的因素要求基本齐同,也称为齐同对比原则.(马斌荣)第二章集中趋势的统计描述二、计算与分析1。
●统计推断(statistical inference):通过样本指标来说明总体特征,这种从样本获取有关总体信息的过程称为统计推断。
●抽样误差(sampling error):由个体变异产生的,随机抽样造成的样本统计量与总体参数的差异,称为抽样误差。
●标准误(standard error of mean,SEM )及X s :通常将样本统计量的标准差称为标准误。
许多样本均数的标准差X s称为均数的标准误,它反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小。
可通过增加样本含量,设计减少标准差来降低标准误。
●可信区间(confidence interval,CI):按预先给定的概率确定的包含未知总体参数的可能范围。
该范围称为总体参数的可信区间。
它的确切含义是:可信区间包含总体参数的可能性是1- a ,而不是总体参数落在该范围的可能性为1-a 。
●参数估计:指用样本指标值(统计量)估计总体指标值(参数)。
参数估计有两种方法:点估计和区间估计。
●假设检验中P 的含义:指从H0 规定的总体随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。
●I 型和II 型错误:I 型错误(type I error ),指拒绝了实际上成立的H0,这类“弃真”的错误称为I 型错误,其概率大小用a 表示;II 型错误(type II error),指接受了实际上不成立的H0,这类“存伪”的误称为II 型错误,其概率大小用b 表示。
●检验效能:1- b 称为检验效能(power of test),它是指当两总体确有差别,按规定的检验水准a 所能发现该差异的能力。
●检验水准:是预先规定的,当假设检验结果拒绝H0,接受H1,下“有差别”的结论时犯错误的概率称为检验水准(level ofa test),记为a 。
●抽样误差:由个体变异和抽样造成的样本统计量与总体参数的差异为★标准差与标准误的区别标准差与标准误的意义、作用和使用范围均不同。
第四章抽样误差与假设检验练习题一、单项选择题1。
样本均数的标准误越小说明A. 观察个体的变异越小B. 观察个体的变异越大C. 抽样误差越大 D。
由样本均数估计总体均数的可靠性越小E。
由样本均数估计总体均数的可靠性越大2。
抽样误差产生的原因是A。
样本不是随机抽取 B. 测量不准确C. 资料不是正态分布 D。
个体差异E. 统计指标选择不当3. 对于正偏态分布的的总体,当样本含量足够大时, 样本均数的分布近似为A. 正偏态分布 B。
负偏态分布C. 正态分布D. t分布E。
标准正态分布4. 假设检验的目的是A. 检验参数估计的准确度 B。
检验样本统计量是否不同C. 检验样本统计量与总体参数是否不同D. 检验总体参数是否不同E. 检验样本的P值是否为小概率5. 根据样本资料算得健康成人白细胞计数的95%可信区间为7.2×109/L~9.1×109/L,其含义是A. 估计总体中有95%的观察值在此范围内B。
总体均数在该区间的概率为95%C。
样本中有95%的观察值在此范围内D。
该区间包含样本均数的可能性为95%E. 该区间包含总体均数的可能性为95%答案:E D C D E 二、计算与分析1. 为了解某地区小学生血红蛋白含量的平均水平,现随机抽取该地小学生450人,算得其血红蛋白平均数为101。
4g/L ,标准差为1.5g/L ,试计算该地小学生血红蛋白平均数的95%可信区间. [参考答案]样本含量为450,属于大样本,可采用正态近似的方法计算可信区间。
101.4X =, 1.5S =,450n =,0.07X S === 95%可信区间为下限:/2.101.4 1.960.07101.26X X u S α=-⨯=-(g/L ) 上限:/2.101.4 1.960.07101.54X X u S α+=+⨯=(g/L)即该地成年男子红细胞总体均数的95%可信区间为101。
26g/L~101。