均数的抽样误差和总体均数估计
- 格式:ppt
- 大小:1.22 MB
- 文档页数:47
第1章绪论医学统计学是一门“运用统计学的原理和方法,研究医学科研中有关数据的收集、整理和分析的应用科学。
1.个体:又称观察单位,是统计研究的最基本单位,也是构成总体的最基本的观察单位。
2.总体:根据研究目的确定的同质观察单位某项指标测量值(观察值)的集合。
分为有限总体(明确规定了空间、时间、人群范围内有限个观察单位)和无限总体(无时间和空间范围的限制)。
反映总体特征的指标为参数,常用小写希腊字母表示。
3.样本:从总体中随机抽取的一部分有代表性的观察单位组成的整体。
(抽样,随机化原则,样本含量)根据样本资料计算出来的相应指标为统计量,常用大写英文字母表示。
4.抽样研究:从总体中随机抽取样本,根据样本信息推断总体特征的方法。
抽样误差是由随机抽样(样本的偶然性)造成的样本指标与总体指标之间、样本指标与样本指标之间的差异。
其根源在于总体中的个体存在变异性。
只要是抽样研究,就一定存在抽样误差,不能用样本的指标直接下结论。
统计分析主要是针对抽样误差而言。
5.变量(一个个体的任意“特征”);资料(变量值的集合),资料类型:①计量资料/定量资料/数值变量资料:表现为数值大小,一般有度量衡单位,又可分为连续型和离散型两类;②计数资料/定性资料/无序分类变量资料/名义变量资料:表现为互补相容的属性或类别,一般无度量衡单位,可分为二分类和多分类;③等级资料/半定量资料/有序分类变量资料:表现为等级大小或属性程度。
各类资料间可相互转化。
①可选分析方法有:t检验、方差分析、相关回归分析等;②可选分析方法有:χ2检验、z检验等;③可选分析方法有:秩和检验、Ridit分析等。
6.误差:实测值与真实值之差。
可分为随机误差(随机测量误差+抽样误差)与非随机误差(系统误差与非系统误差)。
①随机误差:是一类不恒定、随机变化的误差,由多种尚无法控制的因素引起,它是不可避免的;②系统误差:是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是可知的或可以掌握的,它是可以消除或控制的;③非系统误差:又称过失误差,是指在实验过程中由于研究者偶然失误而造成的误差,可以消除。
卫⽣统计学第三章总体均数的区间估计和假设检验第⼀节均数的抽样误差与标准误⼀、标准误的意义及计算标准误是反映均数抽样误差⼤⼩的指标;同类性质的资料,标准误越⼩,表⽰样本均数与总体均数越接近,也就是抽样误差越⼩,说明样本均数推论总体均数的可靠性越⼤;反之,标准误越⼤,说明抽样误差越⼤,表⽰样本均数推论总体均数的可靠性越⼩。
数理统计已证明:标准误的⼤⼩与总体标准差成正⽐,⽽与样本含量的平⽅根成反⽐,即,当总体中各变量值都相等时,即σ=0,则抽取的各样本均数与总体均数必然相同,即抽样误差为零;⽽当总体中变量值间的变异度越⼤时,即σ越⼤,则抽取的各样本均数间离散度也越⼤,即抽样误差也越⼤;同时,当样本含量n越⼤时,则样本均数与总体均数越接近,抽样误差越⼩;反之,抽样误差越⼤。
因此可以适当增加样本例数来缩⼩抽样误差。
实际⼯作中总体标准差σ往往是不知道的,⽽只知道样本标准差S,所以只能⽤S代替,求得标准误的估计值,即⼆、标准误的应⽤▲表⽰抽样误差的⼤⼩,从⽽说明样本均数的可靠性。
(在医学⽂献上常⽤样本均数加减标准误的形式表⽰资料的均数及可靠程度)进⾏总体均数的区间估计进⾏均数的t检验第⼆节t分布⼀、t分布的概念如果从⼀个正态总体中,抽取样本含量为n的许多样本,分别计算其和,然后求出每⼀个t值,这样可有许多t值。
这些t值有⼤有⼩,有正有负,其频数分布是⼀种连续性分布,这就是统计上著名的t分布。
⼆、t分布曲线的特征▲特征:①t分布曲线是单峰分布,以0为中⼼,左右两侧对称,曲线的中间⽐标准正态曲线(u分布曲线)低,两侧翘得⽐标准曲线略⾼。
②当样本含量越⼩(严格地说是⾃由度v=n-1越⼩),t分布与u分布差别越⼤;当v逐渐增⼤时,t分布逐渐逼近u分布,当v=∞时,t分布就完全成为u分布。
所以t分布曲线的形状随v的变动⽽变化。
在⾃由度为v的t分布曲线下双侧尾部合计⾯积或单侧尾部⾯积为指定值α时,常把横轴上相应的t界值记为tα,v。
统计学(Statistics):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达的科学。
总体(population):大同小异的研究对象全体。
更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。
样本(sample):来自总体的部分个体,更确切的说,应该是部分个体的观察值。
样本应该具有代表性,能反映总体的特征。
利用样本信息可以对总体特征进行推断。
抽样误差(sampling error)在抽样过程中由于抽样的偶然性而出现的误差。
表现为总体参数与样本统计量的差异,以及多个样本统计量之间的差异。
可用标准误描述其大小。
标准误(Standard Error) 样本统计量的标准差,反映样本统计量的离散程度,也间接反映了抽样误差的大小。
样本均数的标准差称为均数的标准误。
均数标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数区间估计(interval estimation):将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为置信区间(confidence interval,CI),又称可信区间。
参考值范围描述绝大多数正常人的某项指标所在范围;正态分布法(标准差)、百分位数法,参考值范围用于判断某项指标是否正常置信区间揭示的是按一定置信度估计总体参数所在的范围。
t分布法、正态分布法(标准误)、二项分布法。
置信区间估计总体参数所在范围参数统计(parametric statistics)非参数统计(nonparametric statistics)是指在统计检验中不需要假定总体分布形式和计算参数估计量,直接对比较数据(x)的分布进行统计检验的方法。
变异(variation):对于同质的各观察单位,其某变量值之间的差异同质(homogeneity):研究对象具有的相同的状况或属性等共性。
回归系数有单位,而相关系数无单位β为回归直线的斜率(slope)参数,又称回归系数(regression coefficient)。
2022统计习题集(附参考答案)《卫生统计学》习题集上海医药高等专科学校《营养与卫生》教研组一、最佳选择题(一)基本概念与步骤A、个体变异大小B、样本含量大小C、随机抽样方法不同D、总体含量大小8、从一个总体中抽取样本,产生抽样误差的原因是A、总体中个体之间存在变异B、抽样未遵循随机化原则C、被抽取的个体不同质D、组成样本的个体较少9、从4个市级医院外科病史中随机抽样,反映全市外科医护质量,你认为A、可以,抽样面广B、不可以,可能样本太小C、可以,是随机抽样D、不可以,不能反映研究总体2A、某1≠某2B、某1≠某2C、μ≠某D、μ1≠μ215、概率P=0,则表示A、某事件必然不发生B、某事件必然发生C、某事件发生的可能性很小D、某事件发生的可能性很小16、要减少抽样误差,最切实可行的方法是A、增加观察对象(样本含量)B、控制个体变异C、遵循随机化原则抽样D、严格挑选研究对象1、某是表示变量值的统计指标。
A、平均水平B、频数分布C、相互间差别大小D、变化范围nA、频数B、组中值C、组距D、组段下限Σf某3A、相关系数B、回归系数C、变异系数D、卡方系数10、某厂发生食物中毒,9名患者潜伏期分别为:16、2、6、3、30、5、10、2、24(小时),问该食物中毒的平均潜伏期为(小时)。
A、5B、5.5C、6D、1011、用频数表法计算中位数,公式:M=L+(n/2-ΣfL)中“fm”是指fmiA、中位数所在组段的频数B、中位数所在组段的组中值C、中位数所在组段的下限D、中位数所在组段的组距4(三)正态分布1.U0.05等于A.1.96B.2.58C.3.84D.6.632、下列公式可用于估计医学正常值范围(95%)。
A、某±1.96SB、某±1.96S某C、μ±1.96S某D、μ±t0.05S某3、下列分布是标准正态分布。
A、某分布B、t分布C、U分布D、对称分布4、下列是标准正态分布的具体应用。
估计总体均数,需要的样本含量
要估计总体均数,需要的样本含量取决于以下几个因素:
1. 总体的标准差:总体标准差表示总体中个体值的离散程度。
标准差较大时,需要的样本量较大。
2. 容忍误差:容忍误差是指在估计总体均数时可以接受的抽样误差范围。
容忍误差越小,需要的样本量越大。
3. 置信水平:置信水平表示估计结果的可信程度。
一般常用的置信水平为95%或99%。
置信水平越高,需要的样本量越大。
4. 总体分布形态:总体分布形态对所需样本量也会产生影响。
对于正态分布的总体,样本量相对较小;而对于偏态分布或未知分布的总体,需要较大样本量。
要计算需要的样本含量,可以使用样本大小计算器或统计软件来进行计算。
具体计算方法可以参考统计学教材或咨询统计学专家。