均数的抽样误差和总体均数估计
- 格式:ppt
- 大小:1.22 MB
- 文档页数:47
第1章绪论医学统计学是一门“运用统计学的原理和方法,研究医学科研中有关数据的收集、整理和分析的应用科学。
1.个体:又称观察单位,是统计研究的最基本单位,也是构成总体的最基本的观察单位。
2.总体:根据研究目的确定的同质观察单位某项指标测量值(观察值)的集合。
分为有限总体(明确规定了空间、时间、人群范围内有限个观察单位)和无限总体(无时间和空间范围的限制)。
反映总体特征的指标为参数,常用小写希腊字母表示。
3.样本:从总体中随机抽取的一部分有代表性的观察单位组成的整体。
(抽样,随机化原则,样本含量)根据样本资料计算出来的相应指标为统计量,常用大写英文字母表示。
4.抽样研究:从总体中随机抽取样本,根据样本信息推断总体特征的方法。
抽样误差是由随机抽样(样本的偶然性)造成的样本指标与总体指标之间、样本指标与样本指标之间的差异。
其根源在于总体中的个体存在变异性。
只要是抽样研究,就一定存在抽样误差,不能用样本的指标直接下结论。
统计分析主要是针对抽样误差而言。
5.变量(一个个体的任意“特征”);资料(变量值的集合),资料类型:①计量资料/定量资料/数值变量资料:表现为数值大小,一般有度量衡单位,又可分为连续型和离散型两类;②计数资料/定性资料/无序分类变量资料/名义变量资料:表现为互补相容的属性或类别,一般无度量衡单位,可分为二分类和多分类;③等级资料/半定量资料/有序分类变量资料:表现为等级大小或属性程度。
各类资料间可相互转化。
①可选分析方法有:t检验、方差分析、相关回归分析等;②可选分析方法有:χ2检验、z检验等;③可选分析方法有:秩和检验、Ridit分析等。
6.误差:实测值与真实值之差。
可分为随机误差(随机测量误差+抽样误差)与非随机误差(系统误差与非系统误差)。
①随机误差:是一类不恒定、随机变化的误差,由多种尚无法控制的因素引起,它是不可避免的;②系统误差:是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是可知的或可以掌握的,它是可以消除或控制的;③非系统误差:又称过失误差,是指在实验过程中由于研究者偶然失误而造成的误差,可以消除。
卫⽣统计学第三章总体均数的区间估计和假设检验第⼀节均数的抽样误差与标准误⼀、标准误的意义及计算标准误是反映均数抽样误差⼤⼩的指标;同类性质的资料,标准误越⼩,表⽰样本均数与总体均数越接近,也就是抽样误差越⼩,说明样本均数推论总体均数的可靠性越⼤;反之,标准误越⼤,说明抽样误差越⼤,表⽰样本均数推论总体均数的可靠性越⼩。
数理统计已证明:标准误的⼤⼩与总体标准差成正⽐,⽽与样本含量的平⽅根成反⽐,即,当总体中各变量值都相等时,即σ=0,则抽取的各样本均数与总体均数必然相同,即抽样误差为零;⽽当总体中变量值间的变异度越⼤时,即σ越⼤,则抽取的各样本均数间离散度也越⼤,即抽样误差也越⼤;同时,当样本含量n越⼤时,则样本均数与总体均数越接近,抽样误差越⼩;反之,抽样误差越⼤。
因此可以适当增加样本例数来缩⼩抽样误差。
实际⼯作中总体标准差σ往往是不知道的,⽽只知道样本标准差S,所以只能⽤S代替,求得标准误的估计值,即⼆、标准误的应⽤▲表⽰抽样误差的⼤⼩,从⽽说明样本均数的可靠性。
(在医学⽂献上常⽤样本均数加减标准误的形式表⽰资料的均数及可靠程度)进⾏总体均数的区间估计进⾏均数的t检验第⼆节t分布⼀、t分布的概念如果从⼀个正态总体中,抽取样本含量为n的许多样本,分别计算其和,然后求出每⼀个t值,这样可有许多t值。
这些t值有⼤有⼩,有正有负,其频数分布是⼀种连续性分布,这就是统计上著名的t分布。
⼆、t分布曲线的特征▲特征:①t分布曲线是单峰分布,以0为中⼼,左右两侧对称,曲线的中间⽐标准正态曲线(u分布曲线)低,两侧翘得⽐标准曲线略⾼。
②当样本含量越⼩(严格地说是⾃由度v=n-1越⼩),t分布与u分布差别越⼤;当v逐渐增⼤时,t分布逐渐逼近u分布,当v=∞时,t分布就完全成为u分布。
所以t分布曲线的形状随v的变动⽽变化。
在⾃由度为v的t分布曲线下双侧尾部合计⾯积或单侧尾部⾯积为指定值α时,常把横轴上相应的t界值记为tα,v。
统计学(Statistics):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达的科学。
总体(population):大同小异的研究对象全体。
更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。
样本(sample):来自总体的部分个体,更确切的说,应该是部分个体的观察值。
样本应该具有代表性,能反映总体的特征。
利用样本信息可以对总体特征进行推断。
抽样误差(sampling error)在抽样过程中由于抽样的偶然性而出现的误差。
表现为总体参数与样本统计量的差异,以及多个样本统计量之间的差异。
可用标准误描述其大小。
标准误(Standard Error) 样本统计量的标准差,反映样本统计量的离散程度,也间接反映了抽样误差的大小。
样本均数的标准差称为均数的标准误。
均数标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数区间估计(interval estimation):将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为置信区间(confidence interval,CI),又称可信区间。
参考值范围描述绝大多数正常人的某项指标所在范围;正态分布法(标准差)、百分位数法,参考值范围用于判断某项指标是否正常置信区间揭示的是按一定置信度估计总体参数所在的范围。
t分布法、正态分布法(标准误)、二项分布法。
置信区间估计总体参数所在范围参数统计(parametric statistics)非参数统计(nonparametric statistics)是指在统计检验中不需要假定总体分布形式和计算参数估计量,直接对比较数据(x)的分布进行统计检验的方法。
变异(variation):对于同质的各观察单位,其某变量值之间的差异同质(homogeneity):研究对象具有的相同的状况或属性等共性。
回归系数有单位,而相关系数无单位β为回归直线的斜率(slope)参数,又称回归系数(regression coefficient)。