医学统计学抽样误差及t分布
- 格式:ppt
- 大小:1.02 MB
- 文档页数:2
一、平均数应用的注意事项1.同质的资料计算平均数才有意义。
2.均数适用于:单峰对称分布的资料3.几何均数适用于:对数变换后单峰对称的资料:等比资料、滴度资料、对数正态分布资料4.中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数:偏态分布、分布不明资料、有不确定值的资料二、抽样误差1.由抽样引起的样本统计量与总体参数间的差别。
2.原因:个体变异+抽样3.表现:样本统计量与总体参数间的差别;不同样本统计量间的差别4.抽样误差是不可避免的!5.抽样误差是有规律的!三、中心极限定理(central limit theorem)1.Case 1:从正态分布总体N(,2),中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则样本均数也服从正态分布。
2.Case 2:从非正态(nonnormal)分布总体(2)中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则只要样本含量足够大(n>50),样本均数也近似服从正态分布。
四、统计推断的内容1.参数估计:由样本统计量估计总体参数 (1)点估计(2)区间估计:按一定的概率或可信度(1- α )用一个区间估计总体参数所在范围,这个范围称作可信度为1- α的可信区间(confidence interval, CI),又称置信区间 。
这种估计方法称为区间估计。
2.假设检验五、正确理解可信区间的涵义1.可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言。
所谓95%的可信度是针对可信区间的构建方法而言的。
2.以均数的可信区间为例,其涵义是:如果重复100次抽样,每次样本含量均为n ,每个样本均按构建可信区间,则在此100个可信区间内,理论上有95个包含总体均数,而有5个不包含总体均数。
3.在区间估计中,总体参数虽未知,但却是固定的值(且只有一个),而不是随机变量值 。
医学统计学总结医学统计学总结1、随机现象:在同一条件下进行试验,一次试验结果不能确定,而在一定数量的重复试验之后呈现统计规律的现象。
2、同质:统计学中对研究指标影响较大的,可以控制的主要因素。
3、变异:同质基础上各观察单位某变量值的差异。
数值变量:变量值是定量的,由此而构成的资料称为数值变量资料或计量资料,其数值是连续性的,称之为连续型变量。
变量无序分类变量:所分类别或属性之间无顺序和程度上的差异分类变量:定性变量有序分类变量:有顺序和程度上的差异4总体和无限总体。
5、样本:是按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。
样本代表性的前提:同质总体,足够的观察单位数,随机抽样。
统计学中,描述样本特征的指标称为统计量,描述总体特征的指标称为参数。
6、概率:描述随机事件发生的可能性大小的一个度量。
若P(A)=1,则称A为必然事件;若P(A)=0,则称A为不可能事件;随机事件A的概率为0<P<1.小概率事件:若随机事件A的概率P≤α,则称随机事件A为小概率事件,其统计学意义为:小概率事件在一次随机试验中认为是不可能发生的。
统计描述1、频数分布有两个重要的特征:集中趋势和离散程度。
频数分布有对称分布和偏态分布之分。
后者是指频数分布不对称,集中趋势偏向一侧,如偏向数值小的一侧为正偏态分布,如偏向数值大的一侧为负偏态分布。
2、常用的集中趋势的描述指标有:均数,几何均数,中位数等。
均数:适用于正态或近似正态的分布的数值变量资料。
样本均数用_表示,总体均数用μ几何均数:适用于等比级数资料和对数呈正态分布的资料。
注意观察值中不能有零,一组观察值中不能同时有正值和负值。
中位数:适用于偏态分布资料以及频数分布的一端或两端无确切数据的资料。
3、常用的离散程度的描述指标有:全距,四分位数间距,方差,标准差,变异系数。
全距:任何资料,一组中最大值与最小值的差。
四分位数间距:适用于偏态分布以及分布的一端或两端无确切数据资料。
第一章 绪论总体:根据研究目的确定的同质的所有观察单位某种变量值的集合。
总体包括有限总体和无限总体。
样本:从总体中随机抽取的部分观察单位,其实测值的集合。
获取样本仅仅是手段,通过样本信息来推断总体特性才是研究的目的。
资料的类型计量资料、计数资料和等级资料。
误差包括随机误差、系统误差和非系统误差。
抽样误差:由抽样造成的样本统计量和总体参数之间的差异或者是各个样本统计量之间的差异称为抽样误差。
概率:是描述随机事件发生可能性大小的一个度量。
取值范围0≤P ≤1。
小概率事件:表示在一次实验或观察中该事件发生的可能性很小,可以认为很可能不发生。
P ≤0.05或P ≤0.01。
医学统计学的步骤:设计、收集资料、整理资料和分析资料。
统计分析包括:统计描述和统计推断。
统计推断包括:参数估计和假设检验。
第二章计量资料的统计描述频数表和频数分布图的用途:(1)描述频数分布的类型,以便选择相应的统计指标和分析方法。
对称分布:集中位置在中间,左右两侧頻数基本对称。
偏态分布:正、负偏态分布正偏态集中位置偏向值小一侧,负偏态反之。
(2)描述頻数分布的特征;(3)便于发现资料中的可疑值;(4)便于进一步计算统计指标和进行统计分析。
计量资料集中趋势包括算术均数、几何均数和中位数。
算术均数:直接法(样本小):n x x ∑=;頻数表法(样本大)x =nfx ∑ 几何均数:直接法:)lg (lg 1n x G ∑-=;頻数表法)lg (lg )lg (lg 11n x f fx f G ∑∑∑--==(常用于等比资料或对数正态分布资料)中位数:直接法:n 为奇数2/)1(+=n x M ,n 为偶数2/)(12/2/++=n n x x M ;頻数表法:∑-⨯+=)%50(L M M f n f iL M 。
中位数的应用注意事项:可用于各种分布资料,不受极端值的影响,主要用于(1)偏态分布资料(2)端点无确切值的资料(3)分布不明确的资料。
统计学(Statistics):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达的科学。
总体(population):大同小异的研究对象全体。
更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。
样本(sample):来自总体的部分个体,更确切的说,应该是部分个体的观察值。
样本应该具有代表性,能反映总体的特征。
利用样本信息可以对总体特征进行推断。
抽样误差(sampling error)在抽样过程中由于抽样的偶然性而出现的误差。
表现为总体参数与样本统计量的差异,以及多个样本统计量之间的差异。
可用标准误描述其大小。
标准误(Standard Error) 样本统计量的标准差,反映样本统计量的离散程度,也间接反映了抽样误差的大小。
样本均数的标准差称为均数的标准误。
均数标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数区间估计(interval estimation):将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为置信区间(confidence interval,CI),又称可信区间。
参考值范围描述绝大多数正常人的某项指标所在范围;正态分布法(标准差)、百分位数法,参考值范围用于判断某项指标是否正常置信区间揭示的是按一定置信度估计总体参数所在的范围。
t分布法、正态分布法(标准误)、二项分布法。
置信区间估计总体参数所在范围参数统计(parametric statistics)非参数统计(nonparametric statistics)是指在统计检验中不需要假定总体分布形式和计算参数估计量,直接对比较数据(x)的分布进行统计检验的方法。
变异(variation):对于同质的各观察单位,其某变量值之间的差异同质(homogeneity):研究对象具有的相同的状况或属性等共性。
回归系数有单位,而相关系数无单位β为回归直线的斜率(slope)参数,又称回归系数(regression coefficient)。
医学统计学知识点整理第一节统计学中基本概念一、同质与变异同质:统计研究中,给观察单位规定一些相同的因素情况。
如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。
变异:同质的基础上个体间的差异。
“同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的μ.δ.πX.S.p1.2.变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。
一、数值变量资料又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。
表现为数值大小,带有度、量、衡单位。
如身高(cm)、体重(kg)、血红蛋白(g)等。
二、无序分类变量资料又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。
分类:二分类:+ -;有效,无效;多分类:ABO血型系统特点:没有度量衡单位,多为间断性资料【例题单选】某地A、B、O、AB血型人数分布的数据资料是( )A.定量资料B.计量资料C.计数资料D.等级资料分组统计描述:是利用统计指标、统计表和统计图相结合来描述样本资料的数量特征及分布规律。
统计推断:是使用样本信息来推断总体特征。
统计推断包括区间估计和假设检验。
第四节统计表与统计图★一、统计表统计表的基本结构与要求标题:高度概括表的主要内容,时间、地点、研究内容,位于表的上方,居中摆放,左侧加表的序号。
标目:横标目和纵标目。
线条:通常采用三线表和四线表的形式。
没有竖线或斜线。
数字:表内数字一律用阿拉伯数字。
同一指标,小数位数应一致,位次对齐。
无数字用“—”表示。
暂缺用“…”表示。
“0”为确切值。
备注:位于表的下面,通常是对表内数字的注解和说明,必要时可以用“*”等标出。
一张统计表的备注不宜太多。
二、制表原则1.(7理分布。
【例题填空】描述某地十年间结核病死亡率的变化趋势宜绘制_________图。
医学统计学计量资料的统计推断主要内容:标准误t 分布总体均数的估计假设检验均数的 t检验、u 检验、方差分析几个重要概念的回顾:计量资料:总体:样本:统计量:参数:统计推断:参数估计、假设检验第一节均数的抽样误差与总体均数的估计欲了解某地2000年正常成年男性血清总胆固醇的平均水平,随机抽取该地200名正常成年男性作为样本。
由于存在个体差异,抽得的样本均数不太可能恰好等于总体均数。
一、均数的抽样误差与标准误一、均数的抽样误差与标准误抽样误差:由于抽样引起的样本统计量与总体参数之间的差异X数理统计推理和中心极限定理表明:1、从正态总体N(??,??2)中,随机抽取例数为n的样本,样本均数??X 也服从正态分布;即使从偏态总体抽样,当n足够大时??X也近似正态分布。
2、从均数为??,标准差为??的正态或偏态总体中抽取例数为n的样本,样本均数??X的总体均数也为??,标准差为X标准误含义:样本均数的标准差计算:(标准误的估计值)注意: X 、S??X均为样本均数的标准误标准误意义:反映抽样误差的大小。
标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越大。
标准误用途:衡量抽样误差大小估计总体均数可信区间用于假设检验二 t 分布对正态变量样本均数??X做正态变换(u变换):X 常未知而用S??X估计,则为t变换:二、 t 分布t值的分布即为t分布t 分布的曲线:与??有关t分布与标准正态分布的比较1、二者都是单峰分布,以0为中心左右对称2、t分布的峰部较矮而尾部翘得较高说明远侧的t值个数相对较多即尾部面积(概率P值)较大。
当ν逐渐增大时,t分布逐渐逼近标准正态分布,当ν→??时,t分布完全成为标准正态分布t 界值表(附表9-1 )t??/2,??:表示自由度为??,双侧概率P为??时t的界值t分布曲线下面积的规律:中间95%的t值:- t0.05/2,?? ?? t0.05/2,??中间99%的t值:- t0.01/2,?? ?? t0.01/2,??单尾概率:一侧尾部面积双尾概率:双侧尾部面积(1) 自由度(ν)一定时,p与t成反比;(2) 概率(p)一定时,ν与t成反比;三总体均数的估计统计推断:用样本信息推论总体特征。
医学统计学重点第一章绪论1.基本概念:总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。
样本:从总体中随机抽取部分个体的某个变量值的集合.总体参数:刻画总体特征的指标,简称参数。
是固定不变的常数,一般未知。
统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。
抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。
频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。
称m/n为事件A在n次试验中出现的频率或相对频率。
概率:频率所稳定的常数称为概率。
统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
统计推断:包括参数估计和假设检验。
用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计.用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。
2.样本特点:足够的样本含量、可靠性、代表性。
3。
资料类型:(1)定量资料:又称计量资料、数值变量或尺度资料.是对观察对象测量指标的数值大小所得的资料,观察指标是定量的,表现为数值大小。
每个个体都能观察到一个观察指标的数值,有度量衡单位.(2)分类资料:包括无序分类资料(计数资料)和有序分类资料(等级资料)①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由各分组标志及其频数构成。
包括二分类资料和多分类资料。
二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容.多分类:将观察对象按多种互斥的属性分类②等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单位的个数所得的资料。
4.统计工作基本步骤:统计设计、资料收集、资料整理、统计分析.第二章实验研究的三要素1.实验设计三要素:被试因素、受试对象、实验效应2。
误差分类:随机误差(抽样误差、随机测量误差)、系统误差、过失误差。
3。
实验设计的三个基本原则:对照原则、随机化分组原则、重复原则.4。