当前位置:文档之家› (完整版)医学统计学复习要点

(完整版)医学统计学复习要点

(完整版)医学统计学复习要点
(完整版)医学统计学复习要点

第一章绪论

1、数据/资料的分类:

①、计量资料,又称定量资料或者数值变量;为观测每个观察单位某项治疗的大小而获得的资料。

②、计数资料,又称定性资料或者无序分类变量;为将观察单位按照某种属性或者类别分组计数,分组汇总各组观察单位数后而得到的资料。

③、等级资料,又称半定量资料或者有序分类变量。为将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。

2、统计学常用基本概念:

①、统计学(statistics)是关于数据的科学与艺术,包括设计、搜集、整理、分析和表达等步骤,从数据中提炼新的有科学价值的信息。

②、总体(population)指的是根据研究目的而确定的同质观察单位的全体。

③、医学统计学(medical statistics):用统计学的原理和方法处理医学资料中的同质性和变异性的科学和艺术,通过一定数量的观察、对比、分析,揭示那些困惑费解的医学问题背后的规律性。

④、样本(sample):指的是从总体中随机抽取的部分观察单位。

⑤、变量(variable):对观察单位某项特征进行测量或者观察,这种特征称为变量。

⑥、频率(frequency):指的是样本的实际发生率。

⑦、概率(probability):指的是随机事件发生的可能性大小。用大写的P表示。

3、统计工作的基本步骤:

①、统计设计:包括对资料的收集、整理和分析全过程的设想与安排;

②、收集资料:采取措施取得准确可靠的原始数据;

③、整理资料:将原始数据净化、系统化和条理化;

④、分析资料:包括统计描述和统计推断两个方面。

第二章计量资料的统计描述

1. 频数表的编制方法,频数分布的类型及频数表的用途

①、求极差(range):也称全距,即最大值和最小值之差,记作R;②、确定组段数和组距,组段数通常取10-15组;

③、根据组距写出组段,每个组段的下限为L,上限为U,变量X值得归组统一定为L≤X<U,最后一组包括下限。

④、分组划记并统计频数。

频数分布的类型包括对称分布和偏态分布;

偏态分布主要分为右偏态分布(也称正偏态分布)和左偏态分布(也称负偏态分布)。频数表的用途包括以下几个方面:

①、描述频数分布的类型;

②、描述频数分布的特征;

③、便于发现一些特大或特小的离群值;

④、便于进一步做统计分析和处理。

2. 集中趋势指标的适用条件、计算方法和意义。

统计学用平均数(average)这一指标体系来描述一组变量值的几种位置或者平均水平。

常用的平均数有算术均数、几何均数和中位数。

①、算数均数,简称均数(mean),可用于反映一组呈对称分布的变量值在数量上的平均水平。计算方法包括直接计算法和频数表法(公式见2-2)。

②、几何均数(geometric mean),可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平,在医学研究中常用于免疫学的指标。(计算公式见于2-3)

③、中位数(median),适用于各种分布类型的资料,尤其是偏态分布资料和一端或者两端无确切数值的资料。

④、百分位数(percentile)是一种位置指标,是一个界值,其重要用途是确定医学参考值范围(reference range)。

直接计算法(公式见于2-7、2-8)

频数表法(2-9、2-10)

3、离散趋势指标的适用条件、计算方法和意义。

描述数据变异大小的常用统计指标有极差、四分位数间距、方差、标准差和变异系数。

①、极差,一组变量值的最大值与最小值之差。

②、四分位数间距(quartile range,QR)是把全部变量值分为四部分的分位数后,由第3四分位数和第1四分位数相减而得。它一般和中位数一起描述偏态分布资料的分布特征。QR=P75-P25。

③、方差(variance)也称均方差(mean square deviation)离均差平方和与样本含量的比值。计算公式为2-11

④、标准差(standard deviation)是方差的正平方根,其单位与原变量值得单位相同。计算公式为2-13、2-14

⑤、变异系数(coefficient of variation)记作CV,多用于观察指标单位不同时,或者均数相差较大时两者变异程度的比较。计算公式为2-16

4. 正态分布的图形,正态分布的特征,正态曲线下面积的分布规律。

正态分布的特征:

①、在直角坐标的横轴上方呈钟形曲线,两端与X轴永不相交,且以X=μ为对称轴,左右完全对称。

②、在X=μ处,f(X)取最大值,远离μ,其值越小。

③、正态分布有两个参数,位置参数μ和形态参数σ,μ决定正态分布的曲线在坐标轴上的左右移动,越大越右移;σ决定曲线的弓背程度,越小峰值越高。

④正态分布曲线下的面积分布有一定的规律。X轴与正态曲线所夹面积恒等于1或者100%;

区间μ±σ的面积为68.27%;

区间μ±1.96σ的面积为95.00%,区间μ±2.58σ的面积为99.00%。

5. 医学参考值范围的意义和估计方法。

医学参考值(reference value)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。

由于存在个体差异,生物医学数据并非常数,而是在一定范围内波动,故采用医学参考值范围(medical reference range)作为判定正常和异常的参考标准。通常使用的医学参考值范围有90%、95%、99%

①、正态分布法:数据服从或者近似服从正态分布,或者通过适当的变换转换为正态分布,采用此方法之前一般要对资料进行正态性检验且要求样本含量足够大(如n≥100)

计算公式为2-23、2-24:

双侧:

单侧:

②、百分位数法:适用于偏态分布资料医学参考值范围的制定,所要求的样本含量比正态分布要多(不低于100)。

计算公式为2-25、2-26:

双侧:

单侧:

第三章总体均数的估计与假设检验

1、基本概念:

①抽样误差(sampling error):指的是由于个体变异产生、随机抽样造成的样本统计量与总体参数的差异。

②标准误(standard error,SE):指的是样本统计量的标准差。

③均数的标准误(standard error of mean,SEM):指的是样本均数的标准差。

※SEM反映样本均数之间的离散程度,也反映样本均数与相应总体均数间的差异。

均数的标准误的计算公式为3-1、3-2

④统计推断(statistical inference):通过抽样研究的方法从总体中随机抽取一个样本,用样本的信息来推断总体的特征的统计学方法,包括参数估计和假设检验。

2、标准差的用途:

①、反映资料的离散趋势。标准差越小,说明变异程度越小,均数的代表性越好;

②用于计算变异系数;

③用于计算标准误;

④结合均数和正态分布规律估计参考值范围。

3、u分布与t分布:

u分布(也称Z分布):指的是总体均数为0,总体标准差为1的标准正态分布N(0,12)。

t分布:随机变量X服从总体均数为μ,总体标准差为σ的正态分布N(μ,σ2),则可以通过u变换将一般的正态分布转化为标准正态分布。

※但是通常获得的资料为样本的均数标准误,因此经过转换后并不是完全意义上的标准正态分布,而是服从t分布。(计算公式为3-3)

t分布主要用于总体均数的区间估计和t检验。

4、可信区间:从固定样本含量的已知总体总进行重复随机抽样试验,根据每个样本可算得一个可信区间,则平均有1-α(如95%)的可信区间包含了总体参数,而不是总体参数落在该范围的可能性为1-α。

5、参考值范围和总体均数可信区间的区别

见课本表3-2

6、标准差与标准误的区别和联系:

7、总体均数可信区间的计算:

※根据总体标准差σ是否已知以及样本含量n的大小而异,通常有t分布和u分布两类方法。

A、单一总体均数的可信区间:

a、总体标准差σ已未知:按t分布

双侧和单侧公式见3-5、3-6、3-7

b、σ已知或者未知,但n足够大(如>60)时:按u分布

双侧和单侧公式见3、8、3-9、3-10

B、两总体均数之差的可信区间:

※前提:两总体方差相等,但均数不等

计算公式见于3-12、3-13、3-14

8、t分布图的特征:

①、单峰分布,以0为中心,左右对称;

均数的标准误标准差

意义反映X的抽样误

差大小

反映一组数据的离散情

②、t 分布的曲线形态取决于自由度v 的大小,自由度越小,则t 值越分散,曲线的峰部越矮而尾部翘得越高;

③、当自由度逼近无穷的时候,样本标准误接近总体标准误,t 分布逼近标准正态分布。(标准正态分布是t 分布的特例) 9、t 检验的适用条件

t 检验(t test/Student t-test )当σ未知且样本含量较小时(如n <60),理论上要求t 检验的样本随机地取自正态分布的总体,两小样本均数比较式还要求两样本所对应的两总体方差相等,即方差齐性。在实际应用中,如与上述条件略有偏离,对结果影响也不大。 10、假设检验

A 、假设检验的基本思想:利用小概率反证法的思想,从问题的对立面(H 0)出发

10量,然后根据获得的P 值来判断。

B 、假设检验的基本步骤:①建立检验假设,确定检验水准; ②计算检验统计量;

③确定P 值,做出推断结论。 C 、假设检验的错误

Ⅰ 型错误:拒绝了实际上成立的H0,这类“弃真”的错误;(α) Ⅱ型错误:“接受”了实际上不成立的H0,这类“取伪”的错误。(β) 注意:①α越小,β越大;反之α越大,β越小;

②若重点是减少Ⅰ 型错误,一般取α=0.05;若重点是减少Ⅱ型错误,一般取β=0.10或者0.20甚至更高;

③若要同时减小Ⅰ 型和Ⅱ型错误,唯一的方法就是增加样本含量n ;

※多样本的多重比较LSD-t检验/最小显著差异t检验,适用于一对或者几对在专业上有特殊意义的样本均数间的比较,统计量为t值Dunnett-t检验适用于g-1个实验组与一个对照组均数差别的多重比较,统计量为Dunnett-t值

SNK-q检验适用于多个样本均数两两之间的全面比较,统计量为q值

※多样本的方差比较Bartlett检验,要求资料具有正态性,统计量为卡方;

第四章多样本均数比较的方差分析

1、概念:

①离均差平方和(sum of squares of deviation from mean,SS)指的是各个观测值与总均数差值的平方。

②均方差,简称均方(mean square,MS)指的是离均差平方和与自由度之间的比值。

2、方差分析的基本思想:

设处理因素有g(g≥2)个不同的水平,实验对象随机分为g组,分别接受不同水析各处理均数之间的差别大小,推断g 各总体均数间有无差别。

3、方差分析的应用条件为:各个样本是相互独立的随机样本,均来自于正态分布总体;相互比较的各个样本的总体方差相等,即具有方差齐性。

4、方差分析的变异分析:

总变异的大小——SS总:各个观测值与总均数差值的平方和;

组间变异的大小——SS组间:各组均数与总均数的离均差平方和;

组内变异的大小——SS组内:组内个观测值与其所在组的均数的差值的平方和。

并有SS总=SS组间+SS组内

由于组间与组内的离均差平方和的自由度不同,因此单纯的比较并无实际意义。MS组间=SS组间/v组间;MS组内=SS组内/v组内

正态分布且方差齐:单因素方差分析

成组t 检验(意义相同t 2

=F )

非正态分布或/和方差不齐:变量转换→单因素方差分析 秩和检验 随机区组设计资料:

正态分布且方差齐:双向分类的方差分析

配对t 检验(意义相同t 2

=F )

非正态分布或/和方差不齐:变量转换→双向分类的方差分析 Friedman M 检验 初衷:考虑环境因素对实验结果的影响。 7、拉丁方设计资料的方差分析:

可多安排一个已知的对实验结果有影响的非处理因素,增加了均衡性,减少了误差,提高了效率。

完全随机设计只涉及一个处理因素;

随机区组设计涉及一个处理因素、一个区组因素;

如果实验研究涉及一个处理因素和两个控制因素,每个因素的类别数或水平数相该设计不仅平衡了处理顺序的影响,而且能把处理方法间的差别、时间先后之间的差别和实验对象之间的差别分开来分析。

9、多样本均数间的多重比较方法:LSD-t 检验、Dunnett-t 检验、SNK-q 检验三种。 10、多样本方差比较:Bartlett 检验、Levene 检验

第五章 计数资料的统计描述

1、基本概念:

①、相对数(Relative number ):是两个有关联的数据之比,用以说明事物的相对关系,便于对比分析。

常用的相对数指标很多,按联系的性质和说明的问题不同,主要分为:率、构成、相对比三类。

②、强度相对数--频率(frequency ):是最常见的一种相对数,频率在实践中又称为比率(proportion )。它表示事物内部某个组成部分所占的相对多少。

③、结构相对数 —构成比(constituent ratio):说明某事物内部各组成部分所占的比重或分布,又称构成比。 构成比可相加,和等于100%。 ④、优势相对数 ----比(ratio ):是指两个有关联的指标A 和B 之比,简称比。A 和B 可以是性质相同,也可以是性质不相同。通常以倍数或百分数(%)表示。 ⑤、率的标准化法:指的是消除内部构成差别,使总体率能够直接进行比较的方法。采用统一标准调整后的率为标准化率,简称为标化率(standardized rate )。

标准化的基本思想: 采用统一的“标准人口构成”,以消除人口构成不同对各组总率的影响,使算得的标准化率具有可比性。

⑥ 、动态数列(dynamic series):是按时间顺序排列的统计指标(可以为绝对数,

相对数或平均数),用以观察和比较该事物在时间上的变化和发展趋势。

分析动态数列常用的指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。

⑦、发展速度:表示报告期指标的水平相当于基线期(或前一期)指标的百分之多少或若干倍。

⑧、增长速度:表示的是净增加速度,增长速度=发展速度–1(100%)。

2、率的标准化的注意事项:

①.标准化后的标准化率,已经不再反映当时当地的实际水平,它只是表示相互比较的资料间的相对水平。

②.两样本标准化率是样本值,存在抽样误差。当样本含量较小时,比较两样本的标准化率,需要作假设检验。(但如果比较的两者是总体的参数,则可进行直接比较,无需进行t 、F检验)

第六章几种离散型变量的分布及其应用

连续型分布举例:u 分布、t 分布和F分布;

常用离散型分布:二项分布、Poisson分布、负二项分布。

1、基本概念

①、二项分布(binomial distribution):是指在只会产生两种可能结果之一的n次独立重复试验中,当每次实验的“阳性”的概率π保持不变时,出现“阳性”次数X=0,1,2……n的一种概率分布。

②、Poisson分布(Poisson distribution):是二项分布的一种极端形式,指的是每次实验的“阳性”概率比较低的时候,出现阳性次数的相应概率满足以λ为参数的X~P(λ)。

2、二项分布的适用条件:

①、每次试验只会发生两种队里的额可能结果之一,即分别发生两种结果的概率之和很等于1;

②、每次试验产生某种结果的概率固定不变;

③、重复试验是相互独立的,不相互影响。3、二项分布的性质

①、样本率的标准差也称为率的标准误,可以用来描述样本率的抽样误差,率的标准误越小,则率的抽样误差就越小。

②、当π=0.5时,二项分布图形是对称的,当π≠0.5时,图形是偏态的,随着n增大,图形趋于对称。当n→无穷时,只要π不太靠近0或1,二项分布则近似正态分布。

③、利用二项分布的性质,可进行总体率的区间估计和差异推断。(当n≤50时可查表得到可信区间,>50是可采用近似正态分布法)

4、Poisson分布的适用条件:

普通性:才充分小的观测单位上X的取值最多为1;

独立增量性:重复实验室相互独立的,不相互影响;

平稳性:每次试验阳性时间发生的概率都应相同。

5、Poisson分布的性质:

①、总体均数λ与总体方差σ2相等时Poisson分布的重要特征;

②、当n很大,而π很小时,且nπ=λ为常数时,二项分布近似Poisson分布;

③、当λ增大时,Poisson分布逐渐近似正态分布。一般而言,λ≥20时,Poisson 分布资料可作为正态分布处理。

④、Poisson分布具备可加性。

6、Poisson分布的图形特点:

当λ越小,分布就越偏态;当λ越大时,Poisson分布则越渐近正态分布。当λ≤1时,随X取值的变大,P(X)值反而会变小;当λ>1时,随X取值的变大,P(X)值先增大后变小。

第七章卡方检验χ2

1、χ2分布曲线的特点:χ2分布曲线的形状依赖于自由度的大小①当自由度≤2时,曲线呈L形;随着自由度的增加,曲线逐渐趋于对称;当自由度→无穷时,χ2分布趋近正态分布。

2、χ2分布的基本性质:可加性;

3、χ2检验的原理:通过实际频数和理论频数满足f(χ2),来推断实际频数与理论频数的差异大小及有无统计学意义。

4、几种常见的资料类型:

①、普通四格表:自由度=(行数-1)(列数-1)

χ2可使用四格表专用公式;

×:n≥40且所有的T≥5 →使用基本公式;

P≈α时,改用Fisher确切概率法;

n≥40但有1≤T≤5 →四格表校正公式或者Fisher确切概率法

n<40或T<1 Fisher确切概率法

②配对四格表资料:b+c<40且1≤T≤5要校正;

5、Fisher确切概率法思想:

四格表资料周边合计数不变的条件下,计算表内4个实际频数变动时的各种组合之概率;再按照假设检验用单侧或双侧的累计概率依据所取得检验水准α做出推断。

6、行×列表资料使用范围:

多个样本率的比较;样本构成比的比较;双向无序分类资料的关联性检验;

7、多个样本率的多重比较:

多个实验组间的两两比较与实验组与同一对照组的比较均应对α进行校准,且方法相同。

8、拟合优度检验:

适用范围:推断某一现象的频数分布是否符合某一理论分布;比较实际频数与理论频数的差异大小。

第八章非参数检验

1、非参数检验的适用范围:

①不满足正态分布和方差齐性条件的计量资料;

②对于分布不知道是否正态的小样本资料;

③对于一端或两端是不确定值得资料;

④推断等级资料的等级强度差别。2、主要数据资料类型:

①配对样本比较:(样本量>50时可以采用近似正态法作u检验)

H0:样本总体中位数=人群总体中位数;

H1:样本总体中位数≠人群总体中位数。

②两独立样本的比较:(n1>10或n2-n1>10时,令n1+n2=N,作近似正态分布检验)

H0:两样本总体分布位置相同;

H1:两样本总体分布位置不同。

③完全随机多个样本:

H0:多个样本总体分布位置相同;

H1:多个样本总体分布位置不全相同。

注意:当完全随机的多个样本为两个样本时,使用完全随机多个样本的检验方法求得的统计值H(或H C)与使用两独立样本的u检验求得的u值等价。H=u2。

第九章:双变量回归与相关

1、直线回归(linear regression):因变量Y随着自变量X的变化而变化呈直线趋势,但并非所有的对应点恰好全都在一条直线上,称为直线回归或者简单回归。注:a 为常数项,是回归直线在Y轴上的截距;

b为回归系数(coefficient of regression),为直线的斜率;其统计意义是当X 变化一个单位时Y的平均改变的估计值。

直线回归方程的求法

基本原则:最小二乘(least sum of squares)

将实测值与假定回归线上的估计值的纵向距离称为残差(residual)或剩余值。为了使各点残差尽可能的小,考虑到所有点之残差有正有负,所以通常取各点残差平方和最小的直线即为所求,如此得到的回归系数最理想。

统计推断的检验:方差分析F检验或者t检验

两者等价:t=F2

b离0越远,Y受X的影响越大,SS回就越大,回归效果越好;

SS残越小,估计误差越小,回归作用越明显。

2、直线相关(linear correlation):两个数值变量进行比较时,一个变量在增加或者减少时,另一个变量也表现为增加或者减少,这两个变量之间的关系即为直线相关。

相关系数(correlation coefficient)又称为pearson积差相关系数,以符号r表示样本相关系数,符号ρ表示其总体相关系数。用来说明具有直线关系的两变量间相关的密切程度与相关方向。

相关系数的统计推断:t检验

决定系数(coefficient of determination):为回归平方和与总平方和之比。其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。

3、残差图考察数据是否符合模型假设的基本要求:

①、应变量与自变量关系为线性;

②、误差服从均数为0的正态分布;

③、方差相等;

④、各观测对象独立。

4、直线回归与直线相关的区别和共同点

区别:①相关系数无单位,回归系数有单位;

②相关表示相互关系,没有依存关系,回归有依存关系;

③两者对资料的要求不同:当X和Y都是随机的,可以进行相关和回归分析;当Y是随机变量,X是控制变量时,理论上只能做回归分析。

联系:①均表示线性关系;

②符号相同,共变方向一致;

③假设检验结果相同;(tr=tb)

④可以互相换算(数值的相同不代表意义的相同)

第十二章重复测量设计资料的方差分析

1、重复测量设计资料的数据特征:①、未设立平行对照的前后测量设计:(重复测量资料最常见的情况是前后测量设计)

前后测量设计与配对设计t 检验的区别:

a、配对设计中同一对子的两个实验单位可以随机分配处理,两个实验单位同期观察实验结果,可以比较处理组间差别;前后测量设计不能同期观察实验结果,虽然可以在前后测量之间安排处理,但本质上比较的是前后差别,推论处理是否有效是有条件的,即假定测量时间对观察结果没有影响。

b、配对t检验要求同一对子的两个实验单位的观察结果分别是差值相互独立,差值服从正态分布。而前后测量设计前后两次观察结果通常与差值不独立,大多数情况第一次观察结果与差值存在负相关的关系。

c、配对设计用平均差值推论处理的作用,前后测量设计出了分析平均差值外,还可进行相关分析。

②、设立平行对照的前后测量设计:

虽然分为处理组和对照组,但是不能进行差值均数t检验,因为通常两组差值的方差不会相等。

③、重复测量设计:

重复测量数据与随机区组设计数据相似,两者的差别是:

a、重复测量设计中处理是在区组间随机分配,区组内的各时间点是固定的,不能随机分配;随机区组设计则要求每个区组内实验单位彼此独立,处理只能在区组内随机分配,每个实验单位接受的处理是不相同的。

b、重复测量设计区组内实验单位彼此不独立,而随机区组内实验单位彼此独立,如果按照随机区组进行t检验则要求进行统计值的校正。

第十五章多元线性回归资料的分析

适用范围:分析一个应变量与多个自变量之间的线性关系;

1、多元线性回归模型的一般形式:Y=β0+β1X1+β2X2+……+βmXm+e

a、偏回归系数βj的意义:表示在其他自变量保持不变的时候,Xj增加或减少一个单位时Y的平均变化量。

b、偏回归分布的应用条件:

①、Y与各个变量之间有线性关系;

②、各例观测值Yi相互独立;

③、残差e服从均数为0,方差为δ2的正态分布。(等价于对任意一组自变量X1、X2……Xm值,应变量Y具有相同方差,并且服从正态分布)

c、参数的计算方法:最小二乘法

2、多元线性回归方程的假设检验及其评价:(对整体的假设检验)

A、可以将回归方程中所有的自变量作为一个整体来检验它们与应变量Y之间是否具有线性关系。

假设检验方法:方差分析法:H0:β1=β2=……=βm=0;H1:各βj不全为0.

若拒绝H0,接受H1,即可确定所拟合的回归方程有统计学意义。

1)决定系数R2:即为偏回归平方和与残差平方和的比值,其值越接近1,说明拟合程度越好。

2)复相关系数:决定系数开根号,可用来度量应变量与多个自变量之间的线性相关程度。

B、各自变量的假设检验:

①、使用方法为偏回归平方和(SS回(Xj)):表示在m-1个自变量的基础上新增加Xj所引起的回归平方和的增加量。其值越大,说明Xj越重要。

偏回归平方和检验:H0:βj=0;H1:βj≠0

注意:单独分析各个变量的偏回归平方和,所有值的和小于总的回归平方和,其原因是忽略了各个变量之间的相互作用成分。

②、t检验法:对于同一资料,不同自变量的t值间可以相互比较,t的绝对值越大,说明该自变量对Y 的回归所起的作用越大。

③标准化回归系数:减少自变量观测单位不同对结果的影响。

在有统计学意义的前提下,标准化回归系数的绝对值越大说明相应自变量对Y的作用越大。

3、自变量选择方法:

A、全局择优法:

①、校正决定系数Rc选择法(当R2相同时,自变量个数越多,Rc越小,最优为Rc最大)②、Cp选择法:应选择Cp最接近p+1的回归方程为最优方程。

B、逐步选择法:

①、前进法:(只选不剔)在有统计学意义的前提下,选取偏回归平方和最大的一个自变量做F检验以决定是否选入。

②、后退法:(只剔不选)选取回归平方和最小的一个自变量做F检验以决定是否剔除。

③、逐步回归法:先选后剔,双向筛选。本质上是前进法,但每引入一个自变量进入方程后,要对方程中的每一个自变量做基于偏回归平方和的F检验,看是否需要剔除一些退化为不显著的自变量。

注意:为了避免已经剔除的自变量再次入选,选入自变量的检验水准要小于或等于剔除自变量的检验水准。

第十六章logistic回归分析

logistic回归(logistic regression)属于概率型非线性回归。

适用对象:二分类或多分类影响因素之间的关系。

1、表示方法:阳性概率P=1/1+exp(-Z) Z=β0+β1X1+β2X2+……+βmXm

P的logit转换:logit P=ln(p/1-p)= β0+β1X1+β2X2+……+βmXm 回归系数βj表示自变量Xj改变一个单位时logit P的该变量。

2、模型参数的意义:

①、确定优势比(odds ratio,OR)——衡量危险因素作用大小的比数比例

OR适用于分类指标而不适用于计量指标;

多变量调整后的优势比(adjust odds ratio)ORj:表示扣除了其他自变量影响后危险因素的作用。

用来对比某一危险因素两个不同暴露水平Xj=c1和Xj=c0之间的发病情况。

1)βj=0时,ORj=1,说明因素Xj对疾病的发生不起作用;

2)βj>0时,ORj>1,说明因素Xj对疾病发生起危险作用;

3)βj<0时,ORj<1,说明因素Xj时一个保护因子。

②、确定相对危险度(relative risk,RR)

对于发病率很低的疾病存在优势比即等于两种暴露水平之间的相对危险度。

2、logistic 回归方程的参数估计:

主要方法有最大似然估计法(maximum likelihood estimate,MLE)和优势比估计法。

3、logistic回归的适用对象:

①、比较各暴露因素的致病风险的大小;

②、多因素的共同作用的评价;

③、危险因素的筛选:多经文献报道选取,但统计学资料不能代替专业依据

4、logistic回归模型的假设检验:

常用的检验方法有似然比检验(likelihood ratio test)、Wald检验和计分检验(score test)——统计量为卡方值

logistic回归模型变量的筛选与多元线性回归相同。

第十七章生存分析

1、生存分析资料与一般资料比较的不同:

①、同时考虑生存时间和生存结局;

②、通常含有删失数据;

③、生存时间的分布通常不服从正态分布。

2、概念:

生存时间(survival time),从起始事件到终点事之间所经历的时间跨度。

完全数据(complete data),在追踪观察中,当观察到了某观察对象的明确结局时,该观察对象所提供的关于生存时间的信息是完整的,这种生存时间数据称为完全数据。

不完全数据(incomplete data),在实际追踪观察中,由于某种原因无法知道观察对象的确切生存时间,这种生存时间数据也称为截尾数据。

生存率(survival rate)是指病人经历给定的时间之后仍存活的概率,若有截尾数据,应用乘积极限法。

生存概率(probability of survival)表示某段时段开始时存活的个体,到该时段结束时仍存活的可能性。

死亡概率(probability of death)表示某段时段开始时存活的个体,到该时段结束时死亡的可能性。

死亡率(death rate)指的是某单位时间内的平均死亡强度。

四分位数间距:记为Q,表示中间半数病人生存期的分布范围,它反映生存期的离散程度,其定义为:Q=T25-T75,式中,T25和T75分别是25百分位数和75百分位数.

3、生存率的估计与生存曲线:

小样本的生存率估计:kaplan-Meier法(又称乘积极限法)

大样本的生存率估计也可使用上述乘积极限法。。

4、生存率的比较:

最常见的方法是使用log-rank检验(也称为Mantel-Cox检验)

其基本思想为实际死亡数与理论死亡数之间的比较。统计量为卡方值

假设检验:H0:St(1)=St(2),即两种方式的患者生存率相同;

H1:两种方式的患者生存率不同

5、多因素生存分析方法:Cox比例风险模型(为半参数法)

其参数的估计采用的方法为最大似然估计法

因素的筛选与多元线性回归模型相同。

注意:Cox比例风险回归模型的主要前提条件是假定风险比值h(t)/h0(t)为固定值,即协变量对生存率的影响不随时间的改变而改变。

第二十七章——第二十九章

1、医学科学研究的分类:

按照目的:验证性研究和探索性研究

按照形式:观察性研究与实验性研究

按照指标:单因素研究和多因素研究

按照时限:前瞻性研究、回顾性研究和横断面研究

按照对象:临床试验、社区研究和实验研究

2、医学科学研究的基本步骤:

①、选题;

②、制定研究方案;

③、收集资料;

④、数据整理与分析;

⑤、撰写研究报告。

3、调查研究(survey research)是指在没有任何干预措施的条件下,客观地观察和记录研究对象的现状及其相关特征。

调查研究的特点是:研究的对象及其相关因素是客观存在的,不能用随机化分组来平衡混杂因素对调查结果的影响。

4、常用的抽样方法包括:

单纯随机抽样(简单随机抽样)、系统抽样(机械抽样)、分层抽样(分类抽样)、整群抽样和多阶段抽样。

5、观察性研究中估计总体参数所需样本含量的条件:

(1)、可信度1-α:其值越大,可信区间估计的可靠性越好,但相应所需样本含量就越大。

(2)、总体的标准差σ:其值越大,相应所需的样本含量也越大。

(3)、容许误差δ:即预计样本统计量与相应总体参数的最大相差控制所在的范围。用上面的三个条件求得的样本含量的意义是:当样本含量为n时,用统计量来估计总体参数,两者之差不超过δ的可能性是1-α。

6、实验设计的三个基本组成部分:实验单位、处理因素和实验效应

注意:特异性:反映该指标鉴别真阴性的能力,特异度高的指标能较好的揭示处理因素的作用

灵敏性:反映该指标检出真阳性的能力,灵敏度高的指标对外界的反应灵敏,能将处理因素的效应更好的显示出来。

7、实验设计的基本原则:对照(control)、随机化(randomization)、重复(replication)

8、实验性研究中估计总体参数所需样本含量的条件:

(1)、假设检验的Ⅰ型错误概率α的大小:α越小,所需样本含量越大。对于相同α,双侧检验比单侧检验所需样本含量多。

(2)、假设检验的Ⅱ型错误概率β或检验效能(1-β)的大小:β越小,所需样本含量越多。

(3)、容许误差δ的大小:其值越大,所需样本含量越小。

(4)、总体的相关信息:总体标准差越大,所需样本含量越多;总体率越接近于0.5,所需样本含量越多;总体相关系数越小,所需样本含量越多。总体的参数可通过样本来估计。

医学统计学(本科)复习习题2018

医学统计学期末复习题 一、单项选择题 1 下面的变量中是分类变量的是 A.身高 B.体重 C.年龄 D.血型 2 下面的变量中是是数值变量的是 A.性别 B.年龄 C.血型 D.职业 3.随机事件的概率 P 为 A.P=0 B. P=1 C. P=-0.5 D. 0

医学统计学章节重点归纳

医学统计学章节重点归纳 第一节概述 1、主要内容:a、卫生统计学的基本原理和方法(研究设计和数据处理中的统计理论和方法)b、健康统计(医 学人口统计、疾病统计和生长发育统计)c、卫生服务统计(卫生资源、医疗卫生服务的需求和利用、医疗保健制度和管理中的统计问题)。 2、 卫生统计工作的步骤:设计、资料的搜集、资料的整理、资料的分析 3、医学统计资料主要四个方面:统计报表、报告卡(单)、日常医疗卫生工作记录,专题研究或实验。 4、观察单位:是获得数据的最小单位,观察单位是根据研究目的确定的,观察单位可以是人、标本、家庭、国 家等。 5、变异:是指客观事物的多样性和不确定性。 6、变量: 观察单位的某种特征,称为变量。a、数值变量(定量变量)b、分类变量(定型变量或字符变量)。 7、总体:根据研究目的所确定的同质研究对象的全体。确切的说是性质相同的所有观察单位的某种变量的集合。 8、样本:从总体中随机抽取部分观察单位,其变量值就构成样本,通过样本信息来推断总体特征。 9、概率:事件发生的可能性大小的量度,通常以符号P表示。 10、误差:测量值与真值之差或样本指标和总体指标之差。分为随机误差和系统误差。 第二节数值资料的统计描述 1、频数分布就是观察值在所取得范围内分布的情况。重要特征:集中趋势和离散趋势。 2、频数分布类型:正态分布型频数、正偏态分布型频数,负偏态分布型频数。 3、集中趋势指标:算术平均数(均数)、几何均数、中位数。 指标使用条件计算公式 算术平均数适用于正态或近似正态分布 的数值变量资料 几何均数①对数正态分布,即数据经 过对数变换后呈正态分布的 资料;②等比级数资料,即 观察值之间呈倍数或近似倍 数变化的资料。 中位数①非正态分布资料(对数正 态分布除外);②频数分布 的一端或两端无确切数据的 资料③总体分布不清楚的资 料。为奇数 , 为偶数, 4、离散型趋势指标:极差、标准差和变异系数 指标计算公式主要优缺点 极差R=Xmax-Xmin 计算简单,便于理解;只考虑最大值与最小值之差异,不能反映 组内其它观察值的变异度,不稳定,受样本量影响很大。

医学统计学总结

医学统计学总结 一、绪论 1,医学统计学:运用概率论与数理统计学得原理与方法,研究医学领域中随机现象有关数据得搜集、整理、分析与推断,进而阐明其客观规律性得一门应用科学。 2,医学统计学得主要内容: 1) 统计研究设计调查研究设计与实验研究设计 2) 医学统计学得基本原理与方法研究设计与数据处理中得基本统计理论与方法。A:资料得搜集与整 理 B:常用统计描述,集中趋势与离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计与假设检验。 3)医学多元统计方法多元线性回归与逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、 logistic回归与Cox回归分析。 3,统计工作步骤: 1) 设计明确研究目得与研究假说,确定观察对象与观察单位,样本含量与抽样方法,拟定研究方案,预 期分析指标,误差控制措施,进度与费用。 2) 搜集材料 A, 搜集材料得原则及时、准确、完整 B, 统计资料得来源医学领域得统计资料得来源主要有三个方面。一就是统计报表,二就是经常性工作记录,三就是专题调查或专题实验。 C, 资料贮存 3) 整理资料 a检查核对b设计分组c拟定整理表d归表 4) 分析资料统计分析包括统计描述与统计推断 4,同质(homogeneity):指被研究指标得影响因素相同。 变异(variation):同质基础上得各观察单位间得差异。 变量(variable):收集资料过程中,根据研究目得确定同质观察单位,再对每个观察单位得某项 特征进行测量或观察,这种特征称为变量 变量值:变量得观察结果或测量值。 5,总体(population) 根据研究目得所确定得同质研究对象中所有观察单位某变量值得集合。总体 具有得基本特征就是:同质性 样本(sample) 从总体中随机抽取部分观察单位,其变量值得集合构成样本。样本必须具有代表 性。代表性就是指样本来自同质总体,足够得样本含量与随机抽样得前提。 统计量(statistics)描述样本变量值特征得指标(样本率,样本均数,样本标准差)。 参数(parameter)描述总体变量值特征得指标(总体率,标准差,总体均数)。

常用医学统计学方法汇总

选择合适的统计学方法 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两

研究生医学统计学试题

试卷编号:卷课程名称:医学统计学适用专业:科学学位专业:班级 姓名:学号:学院 (系 ):考试日期:题号一二三四五六七八九十总分统分题分30152530100签名得分 考生注意事项: 1、本试卷共6 页,请查看试卷中是否有缺页或破损。如有立即举手报告以 便更换。 2、考试结束后,考生不得将试卷、答题纸和草稿纸带出考场。 一、最佳选择题(每题 2 分,共 30 分) 得评阅 把每题的答案填入下表中: 123456789101112131415 A B C D B B A C C C B B C D B 1、描述一组正态分布资料的集中趋势,以指标为好。 A. 算术平均数; B. 几何平均数; C. 中位数; D. 变异系数 2、比较成人身高和儿童身高的离散趋势,宜用。 A. 标准差; B. 变异系数; C. 方差; D. 离均差平方和 3、对于正态分布资料,X +1.96S,所对应的面积占总面积的。 A. 95% ; B. 99% ; C. 47.5%; D. 49.5% 4、下列说法哪个是错误的?中位数适用于描述资料。 A. 最小组段无下限; B. 最大组段无上限; C. 偏态分布; D. 正态分布 5、大,表示用该样本均数估计总体均数的可靠性小。 A. S X; B. S; C.CV; D. Q U—Q L 6、某地 1992年随机抽取 100名健康女性,算得其血清总蛋白含量的均数为74g/L ,标准差为 4g/L ,则其 95%的可信区间为。

7、两样本均数比较的t 检验,分别取以下检验水准,以所取第二类错误最大。 A. α =0.01; B. α=0.05; C. α =0.10; D.α=0.20 8、两样本均数比较的t 检验结果, P<0.05 ,可认为。 A. 两样本均数不等; B. 两样本均数相等; C. 两总体均数不等; D. 两总体均数相等 9、完全随机设计的方差分析结果,P≤ 0.05,可认为。 A. 各样本均数不等或不全等; B. 各样本均数都不相等; C. 各总体均数不等或不全等; D. 各总体均数都不相等 10、某地某年肝炎发病人数占总人数的5%,这是该地该年肝炎的。 A. 年发病率; B. 年患病率; C. 患病构成比; D. 患者平均数 11、已知甲县人口较乙县年青,今欲比较两县死亡率的高低,适当的比较方法是。 A.将两县的总死亡率直接比较; B.对年龄进行标准化后,再比较两县总死亡率; C.将两县的总死亡率进行 t 检验后再比较; D.将两县的总死亡率进行χ2检验后再比较 12、下面哪一点不是Poisson 分布的性质。 A. λ =σ2; B. 当λ≥ 20 时,近似正态分布; C. 可加性; D. 相互影响性 13、χ2检验中理论数T 的计算式为。 A. n r (1 n c ) ; B. (1 n r ) n c; C. n r n c; D. n r n c N N N N 14、已知两组计量资料方差不齐,可用检验。 A. t 检验; B. U 检验; C. F 检验; D. 秩和检验 15、对一组既做相关分析又做回归分析的资料,有。 A. b=r ; B. t b=t r; C. b=a; D. r=1

医学统计学分析基本思路指南

医学统计学分析基本思路指南 医学统计学的学习一定要以理解为主。对于初学者,不必强记一大堆的公式,也不要死钻牛角尖,非要弄明白为什么这种方法叫“t检验”、“F检验”,为什么这个残差叫做“学生化残差”等等。这些都是历史遗留问题,感兴趣的读者可以查阅统计学史。对于只想应用的人来讲,你只要了解在什么情况下应该用什么方法,什么指标应该用于什么情形。尽管多数统计教材都说了数据分析应该先做假设检验,然后选定统计量,然后怎么怎么。但实际中我们拿到一堆数据的时候,不会坐在桌上先列出零假设和备择假设,也不会满座子地计算统计量。 更实际的分析思路是: (1)先确定研究目的,根据研究目的选择方法。不同研究目的采用的统计方法不同,常见的研究目的主要有三类:一是差异性研究,即比较组间均数、率等的差异,可用的方法有t检验、方差分析、χ2检验、非参数检验等。二是相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析。三是影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、logistic回归、Cox回归等。 (2)明确数据您身边的论文好秘书:您的原始资料与构思,我按您的意思整理成优秀论文论著,并安排出版发表,扣1550116010 、766085044自信我会是您人生路上不可或缺的论文好秘书类型,根据数据类型进一步确定方法。不同数据类型采用的统计方法也不同。定量资料可用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。分类资料可用的方法有χ2检验、对数线性模型、logistic回归等。图1.6简要列出了不同研究目的、不同数据类型常用的统计分析方法。 (3)选定统计方法后,需要利用统计软件具体实现统计分析过程。SAS中,不同的统计方法对应不同的命令,只要方法选定,便可通过对应的命令辅之以相应的选项实现统计结果的输出。 (4)统计结果的输出并非数据分析的完成。一般统计软件都会输出很多结果,需要从中选择自己需要的部分,并做出统计学结论。但统计学结论不同于专业结论,最终还需要结合实际做出合理专业结论。下面是本人简单总结的常用方法的选择,可供读者参考。

健康管理师考试重点归纳总结

第一章健康管理概论 健康管理是以现代健康概念(生理、心理和社会适应能力)和新的医学模式(生理、心理、社会)以及中医治未病为指导,通过采用现代医学和现代管理学的理论、技术、方法和手段,对个体或群体整体健康状况及其影响健康的危险因素进行全面检测、评估、有效干预与连续跟踪服务的医学行为及过程。 其目的是以最小投入获取最大健康效益。 健康管理的八大目标: 1.完善健康和福利 2.减少健康危险因素 3.预防疾病高危人群患病 4.易化疾病的早期诊断 5.增加临床效用、效率 6.避免可预防的疾病相关并发症的发生 7.消除或减少无效或不必要的医疗服务 8.对疾病结局作出度量并提供持续的评估和改进 健康管理的特点: 标准化足量化个体化系统化 健康管理的三个基本步骤: 1.了解和掌握健康,开展健康信息收集和健康检查 2.关心和评价健康,开展健康风险评价和健康评估 3.干预和促进健康,开展健康风险干预和健康促进 健康风险评估是手段,健康干预是关键,健康促进是目的 健康管理的五个服务流程: 1.健康调查与健康体检 2.健康评估 3.个人健康咨询 4.个人健康管理后续服务 5.专项的健康和疾病管理服务 健康管理的六个基本策略: 1.生活方式管理 2.需求管理 3.疾病管理 4.灾难性病伤管理 5.残疾管理 6.综合群体健康管理 生活方式管理的特点: 1.以个体为中心,强调个体的健康责任和作用

2.以预防为主,有效整合三级预防 生活方式的四大干预技术: 教育激励训练营销 影响需求管理的四大主要因素: 1.患病率 2.感知到的需要 3.消费者选择偏好 4.健康因素以外的动机(残疾补贴、请病假的能力等) 需求管理的策略: 1.小时电话就诊和健康咨询 2.转诊服务 3.基于互联网的卫生信息数据库 4.健康课堂 5.服务预约 疾病管理的三个特点: 1.目标人群是患有特定疾病的个体 2.不以单个病例和(或)其单次就诊事件为中心,而关注个体或群体连续性的健康状况与 生活质量 3.医疗卫生服务以及干预措施的综合协调至关重要 灾难性病伤管理的五大特点: 1.转诊及时 2.综合考虑各方面因素,制订出适宜的医疗服务计划 3.具备一支包含多种医学专科及综合业务能力的服务队伍,能够有效应对可能出现的多种 医疗服务需要 4.最大程度地帮助病人进行自我管理 5.尽可能使患者及其家人满意 残疾管理的八大目标: 1.防止残疾恶化 2.注重功能性能力 3.设定实际康复和返工的期望值 4.详细说明限制事项和可行事项 5.评估医学和社会心理学因素 6.与病人和雇主进行有效沟通 7.有需要时要考虑复职情况 8.实行循环管理 《健康中国2030规划纲要》 1.强调预防为主,防患未然

医学统计学试题及答案

医学统计学试题及答案 The latest revision on November 22, 2020

医学统计学 一、选择题 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制( B ) A 条图 B 百分条图或圆图 C线图 D直方图 2、均数和标准差可全面描述 D 资料的特征 A 所有分布形式B负偏态分布C正偏态分布D正态分布和近似正态分布 3、要评价某市一名5岁男孩的身高是否偏高或偏矮,其统计方法是( A ) A 用该市五岁男孩的身高的95%或99%正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99%的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用( A ) A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是( A ) A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同

6. 男性吸烟率是女性的10倍,该指标为( A ) (A)相对比(B)构成比(C)定基比(D)率 7、统计推断的内容为( D ) A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A和B均不是 D. A和B均是 8、两样本均数比较用t检验,其目的是检验( C ) A两样本均数是否不同 B两总体均数是否不同 C两个总体均数是否相同 D两个样本均数是否相同 9、有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t 检验时,自由度是( D ) (A) n1+ n2 (B) n1+ n2 –1 (C) n1+ n2 +1 (D) n1+ n2 -2 10、标准误反映( A ) A 抽样误差的大小 B总体参数的波动大小

医学统计学重点总结

医学统计学 第一章 医学统计中的基本概念 1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。 2 资料的类型:计量资料(数值变量),计数资料(无序分类),等 变异(variation):在同质的基础上被观察个体的差异。级分组资料(有序分类)。 3 同质(homogeneity):对研究指标有影响的非实验因素相同。 4 总体(population):根据研究目的确定的同质的全部研究对象称总体 。 样本(sample):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。 5 参数(parameter):总体的设计指标称为参数。 统计量(statistic):样本的统计指标称为统计量。 6 变量(variable):观察对象的特征或指标称为变量,测量的结果即为变量值。 7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。 第二章 集中趋势的统计描述 一 算术均法(mean)简称为均数,适用于正态或近似正态分布资料 (一)直接法 X n x n X X X n ∑= +?++= 21 (二)加权法(针对频数表)n fx n x f f f X k k ∑= +++= (21) 二 几何均数(geometic mean,G)适用于倍数关系变化,经对数转换后呈正态分布(如:抗体滴度, 血清凝集效价,细菌计数,某些物质浓度等) G= n n X X X ?21 为了计算方便,常改用对数的形式计算,即=G lg 1 -( n X ∑lg ) 对于频数表资料,可用公式 G=lg 1 -( n x f ∑lg ) 三 中位数(M)与百分位数 中位数:适用于偏态分布资料,末端无确切数值的资料及分布情况不确定 公式:M=L+( M L f f n -5.0) M i L,M i ,M f 分别为M 所在组段的下限,组距与频数,L f 为M 所在组段之前各组数的累积频数。 百分位数:用符号X P 表示,x 即百分位 公式:x P =L+( x L f f x n -%·)x i 式中L,x i ,x f 分别为x P 所在组段的下限,组距与频数,L f 为x P 所在组段之前各组段的累积频数

医学统计学简答题

医学统计学简答题 1.简述标准差、标准误的区别与联系? 区别:(1)含义不同:标准差S表示观察值的变异程度,描述个体变量值(x)之间的变异度大小,S越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。标准误..估计均数的抽样误差的大小,是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。 (2)与n的关系不同: n增大时,S趋于σ(恒定),标准误减少并趋于0(不存在抽样误差)。 (3)用途不同:标准差表示x的变异度大小、计算变异系数、确定医学参考值范围、计算标准误等,标准误用于估计总体均数可信区间和假设检验。 联系:二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。 2.简述假设检验的基本步骤。 1.建立假设,确定检验水准。 2.选择适当的假设检验方法,计算相应的检验统计量。 3.确定P值,下结论 3.正态分布的特点和应用:? 特点:?1、集中性:正态曲线的高峰位于正中央,即均数所在的位置;? 2、对称性:正态分布曲线位于直角坐标系上方,以x=u为中心,左右对称,曲线两端永远不与横轴相交; 3、均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降;?

4、正态分布有两个参数,即均数μ和标准差σ,可记作N(μ,σ):均数μ决定正态曲线的中心位置;标准差σ决定正态曲线的陡峭或扁平程度。σ越小,曲线越陡峭;σ越大,曲线越扁平; ?5、u变换:为了便于描述和应用,常将正态变量作数据转换;?? 应用:?1.估计医学参考值范围?2.质量控制?3.正态分布是许多统计方法的理论基础 4.简述参考值范围与均数的可信区间的区别和联系 可信区间与参考值范围的意义、计算公式和用途均不同。 ?1.从意义来看?95%参考值范围是指同质总体内包括95%个体值的估计范围,而总体均数95%可信区间是指?95%可信度估计的总体均数的所在范围? 2.从计算公式看?若指标服从正态分布,95%参考值范围的公式是:±1.96s。?总体均数95%可信区间的公式是:??前者用标准差,后者用标准误。前者用1.96,后者用α为0.05,自由度为v的t界值。 5.频数表的用途和基本步骤。 用途:(1)揭示资料的分布特征和分布类型;(2)便于进一步计算指标和分析处理;(3)便于发现某些特大或特小可疑值。 基本步骤:(1)求出极差;(2)确定组段,一般设8~15个组段;(3)确定组距;组距=R/组段数,但一般取一方便计算的数字;(4)列出各个组段并确定每一组段频数。 6.非参数统计检验的适用条件。 (1)资料不符合参数统计法的应用条件(总体为正态分布、且方差相等)或总体分布类型未知;(2)等级资料;(3)分布呈明显偏态又无适当的变量转换方法使之满足参数统计条件;(4)在资料满足参数检验的要求时,应首选参数法,以免降低检验效能 7.线性回归的主要用途。

预防医学与医学统计学总结

绪论 进和维护健康,预防疾病、失能和早逝 二.预防医学特点:1.工作对象包括个体及确定的群体,主要着眼于健康和无症状患者;2研究方法注重微观和宏观相结合,但更侧重于影响健康的因素与人群的关系;3.采取的对策更具积极的预防作用,具有较临床医学更大的人群健康效应。 三.健康决定因素:指决定个体和人群健康状态的因素。包括:1、社会经济环境。2、物质环境3.个人因素。4卫生服务。 四.三级预防策略:1.第一级预防:又称病因预防,即防止疾病的发生。2.第二级预防:在疾病的临床前期做好早起发现、早期诊断、早起治疗的“三早”预防工作,以控制疾病的发展和恶化。3.第三级预防:对已患某些病者,采取及时的、有效的治疗措施,防止病情恶化,预防并发症和伤残,延长生命。 第一章流行病学概论 进健康的策略和措施的科学。 流行病学定义涵:1.流行病学的研究对象时人群。2.流行病学关注的事件包括疾病与健康状况。3.流行病学主要研究容是:(1)揭示现象(2)找出原因(3)评价效果。4.流行病学研究和实践的目的是防治疾病、促进健康。 二.流行病学基本原理:1.分布论。2.病因论。3.健康-疾病连续带。4预防控制理论(三级预防理论)5.数理模型。6.流行病学的几个基本原则:(1)群体原则(2)现场原则(3)对比原则(核心)(4)代表性原则 三.流行病学的用途:1.描述疾病及健康状况的分布。2.探讨疾病的病因。3.研究疾病自然史,提高临床诊断、治疗水平和预后评估。4.疾病的预防控制及其效果评价。5.流行病学分支。 第二章疾病分布 的存在方式及其发生、发展规律。 二.疾病分布的测量指标:1.发病率:指在一定期间(一般为1年)特定群中某病新病例出现的频率。 病频率的测量(日、周、旬、月),常用于疾病暴发或流行时的调查。 例。患病率=发病率*病程。 病的人数占所有易感接触者总数的百分率。 5.死亡率:指在一定时间期间(通常为1年),某人群中死于某病(或死于所有原因)的频率。死亡率是测量入群死亡危险最常用的指标。 6.病死率:表示一定时期,患某病的全部病人中因该病死亡者所占的比例。 三.疾病的分布形式(“三间分布”) 1.地区分布:疾病的地方性:由于自然环境和社会因素的影响而使一些疾病无需从外地输入,只存在于某一地区,或在某一地区的发病率水平总是较高,这种现象称为疾病的地方性。 2.时间分布 3.人群分布:出生队列分析:将同一时期出生的人划归为一组称为一个出生队列,对其随访观察若干年,观察死亡等情况。 4.判断疾病地方性的依据:(1)该病在当地居住的各群组

医学统计学试题 (2)

医学统计学试题 一.选择题(每题2分,共20分) 1、有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t 检验时,自由度是() A、n1+n2 B、n1+n2-1 C、n1+n2+1 D、n1+n2-2 2、标准误反映() A、抽样误差的大小 B、总体参数的波动大小 C、重复实验准确度的高低 D、数据的离散程度 3、最小二乘法是指各实测点到回归直线的() A、垂直距离的平方和最小 B、垂直距离最小 C、纵向距离的平方和最小 D、纵向距离最小 4、用样本推论总体,具有代表性的样本指的是() A、总体中最容易获得的部分个体 B、在总体中随意抽取任意个体 C、依照随机原则抽取总体中的部分个体 D、用配对方法抽取的部分个体 5、随机误差指的是() A、测量不准引起的误差 B、由操作失误引起的误差 C、选择样本不当引起的误差 D、由偶然因素引起的误差 6、某项指标95%医学参考值范围表示的是() A、检测指标在此范围,判断“异常”正确的概率大于或等于95% B、检测指标在此范围,判断“正常”正确的概率大于或等于95% C、在“异常”总体中有95%的人在此范围之外 D、在“正常”总体中有95%的人在此范围 7、从甲、乙两文中,查到同类研究的两个率比较的χ2检验,甲文χ2χ20.01,1,乙文χ2χ20.05,1,可认为() A、两文结果完全相同

B、甲文结果更为可信 C、乙文结果更为可信 D、甲文说明总体的差异较大 8、两样本均数比较的t检验和u检验的主要差别是() A、t检验只能用于小样本资料 B、u检验要求大样本资料 C、t检验要求数据方差相同 D、u检验能用于两大样本均数比较 9、对医学计量资料成组比较,相对参数检验来说,非参数秩和检验的优点是() A、适用范围广 B、检验效能高 C、检验结果更准确 D、不易出现假阴性错误 10、两数值变量相关关系越强,表示() A、相关关系越大 B、相关系数越大 C、回归系数越大 D、相关系数检验统计量t值越大 [参考答案] 1-5:DACCD 6-10:DBBAB 二.名词解释(每题4分,共20分) 1、偏回归系数 2、Ⅱ型错误: 3、非参数检验: 4、残差平方和/剩余平方和: 5、率的标准误: [参考答案] 1.表示其他自变量保持不变时,X j增加或减少一个单位引起的Y的变化量。 2.指接受了实际上不成立的H0,即“存伪”的错误。Ⅱ型错误的概率用β表示。 3.不依赖于总体分布类型、不针对总体参数的检验方法,如假设两总体分布相 同检验统计量基于变量的秩等,这类检验方法称为非参数检验。 4.指除x对y的线性影响外,其它所有因素对y变异的影响,即在总平方和中 无法用x与y的线性关系所能解释的部分变异,用以表示考虑回归关系后,y 的随机误差。 5.指用以衡量由于抽样引起的样本率与总体率之间的误差的统计量。

医学统计学总结

医学统计学总结 一。绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学. 2,医学统计学的主要内容: 1) 统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法.A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验. 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析. 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B, 统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项 特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。 变量类型变量值表现实例资料类型 数值变量离散型 定量测量值,有计量单位产前检查次数 计量资料 连续型身高 分类变量无 序 二分类对立的两类属性性别(男女) 计数资料多分类不相容的多类属性血型(A,B,O,AB) 有 序 多分类类间有程度差异的属性受教育程度(小学,中 学,高中,大学…)等级资料5,总体(population) 根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代表性.代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。 统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。

医学统计学试题及答案

第一套试卷及参考答案 一、选择题(40分) 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制(B ) A 条图 B 百分条图或圆图 C 线图 D 直方图 2、均数和标准差可全面描述D 资料的特征 A 所有分布形式B负偏态分布C正偏态分布D正态分布和近似正态分布 3、要评价某市一名5 岁男孩的身高是否偏高或偏矮,其统计方法是(A ) A 用该市五岁男孩的身高的95% 或99% 正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99% 的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用(A ) A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是(A ) A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同 6.男性吸烟率是女性的10倍,该指标为(A ) (A)相对比(B)构成比(C)定基比(D)率 7、统计推断的内容为(D ) A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A 和B 均不是 D. A 和B 均是 8、两样本均数比较用t 检验,其目的是检验(C ) A 两样本均数是否不同 B 两总体均数是否不同 C 两个总体均数是否相同 D 两个样本均数是否相同 9、有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t检验时,自由度是(D ) (A)n1+ n2 (B)n1+ n2 –1 (C)n1+ n2 +1 (D)n1+ n2 -2 10、标准误反映(A ) A 抽样误差的大小 B 总体参数的波动大小 C 重复实验准确度的高低 D 数据的离散程度 11、最小二乘法是指各实测点到回归直线的(C) A垂直距离的平方和最小B垂直距离最小C纵向距离的平方和最小D纵向距离最小 12、对含有两个随机变量的同一批资料,既作直线回归分析,又作直线相关分析。令对相关系数检验的t值为t r,对回归系数检验的t 值为t b,二者之间具有什么关系?(C) A t r>t b B t rχ20.05,ν可认为(A ) A 各总体率不同或不全相同 B 各总体率均不相同 C 各样本率均不相同 D 各样本率不同或不全相同 15、某学院抽样调查两个年级学生的乙型肝炎表面抗原,其中甲年级调查35人,阳性人数4人;乙年级调查40人,阳性人数8 人。该资料宜选用的统计方法为(A ) A.四格表检验B. 四格表校正检验C t 检验D U 检验 16、为调查我国城市女婴出生体重:北方n1=5385,均数为3.08kg,标准差为0.53kg;南方n2=4896,均数为3.10kg,标准差为0.34kg,经统计学检验,p=0.0034<0.01,这意味着(D ) A 南方和北方女婴出生体重的差别无统计学意义 B 南方和北方女婴出生体重差别很大

医学统计学总结

医学统计学总结 一.绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某 项特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总 体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代 表性。代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。 统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。

医学统计学简答题总结 必考大题总结 考前必看

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 医学统计学简答题总结必考大题总结考前必看 描述计量资料的集中趋势和离散趋势的指标有哪些?各指标的适用范围如何?答:描述计量资料集中趋势的统计指标常见的有算数均数、几何均数、中位数。 算数均数适用于描述对称分布资料的集中位置,尤其是正态分布的资料;几何均数一般用来描述等比资料和对数正态分布资料的集中位置;中位数可以使用于任何分布的资料,尤其是偏态分布。 分布不明或分布末端无确定值的资料。 描述离散趋势的指标常见的有极差、四分位数间距、方差、标准差和变异系数。 极差与四分位数间距可以用于任何分布,后者比前者稳定,但是这两个指标都不能综合反映各观察值得变异程度;方差和标准差最常用,但要求资料近似正态分布;变异系数可以用于多组资料间量纲不同或均数相差较大的时候变异程度的比较。 频数分布表(图)的用途有哪些?1 描述资料的分布类型,是对称分布还是偏态分布;2 描述变量的分布特征:集中趋势和离散趋势;3 便于发现某些离群值或异常值;4 便于进一步的统计分析和处理;5 当样本含量够大的时候,我们还可以以频率作为概率的估计值。 变异系数和标准差有何异同?答:不同点:变异系数主要用于量纲不同的变量间,或均数相差较大的变量间的变异程度的比较。 1/ 16

所以变异系数是没有量纲的,而标准差是方差的平方根,标准差的量纲与原指标的一致,它适用于近似正态分布的资料。 相同点和联系:变异系数和标准差都是用于对称分布资料,尤其是正态分布的资料,且还可以知道变异系数是由标准差计算得到的。 应用相对数的注意事项:1、防止概念混淆 2.频率型指标的解释要紧扣总体与属性 3、计算相对数时分母应有足够数量 4.正确计算合计频率 5、注意资料的可比性 6.正确进行相对数的统计推断。 为什么不能以构成比代率?请联系实际加以说明。 率和构成比所说明的问题不同,因而绝不能以构成比代率。 构成比只能说明各组成部分的比重或分布,而不能说明某现象发生的频率或强度。 .二项分布:如果每个对象阳性结果的发生概率为π,阴性结果的概率为 1-π,而且各个观察对象的结果是相互独立的,那么,重复观察 N 个人,发生阳性次数的概率分布为二项分布。 适用条件:1 试验只会出现两种对立的结果 2 每次试验阳性和阴性结果概率固定不变 3 每次试验相互独立。 性质和特征:1 形态取决于π和 n,当π接近于 0.5 时,分布对称,离 0.5 越远,分布对称性越差,当 n 增大时,分布趋于对称 2,高峰在μ=nπ处 3、二项分布的总体均数μ=nπ,方差=nπ(1-π),nπ和 n(1-π)都大于 5 时,近似服从正态分布Poission 分布:可以看作是每个观察对象阳性结果的发生发生概率π很小,而观察例数 n 很大时的二项分布。

医学统计学重点总结

<<医学统计学>>重点总结 1. 总体:根据研究的目的确定的同质研究对象中所有的观察单位变量值的集合。 2. 样本:按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。 3. 同质:影响研究指标的主要因素易控制的因素基本上相同。 4. 抽样误差:在抽样研究中,由于变异的存在,即使在同一总体中抽取的几个样本,各样本统计量往往不等。样本统计量与总体参数也不等,这种由于抽样研究所至样本之间和样本与总体之间的差异称为。。。 5. 变量:观察指标在统计学上统称为指标变量,它反应的是生物个体间的变异情况,根据其性质可分为定性变量(分类)和定量变量(连续)。 6. 截尾数据:生存时间观察过程被人为的截止称为截尾,又称删失或终检。原因:失访/退出/ 终止(研究时限已到而终止观察)。 7. 卡方基本思想:X2分布是一种连续型分布,可用于检验资料的实际频数和按检验假设计算的理论频数是否相等等问题。X2反应实现了实际频数与理论频数的吻合程度。如果检验假设成立,则A-T 一般不大,X2应很小,即出现大X2值概率很小。即X2越大,P越小,若P≤a时,就怀疑假设的成立,拒绝H0。若P>a则没有理由拒绝H0。 8. X2用途: (1)实际频数与拟合频数拟合优度:A推断两个或两个以上总体率或构成比有无差别(四格表/行x 列表)。B两变量之间有无相互关系。C频数分布的拟合优度检验(判断次样本是否来自某种分布)。(2)某些分布可用X2近似。 (3)间接应用:如t分布和F分布就是在X2分布基础上推导出来的。 9. 方差分析的基本思想:根据研究目的和设计类型,把总体变异中离均差平方和分解成两部分或更多部分,也把总变异中的自由度相应分成两部分或更多部分,然后再进行比较,评价由某种因素引起的变异是否具有统计学意义。 10. 假设检验中P,a,b(倍他)的关系及统计学意义: a:检验水准,即显著性检验,在此概率之下的认为是小概率事件,统计学上以为此事件“不可能发生”,以此判断是否不拒绝H0无效假设,在假设检验中,按a检验水准,拒绝了原来正确的H0,即犯了第1类错误,犯此错误的概率为a。 b:在T假设检验中,按照a检验标准,没有拒绝原来错误的无效假设,即犯了第2类错误,犯次错误的概率是b。 P:是在H0成立时大于等于用样本计算的统计值出现的概率用P值与检验水准a比较,根据比较的结果作出统计判断。如果P≤a时,就怀疑假设的成立,拒绝H0。若P>a则接受H0拒绝H1。P值越小只能说明作出拒绝H0,接受H1的推论时犯错误的机会越小。 11.行x列表X2检验应注意: (1)行x列表中不宜有1/5以上格子的理论频数小于5或有一个格子的理论频数小于1,若发生上述情况可采用:A将理论频数过小的格子所在的行或列与性质相近的邻近行或列中的实际频数合并,使重新计算的理论频数增大。B删去理论频数过小的行或列。C增大样本含量以增大理论频数。 (2)当效应按强弱分为若干级别,则按实验结果可整理为单向有序行x列表,在比较各处理组的效应有无差别时,宜用秩和检验,ridit分析等。如作X2检验只说明各组构成比的差异有无统计学意义。

相关主题
文本预览
相关文档 最新文档