当前位置:文档之家› 研究生医学统计学考点总结(精心整理)

研究生医学统计学考点总结(精心整理)

研究生医学统计学考点总结(精心整理)
研究生医学统计学考点总结(精心整理)

医学统计学

基本概念:

1.医学统计学Statistics:医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学。

2.同质和异质:具有相同性质的事物称为同质(homogeneous)。否则称为异质的或者间杂的(heterogeneous)。不同质的个体不能笼统地混在一起分析,同质和异质是相对的概念。

3.变异:同质事物之间的差别称为变异(variation),亦称个体变异。变异的两个方面:

个体与个体间的差别

同一个体重复测量值间的差别

结果是随机的,不可预测的;

一种或多种不可控因素(已知的或未知的)作用下的综合表现;

个体变异是普遍存在的;

个体变异是有规律的;

没有个体变异,就没有统计学。

4.总体和样本:

总体(population):根据研究目的所确定的同质观察单位的全体;分为有限总体和无限总体。

个体(individual):是构成总体的最基本观察单位。

样本(sample):是从总体中按照一定的目的随机抽取的一部分具有代表性的个体集合。

样本含量(sample size):样本中包含的个体个数。

5.参数和统计量:

总体参数(parameter):描述某总体特征的指标,简称参数,一般用希腊字母表示,如:μ、σ、π。

统计量(statistic):描述某样本特征的指标,一般用拉丁字母表示,如:、

X

s、p 。

在总体被确定之后,总体参数就是一个常数,是不会变化的,不管你是否确切知其大小;而统计量是几乎总是随着样本而变的。

6.随机(random):是指机会均等,目的是保证样本对总体的代表性、可靠性。

7.概率和频率:

频率( relative frequency ):在n次随机试验中,事件A发生了m次,则比值m/n称为事件A在这n次试验中出现的频率。

概率(probability):是随机事件发生可能性大小的一个度量,是一种参数,常用P表示,0≤P ≤1。

8.小概率事件和小概率原理:

小概率事件:医学研究中,将概率小于等于0.05或0.01的事件称为小概率事件。

小概率原理:小概率事件并不表示不可能发生,但在某一次试验中,是不会发生的。

9.变量的分类:

按照取值的特性:

?数值变量 numerical Variable 定量变量:既有顺序的意义,又

有间隔的意义,可以认为是连续的;往往有单位;取值间的差异是

可以度量的。

?分类变量 categorical Variable 定性变量:取值是是分散、定

性的,表现为互不相容的类别和属性。

?无序分类 unordered categorics: 无顺序,无间隔,仅有

分类

–二项分类

–多项分类

?有序分类 ordered

categorics 等级变量:仅

有顺序,无单位;取值间

的差异是不可度量的

不同分类的互相转化

?数值变量→无序分类变量

?数值变量→有序分类变量

?有序分类变量→无序分类变量

信息量只有减少,不可增加

统计描述指标,呈现方式可分为两种

统计图:直观,但精确度稍差

统计报表:能尽量详细,精确,但不够直观

统计推断:从样本信息外推到总体,以最终获得对所感兴趣问题的解答参数估计:样本→所在总体特征

假设检验:该指标可能的影响因素分析

频数分布

1.频数表编制步骤

求极差:R=X max-X min

选定适当的组段数后估计组距:组段数的选取以能反映资料的分布特征为宜,一般取8 ~ 12组

列出组段:组段的含义:包括组段的下限而不含组段的上限。如:3.2~ 等价于 [3.2,3.5)。

划记归组获得频数

求频率,完成频数表:相应的频数除以总数即为频率,各组段的频率总和为1或者100%。

2.频数分布所提供的信息

频数分布图用以表示数据的分布规律。

观察有无可疑值。

考察分布的类型。

?对称分布

? 非对称分布(偏态分布)

? 左偏态(负偏态) :指分布的长尾在峰的左侧。 ? 右偏态(正偏态) :指分布的长尾在峰的右侧。

考察分布的特征

? 集中位置 (Central Tendency):描述指标有平均数(算术均数(Mean)、几何均数(Geometric Mean) 、中位数(Median)、百分位数(Percentile) )。 ? 离散趋势 (Tendency of Dispersion):描述指标有极差(Range)、四分位数间距(interquartile range) 、方差(Variance) 、标准差(Standard Deviation) 、变异系数( coefficient of variation ) 。

3.平均数应用的注意事项:

同质的资料计算平均数才有意义。 均数适用于:单峰对称分布的资料。

几何均数适用于:对数变换后单峰对称的资料。等比资料、滴度资料、对数正态分布资料。计算几何均数时:

? 变量值中不能有0

? 同一组变量值不能同时存在正、负值,若变量值全为负值,可先将负号除去,算出结果后再冠以负号

中位数:理论上可用于任何分布资料,常用于描述偏态资料,开口资料,有不确定值的资料的集中位置。但当资料适合计算均数或几何均数时,不宜用中位数。

中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定; 中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精确。

不同质的资料应考虑分别计算平均数。

百分位数:样本含量较少时不宜计算靠近两端的百分位数。 平均数要与变异指标结合使用。

4.变异度指标:

四分位数间距(inter-quartile range):Q U - Q L = P 75 - P 25

察值的极差。 方差及标准差:

变异系数(coefficient of variation, CV):

为标准差和均数的比值,排除了平均水平的影响,并取消了单位。因此变异系

数常用于: ? 比较度量衡单位不同的两组或多组资料的变异度

? 比较均数相差悬殊的两组或多组资料的变异度

5.变异度的正确应用: 极差不稳定,不灵敏

标准差的基本内容是离均差,它显示一组变量值与其均数的间距,故标准

()22X N μσ-=∑()221X X s n -=-∑()N X ∑-=2

μσs 100%s CV X =?

差直接地、总结地、平均地描述了变量值的离散程度。

在同质的前提下,标准差大表示变量值的离散程度大,即变量值的分布分散、不整齐、波动较大;反之,标准差小表示变量值的离散程度小,即变量值的分布集中、整齐、波动较小。

变异系数派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。

6.总结:

每个观察指标均有其特定的变异规律;

描述变异:

?图形描述

?统计量描述

?平均数:均数、几何均数、中位数和百分位数

?变异度:极差、方差、标准差、四分位数间距、变异系数

?不同分布的指标,用不同的统计量描述;

用平均数与变异度共同描述。

正态分布

1.公式:如果随机变量X的概率密度函数为

∞<X <+∞)

则称X服从正态分布,记作X~N(μ,σ2),其中,μ为分布的均数,σ为分布的标准差。μ为总体均数,σ为总体标准差。

π为圆周率,e为自然对数的底,X为变量,代表横轴的数值,f(X)为纵轴数值。

2.正态分布的特征(重要):

?单峰分布;高峰在均数处;

?以均数为中心,均数两侧完全对称。

?正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)。

?有些指标本身不服从正态分布,但经过变换之后可以服从正态分布。

?正态曲线下的面积分布有一定的规律。

X轴与正态曲线所夹面积恒等于1 ,对称区域面积相等。

μ-1.64σ~μ+1.64σ内面积为90%;

μ-1.96σ~μ+1.96σ内面积为95%;

μ-2.58σ~μ+2.58σ内面积为99%。

X

f X

2

2

()

2

()

μ

σ

-

-

=

正态分布曲线下的面积与标准正态分布曲线下的面积对应(以标准正态离差为单位)。

3.标准正态分布:

标准正态分布(standard normal distribution)是均数为0,标准差为1的正态分布。记为N(0,1)。标准正态分布是一条曲线。

概率密度函数为:

(-∞< u <+∞)

正态分布转换为标准正态分布:若 X ~N (μ,σ2)

,作变换: 则u

服从标准正态分布,u 称为标准正态离差(standard normal deviation) 4.正态分布的应用:估计频数分布、质量控制、确定临床参考值范围

参考值范围

1.参考值范围(reference interval):是绝大多数正常人的某观察指标所在的范

围,绝大多数:90%,95%,99%等等。确定参考值范围的意义:用于判断正常与异常。

“正常人”的定义:排除了影响所研究的指标的疾病和有关因素的同质的人群。 2.参考值范围确定的原则:

? 选定足够例数的同质的正常人作为研究对象:例数过少,代表性差;例数过多增加成本,且易导致正常标准把握不严,影响数据的可靠性 ? 控制检测误差

? 判断是否分组(性别,年龄组)

? 单、双侧问题 (one sided or two sided) ? 选择百分界值(90%,95%) ? 确定可疑范围

3.参考值范围的估计方法:正态分布法、百分位数法

抽样误差

1.概念:由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之间的差异,称为抽样误差(sampling error )。 抽样误差的表现:样本均数和总体均数间的差别、样本均数和样本均数间的差别。

2.中心极限定理 (central limit theorem): 从均数为,标准差为σ的正态总体中随机抽样,样本均数服从均数为μ,标准差为的正态分布。 从均数为μ,标准差为σ样本均数近似服从均数为μ,标准差为的正态分布。

2

2()u u ?-=σ

μ-=

X u X σ

3. 标准误(standard error):用样本统计量的标准差来反映抽样误差的大小,又称标准误。

其中,σ为总体标准差,n 为抽样的样本例数

在研究工作时,由于总体标准差常常未知,可以利用样本标准差近似估计 4.

标准误的意义:

反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误差的大小。

标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估计总体参数越不可靠。 标准误的大小与标准差有关,在例数n

一定时,从标准差大的总体中抽样,标准误较大;而当总体一定时,样本例数越多,标准误越小。说明我们可以通过增加样本含量来减少抽样误差的大小。

t 分布

1.根据中心极限定理的内容,当样本含量足够大时,对从均数为μ,标准差为σ

2.由于总体标准差往往是未知的,此时往往用样本标准差代替总体标准差:

这里,ν为自由度,取值为n -1

3. t 分布的性质:

t 分布为一簇单峰分布曲线,高峰在0的位置上,说明从正态总体中随机抽样所得样本计算出的t 值接近0的可能性较大。 t 分布以0为中心,左右对称。

分布的高峰位置比 u 分布低,尾部高。

t 分布与自由度ν有关,自由度越小,t 分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t 分布逐渐逼近标准正态分布;当自由度为无穷大时,t 分布就是标准正态分布。

每一自由度下的t 分布曲线都有其自身分布规律。t 界值表 。

可信区间

1. 统计推断(statistical inference):是指如何抽样,以及如何用样本性质推断总体特征,分为参数估计(parameter estimation)、假设检验(hypothesis testing)。

2.参数估计:

点估计(Point Estimation):用样本统计量作为总体参数的估计。 区间估计 (Interval Estimation): 3.可信区间定义:按一定的概率或可信度(1-α)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间(confidence interval ,CI),预先给定的概率(1-α)称为可信度或者置信度(confidence level),常取

X

s =~(0,1)X N ~X t t ν=

95%或99%。 可信区间(C L , C U )是一开区间 C L 、C U 称为可信限。 4.可信区间的计算:

样本含量较小时 (n ≤100):下限: 上限:

样本含量较大时 (n >100):下限: 上限: 5.均数之差可信区间的计算:

均数之差”与“均数之差的标准误”之比,服从自由度ν = n 1+n 2 -2的 t 分布。

样本含量较大时,服从标准正态分布。 合并方差: 均数之差的标准误:

6.可信区间的两个要素:

可信度(Confidence):准确性,可靠性,即1-α。一般取90%,95%,可人为控制。

精确性(Precision):区间的大小,越小越好。 必须二者兼顾 7.可信区间的宽度:

可信度越大,可信区间越宽,说明用该区间来估计总体参数(总体均数)越可靠。

标准差越小,可信区间就越窄,意味着如果总体内变异程度较小时,在相同的可信度下,只需要一个比较窄的可信区间就可以估计总体均数。 随着样本含量的增加,可信区间逐渐变窄。 8.正确理解可信区间:

可信度为95%的CI 的涵义:每100个样本,按同样方法计算95%的CI ,平均有95%的CI 包含了总体参数。

这里的95%,指的是方法本身!而不是某个区间!

总体参数虽未知,但却是固定的值,而不是随机变量值 。

假设检验

1.假设检验的目的:基本目的就是分辨两个样本是否属一个总体或两个不同的总体,并对总体作出适当的结论。

2.假设检验的一般步骤:

步骤1:建立假设,在假设的前提下有规律可寻

? 零假设(null hypothesis),记为H 0 ,表示目前的差异是由于抽样误差引起的。 ? 备择假设(alternative hypothesis),记为H 1 ,表示目前的差异是主要由于本质上的差别引起。

步骤2:确立检验水准α(significance level) ,用于确定何时拒绝H 0 ,一般取0.05。

步骤3:计算检验统计量和 P 值

计算检验统计量,即计算样本与所假设总体的偏离;样本均数与总体

,X X t s αν-,X X t s αν+X X u s α-X X u s α+1

2

1

2

12

2

~ n n X X X X t t s +---=12

12

~ (0,1)

X X

X X t N s --=22

2112212(1)(1)2C n s n s s n n -+-=+

-12

X X s -=n

s

X t 0μ-=

均数μ0 间的差别可以用统计量 t 来表示

统计量 t 表示,在标准误的尺度下,样本均数与总体均数 μ0 的偏离。这种偏离称为标准 t 离差(standard t deviation)。 根据抽样误差理论,在H 0的假设前提下,统计量 t 服从自由度为 n -1的 t 分布,即 t 值在0的附近的可能性大,远离0的可能性小,离0越远可能性越小。 步骤5:界定P 值并作结论

3.假设检验应用的注意事项: A.I 型错误和II 型错误:

第一类错误(Type I Error ):拒绝了实际上是成立的H 0; 第二类错误(Type II Error ):不拒绝实际上是不成立的H 0。 B.检验水准的选择:

检验水准有单双侧之分。选择要有专业背景。 检验水准大小的选择要慎重。

选择要在计算检验统计量之前。 C.双侧检验与单侧检验: 在相同的检验水准下,正确地选择单侧检验将比双侧检验得到更多的检验效能。

D.P 和α的涵义:

P 值意义:从 H 0 总体中随机获得等于或大于现有统计量值的概率。拒绝H 0时所冒的风险。

α的意义:犯第一类错误的概率;在假设检验之前人为规定;说明拒绝H0所冒的风险不可超过α。 E.正确对待统计结论和专业结论

专业上有差别,假设检验拒绝H 0:结果有效,可以下专业结论; 专业上无差别,假设检验不拒绝H 0:下无差别的结论;

专业上有差别,假设检验不拒绝H 0:增大样本含量,减少二类误差; 专业上无差别,假设检验拒绝H 0:改进试验,减少误差。 F.Significant 的意义

4.假设检验和可信区间的区别:

在相同的α之下,若假设检验拒绝H0(p<= α),那么可信度为(1- α)的可信区间必然不包括总体参数;反之成立。

可信区间和假设检验是对同一问题所作的不同结论,效果等价。

t 检验

1.成组设计计量资料比较的t 检验:

合并方差(方差的加权平均): 均数之差的标准误:

自由度ν = n 1+n 2 -2

1

2

12X X X X t s --=22

2112212(1)(1)2

C n s n s s n n -+-=

+-12

X X s -=

2.两组资料比较的 u 检验:

当随机抽样的样本例数足够大时,t 检验统计量的自由度逐渐增大,t 分布逐渐逼近于标准正态分布,可以利用近似正态分布的原理进行u 检验。

3.配对计量资料的 t 检验:

配对 t 检验的实质就是检验样本差值的总体均数是否为0。

4.均数的假设检验应用条件: 独立性、正态性、方差齐性

与应用条件有关的一些内容:正态性检验、方差齐性检验、方差不齐时的近似 t 检验、大样本时,均数比较的 u 检验 5.两个方差的齐性检验:

Levene 法:从同一总体随机抽取的样本之两方差,其方差比(大方差/小方差)

的分布服从 F 分布:

6.方差不齐时两样本均数比较的近似 t 检验:

7.大样本时均数比较的 u 检验:

单样本u 检验

两样本u 检验

方差分析(ANOVA)Analysis of Variance

t 检验的局限性—单因素两水平 1.因素和水平:

因素(factors):将试验对象随机分为若干个组,加以不同的干预,称为处理因素。方差分析中所要检验的对象。

在相同的因素下的不同干预,称为不同的水平(level)。方差分析中因素的不同表现。

2.假如每次t 检验犯第一类错误的概率是0.05,那么要完全地进行比较,犯第一类错误的概率是1-(1-α)k 。此为多组间不能进行t 检验的原因。

3.单因素方差分析:研究的是一个处理因素的不同水平间效应的差别。

4.完全随机设计资料的方差分析:

完全随机设计是医学科研中最为常用的一种实验设计方法,

它是将受试者随机

A B A B X X X X u s --==1

2

21(,,)

22()() ~ s F F s ανν=大

小X X t '=

0 ~ (0,1) X u N μ-

=~ (0,1)

X X u N =

地分配到各实验组(可包括对照组)中,进行实验并观察实验效应。该设计适用面广,可用于两组或多组实验研究,且各组的样本含量可不相等。

证明:

5.随机区组(配伍组)设计的方差分析(两因素多个样本均数的比较):

概念:随机区组设计又称配伍组设计,是配对设计的扩展,也可看作1:X 的配对设计。它是将几个条件相同的受试者划为一个区组(block)或配伍组,然后再按随机的原则,将同一区组的受试者随机分配到各实验组中。 实质:两因素方差分析。

变异分解,N 为总样本含量,k 为水平数,n 为区组数;

6.多个样本均数的两两比较:

又叫多重比较,Multiple Comparison;分类:

事先计划好的多个试验组与一个对照组之间的比较,多个组与一个特定组间的比较或者特定组间的比较;(Planned Multiple Comparison )

方差分析得到有差别的结论后多个组之间的相互比较的探索性研究(Post Hoc );

Student-Newman-Keuls 法(SNK 法)

()()()222

ij i i ij i i j i i j

X X n X X X X -=-+-∑∑∑∑∑()()

()()

()()

()

()

()

2

2

2

2

2

2

2??-=-+-??

=-+-+---=+-∑∑∑∑∑∑∑∑∑∑∑∑ij

ij

i i i

j

i

j ij i

i

i

j

i

i i i

ij i

i i i

j

i

i

ij j

X X

X

X

X X X X X X

X n X X X X X X n X ()()1SS k MS SS F MS SS SS n k νν-===-组间组间组间组间组内组内组内组内1

2

(,)~Between Within

MS F F MS νν=()()()21

2

1

21,,,k n

ij i j k n i i j k n

j i j SS X X N SS X X k SS X X n SS SS SS SS ννννννν===---=++=++∑∑∑∑∑∑总总=1处理处理=1配伍配伍=1处理总配伍误差处理总配伍误差==-1

==-1==-1MS SS F MS SS MS SS F MS SS νννν====处理处理处理

处理误差误差误差配伍配伍配伍

配伍误差误差误差

LSD 法

Dunnet 法:

7.两两比较的注意事项:

对于方差分析后的两两比较均应以方差分析拒绝相应的H 0为前提,且结论均不应与方差分析的结论相悖; 出现模糊结论,下结论应该谨慎; 方差分析拒绝H 0,但两两比较得不出有差异的结论,因为方差分析效率高。 两种错误的说法:

X 2所来自的总体位于X 1所来自的总体和X 3所来自的总体之间;

X 1和X 2来自同一总体,X 2和X 3来自同一总体。 只能说明无法判断样本2来自于何总体!

不能用t 检验代替方差分析,也不能用t 检验代替两两比较。

无论是SNK 法还是Dunnett 法,用于两组比较时,结果与t 检验等价。 8.方差分析的要求:

独立随机抽样(Independence);正态性(Normality);方差齐性(Homoscedascity) 9.方差齐性检验:

两个方差的齐性检验:Levene 法 多个方差的齐性检验:Bartlett 法 10.方差分析小结: A.均数、方差的比较

样本均数与总体均数的比较( t 检验) 配对设计样本均数的比较(配对t 检验) 两样本均数的比较

( t 检验, u 检验, F 检验, SNK , Dunnett ) ? 多样本均数的比较( F 检验,ANOVA )

?各组间的比较(SNK 法);

?各试验组与某一对照组间的比较用(Dunnett 法)

? 两个方差的比较( F 检验) B.两个方差的比较( Bartlett 检验)

分析单因素多水平间的比较或多个因素对结果的影响; 要求数据满足正态性、独立性、方差齐性 单因素方差分析 两因素方差分析 两两比较 变量变换

方差分析应用于两组资料的比较时,等价于t 检验。

2

22

121111122

,1,1,s F n n s s s νν==-=-

>

11.变量变换(Variable Transformation)

方差齐性是一个很strong 的假设,如果不齐,就一般不能直接进行方差分析; 变量变换:

目的:方差齐性化,正态化,线性化

常用方法:对数变换、平方根变换、倒数变换、平方根反正弦变换

分类资料的统计描述statistical description for categorical data

1.常用的相对数:

作用:第一,表示事物出现的频度。第二,便于比较。

率:说明某现象发生的频率与强度

构成比:说明某一事物内部各组成部分所占比例。

比:说明A 是B 的多少倍,或百分之几。 2.相对数应用的注意事项:

? 计算相对数时,分母不宜太小

? 对两个或多个相对数指标进行比较时,要考虑抽样误差,进行假设检验,并不能凭相对数的数值大小轻易做出结论。 ? 区分构成比和率

? 合计率的计算不是直接求率的平均

? 两合计率的比较需注意两者的内部构成是否相同 3.标准化率

标准化法就是用统一的标准对内部构成不同的各组频率进行调整和对比的方法。

? 不同的标准,所得标准化率不同;

? 标准化率是相对的,其作用仅在于比较,而不表示实际水平; ? 标准化率不代表总率,也不能完全代替分组比较。

二项分布及其应用Binomial distribution and its application :

1.概率分布:随机变量的概率分布:离散分布和连续分布,依赖于相应的随机变量是离散的还是连续的。

2.概念:令x 为n 次试验中的二项随机变量,成功的概率P (成功)=p ,则x 的取值为0,l ,2,…,n ,其联合概率分布为二项分布。

100%

?(单位时间内)实际发生某现象的观察单位数率=(单位时间内)可能发生某现象的观察单位数

100%?某一组成部分的观察单位数构成比=同一事物各组成部分的观察单位数

3.二项分布的概率

设事件A 出现的概率为π。则在n 次独立试验中,事件A 恰好出现 k 次的概率为:

4.二项分布的均数和方差

如果X ~B (n , π),则

若均数与标准差不用绝对数而用率表示时,

二项分布的累计概率:

5.二项分布的图形:

? 当π=0.5,分布对称;当π ≠0.5,分布呈偏态; ? 当π<0.5时分布呈正偏态;当π>0.5时分布呈负偏态;特别是当n 值不是很大时,π偏离0.5愈远,分布愈偏。

? 随着n 的增大,二项分布逐渐逼近正态分布。

? 一般地说,如果n π或n (1-π)大于5时,常可用正态近似原理处理二项分布问题。

6.二项分布的应用条件:

? ① 各观察单位只能有互相对立的一种结果,如阳性或阴性,生存或死亡等。

? ② 已知发生某一结果(如阴性)的概率π不变,其对立结果(如阳性)的概率则为1-π。

? ③ n 次试验在相同条件下进行,且各观察单位的结果互相独立。 7.二项分布的应用

[]011110(1)(1)(1)(1) (1)(1)n n n k k n k

n n n n C n ππππππππππππ---+-=-+-++-++-+

-2(1)

X X X n n μπ

σππσ==-=

2(1)/p p p n μπσππσ==-=∑

+++==≤k

k P P P X P k X P 0)(...)1()0()()()(11)1(X P X X n X P ππ-?+-=+

? 率的抽样分布及其性质 ? 总体率的可信区间估计

? 两总体率之差π1-π2的区间估计 ? 两样本率的比较

? 样本率与总体率的比较 7.1率的抽样分布及其性质(P37)

在n 足够大时,样本率 p 的分布近似正态分布。率的均数和方差X ~B (n , p ),p =X /n

样本率的均数: 样本率的标准差: (率的标准误) 7.2 总体率的可信区间估计 ①查表法 n ≤50

②正态近似法 np>5 n(1-p)>5 p ±u a s p

当样本例数n 足够大,且样本率p 和(1-p )都不太小时,即np 和n (1-p )均大于5时,样本率p 的抽样分布近似正态分布.

率的 95%的CI :

7.3 两总体率之差π1-π2的区间估计

? 设p 1=r 1/n 1,p 2=r 2/n 2是两个样本率,p 1-p 2是它们的差。

? 如果 n 1p 1,n 1(1-p 1),n 1p 1,n 2(1-p 2)均大于5,则正态近似的方法可用于求总体率之差的可信区间:

7.4 两样本率的比较( n 较大时

)(page73)

7.5 样本率与总体率的比较( n 较小时)

p p s μπ==( 1.96, 1.96)p p p s p s -+()

96.1)( ,96.1)(21212121p p p p s p p s p p --?+-?--222111)

1()1(21n p p n p p s p p -+

-=

-1212120.6790.830

1.8740.0806

0.0806p p p p p p u s s ----=

===

χ2检验

一、两个率的比较 1.卡方四格表

根据检验假设H 0计算出来的数称作理论频数(theoretical frequency)T 。 2.χ2检验的基本思想:如果H 0假设成立,则实际频数与理论频数应该比较接近。差值属于随机误差,用χ2 统计量表示:

H 0成立时,实际数与理论数的差别不会很大,出现较大χ2 值概率很小。若P ≤α,则拒绝H 0;若P >α,则尚无理由拒绝它。

3.χ2检验的步骤:

(1)假设两总体率相等

H 0:两组总体存活率相同,即π1=π2; H 1:两组总体存活率不同,即π1≠π2; α=0.05。

(2)实际数与理论数的差值服从χ2分布 (3) 查χ2分布界值表确定P 值并作出推论 4.卡方总结:

4.1比较两个样本率所代表的总体率是否有差别,实质是考察现有的样本频数分布是否与假设下的理论频数分布间差异到底是否包含了本质上的差异。χ2 统计量代表了实际数与理论数吻合的程度。

A T -22

2()~A T T

χχ-=∑

分布

4.2.χ2检验相关问题 -自由度

4.3.χ2检验相关问题-四格表专用公式:

4.4. χ2检验相关问题-χ2值的校正:

? χ2分布是连续性分布; ? 定性资料;

? 实际数过小,增加了第一类错误。

校正公式:

4.5. χ2检验相关问题-应用条件:

? n ≥ 40,T ≥ 5,用χ2检验; ? N>40,但1 ≤ T < 5 ,用校正χ2。 ? n < 40,或T < 1,用确切概率法。

二、配对四格表资料的χ2检验 1.计算公式:

2.当20<b +c ≤40时,需要校正:

3.配对四格表资料的χ2检验步骤

H 0:两种检验方法阳性率相同 ,总体B =C ;

()()1ν=行数-列数-

1∑

--=T

T A C

2

2)

5.0(χ)

)()()(()2/(22d b c a d c b a n n c b d a C ++++--=

χ22

22()(()()2222

)b c b c b c b c b c b c b c χ++-

-=

+-++=+2

222

C b c b c

(b 0.5)(c 0.5)222(b c 1)(b c 2)χ++----=+=

-+-

H 1:两种检验方法阳性率不同 ,总体B ≠C 。 α=0.05。

计算统计量并作出推论:

三、多个率比较的χ2检验

多组率或构成比比较时,由于行数或列数超出了2,我们把这样的资料称为行×列表资料。

行×列表的χ2检验统计量:

四、构成比的比较

五、总结:χ2检验的应用条件:

? 四格表的分析方法选择条件:

? n ≥ 40,T>5,用χ2

? n ≥ 40,但1 ≤ T < 5,用校正χ2。 ? n < 40,或T < 1,用Fisher 确切概率。

? 配对四格表的分析方法选择条件:

? b +c >40;

? 20

? b +c<20,二项分布直接计算概率。

? R ×C 表的分析方法选择条件:

? 理论数不能小于1;

? 理论数大于等于1小于5的格子数不超过总格子数的1/5。 ? 否则用Fisher 确切概率;

? 或似然比检验(likelihood ratio test)

? 如果以上条件不能满足,可采用: ? 增加样本含量 ? 删去某行或某列

? 合理地合并部分行或列 ? Fisher 精确概率法

? 多个率或构成比比较的χ2检验,结论为拒绝H 0时,仅表示几组有差别,并非任2组之间都有差别。若要了解之,可进行多重比较:χ2表的分割或率的可信区间法. ? 对于有序的分类变量,采用卡方检验方法不能考虑数据的有序性质。为此,对于单向有序可采用秩和检验、Ridit 分析,双向有序可采用趋势检验等。

()∑∑

???

? ??-=-=i C R i i i n n A n T T A 12

22

χ

等级资料的统计分析

1.等级资料的特点:

既非呈连续分布的定量资料,也非仅按性质归属于独立的若干类的定性资料; 比“定量”粗,而比一般的“定性”细; 等级间既非等距,亦不能度量。 2.概念:

秩次(rank):秩统计量,是指全部观察值按某种顺序排列的位序; 秩和(rank sum):同组秩次之和。

? 秩次:在一定程度上反映了等级的高低;

? 秩和:在一定程度上反映了等级的分布 位置。 ? 对等级的分析,转化为对秩次的分析。秩和检验就是通过秩次的排列求出秩和,进行假设检验。

3.成组设计两样本比较的秩和检验:

基本思想:如果H 0 成立,即两组分布位置相同,A 组的实际秩和应接近理论秩和n 1(N+1)/2;B 组的实际秩和应接近理论秩和n 2(N+1)/2),或相差不大。

如果相差较大,超出了预定的界值,则可认为H 0不成立。

步骤:

A.检验假设:H 0 :A 、B 两组分布相同;

H 1 :A 、B 两组分布不同(相互偏离)。 α =0.05。

B.编秩,同一等级求平均秩次。

C.求秩和并确定检验统计量T ,若两样本例数不等,以例数较少者为n 1,检验统计量为T 1。

D.确定P 值(查表法,正态近似法)和做出推断结论 正态近似法(n 1,n 2-n 1超出表的范围时)

n 1>10或n 2-n 1 >10时

相同秩次多时校正

4.配对设计样本比较的秩和检验: ? Wilcoxon 符号秩和检验

? 计算等级之差值,对差值进行编秩,按差值的绝对值从小到大编秩,

12

/)1(5.02/)1(211+-+-=N n n N n T u 2

1n n N +=c u u c /=331()()j j C t t N N =---∑

差值为0则舍去,绝对值相等则取平均秩次,最后求秩和并冠以差值的符号。

? 查 T 界值表,或用近似 u 检验,计算 P 值; ? 界定 P 值,作出结论。

4.1步骤:H 0:差值的总体中位数为0;

H 1:差值的总体中位数不为0。 α =0.05。

当n ≤50时,查界值表

当n >50时,用u 近似

4.2符号秩和检验的基本思想:

? 总秩和为T =N(N+1)/2

? 如H 0成立,则正负各半,T + 与 T - 均接近 N (N +1)/4。 ? 如果相差太大,超出了事先规定的界值,

则H 0不成立。 5.秩和检验的正确应用

? 主要对等级资料进行分析;

? 秩和检验可用于任意分布(distribution free)的资料; ? 秩和检验用于定量资料: 极度偏态资料,如L 型分布,或或个别数值偏离过大而不属于过失误差者 各组离散度相差悬殊,即使经过变换也难以达到方差齐性。 资料中某一端或两端含有不确定值

分布型尚未确知时可以先用秩和检验法进行分析 ? 兼有等级和定量性质的资料 成组设计两样本比较:

? 如资料满足 t 检验的条件,应该用 t 检验进行分析。此时,如果对这类资料用Wilcoxon 秩和检验,实际上是将观察单位的具体数值舍弃不用,只保留了秩次的信息,使检验功效降低;尤其样本含量较小时,降低更加明显。

? 如资料不满足 t 检验的条件,而用了t 检验,同样降低了检验效能。 6.参数检验和非参数检验

? 参数检验(Parametric Test ):针对的是总体参数,需要原始资料的总体分布信息

? t 检验,u 检验,F 检验

? 非参数检验(Non Parametric Test ,Distribution Free Test ) :无法获知原始总体的情况;或者,不需要对原始总体的情况进行假定;检验的对象并非总体参数。

? 卡方检验 ? 秩和检验

? 方差齐性的卡方检验属于? ? 大样本含量的秩和检验属于?

24/)12)(1(5

.04/)1(++-+-=

n n n n n T u

相关分析Correlation Analysis

1.相关概念:

当两个数值变量之间出现如下情况:当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,也就是有相关关系。

若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关(positive correlation);若一个变量增加时,另一个变量减少,变化趋势是反向的,则称为负相关(negative correlation)。 直线相关(linear correlation ),又称简单相关,用以描述两个呈正态分布的变量之间的线性共变关系,常简称为相关。

用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数(correlation coefficient ),又称为积差相关系数(coefficient of product-moment correlation ),Pearson 相关系数 。 总体相关系数用希腊字母ρ表示,而样本相关系数用r 表示,取值范围均为[-1,1]。

直线相关系数的计算:

2.相关系数的确定及假设检验步骤: (1)画散点图,判断是否有线性趋势 (2)计算样本相关系数r (3)对r 进行假设检验:

H 0:ρ=0,两变量间无直线相关的关系; H 1:ρ≠0。

(4)查表,求得P 值,作出推论

3.总体相关系数的区间估计 从相关系数ρ等于0的总体中抽样,样本相关系数的分布是对称的。但是从相关系数ρ不等于0的总体中抽样,样本相关系数的分布是偏态的。

Fisher(1921) 的z 变换,使其趋于正态分布:

z 近似服从均数为

标准差为

的正态分布。

将 r 变换为 z ;根据 z 服从正态分布,估计 z 的可信区间;再将 z 变换回 r 。

X X Y Y r --==02

r r t n s ν-==-11

11ln 2122+-=???

??-+=z z e e r r r z [])1/()1(ln 21r r -+3/1-n 31

-±=±n u z s u z z α

α

医学统计知识点整理(1)

医学统计学知识点整理 第一节统计学中基本概念 一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。 “同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的 二、总体与样本 1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集合。 三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验 四、误差:实测值与真值之差★ 1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。 3.非系统误差:过失误差,可以避免或清除。 五、概率 是用来描述事件发生可能性大小的一个量值,常用P表示。概率取值0~1。 统计上一般将P≤0.05或P≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。 第二节统计资料的类型★

变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。 一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g)等。 二、无序分类变量资料 又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。 分类:二分类:+ -;有效,无效;多分类:ABO血型系统 特点:没有度量衡单位,多为间断性资料 【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料 【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选C。 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 B.多分类变量 C.定量变量 D.定性变量 【答案】C 【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选C。 三、有序分类变量资料 半定量资料或等级资料:将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。 特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同举例:- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

医学统计学 研究生期末考试版.doc

一、名词解释(考10对) 1.总体;样本 总体:根据研究目的确定的、同质的全部观察单位某一指标(或某些因素及结果)的测量值总体。根据总体集合所包括元素是否有限,分为有限与无限总体。总体具有特定的分布特征及参数; 样本:以某方式按预先规定的概率从总体中随机抽取的、具有足够数量的、能够代表总体分布特征的一部分观察单位某指标数据的集合。 根据研究目的从总体中抽取部分有代表性的样本,用样本统计量推断总体参数。 2.标准差;标准误 标准差:是描述单个测量值对其均数的离散程度。标准差越大,数据的离散程度就越大,均数的代表性越差;标准差越小,均数的代表性越好。 标准误:样本统计量的标准差称为标准误,它反映样本统计量的抽样误差的大小,也反映样本统计量对总体参数的离散程度。标准误大,表示样本统计量对总体参数的代表性差;标 3、s x 96.1±;x v s t x ?±)(2/α s x 96.1±:表示从正态总体中抽样,样本含量较大时,观测值双侧95%的波动范围 x v s t x ?±)(2/α:从正态总体中抽样,样本含量较大(小)时,按照预先给定的概率a 确定的总体均值的(1—a )的可信区间。 4.计量资料(数值变量资料);计数资料(分类变量资料) 计量资料:通过度量的方法,测量每个观察单位的某项指标的量的大小而得到的一系列数据资料,其特点是多有度量单位或多为连续性资料。 计数资料:指将全体观察单位按某种属性分组,然后再分别清点各组观察单位的个数而得

到的数据资料,其特点是没有度量单位或多为非连续性资料 5.点估计;区间估计 点估计:直接利用样本统计量的一个数值来估计总体参数,比如基于一份随机样本,用x 估计u,用p估计π,用S估计σ。点估计方法简单,但未考虑抽样误差,故难以反映估计值对其真值的代表性。 区间估计:将样本统计量和标准误结合起来,按预先给定的概率(1—a)所确定的一个包含未知总体参数的范围,该范围为总体参数的置信区间(CI)。预先给定的概率(1—a)称为可信度或置信度,常取95%或99%。 6.回顾性研究;前瞻性研究 回顾性研究:即病例—对照研究,是由果到因,即先选定病例组和对照组,然后分别回顾两组过去的暴露情况,比较其差异,探索与发病相关的可能因素。回顾性研究的优点是对于患病率非常低的研究人群可获得较高的效果,研究周期较短和可以探索多个因素与患病的关联;其缺点是不能估计患病率和死亡率,容易产生回忆性偏倚和选择性偏倚。 前瞻性研究:即队列研究,是由因寻果,是将选定的人群按暴露状况分成暴露组和对照组,暴露组接触某个因素而对照组不接触某个因素,其他所有条件两组基本相同。经过一定时间随访,比较暴露组和对照组在随访期间的发病率,如果两组发病率不同,则归因于该暴露因素。前瞻性研究的优点是可以估计发病率,暴露测量可以做到无偏倚,结论比较可靠。其缺点是研究效率比较低,研究周期比较长导致在研究期间可能出现失访及各种混杂因素影响。 7、完全随机设计;随机区组设计 完全随机设计:又称为单因素设计或成组设计,是将同质的研究对象随机地分配到各处理组中进行实验观察,或从不同总体中随机抽样进行对比研究。 随机区组设计:又称配伍组设计,是在实验设计中用一个非研究因素的变量进行分层,每个层的观察对象数相等,并对每个层进行随机分组。 两种实验设计方案均为单因素实验设计。区别是:①两者观察对象随机分配方式不同;②统计分析方法不同;③误差内涵及大小不同;④检验效能不同。 8.独立性数据与重复性数据 独立性:对一群观察指标独立测定一次,形成一个群体数据,观察值间互相独立,不相互影响。 重复性:一个观察对象,同一或不同时间测定产生的数据。 9.α值;P值 α值:检验水准(显著性水准),即在假设检验中预先规定的判断小概率事件的概率尺度,通常为0.01或0.05,代表在原假设成立的前提下,拒接原假设所犯I类错误的概率。 P值:从已知总体中(或假设总体中)抽得统计量达到当前统计量这么大及比这绝对值还 H可能犯I 大的总概率,若以当前统计量为拒绝域临界点,在规定α前提下,实际欲拒绝

研究生医学统计学试题

试卷编号:卷课程名称:医学统计学适用专业:科学学位专业:班级 姓名:学号:学院 (系 ):考试日期:题号一二三四五六七八九十总分统分题分30152530100签名得分 考生注意事项: 1、本试卷共6 页,请查看试卷中是否有缺页或破损。如有立即举手报告以 便更换。 2、考试结束后,考生不得将试卷、答题纸和草稿纸带出考场。 一、最佳选择题(每题 2 分,共 30 分) 得评阅 把每题的答案填入下表中: 123456789101112131415 A B C D B B A C C C B B C D B 1、描述一组正态分布资料的集中趋势,以指标为好。 A. 算术平均数; B. 几何平均数; C. 中位数; D. 变异系数 2、比较成人身高和儿童身高的离散趋势,宜用。 A. 标准差; B. 变异系数; C. 方差; D. 离均差平方和 3、对于正态分布资料,X +1.96S,所对应的面积占总面积的。 A. 95% ; B. 99% ; C. 47.5%; D. 49.5% 4、下列说法哪个是错误的?中位数适用于描述资料。 A. 最小组段无下限; B. 最大组段无上限; C. 偏态分布; D. 正态分布 5、大,表示用该样本均数估计总体均数的可靠性小。 A. S X; B. S; C.CV; D. Q U—Q L 6、某地 1992年随机抽取 100名健康女性,算得其血清总蛋白含量的均数为74g/L ,标准差为 4g/L ,则其 95%的可信区间为。

7、两样本均数比较的t 检验,分别取以下检验水准,以所取第二类错误最大。 A. α =0.01; B. α=0.05; C. α =0.10; D.α=0.20 8、两样本均数比较的t 检验结果, P<0.05 ,可认为。 A. 两样本均数不等; B. 两样本均数相等; C. 两总体均数不等; D. 两总体均数相等 9、完全随机设计的方差分析结果,P≤ 0.05,可认为。 A. 各样本均数不等或不全等; B. 各样本均数都不相等; C. 各总体均数不等或不全等; D. 各总体均数都不相等 10、某地某年肝炎发病人数占总人数的5%,这是该地该年肝炎的。 A. 年发病率; B. 年患病率; C. 患病构成比; D. 患者平均数 11、已知甲县人口较乙县年青,今欲比较两县死亡率的高低,适当的比较方法是。 A.将两县的总死亡率直接比较; B.对年龄进行标准化后,再比较两县总死亡率; C.将两县的总死亡率进行 t 检验后再比较; D.将两县的总死亡率进行χ2检验后再比较 12、下面哪一点不是Poisson 分布的性质。 A. λ =σ2; B. 当λ≥ 20 时,近似正态分布; C. 可加性; D. 相互影响性 13、χ2检验中理论数T 的计算式为。 A. n r (1 n c ) ; B. (1 n r ) n c; C. n r n c; D. n r n c N N N N 14、已知两组计量资料方差不齐,可用检验。 A. t 检验; B. U 检验; C. F 检验; D. 秩和检验 15、对一组既做相关分析又做回归分析的资料,有。 A. b=r ; B. t b=t r; C. b=a; D. r=1

医学统计学章节重点归纳

医学统计学章节重点归纳 第一节概述 1、主要内容:a、卫生统计学的基本原理和方法(研究设计和数据处理中的统计理论和方法)b、健康统计(医 学人口统计、疾病统计和生长发育统计)c、卫生服务统计(卫生资源、医疗卫生服务的需求和利用、医疗保健制度和管理中的统计问题)。 2、 卫生统计工作的步骤:设计、资料的搜集、资料的整理、资料的分析 3、医学统计资料主要四个方面:统计报表、报告卡(单)、日常医疗卫生工作记录,专题研究或实验。 4、观察单位:是获得数据的最小单位,观察单位是根据研究目的确定的,观察单位可以是人、标本、家庭、国 家等。 5、变异:是指客观事物的多样性和不确定性。 6、变量: 观察单位的某种特征,称为变量。a、数值变量(定量变量)b、分类变量(定型变量或字符变量)。 7、总体:根据研究目的所确定的同质研究对象的全体。确切的说是性质相同的所有观察单位的某种变量的集合。 8、样本:从总体中随机抽取部分观察单位,其变量值就构成样本,通过样本信息来推断总体特征。 9、概率:事件发生的可能性大小的量度,通常以符号P表示。 10、误差:测量值与真值之差或样本指标和总体指标之差。分为随机误差和系统误差。 第二节数值资料的统计描述 1、频数分布就是观察值在所取得范围内分布的情况。重要特征:集中趋势和离散趋势。 2、频数分布类型:正态分布型频数、正偏态分布型频数,负偏态分布型频数。 3、集中趋势指标:算术平均数(均数)、几何均数、中位数。 指标使用条件计算公式 算术平均数适用于正态或近似正态分布 的数值变量资料 几何均数①对数正态分布,即数据经 过对数变换后呈正态分布的 资料;②等比级数资料,即 观察值之间呈倍数或近似倍 数变化的资料。 中位数①非正态分布资料(对数正 态分布除外);②频数分布 的一端或两端无确切数据的 资料③总体分布不清楚的资 料。为奇数 , 为偶数, 4、离散型趋势指标:极差、标准差和变异系数 指标计算公式主要优缺点 极差R=Xmax-Xmin 计算简单,便于理解;只考虑最大值与最小值之差异,不能反映 组内其它观察值的变异度,不稳定,受样本量影响很大。

研究生医学统计学上机试题

医学科研中的统计学方法上机试题 时间:2014-12-15 共4题,共100分 1.某医院病理科研究人体两肾的重量,20例男性尸解时的左、右肾的称重记录见下表,问左、右肾重量有无不同? 表1:20例男性尸解时左、右肾的称重记录 编号左肾(克)右肾(克) 1 170 150 2 155 145 3 140 105 4 11 5 100 5 235 222 6 125 115 7 130 120 8 145 105 9 105 125 10 145 135 11 155 150 12 110 125 13 140 150 14 145 140 15 120 90 16 130 120 17 105 100 18 95 100 19 100 90 20 105 125 2. 在评价某药物耐受性及安全性的I期临床试验中,对符合纳入标准的40名健康自愿者随机分为4组,每组10名,各组注射剂量分别为0.5U、1U、2U、3U,观察48小时后部分凝血活酶时间(s)。试比较任意两两剂量间的部分凝血活酶时间有无差别?

表2 各剂量组48小时部分凝血活酶时间(s) 0.5 U 1 U 2 U 3 U 36.8 40.0 32.9 33.0 34.4 35.5 37.9 30.7 34.3 36.7 30.5 35.3 35.7 39.3 31.1 32.3 33.2 40.1 34.7 37.4 31.1 36.8 37.6 39.1 34.3 33.4 40.2 33.5 29.8 38.3 38.1 36.6 35.4 38.4 32.4 32.0 31.2 39.8 35.6 33.8 3. 某神经内科医师观察291例脑梗塞病人,其中102例病人用西医疗法,其它189 例病人采用西医疗法加中医疗法,观察一年后,单纯用西医疗法组的病人死亡13例,采用中西医疗法组的病人死亡9例,请分析两组病人的死亡率差异是否有统计学意义? 4. 某省卫生防疫站对八个城市进行肺癌死亡回顾调查,并对大气中苯并(a)芘进行监测,结果如下,试检验两者有无相关? 表4 八个城市的肺癌标化死亡率和大气中苯并(a)芘浓度城市编号肺癌标化死亡率(1/10万)苯并(a)芘(μg/100m3) 1 5.600.05 2 18.50 1.17 3 16.23 1.05 4 11.400.10 5 13.800.75 6 8.130.50 7 18.000.65 8 12.10 1.20

2001级研究生医学统计学试卷

2001级研究生卫生统计学试卷 2002.1.5. 姓名学号得分 一.选择题:(每小题2分,共30分) ( d )1.在众多的变异指标中,有一种可以用以比较单位不同的两组定量资料(同一组内的数据单位相同)的变异性大小,它就是: (A)标准差(B)相关系数 (C)标准误(D)变异系数 (d )2.在进行显著性检验时,通常要先给定α值,根据样本数据计算出某统计量的值之后便可计算出一个p值来。可以说α值与p值之间有如下关系: (A)p=2α(B)p=α (C)p与α值在数量上有关,但无法简单地将其表达出来 (D)p与α值在数量上无关,但可按它们之间的大小作出统计推断 ( d )3.有些人在处理定量资料时习惯于用多次t检验代替方差分析和两两比较,这样做将会导致: (A)计算量增大(B)假阴性错误率增大 (C)试验误差大(D)假阳性错误率增大 ( b )4.为了解两种治疗方法对原发性肝癌的疗效,随机把病人分成两组,一组用5-氟尿嘧啶+辅助治疗,另一组用安慰剂+辅助治疗。治疗结果按缓解、死亡划分。第 一组12人,7人缓解、5人死亡;第二组11人,4人缓解、7人死亡,要分析两 种疗法的治疗效果之间的差别有无显著性意义,应选用的统计方法是: (A)χ2检验(B)Fisher的精确概率 (C)t检验(D)秩和检验 (a )5.某医生测得男、女各50人淋巴细胞计数L(%)(即占白细胞数的百分比),想用成组设计资料的t检验分析男、女两性之间的差别有无显著性意义,在作检验前 最好对数据作()变换。 (A)平方根(B)对数(C)平方根反正弦(D)倒数 ( a )6.有5份血清的抗体效价分别为:1:80、1:20、1:320、1:40、1:640,最合适反映此资料平均水平的指标是: (A)几何均数(B)算术均数(C)中位数(D)标准差 ( b )7.若分析肺活量和身高之间的数量关系,拟用身高值预测肺活量值,则采用(A)相关分析(B)直线回归分析 (C)方差分析(D)χ2检验 ( c )8.用二项分布直接计算概率法检验,H0:π=0.45,H1:π<0.45,当随机样本含

医学统计学知识点范文.doc

第一章绪论 1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。 2、研究对象:具有不确定性结果的事物。 3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。 4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。 5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。 6、医学统计学中的基本概念 (1) 同质与变异 同质,指根据研究目的所确定的观察单位其性质应大致相同。 变异,指总体内的个体间存在的、绝对的差异。 统计学通过对变异的研究来探索事物。 (2) 变量与数据类型 变量,是反映实验或观察对象生理、生化、解剖等特征的指标。 变量的观测值,称为数据 分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。(如身高、体重、血压、温度等) 定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。包括二分类、无序多分类。(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB等) 有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。 统计方法的选用与数据类型有密切的关系。 (3)总体与样本 总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。 样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。抽样,是从研究总体中随机抽取部分有代表性的观察单位。 参数,指描述总体特征的指标。 统计量,指描述样本特征的指标。 (4)误差 误差,指观测值与真实值、统计量与参数之间的差别。 可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。 随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。 抽样误差,是抽样引起的统计量与参数间的差异。 抽样误差主要来源于个体的变异。 统计学主要研究抽样误差。 (5)概率 概率,是描述某事件发生可能性大小的量度。 必然事件,事件肯定发生,概率P(U)=1; 随机事件,事件可能发生,可能不发生,概率介于0≤P(A)≤ 1; 不可能事件,事件肯定不发生,概率P(∮)=0; 小概率事件,事件发生的可能性很小,概率P(A)≤ 0.05、或P(A)≤ 0.01。 医学科研中,P(A)≤0.05作为事物差别有统计意义,P(A)≤ 0.01作为事物差别有高度统

医学统计学知识点总结

医学统计学 1. 对定量资料进行统计描述时,如何选择适宜的指标 定量资料统计描述常用的统计指标及其适用场合描述内容指 标 意义适用场合 平均水平;均 数 个体的平均值· 对称分布 几何均数平均倍数取对数后对称分布 中位数[ 位次居中的观察值 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 众 数 频数最多的观察值不拘分布形式,概略分析 ? 调和均数 基于倒数变换的平均值正偏峰分布资料 变异度全 距 观察值取值范围不拘分布形式,概略分析 标准差 (方差) 观察值平均离开均数的 程度对称分布,特别是正态分布资料 四分位数 间距 ? 居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 变异系数标准差与均数的相对比①不同量纲的变量间比较;②量纲相同但 数量级相差悬殊的变量间比较 定性资料:阳性事件的概率,概率分布,强度和相对比。 ¥ 2. 应用相对数时应注意哪些问题 答:(1)防止概念混淆相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。 (2)计算相对数时分母不宜过小样本量较小时以直接报告绝对数为宜。 (3)观察单位数不等的几个相对数,不能直接相加求其平均水平。 (4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。 3. 常用统计图有哪些分别适用于什么分析目的 常用统计图的适用资料及实施方法 < 图形 适用资料实施方法 条图组间数量对比用直条高度表示数量大小 直方图用直条的面积表示各组段的频数或频率

( 定量资料的分布 百分条图构成比用直条分段的长度表示全体中各部分的构成比 饼图构成比用圆饼的扇形面积表示全体中各部分的构成比 定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系 、 线图 半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标 系 散点图} 双变量间的关联点的密集程度和形成的趋势,表示两现象间的相关关系箱式图定量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布' 用茎表示组段的设置情形,叶片为个体值,叶长为频数 第3章概率分布(连续随机变量的正态分布;离散随机变量的二项分布及Poisson分布)1. 服从二项分布及Poisson分布的条件分别是什么 二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。 Poisson分布成立的条件:除二项分布成立的三个条件外,还要求试验次数n很大,而所关心的事件发生的概率 很小。 、 2. 二项分布、Poisson分布分别有什么特征 ①二项分布、Poisson分布都是离散型分布。 ②二项分布的形状取决于π与n的大小。π=时,不论n大小,对称分布。π≠时,图形呈偏态,随n增大而逐渐对称。当n足够大,π或1-π不太小,二项分布近似正态。 ③Poisson分布μ越小,分布越偏。μ越大,分布越对称。当n足够大时,分布接近正态。 4、正态分布应用 ①估计变量值的频数分布 《 ②制定参考值范围 ③质量控制 ④正态分布是很多统计方法的基础 5. 正态分布特征 ①以均数为中心,左右对称 ②正态曲线在横轴上方均数处取得最高点 ~ ③正态分布有两个参数,即均数(位置参数)和标准差(变异度参数)(μ,σ2 ;标准0,1)

医学统计学研究生题库汇编

医学统计学复习练习题库 研究生教材使用 一、最佳选择题 1.卫生统计工作的步骤为 A.统计研究调查、搜集资料、整理资料、分析资料 B.统计资料收集、整理资料、统计描述、统计推断 C.统计研究设计、搜集资料、整理资料、分析资料 D.统计研究调查、统计描述、统计推断、统计图表 E.统计研究设计、统计描述、统计推断、统计图表 2.统计分析的主要内容有 A.统计描述和统计学检验 B.区间估计与假设检验 C.统计图表和统计报告 D.统计描述和统计推断 E.统计描述和统计图表 3.统计资料的类型包括 A.频数分布资料和等级分类资料 B.多项分类资料和二项分类资料 C.正态分布资料和频数分布资料 D.数值变量资料和等级资料 E.数值变量资料和分类变量资料 4.抽样误差是指 A.不同样本指标之间的差别 B.样本指标与总体指标之间由于抽样产生的差别 C.样本中每个体之间的差别 D.由于抽样产生的观测值之间的差别 E.测量误差与过失误差的总称 5.统计学中所说的总体是指 A.任意想象的研究对象的全体 B.根据研究目的确定的研究对象的全体 C.根据地区划分的研究对象的全体 D.根据时间划分的研究对象的全体 E.根据人群划分的研究对象的全体 6.描述一组偏态分布资料的变异度,宜用 A.全距 B.标准差 C.变异系数 D.四分位数间距

E.方差 7.用均数与标准差可全面描述其资料分布特点的是 A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.对称分布 E.任何分布 8.比较身高和体重两组数据变异度大小宜采用 A.变异系数 B.方差 C.极差 D.标准差 E.四分位数间距 9.频数分布的两个重要特征是 A.统计量与参数 B.样本均数与总体均数 C.集中趋势与离散趋势 D.样本标准差与总体标准差 E.样本与总体 10.正态分布的特点有 A.算术均数=几何均数 B.算术均数=中位数 C.几何均数=中位数 D.算术均数=几何均数=中位数 E.以上都没有 11.正态分布曲线下右侧5%对应的分位点为 A.μ+1.96σ B.μ-1.96σ C.μ+2.58σ D.μ+1.64σ E.μ-2.58σ 12.下列哪个变量为标准正态变量 A.s x μ- B.σμ-x C. x s x μ- D.x x σμ- E. s x μ- 13.某种人群(如成年男子)的某个生理指标(如收缩压)或生化指标 (如血糖水平)的正常值范围一般指 A.该指标在所有人中的波动范围 B.该指标在所有正常人中的波动范围 C.该指标在绝大部分正常人中的波动范围 D.该指标在少部分正常人中的波动范围 E.该指标在一个人不同时间的波动范围 14.下列哪一变量服从t 分布 A. σμ-x B. σμ-x C. x x σμ- D. x s x x - E. x s x μ- 2.统计分析的主要内容有

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误(ɑ错误): H0为真时却被拒绝,弃真错误 Ⅱ型错误(β错误): H0为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n

研究生医学统计学试题

《医学统计学》试题 注:满分300分。最终成绩=总得分/3;

说明 1、试题意在考察研究生对《医学统计学》理论知识和SPSS统计软件的学习掌握情况。 2、研究生在答题过程中严禁抄袭、复印。如发现答案雷同者,该科目成绩将判为“不及格”,后果由学生自负。 3、答题时,不写具体的操作过程(如“选择Analyze→General linear Models→Univariate…,弹出Univariate对话框”)。 4、答题时,首先应明确交代某题所用的具体统计方法。 5、答题时,只将答题有关的SPSS输出结果粘贴到答案中,并且对结果要做出必要的解释;对答题无关的输出结果不要粘贴到答案中。如果对结果不做任何解释,或将跟答题无关的输出结果粘贴到答案中,将对成绩有严重影响。 6、试题(卷)的答案要求A4纸双面打印。

1、(20分)从某单位1999年的职工体检资料中获得101名正常成年女子的血清总胆固醇(mmol/L)的测量结果如下表1,①求其均数,中位数,标准差,标准误,最大值,最小值,极差、第2.5、25、75、97.5百分位数(10分);②编制(改进)频数分布表、绘制直方图(各5分)。 表1 某年某单位101名正常成年的血清总胆固醇(mmol/L) 2.35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41 4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91 3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91 4.15 4.55 4.80 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84 3.60 3.51 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96 4.50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71 3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28 4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25 4.15 4.36 4.95 3.00 3.26 2、(10分)为比较两种方法对乳酸饮料中脂肪含量测定结果是否不同,某人随机抽取了10份乳酸饮料制品,分别用脂肪酸水解法和哥特里-罗紫法测定其结果如表2第(1)~(3)栏。问两法测定结果是否不同?(写出统计方法并粘贴结果5分;写出统计量、p及对结果进行合理解释5分)。 表2 两种方法对乳酸饮料中脂肪含量的测定结果(%) 编号(1) 哥特里-罗紫法 (2) 脂肪酸水解法 (3) 1 0.840 0.580 2 0.591 0.509 3 0.67 4 0.500 4 0.632 0.316 5 0.687 0.337 6 0.978 0.517 7 0.750 0.454 8 0.730 0.512 9 1.200 0.997 10 0.870 0.506 3、(10分)大量研究显示汉族足月正常产男性新生儿临产前双顶径(BPD)均数为9.3cm。某医生记录了某山区12名汉族足月正常产男性新生儿临产前双顶径(BPD)资料如下:9.95、9.33、9.49、9.00、10.09、9.15、9.52、9.33、9.16、9.37、9.11、9.27。试问该地区男性新生儿临产前双顶径(BPD)是否大于一般新生儿(写出统计方法并粘贴结果5分;写出统计量、p及对结果进行合理解释5分)。 4、(15分)为研究国产四类新药阿卡波糖胶囊的降血糖效果,某医院用40名II型糖尿病病人 进行同期随机对照试验。试验者将这些病人随机等分到试验组(用阿卡波糖胶囊)和对照组(用拜唐苹 胶囊),分别测得试验开始前和8周后的空腹血糖,算得空腹血糖下降值见表3。①请对两组数据做 正态性检验(5分);②能否认为该国产四类新药阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果 不同(写出统计方法并粘贴结果5分、写出统计量、p及对结果进行合理解释5分)?

医学统计学知识点汇总(精华)

医学统计学知识点汇总(精华) 一.概论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。 A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断

4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每 个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某 变量值的集合。总体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。 样本必须具有代表性。代表性是指样本来自同质总体,足够的样 本含量和随机抽样的前提。

医学统计学总复习练习题(含答案)

一、最佳选择题 1.卫生统计工作的步骤为C A.统计研究调查、搜集资料、整理资料、分析资料 B.统计资料收集、整理资料、统计描述、统计推断 C.统计研究设计、搜集资料、整理资料、分析资料 D.统计研究调查、统计描述、统计推断、统计图表 E.统计研究设计、统计描述、统计推断、统计图表 2.统计分析的主要内容有D A.统计描述和统计学检验 B.区间估计与假设检验 C.统计图表和统计报告 D.统计描述和统计推断 E.统计描述和统计图表 3.统计资料的类型包括E A.频数分布资料和等级分类资料 B.多项分类资料和二项分类资料 C.正态分布资料和频数分布资料 D.数值变量资料和等级资料 E.数值变量资料和分类变量资料 4.抽样误差是指B A.不同样本指标之间的差别 B.样本指标与总体指标之间由于抽样产生的差别 C.样本中每个体之间的差别 D.由于抽样产生的观测值之间的差别 E.测量误差与过失误差的总称 5.统计学中所说的总体是指B

A.任意想象的研究对象的全体 B.根据研究目的确定的研究对象的全体 C.根据地区划分的研究对象的全体 D.根据时间划分的研究对象的全体 E.根据人群划分的研究对象的全体 6.描述一组偏态分布资料的变异度,宜用D A.全距 B.标准差 C.变异系数 D.四分位数间距 E.方差 7.用均数与标准差可全面描述其资料分布特点的是C A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.对称分布 E.任何分布 8.比较身高和体重两组数据变异度大小宜采用A A.变异系数 B.方差 C.极差 D.标准差 E.四分位数间距 9.频数分布的两个重要特征是C A.统计量与参数 B.样本均数与总体均数 C.集中趋势与离散趋势 D.样本标准差与总体标准差 E.样本与总体 10.正态分布的特点有B A.算术均数=几何均数 B.算术均数=中位数 C.几何均数=中位数 D.算术均数=几何均数=中位数 E.以上都没有 11.正态分布曲线下右侧5%对应的分位点为D

医学统计学重点总结

医学统计学 第一章 医学统计中的基本概念 1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。 2 资料的类型:计量资料(数值变量),计数资料(无序分类),等 变异(variation):在同质的基础上被观察个体的差异。级分组资料(有序分类)。 3 同质(homogeneity):对研究指标有影响的非实验因素相同。 4 总体(population):根据研究目的确定的同质的全部研究对象称总体 。 样本(sample):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。 5 参数(parameter):总体的设计指标称为参数。 统计量(statistic):样本的统计指标称为统计量。 6 变量(variable):观察对象的特征或指标称为变量,测量的结果即为变量值。 7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。 第二章 集中趋势的统计描述 一 算术均法(mean)简称为均数,适用于正态或近似正态分布资料 (一)直接法 X n x n X X X n ∑= +?++= 21 (二)加权法(针对频数表)n fx n x f f f X k k ∑= +++= (21) 二 几何均数(geometic mean,G)适用于倍数关系变化,经对数转换后呈正态分布(如:抗体滴度, 血清凝集效价,细菌计数,某些物质浓度等) G= n n X X X ?21 为了计算方便,常改用对数的形式计算,即=G lg 1 -( n X ∑lg ) 对于频数表资料,可用公式 G=lg 1 -( n x f ∑lg ) 三 中位数(M)与百分位数 中位数:适用于偏态分布资料,末端无确切数值的资料及分布情况不确定 公式:M=L+( M L f f n -5.0) M i L,M i ,M f 分别为M 所在组段的下限,组距与频数,L f 为M 所在组段之前各组数的累积频数。 百分位数:用符号X P 表示,x 即百分位 公式:x P =L+( x L f f x n -%·)x i 式中L,x i ,x f 分别为x P 所在组段的下限,组距与频数,L f 为x P 所在组段之前各组段的累积频数

医学统计学模拟试题

考试成绩100分=70分卷面+30分平时成绩

一、 选择题 1. 调查某疫苗在儿童中接种后的预防效果,在某地全部 1000 名易感儿童中进 行接种,经一定时间后从中随机抽取 300名儿童做效果测定,得阳性人数228 名。若要研究该疫苗在该地儿童中的接种效果,则 A. 该研究的样本是 1000 名易感儿童 B. 该研究的样本是 228 名阳性儿童 C. 该研究的总体是 300 名易感儿童 D. 该研究的总体是 1000 名易感儿童 E. 该研究的总体是 228 名阳性儿童 2. 各观察值均加(或减)同一数后: A 、均数不变,标准差改变 B 、均数改变,标准差不变 C 、两者均不变 D 、两者均改变 E 、以上均不对 3. 比较12岁男孩和18岁男子身高变异程度大小,宜采用的指标是: A 、全距 B. 标准差 C. 方差 D. 变异系数 E 、极差 4. 统计学中的小概率事件,下面说法正确的是: A .反复多次观察,绝对不发生的事件 B .在一次观察中,可以认为不会发生的事件 C .发生概率小于0.1的事件 D .发生概率小于0.001的事件 E .发生概率小于0.1的事件 5. 均数与标准差之间的关系是: A .标准差越大,均数代表性越大 B .标准差越小,均数代表性越小 C .均数越大,标准差越小 D .均数越大,标准差越大 E .标准差越小,均数代表性越大 6. 横轴上,标准正态曲线下从0到1.96的面积为: A.95% B.45% C.97.5% D.47.5% E.49.5% 7. 当第二类错误β由0.2变到0.3时,则第一类错误α是: A.增大 B.减小 C.不确定 D.不变化 E.以上都不对 8. 各种概率抽样方法按抽样误差按由大到小顺序排列,其顺序为 A. 整群抽样、单纯随机抽样、系统抽样、分层抽样 B. 整群抽样、系统抽样、单纯随机抽样、分层抽样 C. 分层抽样、单纯随机抽样、整群抽样、系统抽样 D. 系统抽样、单纯随机抽样、整群抽样、分层抽样 E. 系统抽样、整群抽样、分层抽样、单纯随机抽样 9. 假设检验中的第二类错误是指 A.拒绝了实际上成立的0H B.不拒绝实际上成立的0H C.拒绝了实际上不成立的1H D.不拒绝实际上不成立的0H

研究生医学统计学试题

南昌大学医学院硕士生试卷 试卷编号: 卷 课程名称:医学统计学 适用专业: 科学学位 专业: 班级 姓名: 学号: 学院 (系 ): 考试日期: 题号 一 二 三 四 五 六 七 八 九 十 总分 统 分 题分 30 15 25 30 100 签名 得分 考生注意事项: 1、本试卷共 6 页,请查看试卷中是否有缺页或破损。如有立即举手 报告以便更换。 2、考试结束后,考生不得将试卷、答题纸和草稿纸带出考场。 一、最佳选择题 (每题 2 分,共 30 分) 得 评 阅 把每题的答案填入下表中: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 A B C D B B A C C C B B C D B 1、描述一组正态分布资料的集中趋势,以 指标为好。 A. 算术平均数; B. 几何平均数; C. 中位数; D. 变异系数 2、比较成人身高和儿童身高的离散趋势,宜用 。 A. 标准差; B. 变异系数; C. 方差; D. 离均差平方和 3、对于正态分布资料, X +1.96S ,所对应的面积占总面积的 。 A. 95% ; B. 99% ; C. 47.5%; D. 49.5% 4、下列说法哪个是错误的?中位数适用于描述 资料。 A. 最小组段无下限; B. 最大组段无上限; C. 偏态分布; D. 正态分布 5、 大,表示用该样本均数估计总体均数的可靠性小。 A. S X ; B. S ; C.CV ; D. Q U —Q L 6、某地 1992 年随机抽取 100 名健康女性,算得其血清总蛋白含量的均数为 74g/L ,标准 差为 4g/L ,则其 95%的可信区间为 。

卫生统计学知识点总结

卫生统计学知识点总结-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN

卫生统计学 统计工作基本步骤:统计设计(调查设计和实验设计)、资料分析{收集资料、整理资料、分析资料【统计描述和统计推断(参数估计和假设检验)】。 ★统计推断:是利用样本所提供的信息来推断总体特征,包括:参数估计和假设检验。a参数估计是指利用样本信息来估计总体参数,主要有点估计(把样本统计量直接作为总体参数估计值)和区间估计【按预先设定的可信度(1-α),来确定总体均数的所在范围】。b假设检验:是以小概率反证法的逻辑推理来判断总体参数间是否有质的区别。 变量资料可分为定性变量、定量变量。不同类型的变量可以进行转化,通常是由高级向低级转化。 资料按性质可分为计量资料、计数资料和等级资料。 定量资料的统计描述 1频率分布表和频率分布图是描述计量资料分布类型及分布特征的方法。离散型定量变量的频率分布图可用直条图表达。 2频率分布表(图)的用途:①描述资料的分布类型;②描述分布的集中趋势和离散趋势;③便于发现一些特大和特小的可疑值;④便于进一步的统计分析和处理;⑤当样本含量足够大时,以频率作为概率的估计值。 ★3集中趋势和离散趋势是定量资料中总体分布的两个重要指标。 (1)描述集中趋势的统计指标:平均数(算术均数、几何均数和中位数)、百分位数(是一种位置参数,用于确定医学参考值范围,P50就是中位数)、众数。算术均数:适用于对称分布资料,特别是正态分布资料或近似正态分布资料;几何均数:对数正态分布资料(频率图一般呈正偏峰分布)、等比数列;中位数:适用于各种分布的资料,特别是偏峰分布资料,也可用于分布末端无确定值得资料。 (2)描述离散趋势的指标:极差、四分位数间距、方差、标准差和变异系数。四分位数间距:适用于各种分布的资料,特别是偏峰分布资料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。方差和标准差:都适用于对称分布资料,特别对正态分布资料或近似正态分布资料,常把均数和标准差结合起来描述资料的集中趋势和离散趋势;变异系数:主要用于量纲不同时,或均数相差较大时变量间变异程度的比较。 标准差的应用:①表示变量分布的离散程度;②结合均数计算变异系数、描述对称分布资料;③结合样本含量计算标准误。 定性资料的统计描述 1定性资料的基础数据是绝对数。描述一组定性资料的数据特征,通常需要计算相对数。定性变量可以通过频率分布表描述其分布特征。 2 指标频率型指标强度型指标相对比型指标 概念近似反映某一时间出现概率单位时间内某现象的发生 率 两个有关联的指标A和B之比 计算 公式 A/B 有无 量纲 无有可有、可无 取值 范围 【0,1】可大于1无限制 本质大样本时作为概率近似值分子式分母的一部分频率强度,即概率强度的 似 值 表示相对于B的一个单位,A有多少 位 A和B可以是绝对数、相对数和平均

相关主题
文本预览
相关文档 最新文档