当前位置:文档之家› 研究生-医学统计学基本概念

研究生-医学统计学基本概念

研究生-医学统计学基本概念
研究生-医学统计学基本概念

医学统计学基本概念

一.医学统计学

运用概率论和数理统计等数学的原理和方法,研究医学领域中资料的搜集、整理、分析和推断的一门学科。

二、统计学中的基本概念

总体和样本参数与统计量随机同质与变异抽样误差概率小概率原理

1.变量(variable)

(1)变量:收集资料中确定了的观察单位称为个体,在统计工作中反映个体的特征称为变量。(2)随机变量:由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测,简称变量.

变量的观察值(观察结果)可以是定量的也可以是定性的,可分为:

数值变量:可以度量大小,如血压等

分类变量:无序变量:血型、性别

有序变量:如测定某人群血清反应分-、+、++、+++四级

2.总体和样本(population and sample)

?总体(population):是根据研究目的确定的研究对象中所有同质观察单位某项指标取值的集合。?样本(sample):是从总体中随机抽取的具有代表性的部分观察单位某项指标取值的集合。

个体:构成总体的最基本的观察单位。

样本含量:样本中所包含的最基本的个体数,常用n表示。

?统计推断就是要从样本信息去推断总体特征

?样本要具代表性,须:①随机抽取②例数足够多。

3、参数与统计量( parameter and statistic )

参数parameter:描述总体的统计指标或特征值,是事物本身固有的、不变的,为常数,常用希腊字母表示。

统计量statistic:描述某样本特征的统计指标或特征值,随试验不同而不同,其分布是有规律的、变化的,常用拉丁字母表示。

4. 同质与变异(homogeneity and variation)

同一总体或其样本中的观察单位在所取指标方面必须具有相同的性质,称为同质性(homogeneity),与之相反的是异质性或间杂性(heterogeneity).

同质(homogeneity):观察单位具有相的性质;异质(heterogeneity):性质不同。

同质性是构成研究总体的必备条件;

研究内容不同,对同质性的要求不同;

不同质的个体不能笼统地混在一起分析

变异(variation):指在同质的基础上各观察单位(或个体)之间的差异,是以具有同质性的观察单位为载体,某项观察指标在其观察单位之间显示的差别。,

一种或多种不可控因素(已知或未知)作用下所产生的一种综合表现。

就每个观察单位而言,其观察指标的变异是不可预测的,或者说是随机的(random)

个体变异是普遍存在的。

就总体而言,个体变异是有规律的。变异规律的体现:分布(distribution)

没有个体变异,就没有统计学!

5. 随机(Random )

随机:指机会均等,是为了保证样本对总体的代表性、可靠性而采取的一种统计学措施。目的是保证样本对总体的代表性、可靠性.

?随机抽样:有相同的机会被抽到;

?随机分组:有相同的机会被分到不同的组中;

?实验顺序随机:先后处理机会相同。

6、抽样误差(P28)

★抽样误差(sampling error):由于个体变异的存在,由抽样引起的样本统计量与总体参数间的差别。

原因:个体变异+抽样

表现形式:①样本统计量与总体参数间的差别

②不同样本统计量间的差别

抽样误差是有规律的!

7.概率(probability)

随机事件:随机现象的某个可能观察结果称为一个随机事件。

频率Relative frequency :在n次随机试验中,事件A发生了m次,f=m/n,则比值f=m/n称为事件A在这n次试验中出现的频率。

概率:在重复试验中,事件A发生的频率,随着试验次数的不断增加,将越来越接近一个常数P,这个常数P就称为随机事件A发生的概率。是随机事件发生可能性大小的一个度量,用P表示,取值范围为0≤P≤1。

?必然事件 P=1

?不可能事件 P=0

?区分频率与概率,大样本情况下频率是概率的一个较好的估计值

小概率原理(page3)

当某事件发生的概率小于或等于0.05时,统计学上称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能发生,此即为小概率原理。

小概率原理是进行统计推断的依据。

小概率事件在一次试验中认为是不会发生的。

三.统计资料的类型

1、定量资料(quantitative data) :以定量值表达每个观察单位的某项观察指标,如血脂、心率等。

特点①各观察单位间只有量的差别;②数据间有连续性。

2、定性资料(qualitative data):以定性方式表达每个观察单位的某项观察指标,表现为互不相容的类别或属性,如血型、性别等。

特点①各观察单位间或者相同,或存在质的差别;②有质的差别者之间无连续性。

3、等级资料(ranked data):以等级表达每个观察单位的某项观察指标,如疗效分级(显效、有效、改善、无效)、血粘度、心功能分级等。

特点①各观察单位间或相同,或存在质的差别;

②各等级间只有顺序,而无数值大小,故等级之间不可度量。

根据分析需要,三种资料可以转化

定量资料→定性资料;定量资料→等级资料;等级资料→定性资料

信息量只有减少,不可增加

第二章 数值变量资料的统计描述 2.1数值变量资料的频数表

1. 频数表的编制

(1)找出极大值和极小值,并计算极差R (2)依R 分组,确定组数k 、组距w 。 组段常取8-15组;

组距取整数或方便计算的数值,可用1/10R 取整作组距;

各组距相等,第一组包涵最小值,最后一组包含最大值,各组包含该组的下限,不包括上限。 (3)计算频数,各组频数占总频数的比例为相对频数或频率。

2. 频数表的用途

(1)可揭示资料的分布特征和分布类型 对称分布:均数在正中,左右频数对称 偏态分布:

正偏态(右偏态):分布的尾部偏向数轴正侧(右侧)。 负偏态(左偏态):分布的尾部偏向数轴负侧(左侧)。 (2)进一步计算其它统计指标和统计分析处理 (3)便于发现某些可疑值

弃却最大一个数X n ,若r=(X n -X n-1)/(X n -X 1)>1/3 弃却最小一个数X1,若 r=(X 2-X 1)/(X n -X 1)>1/3

2.2集中趋势的描述:平均数(average )

平均数:用来描述定量资料集中位置的一组指标体系,是分析定量资料的基本指标,反应某种现象或事物数共同趋势的平均水平。包括:算术均数、几何均数、中位数、众数。 求平均数必须注意:

①同质的事物或现象才能求平均数 ②由资料的分布选用适当的平均数 1、算术均数(arithmetic mean):

算术均数:反映了一组观察值的平均水平,

适用于单峰对称或近似单峰对称分部数据的平均水平描述,简称均数

计算方法一:直接法

计算方法二:加权法

? 加权均数(weighted mean) 均数是加权均数的一个特例

均数的特性:各离均差Xi- 之和=0 即Σ(X- )=0

n

x n

x x x

x n ∑=

+++= (2)

11

n

i

i

i X w X

==∑x x

2、几何平均数 (geometric mean)

几何均数(geometric mean):描述对数偏态分部或数据呈倍数变化数据的水平,记为G

(1)适用范围:某些医学资料,如抗体的滴度、细菌计数、率或比的变化速度等,频数分布明显偏态,各变量之间形成倍数关系,经对数变化后观察值趋向于单峰对称分布,即对数正态分布资料。

要求:①观察值中不能有0;

②同一组变量不能同时存在正值和负值;

③若变量全为负值,计算时将负号除去,算出结果后在冠以负号。

(2)计算方法:

直接法

加权法(资料中相同观察值的个数f 较多时,如频数表资料)

3、中位数(median )和百分位数(percentile )

中位数M :将一组观察值从小到大排列,位置居中的观察值水平称为中位数,记作M 。 百分位数(P x ):一种位置指标,一个百分位数将一组变量值分成两部分,理论上有x%的观察值比它小,有(100-x )%的值比它大。P 50就是中位数。 (1)适用范围:1)描述偏态分布资料的集中位置

2)资料有个别特大特小值 3)一端或两端有不确定的数值

(2)计算

①直接由原始数据计算中位数将观察值依顺序排列:X (1)、X (2)、…、X (n ) n 奇 M=X ((n+1)/2)

n 偶 M= (X (n/2)+X (n/2+1))/2

例:对于某项风险较高的新手术术后的生存时间进行跟踪,共调查了7人, 6人死亡之前分别生存了5天、6天、10天、16天、25天、29天,还有一人术后30天随访时仍存活。 本资料属于“开口”资料。

本例数据已经按从小到大的升序排列,n=7,为奇数,其中位数为16天。

②用频数表计算中位数和百分位数

● 按所分组段,由小到大计算累计频数和累计频率,找出Px 所在的组段 ● 求百分位数

其中fx 为Px 所在组段的频数, i 为该组段的组距,L 为其下限, Σf L 为小于L 各组段的累计频数

4、众数(mode )

指一组观察值出现次数最多的值。

观察例数较少时,众数无实际意义。一组观察值可能有几个众数。

)

lg (lg 1

∑-=f

x f G G=121

x x x

n n x n =-∑

lg (lg )

)%(∑-?+=f

f

p

L

x x x n i L

2.3 离散程度的描述

1、全距(极差)R=max-min

一组变量值中最大值与最小值之差,反映资料的分布范围,全距大,说明数据变异度大。 优点:简单 缺点:

①只用到最大、最小值,样本信息没能充分利用

②当资料呈明显偏态时,最大、最小值不稳定,受两端的极值影响。 ③样本例数越多,R 可能越大,2组观察值例数悬殊时不用R 比较。

2、四分位间距(inter-quartile range )Q=p 75-p 25=Q u -Q L

四分位数间距:指上、下四分位数的间距,既QL 与QU 间的差距,

适用范围:常与中位数一起描述偏态分部数据的分布特征,较极差稳定。

3、方差(variance )和标准差(standard deviation )

方差:表示一组数据的平均离散情况,由离均差平方和SS 除以样本个数得到。

标准差:直接地、总结地、平均地描述了变量值的离散程度,适用于近似正态分布的数据,显示一组变量值与其均数的间距。

(1) 方差和标准差均反映个体变异,个体变异度大,标准差和方差越大,反之亦然。 (2) 计算 总体方差 σ2

= 样本方差S 2=

总体标准差σ= 样本标准差

在样本中,μ未知,常用 替代

自由度df :允许自由取值的个数。Df=变量值个数-限制条件数。

5、变异系数(离散系数)C.V .

适用范围:①比较度量单位不同的两组或多组资料的变异度;

②比较均数相差悬殊的两组或多组资料的变异度。

计算:标准差与均数之比。

正确应用:平均数

? 算数均数:适用于单峰对称分布资料;

? 几何均数:适合于作对数变换后单峰对称分布资料; ? 中位数和百分位数:适用于任何分布的资料;

中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定;

中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精确。 因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。

? 不同质的资料应考虑分别计算平均数。

N

x ∑

-2)(μx 1

)

(2

-∑-n x x N x ∑-)

(2μ1)

(2

-=

∑-n s x x %100?=x

s

cv

正确应用:极差、标准差、变异系数 (1)极差不稳定,不灵敏

(2)标准差的基本内容是离均差,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。

在同质的前提下:标准差大表示变量值的离散程度大,即变量值的分布分散、不整齐、波动较大;

标准差小表示变量值的离散程度小,即变量值的分布集中、整齐、波动较小。

(3)变异系数派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。

正确应用:(一起用) 平均数与变异度

均数±标准差(min,max)

中位数±四分位数间距 (min,max) 变异度小,则均数代表性好!

变异度大,数据分散,则均数代表性差!

平均数所表示的集中性与变异度所表示的离散性,从两个不同的角度阐明计量资料的特征!

2.4 分类资料的统计描述

一、相对数 作用:(1)表示事物出现的频度。

(2)便于比较。

1、率(速率):又称频率指标,用以说明某事物或某现象在其可能发生的范围内实际发生的频率或强度,常以百分率、千分率、万分率、十万分率表示。

2、构成比:又称构成指标,表示某一事物内部各组成部分所占的比重或频率,常以百分数表示。

3、比(ratio):又称相对比,是A 、B 两个有关指标之比,说明A 是B 的多少倍,或百分之几。它是对比的最简单形式。 A 、B 两个指标可以是绝对数,也可以是相对数,

可以是定性资料,也可以是定量资料, 性质可以相同或不同。

△相对数应用的注意事项:

①计算相对数时,分母不宜太小。

②区分构成比和率,不能以构成比代替率。

构成比智能说明事物内部组成部分的比重,而不能说明某现象发生的频率或强度。 ③合计率的计算不是直接求率的平均。

④两合计率的比较需注意两者的内部构成是否相同

⑤计算率时要注意资料的同质性,对比分析是用注意资料的可比性。

⑥对两个或多个相对数指标进行比较时,要考虑抽样误差,进行假设检验,并不能凭相对数的数值大小轻易做出结论。

100%

?(单位时间内)实际发生某现象的观察单位数率=(单位时间内)可能发生某现象的观察单位数100%?某一组成部分的观察单位数

构成比=同一事物各组成部分的观察单位数

A B 比=

正态分布(normal distribution)

一、随机变量

离散型:只可取有限个值或可列个数。Eg 性别、血型、子女数、事故数。 连续型:可在某一实数区间内任意取值。Eg 身高、体重、年龄、血压。

随机变量的分布

(1)分布函数F(X):总体中个体值小于或等于X 的观察值所占的比例。

此函数的大小说明变量取某些值的可能性。当变量的取值包括了所有可能的取值时,F(X)=1。 (2)概率函数(概率密度函数、密度函数)f(X):

离散型随机变量:f(X)是变量取X 时的概率,记为P(X) 连续型随机变量:f(X)是F(X)的导数。

当变量具备了以上两个函数之后,称它具有某种分布(Distribution)

二、正态分布

正态分布又称高斯(Gauss 分布),是统计学中最重要的分布:

①医学资料中有许多指标:身高.体重.红细胞数.血红蛋白.收缩压.脉搏数等频数分布都呈正态分布。 ②很多统计方法是建立在正态分布的基础上; ③很多其他分布的极限为正态分布。 1、正态分布的概率密度函数 μ:总体均数,

σ:总体标准差。 记N(μ,σ) 2、正态分布特征

正态分布曲线是一簇曲线。

(1)单峰曲线,高峰位置在x=μ处。总体中位数为μ。 (2)以均数μ为中心左右对称。

(3)有2个参数,μ:位置参数,μ越大,则曲线沿横轴向右移动。

σ:形状参数,表示数据离散程度,σ小,则离散程度小,数据集中,曲线瘦高。

3、标准正态分布:N (0,1)

u 分布,标准正态变量/标准正态离差 将中心μ移到0,横轴以σ为单位。称为标准正态分布(z 分布、u 分布), 标准正态分布曲线是一条曲线,正态分布曲线簇中的一个特例。 4、正态分布曲线下面积规律:

(1)X 轴与正态曲线下面积总和为1;

(2)正态曲线关于均数对称,对称的区域内面积相等;

统计学家已将此编制成了正态分布界值表,表中的面积是指p(u1.64的面积为0.10。 |u|>1.96的面积为0.05。 |u|>2.58的面积为0.01。

e

x x f σ

μσ

π22)(21)(-=-

三、正态分布的应用

应用一:估计参考值范围(reference interval)

1、参考值范围:又称正常值范围。是绝大多数正常人的某观察指标所在的范围。 绝大多数:90%,95%,99%等等。

“正常人”:排除了影响所研究的指标的疾病和有关因素的同质人群。 确定参考值范围的意义:用于判断正常与异常

2、参考值范围确定的原则

(1)选定足够例数的同质的正常人作为研究对象 (2)控制检测误差:误差过大,则参考值范围过宽。 (3)判断是否分组(性别,年龄组)

(4)单、双侧问题:根据医学专业知识确定

单侧界值:某指标仅过大或过小为异常。Eg 白细胞计数,血清总胆固醇

双侧界值:某指标过大或过小均异常。Eg 上限:转氨酶,尿铅,发汞;下限: 肺活量,IQ (5)选择百分界值(80%,90%,95%,99%)

95%参考范围或正常范围:仅仅告知95%健康者的测定值在此范围之内,并非告知凡在此范围之内皆健康,也非告知凡在此范围之外皆不健康,所以不可将之作为诊断标准。 (6)确定可疑范围

3、参考值范围的估计方法: (1)正态分布法 双侧:

单侧:高侧 低侧 (2)百分位数法

95%参考值范围的估计方法 方法 双侧 单侧下限 单侧上限 正态分布法 百分位数法 P2.5~P97.5 >P5

应用二:估计频数分布

例 出生体重低于2500克为低体重儿。若由某项研究得某地婴儿出生体重均数为3200克,标准差为350克,估计该地当年低体重儿所占的比例。

记x 为当年该地婴儿出生体重,则x 服从正态分布N (3200,350)

P(x<2500)

查标准正态分布界值表 Φ(-2)=0.0228 即估计该地当年低体重儿所占的比例为2.28%

s x u

?±α1.96X s ± 1.64X s - 1.64X s +)2()2()350

3200

25003503200(

-Φ=-<=-<-=u p x p

抽样误差、参数估计

一、抽样误差

1、抽样误差sample : 由于个体变异的存在,由抽样引起的样本统计量与总体参数间的差别。

原因:个体变异+抽样研究

表现形式:①样本统计量与总体参数间的差别;②不同样本统计量间的差别 抽样误差是有规律的

2、中心极限定理

(1)从均数为μ、标准差为σ 的正态总体中,独立重复随机抽取含量为n 的样本,样本均数的分布

仍服从正态分布;样本均数的均数为 μ;样本均数的标准差为

(2)从非正态分布总体

(均数为μ、标准差为σ)中,独立重复随机抽取含量为n 的样本,只要样本含量足够大(n>50),样本均数也近似服从正态分布。样本均数的均数为

μ;样本均数的标准差为

3、标准误standard error

★标准误SE :在统计学理论上将样本统计量的标准差称为统计量的标准误,衡量抽样误差的大小。 标准误与个体变异成正比,与样本含量n 的平方成反比。

样本均数的标准差 称为均数的标准误,简称标准误。表示样本均数的变异度。 理论标准误: 样本标准误:

当总体标准差未知时,用样本标准差代替 △标准误的意义

(1)反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误差的大小。

(2)标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估计总体参数越不可靠。反之亦然。

(3)标准误的大小与标准差有关,在例数n 一定时,从标准差大的总体中抽样,标准误较大;而当总体一定时,样本例数越多,标准误越小。说明我们可以通过增加样本含量来减少抽样误差的大小。 △标准误与样本含量n 的关系:

①n 越大,均数的均数就越接近总体均数; ②n 越大,变异越小,分布越窄;

③对称分布接近正态分布的速度,大于非对称分布。分布越偏,接近正态分布所需样本含量越大。

★★标准误与标准差的关系 区别:

(1)意义:标准差描述个体值之间的变异,即观察值间的离散程度;

标准误是描述统计量的抽样误差,即样本统计量和总体参数的接近程度;

(2)用途:标准差常用于表现观察值的波动范围;

标准误常表示抽样误差的大小,估计总体参数可信区间。

(2)与样本含量关系:标准差是随着样本含量的增多,逐渐趋于稳定。

标准误是随着样本含量的增多,逐渐减少。

联系:(1)标准差和标准误都是变异指标,说明个体之间的变异用标准差,

说明统计量之间的变异用标准误.

(2)当样本含量不变时,标准差大,标准误亦越大,均数的标准误与标准差成正比。

X =x σ=x s =x σ

二、抽样分布

正态分布的标准化变化

t 分布

1、设从正态分布N(μ,σ2)中随机抽取含量为n 的样本,样本均数和标准差分别为 和s ,且: 则t 值服从自由度为n-1的t 分布(student t 分布)。记为

2、t 分布的特征

(1)t 分布是一簇单峰分布曲线,

(2)单峰分布,以0为中心,左右对称;

(3)t 分布与自由度ν有关:ν不同时,曲线形状不同;ν越小,t 分布的峰越低,尾部越高。 当ν逼近∞时,t 分布逼近u 分布,故标准正态分布是t 分布的特例。 (4)t 分布曲线下面积是有规律的(t 界值表):

○表中数据表示ν与α确定时相应的t 界值,常记为t α,ν

○尾部面积:表示t α,ν以外的尾部面积占总面积百分数,即概率P 。

○t 分布表明,从正态分布总体中随机抽取的样本,由样本计算的t 值接近0的可能性较大,远离0的可能性较小

单尾:P(t ≤- t α,ν)=α,或P(t ≥t α,ν)=α 双尾:P(t ≤- t α/2,ν)+P(t ≥t α/2,ν)=α, P(-t α/2,ν

χ2 分布

1、设从正态分布N(μ,σ2)中随机抽取含量为n 的样本,样本均数和标准差分别为 和s ,且:

χ2值服从自由度为n-1的χ2分布。 (方差的抽样分析)

定性资料:χ2分布近似描述具有某种属性的实际频数Ai 与理论频数Ti 之间的抽样误差

2、χ2分布的特征:

(1)χ2分布为一簇单峰正偏态分布曲线 ;随ν的逐渐加大,分布趋于对称。 (2)自由度为ν的χ2分布,其均数为ν,方差为2ν。

(3)自由度为ν的χ2分布实际上是ν个标准正态分布变量之平方和。 (4)每一自由度下的χ2分布曲线都有其自身分布规律。

3、χ2界值表:

χ2分布说明,从正态分布的总体中随机抽样,所得样本的方差s2接近于总体方差σ2的可能性大,远离总体方差的可能性小。

即χ2值接近其均数n-1的可能性大,远离n-1的可能性小。

X X

X t s μ-=(1)~n X

X t t s μ

--=X 2

2

2

)1(σχs n -=∑-=i

i i T T A 22

)(χ

F 分布

1、设从两个方差相等的正态分布N ( )和N ( )总体中随机抽取含量分别为n1和n2的样本,

样本均数和标准差分别为 、s1和 、s2。设: 则F 值服从自由度为(n -1,n -1)的F 分布。

F 分布是方差比的分布,常用于方差齐性检验、方差分析。 2、F 分布的特征

(1)F 分布为一簇单峰正偏态分布曲线,与两个自由度有关。

(2)若F 服从自由度为(ν1,ν2)的F 分布,则其倒数1/F 服从自由度为(ν2,ν1)的F 分布。 (3)自由度为(ν1,ν2)的F 分布,其均数为ν2/(ν2-2),与第一自由度无关。 (4)第一自由度ν1=1时,F 分布实际上是t 分布之平方;

第二自由度ν2=∞时,F 分布实际上等于χ2分布。 (5)每一对自由度下的F 分布曲线下的面积分布规律。 3、F 界值

F 分布表明,从两个方差相等的正态分布总体中随机抽取含量分别为n1和n2的样本,计算所得F 值,应接近v2/(v2-2)。

F(0.05;20,20)= 2.12表示,从方差相等的正态分布总体中随机抽取n1=n2=21的样本,则由两样本计算的F 值大于等于2.12的可能性为0.025,而小于1/2.12=0.4717的可能性亦为0.025。

三、参数估计 Parameter estimation 1、区间估计

可信区间CI (置信区间):按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围。这个范围称作可信度为1-α 的可信区间。这种估计方法称区间估计。 可信度:预先给定的概率(1-α)称为可信度或者置信度。

可信限:可信区间(CL, CU )是一开区间 CL 、CU 称为可信限。

★★理解:

(1)可信度为1-α 的可信区间:每100个样本所算得的100(1-α)%可信区间,平均有100(1-α)个包含了总体参数。

(2)若α取0.05,即可信度为95%的CI 的涵义:每100个样本所算得的100个95%可信区间CI 中,平均有95个CI 包含了总体参数,有5个不包含总体参数。

(3)从N(0,1)中随机抽取100个n=10的样本所估计的100个95%可信区间

按这种方法构建的可信区间,理论上平均每100次,有95次可以估计到总体参数。 这里的95%,指的是方法本身!而不是某个区间!

在可信区间被估计之前,概率是存在的;在可信区间被估计之后,就没有概率了。 总体参数虽未知,但却是固定的值,而不是随机变量值 。

★下列说法正确吗?算得某95%的可信区间,则:

总体参数有95%的可能落在该区间。 有95%的总体参数在该区间内。 该区间包含95%的总体参数。

该区间有95%的可能包含总体参数。 该区间包含总体参数,可信度为95%。(对)

1X 2X 2

221

s s F =

2、可信区间的两个要素

(1)可靠性(Confidence):准确性,常用可信度1-α的大小表示。

取值:根据研究目的和实际问题的背景人为决定,常取90%、95%或99%。

(2)精确性(Precision):用可信区间的长度CL-CU 衡量。区间的大小,越小越好。 影响因素:变异度大小、样本含量、1-α

①可信度1-α越大,可信区间越宽,说明用该区间来估计总体参数(总体均数)越可靠。 ②1-α确定后,标准差越小,可信区间就越窄。即总体变异程度较小,可信区间越窄。 ③随着样本含量的增加,可信区间逐渐变窄。 必须二者兼顾

3、均数的可信区间 (1)t 分布

均数的(1-α)100%的可信区间: 即:可信限为

(2)样本含量较大时(Eg:n>100),均数(1-α)100%的可信区间:

4、两均数之差的区间估计 μ1-μ2的可信区间

5、可信区间与容许区间的区别 (1)可信区间 用于估计总体参数,总体参数只有一个;

容许区间 用于估计变量值的分布范围,变量值可能很多甚至无限,95%容许区间的涵义是指有95%的变量值在该范围内。

(2)可信区间 所基于的t 分布是统计量的抽样分布,一般均可通用;

容许区间 所基于的正态分布是变量值的分布,只有当分布接近正态分布时方适用。

四、样本统计量的抽样分布

任何一个样本统计量均有其分布规律

从正态分布总体中抽样:均数的抽样分布为正态分布;

样本方差的分布服从χ2分布; 样本方差之比服从F 分布; t 值服从 t 分布;

概念辨析 标准差 ? 标准误 个体变异 ? 抽样误差

参考值范围 ? 可信区间 简述参考值范围与均数的可信区间的区别和联系 变量分布 ? 抽样分布

,,(, )v v X X

X t s X t s α

α-?+?,v X

X t

s α±?(, )X X X u s X u s αα-?+?()

21212121)2(,21)2(,21][ ][X

X n n X X n n s t X X s t X X --+--++---αα,X

s t X ν,05.0±X

s t X ν,05.0±s u X 05.0±s

u X 05.0±

假设检验

一、假设检验的基本目的

△分辨两个样本是否分别属于两个不同的总体,并对总体作出适当的结论。

两个的概念也可以扩展为多个。

△分辨一个样本是否属于某特定总体等

二、假设检验的基本原理

(1)提出一个假设H0,如:假设μ=μ0,差别由抽样误差所致

(2)在H0成立的前提下计算检验统计量,并得到出现现有差别或更大差别的可能性P(| t | ≥统计量)

(3)如果假设成立,得到现有样本的可能性

a若p是小概率,可能性很小(小概率事件),在一次试验中本不该得到,居然得到了,说明我们的假设有问题,拒绝之。

b有可能得到手头的结果,故根据现有的样本无法拒绝事先的假设(没理由拒绝原来的假设)。

三、假设检验的一般步骤

(1)建立检验假设,确定检验水准;

(2)选定检验方法,计算检验统计量;

(3)确定P值,做出推断结论。

▲步骤1:建立假设————(在假设的前提下有规律可循)

检验假设(原假设):记为,表示目前的差异是由于抽样误差引起的。

备择假设(对立假设):记为H1,表示目前的差异是主要由于本质上的差别引起。

建立假设注意:

(1)H0 假设比较单纯、明确,且在该假设的前提下就有规律可寻;而H1 假设包含的情况比较复杂。(2)H0 和H1 是相互对立的

▲步骤2:确立检验水准α并确定检验的单双侧————(确定最大允许误差)

检验水准α:是预先规定的概率值,它确定了小概率事件标准。一般取α=0.05。

▲步骤3:选定检验方法,计算检验统计量。————(计算样本与假设总体有多大的偏离)不同资料选择不同方法

统计量t表示,在标准误的尺度下,样本均数与总体均数μ0的偏离。

▲步骤4:计算概率P———(基于抽样分布规律,与统计量t 值对应的概率,该样本是否支持零假设) 假设检验中的P值:从H0规定总体随机抽得等于及大于(或等于及小于)现有检验统计量值的概率。即在H0 成立的前提下,获得现有这么大的标准t 离差以及更大离差| t | ≥2.841 的可能性

▲步骤5:结论————(根据小概率原理)

当P≤α时,为小概率事件,拒绝H0,接受H1;

当P>α时,不是小概率事件,没有足够的理由拒绝H0。

统计结论与专业结论相结合

四、假设检验中的注意事项

1、I 型错误和II 型错误

★第一类错误(I 型错误):统计学上规定,拒绝了实际上是成立的H0,这类“弃真”的错误称为~★第二类错误(II 型错误):统计学上将不拒绝实际上是不成立的H0,这类“存伪”的错误称为~

I 型错误和II 型错误

当P ≤α而拒绝H0接受H1,要注意第一类错误出现;

当P >α而不拒绝H0,要注意第二类错误的出现。

★β(第二类错误率):表示失去对真实的H1作出肯定结论的概率,

★1-β(把握度、检验效能):对真实的H1作出肯定结论之概率,常用来表达某假设检验方法的检验功效(power of a test),假设检验对真实的H1作肯定结论的把握程度。

I 型错误和II 型错误的关联:

(1)当样本容量固定时,一类错误概率的减少导致另一类错误概率的增加.

(2)要同时降低两类错误的概率,需要增加样本容量

2、★▲?α的含义

检验水准α:是预先规定的概率值,它确定了小概率事件标准。一般取α=0.05。

α=0.05意义:在所设的总体随机获得手头样本的概率不超过5%。

“手头样本”也包括与总体参数偏离更大的样本在内。

(1)犯第一类错误的概率,说明拒绝H0所冒的风险不可超过α

(2)在假设检验之前人为规定,检验水准大小的选择要慎重。

在假设检验时,如果错误地不拒绝零假设的后果很严重,就需要严格尺度(尽可能拒绝H0),即选择一个较大的α;否则要选择稍小的α;

(3)在结论中的意义:

说明按不超过多大的误差为条件做结论,即最大允许误差。

若取α = 0.05水准,得P ≤α,结论的意义是:按误差不超过5%的条件拒绝H0而接受H1;

4、★▲?P值的意义

P值:从H0规定总体随机抽得等于及大于(或等于及小于)现有检验统计量值的概率。

拒绝H0时所冒的风险。

说法:

P是从总体中随机获得等于或大于现有统计量值的概率。

P是H0 成立时,获得现有差别以及更大的差别的概率。

P是H0成立是,获得手头样本以及更极端样本的概率。

P是拒绝H0时所冒的风险。

P是H0成立的概率。

P是I 型误差的概率。

P是H0 成立时,获得现有差别的概率。

P值越小,说明两个总体间的差别越大。

P是统计推断时的风险。

5、双侧检验与单侧检验

选择要结合专业实际;

在相同的检验水准下,正确地选择单侧检验将比双侧检验得到更多的检验效能。

选择要在计算检验统计量之前;

6、结论的概率性

(1)无论做出何种推断结论,总是有风险的!

拒绝H0时可能犯I类错误;

不拒绝H0时可能犯II类错误;

(2)尤其是检验统计量位于检验界值的附近时,下结论更应慎重;

(3)不拒绝H0,并不意味着接受H0。

不拒绝H0,只是说明现有的样本不足以拒绝H0假设,

huo两个总体差异并不大,假设检验不能从现有的样本中发现差别。所以不能拒绝H0。(4)结论不能绝对化。

(X)统计学已证明……

(X)由此可以肯定……

7、结论的表达

P≤α, 差异有统计学意义, 这种差异不太可能是偶然的。

P>α, 差异无统计学意义这种差异不排除偶然性。

正确对待结论

专业上有差别,假设检验拒绝H0:结果有效,可以下专业结论;

专业上无差别,假设检验不拒绝H0:下无差别的结论;

专业上有差别,假设检验不拒绝H0:增大样本含量,减少二类误差;

专业上无差别,假设检验拒绝H0:改进试验,减少误差。

8、差异检验与优度检验

(1)差异检验的意义:能够确认H1成立,故希望所得P值很小,因为P值越小,表示手头样本从H0总体随机获得之概率越小,即否定H0而确认H1成立的把握越大。

(2)优度检验的意义:确认H0成立,故希望所得P值较大,因为P值越大,表示手头样本从H0总体随机获得之概率越大。

(3)确定检验水准有区别:差异检验——确定一个小值为检验水准。

优度检验——取较大的检验水准。

9、★▲?假设检验和可信区间的关系

(1)回答的问题虽然不一样

假设检验:样本是否来自于同一总体?

可信区间:总体参数在哪里?

(2)原理相同:抽样误差的规律!

(3)在相同的α之下,若假设检验拒绝H0(p<=α),那么可信度为(1-α)的可信区间必然不包括总体参数;反之成立。

(4)可信区间和假设检验是对同一问题所作的不同结论,效果等价。

(5)可信区间比假设检验能回答更多的内容。

3 总体均数比较的假设检验的几种形式 3.1 样本均数与总体均数的比较的t 检验

这里的总体均数一般指已知的理论值或大量观察得到的稳定值。认为这是一个确定的总体。要检验的目的是手头的样本所来自的总体是否与已有的总体的一致。

3.2 配对计量资料的t 检验

当个体间的差异不均匀时,将差异较小的个体配成对子,分别给予不同的处理,以保证两组间的均衡可比性。

自身配对:服药前后;手术前后

异体配对:双胞胎;品系;来自相同的区域

配对t 检验的实质就是检验样本差值的总体均数是否为0。

3.3 成组设计计量资料比较的t 检验

3.4 两组资料比较的u 检验

当随机抽样的样本例数足够大时,t 检验统计量的自由度逐渐增大,t 分布逐渐逼近于标准正态分布,可以利用近似正态分布的原理进行u 检验。

3.5 成组设计的两几何均数比较的t 检验

医学上有些资料呈倍数关系,如血清滴度等,有些资料呈对数正态分布,如人体血铅含量等,这类资料宜用几何均数来表示其平均水平。 目的是推断各自的总体几何均数有无差别。 只须对样本观察值作变换y=lg(x)即可。

4 t 检验应用条件 正态性(Normality) 独立性(Independence)

方差齐性(Homoscedascity)

t 检验条件不满足时处理办法: t’检验;变量变换;秩和检验

5 方差齐性检验

Levene 法:从同一总体随机抽取的样本之两方差,其方差比(大方差/小方差)的分布服从 F 分布

6 方差不齐时的近似 t 检验

Cochran & Cox 法(1950) 对界值进行校正 Satterthwaite 法(1946) 对自由度进行校正

Welch 法(1947) 对自由度进行校正 两样本均数比较方法的选择

122

1(,,)

22()

() ~ s F F s ανν=大

小X X t '=

*参数统计:总体分布的分布形式为已知,对未知参数进行估计或检验的统计方法

*非参数统计:总体分布的分布形式为未知,是一种不依赖总体分布形式,即适用于任意分布的统计方法

*秩次:指全部观察值按某种顺序排列的位序

*秩和:同组秩次之和

?95%的可信度:可信区间包括总体参数的概率,用1-α表示,一班取90%、95%可人为控制

?回归系数:即直线的斜率,在直线回归方程中用b表示,意义为自变量增(减)依个单位时,应变量平均变动b个单位

?相关系数:表示样本相关系数,p表示总体相关系数,表示具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标

?计量资料:

?计数资料:

?均数的抽样误差:

中心极限定理:从均数为μ、标准差为σ的正态总体中,独立随机抽取例数为n的样本,样本均数X的分布服从正态分布

标准化率(调整率):采用统一的指标对内部构成不同的各组频率进行调整和对比的方法,调整后的率称之

参数估计:用样本信息估计总体参数,参数估计有两种方法,点估计和区间估计

完全随机设计:只考虑一个处理因素,将全部受试对象随机分配到各处理组,然后观察实验效应

随机区组设计:事先将全部受试对象按自然属性分为若干区组,各区组内受试对象特征相同或相近,且对像数与处理因素的水平数想等,然后在将每个区组内的观察对象随机地分配到各处理组

检验统计量:衡量样本与总体间的差别或偏离程度的一个统计指标

理论频数:在假设多个率或构成比相等的前提下,由构成比推算出的频数

医学统计学 研究生期末考试版.doc

一、名词解释(考10对) 1.总体;样本 总体:根据研究目的确定的、同质的全部观察单位某一指标(或某些因素及结果)的测量值总体。根据总体集合所包括元素是否有限,分为有限与无限总体。总体具有特定的分布特征及参数; 样本:以某方式按预先规定的概率从总体中随机抽取的、具有足够数量的、能够代表总体分布特征的一部分观察单位某指标数据的集合。 根据研究目的从总体中抽取部分有代表性的样本,用样本统计量推断总体参数。 2.标准差;标准误 标准差:是描述单个测量值对其均数的离散程度。标准差越大,数据的离散程度就越大,均数的代表性越差;标准差越小,均数的代表性越好。 标准误:样本统计量的标准差称为标准误,它反映样本统计量的抽样误差的大小,也反映样本统计量对总体参数的离散程度。标准误大,表示样本统计量对总体参数的代表性差;标 3、s x 96.1±;x v s t x ?±)(2/α s x 96.1±:表示从正态总体中抽样,样本含量较大时,观测值双侧95%的波动范围 x v s t x ?±)(2/α:从正态总体中抽样,样本含量较大(小)时,按照预先给定的概率a 确定的总体均值的(1—a )的可信区间。 4.计量资料(数值变量资料);计数资料(分类变量资料) 计量资料:通过度量的方法,测量每个观察单位的某项指标的量的大小而得到的一系列数据资料,其特点是多有度量单位或多为连续性资料。 计数资料:指将全体观察单位按某种属性分组,然后再分别清点各组观察单位的个数而得

到的数据资料,其特点是没有度量单位或多为非连续性资料 5.点估计;区间估计 点估计:直接利用样本统计量的一个数值来估计总体参数,比如基于一份随机样本,用x 估计u,用p估计π,用S估计σ。点估计方法简单,但未考虑抽样误差,故难以反映估计值对其真值的代表性。 区间估计:将样本统计量和标准误结合起来,按预先给定的概率(1—a)所确定的一个包含未知总体参数的范围,该范围为总体参数的置信区间(CI)。预先给定的概率(1—a)称为可信度或置信度,常取95%或99%。 6.回顾性研究;前瞻性研究 回顾性研究:即病例—对照研究,是由果到因,即先选定病例组和对照组,然后分别回顾两组过去的暴露情况,比较其差异,探索与发病相关的可能因素。回顾性研究的优点是对于患病率非常低的研究人群可获得较高的效果,研究周期较短和可以探索多个因素与患病的关联;其缺点是不能估计患病率和死亡率,容易产生回忆性偏倚和选择性偏倚。 前瞻性研究:即队列研究,是由因寻果,是将选定的人群按暴露状况分成暴露组和对照组,暴露组接触某个因素而对照组不接触某个因素,其他所有条件两组基本相同。经过一定时间随访,比较暴露组和对照组在随访期间的发病率,如果两组发病率不同,则归因于该暴露因素。前瞻性研究的优点是可以估计发病率,暴露测量可以做到无偏倚,结论比较可靠。其缺点是研究效率比较低,研究周期比较长导致在研究期间可能出现失访及各种混杂因素影响。 7、完全随机设计;随机区组设计 完全随机设计:又称为单因素设计或成组设计,是将同质的研究对象随机地分配到各处理组中进行实验观察,或从不同总体中随机抽样进行对比研究。 随机区组设计:又称配伍组设计,是在实验设计中用一个非研究因素的变量进行分层,每个层的观察对象数相等,并对每个层进行随机分组。 两种实验设计方案均为单因素实验设计。区别是:①两者观察对象随机分配方式不同;②统计分析方法不同;③误差内涵及大小不同;④检验效能不同。 8.独立性数据与重复性数据 独立性:对一群观察指标独立测定一次,形成一个群体数据,观察值间互相独立,不相互影响。 重复性:一个观察对象,同一或不同时间测定产生的数据。 9.α值;P值 α值:检验水准(显著性水准),即在假设检验中预先规定的判断小概率事件的概率尺度,通常为0.01或0.05,代表在原假设成立的前提下,拒接原假设所犯I类错误的概率。 P值:从已知总体中(或假设总体中)抽得统计量达到当前统计量这么大及比这绝对值还 H可能犯I 大的总概率,若以当前统计量为拒绝域临界点,在规定α前提下,实际欲拒绝

医学统计知识点整理(1)

医学统计学知识点整理 第一节统计学中基本概念 一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。 “同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的 二、总体与样本 1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集合。 三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验 四、误差:实测值与真值之差★ 1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。 3.非系统误差:过失误差,可以避免或清除。 五、概率 是用来描述事件发生可能性大小的一个量值,常用P表示。概率取值0~1。 统计上一般将P≤0.05或P≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。 第二节统计资料的类型★

变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。 一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g)等。 二、无序分类变量资料 又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。 分类:二分类:+ -;有效,无效;多分类:ABO血型系统 特点:没有度量衡单位,多为间断性资料 【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料 【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选C。 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 B.多分类变量 C.定量变量 D.定性变量 【答案】C 【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选C。 三、有序分类变量资料 半定量资料或等级资料:将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。 特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同举例:- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

研究生医学统计学试题

试卷编号:卷课程名称:医学统计学适用专业:科学学位专业:班级 姓名:学号:学院 (系 ):考试日期:题号一二三四五六七八九十总分统分题分30152530100签名得分 考生注意事项: 1、本试卷共6 页,请查看试卷中是否有缺页或破损。如有立即举手报告以 便更换。 2、考试结束后,考生不得将试卷、答题纸和草稿纸带出考场。 一、最佳选择题(每题 2 分,共 30 分) 得评阅 把每题的答案填入下表中: 123456789101112131415 A B C D B B A C C C B B C D B 1、描述一组正态分布资料的集中趋势,以指标为好。 A. 算术平均数; B. 几何平均数; C. 中位数; D. 变异系数 2、比较成人身高和儿童身高的离散趋势,宜用。 A. 标准差; B. 变异系数; C. 方差; D. 离均差平方和 3、对于正态分布资料,X +1.96S,所对应的面积占总面积的。 A. 95% ; B. 99% ; C. 47.5%; D. 49.5% 4、下列说法哪个是错误的?中位数适用于描述资料。 A. 最小组段无下限; B. 最大组段无上限; C. 偏态分布; D. 正态分布 5、大,表示用该样本均数估计总体均数的可靠性小。 A. S X; B. S; C.CV; D. Q U—Q L 6、某地 1992年随机抽取 100名健康女性,算得其血清总蛋白含量的均数为74g/L ,标准差为 4g/L ,则其 95%的可信区间为。

7、两样本均数比较的t 检验,分别取以下检验水准,以所取第二类错误最大。 A. α =0.01; B. α=0.05; C. α =0.10; D.α=0.20 8、两样本均数比较的t 检验结果, P<0.05 ,可认为。 A. 两样本均数不等; B. 两样本均数相等; C. 两总体均数不等; D. 两总体均数相等 9、完全随机设计的方差分析结果,P≤ 0.05,可认为。 A. 各样本均数不等或不全等; B. 各样本均数都不相等; C. 各总体均数不等或不全等; D. 各总体均数都不相等 10、某地某年肝炎发病人数占总人数的5%,这是该地该年肝炎的。 A. 年发病率; B. 年患病率; C. 患病构成比; D. 患者平均数 11、已知甲县人口较乙县年青,今欲比较两县死亡率的高低,适当的比较方法是。 A.将两县的总死亡率直接比较; B.对年龄进行标准化后,再比较两县总死亡率; C.将两县的总死亡率进行 t 检验后再比较; D.将两县的总死亡率进行χ2检验后再比较 12、下面哪一点不是Poisson 分布的性质。 A. λ =σ2; B. 当λ≥ 20 时,近似正态分布; C. 可加性; D. 相互影响性 13、χ2检验中理论数T 的计算式为。 A. n r (1 n c ) ; B. (1 n r ) n c; C. n r n c; D. n r n c N N N N 14、已知两组计量资料方差不齐,可用检验。 A. t 检验; B. U 检验; C. F 检验; D. 秩和检验 15、对一组既做相关分析又做回归分析的资料,有。 A. b=r ; B. t b=t r; C. b=a; D. r=1

医学统计学最佳选择题

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 医学统计学最佳选择题 医学统计学最佳选择题一、绪论医学统计学最佳选择题一、绪论 1.下面的变量中,属于分类变量的是 A.脉搏 B.血型C.肺活量 D.红细胞计数 E.血压 2.下面的变量中,属于数值变量的是 A.性别 B.体重 C.血型 D.职业 E.民族 3.下列有关个人基本信息的指标,其中属于有序分类变量的是 A.学历 B.民族 C.职业 D.血型 E.身高 4.若要通过样本作统计推断,样本应是 A.总体中典型的一部分 B.总体中任意部分C.总体中随机抽取的一部分 D.总体中选取的有意义的一部分E.总体中信息明确的一部分 5. 统计量是指 A.是统计总体数据得到的量 B.反映总体统计特征的量 C.是根据总体中的全部数据计算出的统计指标 D.是用参数估计出来的量 E.是由样本数据计算出来的统计指标 6.下列关于概率的说法,错误的是 A.通常用 P 表示 B.大小在 0~1 之间 C.某事件发生的频率即概率 D.在实际工作中,概率是难以获得的 E.某事件发生的概率 P0.05 时,称为小概率事件。 7.减少抽样误差的有效途径是 A.避免系统误差 B.控制随机测量误差 C.增大样本含量 D.减少样本含量 E.以上都不对二、定量资料的统计描述 1.用均数和标准差能用于全面描述下列哪种资料的特征 A.正偏态分布 B.负偏态分布 C.正态分布 D.对数正态分布 E.任意分布 2.当各观察值呈倍数变 1 / 13

医学统计学基本概念

习题-医学统计学基本概念 选择题: 1. 若以舒张期血压大于等于1 2.7kPa 为为高血压,调查某地1000 人,记录每人是否患有高血压。最后清点结果,其中有10 名高血压患者,有990 名非高血压患者。() A.这是计量数据 B.这是等级数据 C.还看不出是记数还是计量数据 D.这是连续型数据 E.这是计数数据 2、统计学中所说的样本是指() A.随意抽取的总体中任意的部分 B.有意识的选择总体中的典型部分 C.依照研究者要求选取总体中有意义的一部分 D.依照随机原则抽取总体中有代表性的一部分 E.按研究目的随意抽取有代表性的一部分 3、下列资料属等级资料的是() A.白细胞计数 B.住院天数 C.门、急症就诊人数 D.病人的病情分级(轻、中、重) E.疾病疗效(有效、无效) 4、总体是由() A.个体组成 B.研究对象组成 C.同质个体组成 D.研究指标组成 E.观察单位组成 5、抽样的目的是() A.研究样本统计量 B.由样本统计量推断总体参数 C.研究典型案例研究误差 D.研究总体参数 E.研究样本特征 6、参数是() A.参与个体数 B.总体的统计指标 C.样本的统计指标 D.样本的总和 E.参考值范围 7、关于随机抽样,下列哪一项说法是正确的() A.抽样时应使得总体中的每一个个体都有同等的机会被抽取 B.研究者在抽样时应精心挑选个体,以使样本更能代表总体 C.随机抽样即随意抽样个体 D.为确保样本具有更好的代表性,样本量应越大越好 E.以上均不对 8、统计工作各个步骤的首要基础是() A.收集资料 B.整理资料 C.核对资料 D.分析资料 E.医学研究设计 9、统计工作的基本步骤是:() A.调查资料、核对资料、整理资料 B调查资料、归纳资料、整理资料 C收集资料、核对资料、整理资料

2001级研究生医学统计学试卷

2001级研究生卫生统计学试卷 2002.1.5. 姓名学号得分 一.选择题:(每小题2分,共30分) ( d )1.在众多的变异指标中,有一种可以用以比较单位不同的两组定量资料(同一组内的数据单位相同)的变异性大小,它就是: (A)标准差(B)相关系数 (C)标准误(D)变异系数 (d )2.在进行显著性检验时,通常要先给定α值,根据样本数据计算出某统计量的值之后便可计算出一个p值来。可以说α值与p值之间有如下关系: (A)p=2α(B)p=α (C)p与α值在数量上有关,但无法简单地将其表达出来 (D)p与α值在数量上无关,但可按它们之间的大小作出统计推断 ( d )3.有些人在处理定量资料时习惯于用多次t检验代替方差分析和两两比较,这样做将会导致: (A)计算量增大(B)假阴性错误率增大 (C)试验误差大(D)假阳性错误率增大 ( b )4.为了解两种治疗方法对原发性肝癌的疗效,随机把病人分成两组,一组用5-氟尿嘧啶+辅助治疗,另一组用安慰剂+辅助治疗。治疗结果按缓解、死亡划分。第 一组12人,7人缓解、5人死亡;第二组11人,4人缓解、7人死亡,要分析两 种疗法的治疗效果之间的差别有无显著性意义,应选用的统计方法是: (A)χ2检验(B)Fisher的精确概率 (C)t检验(D)秩和检验 (a )5.某医生测得男、女各50人淋巴细胞计数L(%)(即占白细胞数的百分比),想用成组设计资料的t检验分析男、女两性之间的差别有无显著性意义,在作检验前 最好对数据作()变换。 (A)平方根(B)对数(C)平方根反正弦(D)倒数 ( a )6.有5份血清的抗体效价分别为:1:80、1:20、1:320、1:40、1:640,最合适反映此资料平均水平的指标是: (A)几何均数(B)算术均数(C)中位数(D)标准差 ( b )7.若分析肺活量和身高之间的数量关系,拟用身高值预测肺活量值,则采用(A)相关分析(B)直线回归分析 (C)方差分析(D)χ2检验 ( c )8.用二项分布直接计算概率法检验,H0:π=0.45,H1:π<0.45,当随机样本含

医学统计学最佳选择题

医学统计学最佳选择题 一、绪论 1、下面的变量中,属于分类变量的就是 A、脉搏 B、血型 C、肺活量 D、红细胞计数 E、血压 2、下面的变量中,属于数值变量的就是 A、性别 B、体重 C、血型 D、职业 E、民族 3、下列有关个人基本信息的指标,其中属于有序分类变量的就是 A、学历 B、民族 C、职业 D、血型 E、身高 4、若要通过样本作统计推断,样本应就是 A、总体中典型的一部分 B、总体中任意部分 C、总体中随机抽取的一部分 D、总体中选取的有意义的一部分 E、总体中信息明确的一部分 5、统计量就是指 A、就是统计总体数据得到的量 B、反映总体统计特征的量 C、就是根据总体中的全部数据计算出的统计指标 D、就是用参数估计出来的量 E、就是由样本数据计算出来的统计指标 6、下列关于概率的说法,错误的就是 A、通常用P表示

B、大小在0~1之间 C、某事件发生的频率即概率 D、在实际工作中,概率就是难以获得的 E、某事件发生的概率P≤0、05时,称为小概率事件。 7、减少抽样误差的有效途径就是 A、避免系统误差 B、控制随机测量误差 C、增大样本含量 D、减少样本含量 E、以上都不对 二、定量资料的统计描述 1.用均数与标准差能用于全面描述下列哪种资料的特征 A、正偏态分布 B、负偏态分布 C、正态分布 D、对数正态分布 E、任意分布 2.当各观察值呈倍数变化(等比关系)时,平均数宜用 A、均数 B、几何均数 C、中位数 D、相对数 E、四分位数间距 3、某医学资料数据大的一端没有确定数值,描述其集中趋势适用的 统计指标就是 A、M B、G C、X D、P95 E、CV 4、对于正态分布的资料 ,理论上 A、均数比中位数大

医学统计学研究生题库汇编

医学统计学复习练习题库 研究生教材使用 一、最佳选择题 1.卫生统计工作的步骤为 A.统计研究调查、搜集资料、整理资料、分析资料 B.统计资料收集、整理资料、统计描述、统计推断 C.统计研究设计、搜集资料、整理资料、分析资料 D.统计研究调查、统计描述、统计推断、统计图表 E.统计研究设计、统计描述、统计推断、统计图表 2.统计分析的主要内容有 A.统计描述和统计学检验 B.区间估计与假设检验 C.统计图表和统计报告 D.统计描述和统计推断 E.统计描述和统计图表 3.统计资料的类型包括 A.频数分布资料和等级分类资料 B.多项分类资料和二项分类资料 C.正态分布资料和频数分布资料 D.数值变量资料和等级资料 E.数值变量资料和分类变量资料 4.抽样误差是指 A.不同样本指标之间的差别 B.样本指标与总体指标之间由于抽样产生的差别 C.样本中每个体之间的差别 D.由于抽样产生的观测值之间的差别 E.测量误差与过失误差的总称 5.统计学中所说的总体是指 A.任意想象的研究对象的全体 B.根据研究目的确定的研究对象的全体 C.根据地区划分的研究对象的全体 D.根据时间划分的研究对象的全体 E.根据人群划分的研究对象的全体 6.描述一组偏态分布资料的变异度,宜用 A.全距 B.标准差 C.变异系数 D.四分位数间距

E.方差 7.用均数与标准差可全面描述其资料分布特点的是 A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.对称分布 E.任何分布 8.比较身高和体重两组数据变异度大小宜采用 A.变异系数 B.方差 C.极差 D.标准差 E.四分位数间距 9.频数分布的两个重要特征是 A.统计量与参数 B.样本均数与总体均数 C.集中趋势与离散趋势 D.样本标准差与总体标准差 E.样本与总体 10.正态分布的特点有 A.算术均数=几何均数 B.算术均数=中位数 C.几何均数=中位数 D.算术均数=几何均数=中位数 E.以上都没有 11.正态分布曲线下右侧5%对应的分位点为 A.μ+1.96σ B.μ-1.96σ C.μ+2.58σ D.μ+1.64σ E.μ-2.58σ 12.下列哪个变量为标准正态变量 A.s x μ- B.σμ-x C. x s x μ- D.x x σμ- E. s x μ- 13.某种人群(如成年男子)的某个生理指标(如收缩压)或生化指标 (如血糖水平)的正常值范围一般指 A.该指标在所有人中的波动范围 B.该指标在所有正常人中的波动范围 C.该指标在绝大部分正常人中的波动范围 D.该指标在少部分正常人中的波动范围 E.该指标在一个人不同时间的波动范围 14.下列哪一变量服从t 分布 A. σμ-x B. σμ-x C. x x σμ- D. x s x x - E. x s x μ- 2.统计分析的主要内容有

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误(ɑ错误): H0为真时却被拒绝,弃真错误 Ⅱ型错误(β错误): H0为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n

医学统计学最佳选择题

医学统计学最佳选择 一、绪论 1. 下面的变量中,属于分类变量的是 A. 脉搏 B. 血型 C. 肺活量 D. 红细胞计数 E. 血压 2. 下面的变量中,属于数值变量的是 A. 性别 B. 体重 C. 血型 D. 职业 E. 民族 3. 下列有关个人基本信息的指标,其中属于有序分类变量的是 A. 学历 B. 民族 C. 职业 D. 血型 E. 身高 4. 若要通过样本作统计推断,样本应是 A. 总体中典型的一部分 B. 总体中任意部分 C. 总体中随机抽取的一部分 D. 总体中选取的有意义的一部分 E. 总体中信息明确的一部分 5. 统计量是指

A. 是统计总体数据得到的量 B. 反映总体统计特征的量 C. 是根据总体中的全部数据计算出的统计指标 D. 是用参数估计出来的量 E. 是由样本数据计算出来的统计指标 6. 下列关于概率的说法,错误的是 A. 通常用P 表示 B. 大小在0?1之间 C .某事件发生的频率即概率 D. 在实际工作中,概率是难以获得的 E. 某事件发生的概率P< 0.05时,称为小概率事件。 7. 减少抽样误差的有效途径是 A. 避免系统误差 B. 控制随机测量误差 C. 增大样本含量 D. 减少样本含量

E. 以上都不对 二、定量资料的统计描述 1用均数和标准差能用于全面描述下列哪种资料的特征 A. 正偏态分布 B. 负偏态分布 C. 正态分布 D.对数正态分布 E. 任意分布 2. 当各观察值呈倍数变化(等比关系)时,平均数宜用 A.均数 B.几何均数 C.中位数 D.相对数 E.四分位数间距 3. 某医学资料数据大的一端没有确定数值,描述其集中趋势适用的统计指标是 A. M B. G C. X D. P95 E. CV 4. 对于正态分布的资料,理论上 A.均数比中位数大 B. 均数比中位数小 C. 均数等于中位数 D. 均数与中位数无法确定孰大孰小 E. 以上说法均不准确 5. 当资料两端含有不确定值时,描述其变异度宜采用

医学统计学试题及答案

第一套试卷及参考答案 一、选择题(40分) 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制( B ) A 条图 B 百分条图或圆图C线图D直方图 2、均数和标准差可全面描述 D 资料的特征 A 所有分布形式B负偏态分布C正偏态分布D正态分布和近似正态分布 3、要评价某市一名5岁男孩的身高是否偏高或偏矮,其统计方法是(A ) A 用该市五岁男孩的身高的95%或99%正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99%的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用(A ) A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是( A ) A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同 6. 男性吸烟率是女性的10倍,该指标为(A ) (A)相对比(B)构成比(C)定基比(D)率 7、统计推断的内容为( D ) A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A和B均不是 D. A和B均是 8、两样本均数比较用t检验,其目的是检验( C ) A两样本均数是否不同B两总体均数是否不同C两个总体均数是否相同D两个样本均数是否相同 9、有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t检验时,自由度是(D ) (A)n1+ n2(B)n1+ n2–1 (C)n1+ n2 +1 (D)n1+ n2 -2 10、标准误反映(A ) A 抽样误差的大小 B总体参数的波动大小 C 重复实验准确度的高低 D 数据的离散程度 11、最小二乘法是指各实测点到回归直线的(C) A垂直距离的平方和最小B垂直距离最小C纵向距离的平方和最小D纵向距离最小 12、对含有两个随机变量的同一批资料,既作直线回归分析,又作直线相关分析。令对相关系数检验的t值为t r,对回归系数检验的t值为t b,二者之间具有什么关系?(C) A t r>t b B t rχ20.05,ν可认为(A ) A各总体率不同或不全相同 B各总体率均不相同C各样本率均不相同 D各样本率不同或不全相同 15、某学院抽样调查两个年级学生的乙型肝炎表面抗原,其中甲年级调查35人,阳性人数4人;乙年级调查40人,阳性人数8人。该资料宜选用的统计方法为( A ) A.四格表检验 B. 四格表校正检验 C t检验 D U检验 16、为调查我国城市女婴出生体重:北方n1=5385,均数为3.08kg,标准差为0.53kg;南方n2=4896,均数为3.10kg,标准差为0.34kg,经统计学检验,p=0.0034<0.01,这意味着(D ) A 南方和北方女婴出生体重的差别无统计学意义 B 南方和北方女婴出生体重差别很大

研究生医学统计学试题

南昌大学医学院硕士生试卷 试卷编号: 卷 课程名称:医学统计学 适用专业: 科学学位 专业: 班级 姓名: 学号: 学院 (系 ): 考试日期: 题号 一 二 三 四 五 六 七 八 九 十 总分 统 分 题分 30 15 25 30 100 签名 得分 考生注意事项: 1、本试卷共 6 页,请查看试卷中是否有缺页或破损。如有立即举手 报告以便更换。 2、考试结束后,考生不得将试卷、答题纸和草稿纸带出考场。 一、最佳选择题 (每题 2 分,共 30 分) 得 评 阅 把每题的答案填入下表中: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 A B C D B B A C C C B B C D B 1、描述一组正态分布资料的集中趋势,以 指标为好。 A. 算术平均数; B. 几何平均数; C. 中位数; D. 变异系数 2、比较成人身高和儿童身高的离散趋势,宜用 。 A. 标准差; B. 变异系数; C. 方差; D. 离均差平方和 3、对于正态分布资料, X +1.96S ,所对应的面积占总面积的 。 A. 95% ; B. 99% ; C. 47.5%; D. 49.5% 4、下列说法哪个是错误的?中位数适用于描述 资料。 A. 最小组段无下限; B. 最大组段无上限; C. 偏态分布; D. 正态分布 5、 大,表示用该样本均数估计总体均数的可靠性小。 A. S X ; B. S ; C.CV ; D. Q U —Q L 6、某地 1992 年随机抽取 100 名健康女性,算得其血清总蛋白含量的均数为 74g/L ,标准 差为 4g/L ,则其 95%的可信区间为 。

医学统计学总复习练习题(含答案)

一、最佳选择题 1.卫生统计工作的步骤为C A.统计研究调查、搜集资料、整理资料、分析资料 B.统计资料收集、整理资料、统计描述、统计推断 C.统计研究设计、搜集资料、整理资料、分析资料 D.统计研究调查、统计描述、统计推断、统计图表 E.统计研究设计、统计描述、统计推断、统计图表 2.统计分析的主要内容有D A.统计描述和统计学检验 B.区间估计与假设检验 C.统计图表和统计报告 D.统计描述和统计推断 E.统计描述和统计图表 3.统计资料的类型包括E A.频数分布资料和等级分类资料 B.多项分类资料和二项分类资料 C.正态分布资料和频数分布资料 D.数值变量资料和等级资料 E.数值变量资料和分类变量资料 4.抽样误差是指B A.不同样本指标之间的差别 B.样本指标与总体指标之间由于抽样产生的差别 C.样本中每个体之间的差别 D.由于抽样产生的观测值之间的差别 E.测量误差与过失误差的总称 5.统计学中所说的总体是指B

A.任意想象的研究对象的全体 B.根据研究目的确定的研究对象的全体 C.根据地区划分的研究对象的全体 D.根据时间划分的研究对象的全体 E.根据人群划分的研究对象的全体 6.描述一组偏态分布资料的变异度,宜用D A.全距 B.标准差 C.变异系数 D.四分位数间距 E.方差 7.用均数与标准差可全面描述其资料分布特点的是C A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.对称分布 E.任何分布 8.比较身高和体重两组数据变异度大小宜采用A A.变异系数 B.方差 C.极差 D.标准差 E.四分位数间距 9.频数分布的两个重要特征是C A.统计量与参数 B.样本均数与总体均数 C.集中趋势与离散趋势 D.样本标准差与总体标准差 E.样本与总体 10.正态分布的特点有B A.算术均数=几何均数 B.算术均数=中位数 C.几何均数=中位数 D.算术均数=几何均数=中位数 E.以上都没有 11.正态分布曲线下右侧5%对应的分位点为D

医学统计学 研究生期末考试版(包含大题)

一、名词解释 1总体与样本 总体:指根据研究目的确定的同质的所有研究对象的某项或某几项指标测量值的集合。根据总体集合所包括的元素分为有限总体和无限总体。 样本:指以某种方式按预先规定的概率从总体中随机抽取的、足够数量的、能代表总体分布特征的一部分观察单位某指标数据的集合。 联系:根据研究目的,从总体中抽取的部分有代表性的样本,可用样本统计量推断总体参数。 2标准差与标准误 标准差(S ):描述一个变量的所有观察值与均数的平均离散程度的指标。表示单个观测值对某均数的离散程度,用于描述观测值的变异范围。标准差越大表明数据的离散程度越大。 变量值的标准差()2 1x x S n -∑=-,阳性结果标准差()1S np p =- 标准误:描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度,相当于多个样本均数的标准差,反映的是样本均数之间的变异。表示样本统计量对总体参数的离散程度,用于推断估计总体参数的可信区间和假设检验。标准误越大表明样本的统计值越差,样本对总体的代表性越差。样本均数的标准误S X S n =,样本阳 性率的标准误S p ()1p p n -= 3.X ±1.96S 与X ±t 0.05/2,v S X X 即算术平均数,描述一个变量的所有观察值的平均水平,适用于频数分布对称数据。 S 即标准差,描述一个变量的所有观察值与均数的平均离散程度。 S X 即标准误,反映样本均数间的离散程度和样本均数与相应总体均数间的差异,是说明均数抽样误差大小的指标。 t0.05/2,v 表示双侧尾部面积为0.05,自由度为v 的t 界值。 X ±1.96S :表示从正态总体中抽大样本,观测值95%的波动范围,常用来制定参考值范围,判断某人的某一指标是否正常。 X ±t 0.05/2,v S X :表示从正态总体中抽大样本或小样本,总体均数95%的可信区间(置信区间),表示该区间有95%的可能性包含总体均数。 4.计量资料与计数资料 计量资料:指通过度量衡的方法,测量每一个观察单位的某项指标的量的大小而得到的一系列数据资料,其特点是多有度量衡单位和多为连续性资料。 计数资料:指将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数而得到的数据资料,其特点是没有度量衡单位和多为间断性资料。 5 点估计与区间估计 点估计:就是直接用随机样本的样本均数X 作为做为总体均数μ的一个估计,用样本的标准差S 作为总体标准差δ的一个估计,即直接用样本统计量X ±S 作为总体参数μ±δ的估计值。 区间估计:是按预先给定的概率(1-α)用一个区间来估计总体均数,这个区间称为可信度(1-α)的可信区间(CI )或置信区间,预先给定的1-α称为可信度或置信度,常取95%或99%。 6回顾性研究与前瞻性研究 回顾性研究:现有结果,后回顾过去一探求接受因素的百分比,由果溯因,例:病例—对照研究。不能直接估计相对危险度,通常要通过计算优势比或比数比(OR )来近似估计相对危险度。 前瞻性研究:先设定因素,后经过一段时间研究后,分析暴露因素与疾病发生之间的因果关系。由因探果,例:队列研究。可直接估计相对危险度(RR )。 7完全随机设计与完全随机区组设计 完全随机设计:又称为单因素设计或成组设计,是将同质的研究对象随机地分配到各处理组中进行实验观察,或从不同总体中随机抽样进行对比研究。 随机区组设计:又称配伍组设计,是在实验设计中用一个非研究因素的变量进行分层,每个层的观察对象数相等,并对每个层进行随机分组。 两种实验设计方案均为单因素实验设计。区别是:①两者观察对象随机分配方式不同;②统计分析方法不同;③误差内涵及大小不同;④检验效能不同。

医学统计学基本概念[资料]

医学统计学基本概念 1.医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门应用科学。 2.统计工作的步骤:(1)设计(2)收集资料(3)整理资料(4)分析资料;或者分三步:(1)研究设计(2)资料分析(3)结论。 3.定量资料:又称为数值变量资料,特点:(1)各观察值之间有量的差别;(2)数据间有连续性。它是指变量的取值不止是可列个,而是可取某区间[a,b],(-oo,oo) 上的一切值。 4.定性资料:又称为分类资料、分类变量资料(包括二项分类、多项分类资料),特点:(1)各观察值之间有质的差别;(2)数据间有离散性。它是指变量的取值有 限的,至多是可列多个。附:无序分类:二项分类、多项分类 5.等级资料:又称为半定量资料,有序分类,指各类之间有程度的差别。特点:()各观察单位间或者相同,或者存在质的差别;(2)各等级间只有顺序,而无数值 大小,故等级之间不可度量。 6.个体individual:即每个观察单位。 7.总体population:根据研究目的确定的同质观察单位的全体。 8.样本:是从总体中随机抽取部分观察单位,其实测值的集合。样本包含的观察单位数称为样本含量或样本大小。 9.参数parameters:描述某总体特征的统计指标称为总体参数,简称参数。如总体均数、总体标准差等。特点:参数是未知的,固有的,不变的! 10.统计量:描述某样本特征的的统计指标称为样本统计量,简称统计量。特点:统计量是已知的,变化的,有误差的! 11.概率probability:是描述随机事件发生的可能性大小的数值。常用P表示。它的大小界于0和1之间。 12.随机事件:(1)可重复性:相同条件下可重复进行;(2)随机性:出现两种机两种以上结果;(3)偶然性:实验前不能肯定将出现哪种结果。 13.频率的稳定性:在重复试验中,事件A的频率随着试验次数的不断增加将愈来愈接近一个常数p,频率的这一特性称为频率的稳定性。 14.概率的统计定义:频率的稳定性充分说明随机事件出现的可能是事物本身固有的一种客观属性,因而是可以被认识和度量的。这个常数p就称为事件A出现的概 率(probability),记作P(A) 或P。这一定义称为概率的统计定义。它是事件A发生的可能性大小的一个度量。容易看出,频率为一变量,是样本统计量,而概率为常数,是一总体参数。实践中,当试验次数足够多时,可以近似地将频率作为概率的一个估计。 15.小概率原理:当某事件发生的概率小于或等于0.05时,统计学通常称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能 发生,此即为小概率原理。 16.同质(homogeneity):性质相同的事物称为同质的。 17.变异(variation):同质的事物内个体之间或同一个体重复测量间的差别称为变异。 18.参考值范围(reference interval)又称正常值范围(normal range)。由于正常人的形态、功能、生化等各种指标的数据因人而异,而且同一个人的某些指标还会随着时间、 机体内外环境的改变而变化,因此需要确定其波动范围,即正常值范围,简称正常值(normal value)。 19.正常值范围(normal ranges),是指绝大多数正常人的某指标范围。 20.抽样误差(sampling error):由于抽样造成的样本统计量和总体参数之间的差异。 21.标准误(standard error):样本统计量的标准差称为标准误。样本均数的标准差称为均数的标准误。 22.参数估计:由样本信息估计总体参数称为参数估计,包括点估计和区间估计。 23.点估计(point estimation) :直接用样本统计量作为总体参数的估计值。这种估计方法简单,但未考虑抽样误差的大小。 24.区间估计(interval estimation) :按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度为1-α的可信区间(confidence interval, CI),又 称置信区间。这种估计方法称为区间估计。 25.可信度为1-α的可信区间的确切涵义是:每100个样本所算得的100(1-α)%可信区间,平均有100(1-α)个包含了总体参数。如取α=0.05,则每100个样本所算得 的100个95%可信区间,平均有95个包含总体参数在内,有5个不包含总体参数。 26.可信区间的两个要素:第一个要素是可靠性,常用可信度1-α的大小表示;第二个要素是精确性,常用可信区间的长度CU-CL衡量。 27.均数95%可信区间,其涵义是:如果重复100次抽样,每次样本含量均为n,每个样本均按(见课本P42)构建可信区间,则在此100个可信区间内, 理论上有95个包含总体均数,而有5个不包含总体均数。 28.可信度为95%的CI的涵义:每100个样本,按同样方法计算95%的CI,平均有95%的CI包含了总体参数。这里的95%,指的是方法本身!而不是某个区间! 29.第一类错误(I型错误):拒绝了实际上成立的H0假设,称为“假阳性”, 用α来表示。 30.第二类错误(II型错误):不拒绝实际上不成立的H0,称为“假阴性”,用β来表示。 31.检验效能(power of a test)或检验功效:1-β称检验效能(power of a test),过去称把握度。为当两总体确有差异,按检验水准α所能发现该差异的能力。1-β只取单 尾。 32.完全随机设计:根据某一试验因素,将试验对象完全按随机设计分为若干个组,每个组的样本例数可以相等,也可以不等,分别求出各组试验结果的均数,即为 单因素多个样本均数,单个因素可以有多个水平,R>2 33.随机区组设计又称配伍组设计(Random Block Design):即两因素多个样本均数的比较(或称两因素方差分析,two way analysis of variance)。 34.绝对数:在计数资料中,各组的观察数称绝对数。 35.相对数:是两个有联系的指标的比,计数资料的统计描述主要是相对数(relative number)。 36.率(rate):说明某现象发生的频率或强度,常用%、‰、1/万、1/10万等作单位,表示在一定范围内,某现象的发生数与可能发生某现象的总数之比。率的结果常 以保留1-2位整数为宜。

研究生-医学统计学基本概念

医学统计学基本概念 一.医学统计学 运用概率论和数理统计等数学的原理和方法,研究医学领域中资料的搜集、整理、分析和推断的一门学科。 二、统计学中的基本概念 总体和样本参数与统计量随机同质与变异抽样误差概率小概率原理 1.变量(variable) (1)变量:收集资料中确定了的观察单位称为个体,在统计工作中反映个体的特征称为变量。(2)随机变量:由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测,简称变量. 变量的观察值(观察结果)可以是定量的也可以是定性的,可分为: 数值变量:可以度量大小,如血压等 分类变量:无序变量:血型、性别 有序变量:如测定某人群血清反应分-、+、++、+++四级 2.总体和样本(population and sample) ?总体(population):是根据研究目的确定的研究对象中所有同质观察单位某项指标取值的集合。?样本(sample):是从总体中随机抽取的具有代表性的部分观察单位某项指标取值的集合。 个体:构成总体的最基本的观察单位。 样本含量:样本中所包含的最基本的个体数,常用n表示。 ?统计推断就是要从样本信息去推断总体特征 ?样本要具代表性,须:①随机抽取②例数足够多。 3、参数与统计量( parameter and statistic ) 参数parameter:描述总体的统计指标或特征值,是事物本身固有的、不变的,为常数,常用希腊字母表示。 统计量statistic:描述某样本特征的统计指标或特征值,随试验不同而不同,其分布是有规律的、变化的,常用拉丁字母表示。 4. 同质与变异(homogeneity and variation) 同一总体或其样本中的观察单位在所取指标方面必须具有相同的性质,称为同质性(homogeneity),与之相反的是异质性或间杂性(heterogeneity). 同质(homogeneity):观察单位具有相的性质;异质(heterogeneity):性质不同。 同质性是构成研究总体的必备条件; 研究内容不同,对同质性的要求不同; 不同质的个体不能笼统地混在一起分析 变异(variation):指在同质的基础上各观察单位(或个体)之间的差异,是以具有同质性的观察单位为载体,某项观察指标在其观察单位之间显示的差别。, 一种或多种不可控因素(已知或未知)作用下所产生的一种综合表现。 就每个观察单位而言,其观察指标的变异是不可预测的,或者说是随机的(random) 个体变异是普遍存在的。 就总体而言,个体变异是有规律的。变异规律的体现:分布(distribution) 没有个体变异,就没有统计学!

相关主题
文本预览
相关文档 最新文档