当前位置:文档之家› 医学统计学 第一课绪论及基本概念(已整理完毕)

医学统计学 第一课绪论及基本概念(已整理完毕)

医学统计学 第一课绪论及基本概念(已整理完毕)
医学统计学 第一课绪论及基本概念(已整理完毕)

《医学统计学》颜虹主编

Fundamentals of Biostatistics(Bernasrd Rosner)孙尚拱译(2004第五版)

SPSS统计分析张文彬主编

一、绪论

【统计学】应用数学的原理和方法,研究数据的搜集、整理与分析的科学,对不确定性数据做出科学的推断。

产生过程:随机现象→随机事件→样本空间→随机变量

现象:确定现象

随机现象:与确定现象相对的不确定现象,在一定的条件下,其有多种可能的结果,而究竟出现哪一种结果事先不可预言的现象。≥2种结果。

特征:随机性、规律性

两种阶段认识随机现象:1.通过观察或实验取得观测资料;

2.通过分析所得资料来认识现象。

注:无论数据分析多么先进,都要以能够代表真实情况的数据为基础。

在偶然的背后发现必然

【随机事件】随机现象的一个结果叫随机事件。

【样本空间】为了便于研究随机试验,我们将随机试验E的所有基本事件所组成的集合叫做样本空间,记为Ω。每一个基本事件为样本点,基本事件也就是集合Ω的元素。

可以把样本空间中的基本事件映射成某个变量的取值,这样就引进了随机变量的概念。

【随机变量】在样本空间中,对不同事件指定有相应概率的数值函数,此函数成为一个随机变量。P (X=x k)=p k,X泛指随机变量

如抛掷硬币:

正反

10→随机事件的选项

X

k

P

0.50.5→对应概率,所有加起来=1

k

特征:与普通函数相比有两点不同:

1.随机变量随着实验结果不同取不同的值,因此在实验之前只能知道取值的范围,而不能预先知

道取什么值。由于随机试验的各个结果出现有一定的概率,所以随机变量的出现也有一定的概率。

2.普通函数定义在实数轴上,而随机变量是定义在样本空间上,样本空间的元素不一定是实数

二、统计学中的基本概念

1.总体(Population)、样本(Sample)

【总体】根据研究目的确定的、全体同质个体的某个(或某些)变量值。比如:糖尿病的血红蛋白水平、高血压患者的血压

分类:无限总体→新生儿体重

有限总体→一所学校今年新生的身高

【样本】:总体中的一部分,为了保证样本的代表性,在取样时我们要求X1、X2……Xn互相独立,并且与总体X有相同的概率分布。(同分布)如总体为正态分布,则样本应该也几近于正态分布。为母体分布的缩影。

为了保证样本的可靠性与代表性,需要采用随机的方法抽取样本(在总体中每个个体具有非0的

机会被抽到)

2.参数(Parameter)、统计量(Statistic)

【参数】根据总体个体值统计出现的描述总体的特征量,成为总体参数。一般用希腊字母表示,如总体均数μ,总体标准差σ等

【统计量】跟总体参数相对应,根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示,如样本均数x(上横线),样本标准差S等。统计量为随机变量的函数

【统计量的数学定义】样本中的观察值含有总体信息,但较为分散,一般不宜直接用于统计推断,常常把样本信息进行加工处理,用样本的函数形式集中起来,例如:

称定义在样本空间上,而且不依赖于未知参数的函数f(X1,X2……X n)为统计量。显然,统计量都是随机变量。

→用统计量(样本)推算参数(总体)的过程

总体与样本的关系

母体→样本:抽样

随机样本:指总体中的每个成员有非零的概率被抽取到

简单随机样本:指总体中的每个成员有相同的概率被抽取到。

随着样本量n的增加,统计量逐渐接近参数,故实际操作中一定要保证抽样次数

样本→母体:统计推断:参数估计/假设检验。

3.误差(Error)

【误差】是指实际观察值与观察真值之差。由于医学领域所研究的变量通常是随机变量,不能保证获得绝对正确的数据,但所获得数据的准确度和可靠度却是必须考虑的。

分为:

1.随机误差:X与u相比的差值既不定向(正或负)也不定量(靠统计方法和统计建模来决定),影响因素众多,变化无方向性,不可避免,但可用统计方法进行分析→统计没有绝对的随机,只能尽量随机减少误差。

取值范围:正负无穷;产生原因:个体差异

2.系统误差:由于仪器未校正、测量者感官的某种障碍、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值两侧,而是有方向性、系统性或周期性地偏离真值。既定向也定量(不在统计范畴,在最初实验设计时需尽量避免)

3.非系统误差(过失误差):研究者偶然失误造成的

后两种加起来为偏倚

测量结果=真值+系统误差+生物变异+随机测量误差+其他误差

【抽样误差】个体变异产生的、随机抽样引起的统计量与总体系统参数间的差异成为抽样误差

均数抽样误差的计算公式:

统计量的分布成为抽样分布,抽样误差是抽样研究中不可避免的,但具有一定的规律性

抽样误差也是随机变量

4.资料类型

1)计量资料:对每个观察单位某个变量用测量或其他定量方法获得的定量观察结果,一般有计量单位(鉴别),每个数值有准确的数值含义,量化。抗体滴度?

2)计数资料:将观察单位按某种属性分组计数的定性观察结果。数出来的,与计量资料相反,无量的差别,只有质的不同。比如血型

3)等级资料:将观察单位按某种属性的不同程度分组计数观察资料,特点是具有半定量性质。

为非参数检验。如按照不同的治疗预后计数,为半定量,每组有计量,但组与组之间无定量关系。

(不是等级越多越好)。

客观性:主、客观指标选择

客观指标是借助测量仪器和检验等手段来反映的观察结果,具有较好的真实性和可靠性。

主观指标是受试对象的主观感觉、记忆、陈述或实验者的主观判断结果,具有随意性和偶然性。

5.频率与概率

【频率】某随机事件A在n次重复试验中出现了m次,则比值m/n称为事件A出现的频率,记

【概率】在同一条件下,重复进行n次试验,随机事件A出现了m次,若试验次数n充分大以后,频率m/n稳定地在某一确定值p的附近摆动,则称为p为事件A的概率。即经过大量试验后,可用A的频率作为所求概率的近似值

P(A)=p≈m/n

上述表示式也称概率的频率解释,或称统计解释。

频率的稳定性便是概率,样本抽样次数越多,越接近于概率。

频率与概率间的关系:

1.样本频率总是围绕概率上下波动。

2.样本含量n越大,波动幅度越小,频率越接近概率。

三、医学统计工作的基本步骤

描述未知现象的理想模型

未知现象是众多因素作用的结果,这些因素可以分成两类:

1.确定因素:能够事先确定的因素

2.随机因素:不能事先确定,但具有频率稳定性的因素

【统计推断】推断统计学研究的问题之一是如何准确有效地利用已有样本资料提供的信息,以一定的精确度对给定假设作出判断。由于这种推断是基于样本数据,而样本数据并不能包含究对象的全部信

息,因此推断结果可能犯有两类错误。

医学统计知识点整理(1)

医学统计学知识点整理 第一节统计学中基本概念 一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。 “同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的 二、总体与样本 1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集合。 三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验 四、误差:实测值与真值之差★ 1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。 3.非系统误差:过失误差,可以避免或清除。 五、概率 是用来描述事件发生可能性大小的一个量值,常用P表示。概率取值0~1。 统计上一般将P≤0.05或P≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。 第二节统计资料的类型★

变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。 一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g)等。 二、无序分类变量资料 又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。 分类:二分类:+ -;有效,无效;多分类:ABO血型系统 特点:没有度量衡单位,多为间断性资料 【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料 【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选C。 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 B.多分类变量 C.定量变量 D.定性变量 【答案】C 【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选C。 三、有序分类变量资料 半定量资料或等级资料:将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。 特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同举例:- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

医学统计学基本概念

习题-医学统计学基本概念 选择题: 1. 若以舒张期血压大于等于1 2.7kPa 为为高血压,调查某地1000 人,记录每人是否患有高血压。最后清点结果,其中有10 名高血压患者,有990 名非高血压患者。() A.这是计量数据 B.这是等级数据 C.还看不出是记数还是计量数据 D.这是连续型数据 E.这是计数数据 2、统计学中所说的样本是指() A.随意抽取的总体中任意的部分 B.有意识的选择总体中的典型部分 C.依照研究者要求选取总体中有意义的一部分 D.依照随机原则抽取总体中有代表性的一部分 E.按研究目的随意抽取有代表性的一部分 3、下列资料属等级资料的是() A.白细胞计数 B.住院天数 C.门、急症就诊人数 D.病人的病情分级(轻、中、重) E.疾病疗效(有效、无效) 4、总体是由() A.个体组成 B.研究对象组成 C.同质个体组成 D.研究指标组成 E.观察单位组成 5、抽样的目的是() A.研究样本统计量 B.由样本统计量推断总体参数 C.研究典型案例研究误差 D.研究总体参数 E.研究样本特征 6、参数是() A.参与个体数 B.总体的统计指标 C.样本的统计指标 D.样本的总和 E.参考值范围 7、关于随机抽样,下列哪一项说法是正确的() A.抽样时应使得总体中的每一个个体都有同等的机会被抽取 B.研究者在抽样时应精心挑选个体,以使样本更能代表总体 C.随机抽样即随意抽样个体 D.为确保样本具有更好的代表性,样本量应越大越好 E.以上均不对 8、统计工作各个步骤的首要基础是() A.收集资料 B.整理资料 C.核对资料 D.分析资料 E.医学研究设计 9、统计工作的基本步骤是:() A.调查资料、核对资料、整理资料 B调查资料、归纳资料、整理资料 C收集资料、核对资料、整理资料

医学统计学课后习题答案

医学统计学 第一章 绪论 答案 名词解释: (1) 同质与变异:同质指被研究指标的影响因素相同,变异指在同质的基 础上各观察单位(或个体)之间的差异。 (2) 总体和样本:总体是根据研究目的确定的同质观察单位的全体。样本 是从总体中随机抽取的部分观察单位。 (3) 参数和统计量:根据总体个体值统计算出来的描述总体的特征量,称 为总体参数,根据样本个体值统计计算出来的描述样本的特征量称为 样本统计量。 (4) 抽样误差:由抽样造成的样本统计量和总体参数的差别称为抽样误 差。 (5) 概率:是描述随机事件发生的可能性大小的数值,用p 表示 (6) 计量资料:由一群个体的变量值构成的资料称为计量资料。 (7) 计数资料:由一群个体按定性因数或类别清点每类有多少个个体,称 为计数资料。。 (8) 等级资料:由一群个体按等级因数的级别清点每类有多少个体,称为 等级资料。 是非题: 1. × 2. × 3. × 4. × 5. √ 6. √ 7. × 单选题: 1. C 2. E 3. D 4. C 5. D 6. B 第二章 计量资料统计描述及正态分布 答案 名词解释: 1. 平均数 是描述数据分布集中趋势(中心位置)和平均水平的指标 2. 标准差 是描述数据分布离散程度(或变量变化的变异程度)的指标 3. 标准正态分布 以μ服从均数为0、标准差为1的正态分布,这种正态分布 称为标准状态分布。 4. 参考值范围 参考值范围也称正常值范围,医学上常把把绝大多数的某指 标范围称为指标的正常值范围。 填空题: 1. 计量,计数,等级 2. 设计,收集资料,分析资料,整理资料。 3. σ μχ-=u (变量变换)标准正态分布、0、1 4. σ± σ96.1± σ58.2± 68.27% 95% 99%

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误(ɑ错误): H0为真时却被拒绝,弃真错误 Ⅱ型错误(β错误): H0为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n

《医学统计学》习题册

上海交通大学网络教育学院医学院分院 医学统计学课程练习册 第一章绪论 一、单选题 1. 小概率事件是指P () B.P<0.05 2. 从一个数值变量资料的总体中抽样,产生抽样误差的原因是 A总体中个体值存在差别 3. 调查中国放射科医生接触射线情况,全国放射科医生的全部组成为 A.研究总体 4. 若以舒张压90mmHg、收缩压130 mmHg为高血压阳性临界点,调查3000人 中有300名血压超过临界值,这份资料属于:B. 分类资料 5. 下列属于统计量的指标是 C 样本标准差 6. 调查某地区高血压的患病情况,抽样调查了2000名居民,得到了2000对舒 张压与收缩压的数据,请问此资料是: C 定量资料 7. 下列属于参数的指标是D总体标准差 8. 用样本做统计推断,样本应是B. 总体中有代表性一部分 9. 统计推断的内容为 D. A和B均是 10. 随机调查社区2000人,得到平均体重为60公斤,则该资料属于 A. 计量资料 二、名词解释 1.抽样误差:由于总体中各观察单位间存在个体变异,抽样研究中抽取的样本,只包含总体的一部分观察单位,因而样本指标不一定恰好等于相应的总体指标。样本指标与总体指标的差异称为抽样误差。 2.总体:根据研究目的性质相同的观察单位的全体。 3.分类变量:用定性方法测得,表现为互不相容的类别或属性,如性别等。 4. 数值变量:用定量方法测量得到,表现为数值大小,一般有计量单位,如身高、体重。 三、问答题 1.什么叫计量资料,它的统计分析方法有哪些(包括统计描述和统计推断)?

在科研中,用测量方法获得数据,对各观察单位用定量方法测定某项指标量的大小,这类资料一般有度量衡单位。 计量资料的统计分析包括统计描述和统计推断:统计描述主要是统计图表、集中趋势和离散趋势的描述,集中趋势中可以计算算术均数、几何均数、中位数和众数,离散趋势可以计算极差、标准差、方差和变异系数。统计推断包括点估计、区间估计和假设检验。常用的假设检验方法包括:t检验、u检验、方差分析(F检验)和秩和检验。 2.举例说明总体与样本的关系。 总体是根据研究目的确定的同质的所有观察单位某项观察值(变量值)的集合。例如研究某地2002年正常成人白细胞数,观察对象是该地2002年全部正常成人,观察单位是每个人,观察值是每人测得的白细胞数,则该地2002年全部正常成人的白细胞数就构成了一个总体;从总体中随机抽取部分观察单位其某项指标的实测值组成样本。从上述的某地2002年正常成人中随机抽取150人,这150正常成人的白细胞数就是样本。抽取样本的目的是用样本的信息推论总体特征。 第二章定量数据的统计描述 一、单选题 1. 若资料为偏态分布,最好计算下列哪个指标来衡量集中程度D 中位数 2. 若资料为正态分布,最好计算下列哪个指标来衡量集中程度 B 算术均数 3. 对数正态分布资料计算集中趋势应该用 A 几何均数 4. 抗体滴度资料通常使用哪个集中趋势指标 B 几何均数 5. 平均数指标体系中不包括A 全距 6. 抽样调查了10名居民体重资料,请问平均体重该用哪个指标计算C 算术 均数 7. 样本标准差的的取值情况是 A 大于或等于零 8. 若资料为正态分布,最好计算下列哪个指标来衡量离散程度 C 标准差 9. 若资料为偏态分布,最好计算下列哪个指标来衡量离散程度() B 四分位间距 10. 若资料末端没有截尾值,最好计算下列哪个指标来衡量离散程度() D 四分位间距 11. 一组资料的例数等于25,方差等于16,标准差等于A 4 12 一组资料的标准差等于5,变异系数等于10%,样本均数等于 B 50 13. 标准差与算术均数的使用条件( ) B 相同 14. 比较两组正态分布数据离散度大小的指标,如果单位不同该用( )

医学统计学题库完整

第一章 绪论习题 一、选择题 1.统计工作和统计研究的全过程可分为以下步骤:(D ) A. 调查、录入数据、分析资料、撰写论文 B. 实验、录入数据、分析资料、撰写论文 C. 调查或实验、整理资料、分析资料 D. 设计、收集资料、整理资料、分析资料 E. 收集资料、整理资料、分析资料 2.在统计学中,习惯上把(B )的事件称为小概率事件。 A.10.0≤P B. 05.0≤P 或01.0≤P C. 005.0≤P D.05.0≤P E. 01.0≤P 3~8 A.计数资料 B.等级资料 C.计量资料 D.名义资料 E.角度资料 3.某偏僻农村144名妇女生育情况如下:0胎5人、1胎25人、2胎70人、3胎30人、4胎14人。该资料的类型是( A )。 4.分别用两种不同成分的培养基(A 与B )培养鼠疫杆菌,重复实验单元数均为5个,记录48小时各实验单元上生长的活菌数如下,A :48、84、90、123、171;B :90、116、124、225、84。该资料的类型是(C )。 5.空腹血糖测量值,属于( C )资料。 6.用某种新疗法治疗某病患者41人,治疗结果如下:治愈8人、显效23人、好转6人、恶化3人、死亡1人。该资料的类型是(B )。 7.某血库提供6094例ABO 血型分布资料如下:O 型1823、A 型1598、B 型2032、AB 型641。该资料的类型是(D )。 8. 100名18岁男生的身高数据属于(C )。 二、问答题 1.举例说明总体与样本的概念. 答:统计学家用总体这个术语表示小异的对象全体,通常称为目标总体,而资料常来源于目标总体的一个较小总体,称为研究总体。实际中由于研究总体的个体众多,甚至无限多,因此科学的办法是从中抽取一部分具有代表性的个体,称为样本。例如,关于吸烟与肺癌的研究以英国成年男子为总体目标,1951年英国全部注册医生作为研究总体,按照实验设计随机抽取的一定量的个体则组成了研究的样本。 2.举例说明同质与变异的概念 答:同质与变异是两个相对的概念。对于总体来说,同质是指该总体的共同特征,即该总体区别于其他总体的特征;变异是指该总体部的差异,即个体的特异性。例如,某地同性别同年龄的小学生具有同质性,其身高、体重等存在变异。 3.简要阐述统计设计与统计分析的关系 答:统计设计与统计分析是科学研究中两个不可分割的重要方面。一般的,统计设计在前,然而一定的统计设计

医学统计学重点Word版

医学统计学重点 第一章绪论 1.基本概念: 总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。 样本:从总体中随机抽取部分个体的某个变量值的集合。 总体参数:刻画总体特征的指标,简称参数。是固定不变的常数,一般未知。 统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。 抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。 频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。称m/n为事件A在n次试验中出现的频率或相对频率。 概率:频率所稳定的常数称为概率。 统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。 统计推断:包括参数估计和假设检验。用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计。用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。 2.样本特点:足够的样本含量、可靠性、代表性。 3.资料类型: (1)定量资料:又称计量资料、数值变量或尺度资料。是对观察对象测量指标的数值大小所得的资料,观察指标是定量的,表现为数值大小。每个个体都能观察到一个观察指标的数值,有度量衡单位。 (2)分类资料:包括无序分类资料(计数资料)和有序分类资料(等级资料) ①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由 各分组标志及其频数构成。包括二分类资料和多分类资料。 二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容。 多分类:将观察对象按多种互斥的属性分类 ②等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单 位的个数所得的资料。

医学统计学绪论完整课件

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 医学统计学绪论完整课件 医学统计学(( Medical Statistics))绪论(( Instruction )) 3 工作和生活中常见的统计学问题明天是否下雨?体育彩票能否中奖?( 概率论子女为什么象父母,其强度有多大?( 相关与回归归人口普查、疾病调查是如何进行的?( 调查设计,抽样如何判断药物的疗效?( 假设检验统计学是对令人困惑费解的数字问题做出设想的艺术。 4 统计是一种对客观现象数量方面进行的调查研究和分析; 是收集、整理、分析、推断、判断等认识活动的总称。 统计学(Statistics )的定义 A science dealing with the collection, analysis, interpretation, and presentation of masses of numerical data ( Webster International Dictionary ) The science and art of dealing with variation in data through collection, classification, and analysis in such a way as to obtain reliable results (A Dictionary of Epidemiology) 统计学:是关于数据收集、整理、表达、分析与推断的普遍原理和方法,是一门处理数据变异性的科学与艺术,其目的是求得可靠的结果。 统计学是工具学科,指导专业学科的学习和应用。 7 医学统计学是应用统计学基本原理 1 / 12

医学统计学基本概念[资料]

医学统计学基本概念 1.医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门应用科学。 2.统计工作的步骤:(1)设计(2)收集资料(3)整理资料(4)分析资料;或者分三步:(1)研究设计(2)资料分析(3)结论。 3.定量资料:又称为数值变量资料,特点:(1)各观察值之间有量的差别;(2)数据间有连续性。它是指变量的取值不止是可列个,而是可取某区间[a,b],(-oo,oo) 上的一切值。 4.定性资料:又称为分类资料、分类变量资料(包括二项分类、多项分类资料),特点:(1)各观察值之间有质的差别;(2)数据间有离散性。它是指变量的取值有 限的,至多是可列多个。附:无序分类:二项分类、多项分类 5.等级资料:又称为半定量资料,有序分类,指各类之间有程度的差别。特点:()各观察单位间或者相同,或者存在质的差别;(2)各等级间只有顺序,而无数值 大小,故等级之间不可度量。 6.个体individual:即每个观察单位。 7.总体population:根据研究目的确定的同质观察单位的全体。 8.样本:是从总体中随机抽取部分观察单位,其实测值的集合。样本包含的观察单位数称为样本含量或样本大小。 9.参数parameters:描述某总体特征的统计指标称为总体参数,简称参数。如总体均数、总体标准差等。特点:参数是未知的,固有的,不变的! 10.统计量:描述某样本特征的的统计指标称为样本统计量,简称统计量。特点:统计量是已知的,变化的,有误差的! 11.概率probability:是描述随机事件发生的可能性大小的数值。常用P表示。它的大小界于0和1之间。 12.随机事件:(1)可重复性:相同条件下可重复进行;(2)随机性:出现两种机两种以上结果;(3)偶然性:实验前不能肯定将出现哪种结果。 13.频率的稳定性:在重复试验中,事件A的频率随着试验次数的不断增加将愈来愈接近一个常数p,频率的这一特性称为频率的稳定性。 14.概率的统计定义:频率的稳定性充分说明随机事件出现的可能是事物本身固有的一种客观属性,因而是可以被认识和度量的。这个常数p就称为事件A出现的概 率(probability),记作P(A) 或P。这一定义称为概率的统计定义。它是事件A发生的可能性大小的一个度量。容易看出,频率为一变量,是样本统计量,而概率为常数,是一总体参数。实践中,当试验次数足够多时,可以近似地将频率作为概率的一个估计。 15.小概率原理:当某事件发生的概率小于或等于0.05时,统计学通常称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能 发生,此即为小概率原理。 16.同质(homogeneity):性质相同的事物称为同质的。 17.变异(variation):同质的事物内个体之间或同一个体重复测量间的差别称为变异。 18.参考值范围(reference interval)又称正常值范围(normal range)。由于正常人的形态、功能、生化等各种指标的数据因人而异,而且同一个人的某些指标还会随着时间、 机体内外环境的改变而变化,因此需要确定其波动范围,即正常值范围,简称正常值(normal value)。 19.正常值范围(normal ranges),是指绝大多数正常人的某指标范围。 20.抽样误差(sampling error):由于抽样造成的样本统计量和总体参数之间的差异。 21.标准误(standard error):样本统计量的标准差称为标准误。样本均数的标准差称为均数的标准误。 22.参数估计:由样本信息估计总体参数称为参数估计,包括点估计和区间估计。 23.点估计(point estimation) :直接用样本统计量作为总体参数的估计值。这种估计方法简单,但未考虑抽样误差的大小。 24.区间估计(interval estimation) :按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度为1-α的可信区间(confidence interval, CI),又 称置信区间。这种估计方法称为区间估计。 25.可信度为1-α的可信区间的确切涵义是:每100个样本所算得的100(1-α)%可信区间,平均有100(1-α)个包含了总体参数。如取α=0.05,则每100个样本所算得 的100个95%可信区间,平均有95个包含总体参数在内,有5个不包含总体参数。 26.可信区间的两个要素:第一个要素是可靠性,常用可信度1-α的大小表示;第二个要素是精确性,常用可信区间的长度CU-CL衡量。 27.均数95%可信区间,其涵义是:如果重复100次抽样,每次样本含量均为n,每个样本均按(见课本P42)构建可信区间,则在此100个可信区间内, 理论上有95个包含总体均数,而有5个不包含总体均数。 28.可信度为95%的CI的涵义:每100个样本,按同样方法计算95%的CI,平均有95%的CI包含了总体参数。这里的95%,指的是方法本身!而不是某个区间! 29.第一类错误(I型错误):拒绝了实际上成立的H0假设,称为“假阳性”, 用α来表示。 30.第二类错误(II型错误):不拒绝实际上不成立的H0,称为“假阴性”,用β来表示。 31.检验效能(power of a test)或检验功效:1-β称检验效能(power of a test),过去称把握度。为当两总体确有差异,按检验水准α所能发现该差异的能力。1-β只取单 尾。 32.完全随机设计:根据某一试验因素,将试验对象完全按随机设计分为若干个组,每个组的样本例数可以相等,也可以不等,分别求出各组试验结果的均数,即为 单因素多个样本均数,单个因素可以有多个水平,R>2 33.随机区组设计又称配伍组设计(Random Block Design):即两因素多个样本均数的比较(或称两因素方差分析,two way analysis of variance)。 34.绝对数:在计数资料中,各组的观察数称绝对数。 35.相对数:是两个有联系的指标的比,计数资料的统计描述主要是相对数(relative number)。 36.率(rate):说明某现象发生的频率或强度,常用%、‰、1/万、1/10万等作单位,表示在一定范围内,某现象的发生数与可能发生某现象的总数之比。率的结果常 以保留1-2位整数为宜。

医学统计学重点图表总结

定量资料统计描述常用的统计指标及其适用场合 描述内容指标意义适用场合 平均水平均数个体的平均值对称分布 几何均数平均倍数取对数后对称分布 中位数位次居中的观察值 ①非对称分布;②半定量资料;③末端开口资料; ④分布不明 众数频数最多的观察值不拘分布形式,概略分析 调和均数基于倒数变换的平 均值 正偏峰分布资料 变异度全距观察值取值范围不拘分布形式,概略分析 标准差(方差)观察值平均离开均 数的程度 对称分布,特别是正态分布资料 四分位数间距居中半数观察值的 全距 ①非对称分布;②半定量资料;③末端开口资料; ④分布不明 变异系数标准差与均数的相 对比 ①不同量纲的变量间比较;②量纲相同但数量级相 差悬殊的变量间比较 4. 常用统计图有哪些?分别适用于什么分析目的? 常用统计图的适用资料及实施方法 条图组间数量对比用直条高度表示数量大小 直方图定量资料的分布用直条的面积表示各组段的频数或频率 百分条图构成比用直条分段的长度表示全体中各部分的构成比 饼图构成比用圆饼的扇形面积表示全体中各部分的构成比 线图定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系 半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系 1

1 散 点 图 双变量间的关联 点的密集程度和形成的趋势,表示两现象间的相关关系 箱 式 图 定量资料取值范围 用箱体、线条标志四分位数间距及中位数、全距的位置 茎 叶 图 定量资料的分布 用茎表示组段的设置情形,叶片为个体值,叶长为频数 定性资料统计描述常用的统计指标及其适用场合 指标 计算公式 适用场合 频率 n/N 估计总体中某一结局发生的概率 频率分布 n 1/N ,n 2/N,…..,n k /N 估计总体中所有可能结局发生的概率 强度 阳性人数/总观察人时数 估计总体中单位时间内某一结局发生的概率 比 A/B 估计两个指标的相对大小 4.常用参考值范围的制定? 参考值范围(%) 正态分布法 百分位数法 双侧 单侧 双侧 单侧 下限 上限 下限 上限 90 S X 64.1± S X 1.28- S X 1.28+ P 5~P 95 P 10 P 90 95 S X 96.1± S X 64.1- S X 64.1+ P 2.5~P 97 .5 P 5 P 95 99 S X 58.2± S X 2.33- S X 2.33+ P 0.5~P 99 .5 P 1 P 99 1.标准差与标准误的区别与联系?

医学统计学重点总结教学提纲

医学统计学 第一章 医学统计中的基本概念 1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。 2 资料的类型:计量资料(数值变量),计数资料(无序分类),等 变异(variation ):在同质的基础上被观察个体的差异。级分组资料(有序分类)。 3 同质(homogeneity ):对研究指标有影响的非实验因素相同。 4 总体(population ):根据研究目的确定的同质的全部研究对象称总体 。 样本(sample ):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。 5 参数(parameter ):总体的设计指标称为参数。 统计量(statistic ):样本的统计指标称为统计量。 6 变量(variable ):观察对象的特征或指标称为变量,测量的结果即为变量值。 7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。 第二章 集中趋势的统计描述 一 算术均法(mean )简称为均数,适用于正态或近似正态分布资料 (一)直接法 X n x n X X X n ∑= +?++= 21 (二)加权法(针对频数表)n fx n x f f f X k k ∑= +++= (21) 二 几何均数(geometic mean,G )适用于倍数关系变化,经对数转换后呈正态分布(如:抗 体滴度,血清凝集效价,细菌计数,某些物质浓度等) G= n n X X X ?21 为了计算方便,常改用对数的形式计算,即=G lg 1 -( n X ∑lg ) 对于频数表资料,可用公式 G=lg 1 -(n x f ∑lg ) 三 中位数(M )和百分位数 中位数:适用于偏态分布资料,末端无确切数值的资料及分布情况不确定 公式:M=L+( M L f f n -5.0) M i L,M i ,M f 分别为M 所在组段的下限,组距和频数,L f 为M 所在组段之前各组数的累积频数。 百分位数:用符号X P 表示,x 即百分位 公式:x P =L+( x L f f x n -%·)x i 式中L,x i ,x f 分别为x P 所在组段的下限,组距和频数,

医学统计学名词解释概念总结

一名解 医学统计学:是用统计学原理和方法研究生物医学问题的一门学科。他包括了研究设计、数据收集、整理、分析以及分析结果的正确解释和表达。 统计描述:用统计指标、统计图表对资料的数量特征及分布规律进行客观的描述和表达。 统计推断:在一定的置信度和概率保证下,用样本信息推断总体特征: ①参数估计:用样本的指标去推断总体相应的指标 ②假设检验:由样本的差异推断总体之间是否可能存在的差异 同质:一个总体中有许多个体,他们之所以共同成为人们研究的对象,必定存在共性,我们说一些个体处于同一总体,就是指他们大同小异,具有同质性。 总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。 样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。 随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。 变异:在自然状态下,个体间测量结果的差异称为变异(variation)。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。 (1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表现为数值大小,一般有度量衡单位。 (2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。 (3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。 概率:概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大。0﹤P(A)﹤1。 频率:在相同的条件下,独立重复做n 次试验,事件A 出现了m 次,则比值m/n 称为随机事件A 在n 次试验中出现的频率(freqency)。当试验重复很多次时P(A)= m/n。 随机误差(random error)又称偶然误差,是指排除了系统误差后尚存的误差。它受多种因素的影响,使观察值不按方向性和系统性而随机的变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。 抽样误差(sampling error )是指样本统计量与总体参数的差别。在总体确定的情况下,总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。 系统误差:系统误差(systematic error)是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值的两侧,而是有方向性、系统性或周期性地偏离真值。系统误差可以通过实验设计和完善技术措施来消除或使之减少。 随机变量:随机变量(random variable)是指取指不能事先确定的观察结果。随机变量的具体内容虽然是各式各样的,但共同的特点是不能用一个常数来表示,而且,理论上讲,每个变量的取值服从特定的概率分布。 参数:参数(paramater)是指总体的统计指标,如总体均数、总体率等。总体参数是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数。

医学统计学课后习题答案解析

医学统计学 第一章绪论 答案 名词解释: (1)同质与变异:同质指被研究指标的影响因素相同,变异指在同质的基础上各观察单位(或个体)之间的差异。 (2)总体和样本:总体是根据研究目的确定的同质观察单位的全体。 样本是从总体中随机抽取的部分观察单位。 (3)参数和统计量:根据总体个体值统计算出来的描述总体的特征量,称为总体参数,根据样本个体值统计计算出来的描述样本的 特征量称为样本统计量。 (4)抽样误差:由抽样造成的样本统计量和总体参数的差别称为抽样误差。 (5)概率:是描述随机事件发生的可能性大小的数值,用p表示 (6)计量资料:由一群个体的变量值构成的资料称为计量资料。 (7)计数资料:由一群个体按定性因数或类别清点每类有多少个个体,称为计数资料。。 (8)等级资料:由一群个体按等级因数的级别清点每类有多少个体,称为等级资料。 是非题: 1.× 2.× 3.× 4.× 5.√ 6.√ 7.× 单选题: 1.C 2.E 3.D 4.C 5.D 6.B 第二章计量资料统计描述及正态分布 答案 名词解释: 1. 平均数是描述数据分布集中趋势(中心位置)和平均水平的指标 2. 标准差是描述数据分布离散程度(或变量变化的变异程度)的指标 3. 标准正态分布以μ服从均数为0、标准差为1的正态分布,这种正态分布 称为标准状态分布。 4. 参考值范围参考值范围也称正常值范围,医学上常把把绝大多数的某指 标范围称为指标的正常值范围。 填空题:

1. 计量,计数,等级 2. 设计,收集资料,分析资料,整理资料。 3. σ μχ-=u (变量变换)标准正态分布、0、1 4. σ± σ96.1± σ58.2± % 95% 99% 5. % 6.均数、标准差 7. 全距、方差、标准差、变异系数 8. σμ96.1± σμ58.2± 9. 全距 R 10. 检验水准、显着性水准、、 () 11. 80% 90% 95% 99% 95% 12. 95% 99% 13. 集中趋势、离散趋势 14. 中位数 15. 同质基础,合理分组 16. 均数,均数,μ,σ,规律性 17. 标准差 18. 单位不同,均数相差较大 是非题: 1. × 2. √ 3. × 4. × 5. × 6. √ 7. √ 8. √ 9. √ 10. √ 11. √ 12. √ 13. × 14. √ 15. √ 16. × 17. × 18. × 19. √ 20. √ 21. √ 单选题: 1. B 2. D 3. C 4. A 5. C 6. D 7. E 8. A 9. C 10. D 11. B 12. C 13. C 14. C 15. A 16. C 17. E 18. C 19. D 20. C 21. B 22. B 23. E 24. C 25. A 26. C 27. B 28. D 29. D 30. D 31. A 32. E 33. D 34. A 35. D 36. D 37. C 38. E 39. D 40. B 41. C 42. B 43. D 44. C 45. B 问答题: 1.均数﹑几何均数和中位数的适用范围有何异同 答:相同点,均表示计量资料集中趋势的指标。

医学统计学相关公式汇总

医学统计学相关公式汇总 Chapter 基本概念 显著性检验(test of significance ):计算P 值 医学统计工作的内容: 1、实验设计:最关键最重要 2、收集资料:最基础 原始资料:实验数据 现场调查资料 医疗卫生工作记录 报表 报告卡 质量控制——精度和偏倚 3、整理资料 (1) 资料的逻辑检查(坏数) (2) 一致性检查 (3) 原始数据加工:频数分布表 4、分析资料:统计描述(表、图、离散趋势、集中趋势)和统计推断 统计描述类型的选择: 集中趋势 离散趋势 对称、正态 μ,x S SS ,, 对数正态 G S lgX 偏态及其他 M Q ,R 单位不同或均数差别大 CV 医学统计的资料类型:计量资料、计数资料、等级分组资料 医学统计学的对象:有变异的事物 总体和样本: 总体(population )的特性:同质性、大量性、差异性。

抽样的要求:代表性、随机性、可靠性、可比性。 样本的三性:代表性、随机性、可靠性。 可靠性(reliability ):实验的结果要具有可重复性。即由科研课题的样本得出的结论所推测总体的结论有较大的可信度。 两样本间具有:可比性。 误差的类别: 1、系统误差(system error ):在资料的收集过程中,由于仪器初始状态没有调零、标准试剂未经矫正、标准指定偏高或偏低等原因,造成的观察结果的倾向性的偏大或偏小。必须克服。 2、随机测量误差(random measurement error ):在避免系统误差的情况下,由于各种偶然因素的影响造成对同一对象多次测量值的不一致。 3、抽样误差(sampling error ):由于抽样造成的的样本统计量与总体参数之间的差别。不可避免。样本含量越大,抽样误差越小。如均数的抽样误差:|-X | 。 概率(probability ):P (A ) 小概率事件:P ≤0.05(有统计学意义)或P ≥0.01(有高度统计学意义)。 Chapter 集中趋势的统计描述 手工整理资料频数表(frequency table )的步骤: 1、求极差(全距) 2、确定组数、组距 参考组距=全距 / 组数 3、确定组段 4、手工编制划记表 直方图(histogram ): 高度:各组的频数 纵轴 宽度:组距 横轴表示组限 均数(average ): 适用:对称分布或偏度不大的资料,尤其适合正态分布。 抽样 总体 样本 推断

医学统计学知识点讲课讲稿

医学统计学知识点

第一章绪论 1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。 2、研究对象:具有不确定性结果的事物。 3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。 4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。 5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。 6、医学统计学中的基本概念 (1) 同质与变异 同质,指根据研究目的所确定的观察单位其性质应大致相同。 变异,指总体内的个体间存在的、绝对的差异。 统计学通过对变异的研究来探索事物。 (2) 变量与数据类型 变量,是反映实验或观察对象生理、生化、解剖等特征的指标。 变量的观测值,称为数据 分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。(如身高、体重、血压、温度等) 定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。包括二分类、无序多分类。(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB等) 有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。 统计方法的选用与数据类型有密切的关系。 (3)总体与样本 总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。 样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。抽样,是从研究总体中随机抽取部分有代表性的观察单位。 参数,指描述总体特征的指标。 统计量,指描述样本特征的指标。 (4)误差 误差,指观测值与真实值、统计量与参数之间的差别。 可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。 随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。 抽样误差,是抽样引起的统计量与参数间的差异。 抽样误差主要来源于个体的变异。 统计学主要研究抽样误差。 (5)概率 概率,是描述某事件发生可能性大小的量度。 必然事件,事件肯定发生,概率P(U)=1; 随机事件,事件可能发生,可能不发生,概率介于0≤P(A)≤ 1; 不可能事件,事件肯定不发生,概率P(∮)=0; 小概率事件,事件发生的可能性很小,概率P(A)≤ 0.05、或P(A)≤ 0.01。

医学统计学定性资料统计描述思考与练习带答案

第五章定性资料的统计描述 【思考与练习】 一、思考题 1.应用相对数时需要注意哪些问题? 2. 为什么不能以构成比代替率? 3. 标准化率计算的直接法和间接法的应用有何区别? 4. 常用动态数列分析指标有哪几种?各有何用途? 5. 率的标准化需要注意哪些问题? 二、案例辨析题 某医生对98例女性生殖器溃疡患者的血清进行检测,发现杜克雷氏链杆菌、梅毒螺旋体和人类单纯疱疹病毒2型病原体感染患者分别是30、51、17例,于是该医生得出结论:女性生殖器溃疡患者3种病原体的感染率分别为30.6%(30/98)、52.0%(51/98)和17.4%(17/98)。该结论是否正确?为什么? 三、最佳选择题 1. 某地2006年肝炎发病人数占当年传染病发病人数的10.1%,该指标为B A. 率 B. 构成比 C. 发病率 D. 相对比 E. 时点患病率 2. 标准化死亡比SMR是指A A. 实际死亡数/预期死亡数 B. 预期死亡数/实际死亡数 C. 实际发病数/预期发病数 D. 预期发病数/实际发病数 E. 预期发病数/预期死亡数 3. 某地人口数:男性13,697,600人,女性13,194,142人;五种心血管疾病的死

亡人数:男性16774人,女性23334人;其中肺心病死亡人数:男性13952人,女性19369人。可计算出这样一些相对数: 11395283.18%16774 p ==, 21395219369 83.08%1677423334p +==+, 313952 101.86/1013697600 p = =万, 416774122.46/1013697600p = =万,523334 176.85/1013194142 p = =万, 645p p p =+ 71395219369 123.91/101369760013194142 p += =+万 81677423334 149.15/101369760013194142 p += =+万 该地男性居民五种心血管疾病的死亡率为D A. 1p B. 2p C. 3p D. 4p E. 5p 4. 根据第3题资料,该地居民五种心血管病的总死亡率为E A. 1p B. 2p C. 5p D. 6p E. 8p 5. 根据第3题资料,该地男、女性居民肺心病的合计死亡率为D A. 2p B. 5p

相关主题
文本预览
相关文档 最新文档