医学统计学 第一课绪论及基本概念(已整理完毕)
- 格式:pdf
- 大小:252.21 KB
- 文档页数:4
医学统计学的基本内容第一章医学统计学的基本内容第一节医学统计学的含义1、医学统计学定义医学统计学(statistics)作为一门学科的定义是:关于医学数据收集、表达和分析的普遍原理和方法。
2、医学统计学研究方法:通过大量重复观察,发现不确定的医学现象背后隐藏的统计学规律。
3、医学统计推论的基础:在一定条件下,不确定的医学现象发生可能性,即概率。
第二节、统计学的几个重要概念一(资料的类型1、计量资料(数值变量):对每一观察对象用定量的方法,测定某项指标所得的资料。
一般有度量衡单位,每个对象之间有量的区别。
2、计数资料(分类变量):对观察对象按属性或类型分组计数所得的资料。
每个对象之间没有量的差异,只有质的不同。
3、等级资料(有序分类变量):对观察对象按属性或类型分组计数,但各属性或类型之间又有程度的差别。
注意:不同类型的资料采用的统计分析方法不同;三类资料类型可以相互转化。
二、总体根据研究目的所确定的同质的所有观察对象某项变量值的集合1、有限总体:只包括在确定时间、空间范围内的有限个观察对象。
2、无限总体:没有时间、空间范围的限制,观察对象的数量是不确定的,无限的三、样本从总体中随机抽取部分观察对象,其某项变量值的集合。
从总体中随机抽取样本的目的是: 用样本信息来推断总体特征。
四、随机事件可以发生也可以不发生,可以这样发生也可以那样发生的事件。
亦称偶然事件。
五、概率描述随机事件发生可能性大小的数值,记作,,其取值范围0?P?1,一般用小数表示。
,,0,事件不可能发生必然事件(随机事件的特例);,,1,事件必然发生;,?0,事件发生的可能性愈小;,?1,事件发生的可能性愈大六、小概率事件习惯上将,?0.05或,?0.01 的随机事件称小概率事件。
表示某事件发生的可能性很小。
七、参数和统计量参数:总体指标,如总体均数、总体率,一般用希腊字母表示统计量:样本指标,如样本均数、样本率,一般用拉丁字母表示八、学习医学统计学的方法1、重点掌握“四基”:基本知识、基本概念、基本原理和基本方法;2、重视统计方法在实际中应用,重视实习和综合训练;注意学习每种统计方法的应用范围、应用条件,大多数公式只要求了解其意义和使用方法,不用记忆和探究数理推导。
第一章 绪论总体:根据研究目的确定的同质的所有观察单位某种变量值的集合。
总体包括有限总体和无限总体。
样本:从总体中随机抽取的部分观察单位,其实测值的集合。
获取样本仅仅是手段,通过样本信息来推断总体特性才是研究的目的。
资料的类型计量资料、计数资料和等级资料。
误差包括随机误差、系统误差和非系统误差。
抽样误差:由抽样造成的样本统计量和总体参数之间的差异或者是各个样本统计量之间的差异称为抽样误差。
概率:是描述随机事件发生可能性大小的一个度量。
取值范围0≤P ≤1。
小概率事件:表示在一次实验或观察中该事件发生的可能性很小,可以认为很可能不发生。
P ≤0.05或P ≤0.01。
医学统计学的步骤:设计、收集资料、整理资料和分析资料。
统计分析包括:统计描述和统计推断。
统计推断包括:参数估计和假设检验。
第二章计量资料的统计描述频数表和频数分布图的用途:(1)描述频数分布的类型,以便选择相应的统计指标和分析方法。
对称分布:集中位置在中间,左右两侧頻数基本对称。
偏态分布:正、负偏态分布正偏态集中位置偏向值小一侧,负偏态反之。
(2)描述頻数分布的特征;(3)便于发现资料中的可疑值;(4)便于进一步计算统计指标和进行统计分析。
计量资料集中趋势包括算术均数、几何均数和中位数。
算术均数:直接法(样本小):n x x ∑=;頻数表法(样本大)x =nfx ∑ 几何均数:直接法:)lg (lg 1n x G ∑-=;頻数表法)lg (lg )lg (lg 11n x f fx f G ∑∑∑--==(常用于等比资料或对数正态分布资料)中位数:直接法:n 为奇数2/)1(+=n x M ,n 为偶数2/)(12/2/++=n n x x M ;頻数表法:∑-⨯+=)%50(L M M f n f iL M 。
中位数的应用注意事项:可用于各种分布资料,不受极端值的影响,主要用于(1)偏态分布资料(2)端点无确切值的资料(3)分布不明确的资料。
医学统计学重点第一章绪论1.根本概念:总体:根据研究目确实定的性质相同或相近的研究对象的某个变量值的全体。
样本:从总体中随机抽取局部个体的某个变量值的集合。
总体参数:刻画总体特征的指标,简称参数。
是固定不变的常数,一般未知。
统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。
抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。
频率:假设事件A在n次独立重复试验中发生了m次,那么称m为频数。
称m/n为事件A在n 次试验中出现的频率或相对频率。
概率:频率所稳定的常数称为概率。
统计描述:选用适宜统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
统计推断:包括参数估计和假设检验。
用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计。
用样本差异或样本与总体差异推断总体之间是否可能存在差异,称为假设检验。
2.样本特点:足够的样本含量、可靠性、代表性。
3.资料类型:〔1〕定量资料:又称计量资料、数值变量或尺度资料。
是对观察对象测量指标的数值大小所得的资料,观察指标是定量的,表现为数值大小。
每个个体都能观察到一个观察指标的数值,有度量衡单位。
〔2〕分类资料:包括无序分类资料〔计数资料〕和有序分类资料〔等级资料〕①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由各分组标志及其频数构成。
包括二分类资料和多分类资料。
二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容。
多分类:将观察对象按多种互斥的属性分类②等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单位的个数所得的资料。
4.统计工作根本步骤:统计设计、资料收集、资料整理、统计分析。
第二章实验研究的三要素1.实验设计三要素:被试因素、受试对象、实验效应2.误差分类:随机误差〔抽样误差、随机测量误差〕、系统误差、过失误差。
3.实验设计的三个根本原那么:对照原那么、随机化分组原那么、重复原那么。
《医学统计学》颜虹主编Fundamentals of Biostatistics (BernasrdRosner)孙尚拱译(2004第五版)SPSS统计分析张文彬主编一、绪论【统计学】应用数学的原理和方法,研究数据的搜集、整理与分析的科学,对不确定性数据做出科学的推断。
产生过程:随机现象→随机事件→样本空间→随机变量现象:确定现象随机现象:与确定现象相对的不确定现象,在一定的条件下,其有多种可能的结果,而究竟出现哪一种结果事先不可预言的现象。
≥2种结果。
特征:随机性、规律性两种阶段认识随机现象:1.通过观察或实验取得观测资料;2.通过分析所得资料来认识现象。
注:无论数据分析多么先进,都要以能够代表真实情况的数据为基础。
在偶然的背后发现必然【随机事件】随机现象的一个结果叫随机事件。
【样本空间】为了便于研究随机试验,我们将随机试验E的所有基本事件所组成的集合叫做样本空间,记为Ω。
每一个基本事件为样本点,基本事件也就是集合Ω的元素。
可以把样本空间中的基本事件映射成某个变量的取值,这样就引进了随机变量的概念。
【随机变量】在样本空间中,对不同事件指定有相应概率的数值函数,此函数成为一个随机变量。
P X泛指随机变量(X=x k)=p k,如抛掷硬币:正反1 0→随机事件的选项XkP0.5 0.5→对应概率,所有加起来=1k特征:与普通函数相比有两点不同:1.随机变量随着实验结果不同取不同的值,因此在实验之前只能知道取值的范围,而不能预先知道取什么值。
由于随机试验的各个结果出现有一定的概率,所以随机变量的出现也有一定的概率。
2.普通函数定义在实数轴上,而随机变量是定义在样本空间上,样本空间的元素不一定是实数二、统计学中的基本概念1.总体(Population)、样本(Sample)【总体】根据研究目的确定的、全体同质个体的某个(或某些)变量值。
比如:糖尿病的血红蛋白水平、高血压患者的血压分类:无限总体→新生儿体重有限总体→一所学校今年新生的身高【样本】:总体中的一部分,为了保证样本的代表性,在取样时我们要求X1、X2……Xn互相独立,并且与总体X有相同的概率分布。
《医学统计学》颜虹主编
Fundamentals of Biostatistics(Bernasrd Rosner)孙尚拱译(2004第五版)
SPSS统计分析张文彬主编
一、绪论
【统计学】应用数学的原理和方法,研究数据的搜集、整理与分析的科学,对不确定性数据做出科学的推断。
产生过程:随机现象→随机事件→样本空间→随机变量
现象:确定现象
随机现象:与确定现象相对的不确定现象,在一定的条件下,其有多种可能的结果,而究竟出现哪一种结果事先不可预言的现象。
≥2种结果。
特征:随机性、规律性
两种阶段认识随机现象:1.通过观察或实验取得观测资料;
2.通过分析所得资料来认识现象。
注:无论数据分析多么先进,都要以能够代表真实情况的数据为基础。
在偶然的背后发现必然
【随机事件】随机现象的一个结果叫随机事件。
【样本空间】为了便于研究随机试验,我们将随机试验E的所有基本事件所组成的集合叫做样本空间,记为Ω。
每一个基本事件为样本点,基本事件也就是集合Ω的元素。
可以把样本空间中的基本事件映射成某个变量的取值,这样就引进了随机变量的概念。
【随机变量】在样本空间中,对不同事件指定有相应概率的数值函数,此函数成为一个随机变量。
P (X=x k)=p k,X泛指随机变量
如抛掷硬币:
正反
10→随机事件的选项
X
k
P
0.50.5→对应概率,所有加起来=1
k
特征:与普通函数相比有两点不同:
1.随机变量随着实验结果不同取不同的值,因此在实验之前只能知道取值的范围,而不能预先知
道取什么值。
由于随机试验的各个结果出现有一定的概率,所以随机变量的出现也有一定的概率。
2.普通函数定义在实数轴上,而随机变量是定义在样本空间上,样本空间的元素不一定是实数
二、统计学中的基本概念
1.总体(Population)、样本(Sample)
【总体】根据研究目的确定的、全体同质个体的某个(或某些)变量值。
比如:糖尿病的血红蛋白水平、高血压患者的血压
分类:无限总体→新生儿体重
有限总体→一所学校今年新生的身高
【样本】:总体中的一部分,为了保证样本的代表性,在取样时我们要求X1、X2……Xn互相独立,并且与总体X有相同的概率分布。
(同分布)如总体为正态分布,则样本应该也几近于正态分布。
为母体分布的缩影。
为了保证样本的可靠性与代表性,需要采用随机的方法抽取样本(在总体中每个个体具有非0的
机会被抽到)
2.参数(Parameter)、统计量(Statistic)
【参数】根据总体个体值统计出现的描述总体的特征量,成为总体参数。
一般用希腊字母表示,如总体均数µ,总体标准差σ等
【统计量】跟总体参数相对应,根据样本个体值统计计算出来的描述样本的特征量。
用拉丁字母表示,如样本均数x(上横线),样本标准差S等。
统计量为随机变量的函数
【统计量的数学定义】样本中的观察值含有总体信息,但较为分散,一般不宜直接用于统计推断,常常把样本信息进行加工处理,用样本的函数形式集中起来,例如:
称定义在样本空间上,而且不依赖于未知参数的函数f(X1,X2……X n)为统计量。
显然,统计量都是随机变量。
→用统计量(样本)推算参数(总体)的过程
总体与样本的关系
母体→样本:抽样
随机样本:指总体中的每个成员有非零的概率被抽取到
简单随机样本:指总体中的每个成员有相同的概率被抽取到。
随着样本量n的增加,统计量逐渐接近参数,故实际操作中一定要保证抽样次数
样本→母体:统计推断:参数估计/假设检验。
3.误差(Error)
【误差】是指实际观察值与观察真值之差。
由于医学领域所研究的变量通常是随机变量,不能保证获得绝对正确的数据,但所获得数据的准确度和可靠度却是必须考虑的。
分为:
1.随机误差:X与u相比的差值既不定向(正或负)也不定量(靠统计方法和统计建模来决定),影响因素众多,变化无方向性,不可避免,但可用统计方法进行分析→统计没有绝对的随机,只能尽量随机减少误差。
取值范围:正负无穷;产生原因:个体差异
2.系统误差:由于仪器未校正、测量者感官的某种障碍、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值两侧,而是有方向性、系统性或周期性地偏离真值。
既定向也定量(不在统计范畴,在最初实验设计时需尽量避免)
3.非系统误差(过失误差):研究者偶然失误造成的
后两种加起来为偏倚
测量结果=真值+系统误差+生物变异+随机测量误差+其他误差
【抽样误差】个体变异产生的、随机抽样引起的统计量与总体系统参数间的差异成为抽样误差
均数抽样误差的计算公式:
统计量的分布成为抽样分布,抽样误差是抽样研究中不可避免的,但具有一定的规律性
抽样误差也是随机变量
4.资料类型
1)计量资料:对每个观察单位某个变量用测量或其他定量方法获得的定量观察结果,一般有计量单位(鉴别),每个数值有准确的数值含义,量化。
抗体滴度?
2)计数资料:将观察单位按某种属性分组计数的定性观察结果。
数出来的,与计量资料相反,无量的差别,只有质的不同。
比如血型
3)等级资料:将观察单位按某种属性的不同程度分组计数观察资料,特点是具有半定量性质。
为非参数检验。
如按照不同的治疗预后计数,为半定量,每组有计量,但组与组之间无定量关系。
(不是等级越多越好)。
客观性:主、客观指标选择
客观指标是借助测量仪器和检验等手段来反映的观察结果,具有较好的真实性和可靠性。
主观指标是受试对象的主观感觉、记忆、陈述或实验者的主观判断结果,具有随意性和偶然性。
5.频率与概率
【频率】某随机事件A在n次重复试验中出现了m次,则比值m/n称为事件A出现的频率,记
【概率】在同一条件下,重复进行n次试验,随机事件A出现了m次,若试验次数n充分大以后,频率m/n稳定地在某一确定值p的附近摆动,则称为p为事件A的概率。
即经过大量试验后,可用A的频率作为所求概率的近似值
P(A)=p≈m/n
上述表示式也称概率的频率解释,或称统计解释。
频率的稳定性便是概率,样本抽样次数越多,越接近于概率。
频率与概率间的关系:
1.样本频率总是围绕概率上下波动。
2.样本含量n越大,波动幅度越小,频率越接近概率。
三、医学统计工作的基本步骤
描述未知现象的理想模型
未知现象是众多因素作用的结果,这些因素可以分成两类:
1.确定因素:能够事先确定的因素
2.随机因素:不能事先确定,但具有频率稳定性的因素
【统计推断】推断统计学研究的问题之一是如何准确有效地利用已有样本资料提供的信息,以一定的精确度对给定假设作出判断。
由于这种推断是基于样本数据,而样本数据并不能包含究对象的全部信
息,因此推断结果可能犯有两类错误。