当前位置:文档之家› 医学统计学第三版复习总结

医学统计学第三版复习总结

医学统计学第三版复习总结
医学统计学第三版复习总结

第一章绪论

统计的三大特征:实用性、丰富性、公平性

总体(population):

●是根据研究目的确定的、同质的全部研究对象中所有观察单位某种变量值的集合。

●同质基础:时间、空间、条件等

●(1)有限总体(finite population):有限观察单位

●(2)无限总体(infinite population):很多为无限总体。

样本

●根据随机化原则从总体中抽取的一定数量(sample size)的个体,称为样本

(sample),用样本信息来推断总体特征。

●从总体中抽取部分个体的过程称为抽样(sampling)。

同质(homogeneity)

●是指影响被研究指标的非实验因素相同。

变异(variation, variablility )

●同质基础上的各观察单位(亦称为个体)之间的差异为变异。如同性别、同年龄、

同民族、同地区儿童的身高有高有低,称为身高的变异。

参数(parameter)和统计量(statistic)

●总体的统计指标称为参数。

如:总体均数(μ),总体发病率,总体死亡率,等,

●样本的统计指标称为统计量

如:样本均数(x),样本发病率,样本死亡率,等,

●统计学上用不同的符号表示。

误差(error)

观察值与实际值的差异,成为误差。

分为:过失误差;系统误差;随机测量误差;随机抽样误差;

(1)过失误差(mistaken error):过失所致的误差(不认真,错误判断,记录等原因);(2)系统误差(systematic error):仪器未校准所致的误差(统一偏高,或偏低);

这两类误差可以避免。

(3)随机测量误差(random measurement error):不同观察者或同一观察者多次观察值的不相同。

这种误差不可避免。

(4)抽样误差(sampling error):总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),表现为多次抽样的样本均数或率不同。这种由抽样引起的差异称为抽样误差。

抽样误差愈小,用样本推断总体的精确度愈高;反之,其精确度愈低。

由于生物的个体变异是客观存在的,因而抽样误差是不可避免的,但抽样误差有一定的规律性。

小概率事件定理:

“小概率事件一次抽样不可能发生”

变量及变量值

●变量(variable):观察对象的特征或指标。对变量进行取值所采用的工具或标准成

为测量尺度(scale)。

●测量的结果称为变量值(value of variable) 或观察值(observed value,

measurements)。

随机化(randomization)

使总体中的每个个体有均等的机会成为样本观察单位的过程,称为随机化。

●随机抽样旨在避免人的主观性,让机遇起作用,以反映总体的客观情况。

常用:抽签法,随机数目表法,计算器随机数法;

单纯随机抽样(simple random sampling):总体全部观察单位编号,再用随机数字法或抽签法;

整群抽样cluster sampling:直接由若干个群组成的总体中随机抽取若干个群,再对被抽取的每个群的全部观察单位加以调查。

系统抽样systematic sampling:( 间隔抽样,机械抽样)

先将总体观察单位按某顺序号分成n个部分,再从第一部分抽第k号观察单位,依次用此相等间隔机械地从每一部分各抽一个观察单位组成样本。

分层抽样stratified sampling:先按某种特征将总体分为若干组别、类型、区域,再从每一层内随机抽样,组成样本。

●抽样误差:分层抽样<系统抽样<单纯随机抽样<整群抽样

第二章统计资料的收集和整理

一、资料的类型

根据是否定量划分:

(1)计量资料(measurement data)

用定量方法测量每个观察单位的某项指标,所得的数值资料为计量资料,亦称数值变量资料。一般有度量衡单位。

常用:平均数,标准差,t检验,方差分析,相关与回归等分析。

(2)计数资料(enumeration data)

将观察单位按某种属性或类别分组,然后清点各组的观察单位数,为计数资料(亦称分类变量资料,无序分类资料)。

常用:率、构成比、卡方检验等

(3)等级资料(ranked data)

将观察单位按某种属性的不同程度分组,所得各组的观察单位数为等级资料,亦称有序分类资料。

常用:率、构成比、秩和检验等。

三者联系:

等级资料与计数资料不同:属性的分组有程度差别,各组大小顺序排列;

等级资料与计量资料不同:每个观察单位未确切定量,称为半定量资料。

介于计量资料与计数资料之间。

计量资料→计数资料→等级资料

调查设计和实验设计

调查设计一般包括专业设计和统计设计。

实验设计(experiment design)

医学实验的基本要素包括处理因素、受试对象和实验效应三部分。

实验设计应遵循对照(空白对照,试验对照,安慰剂对照,配对对照,组间对照

)、随机、重复(即样本例数)的原则。

频数分布表(frequency distribution table)

●用途:

(1)揭示频数的分布特征:两个重要特征:

●集中趋势(central tendency):数值高低不等,但中等水平的人数最多。

离散趋势(tendency of dispersion):数值之间参差不齐;逐渐变大(或变小)的人数渐少。向两端分散。

第三章计量资料的统计描述

集中趋势central tendency

平均数(average):用于描述数值变量资料的集中趋势(平均水平)。

特点:简明概括,便于比较。

包括:算术平均数,几何平均数,中位数,百分位数

1、算术平均数(arithmetic mean)

一组变量值之和除以变量值个数所得的商,简称均数。

总体均数μ,样本均数x表示。

适用条件:资料成正态分布(或近似正态,或对称分布)。

计算方法:直接法,加权法

均数的两个重要属性:

(1)各离均差(各观察值与均数之差)的总和等于零。

(2)离均差的平方和小于各个观察值X与任何数a(a 不等于均数)之差的平方和。

均数是一组观察值理想的代表值。

均数的应用:

(1)只能在合理分布的基础上,对同质事物求均数才有意义,才能反映事物的特性。(2)均数最适用于对称分布,尤其是正态分布资料。此时,均数位于分布的中央,能反映观察值的集中趋势。

2、几何均数geometric mean G

将n个观察值的乘积再开n次方的方根(或各观察值对数值均值的反对数)。

适用条件:

(1)观察值为非对称分布,差距较大,用算术均数表示其平均水平会受少数特大或特小值影响;

(2)数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。如:抗体滴度,药物效价等;

(3)观察值不能有0;

(4)观察值不能同时有正值和负值。

几何均数的应用:

(1)常用于等比级数资料,滴度,效价,卫生事业平均发展速度,人口几何增长,对数正态分布资料;

(2)同一组资料求得的几何均数小于算术均数。

3、中位数(median, M) :位于中间位置上的数值。

把一组观察值,按大小顺序排列,位置居中的变量值(奇数个)或位置居中的两个变量值的均值(偶数个)。是位置指标,以中位数为界,将观察值分为两半,有一半比它大,一般比它小。

适用于:

(1)资料偏态分布;(2)两端无确定数值;(3)资料分布不清楚;

如:潜伏期,毒物测定值等用中位数表示其集中趋势。

5、百分位数(percentile, P):位于某个百分位置上的数值。

把一组数据从小到大排列,分成100等份,各等份含1%的观察值,处在分割界线上的数值,就是百分位数,Pr 表示。

百分位数将总体或样本的全部观察值分为两部分,理论上有r%的观察值比它小,有

(100-r)%的观察值比它大。

如含量为n的样本,P5即表示:理论上有n5%个观察值比P5小,有n95%个观察值比P5大。一般说,分布中部的百分位数相当稳定,具有较好代表性,靠近两端的百分位数,只在样本含量足够大时,才稳定,故,样本量不够大时,不应取太近两端的百分位数。

常用的百分位数:5,25,75,95 分位数。百分位数常用于确定医学正常值范围(normal range)。

中位数是特定的百分位数。

四者的比较:

中位数常用于描述偏态分布资料的集中趋势,它反映居中位置的变量值的大小。不受特大,特小值的影响,只受位置居中的观察值的影响,因而不够敏感。而均数,几何均数是由全部观察值综合计算出的,敏感性好。但理论上,中位数等于算术均数。

百分位数常用于描述一组资料在某百分位置上的水平和分布特征。多个百分位数结合使用,可更全面地描述总体或样本的分布特征,包括位置大小和变异度。

离散趋势tendency of dispersion

常用指标:全距,四分位数间距,方差,标准差,变异系数

1、全距(Range):极大与极小值之差。全距大,资料离散程度大,但易受极端值大小的影响。样本量越大,抽到极端值的可能性越大,全距可能会越大。

故:全距不宜单独使用。

2、四分位数间距(quartile interval Q):

将一组资料分为四等份,上四分位数P75和下四分位数P25之差,叫四分位数间距。

意义:Q越大,离散程度越大,通常用于描述偏态分布资料的离散程度。

优点:比全距稳定;若资料一端或两端无确切数值,只能选择Q作为离散指标。

缺点:未考虑全部观察值,不能全面反映资料离散趋势。

3、方差(variance)和标准差(standard deviation SD)

对总体而言,为了克服极差和四分位数间距的缺点,要描述资料的离散趋势,必须考虑到各个观察值,离均差的平方和是最好的指标,

意义:方差,标准差越大,变异程度越大。其值越小,观察值的离散度越小,用均数反映平均水平的代表性越好。

标准差应用:

(1)反映一组观察值的离散程度:

数值单位相同:直接比较标准差;

数值单位不同:计算变异系数;

变异系数(coefficient of variation, CV) 也称离散系数(coefficient of dispersion) 标准差与均数之比用百分数表示。

公式:

常用于比较度量单位不同或均数相差悬殊的资料的变异。同时考虑了均数和标准差,更客观。比如:身高,体重的变异比较

(2)估计变量值的频数分布:

(3)计算标准误

(4)估计医学正常值范围:

双侧:均数± 1.96倍标准差(95%)

单侧:均数± 1.645倍标准差(95%)

正态分布(normal distribution)

概念:频数分布以均数为中心,左右两侧基本对称,靠近均数两侧频数较多,离均数

愈远,频数愈少,形成一个中间多,两侧逐渐减少的对称分布。是一种连续型分布。又称高斯分布.

正态分布用N(μ ,σ)表示,其位置与均数有关,形状与标准差有关。

标准正态分布:

为了应用方便,常将式进行变量变换,即:u变换. 所得到的新变量u的分布即为标准正态分布。

u的含义:变量到均数间的距离相当于标准差的倍数。

u变换后,μ=0,σ=1,使原来的正态分布变换为标准正态分布(standard normal distribution)亦称u分布。

正态分布的特征和分布规律:

(1)曲线在x轴的上方,与x轴不相交,当x=μ时,曲线位于最高点。 f(u=0)=0.3989 (2)曲线关于直线x=μ左右对称。

(3)正态分布有两个参数:均数,标准差;标准正态的参数分别为:0, 1。

(4)正态分布的面积分布有一定规律。

正态曲线下面积的分布规律

正态曲线下,横轴上一定区间的面积,等于该区间的频数发生的概率(即所有随机事件发生的概率)。

正态曲线下面积的分布规律的应用:

一、确定医学参考值范围

意义:是正常人指标测定值的波动范围,可用于划分正常,或异常。

步骤:1、抽样 2、控制测量误差 3、取单侧或双侧 4、选定合适的百分界限 5、资料正态性检验 6、进行参考值估计

补充:

常用方法:正态分布法(正态分布),对数正态分布法(对数正态分布或近似正态分布),百分位数法(偏态分布)

二、确定概率分布

三、质量控制

第四章均数的抽样误差和 t分布

一、均数的抽样误差和标准误

均数的抽样误差sampling error of mean

由于总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),样本均数之间也互不相等,这种由抽样引起的差异称为均数的抽样误差。

用样本均数的标准差来估计,称标准误(standard error)。即总体标准差和样本例数的比值,通常以样本标准差作为总体标准差的估计值

标准误越大,均数的抽样误差越大,样本均数与总体均数间的差异越大。

S 区别

X

S

是方差的平方根。

说明一组数据在其X周围的分散情况(变异程度)。

反映X对这组数值的代表性。是均数的标准差。

说明一组均数在“均数的均数”(≈总体均数)周围的分散情况。

反映用样本均数代表总体均数的可靠性。

表示抽样误差的大小。

标准误的应用

1、用来衡量抽样误差的大小:

标准误越小,样本均数与总体均数越接近,样本均数的可信度越高;

2、结合标准正态分布与 t 分布曲线下的面积规律,估计总体均数的置信区间。

3、用于假设检验。

二、t 分布(t-distribution) ——标准化的均数的分布

t分布曲线特征:

?t分布是一簇对称于0的单峰分布曲线。

?自由度越小(相当于标准差大),曲线的中间越低,两边越高;随自由度增大, t 分布曲线逐渐逼近于标准正态分布曲线。

?当自由度无穷大时, t分布就是标准正态分布曲线。

?每一条t分布曲线,都对应于相应的自由度。

t分布曲线下的面积规律:

与标准正态曲线下的面积规律相似:

?在某一个自由度下,两侧外部总面积为5%的界限的t值称为t0.05/2(υ),把两侧外部总面积为1%的界限的t值称为t0.01/2(υ)。

?因此,中部占95%面积的t值范围:t0.05/2(υ)-- t0.05/2(υ),

中部占99%面积的t值范围:t0.01/2(υ)-- t0.01/2(υ)。

使用t值表注意:

?同一自由度下, P越小,t值越大;P值相同时,自由度越大,t越小;当自由度无穷大时,t值与u值相等。这也是u分布与t分布的区别。

t分布的主要应用:

?总体均数置信区间估计;

?t检验;

三、总体均数置信区间的估计

?统计推断:参数估计,假设检验

?参数估计:

?点估计(point estimation):用样本统计量作为对总体参数的估计值(μ) 。比如均数的估计。

?区间估计(interval estimation):根据选定的置信度估计总体均数所在的区间(a<μ

置信度(confidence level):

?在估计总体均数的置信区间时,如果可能估计错误的概率为α,那么估计正确的概率为1-α , 即为置信度. 常用: 95%, 99%.

置信区间(confidence interval, CI) 根据置信度估计得到的区间,称为置信区间。区间两端的界限值即置信限

置信区间估计方法:

?1、总体标准差已知参照u分布

?2、总体标准差未知,样本例数(>50)足够大,也可参考u分布进行

?3、总体标准差未知,样本例数较小,按t分布原理,依据自由度,查出某个概率相应的t界值

95%置信区间的意义:

?理论上,用一次抽样所得的样本均数估计总体均数,犯错误的概率为5%.

?或进行100次抽样,可算得100个置信区间,平均有95个置信区间包括客观存在

的总体均数,只有5个置信区间未包括总体均数。

置信区间与正常值范围:

95%正常值范围一般是指同质总体内包括95%个体值的估计范围, 若总体为正态分布S X 961.±

95%置信区间是指按照95%置信度估计的总体参数的可能范围, 常按照下式计算X S 961.±X 。

前者用标准差,后者用标准误。

第五章 假设检验,u , t-检验

假设检验基本思想:

? 先对总体的参数或分布作出某种假设,如假设总体均数(或总体率)为一定值,两总体均数(或总体率)相等,总体服从正态分布或两总体分布相同等。

? 然后,用适当方法根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。其结果将有助于研究者作出决策,采取措施

假设检验步骤:

1、建立检验假设和设定检验水准

无效假设(null hypothesis) H0:假设差异仅由抽样误差所致,而两个总体参数

相同。是从反证法的思想提出的。

备择假设(alternative hypothesis), H1: 即差别不仅是由抽样误差所致,而且

总体参数不同。

H1是和H0相联系的,对立的假设。

确定检验水准(size of a test)

也叫显著性水准(significance level ):用α表示。即:拒绝了实际上成立

的H0的概率;一般取0.05,或0.01.

2、计算统计量

根据研究设计类型,资料特征,统计方法的适用条件,选择和计算统计量。

3、确定概率P 值,作出统计推断结论

计算统计量后,判断在H0成立条件下,出现该统计量或更大统计量的概率。

如果P 大于α,是接受H0的区间;如果大于或等于界值的范围,P 小于或等于α,

是拒绝H0的区间。

双侧,单侧检验:

根据专业知识, μ可能大于,也可能小于 μ 0,称双侧检验;若认为μ大于、等

于不可能小于 μ 0(或相反),为单侧检验。

若不能确定单侧的情况,应采用双侧检验。

在同一t 值的界限上单侧检验的概率仅相当于双侧检验概率的一半。因此,总体均

数间确有差别时,单侧检验比双侧检验更易得出差别有统计意义的结论。对同一资料

进行检验,有可能双侧检验无统计意义而单侧检验有统计意义。但用单侧还是双侧检

验,必须事先根据专业知识予以确定,不能等到计算完t 值以后再主观选定

选择原则:

? 双侧检验永远是正确的

? 单侧检验只有在少数情况下才是合适的

? 即使要做单侧检验,也必须事先确定

? 单侧检验:有某种倾向时使用;

? 双侧检验:没有任何倾向;

第一类错误与第二类错误

假阳性错误(false positive error),统计上称为第一类错误(type I error),用α表示。

即无效假设(H0:u=u0)是正确的,但被拒绝,误判为有差别(弃真错误)。

统计学上定P≤0.05为有意义,即在统计推断上允许犯假阳性错误的概率为5%。

当无效假设正确时,在100次抽样中,可以有5次推断是错误的。同样,如果定P ≤0.01为有意义,即犯假阳性错误的概率为1%。

故统计学上有意义的界限实际上就是允许犯第一类错误的界限。

假阴性错误(false negative error),统计学上称为第二类错误(type II error)。

即无效假设(H0:u=u0)不正确,实际上应是H1:u≠u0,但算得的统计量t没有超过t0.05的水平从而接受了无效假设,错误地得出无差别的结论(取伪错误)。

用 表示。

I类错误:虽然无效假设为真,但由于抽到了较大(检验统计量)的样本,使得P值小于检验水准而导致被拒绝。

II类错误:虽然无效假设为假,但由于抽到了较小(检验统计量)的样本,使得P值大于检验水准而导致不被拒绝。

第一类错误减小,第二类错误的概率就增大了。

?选择统计学意义水平,应考虑两类错误对所要研究事物的影响哪一个重要。

一般来说,定0.05为有统计学意义的水平是比较适宜的。其他条件不变,增大样本含量可使第二类错误的概率减小。同时正确的实验设计能够减少抽样误差,提高检验效能。

P值的正确理解

P值是指在无效假设的前提下,得到观察到的量(或更极端的量)的概率。

P值越小说明无效假设越不可靠。或者说,P值越小就越有理由推翻无效假设。

至于P值是否属于“小”,一般根据事先确定的检验水准 来判断的。

P值的大小与观察到的量的大小之间没有必然的联系。

实际差别与统计学意义

?统计学意义:如果总体均数相同,抽到这样大统计量的可能性很小,可以拒绝 H0。

但并不意味两总体均数差别很大。

?样本量很大时,即使均数差别不大,统计学意义却显著。

?样本小时,即使均数差别很大,统计学意义却不显著。

u检验和t检验

两者比较:

u检验条件:总体标准差已知,资料服从正态分布情况下(1)样本均数与总体均数比较(2)两大样本均数的比较;

t检验条件:用于样本量小、总体标准差未知时(1)样本与总体均数比较(2)配对设计资料比较(3)两样本均数比较(同时要求两样本的总体方差相同,服从正态分布)

配对资料:

配对设计:两样本中的观察值由于存在某种联系而一一对应结成对子(matching)的情况.

常用配对方式:

?1、同一受试对象处理前后的比较:高血压治疗前后的血压值,或每一名病人有一对数据;

?2、同一对象身体不同部位测定值比较:如左右臂皮肤的敏感试验,测得红斑直径;

?3、同一样品两种不同方法测定结果:两种仪器,两名化验员,两种条件等;

?4、成对设计:动物配对后随机分到两组后的测定结果;

第六章方差分析(一)

概念:方差分析是检验两个或两个以上样本均数间差别无统计意义的统计检验方法。

前提条件:各组总体均数为正态分布,方差齐。

方差分析的基本思想是:

将所有测量值间的总变异按照其变异的来源分解为多个部份,然后进行比较,评价由某种因素所引起的变异是否具有统计学意义。

方差分析主要用于:

1、均数差别的显著性检验

2、分离各有关因素并估计其对总变异的作用

3、分析因素间的交互作用,

4、方差齐性检验。

优点:1、不受对比组数的限制;

2、可同时分析多个因素作用;

3、可分析因素间的相互作用;

4、灵敏度高;

5、结论较准确

均方:

变异程度除与离均差平方和的大小有关外,还与其自由度有关,由于各部分自由度不等,因此各部分离均差平方和不能直接比较,须将各部分离均差平方和除以相应自由度,其比值称为均方差,简称均方(mean square,MS)。

MS组内:组内均方,l组内/ν组内

MS组间:组间均方, l组间/ν组间

总变异(total variation):全部测量值Xij与总均数间的差异∑(xij-x)2,v=N-1=nk-1 组间变异( between group variation ):各组的均数Xi 与总均数间的差异∑n(xi-x )2, v=k-1

组内变异(within group variation ):每组的每个测量值Xij与该组均数的差异∑(xij-xi)2, v=k(n-1)

F值:F=MS组间/MS组内

F界值:F0.05(ν1,ν2)F≥F0.05(ν1,ν2), p≤0.05

公式是在H0成立的条件下进行的,即MS组间与MS组内差别应该很

小, F值应该接近于1。

均数间的相互比较

Student-Newman-Keuls(SNK-q 检验)法:适用于任意两组间进行比较

Dunnett-t 检验:适用于多个实验组与同一个对照组的比较

LSD-t 检验:称最小显著性差异t 检验,适用于对多组中某一对或几对在专业上有特殊意义的均数进行比较。

三种方法是一致的,但并非等价,实际应用中应根据设计选取,不可多种方法一起使用,然后选取有利的结果。

拉丁设计:

对于两个以上的标志进行方差分析,而且各种标志的水平数相同,采用拉丁方设计。其优点是可以从较少的实验数据,获取较多的信息。但设计要求各因素的水平数必须相等,在实际应用时有一定局限性。而且,当各因素间有交互作用时,该设计不合适。

拉丁方是以拉丁字母排列的方阵的简称。

方差齐性检验

多个方差齐性的Bartlett 法

此外,Levene 检验法对原数据是否为正态不灵敏,比较稳健,也常常采用。

方差分析中的数据转换:

(1)平方根转换

x′=√ x 当x<10时, x′=√ x +1 或x′=√ x +1/2

常用于服从普哇松分布的资料(方差随均数而变;二项分布中方差随率变化)

(2)平方根反正弦转换

二项分布中率的比较, x′=arc sin √ x

(3)对数转换

对于均数与标准差呈正比关系的资料x′=lgx 或 x′=lg(x+1)(x>0)

方差分析(二)

当实验的处理是由两个或两个以上的因素,每个因素至少有两个水平的全面组合时,称之为析因实验。

一、2?2析因实验(factorial experiment)设计

两个因素,每个因素有两个水平的实验设计。

单独效应:是指其它因素的水平固定时,同一因素不同水平间的差别。

主效应:指某一因素各水平间的平均差别。

交互效应:某因素的各个单独效应随另一因素水平的变化而变化,且相互间的差别超出随机波动的范围时,称者两个因素间存在交互作用或效应。

如果AB两因素的联合效应不等于A与B的单独效应之和,则A,B存在交互效应,若大

于则有协同作用,若小于则为拮抗作用。

二、2×2×2析因设计

是指有三个因素,每个因素有两个水平的实验设计。

第七章 直线回归与相关

(1) 依存关系:应变量(dependent variable)Y 随自变量(independent variable)X 变

化而变化。 —— 回归分析

(2) 互依关系: 应变量Y 与自变量 X 间的彼此关系 ——— 相关分析

第一节 直线回归 ( linear regression 线性回归)

1.直线回归的概念:直线回归是分析两变量间线性依存变化的数量关系。

2. 函数关系与回归关系:前者是确定关系,后者是不确定关系

直线回归的任务:

就是找出一条最能描述变量间非确定性数量关系的一条直线,此直线为回归直线,相

应的直线方程称为直线回归方程( linear regression equation)。

对资料的要求:

自变量 x :正态总体中的随机变量或指定变量 因变量 y :服从正态分布的随机

变量

标准估计误差

各实际值Y 与估计值 有一定的误差,称为估计误差。各实际点与回归线纵轴方向的

离散程度,可以用类似求标准差的式子进行计算,即标准估计误差

a b 的意义:

a 为回归直线在 y 轴上的截距,即与Y 轴交点的纵坐标(X =0)。

b 为回归系数,即回归直线的斜率;其统计学意义是 x 增加(减)一个单

位,y 平均变动 b 个单位

b >0,Y 随X 的增大而增大(减少 而减少)—— 斜上;

b <0,Y 随X 的增大而减小(减少 而增加)—— 斜下;

b =0,Y 与X 无直线关系 —— 水平。

|b |越大,表示Y 随X 变化越快,直线越陡峭。

3.直线回归方程参数的计算

最小二乘法原则 (least square method):使各实际散点(Y )到直线(?Y

)的纵向距离的平方和最小。即使()2

?∑-Y Y (残差或剩余值)最小 残差(residual)或剩余值,即实测值Y 与假定回归线上的估计值的纵向距离 ()()()Y Y Y Y Y Y -+-=-???Y 回归部分)?(Y Y

-)(Y Y -总情况Y

剩余部分)?(Y Y -Y X

回归系数的检验方法:

方差分析法

12SS MS F n SS MS νννν=-回

回回回剩剩剩剩=;=,=

SS 总=∑-2)(Y Y ,Y 的离均差平方和(total sum of squares),

未考虑X 与Y 的回归关系时Y 的总变异。 1-=n ν

SS 剩=∑-2)?(Y

Y ,为剩余平方和(residual sum of squares), X 对Y 的线性影响之外的一切因素对Y 的变异,即总变异中,

无法用X 解释的部分。SS 剩越小,回归效果越好。 2-=n ν

SS 回=∑-2)?(Y Y

,为回归平方和(regression sum of squares), 由于X 与Y 的直线关系而使Y 变异减小的部分,即总变异中,

可以用X 解释的部分。SS 回越大,回归效果越好。 1=ν

t 检验法

| b -0 | b t = ————= ——,ν= n -2

S b S b = S yx S b ————————,____________∑( x -x ) 2_√

S b 为样本回归系数标准误;S yx 为剩余标准差

同一组资料作直线相关与回归时 tb 与 tr 等值

回归系数的标准误

b 为总体回归系数β 的估计值,其误差为Sb S yx S b = ——————,____________∑( x -x ) 2_√

决定系数:

回归平方和与总平方和之比,大小反映了回归贡献的相对程度,也就是在Y 的总变异

中回归关系所能解释的百分比。

总体回归线的95%置信带,即μ (x=xi)的可信区间

方差由Y 及 b (x - x)的方差两部分构成

个体Yi 值的范围预测

直线回归方程的应用

描述两变量的依存数量关系

利用回归方程进行预测

利用回归方程进行控制

第二直线相关 ( linear correlation )

简单相关(simple correlation),用于双变量正态分布资料。

进行直线相关分析的基本任务在于根据x、y的实际观测值计算表示两个相关变量x与y线性相关程度和性质的统计指标—相关系数r,并进行显著性检验。

1.直线相关的概念

直线相关是研究两变量 x、y 之间协同变化的线性关系的分析方法。

2.对资料的要求

x、y 都是正态分布资料的随机变量。

3.相关系数(correlation coefficient ,r )

*表示方法: -1 ≤ r ≤ 1

意义:描述两个变量直线相关的方向与密切程度的指标。

4、直线回归与直线相关的联系与区别

区别:

1)意义

直线回归反映两变量的依存关系;

直线相关反映两变量的相互关系。

2)对资料的要求

直线回归:自变量是正态总体的随机变量或指定变量,y 一定是正态总体的随机变量;直线相关:两变量均为正态总体的随机变量。

联系:

1)同一组资料的 r 与 b 的正负符号是一致的;

2)同一组资料的 r 和 b 的假设检验结果是一致的,即 t r = t b。

3)两变量间有相关关系,不一定有因果关系;但两变量间有因果关系,一定有相关关系。第三节Spearman 秩相关

适用资料:⑴不服从双变量正态分布

⑵总体分布类型未知

⑶原始数据用等级表示

等级相关系数r s(即Spearman Correlation Coefficient)—反映两变量间相关的密切程度与方向

第八章相对数

计数资料的统计描述

一、常用相对数(relative number)

1、比( ratio)

又称对比指标或相对比,表示两个有联系的同类指标之比,常用倍数或百分数表示。

2、比例(proportion)

又称构成指标,表示某一事物内部各组成部分所占的比重或分布,常用百分数表示。

3、率(rate ):

又称频率指标,表示某现象发生的频率或强度,比例基数用k 表示,据习惯定,一般至少保留1~2为整数。包括%、‰、1/万、1/10万

二、 医学中常用的相对数指标

1、医学人口统计指标

(1)人口总数

(2)人口构成

(3)人口生育

自然增长率=粗出生率-粗死亡率

(4)人口死亡

粗死亡率(总死亡率) mortality rate

2、反映疾病发生水平的频率指标(疾病统计指标)

发病率 ( incidence rate)

某病发病率=(一定时期某病新发生的病例数/同时期内可能发生某病的人口数)?K

(1) 时期:指观察所包括的时间范围,通常为年或月;

(2)新发生的病例数:指第一次发生某种疾病,以第一次就诊为准。

(3)可能发生“某病”:指存在发生某病的危险性和条件(流行病学上为暴露人群)。 患病率(prevalence rate)

指在某时点接受医学检查时,可能发生某病的全体受检人群中被发现的某病病人现患新、旧病例数。

某病患病率=(检查时发现的某病现患病例数/ 该时点受检人口数)?K

适用于病程较长的疾病的统计,反映某种疾病在一定人群中流行的规模或水平

病死率(fatality)

某病死亡率=(观察期间内因某病死亡人数/同期某病病人总数)? K

三、应用相对数应注意的问题

● 1,计算率和构成比的分母不宜过小:否则样本率不稳定,易造成错觉;

● 2,不要将构成比作率分析;

● 3,求平均率时不能直接将几个率相加求其合并率或平均率,而应以总发生数除以

总可能发生例数。

● 4,应注意资料的可比性

资料是否存在偏性

当内部结构不同的相对数间进行比较时,若比较合计率,应计算标准化率。

率的抽样误差与标准误

● 率的抽样误差:

由抽样造成的样本率和总体率的差别称为率的抽样误差。

率的总体标准误用σp 表示 n p )

1( ππσ-=

σp 的样本估计值为率的样本标准误sp n p p s p )

1( -=

总体率的区间估计

当n π≥5和n(1-π)≥5时,样本率p 近似服从均数为π、标准误为σP 的正态分布,当总

体率未知时, σp 用估计值sp 取代

n p p p s p u p )1(--=-=

ππ 总体率的假设检验(u 检验)

适用条件:

1. 适用于一个样本率与一个总体率的比较,或两个样本率间的比较。而不能用于多个

率或构成比资料的比较;

2. 要求样本量较大, 一般np 与n (1-p )均大于5,率的分布近似于正态分布。

率的标准化

1. 标准化法(Standardization)的意义

当比较两个总率时,如果两组内部某种能影响指标水平的重要特征的构成上有

差别,往往造成总率的升高或下降,影响两个总率的对比;因此要设法消除其内部构

成的差异,使之能合理地进行比较,所用的方法称为标准化法。标准化法即在一个指定的标准构成条件下进行率的比对的方法。 目的:采用统一的标准构成以消除内部构成不同对总率的影响,使标准化后的标准化

总率具有可比性。 (1).选择标准人口:

a. 应选择有代表性、较稳定的、数量较大的人群

b. 将比较的两组(或多组)的人口数合并作为标准组

c. 选其中一组(选人口数较多组)作为标准组

1、直接法:以标准人口构成与实际的年龄组别死亡率求得一个调整死亡率。

2、间接法:采用标准年龄组别死亡率与相互比较的两组年龄组别人口数计算求得的死亡率。

第九章 卡方检验(一)

概念:

检验两组(或几组)率或构成比差异是否有统计意义(样本量不限)。行与列两个顺序变量之间是否相关。

卡方检验的基本思想

反映了实际频数和理论频数吻合的程度。如果检验假设成立,则实际频数与理论频数

之差一般不会很大,出现大的卡方值的概率是很小的

基本公式:

22()A T T χ-=∑ ν =(R-1)(C-1) X 2检验的专用公式法

)

12)(12()

)()()(()( 22--=++++-=νχd b c a d c b a n bc ad

连续性较正公式:

条件:当四格表中有任一格子理论数1≦T<5,同时总例数n ≧40,

))()()(( .)2/( )5.0( 222

2d b c a d c b a n n bc ad T

T A ++++--=--=∑χχ 配对四格表资料x 2检验

2

22

2(1) ( 40) () ( 40)b c when b c b c

b c when b c b c χχ--=+<+-=+≥+ 配对四格表资料的关联性分析 )12)(12())()()(()( 22--=++++-=νχd b c a d c b a n bc ad 22r

n χχ=+

四格表精确检验法

条件:四格表资料中若 n<40,或有任一格子理论数T<1。

基本思想: 是在周边合计数不变的条件下,表格中实际频数各种组合的概率。

P 值=所有小于等于样本点概率的各种组合的概率之和.

()!()!()!()!!!!!!a b c d a c b d p a b c d n ++++=

行× 列表资料的x 2检验

适用条件:

● 当 R>2 or C>2

● 两个以上的率的比较

● 两个或多个构成比的比较

● 按两种属性分类的频数表资料的关联性分析

计算公式: 2

2 (1)(1)(1)

R C

A n n n R C χν=-=--∑ 行× 列表分类资料的关联性分析

Pearson 列联系数r : 22r n χχ=

+

列联表卡方检验的注意事项:

(1) R*C 表中4/5以上格子的理论数应该>5;

假设1/5以上格子理论数小于5,

a. 增加实验样本含量

b. 相邻行或列数字合并;

C.删除所在行或列的数据

D.直接计算概率

(2) x 2 检验的结果接受H1时仅提示所比较的各组总体来说有差别,但不能表示其间任

一两者间有差别,也不表示差别的强度.

(3)对于顺序变量,用秩和检验更合适.

卡方检验(二)

多个样本率间的多重比较

Bonferroni 法:

''(2)'α

αα

αα

α===比较的次数

(1)多组间的两两比较k (k -1)/2

实验组与同一个对照组的比较

k -1

行乘列表资料的分类和相应检验目的及方法:

A 、对于双向无序行乘列表资料

①若研究目的为多个样本率(或构成比)的比较,可用行列表资料的检验;

②若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时,可用行列表

资料的检验以及Pearson 列联系数进行分析。

B 、单向有序行乘列表资料

有两种形式

一种是表资料中的分组变量(如年龄)是有序的,而指标变量(如传染病的类型)

是无序的。其研究目的通常是分析不同年龄组各种传染病的构成情况,此种单向有序表

资料可用行列表资料的检验进行分析。

另一种情况是表资料中的分组变量(如疗法)为无序的,而指标变量(如疗效按等

级分组)是有序的(列为顺序变量)。其研究目的为比较不同疗法的疗效,此种单向有序表资料宜用行平均分检验或秩转换的非参数检验进行分析。

C 、双向有序属性相同的行乘列表资料

资料中的两个分类变量皆为有序且属性相同。实际上是配对四格表资料的扩展,即

水平数3或以上的配伍资料,如用两种检测方法同时对同一批样品的测定结果。其研究目的通常是分析两种检测方法的一致性,此时宜用一致性检验或称Kappa 检验。

D 、双向有序属性不同的行乘列表资料

资料中两个分类变量皆为有序的,但属性不同,对于该类资料,

①若研究目的为分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序表料,选用秩转换的非参数检验;

②若研究目的为分析两个有序分类变量间是否存在相关关系,宜用行列平均分检验计算

或等级相关分析(spearman 等级相关)或Pearson 积矩相关分析。

③若研究目的为分析两个有序分类变量间是否存在线性变化趋势,宜用有序分组资料的

线性趋势检验。

E 、多层列联表的分析

-Mantel-Haenszel Analysis

分层分析,按资料多来源(多中心,多地区),性别,年龄等分层校正。

多层2? r:分层分析时,每层有一个2? r 表形成多层2 ? r 表。求校正的χ2SMH

加权χ2检验

-(率的Cochran 检验)

内部构成不同的两个率差别的统计意义检验,用此法最合适!

第十章 二项分布与普哇松分布

二项分布:

从阳性率为π的总体中随机抽取许多大小为n 的样本,则出现阳性数为x (x=0,1,2,3,…,n )的样本的分布呈二项分布。

二项分布的条件:

1、 各事件是相互独立的

2、 各事件是相互排斥的,适于非遗传,非传染性疾病

二项分布的形态:

当阳性率π≈0.5时,分布是对称的;

当π≠0.5时,分布是偏态的,但n 增大时可趋于对称;

1、n > 50且np 和n (1-p )均≥5时(同率u —test ),二项分布近似正态分布:

1)π可信区间:可用p ±1.96Sp

2) 样本率与总体率,样本率之间的比较用u —test

2、一般当n π<5时,二项分布是偏的,不能用以上方法

二项分布的应用:

1、 计算概率大小,判断疗效

2、 求总体率的可信区间:n<50且 np 和n(1-p)均<5时,须用二项分布法求可信区间

3、 研究家族聚集性:各户居民家属中实际病例数X 的分布与按二项分布公式求得的理

论病例数的分布一致(P>0.05),则不能认为该病具有家族聚集性。

普哇松分布

是指单位时间,单位空间或单位容积中颗粒数或某罕见事件发生数的概率分布。

条件:各事件是相互独立的

与二项分布的比较:

(1) 当总体比例π很小,样本含量n 趋向于无穷大时(重复次数n>100,每次出现

概率<0.01),二项分布趋向于Poission 分布;

(2) 两种分布均要求各事件是相互独立的,均属离散型分布

特征:

1、 Poission 分布的方差等于其平均数σ2=μ,表示Poission 分布变量的变异程度

2、 Poission 分布的特征取决于其平均数,平均数越大(>50),Poission 分布越接近正态

分布。(二项,Poission ,正态三角)

二项分布 正态分布 n>100, but p <0.01 均数越大 (>50)

Poisson 分布

3、 可加性:如果x 1,x 2,…,x n 是从Poission 分布总体中(可以是相同或不同的总体)

随机抽取的样本中的计数,则它们之和也服从Poission 分布;

4、 总数的分布也属Poission 分布:每小格的计数是Poission 分布,共有400个格子计数。

若以此400格为一单元进行观察,则每400格的计数的分布也属Poission 分布。

总体均数的可信区间:

1、 当样本计数x ≤50时,用Poission 分布法即查表法

2、 当x ≥50时,用近似正态分布法(1.96,2.58)

→>>5)

50(即nπn π不接近0和1

计数差别的检验:

1、样本计数与总体计数:(1)μ较小时,Poission分布确切概率法

(2)μ较大时(>50),近似正态法

;

2、两样本计数(不同情况采用不同公式):

(1)时间或体积单位相同;又包括x1,x2>20和x1,x2∈(5,20)

(2)时间或体积单位不同

第十一章非参数检验

参数检验:以特定的总体分布为前提,对总体参数进行假设检验的一类检验方法

非参数检验:是一种不依赖于总体分布的具体形式的统计方法,其比较的是分布,而不是参数,不受总体参数的影响。

非参数检验的优点:

(1)适用范围广:适用于任意分布——分布不明,偏态,方差不齐,半定量资料,数据一端无界限资料

(2)收集资料方便:可使用“等级”,“符号”等评定结果

(3)有较好的稳健性

缺点:

对适用参数检验的资料,采用非参数检验,则会损失信息,在小样本时降低检验效能Power(即检验出相同大小的差异需要较多例数)

配对资料:符号等级检验(查表法/公式法)

两样本比较:两样本等级和检验/中位数检验

中位数检验

意义:如果两组分布位置相同,则在两组合并算得的中位数上下每组应各有一半的数目,故可以检验在中位数上下各观察值数目的差异在两组是否有统计学意义。

n1,n2均>10用四格表卡方检验,n1或n2<10用确切概率法

多组比较:

(1)多组计量资料:H-test——两两比较(专用公式)

中位数检验(n i>10时效果较好)——两两比较(专用公式)(2)多组等级资料(单向有序):H-test——两两比较(两样本的等级和检验,但要调整水准а)

秩变换分析方法,可代替以上(1)(2)和两两比较

H检验

条件:假定抽样总体是连续和相同的,检验其分布位置是否相同。此法与单因素方差分析相对应。

适用:等级资料(两组或多组);

不适用参数检验(F检验)的多组计量资料

等级资料:

是介于计量资料与计数资料之间的一种资料,其等级的差别包含了量的差异,具有计量资料的性质;清点各组例数,又具有了计数资料的性质。

秩变换分析方法:

适用同H-test

原理:(1)求原变量秩次

(2)用秩次代替原变量进行参数检验(方差分析及两两比较的LSD检验)

样本量较大时结果与非参数分析基本一致,但可充分利用现有的参数分析方法。

第十二章 Ridit分析(R-test)

适用资料:1.等级分组资料(与秩和H检验等价);

2.数量分组不很确切的资料(e.g. <20,20-,40-);

3.计量资料转化为计数资料.

单向有序数据:适宜秩和检验或R i d i t分析

优点:Ridit分析能检验各组间的优劣和强弱。X2-test只能检验各组间的构成是否不

同,不能检验各组间的优劣和强弱。

样本与总体比较

总体的确定:

标准组应该是总体,但总体不易得到。

通常是选择一个公认比较稳定,且例数较多的组作标准组。

标准组的平均R值总是等于0.5,对比组R总在0—1之间。

结果判断:

(1)差异的显著性:

95%可信区间—不含()0.5, 差异有意义

—含()0.5, 差异无意义

(2)优劣的判断:

当标准组频数的累计方向从"差→好"时—

①对比组,表示其疗效优于标准组;

R ,表示其疗效差于标准组。

②对比组0.5

若累计方向相反,则结果判断也应相反!

应用本法的注意点

1.标准组要求例数较多,否则应当作"两组比较"处理。

2.近似法较实际情况得出更多的"差异无意义"的结论。因此,当可信区间刚好触及

0.5线时,下结论应慎重。

两组平均Ridit值比较、多组平均Ridit值比较(取合并组作标准组)

适用条件: 相互比较的各组样本中无例数较多者(即无标准组)。

小结

?样本与总体比较(近似法-95%C I)

?两组比较:两组平均R值比较(u-t e s t)

?多组比较:多组平均R值比较(x^2-t e s t)

第十三章多元回归分析

对数据的要求:

样本例数应为研究因素个数的5-10倍;

不能有缺项;

定性、半定量指标应赋值量化,量化时要注意大小顺序

医学统计知识点整理(1)

医学统计学知识点整理 第一节统计学中基本概念 一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。 “同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的 二、总体与样本 1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集合。 三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验 四、误差:实测值与真值之差★ 1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。 3.非系统误差:过失误差,可以避免或清除。 五、概率 是用来描述事件发生可能性大小的一个量值,常用P表示。概率取值0~1。 统计上一般将P≤0.05或P≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。 第二节统计资料的类型★

变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。 一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g)等。 二、无序分类变量资料 又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。 分类:二分类:+ -;有效,无效;多分类:ABO血型系统 特点:没有度量衡单位,多为间断性资料 【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料 【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选C。 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 B.多分类变量 C.定量变量 D.定性变量 【答案】C 【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选C。 三、有序分类变量资料 半定量资料或等级资料:将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。 特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同举例:- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

医学统计学章节重点归纳

医学统计学章节重点归纳 第一节概述 1、主要内容:a、卫生统计学的基本原理和方法(研究设计和数据处理中的统计理论和方法)b、健康统计(医 学人口统计、疾病统计和生长发育统计)c、卫生服务统计(卫生资源、医疗卫生服务的需求和利用、医疗保健制度和管理中的统计问题)。 2、 卫生统计工作的步骤:设计、资料的搜集、资料的整理、资料的分析 3、医学统计资料主要四个方面:统计报表、报告卡(单)、日常医疗卫生工作记录,专题研究或实验。 4、观察单位:是获得数据的最小单位,观察单位是根据研究目的确定的,观察单位可以是人、标本、家庭、国 家等。 5、变异:是指客观事物的多样性和不确定性。 6、变量: 观察单位的某种特征,称为变量。a、数值变量(定量变量)b、分类变量(定型变量或字符变量)。 7、总体:根据研究目的所确定的同质研究对象的全体。确切的说是性质相同的所有观察单位的某种变量的集合。 8、样本:从总体中随机抽取部分观察单位,其变量值就构成样本,通过样本信息来推断总体特征。 9、概率:事件发生的可能性大小的量度,通常以符号P表示。 10、误差:测量值与真值之差或样本指标和总体指标之差。分为随机误差和系统误差。 第二节数值资料的统计描述 1、频数分布就是观察值在所取得范围内分布的情况。重要特征:集中趋势和离散趋势。 2、频数分布类型:正态分布型频数、正偏态分布型频数,负偏态分布型频数。 3、集中趋势指标:算术平均数(均数)、几何均数、中位数。 指标使用条件计算公式 算术平均数适用于正态或近似正态分布 的数值变量资料 几何均数①对数正态分布,即数据经 过对数变换后呈正态分布的 资料;②等比级数资料,即 观察值之间呈倍数或近似倍 数变化的资料。 中位数①非正态分布资料(对数正 态分布除外);②频数分布 的一端或两端无确切数据的 资料③总体分布不清楚的资 料。为奇数 , 为偶数, 4、离散型趋势指标:极差、标准差和变异系数 指标计算公式主要优缺点 极差R=Xmax-Xmin 计算简单,便于理解;只考虑最大值与最小值之差异,不能反映 组内其它观察值的变异度,不稳定,受样本量影响很大。

医学统计学总结

医学统计学总结 一、绪论 1,医学统计学:运用概率论与数理统计学得原理与方法,研究医学领域中随机现象有关数据得搜集、整理、分析与推断,进而阐明其客观规律性得一门应用科学。 2,医学统计学得主要内容: 1) 统计研究设计调查研究设计与实验研究设计 2) 医学统计学得基本原理与方法研究设计与数据处理中得基本统计理论与方法。A:资料得搜集与整 理 B:常用统计描述,集中趋势与离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计与假设检验。 3)医学多元统计方法多元线性回归与逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、 logistic回归与Cox回归分析。 3,统计工作步骤: 1) 设计明确研究目得与研究假说,确定观察对象与观察单位,样本含量与抽样方法,拟定研究方案,预 期分析指标,误差控制措施,进度与费用。 2) 搜集材料 A, 搜集材料得原则及时、准确、完整 B, 统计资料得来源医学领域得统计资料得来源主要有三个方面。一就是统计报表,二就是经常性工作记录,三就是专题调查或专题实验。 C, 资料贮存 3) 整理资料 a检查核对b设计分组c拟定整理表d归表 4) 分析资料统计分析包括统计描述与统计推断 4,同质(homogeneity):指被研究指标得影响因素相同。 变异(variation):同质基础上得各观察单位间得差异。 变量(variable):收集资料过程中,根据研究目得确定同质观察单位,再对每个观察单位得某项 特征进行测量或观察,这种特征称为变量 变量值:变量得观察结果或测量值。 5,总体(population) 根据研究目得所确定得同质研究对象中所有观察单位某变量值得集合。总体 具有得基本特征就是:同质性 样本(sample) 从总体中随机抽取部分观察单位,其变量值得集合构成样本。样本必须具有代表 性。代表性就是指样本来自同质总体,足够得样本含量与随机抽样得前提。 统计量(statistics)描述样本变量值特征得指标(样本率,样本均数,样本标准差)。 参数(parameter)描述总体变量值特征得指标(总体率,标准差,总体均数)。

医学统计学教学大纲

医学统计学教学大纲 一、课程的性质、任务 《医学统计学》是开展医学研究的重要手段,是认识和揭示医学领域里各种数量特征的科学分析方法,是使医学科研得以成功的一种重要辅助工具。科技的迅速发展,大量信息的产生要求我们面对纷乱复杂的数据世界能够正确、科学地去认识和处理,医学统计分析是医学生教育培训必修课程,特别是中、高级医学人才的培养,应该使其懂得和掌握一些基本的医学科研设计原则或实验研究方法,能正确处理医学信息和数据,在未来的实践工作中发挥作用。医学统计是一种有力工具。它同科研的总体设计、资料采集、整理、分析直到最后作出结论都有密切关系。掌握了这个工具可以使用较少的人力、物力和时间获得比较可靠的结果。只有正确运用统计分析方法,才不致于造成不应有的缺陷或得出错误的结论。数据作为信息的主要载体广泛存在。我们就要借助统计学这个工具,在混沌中发现规律。统计学就是研究数据及其存在规律的科学。 (本大纲规定教学时数为62学时,理论讲授38学时,实习或讨论24学时) 二、课程教学目标 本教学大纲适用于大专检验专业学生。同学在具备一定医学基础知识后,再通过本课程的学习使学生理解和知道随着现代医学的发展,正确地运用统计学方法和理念,进行实验设计和实验数据处理,系统地学习统计学使学员对医学科研工作的认识和提高自身文化素质和业务水平,具有十分重要的实际意义。 大纲中应当体现理论联系实际的原则,教学过程中完全采用医学中的实例,讲述基本概念及基本原理,注意贯彻启发式教学原则,把统计思维方法的训练作为课堂教学的内容,对于统计公式着重讲解其意义、使用方法、应用条件和应用时注意事项,不必追究公式的数学原理和推导过程。本课程通过讲授、课堂实习、课堂讨论,使学生熟悉统计的基本理论、掌握统计方法的应用,通过课后复习、完成作业,加深对基本理论和基本概念的理解,进一步掌握基本方法。理论讲授38学时,实习或讨论24学时 【教学内容分作三级要求】 第一级是学生必须掌握的内容,教师应于理论课详细讲授,亦为实习课与考试的重点。 第二级是要求熟悉的内容,教师应选择性讲授,未讲授部分由学生自学。 第三级为一般了解内容,供学有余力的学生自学,教师亦可选择性讲授,但不在考试范围内。 三、教学内容和要求

健康管理师考试重点归纳总结

第一章健康管理概论 健康管理是以现代健康概念(生理、心理和社会适应能力)和新的医学模式(生理、心理、社会)以及中医治未病为指导,通过采用现代医学和现代管理学的理论、技术、方法和手段,对个体或群体整体健康状况及其影响健康的危险因素进行全面检测、评估、有效干预与连续跟踪服务的医学行为及过程。 其目的是以最小投入获取最大健康效益。 健康管理的八大目标: 1.完善健康和福利 2.减少健康危险因素 3.预防疾病高危人群患病 4.易化疾病的早期诊断 5.增加临床效用、效率 6.避免可预防的疾病相关并发症的发生 7.消除或减少无效或不必要的医疗服务 8.对疾病结局作出度量并提供持续的评估和改进 健康管理的特点: 标准化足量化个体化系统化 健康管理的三个基本步骤: 1.了解和掌握健康,开展健康信息收集和健康检查 2.关心和评价健康,开展健康风险评价和健康评估 3.干预和促进健康,开展健康风险干预和健康促进 健康风险评估是手段,健康干预是关键,健康促进是目的 健康管理的五个服务流程: 1.健康调查与健康体检 2.健康评估 3.个人健康咨询 4.个人健康管理后续服务 5.专项的健康和疾病管理服务 健康管理的六个基本策略: 1.生活方式管理 2.需求管理 3.疾病管理 4.灾难性病伤管理 5.残疾管理 6.综合群体健康管理 生活方式管理的特点: 1.以个体为中心,强调个体的健康责任和作用

2.以预防为主,有效整合三级预防 生活方式的四大干预技术: 教育激励训练营销 影响需求管理的四大主要因素: 1.患病率 2.感知到的需要 3.消费者选择偏好 4.健康因素以外的动机(残疾补贴、请病假的能力等) 需求管理的策略: 1.小时电话就诊和健康咨询 2.转诊服务 3.基于互联网的卫生信息数据库 4.健康课堂 5.服务预约 疾病管理的三个特点: 1.目标人群是患有特定疾病的个体 2.不以单个病例和(或)其单次就诊事件为中心,而关注个体或群体连续性的健康状况与 生活质量 3.医疗卫生服务以及干预措施的综合协调至关重要 灾难性病伤管理的五大特点: 1.转诊及时 2.综合考虑各方面因素,制订出适宜的医疗服务计划 3.具备一支包含多种医学专科及综合业务能力的服务队伍,能够有效应对可能出现的多种 医疗服务需要 4.最大程度地帮助病人进行自我管理 5.尽可能使患者及其家人满意 残疾管理的八大目标: 1.防止残疾恶化 2.注重功能性能力 3.设定实际康复和返工的期望值 4.详细说明限制事项和可行事项 5.评估医学和社会心理学因素 6.与病人和雇主进行有效沟通 7.有需要时要考虑复职情况 8.实行循环管理 《健康中国2030规划纲要》 1.强调预防为主,防患未然

医学统计学知识点范文.doc

第一章绪论 1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。 2、研究对象:具有不确定性结果的事物。 3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。 4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。 5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。 6、医学统计学中的基本概念 (1) 同质与变异 同质,指根据研究目的所确定的观察单位其性质应大致相同。 变异,指总体内的个体间存在的、绝对的差异。 统计学通过对变异的研究来探索事物。 (2) 变量与数据类型 变量,是反映实验或观察对象生理、生化、解剖等特征的指标。 变量的观测值,称为数据 分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。(如身高、体重、血压、温度等) 定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。包括二分类、无序多分类。(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB等) 有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。 统计方法的选用与数据类型有密切的关系。 (3)总体与样本 总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。 样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。抽样,是从研究总体中随机抽取部分有代表性的观察单位。 参数,指描述总体特征的指标。 统计量,指描述样本特征的指标。 (4)误差 误差,指观测值与真实值、统计量与参数之间的差别。 可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。 随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。 抽样误差,是抽样引起的统计量与参数间的差异。 抽样误差主要来源于个体的变异。 统计学主要研究抽样误差。 (5)概率 概率,是描述某事件发生可能性大小的量度。 必然事件,事件肯定发生,概率P(U)=1; 随机事件,事件可能发生,可能不发生,概率介于0≤P(A)≤ 1; 不可能事件,事件肯定不发生,概率P(∮)=0; 小概率事件,事件发生的可能性很小,概率P(A)≤ 0.05、或P(A)≤ 0.01。 医学科研中,P(A)≤0.05作为事物差别有统计意义,P(A)≤ 0.01作为事物差别有高度统

医学统计学重点总结

医学统计学 第一章 医学统计中的基本概念 1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。 2 资料的类型:计量资料(数值变量),计数资料(无序分类),等 变异(variation):在同质的基础上被观察个体的差异。级分组资料(有序分类)。 3 同质(homogeneity):对研究指标有影响的非实验因素相同。 4 总体(population):根据研究目的确定的同质的全部研究对象称总体 。 样本(sample):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。 5 参数(parameter):总体的设计指标称为参数。 统计量(statistic):样本的统计指标称为统计量。 6 变量(variable):观察对象的特征或指标称为变量,测量的结果即为变量值。 7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。 第二章 集中趋势的统计描述 一 算术均法(mean)简称为均数,适用于正态或近似正态分布资料 (一)直接法 X n x n X X X n ∑= +?++= 21 (二)加权法(针对频数表)n fx n x f f f X k k ∑= +++= (21) 二 几何均数(geometic mean,G)适用于倍数关系变化,经对数转换后呈正态分布(如:抗体滴度, 血清凝集效价,细菌计数,某些物质浓度等) G= n n X X X ?21 为了计算方便,常改用对数的形式计算,即=G lg 1 -( n X ∑lg ) 对于频数表资料,可用公式 G=lg 1 -( n x f ∑lg ) 三 中位数(M)与百分位数 中位数:适用于偏态分布资料,末端无确切数值的资料及分布情况不确定 公式:M=L+( M L f f n -5.0) M i L,M i ,M f 分别为M 所在组段的下限,组距与频数,L f 为M 所在组段之前各组数的累积频数。 百分位数:用符号X P 表示,x 即百分位 公式:x P =L+( x L f f x n -%·)x i 式中L,x i ,x f 分别为x P 所在组段的下限,组距与频数,L f 为x P 所在组段之前各组段的累积频数

医学统计学知识点总结

医学统计学 1. 对定量资料进行统计描述时,如何选择适宜的指标 定量资料统计描述常用的统计指标及其适用场合描述内容指 标 意义适用场合 平均水平;均 数 个体的平均值· 对称分布 几何均数平均倍数取对数后对称分布 中位数[ 位次居中的观察值 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 众 数 频数最多的观察值不拘分布形式,概略分析 ? 调和均数 基于倒数变换的平均值正偏峰分布资料 变异度全 距 观察值取值范围不拘分布形式,概略分析 标准差 (方差) 观察值平均离开均数的 程度对称分布,特别是正态分布资料 四分位数 间距 ? 居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 变异系数标准差与均数的相对比①不同量纲的变量间比较;②量纲相同但 数量级相差悬殊的变量间比较 定性资料:阳性事件的概率,概率分布,强度和相对比。 ¥ 2. 应用相对数时应注意哪些问题 答:(1)防止概念混淆相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。 (2)计算相对数时分母不宜过小样本量较小时以直接报告绝对数为宜。 (3)观察单位数不等的几个相对数,不能直接相加求其平均水平。 (4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。 3. 常用统计图有哪些分别适用于什么分析目的 常用统计图的适用资料及实施方法 < 图形 适用资料实施方法 条图组间数量对比用直条高度表示数量大小 直方图用直条的面积表示各组段的频数或频率

( 定量资料的分布 百分条图构成比用直条分段的长度表示全体中各部分的构成比 饼图构成比用圆饼的扇形面积表示全体中各部分的构成比 定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系 、 线图 半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标 系 散点图} 双变量间的关联点的密集程度和形成的趋势,表示两现象间的相关关系箱式图定量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布' 用茎表示组段的设置情形,叶片为个体值,叶长为频数 第3章概率分布(连续随机变量的正态分布;离散随机变量的二项分布及Poisson分布)1. 服从二项分布及Poisson分布的条件分别是什么 二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。 Poisson分布成立的条件:除二项分布成立的三个条件外,还要求试验次数n很大,而所关心的事件发生的概率 很小。 、 2. 二项分布、Poisson分布分别有什么特征 ①二项分布、Poisson分布都是离散型分布。 ②二项分布的形状取决于π与n的大小。π=时,不论n大小,对称分布。π≠时,图形呈偏态,随n增大而逐渐对称。当n足够大,π或1-π不太小,二项分布近似正态。 ③Poisson分布μ越小,分布越偏。μ越大,分布越对称。当n足够大时,分布接近正态。 4、正态分布应用 ①估计变量值的频数分布 《 ②制定参考值范围 ③质量控制 ④正态分布是很多统计方法的基础 5. 正态分布特征 ①以均数为中心,左右对称 ②正态曲线在横轴上方均数处取得最高点 ~ ③正态分布有两个参数,即均数(位置参数)和标准差(变异度参数)(μ,σ2 ;标准0,1)

预防医学与医学统计学总结

绪论 进和维护健康,预防疾病、失能和早逝 二.预防医学特点:1.工作对象包括个体及确定的群体,主要着眼于健康和无症状患者;2研究方法注重微观和宏观相结合,但更侧重于影响健康的因素与人群的关系;3.采取的对策更具积极的预防作用,具有较临床医学更大的人群健康效应。 三.健康决定因素:指决定个体和人群健康状态的因素。包括:1、社会经济环境。2、物质环境3.个人因素。4卫生服务。 四.三级预防策略:1.第一级预防:又称病因预防,即防止疾病的发生。2.第二级预防:在疾病的临床前期做好早起发现、早期诊断、早起治疗的“三早”预防工作,以控制疾病的发展和恶化。3.第三级预防:对已患某些病者,采取及时的、有效的治疗措施,防止病情恶化,预防并发症和伤残,延长生命。 第一章流行病学概论 进健康的策略和措施的科学。 流行病学定义涵:1.流行病学的研究对象时人群。2.流行病学关注的事件包括疾病与健康状况。3.流行病学主要研究容是:(1)揭示现象(2)找出原因(3)评价效果。4.流行病学研究和实践的目的是防治疾病、促进健康。 二.流行病学基本原理:1.分布论。2.病因论。3.健康-疾病连续带。4预防控制理论(三级预防理论)5.数理模型。6.流行病学的几个基本原则:(1)群体原则(2)现场原则(3)对比原则(核心)(4)代表性原则 三.流行病学的用途:1.描述疾病及健康状况的分布。2.探讨疾病的病因。3.研究疾病自然史,提高临床诊断、治疗水平和预后评估。4.疾病的预防控制及其效果评价。5.流行病学分支。 第二章疾病分布 的存在方式及其发生、发展规律。 二.疾病分布的测量指标:1.发病率:指在一定期间(一般为1年)特定群中某病新病例出现的频率。 病频率的测量(日、周、旬、月),常用于疾病暴发或流行时的调查。 例。患病率=发病率*病程。 病的人数占所有易感接触者总数的百分率。 5.死亡率:指在一定时间期间(通常为1年),某人群中死于某病(或死于所有原因)的频率。死亡率是测量入群死亡危险最常用的指标。 6.病死率:表示一定时期,患某病的全部病人中因该病死亡者所占的比例。 三.疾病的分布形式(“三间分布”) 1.地区分布:疾病的地方性:由于自然环境和社会因素的影响而使一些疾病无需从外地输入,只存在于某一地区,或在某一地区的发病率水平总是较高,这种现象称为疾病的地方性。 2.时间分布 3.人群分布:出生队列分析:将同一时期出生的人划归为一组称为一个出生队列,对其随访观察若干年,观察死亡等情况。 4.判断疾病地方性的依据:(1)该病在当地居住的各群组

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误(ɑ错误): H0为真时却被拒绝,弃真错误 Ⅱ型错误(β错误): H0为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n

医学统计学重点图表总结

描述内容 指 标 意 义 适 用 场 合 平均水平 均 数 个体的平均值 对称分布 几何均数 平均倍数 取对数后对称分布 中 位 数 位次居中的观察值 ①非对称分布;②半定量资料;③末端开口资料;④分布不明 众 数 频数最多的观察值 不拘分布形式,概略分析 调和均数 基于倒数变换的平均值 正偏峰分布资料 变 异 度 全 距 观察值取值范围 不拘分布形式,概略分析 标 准 差 (方 差) 观察值平均离开均数的程度 对称分布,特别是正态分布资料 四分位数间距 居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开口资料;④分布不明 变异系数 标准差与均数的相对比 ①不同量纲的变量间比较;②量纲相同但数量级相差悬殊的变量间比较 4. 常用统计图有哪些?分别适用于什么分析目的? 常用统计图的适用资料及实施方法 图 形 适 用 资 料 实 施 方 法 条 图 组间数量对比 用直条高度表示数量大小 直 方 图 定量资料的分布 用直条的面积表示各组段的频数或频率 百分条图 构成比 用直条分段的长度表示全体中各部分的构成比 饼 图 构成比 用圆饼的扇形面积表示全体中各部分的构成比 线 图 定量资料数值变动 线条位于横、纵坐标均为算术尺度的坐标系 半对数线图 定量资料发展速度 线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系 散 点 图 双变量间的关联 点的密集程度和形成的趋势,表示两现象间的相关关系 箱 式 图 定量资料取值范围 用箱体、线条标志四分位数间距及中位数、全距的位置 茎 叶 图 定量资料的分布 用茎表示组段的设置情形,叶片为个体值,叶长为频数 定性资料统计描述常用的统计指标及其适用场合 指标 计算公式 适用场合 频率 n/N 估计总体中某一结局发生的概率 频率分布 n 1/N ,n 2/N,…..,n k /N 估计总体中所有可能结局发生的概率 强度 阳性人数/总观察人时数 估计总体中单位时间内某一结局发生的概率 比 A/B 估计两个指标的相对大小 4.常用参考值范围的制定? 参考值范 围(%) 正态分布法 百分位数法 双侧 单侧 双侧 单侧 下限 上限 下限 上限 90 S X 64.1± S X 1.28- S X 1.28+ P 5~P 95 P 10 P 90 95 S X 96.1± S X 64.1- S X 64.1+ P 2.5~P 97.5 P 5 P 95 99 S X 58.2± S X 2.33- S X 2.33+ P 0.5~P 99.5 P 1 P 99

医学统计学总结

医学统计学总结 一。绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学. 2,医学统计学的主要内容: 1) 统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法.A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验. 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析. 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B, 统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项 特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。 变量类型变量值表现实例资料类型 数值变量离散型 定量测量值,有计量单位产前检查次数 计量资料 连续型身高 分类变量无 序 二分类对立的两类属性性别(男女) 计数资料多分类不相容的多类属性血型(A,B,O,AB) 有 序 多分类类间有程度差异的属性受教育程度(小学,中 学,高中,大学…)等级资料5,总体(population) 根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代表性.代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。 统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。

医学统计学知识点汇总(精华)

医学统计学知识点汇总(精华) 一.概论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。 A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断

4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每 个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某 变量值的集合。总体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。 样本必须具有代表性。代表性是指样本来自同质总体,足够的样 本含量和随机抽样的前提。

《医学统计学》教学大纲

《流行病学》教学大纲供临床医学专业使用 锦州医学院教务处 2003年5月

《流行病学》教学大纲 适用专业: 临床医学 总学时:24,其中理论学时:18、实验学时:6 一、课程的性质和任务 流行病学(Epidemiology)是研究特定人群中与健康相关的状态和事件的分布和决定因素并用以控制健康问题的学科。近数十年来,随着危害人类生命和健康疾病谱的变化,随着医学模式由单纯生物学向生物学、心理学、社会医学相结合模式的转变,流行病学的研究对象、研究方法、研究内容也在不断发展。到现在为止,比较一致认可的流行病学定义为:流行病学是研究人群中疾病与健康状态的分布及其影响因素,制定和评价预防、控制和消灭疾病的对策和措施,并评价这些对策和措施的效果。其研究对象已由仅研究传染病扩大到非传染性疾病,又从疾病扩大、引伸到健康和与健康有关的事件;研究内容既包括了描述“分布”,分析“决定因素”,又包括了研究、提出、评价预防、保健的对策与措施。由此可见流行病学既是一门方法学,又是一门应用性很强的学科。其研究范围已包括了与人类疾病和健康有关的一切问题。 通过本课程的教学使学生掌握流行病学的基本原理、方法和技能,拓宽学生的思路,开阔学生的视野,提高学生能够应用流行病学方法,在疾病的预防、健康促进、病因研究和预防效果评价等方面独立分析问题和解决问题的能力,为今后从事疾病预防和控制工作打下基础。 二、相关课程的衔接 本门课程的前继课程是:基础医学相关课程、计算机基础和医学统计学。 三、教学的基本要求 教学目的 培养学生掌握流行病学基本理论、基本知识、流行病学方法的选择与应用,并了解相应的扩展知识和新进展知识,为学习预防医学各类卫生专业课程奠定流行病学理论基础,也为今后在卫生防疫实际工作中或其他有关学科中运用流行病学的理论和方法奠定基础。 教学要求 1、基本理论理论课教学要根据教学大纲的要求,重点突出教授基本理论和基本知识,详细讲授和解释,同时注意教授一定比例的扩展知识、新进展知识和实际应用知识,加强学生创新能力的培养,开拓思路、启发思维,调动学生的学习积极性。内容精练,条理清楚,合理使用教学设备和教具。也可根据本章节的特点规定学生必要的自学内容。

医学统计学期末重点总结

误差:观测值与真实值、样本计量与总体参数之间的差别。 相对数:两个有关的绝对数之比,也可以是两个有关联统计指标之比。 相对比:相对比是A、B两个有关联指标值之比,用以描述两者的对比水平,说明A是B 的若干倍或百分之几。 统计描述:描述及总结一组数据的重要特征,目的是使实验或观察得到的数据表达清楚并便于分析。 统计推断:指由样本数据的特征推断总体特征的方法,包括参数估计和假设检验。 同质:指根据研究目的所确定的观察单位其性质应大致相同。 变量:反映实验或观察对象生理、生化、解剖等特征的指标,变量的观测值称为数据。 定量数据:也称计量资料。变量的观测值是定量的,其特点是能够用数值大小衡量其水平的高低,一般有计量单位。根据变量的取值特征可分为连续型数据和离散型数据。 有序数据:也称半定量数据或等级资料。变量的观测值是定性的,但各类别(属性)之间有程度或顺序上的差别。 总体:根据研究目的确定的所有同质观察单位的全体,它包括所有定义范围内的个体变量值。样本:从研究总体中抽取部分有代表性的观察单位,对变量进行观测得到的数据。 参数:描述总体特征的指标称为参数。 统计量:描述样本特征的指标称为统计量。 概率:描述某事件发生可能性大小的度量。 小概率事件:习惯上将P≤0.05的事件称为小概率事件。 平均数:是描述一组观察值集中位置或平均水平的统计指标,常用的有算术均数、几何均数和中位数。 率:率表示在一定空间或时间范围内某现象的发生数与可能发生的总数之比。 构成比:表示某事物内部各组成部分在整体中所占的比重,常以百分数表示,计算公式为区间估计:是指按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。 线性相关的概念:研究两个变量之间是否具有直线相关关系。 相关系数:是说明具有线性相关关系的两个数值变量间相关的密切程度与相关方向的统计量。 研究对象:根据研究目的而确定的观察总体,也可称为受试对象或实验对象。 处理因素:根据研究目而欲施研究对象的干预措施。 处理水平:处理因素在实验中所处的状态称为因素的水平(level),亦称处理水平。 对照:指在实验中应设立对照组,其目的是通过与对照组效应对比鉴别出实验组的效应大小。随机化:是指每个受试对象有相同的概率或机会被分配到不同的处理组。 重复:是指在相同实验条件下重复进行多次观察。 统计学的基本内容:统计设计,数据整理,统计描述,统计判断 数据类型:定量数据,定性数据,有序数据 误差的类型:系统误差,随机测量误差,抽样误差 配对样本t检验配对设计:同源配对,异源配对,自身配对 方差分析的基本思想:将全部观测值的总变异按影响因素分解为相应的若干部分变异,在此基础上,计算假设检验的统计量F 值,实现对总体均数是否有差别的推断。 非参数检验的适用范围:①总体分布类型未知或非正态分布数据;②有序或半定量资料;③数据两端无确定的数值。 标准差与标准误的区别与联系:区别:标准差:意义,描述个体观察值变异程度的大小,标准差越小,均数对一组观察值的代表性越好。应用,与X拔结合,用以描述个体观察值的

医学统计学总结

医学统计学总结 一.绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某 项特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总 体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代 表性。代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。 统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。

医学统计学重点总结

<<医学统计学>>重点总结 1. 总体:根据研究的目的确定的同质研究对象中所有的观察单位变量值的集合。 2. 样本:按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。 3. 同质:影响研究指标的主要因素易控制的因素基本上相同。 4. 抽样误差:在抽样研究中,由于变异的存在,即使在同一总体中抽取的几个样本,各样本统计量往往不等。样本统计量与总体参数也不等,这种由于抽样研究所至样本之间和样本与总体之间的差异称为。。。 5. 变量:观察指标在统计学上统称为指标变量,它反应的是生物个体间的变异情况,根据其性质可分为定性变量(分类)和定量变量(连续)。 6. 截尾数据:生存时间观察过程被人为的截止称为截尾,又称删失或终检。原因:失访/退出/ 终止(研究时限已到而终止观察)。 7. 卡方基本思想:X2分布是一种连续型分布,可用于检验资料的实际频数和按检验假设计算的理论频数是否相等等问题。X2反应实现了实际频数与理论频数的吻合程度。如果检验假设成立,则A-T 一般不大,X2应很小,即出现大X2值概率很小。即X2越大,P越小,若P≤a时,就怀疑假设的成立,拒绝H0。若P>a则没有理由拒绝H0。 8. X2用途: (1)实际频数与拟合频数拟合优度:A推断两个或两个以上总体率或构成比有无差别(四格表/行x 列表)。B两变量之间有无相互关系。C频数分布的拟合优度检验(判断次样本是否来自某种分布)。(2)某些分布可用X2近似。 (3)间接应用:如t分布和F分布就是在X2分布基础上推导出来的。 9. 方差分析的基本思想:根据研究目的和设计类型,把总体变异中离均差平方和分解成两部分或更多部分,也把总变异中的自由度相应分成两部分或更多部分,然后再进行比较,评价由某种因素引起的变异是否具有统计学意义。 10. 假设检验中P,a,b(倍他)的关系及统计学意义: a:检验水准,即显著性检验,在此概率之下的认为是小概率事件,统计学上以为此事件“不可能发生”,以此判断是否不拒绝H0无效假设,在假设检验中,按a检验水准,拒绝了原来正确的H0,即犯了第1类错误,犯此错误的概率为a。 b:在T假设检验中,按照a检验标准,没有拒绝原来错误的无效假设,即犯了第2类错误,犯次错误的概率是b。 P:是在H0成立时大于等于用样本计算的统计值出现的概率用P值与检验水准a比较,根据比较的结果作出统计判断。如果P≤a时,就怀疑假设的成立,拒绝H0。若P>a则接受H0拒绝H1。P值越小只能说明作出拒绝H0,接受H1的推论时犯错误的机会越小。 11.行x列表X2检验应注意: (1)行x列表中不宜有1/5以上格子的理论频数小于5或有一个格子的理论频数小于1,若发生上述情况可采用:A将理论频数过小的格子所在的行或列与性质相近的邻近行或列中的实际频数合并,使重新计算的理论频数增大。B删去理论频数过小的行或列。C增大样本含量以增大理论频数。 (2)当效应按强弱分为若干级别,则按实验结果可整理为单向有序行x列表,在比较各处理组的效应有无差别时,宜用秩和检验,ridit分析等。如作X2检验只说明各组构成比的差异有无统计学意义。

【免费下载】医学统计学课程教学大纲

《医学统计学》课程教学大纲 课程编号:140087 学分:1.5 总学时:34 大纲执笔人:刘艺敏大纲审核人: 一、课程性质与目的 使学生掌握医学统计学的基本理论知识、方法和技能,为其运用到医学实践,进行科学研究,学习其它课程和阅读专业书刊打下必要的统计学基础。 二、面向专业 临床医学专业、口腔医学专业五年制 采用多媒体演示教学和学生每人一台计算机操作,要求学生通过实习课重点掌握统计学的基本概念和不同资料的统计分析思路,同时要求学生基本掌握国际流行统计软件SAS或SPSS的使用方法,能用软件来完成课后的习题。并通过接触真实的科研资料,逐步引导学生提出分析思路、分析方法,直至用计算机软件完成统计分析的全过程。使学生在掌握统计学基本理论知识的基础上,进一步培养他们综合分析问题、动手解决问题的能力,拓宽学生的知识面,有利于学生实践能力和创新精神的培养。 三、课程基本要求 学习医学统计学应着重理解基本概念、基本理论,掌握收集资料、整理资料和分析资料的基本知识、基本技能。培养科学的统计思维方法。 四、实验基本要求 采用多媒体演示教学和学生每人一台计算机操作,要求学生通过实习课重点掌握统计学的基本概念和不同资料的统计分析思路,同时要求学生基本掌握能用软件来完成课后的习题。并通过接触真实的科研资料,逐步引导学生提出分析思路、分析方法,直至用计算机软件完成统计分析的全过程。使学生在掌握统计学基本理论知识的基础上,进一步培养他们综合分析问题、动手解决问题的能力,拓宽学生的知识面,有利于学生实践能力和创新精神的培养。 五、课程基本内容 第一章绪论 第一节统计学与医学统计方法 了解统计学与医学统计学的定义、医学统计学在医学研究中的应用。 第二节统计学基本概念 重点掌握内容:随机变量的概念及其分类-离散型变量及连续型变量;误差的定义,系统误差与随机误的概念;三种数据类型-计数资料、计量资料、等级资料及三者间的转换;总体与样本的概念,总体参数与样本统计量的概念,抽样误差的概念;概率与频率的概念。

相关主题
文本预览
相关文档 最新文档