当前位置:文档之家› 医学统计学符号,公式,重点

医学统计学符号,公式,重点

医学统计学符号,公式,重点
医学统计学符号,公式,重点

第一章

医学统计中的基本概念

1、 医学统计学是研究医学数据的收集、整理、分析、解释和呈现其结果的一门学科。

2、 个体:研究的基本观察单位。

3、 变量:用于观察研究对象的指标。

4、 观察值:个体变量的数值。

5、 资料:又称为数据,由变量的观察值构成。 变异:个体观察值之间具有的差异。 变异和同质是对统计学数据的要求! 变异是统计学研究的真正对象! 统计学是研究变异规律的科学!

同质:个体观察值之间的变异在允许范围

内。

异质:个体观察值之间的变异超出允许范

围。

一、总体、抽样、样本、参数、统计量

总体:同质的个体所构成的全体研究对象。总体同时具有同质和变异两个特点。

有限总体:总体中的个体数量是有限的。

无限总体:总体中的个体数量是无限的。

样本:从总体中随机抽取的部分个体。 样本量:样本所包含的个体数目。 参数:刻画总体特征的指标。 统计量:刻画样本特征的指标。

抽样:从总体中随机抽取部分个体的过程。抽样具有代表性、随机性、可靠性、可比性; 原则:代表性:样本能充分反映总体特征。

随机性:保证总体中每个个体都有相同的几率被抽样。

随机性是代表性的保证; 生活中随机性的例子(思考题);

计量资料

由连续变量的观察值构成的资

料。对每个观察对象的观察指标用定量方

法测定其数值大小所得的资料,一般有度量衡单位,例如年龄、身高、血糖。

计数资料:由离散变量的观察值构成的资

料。先将观察对象的观测指标按性质或类别进行分组,然后计数各组的数目所得的资料,例如性别、患病、血型。 等级分组资料:由等级变量的观测值构成

的资料。具有计数资料的特征,同时又具有半定量性质的资料,例如细菌培养阳性结果。

二、3种设计类型:完全随机设计;配对设计;配伍组设计。

三、 抽样误差、概率和小概率事件

抽样误差:由抽样引起的样本统计量与总

体参数之间的差异。

抽样误差的原因;抽样误差是不可避免的。

概率P :表示某事件发生的可能性大小的

度量。

小概率事件:统计学上习惯将P ≤0.05或

P ≤0.01的事件称为小概率事件,表示该事件发生的可能性很小。

“小概率事件”统计意义(两面性)

小概率事件几乎不会发生,或者说

可以认为在一次试验中不会发生→统计推断基础(正面:应用); 小概率事件偶然会发生,如果发生

了→统计推断发生错误(反面:警惕);

第二章

集中趋势的统计描述

一、统计描述

总体和样本具有同质和变异两个特征。

集中趋势—同质的统计描述;

变异程度—变异的统计描述;

统计描述主要通过统计量和统计图表来刻画

频数表和直方图

频数表:同时列出观察指标的可能取值区间及其在各区间内出现频数的统计表。

直方图:以垂直条段代表频数分布的一种图形,条段的高度代表各组的频数,由纵轴标度;各组的组限由横轴标度,条段的宽度表示组距。

频数表和直方图的用途

1. 作为陈述资料的形式;

2. 便于观察数据的分布类型;

3. 便于发现资料中含有的异常值;

4. 可用各组段的频率作为概率的估计值;

二、平均数

平均数:描述一组观察值集中趋势或平均水平的统计指标。

平均数类型

算数均数(均数):线性尺度上的平均水平; 几何均数:对数尺度上的平均水平;

中位数:顺序尺度上的平均水平;

百分位数:顺序尺度上的平均水平。

均数的意义和应用

均数代表每组观察值的平衡点,也就是重心。

常用在对称分布,尤其是正态分布;

在偏态分布时,易受极值影响;

算术均数

算数均数(均数):线性尺度上的平均水平

几何均数及应用

几何均数:对数尺度上的平均水平;

1. 几何均数的对数等于各观察值对数的算术均数;

2.几何均数主要应用在免疫学(抗体滴度、血清凝聚效价)、微生物学(细菌计数)等领域。观察值一般呈等比或对数正态分布。

中位数

中位数:将一组观察值从小到大按顺序排列,居中心位置的数值,记为M。

中位数的精确计算

1. 当观察例数n为奇数时,中位数是按顺序排列在

第(n+1)/2项的观察值;

2.当观察例数n为偶数时,中位数是按顺序排列

在第n/2和(n/2)+1项观察值的平均值;

百分位数

百分位数P x:指在一组数据中找到这样一个数值,

全部观察值的x%小于P x ,其余(100-x)%大于P x。

算术均数几何均数中位数均数尺度线性对数顺序

适用对称分布对数正态分布

(指数、等比分布)

偏态分布

统计图类

适用条件

条图适用于比较相互独立的统计指标的数值大小圆图、百

分比条图

描述分类变量各类别所占构成比,后者特别

适合多个构成比的比较

线图描述某统计量随另一连续性数值变量变化而变化的趋势

直方图描述数值变量的频数分布

箱式图描述数据的分布特征

统计地图描述某指标在地理区域的分布

第三章 变异程度的统计描述 自由度的理解

样本方差S 2是总体方差σ2的无偏估计。 E(S 2)=σ2

自由度:已知 ,固定X 1,X 2,...,X n-1后,X n 必然确定;所以只有n-1个独立(自由变化)个体。 不同类型变异程度指标的比较

正态分布及应用

正态分布有两个参数μ 和σ , 分别表示均数和标准差

主要特征:

1.以μ为中心的对称分布

2.钟型曲线

3.曲线下面积分布有规律

4.两个参数决定位置和变异 当μ=0,σ=1时,称为标准正态分布 正态分布曲线下面积

单侧95%=双侧90%=1.645 μ±σ:68% μ±1.96σ:95%

μ±2.58σ:99%

二、医学参考值范围的制定方法 (一)选择一定数量的参照样本;

(二)对选定的参照样本进行准确的测定; (三)决定取单侧范围还是双侧范围值; (四)选择适当的百分范围; (五)估计参考值范围的界限;

(三)决定取单侧范围还是双侧范围值

有些指标过高或过低均属异常(A) ,故其参考值范围需要分别确定下限和上限,称作双侧参考值范围。有些指标仅在过高(B)或过低时为异常(C),只需确定其上限或下限,称作单侧参考值范围。

(四)选择适当的百分范围

参考值的百分范围应根据资料的性质和研究目的选择,它与诊断阈值有确定的关系。百分范围的不同将导致不同的假阳性率和假阴性率。 (五)估计参考值范围的界限

参考值范围估计主要有百分位数法和正态分布法。 总结

衡量变异程度的指标

极差、四分位数间距、方差和标准差、变异系数

正态分布的特征和曲线下面积分布规律 医学参考值范围的制定方法

算术均数几何均数中位数

均数尺度线性对数

顺序适用

对称分布

对数正态分布

(指数、等比分布)

偏态分布

特点

极差

四分位数间距

方差和标准差

变异系数

适用范围所有数据所有数据对称数据对称数据

比较无量纲或多

组均数相差较大

数据

特点

简单,粗略;不稳定,受极端值影响大相对稳定;未使用所有观察值使用全部信息,

应用广泛

1

)

X -(X 1

-n SS 2

2

-=

=∑n S 方差n-1 是自由度df

X

第四章 抽样误差与假设检验

1)计算获得t 值的概率P 值,并与检验水准

α比较。 2)若P ≤α,小概率事件发生,矛盾,拒绝H 0 ,接受H

1;认为μd ≠0,即治疗前后血清甘油三酯差异有显著统计学意义。

3)若P > α,不能拒绝拒绝H 0 ;认为μd=0,即治疗前后血清甘油三酯差异无显著统计学意义。

假设检验的思路

1. 为了判断两组样本代表的总体之间的差异是

由抽样误差还是总体之间本质差别引起的? 2. 作假设。H 0:抽样误差引起的; H 1 :总体

本质差别引起的。

3. 利用反证法在H 0条件下计算样本的统计量。

4. 利用抽样分布原理,根据样本统计量大小判断

抽样结果是否为小概率事件,决定是否拒绝H 0 。

假设检验的基本思想 反证法思想

小概率事件原理

关于α的说明

1. 检验水准,显著性水平,即定义小概率事件;

2. 界值是人为确定的,常用0.05,0.01;某些情

况下可取0.1,0.001;

P >0.05,“差异没有显著统计学意义”; P <0.05,“差异有显著统计学意义”; P <0.01,“差异有极其显著统计学意义”; 错误的说法:“有显著差异”;“差异是否显

著”由专业来决定,统计学只能给出“差异是否有统计学意义”,即是否有证据表明存在差异。

3. 界值代表容许犯错的最大概率,是事先确定

的,不能随便移动 。 假设检验的两类错误

1. 一般反证法能得到绝对矛盾;

2. 假设检验的矛盾基于“小概率事件原理”—“小

概率事件(P <α)在一次试验中是不会发生的”;

若小概率事件发生了,则我们犯了经验主义错误;

第五章 t 检验

概率α、与u 值关系

标准正态分布中u 值大小与尾部面积(概率α)有关,以u α (单侧)和u α/2(双侧)表示;

单样本 t 检验原理

在 H 0 :μ =μ0的假定下,可以认为样本是从已知总体中抽取的,根据t 分布的原理,单样本t 检验的公式为:

自由度ν=n-1

样本来自总体的可能性越大:

? 样本均数与总体均数差别越大; ? 样本标准差越小; ?

样本量越大;

单样t 检验的应用条件:

小样本资料(如n <40)且服从正态分布,或大样本资料。

单样本t 检验——检验步骤 1. 建立检验假设,确定检验水准

H0:μ=μ0,该地难产儿与一般新生儿平均出生体重相同;

H1:μ≠μ0,该地难产儿与一般新生儿平均出生体重不同;

α=0.05或0.01。

2. 计算检验统计量

在μ=μ0成立的前提条件下,计算统计量为: 3. 确定P 值,做出推断结论

本例自由度=νn-1=35-1=34,P >0.05,表明差异无统计学意义,按 α=0.05水准不拒绝H 0,根据现有样本信息,尚不能认为该地难产儿与一般新生儿平均出生体重不同。 配对样本均数t 检验

配对样本均数t 检验:简称配对t 检验,又称非独立两样本均数t 检验,适用于配对设计计量资料均数的比较,其比较目的是检验两相关样本均数所代表的未知总体均数是否有差别。

配对设计:是将受试对象按某些重要特征相近的原则配对,每对中的两个个体随机地给予(两种处理中的)一种处理。 配对设计概述

1. 应用配对设计可以减少实验的误差和控制非处理因素,提高统计处理的效率。

2. 配对设计处理分配方式主要有三种情况:

①两个同质受试对象分别接受两种处理,

如把同窝、同性别和体重相近的动物配成一对,或把同性别和年龄相近的相同病情病人配成一对;

②同一受试对象或同一标本的两个部分,随机分配接受两种不同处理,如例5.2资料;

③自身对比(self-contrast)。即将同一受试对象处理(实验或治疗)前后的结果进行比较,如对高血压患者治疗前后、运动员体育运动前后的某一生理指标进行比较。 配对样本均数t 检验——检验步骤

1. 建立检验假设,确定检验水准

H 0:μd=0,两种结核菌素的皮肤浸润反应总体平均直径差异为0;

H 1:μd ≠0,两种结核菌素的皮肤浸润反应总体平均直径差异不为0; α=0.05或0.01。 2. 计算检验统计量

3.

确定 P 值,作出推断结论

v =∞

5v =1

v =()

f t 标准正态

X

X t S -μ=

自由度计算为 ν=n -1=12-1=11,

P =0.001<0.01,差别有统计学意义,拒绝H0,接受H1,

可认为两种方法皮肤浸润反应结果的差别有统计学意义。

两独立样本均数t 检验

1. 两独立样本均数t 检验又称成组t 检验。

2. 适用于完全随机设计的两样本均数的比较,其目的是检验两样本所来自总体的均数是否相等。

3. 完全随机设计是将受试对象随机地分配到两组中,每组患者分别接受不同的处理,分析比较处理的效应。 两独立样本t 检验原理

两独立样本t 检验的检验假设是两总体均数相等,即H 0:μ1=μ2,也可表述为μ1-μ2=0, t 统计量计算公式为

1. 建立检验假设,确定检验水准

H 0:μ1=μ2,两种疗法治疗后患者血糖值的总体均数相同;

H 1:μ1≠μ2,两种疗法治疗后患者血糖值的总体均数不同; =α0.05或0.01。 2. 计算检验统计量

3.

确定P 值,作出推断结论

两独立样本t 检验自由度为 ν =n 1+n 2-2 =12+13-2=23;

P =0.001<0.01,按α=0.01的水准拒绝H 0,接受H 1,差异有统计学意义。 t 检验的应用条件 计量资料;

小样本(n<40)要求服从正态分布(正态性检验进行判断),或大样本;

两组比较时,要求方差齐性(方差齐性检验进行判断);

组间均衡可比性。

关于t 检验的说明 关于α的说明;

几何均数资料t 检验,服从对数正态分布,先作对数变换,再作t 检验;

数据是否服从正态分布,通过正态性检验进行判断;不服从正态分布,不能用t 检验,应采用秩和检验;

数据是否方差齐性,通过方差齐性检验进行检验;若方差不齐,应采用t ’检验。

关于α的说明 1. 检验水准,显著性水平,即定义小概率事件; 2.

0.05,0.01;某些情况下可取0.1,0.001;

P >0.05,“差异没有(显著)统计学意义”; P <0.05,“差异有(显著)统计学意义”; P <0.01,“差异有极其(显著)统计学意义”;

错误的说法:“有显著差异”;“差异是否显著”由专业来决定,统计学只能给出“差异是否有统计学意义”,即是否有证据表明存在差异。 3.

界值代表容许犯错的最大概率,是事先确定的,不能随便移动 。 t 检验中的注意事项 1. 假设检验结论正确的前提

作假设检验用的样本资料,必须能代表相应的总体,同时各对比组具有良好的组间均衡性,才能得出有意义的统计结论和有价值的专业结论。

3. 双侧检验与单侧检验的选择

需根据研究目的和专业知识予以选择。单侧检验和双侧检验中的t 值计算过程相同,只是t 界值不同,对同一资料作单侧检验更容易获得显著的结果。单双侧检验的选择,应在统计分析工作开始之前就决定,若缺乏这方面的依据,一般应选用双侧检验。 4.假设检验的结论不能绝对化

假设检验统计结论的正确性是以概率作保证的,作统计结论时不能绝对化。在报告结论时,最好列出概率P 的确切数值。当P 接近临界值时,下结论应慎重。

5. 正确理解P 值的统计意义

P 是指在无效假设 H 0 的总体中进行随机抽样,所观察到的等于或大于现有统计量值的概率。其推断的基础是小概率事件的原理,即概率很小的事件在一次抽样研究中几乎是不可能发生的,如发生则拒绝H0。因此,只能说明统计学意义的“显著”。 假设检验中两类错误

表5–4 假设检验的两类错误

假设检验结论

拒绝H 0,接受H 1 接受H 0 H 0成立 H 0不成立即H 1成立

Ⅰ型错误(α) 推断正确(1β-)

推断正确(1α-) Ⅱ型错误(β)

第六章 方差分析

多个样本均数的两两比较

两独立样本均数t 检验

如采用多次t 检验,累积Ⅰ型错误概率将大大增加。

方差分析思想

要说明甲组比乙组和丙组好,

首先C B A X X X ,

其次:比较小各组总变异C B A SS SS SS ,,

方差分析步骤

⒈ 提出检验假设,确定检验水准。

H 0: 三个组GSH 值的总体均数相同;

H 1: 三个组GSH 值的总体均数不全相同; ⒉ 根据公式计算SS 、MS 及F 值,列于方差分析表内。

⒊ 确定P 值,作出判断

分子自由度=k-1=2,分母自由度=n-k=33, F =23.85,P <0.05,差别有统计学意义,按照0.05的显著性水准,拒绝H 0,可认为三种处理方式大鼠的GSH 值不全相同。 均数之间的多重比较

完成方差分析后,我们可以得到结论: H 0:各组总体均数相同;

H 1:各组总体均数不全相同;

如果接受H 0 ,分析完成(F 检验一次性完成多组比较,控制了Ⅰ型错误);

如果拒绝H 0 ,接受H 1 ,则需要进一步做“多重比较”确定哪些组间有差异(post hoc 检验); “多重比较”仍然不能采用t 检验! 多重比较的方法

LSD-t 检验;SNK-q 检验;Dunnett-t 检验; LSD-t 检验

最小显著差异(Least significant difference )t 检验 SNK -q 检验

SNK (Student-Newman-Keuls )检验,亦称q 检验。 Dunnett-t 检验 方差分析的使用条件

1. 各处理组样本来自随机、独立的正态总体

直方图、茎叶图粗略估计; P-P 图、Q-Q 图精确估计; 偏度系数和峰度系数估计;

one-sample K-S 非参数检验( D 法); 2. 各处理组样本的总体方差相等

Bartlett 检验法:正态分布资料;

Levene 检验法:无资料分布要求(SPSS );

3. 正态性和方差齐性的假设检验 方差分析与方差齐性检验的比较 相同点:都在比较方差大小; 不同点:

目的

方差分析在比较总体均数是否相等;

方差齐性检验在比较两总体方差是否相同; 查表 方差分析是单侧F 界值表(总体组间≥组内);

方差齐性是双侧F 界值表(总体分子未必>分母);

第七章 相对数及其应用 相对数的种类

率(rate )

构成比(constituent ratio ) 相对比(relative ratio ) 率(通常针对二分类计数资料)

概念:率是表示某种现象发生的频率和强度,常以百分率(%)、千分率(‰)、万分率(/万)、十万分率(/10万)等表示 。 计算公式:

注意:比例基数”通常依据习惯而定,治愈率、感染率用百分率,出生率、死亡率用千分率,某些疾病的死亡率用十万分率。保持率的整数位1~2位。 构成比(通常针对多分类计数资料或等级资料) 概念:又称构成指标,表示事物内部各个组成部分所占整体的比重,通常以100%为比例基数,以百分比表示。 计算公式:

注意:各组成部分的构成比之和为100%,某一部分比重增大,则其它部分相应减少。 相对比

概念:相对比是两个有关联指标之比,用以描述两者的对比水平,常用R 表示。 计算公式:

注意:A 大于B 用倍数表示,A 小于B 时用百分数表示。 相对比的种类 1. 两类个体例数之比

两类同指标之比(男:女) 两类不同指标之比(人均收入)

2. 两个率之比(相对危险度RR )

3. 两个相对比之比(比值比OR )

相对数使用应注意的问题

1. 不要把构成比与率相混淆(例7.1);

2. 使用相对数时分母不宜过小(投篮

比较);

3. 注意资料的可比性(医院治愈率比较);

4. 要考虑抽样误差。

率的标准化 率的标准化,是为了在比较两个不同人群的患病率、发病率、死亡率等资料时,消除其内部构成(如年龄、性别、工龄、病程长短等)的影响。如年龄会影响死亡率,年龄越大,死亡率可能越大;病情越重,越难治愈,治愈率就越低。

标准化直接法的计算步骤

1. 选取标准构成。标准构成选取方法有三种: (1)另外选取一个包含比较各组(如各地区)的有代表性的、较稳定的、数量较大的构成为标准。如世界的、全国的、全省的数据为标准构成。 (2)取比较各组的各层例数的合计为标准构成。 (3)从比较的各组(如各地区)中任选其一的构成作为标准构成。

2. 在标准构成下,以原分层率计算各组的预期发生数。

3. 计算标准化率。 医学中常用的相对数指标

A R

B =

指标

指标100%

=

?其中一组例数

构成比各组例数之和比例基数

有可能数某事物或现象发生的所际数

某事物或现象发生的实率?=

第八章 卡方检验

A :观察值;T :理论值;四格表的自由度为1

1. 若检验假设H 0:π1=π2成立,四个格子的实

际频数A 与理论频数T 相差不应该很大,即统计量χ2 不应该很大。

2. 如果χ2 值很大,即相对应的P 值很小,若 P

≤α,则反过来推断A 与T 相差太大,超出了

抽样误差允许的范围,从而怀疑H 0的正确性,继而拒绝H 0,接受其对立假设H 1,即π1≠π2 卡方检验步骤

(1) 建立检验假设,确定检验水平。

H 0:π1=π2 即甲药与乙药的总体有效率相等 H 1:π1≠π2 即甲药与乙药的总体有效率不等 α=0.05。

(2)求检验统计量值

(3) 确定P

值,作出推断结论

因为P =0.251>0.05,按α=0.05水准,接受H 0,差异有统计学意义,可以认为甲乙两种药物治疗冠心病的总体有效率相等。

所有情况,都可以用

配对四格表资料,用配对专用公式;

关联性检验 Vs Kappa 卡方检验统计量

基本公式 非参数检验

实际应用中:对于行列表资料要根据其分类类型和研究目的选用恰当的检验方法。对于两组或多组比较的等级分组资料不宜用卡方检验。 多个样本率间的多重比较

1. 用四格表资料的卡方检验进行两两比较;

2. 检验水准α’=α/n ,n 为检验次数;这种多重

检验校正方法称为Bonferroni 方法。

∑-=

T T A 2

2)(χ2(1)

(1)(1)R C

A

n n n χν

=-=--∑行数列数χ2

2=

-++++()()()()()

ad bc n a b c d a c b d 1

=νχ2

2

05=--∑(.)A T T RC RC RC

χ222=--++++(/)()()()()

ad bc n n a b c d a c b d

第十章线性相关与回归

线性相关的基本概念

把这种Y随着X变化而变化的关系称之为相关关系,如果这种变化呈现直线关系,又称之为直线相关(线性相关)或简单相关。

线性相关系数

相关系数就是说明具有直线关系的两个变量间相关密切程度和相关方向的统计量。

相关系数r没有测量单位,其数值为-1≤r≤1

相关系数的显著性检验

原因:由于根据样本资料计算出来的相关系数存在抽样误差。

举例:假设在一个X与Y无关总体中作随机抽样,由于抽样误差的影响,所得的样本相关系数也常常不等于零。

结论:要判断两个变量X与Y在总体是否真的存在相关关系,需要作总体相关系数ρ是否为零的假设检验。

进行线性相关分析的注意事项

1. 线性相关表示两个变量之间的相互关系是双向的,分析两个变量之间到底有无相关关系可首先绘制散点图,散点图呈现出直线趋势时,再作分析。

2. 依据公式计算出的相关系数仅是样本相关系数,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关及相关的密切程度,必须作假设检验。

3. 相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向。而两个事物之间的关系既可能是依存因果关系,也可能仅是相互伴随的数量关系。要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。

等级相关系数

1 如果观测值是等级资料,则可以用等级相关来表达两事物之间的关系。

2 常用的等级相关计算方法是Spearman等级相关系数。

线性回归方程的显著性检验

1 对线性回归方程要进行假设检验,就是要检验b 是否为β=0的总体中的一个随机样本。该假设检验通常用采用方差分析或者t检验,两者的检验效果等价。

2 t检验:

3 方差分析:

进行线性回归分析的注意事项

⒈只有对两个有内在联系的变量进行回归分析才是有意义的。

⒉作回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果的关系,那么应该以“因”的变量为X ,以“果”的变量为Y 。

⒊在回归分析中,要求自变量与因变量都服从正态分布。

⒋回归方程建立后必须作假设检验,只有经假设检验拒绝了无效假设,回归方程才有意义。

⒌使用回归方程计算估计值时,不可把估计的范围扩大到建立方程时的自变量的取值范围之外。

线性相关与回归的区别与联系

1. 线性相关表示两个变量之间的相互关系是双向的;回归则反映两个变量之间的依存关系,是单向的。

2. 如果对同一资料进行相关与回归分析,则得到的相关系数r与回归方程中的b正负号是相同的。

3. 在相关分析中,求出r后要进行假设检验,同样,在回归分析中,对b也要进行假设检验。同一样本的这两种假设检验也是等价的。

4.相关和回归可以互相解释。

r是表示两个随机变量之间呈直线相关的强度和方向的统计量。

直线回归:要求Y服从正态分布,X为人为控制或精确测量

直线相关:要求X和Y都服从正态分布。

r=0.85,关系密切?,只能说程正相关。

1.建立检验假设

H0:ρ=0,即身高与前臂长之间不存在相关关系;

H1:ρ≠0,即身高与前臂长之间存在相关关系;

α=0.05

2.计算检验统计量

t=4.013,ν=11-2=9

3.确定P值,作出结论

P=0.005(SPSS软件计算)<0.05,按照α=0.05水准拒绝H0,接受H1,差异有统计学意义,可以认为身高与前臂长之间存在相关关系。

|0|

,

b

b

t

s

υ

-

==n-2

=+ SS SS SSυυυ

=+

总回归总回归

剩余剩余

总复习

计量资料:由连续变量的观察值构成的资料。对每个观察对象的观察指标用定量方法测定其数值大小所得的资料,一般有度量衡单位,例如年龄、身高、血糖。

计数资料:由离散变量的观察值构成的资料。先将观察对象的观测指标按性质或类别进行分组,然后计数各组的数目所得的资料,例如性别、患病、血型。

等级分组资料:由等级变量的观测值构成的资料。具有计数资料的特征,同时又具有半定量性质的资料,例如细菌培养阳性结果。

2.用两种方法检验已确诊的肝癌患者120名, 得到如下资料

甲法乙法合计

+-

+42 30 72

-18 30 48

合计60 60 120

(1)请解释表中42、18两个数字的意义。

2χ(2)请通过检验说明两种方法检查的阳性检出率有无差别。解:

(1).请解释表中42、18两个数字的意义。

“42”表示两种方法检验结果一致的例数,“18”是指两者不一致的例数(4分)

2χ(2).请通过检验说明两种方法检查的阳性检出率有无差别。

1).检验假设:H0:两法检验结果无差别或一致,

的扣1分)α=0.05(2分,未给H0或α H1:两法检验结果有

差别或不一致,

2).计算统计量:因配对四格表b+c=48>40,故可不用校正法(3分,

用校正公式扣1分)

3).确定P值并作结论:自由度=1,界值

<今0.05,不拒绝H0,即还不能认为甲法与乙法的检验结果有差别。(3分,未给实际结论的扣1分)>,故P

)

,

(

,2/

,2/X

X

S

t

X

S

t

X

ν

α

ν

α

+

-

)

,

2/

2/X

X

S

Z

X

S

Z

α

α

+

)

,

(

2/

2/X

X

Z

X

Z

σ

α

α

+

-

Chapter 基本概念

显著性检验(test of significance):计算P值

医学统计工作的内容:

1、实验设计:最关键最重要

2、收集资料:最基础

原始资料:实验数据

现场调查资料

医疗卫生工作记录

报表

报告卡

质量控制——精度和偏倚

3、整理资料

(1)资料的逻辑检查(坏数)

(2)一致性检查

(3)原始数据加工:频数分布表

4、分析资料:统计描述(表、图、离

散趋势、集中趋势)和统计推断

统计描述类型的选择:

集中趋势离散趋势

对称、正态μ,x

S

SS,

σ

对数正态G S lgX 偏态及其他M Q,R 单位不同或均数差别大CV

医学统计的资料类型:计量资料、计数资料、等级分组资料

医学统计学的对象:有变异的事物

总体和样本:

总体(population)的特性:同质性、大量性、差异性。

抽样的要求:代表性、随机性、可靠性、可比性。

样本的三性:代表性、随机性、可靠性。

可靠性(reliability):实验的结果要具有可重复性。即由科研课题的样本得出的结论所推测总体的结论有较大的可信度。

两样本间具有:可比性。

误差的类别:

1、系统误差(system error):在资料的收集过程中,由于仪器初始状态没有调零、标准试剂未经矫正、标准指定偏高或偏低等原因,造成的观察结果的倾向性的偏大或偏小。必须克服。

2、随机测量误差(random measurement error):在避免系统误差的情况下,由于各种偶然因素的影响造成对同一对象多次测量值的不一致。

3、抽样误差(sampling error):由于抽样造成的的样本统计量与总体参数之间

的差别。不可避免。样本含量越大,抽样误差越小。如均数的抽样误差:|

-

X

|μ。

概率(probability):P(A)

小概率事件:P≤0.05(有统计学意义)或P≥0.01(有高度统计学意义)。

Chapter 集中趋势的统计描

手工整理资料频数表(frequency table)的步骤:

1、求极差(全距)

2、确定组数、组距

抽样

总体样本参数统计量

推断

参考组距=全距 / 组数 3、确定组段

4、手工编制划记表 直方图(histogram ): 高度:各组的频数 纵轴 宽度:组距 横轴表示组限 均数(average ):

适用:对称分布或偏度不大的资料,尤其适合正态分布。

1、算术均数(mean ):n

∑=

X X

2、加权均数:n

∑= X f X

3、几何均数:

n ∑-= X lg lg G 1

n

∑-=M 1

X lg f lg

G 中位数(median ):观察值按照从小到

大排列时,居中心位置的数值。

适用于1、分布明显成偏态时,2、频数分布的一端或两端无确切数值时。不便于统计计算。

i

f f n 5.0L M M

L

M ?-+=)(

M :中位数;L M :M 所在组的上限;f L :M 所在组之前积累的频数;f M :M 所在组的频数;i :组距。

百分位数(percentile ):Px 。在一组中找到这样一个数值P ,全部观察值的x%小于P 。P 75、P 25描述资料离散程度。

i

f f x%n L P x

L

x X ?-?+=)(

众数:一组观察值中,出现频率最高的那个观察值。若为分组资料,则为频率最高组的组中值。适用于大样本,但粗糙。

Chapter 离散程度的统计描述

离散的表述指标:

1、按间距计算:极差、四分位数间距

2、按平均差距:离均差平方和、方差、标准差、变异系数

极差(range ,R ):即全距。粗略。适用于任何分布。

四分位数间距(quartile ,Q ):一组观察值按大小排序后,分成四个数目相等的段落,每个段落观察值的数目占总例数的25%。去掉两端含有极端数值的25%,取中间的50%的观察值的数据范围即为~。 越大则数据变异越大。适用于偏态分布。

Q=P 75 - P 25

离均差平方和(sum of square of deviation ):

∑∑∑-

==n

X X X -X SS 2

22

)()(

方差(variance ):

样本方差 1

-n X -X SS

S 2

2

∑==)(ν

总体方差 N

X -X SS

S 2

2

∑==)(ν 标准差(standard deviations ):

ν

SS

S S 2

=

=

适用于近似正态分布。

p.s.1、可用于合并资料的直接计算 2、与均数结合可以完整概括一个正态分布。

变异系数(CV ):用于均属相差交大或单位不同的几组数据观察值的比较。

CV=%100X

S ?

正态分布(normal distribution ): 1、正偏态分布:高峰向左,长尾向右 负偏态分布:高峰向右,长尾向左。 2、μ和σ是正态分布总体的两个参数,对应样本统计量中的S 和X 。实际应用中μ和σ通常未知,可以将S 和X 作为总体参数的估计量使用。

注意对比:1

-n X -X S

2

∑=

)(

N

-X 2

=)

(μσ 2、μ是位置参数,σ是变异参数。 描述方法:N (μ,σ2)

3、曲线下面积的意义:X 1~X 2出现的

概率。

μ±σ 68.3%

μ±1.96σ (单侧μ±1.645σ) 95%

μ±2.58σ(单侧μ±2.33σ) 99%

标准正态分布(standard~):是μ=0,

σ=1的正态分布。

对于任何参数为μ、σ的正态分布,都可以通过变量变换转化成标准正态分布:

σ

μ

-x u =

医学参考值范围(reference value range )的制定方法:

1、选择足够数量的正常人作为参照样本

2、对选定的参照样本进行准确的测定

3、决定取单侧范围还是双侧范围值

4、选择适当的百分范围

5、估计参考值范围的界限

Chapter 抽样误差与可信区间

中心极限定理:在样本含量很大的情况下(n ≥50),无论样本测量量(X )服从什么分布,样本均数X 的抽样分布都近似服从以μ为均数的正态分布N (μ,σ2/n )

标准误(standard error ):样本均数X 之间变异的标准差。n

X

σ

σ=

实际工作中总体标准差σ 未知,,用样

本的标准差S 代替:n

S S X =

标准差与标准误的区别:

标准误(公式)的意义:

1、与标准差的联系:在样本含量一定的情况下,标准误与标准差成正比。

(1)当观察值的变异(标准差)较小时,样本均数之间的抽样误差较小,抽到的样本均数与总体均属可能相差较小,用

X估计μ的可靠性较好

(2)当观察值的变异较大时,样本均数之间的抽样误差较大,抽到的样本均数与

总体均属可能相差较大,用X估计μ的可靠性较差。

2、与样本含量的关系:与其平方根成

1、(1-α)越接近1越好,概率↑

2、区间宽度越窄越好,精确度↑

但两者是矛盾的。一般选择(1-α)=95%。

t分布(t distribution):是以0为中心的对称分布;当∞

ν时,t分布的极限分布就是标准正态分布。在正态分布的总体

中进行抽样,

n

/S

-xμ

服从自由度

1

n-

=

ν的t分布。

t的大小与α、自由度有关。

可信区间的计算:

X

S ?-να,2/t X ( ,

X S ?+να,2/t X 若n ≥50,则t 分布接近标准正态分布,

则简化

X S ?-2/u X α( ,)X S ?+2/u X α

若σ已知,则可简化为

X σα?-2/u X ( ,

)X σα?+2/u X

96.1u 05.0=,58.2u 01.0=

Chapter 假设检验

假设检验(hypothesis test ): 目的:比较总体参数有无差别 基本思想:首先对所需比较的总体提出一个无差别的假设,然后通过样本数据推断是否拒绝这一假设。

基本方法:反证法和小概率事件。 基本步骤:

1、建立假设和确定检验水准 无效假设(null hypothesis ):H 0:μ=μ0

(或μd =0),总体均数无差别。 备择假设(alternative ~):H 0:μ≠μ0(或μd ≠0),总体均数有差别 假设有单侧和双侧两种。应用单侧检验一定要有过硬的专业知识。一般选用双侧检验,因为双侧检验得出有显著差别的结论,单侧检验结论也一定是显著差别;然而反之不亦然。

检验水准亦称显著性水准(significance

level ),用α表示,是预先设定的拒绝域的概率值。一般取0.05。

2、选择检验方法和计算检验统计量

3、确定P 值、做出统计推断结论 P 值的意义:假设检验下结论的主要依据,指在原假设成立的条件下,观察到的样本差别是由机遇所致的概率。

结论:

1、p<α,样本数据差异显著,有统计学意义,拒绝H 0,接受H 1

2、P>α,样本数据差异不显著,无统计学意义,根据现有样本不足以拒绝H 0(不等于接受H 0)。

单样本的t 检验: 条件:μ,X ,S ,n

1、H 0:μ=μ0 ,α=0.05,双侧检验

2、t=

n

/S -x μ,1n -=ν

3、να,2/t

配对样本t 检验:

条件:n ,指标1、指标2(d ,∑d ,∑d 2) 1、H 0:μd =0,α=0.05 2、t=

n

S n d //d S d

d

∑=

μ

3、να,2/t

成组设计实验的两样本均数比较 条件:n1,n2,X 1,X 2,S1,S2 1、H 0:μ1=μ2 , 2、u=

2

22

12

1

21/S /n S X X n +-

3、96.1u 05.0=,58.2u 01.0=

F 检验:

条件:表格略

1、H 0:各组总体均数相同, H 1:各组总体均数不全相同

2、E

E TR

TR E TR SS SS MS MS F

νν//==

v TR =k-1,v E =n-k

3、F 符合自由度为(k-1,n-k )的F 分布。

F 值接近1,则可认为均值只来源于随机波动。若F>1,且F>F α,(k-1,n-k),则

P<α,……。

假设检验中的两类错误:

1、第一类错误:当H 0为真时,拒绝

H 0接受H 1。又称假阳性错误(阳性指两者总体参数有差异)。检验水准α是预先规定的犯第一类错误的概率的最大值。

2、第二类错误:当H 0为假时,不拒绝H 0。又称假阴性错误。概率大小用β表示,只取单侧,一般未知。

可证,α越大β越小,α越小β越越大。若要同时减少第一类错误和第二类错误,唯一方法是增大样本含量 简单四格表的2

χ检验:

有效 无效 合计 药物1 a b a+b=n1 药物2

c

d

c+d=n0

合计 a+c=m1 b+d=m0 N

1、H 0:21ππ=,α=0.05

2、1=ν

当n ≥40,且所有T ≥5时,四格表专用公式

))()(c )((2

2

d b c a d b a n

bc ad ++++-=

)(χ

当n ≥40,但有1

正公式

)

)()(c )((1||2

2d b c a d b a n

bc ad ++++--=

)(χ

当n ≤40,或有T ≤1时,使用Fisher 确切概率公式

!

!!!a )()()c ()(2

n d c b d b c a d b a !!!!!++++=χ

3、2

105.0,χ=3.84,2

101.0,χ=6.63 配对四格表2

χ检验:

对照组 病例组

合计 有暴露史 无暴露史 有暴露史 a b a+b=n1 无暴露史 c d c+d=n0 合计

a+c=m1

b+d=m0

N

1、H 0:21ππ=,α=0.05

2、1=ν

当b+c ≥40时,c

b c -b 2

2

+=)(χ

当b+c <40时,c

b 1|

c -b |2

2

+-=)

(χ

3、2105.0,χ=3.84,2

101.0,χ=6.63

行*列资料的2

χ检验:

有效 无效 合计 药物1 a b n1 药物2 c d n2 药物3 e f n3 合计

m1

m2

N

1、H 0:各组有效率相同, H 1:各组有效率不全相同

2、)(1n n A n C

R 2

2

-=∑

χ, =ν(行数-1)(列数-1) 3、2

ναχ,

Chapter 相对数及其应用

相对数(relative number ):是两个有关的据对数之比,也可以是两个有关的统计指标之比。常用的有:率、比值比、构成比。 率(rate ):表示在一定的范围内某现象的发生数与可能发生的总数之比。 构成比(constitute ratio ):表示某事物内部组成部分在总体中的比重。

相对比(relative ratio ):A 、B 两有关联的指标之比,用以描述两者的对比水平。如RR 。 总体均数

总体标准差 总体率

四分位数间距

总体相关系数 第二类错误的概率;总体回归系数

CV 变异系数 β

CI 可信区间 M 中位数 P50 50%

SMR 实际死亡数/预期死亡数

X -μs

-σp

-πl

u Q Q -r

-ρb -β

医学统计学复习提纲

《医学统计学》复习提纲 第二章 统计描述 公式:几何均数 (1)直接法: n n X X X G ...21= 或 )lg (lg )lg ...lg lg ( lg 1211 n X n X X X G n ∑--=+++= (2)加权法: )lg (lg ....lg ...lg lg (lg 12122111 ∑ ∑--=++++++=f X f f f f X f X f X f G k k k 中位数(median ) (1) 直接法: n 为奇数 , 2 ) 1(+=n X M n 为偶数,)(21 12 2 ++= n n X X M (2)频数表法:用于频数表资料。 ∑-+ =)2 (L M f n f i L M 标准差(standard deviation ): n X ∑-= 2 ) (μσ 1 ) (2 --= ∑n X X S 离均差平方和 2 ) (∑-X X 常用SS 或l XX 表示。∑∑∑- =-= =N X X X X l SS XX 2 22 )() ( 直接法: 1 )(2 2 --= ∑∑n n X X S 加权法: 1 )(2 2 -- =∑∑ ∑∑f f fX fX S 1. 常用的相对数指标有哪些?它们的意义和计算上有何不同? 2. 为什么不能以构成比代率?请联系实际加以说明。 率和构成比所说明的问题不同,绝不能以构成比代率。构成比只能说明各组成部分的比重或分布,而不能说明某现象发生的频率或强度。例如:以男性各年龄组高血压分布为例,50~60岁年龄组的高血压病例占52.24%,所占比重最大,60~岁组则只占到6.74%。这是因为60~岁以上受检人数少,造成患病数低于50~60岁组,因而构成比相对较低。但不能认为年龄在50~60岁组的高血压患病率最严重,而60岁以上反而有所减轻。若要比较高血压的患病率,应该计算患病率指标。 3. 应用相对数时应注意哪些问题? 4.简述医学中参考值范围的涵义及制定参考值范围的一般步骤。 医学中常把绝大多数正常人的某指标范围称为该指标的参考值范围,也叫正常值范围。所谓“正常人”不是指完全健康的人,而是指排除了所研究指标的疾病和有关因素的同质人群。 制定参考值范围的一般步骤: (1)定义“正常人”,不同的指标“正常人”的定义也不同。 (2)选定足够数量的正常人作为研究对象。

医学统计知识点整理(1)

医学统计学知识点整理 第一节统计学中基本概念 一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。 “同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的 二、总体与样本 1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集合。 三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验 四、误差:实测值与真值之差★ 1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。 3.非系统误差:过失误差,可以避免或清除。 五、概率 是用来描述事件发生可能性大小的一个量值,常用P表示。概率取值0~1。 统计上一般将P≤0.05或P≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。 第二节统计资料的类型★

变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。 一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g)等。 二、无序分类变量资料 又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。 分类:二分类:+ -;有效,无效;多分类:ABO血型系统 特点:没有度量衡单位,多为间断性资料 【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料 【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选C。 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 B.多分类变量 C.定量变量 D.定性变量 【答案】C 【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选C。 三、有序分类变量资料 半定量资料或等级资料:将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。 特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同举例:- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

常用医学统计学方法汇总

选择合适的统计学方法 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两

医学统计学符号-公式-重点

第一章 医学统计中的基本概念 1、医学统计学是研究医学数据的收集、整理、分析、解释和呈现其结果的一门学科。 2、个体:研究的基本观察单位。 3、变量:用于观察研究对象的指标。 4、观察值:个体变量的数值。 5、资料:又称为数据,由变量的观察值构成。 变异:个体观察值之间具有 的差异。 变异和同质是对统计学数据 的要求! 变异是统计学研究的真正对 象! 统计学是研究变异规律的科 学! 同质:个体观察值之间的变 异在允许范围内。 异质:个体观察值之间的变 异超出允许范围。 一、总体、抽样、样本、参数、统计量 总体:同质的个体所构成的全体研究对象。总体同时具有同质和变异两个特点。 有限总体:总体中的个体 数量是有限的。 无限总体:总体中的个体 数量是无限的。 样本:从总体中随机抽取 的部分个体。 样本量:样本所包含的个

体数目。 参数:刻画总体特征的指标。 统计量:刻画样本特征的指标。 抽样:从总体中随机抽取部分个 体的过程。抽样具有代表性、随机性、可靠性、可比性; 原则:代表性:样本能充分反映 总体特征。 随机性:保证总体中每个个体都有相同的几率被抽样。 随机性是代表性的保证; 生活中随机性的例子(思考题); 计数资料计量资料 (分类资料)资料 等级资料(有序多分类资料) 二分类资料 无序多分类资料 计量资料:由连续变量的观察值构成的资料。对每个观察对象的观察指标用定量方法测定其数值大小 所得的资料,一般有度量衡单位,例如年龄、身高、 血糖。 计数资料:由离散变量的观察值构成的资料。先将 观察对象的观测指标按性 质或类别进行分组,然后 计数各组的数目所得的资料,例如性别、患病、血型。 等级分组资料:由等级变量的观测值构成的资料。具有计数资料的特征,同

【孙振球第三版】医学统计学复习题

一、名词解释: 1、总体:根据研究目的确定的同质观察单位的全体。是同质所有观察单位的某种变量值的集合。 2、有限总体:是指空间、时间范围限制的总体。 3、无限总体:是指没有空间、时间限制的总体。 4、样本:从总体中随机抽取部分观察单位,其实测值的集合。 5、计量资料:又称定量资料或数值变量资料。为观测每个观察单位的某项指标的大小,而获得的资料。其变量值是定量的,表现为数值大小,一般有度量衡单位。根据其观测值取值是否连续,又可分为连续型或离散型两类。 6、计数资料:又称定性资料或者无序分类变量资料,亦称名义变量资料,是将观察单位按照某种属性或类别分组计数,分组汇总各组观察单位数后得到的资料。其变量值是定性的,表现为互不相容的性或类别。分两种情形:(1)二分类:两类间相互对立,互不相容。(2)多分类:各类间互不相容。 7、等级资料:又称半定量资料或有序分类变量资料,是将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。其变量值具有半定量性质,表现为等级大小或属性程度。 8、随机误差(偶然误差):是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起,观察值不按方向性和系统性变化,在大量重复测量中,它可呈现或大或小,或正或负的规律性变化。 9、平均数:描述一组变量值的集中位置或水平。常用的平均数有算术平均数、几何平均数和中位数。 10、抽样误差:由于个体差异和随机抽样造成的样本统计量和总体参数之间的差异,以及统一总体若干样本统计量之间的差异。 11、I型错误:拒绝了实际上成立的H0,这类“弃真”错误称为I 型错误。检验水平,就是预先规定的允许犯I型错误概率的最大值。I型错误概率大小也用α表示,α可取单尾亦可取双尾。12、II型错误:“接受”了实际上不成立的H0,这类“取伪”的错误称为II型错误。其概率大小用β表示,β只取单尾,β值的大小一般未知,,须在知道两总体差值δ、α及n时,才能算出。13、相对数:两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数学的大小。如率、构成比、比等。 14、率:强度相对数,说明某现象发生的频率或强度。 15、构成比:结构相对数字,表示事物内部某一部分的个体与该事物各个部分个体数的和之比。用来说明各构成部分在总体所占的比重或分布。 16、相对比:简称比,是两个相关联指标之比,说明两指标间的比例关系。两指标可以性质相同,也可以性质不同,通常以倍数或百分数表示。两指标可以是绝对数、相对数或平均数。 17、标准化:采用某影响因素的统一标准构成以消除内部构成不同对总率的影响,使通过标化后的标准率具有可比性。 18、动态数列:是一系列按时间顺序排列起来的统计指标,用以观察和比较该事物在时间上的变化和发展趋势。常用指标有绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。 19、非参数检验:相对于参数检验而言,不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验方法,称为参数检验。 20、相关系数:又称Pearson积差相关系数,以符号r来表示。说明两正态变量间相关关系的密切程度和方向的指标。无单位,其值为-1≤r≤1。相关系数的检验假设常用t检验。 21、回归系数:即线性回归方程的斜率b,其统计意义是当X变化一个单位时Y的平均改变的估计值。在直线回归中对回归系数的t检验与F检验等价。 22、随机原则:是指在实验分组时,每个受试对象均有相同的概率或机会被分陪配到实验组和对照组。 23、分类变量资料:计数资料,又称定性资料或无序分类变量资料。是将观察单位按照某种属性或类别分组计数,分组汇总各组观察单位数后得到的资料。其变量值是定性的,表现为互不相容的性或类别。分两种情形:(1)二分类:两类间相互对立,互不相容。(2)多分类:各类间互不相容。 24、无序分类变量资料:计数资料,又称定性资料。是将观察单位按照某种属性或类别分组计数,分组汇总各组观察单位数后得到的资料。其变量值是定性的,表现为互不相容的性或类别。分两种情形:(1)二分类:两类间相互对立,互不相容。 (2)多分类:各类间互不相容。 25、寿命期望:指同时出生的一代人活满x岁以后尚能生存的年数(即岁数)。 26、检验效能:表达式为1-β,以往称把握度。其意义为当两总体确有差异,按规定检验水准所能发现该差异的能力。 27、观察单位:亦称个体,是统计研究中的基本单位。它可以是一个人、一只动物,也可以是特指的一群人;可以是一个器官,甚至一个细胞。 28、样本含量:样本中包含观察单位数称为该样本的样本含量。 29、变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,成为变量。 30、变量值:对变量的观测值称为变量值或观察值。 31、误差:泛指实测值与真实值之差,按产生原因和性质可粗分为(1)随机误差;(2)非随机误差①系统误差②非系统误差。32、系统误差:实验过程中产生的误差,它的值或恒不变,或遵循一定的变化规律,其产生的原因往往是可知的或可能掌握的。应尽可能设法预见到各种系统误差的具体来源,力求通过周密的研究设计和严格的技术措施施加以消除或控制。 33、非系统误差:在实验过程中由于研究者偶然失误造成的误差。这类误差应当通过认真检查核对予以清除,否则将影响研究结果的准确性。 34、频率:一个随机试验有几种可能,在结果重复进行试验时,个别结果看来是偶然发生,但当重复试验次数相当大时,总有规律出现。在重复多次后,出现结果的比例称之为频率。

医学统计学分析基本思路指南

医学统计学分析基本思路指南 医学统计学的学习一定要以理解为主。对于初学者,不必强记一大堆的公式,也不要死钻牛角尖,非要弄明白为什么这种方法叫“t检验”、“F检验”,为什么这个残差叫做“学生化残差”等等。这些都是历史遗留问题,感兴趣的读者可以查阅统计学史。对于只想应用的人来讲,你只要了解在什么情况下应该用什么方法,什么指标应该用于什么情形。尽管多数统计教材都说了数据分析应该先做假设检验,然后选定统计量,然后怎么怎么。但实际中我们拿到一堆数据的时候,不会坐在桌上先列出零假设和备择假设,也不会满座子地计算统计量。 更实际的分析思路是: (1)先确定研究目的,根据研究目的选择方法。不同研究目的采用的统计方法不同,常见的研究目的主要有三类:一是差异性研究,即比较组间均数、率等的差异,可用的方法有t检验、方差分析、χ2检验、非参数检验等。二是相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析。三是影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、logistic回归、Cox回归等。 (2)明确数据您身边的论文好秘书:您的原始资料与构思,我按您的意思整理成优秀论文论著,并安排出版发表,扣1550116010 、766085044自信我会是您人生路上不可或缺的论文好秘书类型,根据数据类型进一步确定方法。不同数据类型采用的统计方法也不同。定量资料可用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。分类资料可用的方法有χ2检验、对数线性模型、logistic回归等。图1.6简要列出了不同研究目的、不同数据类型常用的统计分析方法。 (3)选定统计方法后,需要利用统计软件具体实现统计分析过程。SAS中,不同的统计方法对应不同的命令,只要方法选定,便可通过对应的命令辅之以相应的选项实现统计结果的输出。 (4)统计结果的输出并非数据分析的完成。一般统计软件都会输出很多结果,需要从中选择自己需要的部分,并做出统计学结论。但统计学结论不同于专业结论,最终还需要结合实际做出合理专业结论。下面是本人简单总结的常用方法的选择,可供读者参考。

医学统计学(白皮)

第一章 绪论 1、总体:根据研究目的确定的具有相同性质的研究总体,分目标总体和研究总体 2、样本:从研究总体中随机抽取的一部分有代表性的个体 3、抽样:从研究总体中随机抽取一部分有代表性的个体的过程。 抽样研究的目的是用样本推断总体 4 、变量:在统计学中,将对每个观察测定的指标称为变量 分类变量:二分类变量(eg :性别)& 多分类变量(eg :血型) 定性变量 有序变量 变量 离散型变量(eg :人口数) 定量变量 连续型变量(eg :血压、红细胞数) 变量的转化:定量→有序→分类→二值(只能单向转化) 5、同质:指的是总体中的个体性质相同或相近 变异:指的是观测变量在总体中的个体之间取值不同 6、参数:反映总体特征的统计指标,如μ、σ,总体参数是固定的常数 样本统计量:与总体参数对应的,反映样本特征的量,如X 、S ,由样本资料计算出来 7、抽样误差:当我们所要研究的变量在总体中存在变异时,从这个总体中抽取的样本在这个变量的取值情况上往往与总体有一个偏差,这是不可避免的。 8、概率:指一个随机事件发生的可能性大小,当P ≤0.05时为小概率事件。 实际应用中:频率即指样本率;概率即指总体率。 统计基本公理:小概率事件在一次随机实验中几乎是不可能发生的,这是假设检验的基础。 第二章 定量资料统计描述 一、频率分布表 离散型资料:变量取值不连续,频率分布图横轴为变量值,纵轴为频率,用直条图表示。 连续型资料:变量取值连续,频率分布图横轴为变量值(标出组中值),纵轴为频率密度(即频率/组距),用直方图表示,各直条面积为相应组段频率,直方图面积之和为1。 连续型资料的频率分布表编制步骤: 1、计算极差 2、确定组段数与组距,组距=极差/组段数 3、确定组段的上、下限,第一组段包含最小值,最后一组段包含最大值,除最后组段外,各组段应包含其下限值,不包含其上限值 4、列表 二、定量资料的统计描述 (一)算数均数 1、直接法(基于原始数据) n X n X X X X X n ∑=+?++= 321 其中,X 1,X 2,X 3,…,X n 为观察值 2、加权法(基于频数表)

医学统计学公式整理 简洁版

集中趋势的描述 算术均数: 频数表资料(X0为各组段组中值) n fX f fX x O O ∑∑∑== 几何均数: n n X X X G ...21= 或 ) log ( log 1 n X G ∑-= 频数表资料: ? ?????=????????=∑∑∑--n X f f X f G log lg log log 11 中位数:(1)* 2 1 +=n X M (2) ) (21* 12*2++= n n X X M 百分位数 ?? ? ??-?+ =L X X f n X f i L P 100其中:L 为欲求的百分位 数所在组段的下限 , i 为该组段的组距 , n 为总频数 , X f 为 该组段的的频数 , L f 为该组段之前的累计频数 方差: 总体方差为:式(1); 样本方差为 式(2) (1) N X 2 2 )(μσ-∑= (2) 1)(2 2--∑= n X X S 标准差: 1)(2--∑= n X X S 或 1/)(22-∑-∑= n n X X S 频数表资料计算标准差的公式为 1/)(22-∑∑∑-∑= f f fx fx S 变异系数:当两组资料单位不同或均数相差较大时,对变异 大小进行比较,应计算变异系数 %100?= X S CV 常用的相对数指标 (一)率 (二)相对比(三)构成比 1.直接法标准化 N p N p i i ∑= ' ∑=i i p N N p )(' 2.间接法标准化 预期人数实际人数= SMR ∑=i i P n r SMR S M R P P ?=' 正态分布:密度函数: )2/()(2221)(σμπ σ--= X e X f 分布函数: 小于X 值的概率,即该点正态曲线下左侧面积 )()(x X P x F <= 特征:(1)关于x=μ对称。(2)在x=μ处取得该概率密度函数的最大值,在σμ±=x 处有拐点,表现为钟形曲线。(3)曲线下面积为1。(4)μ决定曲线在横轴上的位置,σ决定曲线的形状 。(5)曲线下面积分布有一定规律 标准正态分布:对任意一个服从正态分布的随机变量,作如下标准化变换 σ μ-= X u ,u 服从总体均数为0、总体标准 差为1的正态分布。 u 值左侧标准正态曲线下面积为标准正态分布函数,记作 )(u Φ 医学参考值的确定方法:(1)百分位法:双侧(P 25,P 975),单侧P 95以下或P 5以上,该法适用于任何分布型的资料。(2)正态分布法:若X 服从正态分布,双侧医学参考值范围为 S X 96.1± 样本均数标准误的估计值为 X s = t 分布的概念:小样本总体标准差未知时,服从自由度为n-1 的t 分布 X X X t s μ-= 总体均数可信区间的计算: 大样本或总体标准差已知:式(1); 小样本:式(2) (1)n S X ? ±96.1 (2)n S n t t ?±-)1(,05.0(前一个t 表示均数) 单样本t 检验: n S X t /0 μ-= 自由度为 n-1; 配对样本t 检验: 检验统计量: n S d t d /0-= 自由度为n-1(n 为对子数) 两样本t 检验:检验统计量: ) 11(2 12 1n n S X X t c +-= (错: Sc 的平方) 2 )()(2)1()1(21222211212 222112-+-+-= -+-+-= ∑∑n n X X X X n n S n S n S c 方差齐性检验:H 0:两总体方差齐,H 1:两总体方差不齐,α=0.1 检验统计量: (较小)(较大)2 2 2 1 S S F = 分子自由度为n 1-1,分母自由度为n 2-1 方差分析的基本思想: 1、总变异:总离均差平方和: 2() 1 T ij i j SS SS X X N νν=-==-∑∑总总= ∑∑-=N X X ij ij /)(22 ∑=N X C ij /)( 2 2. 组间变异:组间变异反映了处理因素的影响(如处理确实有作用),同时也包括了随机误差(含个体差异和测量误差)。 21() 1 B i i i SS SS n X X k νν-==-∑组间组间== = C n X i i ij -∑ ∑2 )( 3. 组内变异:组内变异仅反映随机误差(含个体差异和测量误差),故又称误差变异。 222()(1) W E ij i i i i j i SS SS SS X X n S N k νν===-=-==-∑∑∑组内组内 2()(1) W E ij i i i i j i SS SS SS X X n S N k νν===-=-==-∑∑∑组内组内 1(1)()N k N k ννν=-=-+-=+总组间组内 组间均方与组内均方比值一般地服从分子自由度为ν1,分母 自由度为ν2的F 分布 12 1 MS F k N k MS νννν= ==-==-组间 组间组内组内 , 二项分布的概率函数P (X ): X n X X n C X P --=)1()(ππ; )! (!!X n X n C X n -= 二项分布的均数和标准差:进行n 次独立重复试验,出现X 次阳性结果 X 的总体均数为πμn = 总体方差为)1(2ππσ-=n 总体标准差为)1(ππσ -=n 如果将阳性结果用频率表示 n X p = 率的总体均数 π μ=p 标准差 n p ) 1(ππσ-= n p p n p p S p )1(1 ) 1(-≈--= 又称率的标准误它反映率的抽样误差的大小。 单侧累积概率计算:出现阳性的次数至多为k 次的概率为 ∑∑ ==---==≤k X k X X n X X n X n X P k X P 0 0)1()! (!! )()(ππ 出现阳性的次数至少为k 次的概率 ∑∑ ==---==≥n k X n k X X n X X n X n X P k X P )1()! (!! )()(ππ 率的可信区间的估计 正态近似法:当)1(,p n np - 均大于等于5时 n p p p n p p P )1(96.1,)1(96.1-+-? - 样本率与总体率的比较: 检验假设H 0:π=π0,H 1:π≠π0 1 . 满足正态近似时,计算检验统计量 ) 1(000 πππ--= n n X Z 或 n p Z ) 1(000 πππ--= 2. 不满足正态近似时用直接概率计算法 两样本率的比较:H0:π1=π2,H1:π1≠π2, 检验统计量: ) 1 1)(1(| |2121n n p p p p Z c c +--= 2121n n X X p c ++= Poisson 分布的概率函数为 ! )(X e X P X λλ -= POISSON 分布的应用: 单侧累计概率计算:稀有事件发生次数至多为k 次的概率为 ∑∑==-==≤k X k X X X e X P k X P 0 ! )()(λλ 发生次数至少为k 次的概率为 )1(1)(-≤-=≥k X P k X P 总体均数的区间估计:正态近似法 95%总体均数的可信区间为X X X X 96.1,96.1+- 样本率和总体率的比较 正态近似法: 当满足正态近似条件时, 对检验假设 H0:λ=λ0,H1:λ≠λ0, 检验统计量为 λ λ-= X Z 两组独立样本资料的Z 检验 :当两总体均数都大于20时, 对检验假设H0:λ1=λ2, H1:λ1≠λ2,当两样本观测单

医学统计学公式总结

医学统计学公式总结-标准化文件发布号:(9556-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

一 资料的描述性统计 (一)算术均数(mean) (1)简单算术平均值定义公式为(直接法): (2)利用频数表计算均数(加权法): (二)方差(即标准差的平方) (三)变异系数 二 参数估计与参考值范围 (一)均数的标准误 (二)样本率的标准误 (p 为样本率) (三)T 分布 (u 为总体均数) (四)总体均数的区间估计 (一 般要求 计算95%或99%的可信区间) (五)总体率的区间估计 n x n x x x x x n ∑= ++++= 321∑∑=++++++++= f fx f f f f x f x f x f x f x k k k 3213322111 ) (22 --=∑n x x s 222()/1 x x n s n -= -∑∑%100?= x s CV n s s x = n p p s p ) 1(-= n s x t μ -= x x s t x s t x ναναμ,2/,2/+<<-p p s u p s u p 2/2/ααπ+<<-

(六)参考值范围估计 双侧1-a 参考值范围: s u x a 2/± 单侧1-a 参考值范围:s u x a ->或 s u x a +< (可信区间计算是用标准误,参考值范围计算用标准差,百分位数法大家自己看书) 三 T 检验与方差分析 (一)T 检验 (1)单样本T 检验 检验假设: (假设样本来自均数为0 u 的正态总体) 统计量t 值的计算: (2)配对T 检验 检验假设: 统计量t 值的计算: (d 为两组数据 的差值,Sd 为差值的标准差) (3)两样本T 检验 检验假设: 统计量t 值的计算: 0μμ=:H 1 ,/00-=-=-=n n s x s x t x νμμ0 210==-μμμ:H d d d t s μ-==1-=n ν2 10μμ=:H 2 1)()(2121x x s x x t ----=μμ221-+=n n ν? ?? ?+= -2 1121s s C x x )()(2 222112∑-∑+-= x x x x s C

医学统计学公式总结

一 资料的描述性统计 (一)算术均数(mean) (1)简单算术平均值定义公式为(直接法): (2)利用频数表计算均数(加权法): (二)方差(即标准差的平方) (三)变异系数 二 参数估计与参考值范围 (一)均数的标准误 (二)样本率的标准误 (p 为样本率) (三)T 分布 (u 为总体均数) (四)总体均数的区间估计 (一般要求 计算95%或99%的可信区间) (五)总体率的区间估计 (六)参考值范围估计 双侧1-a 参考值范围: s u x a 2/± 单侧1-a 参考值范围: s u x a ->或s u x a +< (可信区间计算是用标准误,参考值范围计算用标准差,百分位数法大家自己看书) 三 T 检验与方差分析 (一)T 检验 (1)单样本T 检验 n x n x x x x x n ∑= ++++= 321∑∑= ++++++++=f fx f f f f x f x f x f x f x k k k 3213322111 )(2 2--= ∑n x x s 22 2()/1 x x n s n -= -∑∑%100?= x s CV n s s x = n p p s p ) 1(-=n s x t μ-=x x s t x s t x ναναμ,2/,2/+<<-p p s u p s u p 2/2/ααπ+<<-

检验假设: (假设样本来自均数为0 u 的正态总体) 统计量t 值的计算: (2)配对T 检验 检验假设: 统计量t 值的计算: (d 为两组数据 的差值,Sd 为差值的标准差) (3)两样本T 检验 检验假设: 统计量t 值的计算: 其中 两样本方差齐性检验 (即为两样本方差的比值) (二)单因素方差分析 SS MS F SS MS νν= = B B B W W W (1)完全随机设计资料的方差分析 这里 (T 即为该组数据之和) (2)随机单位组设计资料的方差分析 SS 总=SS 处理+SS 区组+SS 误差 V 总=V 处理+V 区组+V 误差 μμ=:H 1 ,/0 0-=-=-= n n s x s x t x νμμ0210==-μ μμ:H d d t s μ-== 1 -=n ν210μμ=:H 2 1)()(2121x x s x x t ----=μμ2 21-+=n n ν ? ??? ??+=-2121121n n s s C x x 2)()(112222112-+∑-∑+-=n n x x x x s C 2221s s F =111-=n ν1 2 2-=n ν组内组间总SS SS SS +=组内 组间总ννν+=2()/C x N =∑ij j T x = ∑

医学统计学

湖北医药学院《医学统计学》(2504B)课程教学大纲 一、课程基本信息 学时分配:47学时。 考核方式:采用综合考评法。成绩由理论考试(闭卷)、平时作业与SPSS统计软件应用三部分组成。 三、教学内容 (一)理论课 第一章绪论 教学目标:掌握医学统计中的基本概念、统计资料的类型。熟悉统计工作的基本内容和步骤、抽样方法。了解抽样误差、医学统计学在临床医学与医院管理中的重要作用。 教学内容: 第一节医学统计学的作用 第二节医学统计工作的基本内容 第三节医学统计学中的基本概念 一、同质与变异二、变量与数据类型三、总体和样本四、误差五、概率 第二章定量数据的统计描述 教学目标:掌握描述定量数据集中趋势和变异程度的统计指标计算及适用条件。熟悉频数分布表的用途。了解频数分布表的编制方法。 教学内容: 第一节频数分布 一、频数表二、直方图三、频数分布表的用途 第二节集中趋势的统计指标 一、算术均数二、几何均数三、中位数和百分位数 第三节变异程度的统计指标

一、极差二、四分位数间距三、方差四、标准差五、变异系数 第三章正态分布与医学参考值范围 教学目标:掌握正态分布特征及曲线下面积分布规律。熟悉正态分布概念及其应用;医学参考值范围的制定方法。了解正态分布函数;医学参考值范围的概念。 教学内容: 第一节正态分布 一、正态曲线二、正态分布的特征三、标准正态分布 第二节医学参考值范围 一、医学参考值范围的概念二、制订医学参考值范围的注意事项 三、医学参考值范围的计算方法 第四章定性数据的统计描述 教学目标:掌握常用相对数的概念、计算和应用,相对数使用应注意的问题。熟悉率的标准化计算方法。了解率的标准化意义。 教学内容: 第一节常用相对数 一、率二、构成比三、相对比四、标准化率 第二节医学中常用的相对数指标 一、死亡统计指标二、疾病统计指标 第三节相对数使用的注意问题 第五章统计表与统计图 教学目标:掌握统计表的编制原则和结构、统计图制图原则和医学常用统计图的选择。熟悉统计表的种类、统计图的绘制方法。了解普通线图和半对数线图的区别。 教学内容: 第一节统计表 一、统计表的编制原则和结构二、统计表的种类三、编制统计表的注意事项 第二节统计图 一、统计图的制作二、描述定量数据的统计图三、描述定性数据的统计图 第六章参数估计与假设检验 教学目标:掌握标准误的基本概念;总体均数和总体率的区间估计。熟悉t分布的特点、假设检验的基本概念和检验步骤。了解假设检验的基本思想。 教学内容: 第一节参数估计 一、抽样误差二、可信区间的概念三、总体均数的区间估计 四、两总体均数差值的区间估计五、总体率的区间估计六、两总体率差值的区间估计 第二节假设检验 一、基本原理二、基本步骤 第七章t检验 教学目标:掌握t检验的应用条件、注意事项。熟悉t检验计算方法、假设检验中的两类错误。了解t 检验的基本思想、近似t检验、方差齐性检验方法与用途。 教学内容:

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论真实情况拒绝H 0不拒绝H H 正确Ⅰ型错误(ɑ)推断正确(1?ɑ) H 不正确推断正确(1?β)Ⅱ型错误(β) Ⅰ型错误(ɑ错误):H 为真时却被拒绝,弃真错误 Ⅱ型错误(β错误):H 为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n 7.方差分析 方差分析:又称F检验,是通过对数据变异按设计类型的不同,分解成两个或多个样本

医学统计学重点图表总结

定量资料统计描述常用的统计指标及其适用场合 描述内容指标意义适用场合 平均水平均数个体的平均值对称分布 几何均数平均倍数取对数后对称分布 中位数位次居中的观察值 ①非对称分布;②半定量资料;③末端开口资料; ④分布不明 众数频数最多的观察值不拘分布形式,概略分析 调和均数基于倒数变换的平 均值 正偏峰分布资料 变异度全距观察值取值范围不拘分布形式,概略分析 标准差(方差)观察值平均离开均 数的程度 对称分布,特别是正态分布资料 四分位数间距居中半数观察值的 全距 ①非对称分布;②半定量资料;③末端开口资料; ④分布不明 变异系数标准差与均数的相 对比 ①不同量纲的变量间比较;②量纲相同但数量级相 差悬殊的变量间比较 4. 常用统计图有哪些?分别适用于什么分析目的? 常用统计图的适用资料及实施方法 条图组间数量对比用直条高度表示数量大小 直方图定量资料的分布用直条的面积表示各组段的频数或频率 百分条图构成比用直条分段的长度表示全体中各部分的构成比 饼图构成比用圆饼的扇形面积表示全体中各部分的构成比 线图定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系 半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系 1

1 散 点 图 双变量间的关联 点的密集程度和形成的趋势,表示两现象间的相关关系 箱 式 图 定量资料取值范围 用箱体、线条标志四分位数间距及中位数、全距的位置 茎 叶 图 定量资料的分布 用茎表示组段的设置情形,叶片为个体值,叶长为频数 定性资料统计描述常用的统计指标及其适用场合 指标 计算公式 适用场合 频率 n/N 估计总体中某一结局发生的概率 频率分布 n 1/N ,n 2/N,…..,n k /N 估计总体中所有可能结局发生的概率 强度 阳性人数/总观察人时数 估计总体中单位时间内某一结局发生的概率 比 A/B 估计两个指标的相对大小 4.常用参考值范围的制定? 参考值范围(%) 正态分布法 百分位数法 双侧 单侧 双侧 单侧 下限 上限 下限 上限 90 S X 64.1± S X 1.28- S X 1.28+ P 5~P 95 P 10 P 90 95 S X 96.1± S X 64.1- S X 64.1+ P 2.5~P 97 .5 P 5 P 95 99 S X 58.2± S X 2.33- S X 2.33+ P 0.5~P 99 .5 P 1 P 99 1.标准差与标准误的区别与联系?

医学统计学相关公式汇总

医学统计学相关公式汇总 Chapter 基本概念 显著性检验(test of significance ):计算P 值 医学统计工作的内容: 1、实验设计:最关键最重要 2、收集资料:最基础 原始资料:实验数据 现场调查资料 医疗卫生工作记录 报表 报告卡 质量控制——精度和偏倚 3、整理资料 (1) 资料的逻辑检查(坏数) (2) 一致性检查 (3) 原始数据加工:频数分布表 4、分析资料:统计描述(表、图、离散趋势、集中趋势)和统计推断 统计描述类型的选择: 集中趋势 离散趋势 对称、正态 μ,x S SS ,, 对数正态 G S lgX 偏态及其他 M Q ,R 单位不同或均数差别大 CV 医学统计的资料类型:计量资料、计数资料、等级分组资料 医学统计学的对象:有变异的事物 总体和样本: 总体(population )的特性:同质性、大量性、差异性。

抽样的要求:代表性、随机性、可靠性、可比性。 样本的三性:代表性、随机性、可靠性。 可靠性(reliability ):实验的结果要具有可重复性。即由科研课题的样本得出的结论所推测总体的结论有较大的可信度。 两样本间具有:可比性。 误差的类别: 1、系统误差(system error ):在资料的收集过程中,由于仪器初始状态没有调零、标准试剂未经矫正、标准指定偏高或偏低等原因,造成的观察结果的倾向性的偏大或偏小。必须克服。 2、随机测量误差(random measurement error ):在避免系统误差的情况下,由于各种偶然因素的影响造成对同一对象多次测量值的不一致。 3、抽样误差(sampling error ):由于抽样造成的的样本统计量与总体参数之间的差别。不可避免。样本含量越大,抽样误差越小。如均数的抽样误差:|-X | 。 概率(probability ):P (A ) 小概率事件:P ≤0.05(有统计学意义)或P ≥0.01(有高度统计学意义)。 Chapter 集中趋势的统计描述 手工整理资料频数表(frequency table )的步骤: 1、求极差(全距) 2、确定组数、组距 参考组距=全距 / 组数 3、确定组段 4、手工编制划记表 直方图(histogram ): 高度:各组的频数 纵轴 宽度:组距 横轴表示组限 均数(average ): 适用:对称分布或偏度不大的资料,尤其适合正态分布。 抽样 总体 样本 推断

常用医学统计学方法的选择

常用医学统计学方法的选择 1. 多组率的比较用卡方检验(χ2检验,chi-square test) 直接用几个率的数值比较,与直接用原始数据录入比较,结果会有什么不同?卡方值会受样本量的影响,样本越多,卡方值越大。 2.多组计量资料比较采用方差分析(F检验) ,不能用t检验。当方差分析结果为P<0.05时,只能说明k组总体均数之间不完全相同。若想进一步了解哪两组的差别有统计学意义,需进行多个均数间的多重比较,即SNK-q检验(多个均数两两之间的全面比较)、LSD-t检验(适用于一对或几对在专业上有特殊意义的均数间差别的比较)和Dunnett检验(适用于k-1个实验组与一个对比组均数差别的多重比较)。 3.非正态分布多组数据之间比较选用非参数检验、单样本中位数检验(符号检验和Wilcoxon 检验)、双样本中位数检验(Mann-Whitney 检验)、方差分析(Kruskal-Wallis、Mood 中位数和Friedman 检验) 4.按血糖水平从低到高分成多组,进行多组之间死亡率的比较,由于死亡率同样受年龄、性别、病史、您身边的论文好秘书:您的原始资料与构思,我按您的意思整理成优秀论文论著,并安排出版发表,扣1550116010 、766085044自信我会是您人生路上不可或缺的论文好秘书血脂等因素的影响,所以需选取合适统计方法实现“调整年龄、性别等危险因素后,按血糖分组进行死亡率的比较(由血糖从低到高分成的4组)”。 ①年龄是定量变量(是数值),调整年龄的方法可在Logistic回归中运用,连续性变量年龄加入covariate中,当成协变量,就可以调整年龄,age-adjusted odds ratio就能得到了。 ②性别性别是二分类变量,不是定量变量,不可在LOGISTIC回归里比较。调整性别可在卡方检验中采取分层的方法比较。 如果为多分类LOGISTIC回归,在选择用multinomianl LOGISTIC回归中,可选入年龄等进入covariate,观察年龄的配比情况。可把性别选入factors(自变量)。这样可以实现调整年龄、性别等危险因素。 5.回顾性研究(1)临床妊娠率和女性年龄的关系+(2)男性影响临床妊娠的精子参数比较: 数据类型及变量的说明:y:计量 拟采用的分析方法:卡方检验 拟采用的分析软件:spss 原始数据附件及格式:word表 能否用其他方法统计分析:可用卡方分割,调整检验水准(根据比较的次数N,校正后的检验水准为0.05/N)。 6.重复t检验:多个样本均数间的两两比较(又称多重比较)不宜用t检验,因为重复数次,t 检验将增加第一类错误的概率,使检验效率降低。此时宜用方差分析,并在此基础上用两两比较方法(如.SNK、LSD、Duncan法等)。 对于同一对均数间的差异,用t检验无显著性,而两两比较可能有显著性,可见错误选用统计方法将推出错误结论。 统计方法的选择: 分计量、计数、等级资料三

相关主题
文本预览
相关文档 最新文档