当前位置:文档之家› 医学统计学复习总结

医学统计学复习总结

1.医学统计学是运用统计学的原理和方法,研究医学科研中有关数据的收集、整理和分析的应用科学;统计工作的基本步骤包括:设计、收集资料、整理资料和分析资料。
2.变异variation:在自然状态下,个体间测量结果的差异称为变异,是生物医学研究领域普遍存在的现象。
3.总体population:是根据研究目的确定的同质的观察单位的全体,是同质的所有观察单位某种观察值(变量值)的集合。
4.样本sample:从总体中随机抽取的部分观察单位,其实测值的集合就成为样本。
5.变量variable:确定总体后研究者对每个观察单位的某项特征进行观察和测量,这种特征能表现观察单位的变异性,成为变量。对变量的观测值称为变量值value of variable。由变量值构成资料data。
6.计量资料measurement/quantitative data:为观测每个观察单位某项指标的大小,而获得的资料。
7.计数资料enumeration/qualitative data:为将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。
8.等级资料ranked/semi-quantitative data:为将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后得到的资料。
9.随机误差random error of measurement:偶然误差,指排除了系统误差后尚存的误差,受多种因素影响,是观察值不安方向性和系统性而随机的变化。一般服从正态分布,可以通过统计处理来估计。
10.系统误差:systematic error:由于仪器未校正、测量者感官的偏差、医生掌握疗效标准偏高或偏低等原因,使观测值不是分散在真值的两侧,而是有方向性、系统性或周期性的偏离真值。可以通过实验设计和完善技术措施来消除或减少。
11.非系统误差:过失误差gross error:研究者偶然失误造成的误差。
12.频率relative frequency:重复多次实验,出现某种结果的比例
13.概率probability:描述随机事件发生可能性大小的一个度量。
14.统计描述statistical description:选用恰当的统计指标(统计量)选用合适的统计表和图,对资料的数量特征及其分布规律进行测定和描述
15.统计推断inference:在一定的可信程度下由样本信息推断总体特征。参数估计estimation of parameter由样本统计量来推断总体相应指标。假设检验hypothesis test由样本差异来推断总体之间是否可能存在差异。
16.正态分布normal distribution:资料X的频率曲线对应于数学上的正态曲线,称该资料服从正态分布,通常用N(u,a2)表示均数为u,标准差为a的正态分布。标准化变换u=(X-U)/a,X服从正态,则u服从标准正态。
17.抽样误差sampling error由个体变异产生、随机抽样造成的样本统计量与总体参

数的差异。
18.标准差是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料。
标准误:standard error样本统计量的标准差。均数的标准误SEM样本均数的标准差。反映样本均数间的离散程度,反映样本均数与总体均数间的差异,说明均数抽样误差的大小。
19.区间估计interval estimation:按预先给定的概率(1-a)所确定的包含未知总体参数的一个范围。该范围称为参数的可信区间或置信区间,预先给定的概率称为可信度。
20.可信区间:从固定样本含量的已知总体中进行重复随机抽样试验,根据每个样本可算得一个可信区间,则平均有1-α的可信区间包含了总体参数。
21.把握度:1-β,power of test当两总体确有差异,按规定检验水准α所能发现该差异的能力。
22.假设检验注意:严密的研究设计;不同类型资料不同检验方法;正确理解显著性;结论不能绝对化;统计显著性与医学显著性;可信区间与假设检验的区别和联系(可信区间用于说明量的大小即推断总体参数的范围,假设检验用于推断质的不同即判断两总体参数是否不等。可信区间可回答假设检验的问题;可信区间不但能回答差别是否有统计学意义,而且还能提供比假设检验更多信息,即提示差别有无实际的专业意义。可信区间只能在预先给定的概率的前提下进行计算;假设检验能够获得一较为确切的概率P值。
23.方差分析基本思想:根据实验设计的类型,将全部观测值总的离均差平方和及其自由度分解为两个或多个部分,除随机误差作用外,每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,通过比较不同变异来源的均方,借助F分布做出统计推断,从而推论各种研究因素对实验结果有无影响。
24.LSD-t配对设计、Dunnett-t实验组与一个对照组、SNK-q多个样本两两之间全面比较
25.率:某现象实际发生的例数与可能发生的总例数之比,说明某现象发生的频率或强度,特点为说明某现象发生的强弱。
26.构成比:事物内部某一部分的个体数与该事物各部分个体数的总和之比,说明各构成部分在总体中所占的比重或分布。
27.相对比:两个有关指标之比,说明两指标间的比例关系。
28.采用某影响因素的统一标准构成,然后计算标准化率,消除原样本内部某影响因素构成不同对合计率的影响。
29.二项分布:binomial distribution指在只会产生两种可能结果的n次独立重复试验中,当每次试验的“阳性”概率π保持不变时,出现“阳性”次数X=0、1、2的一种概率分布。每次试验只会发生两种互斥的可能结果之一,概率之和恒等于1;概率固定不变;重

复试验互相独立。
30.poisson分布:若离散型随机变量X的取值为0、1、2…n,且相应的取值概率为…,则称随机变量X服从以阿玛达为参数的poisson分布,记为X~P(阿玛达)。普通性、独立增量性、平稳性。总体均数与总体方差相等;当n很大,而π很小,且nπ=阿玛达为常数时,poisson分布可看作二项分布的极限分布;当阿玛达增大时,渐近正态分布(>=20);具备可加性。
31.在n很大,而π很小,且nπ=阿玛达为常数时,二项分布的极限分布为poisson分布;在n较大,π不接近0或1时,二项分布B(n,π)近似正态分布N(nπ,nπ(1-π)),而相应的样本率P的分布也近似正态分布N(π,P的方差);当阿玛达增大时,poisson分布渐近正态分布(>=20)。
32.两样本率比较时,若对同一资料同时进行u检验和卡方检验,在不校正的情况下,x2=u2;但u检验通常用于大样本,卡方可用于大样本和小样本。
33.非参数检验nonparametric test对总体分布不作严格假定,不受总体分布的限制,直接对总体分布或分布位置做假设检验。如果总体分布为已知的数学形式,对其总体参数作假设检验则为参数检验。
34.秩转换的非参数检验是先将数值变量从小到大或等级从弱到强转换成秩后,再计算检验统计量,特点是假设检验的结果对总体分布的形状差别不敏感,只对总体分布的位置敏感。不满足正态和或方差齐性的小样本计量资料;分布不知是否正态的小样本资料;一端或两端是不确切数值的资料;等级资料。
35.Wilcoxon配对样本差值中位数和0比较;单样本中位数和总体中位数比较;两个独立样本所来自的两个总体分布位置是否有差别;Kruskal-Wallis H多个独立样本所来自的多个总体分布差别,进一步两两比较Nemenyi检验;Friedman M随机区组设计的多个相关样本所来自的多个总体分布。
36.直线回归linear regression建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和最小。直线相关linear correlation用于双变量正态分布资料,正相关、负相关和零相关等关系,性质可由散点图直观说明。
二者联系:对于既可作相关又可作回归分析的同一组数据,计算出得b与r正负号一致;相关系数与回归系数的假设检验等价,tb=tr;同一组数据的相关系数和回归系数可以相互换算:r=b*Sx/Sy;用回归解释相关:由于决定系数r2=SS回/SS总,当总平方和固定时,回归平方和的大小决定了相关的密切程度,回归平方和越接近总平方和,r2越接近1,说明相关的效果越好。
二者区别:资料要求上,相关要求X、Y服从双变量正态分布(2型回归);回归要求Y在给定某个X值时服

从正态分布,X是可以精确测量和严格控制的变量(1型回归)。应用上:说明两变量间相互关系用相关,此时两变量关系平等;说明两变量间依存变化的数量关系用回归,说明Y如何依赖于X而变化。意义上:r说明具有直线关系的两变量间相互关系的方向与密切程度;b表示X每变化一个单位所导致Y的平均变化量。计算上:r=lXY/根号下lXY/lYY;b=lXY/lXX。取值范围:-1<=r<=1;b可取负无穷到正无穷。单位:r没有单位;b有单位。
37.直线相关与秩相关联系:解决的应用问题相同,都可用来表示两个数值变量之间关系的方向和密切程度;两个相关系数都没有单位,取值范围在-1~1;计算上,用秩次作积差相关,得到的就是秩相关系数。
二者区别:资料要求不同,秩相关可以任意分布;二者分属参数统计与非参数统计方法,符合双变量正态分布条件时,积差相关效率高于秩相关;假设检验方法不同。
38.回归系数即直线的斜率slope,在直线回归方程中用b表示,b的统计意义为X每变化一个单位时,Y平均改变b个单位。总体回归系数β表示。
相关系数以符号r表示样本相关系数,若表示总体相关系数,说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。
决定系数即r的平方,r2=SS回/SS总,说明当SS总固定不变时,回归平方和的大小决定了r的大小,回归平方和越接近总平方和,则r平方值越接近1。
秩相关又称等级相关,用双变量等级数据作直线相关分析,适用于不服从双变量正态分布、总体分布未知、用等级表示的原始资料。
39.平均数:描述一组变量值的集中位置或平均水平的指标体系。算术、几何、中位数。
40.频数分布图:用横轴表示分组,纵轴表示频数,用长方形的面积来表示各组相应的频数的统计图。
41.变异系数:用于观察指标单位不同或均数相差较大时两组资料变异程度的比较CV。
42.误差条图:通过样本信息来描述总体,估计抽样误差的大小。适合比较多个样本间的差异情况,可以显示3种不同区间:可信区间、X+-S、X+-Sx。
43.箱式图:使用5个统计量反映原始数据的分布特征,数据分布的中心位置、分布、偏度、变异范围和离群值。两端分别是上四分位数和下四分位数,中间横线是中位数。两端连线分布是除离群值外最小值和最大值,另外标记可能的离群值。
44.析因设计方法:析因设计是一种多因素的交叉分组设计。它不仅可检验每个因素各水平间的差异,而且可检验各因素间的交互作用。两个或多个因素如存在交互作用,表示各因素不是各自独立的,而是一个因素的水平有改变时,另一个或几个因素的效

应也相应有所改变;反之,如不存在交互作用,表示各因素具有独立性,一个因素的水平有所改变时不影响其他因素的效应。
45.重复测量资料:指对同一研究对象的某一观察指标在不同场合进行多次测量得到的资料。
重复测量设计:当前后测量设计的重复测量次数大于等于3是,称~。
46.前后测量设计与配对设计t检验:前后测量设计不能同期观察实验结果,虽然可以在前后测量之间安排处理,但本质上比较的是前后差别,推论处理是否有效是有条件的,即假定测量时间对观察结果没影响;配对设计中同一对子的两个实验单位可以随机分配处理,两个实验单位同期观察实验结果,可以比较处理组间差别。
前后测量设计前后两次观察结果通常与差值不独立,大多数情况下第一次观察结果与差值存在负相关。配对t检验和随机区组设计要求同一对子的两个实验单位的观察结果分别与差值相互独立,差值服从正态分布。
前后测量设计出了分析平均差值外,还可进行相关回归分析,配对设计用平均差值推论处理的作用。
47.重复测量设计、随机区组设计、两因素析因实验:
联系:数据处理时,都采用两因素方差分析。
区别:实验设计和处理的分配方式不同。重复在区组间随机分配处理,随机区组在区组内随机分配处理,析因有两个干预因素,每个实验单位只接受一种处理。重复区组内实验单位彼此不独立。
48.偏相关系数:表示在一组变量中,任意两个变量在其他变量固定不变时,它们之间相关的密切程度和方向。
偏回归系数:在多元回归分析中,随机因变量对各个自变量的回归系数,表示各自变量对随机变量的影响程度。
49.logistic回归:属于概率型非线性回归,研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。
条件logistic回归:针对配对资料分析的一种方法
50.logistic回归属于概率型非线性回归,应变量Y是一个二值变量(服从二项分布),而线性回归的应变量一般为连续变量(正态)。线性回归对资料的分析比较细腻,既适合大样本资料又可用于小样本数据,但要求对不同的自变量取值,应变量Y服从正态分布和等方差,这一条件在实际中有时不能得到满足。logistic回归则对资料几乎没有什么限制,而且参数具有明确的实际意义(得到OR的估计值),但要求有较大的样本含量。
51.多元线性回归:影响因素分析、估计与预测、统计控制。 指标的数量化、样本含量5-10、逐步回归(最优不一定最好)、多重共线性(一些自变量之间存在较强的线性关系)、偏相关系数、变量间的交互作用、残差

分析residual analysis检查资料是否符合模型条件的一个有用工具。
logistic回归:流行病学危险因素分析、临床试验数据分析、分析药物或毒物的剂量反应、预测与判别。 变量取值形式、样本含量20倍、变量选择-逐步、有序logistic回归的平行性假设检验-不满足则用多分类l回归、模型拟合优度检验-检验选择的模型与实际数据的吻合情况。
52.生存分析是将事件的结果和出现这一结果所经历的时间结合起来分析的一类统计分析方法。考虑事件是否出现及事件出现的时间长短。临床疗效的评价、疾病的病因和预后分析
中位生存时间:生存时间的中位数,表示刚好有50%的个体其存活期大于该时间。
死亡概率密度函数即所有观察对象在t时刻的瞬时死亡率。曲线从开始观察到时间t为止的曲线下面积就是死亡累积分布函数,时间t以右的面积是生存累积分布函数/概率。
生存概率表示某时段开始时存活的个体,到该时段结束时仍存活的可能性。
风险率hazard rate即已生存到时间t的观察对象在t时刻的瞬时死亡率。>=0
53.判别分析:根据判别对象若干个指标的观测结果判定其应属于哪一类的数理统计学方法。
Fisher判别又称典则判别,适用于两类和多类判别。寻找合适的投影方向,使样本在投影面上类内变异变小,类间变异增大,达到判别的目的。找出一个线性组合Z=C1X1+C2X2+…CmXm,使得综合指标Z在A类的均数ZA与在B类的均数ZB的差异尽可能大,而两类内综合指标Z的差异尽可能小。
Bayes判别寻求一种判别规则使得属于第k类的样品,在第k类中取得最大的后验概率。
54.聚类分析是将随机现象归类的统计学方法
R型聚类:指标聚类,指将m个指标归类的方法,目的是指标降维从而选择有代表性的指标。
Q型聚类:样品聚类,指将n个样品归类的方法,目的是找出样品间的共性。
系统聚类的过程:开始将各个样品独自视为一类,计算类间相似系数矩阵,其中的元素是样品间的相似系数,相似系数矩阵是对称阵;将相似系数最大的两类合并成新类,计算新类与其余类间相似系数;重复第二步,直至全部样品被并为一类。
55.判别分析与聚类分析都是研究分类问题的多元统计分析方法,前者是在已知分为若干个类的前提下,判定观察对象的归属,后者是在不知道应分多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。
56.医学综合评价不同于多个指标分析的简单相加,而是在掌握有关历史资料的基础上,将各种有关因素的信息集中,依据其内在联系进行适当加工提炼,并密切结合医疗卫

生工作实践,用数理统计方法或生物数学方法制订出恰当的评价模型,以谋求对评价对象的类别或优劣等级进行较为客观的判断,为医疗卫生工作决策提供依据。
步骤:根据评价目的选择恰当的评价指标;根据评价目的,确定诸评价指标在对某事物评价中的相对重要性,或各指标的权重;合理确定各单个指标的评价等级及其界限;根据评价目的,数据特征,选择适当的综合评价方法,并根据已掌握的历史资料,建立综合评价模型;确定多指标综合评价的等级数量界限,在对同类事物综合评价的应用实践中,对选用的评价模型进行考察,并不断修改补充,使之具有一定的科学性、实用性和先进性,然后推广应用。
57.topsis法是系统工程中有限方案多目标决策分析的一种常用方法,对样本资料无特殊要求,使用灵活简便。
基本思想:基于归一化后的原始数据矩阵,找出有限方案中的最优方案和最劣方案,然后分别计算诸评价对象与最优方案和最劣方案间的距离,获得各评价对象与最优方案的相对接近程度,以此作为评价优劣的依据。
步骤:各指标作同趋势化处理;归一化处理;得到最优值向量和最劣值向量;分别计算诸评价对象与最优最劣距离;计算诸评价对象与最优方案接近程度Ci;按Ci大小将各评价对象排序,越大综合效益越好。
58.RSR步骤:列原始数据表;编秩;计算秩和比,根据RSR值对评价对象优劣直接排序;确定RSR分布;计算回归方程;分档排序。
对资料无特殊要求,使用灵活简便
59.P值时指从H0规定的总体随机抽得等于及大于或等于及小于现有样本获得的检验统计量值得概率。α是指拒绝了实际上成立的H0所犯错误的概率。
60.逐个指标进行假设检验的方法、多元回归与逐步回归的方法、指标聚类法。主观定权法(专家评分法、成对比较法),客观定权法(模糊定权法、秩和比法、相关系数法)。

相关主题
文本预览
相关文档 最新文档