医学统计学考试重点
考试题型:
名词解释10个
选择20个
填空题 20个
简答 4-5个
讨论分析1-2题
计算 1-2题
绪论
2选1
总体:总体(population)指特定研究对象中所有观察单位的测量值。可分为有限总体和无限总
体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代
表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。
3选1
小概率事件:我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件
P值:结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。p值是将观察结果认为有效即具有总体代表性的犯错概率。一般结果≤0.05被认为是有统计学意义
小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实验中是不会发生的,数学上称之小概率原理。统计学中,一般认为等于或小于0.05或0.01的概率为小概率。
资料的类型(3选1)
(1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为
计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表
现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、
脉搏(次/分)、血压(KPa)等。
(2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料
(count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的
类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效
的人数;调查一批少数民族居民的A、B、AB、O 四种血型的人数等。
(3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察
单位数,称为等级资料(ordinal data)。等级资料又称有序变量。如患者的治疗结果可分为治
愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别
却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为 +、++、+++等。
等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。
等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料。
2选1
抽样误差(sampling error )是指样本统计量与总体参数的差别。在总体确定的情
况下,总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。
系统误差:由于测量仪器结构本身的问题、刻度不准确或测量环境改变等原因,在多次测量时所产生的,总是偏大或总是偏小的误差,称为系统误差。它带有规律性,经过校正和处理,通常可以减少或消除。
统计的步骤(考填空题,四个空)
统计工作的步骤
1.设计:设计内容包括资料收集、整理和分析全过程总的设想和安排。设计是整个研
究中最关键的一环,是今后工作应遵循的依据。
2.收集资料:应采取措施使能取得准确可靠的原始数据。
3.整理资料:简化数据,使其系统化、条理化,便于进一步分析计算。
4.分析资料:计算有关指标,反映事物的综合特征,阐明事物的内在联系和规律。分
析资料包括统计描述和统计推断。
实验设计的基本原则(考填空题,三个空)
随机化原则、对照的原则(对照的类型,对照的设置)、重复的原则。
2选1
参数:参数(paramater)是指总体的统计指标,如总体均数、总体率等。总体参数
是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样
本,用算得的样本统计量估计未知的总体参数。
统计量:统计量(statistic)是指样本的统计指标,如样本均数、样本率等。样本
统计量可用来估计总体参数。总体参数是固定的常数,统计量是在总体参数附近波动的随机
变量。
第二章
频数表的制作步骤以及频数分布表的用途(问答题)
频数分布表的编制步骤:
例:某市1982年50名7岁男童的身高(cm)资料如下,试编制频数表。
114.4117.2122.7124.0114.0110.8118.2116.7118.9118.1
123.5118.3120.3116.2114.7119.7114.8119.6113.2120.0
119.8116.8119.8122.5119.7120.7114.3122.0117.0122.5
119.7124.9126.1120.0124.6120.0121.5114.3124.1117.2
120.2120.8126.6121.5126.1117.7124.1128.3121.8118.7
1、找出观察值中的最大值(largest value)、最小值(smallest value),求极差(range)。
极差等于最大值减最小值。本例最大值=128.3,最小值=110.8,则极差=128.3-110.8=17.5(cm )
2、确定分组数和组距(class interval)。
组数的多少是根据例数的多少来确定的,以能够反映出频数分布的特征为原则,一般分10—15组。组距为相邻两组的间隔,组距=极差/组数。本例拟分10组,则组距=17.5/10=1.75≈2,为划记方便,可取稍大或稍小的数(当然本例组距也可取1.5)。
3、确定组段。
第一组段包括要最小值,取较最小值稍小且划分方便的数,本例取“110~”。最后组段包括最大值并写出其上限值。
4、划记。
将各观察值以划“正”字的方法,一笔代表一例,划在相应组段中。例如第一个数l14.4应在组段“114~”处划,第二个数117.2应在“116~”处划,以此类推。
5、统计各组段的频数。全部数据划记完后,清点各组段的人数。
根据编制出的频数表即可了解该数值变量资料的频数分布特征。
频数分布表的用途
1、描述资料的分布特征和分布类型。
频数分布有两个重要特征:集中趋势和离散趋势。大部分观察值向某一数值集中的趋势称为集中趋势,常用平均数指标来表示,各观察值之间大小参差不齐。频数由中央位置向两侧逐渐减少,称离散趋势,是个体差异所致,可用一系列的变异指标来反映。
2、便于进一步计算有关指标或进行统计分析。当数据较多且需手工计算时,常先编制频数表,再进行统计计算。
3、发现特大、特小的可疑值。
如果频数表的一端或两端出现连续几个组段的频数为零后,又出现少数几个特大值或特小值,使人怀疑其是否准确,需进一步检查和核对并做相应处理。
4、据此绘制频数分布图。
描述数据分布集中趋势的指标和描述数据分布离散程度的指标(考选择或者填空)
2.描述数据分布集中趋势的指标
掌握其意义、用途及计算方法。算术均数、几何均数、中位数。
3.描述数据分布离散程度的指标
掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。
正态分布的特征(考选择题υ、σ对图形的影响)
服从正态分布的变量的频数分布由υ、σ完全决定。
(1) υ是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以 x =υ为对
称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于υ。
(2) σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数
据分布越集中。σ也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲
线越瘦高。
标准正态分布(填空)
1.标准正态分布是一种特殊的正态分布,标准正态分布的υ= 0,σ2= 1 ,通常用u(或Z)表示服从标准正态分布的变量,记为υ~N(0,12)。
正态分布的应用(简答)
某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,
呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理。其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。
1. 估计频数分布一个服从正态分布的变量只要知道其均数与标准差就可根据公式
(3-2)估计任意取值(X1,X2)范围内频数比例。
2. 制定参考值范围
(1)正态分布法适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。
(2)百分位数法常用于偏态分布的指标。表3-1 中两种方法的单双侧界值都应熟练掌握。
3. 质量控制:为了控制实验中的测量(或实验)误差,常以X ± 2S作为上、下警戒值,
以X ± 3S 作为上、下控制值。这样做的依据是:正常情况下测量(或实验)误差服从正态分布。
4. 正态分布是许多统计方法的理论基础。t 检验、方差分析、相关和回归分析等多种统
计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。
医学参考值范围的制定(计算题)
确定参考值范围的单双侧:一般生理物质指标多为双侧、毒物指标则多为单侧。确定百分位点:一般取95%或99%。
第三章
标准误的概念,计算公式。
标准误及σX:通常将样本统计量的标准差称为标准误。许多样本均数的标准差σX
称为均数的标准误(standard error of mean,SEM),它反映了样本均数间的离散程度,也反
映了样本均数与总体均数的差异,说明均数抽样误差的大小。
t分布的图形特征及其与正态分布的区别
1.以0为中心,左右对称的单峰分布;
2.t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线。
t分布
对应于每一个自由度ν,就有一条t分布曲线,每条曲线都有其曲线下统计量t的分布规律,计算较复杂。
t 分布与正态分布
t 分布与标准正态分布相比有以下特点:①都是单峰、对称分布;②t 分布峰值较低,而
尾部较高;③随自由度增大,t 分布趋近与标准正态分布;当n ? ¥时,t 分布的极限分布
是标准正态分布。
置信区间和参数估计(名解2选1)
置信区间,定义:是指由样本统计量所构造的总体参数的估计区间。
1、对于具有特定的发生概率的随机变量,其特定的价值区间------一个确定的数值范围(“一个区间”)。
2、在一定置信水平时,以测量结果为中心,包括总体均值在内的可信范围。
3、该区间包含了参数θ真值的可信程度。
4、参数的置信区间可以通过点估计量构造,也可以通过假设检验构造。
参数估计:指用样本指标值(统计量)估计总体指标值(参数)。参数估计有两种
方法:点估计和区间估计。
可信区间与参考值范围的不同点(简答)
t检验的应用条件和类型(填空)
t检验的应用条件:要求各样本来自相互独立的正态总体且各总体方差齐。
t检验的类型:单样本t检验,独立t检验,配对t检验
完全随机设计常用的几种实验设计方法:配对设计和完全随机设计(名解2选1)
完全随机设计:完全随机设计仅涉及一个处理因素(但可为多水平),故又称单因素(one-way)设计。它是将受试对象按随机化的方法分配到各个处理组中,观察实验效应,临床试验中的随机对照试验也属于此类设计。
配对设计:是将受试对象按一定条件配成对子,再随机分配每对中的两个受试对象到不同处理组。配对的因素是影响实验效应的主要非处理凶素。
假设检验的基本求解步骤及其注意事项。(两个考一个问答)
假设检验的基本步骤:
1.建立假设,确定检验水准α
假设有零假设(H0)和备择假设(H1)两个,零假设又叫作无效假设或检验假设。H0和H1的关系是互相对立的,如果拒绝H0,就要接受H1.根据备择假设不同,假设检验有单、双侧检验两种。
检验水准用α表示,通常取0.05或0.10.检验水准说明了该检验犯第一类错误的概率。
2.根据研究目的和设计类型选择适合的检验方法
这里的检验方法,是指参数检验方法,有u检验、t检验和方差分析三种,对应于不同的检验公式。对双样本资料,要注意区分成组设计和配对设计的资料类型。如果资料里有"配成对子"字样,或者是对同一对象用两种方法来处理,一般就可以判定是配对设计资料。
3.确定P值并作出统计结论
u检验得到的是u统计量或称u值,t检验得到的是t统计量或称t值。方差分析得到的是F统计量或称F值。将求得的统计量绝对值与界值相比,可以确定P值。
当α=0.05时,u值要和u界值1.96相比较,确定P值。如果u<1.96,则P>0.05.反之,如u>
1.96,则P<0.05.t值要和某自由度的t界值相比较,确定P值。如果t值<t界值,故P>0.05.反之,如t >t界值,则P<0.05.相同自由度的情况下,单侧检验的t界值要小于双侧检验的t界值,因此有可能出现算得的t值大于单侧t界值,而小于双侧t界值的情况,即单侧检验显著,双侧检验未必就显著,反之,双侧检验显著,单侧检验必然会显著。即单侧检验更容易出现阳性结论。
当P>0.05时,接受零假设,认为差异无统计学意义,或者说二者不存在质的区别。当P<0.05时,拒绝零假设,接受备择假设,认为差异有统计学意义,也可以理解为二者存在质的区别。但即使检验结果是P<0.01甚至P<0.001,都不说明差异相差很大,只表示更有把握认为二者存在差异。
假设检验时应注意的事项
(一)要有严密的抽样研究设计;样本必须是从同质总体中随机抽取的;要保证组间的均衡性和资料的可比性。
(二)根据现有的资料的性质、设计类型、样本含量大小正确选用检验方法。
(三)对差别有无统计学意义的判断不能绝对化,因检验水准只是人为规定的界限,是相对的。差别有统计学意义时,是指无效假设h0被接受的可能性只有5%或不到5%,甚至不到1%,根据小概率事件一次不可能拒h0,但尚不能排除有5%或1%出现的可能,所以可能产生第一类错误;同样,若不拒绝h0,可能产生第二类错误。
(四)统计学上差别显著与否,与实际意义是有区别的。如应用某药治疗高血压,平均降低舒张压
0.5kpa,并得出差别有高度统计学意义的结论。从统计学角度,说明该药有降压作用,但实际上,降低0.5kpa是无临床意义。因此要结合专业作出恰如其分的结论。
第一类错误与第二类错误(名解考一个)
第四章
为什么等级资料不可用方差分析?(上课听了忘了)
方差分析的基本思想应用条件(简答)
方差分析(analysis of variance,ANOVA )的基本思想就是根据资料的设计类型,即变异的
不同来源将全部观察值总的离均差平方和(sum of squares of deviations from mean,SS)和自由
度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某几
个因素的交互作用)加以解释,如各组均数的变异SS 组间可由处理因素的作用加以解释。通过
各变异来源的均方与误差均方比值的大小,借助F 分布作出统计推断,判断各因素对各组均数
有无影响。
方差分析的应用条件
(1)各样本是相互独立的随机样本,且来自正态分布总体。
(2)各样本的总体方差相等,即方差齐性(homoscedasticity)。
第五章
分类资料的统计描述(几个常用相对数指标填空题)
率(强度相对数,频率相对数)、构成比、相对比
应用相对数时应注意的问题(问答题六条)
⑴计算相对数的分母一般不宜过小。
⑵分析时不能以构成比代替率。
⑶不能用构成比的动态分析代替率的动态分析。
⑷对观察单位数不等的几个率,不能直接相加求其总率。
⑸在比较相对数时应注意可比性。
⑹对样本率(或构成比)的比较应随机抽样,并做假设检验。
率的标准化的基本思想,应注意的问题(分析题)
率的标准化的基本思想:
要比较两个总率时,发现两组资料的内部构成(如年龄、性别构成等)存在明显不同,而且影响到了总率的结果,这时就不宜再直接比较总率,而应考虑采用标准化法。
标准化法的基本思想,就是采用统一的标准(统一的内部构成)计算出消除内部构成不同影响后的标准化率(调整率),然后再进行比较。
二、直接标准化法的计算方法
当已知所比较资料各组率Pi,可选用直接法计算标化率。
三、间接标准化死亡比的计算方法
当所比较的资料已知各自某现象总发生数r及各分组观察单位数时,宜采用间接法计算标化率。
第六章
二项分布,Piosson分布在什么条件下接近正态分布(选择,填空)
第七章(考计算题)
配对与完全随机设计下的四格表的计算
四格表
公式选择
第八章
参数统计与非参数统计(名解考一个)
1.参数统计
样本所来自的总体分布具有某个已知的函数形式,而其中有的参数是未知的,统计分析
的目的就是对这些未知的参数进行估计或检验。此类方法称为参数统计。
2.非参数统计
样本所来自的总体分布难以用某种函数式来表达,还有一些资料的总体分布的函数式是
未知的,只知道总体分布是连续型的或离散型的,解决这类问题的一种不依赖总体分布的具
体形式的统计方法。由于这类方法不受总体参数的限制,故称非参数统计法(non-parametric statistics),或称为不拘分布(distribution-free statistics)的统计分析方法,又称为无分布型式假定(assumption free statistics)的统计分析方法。它检验的是分布,而不是参数。非参数统计不需对总体分布(总体参数)作出特殊假设。
非参数统计的特点和适用范围(简答)
1.特点
(1)样本所来自的总体的分布形式为任何形式,甚至是未知的,都能适用。
(2)收集资料方便,可用“等级”或“符号”来评定观察结果。
(3)多数非参数方法比较简便,易于理解和掌握。
(4)缺点是损失信息量,适用于参数统计法的资料用非参数统计方法进行检验将降低
检验效能。
2.适用范围
(1)等级资料。
(2)偏态分布资料。当观察资料呈偏态或极度偏态分布而又未作变量变换,或虽经变
量变换仍未达到正态或近似正态分布时,宜用非参数检验。
(3)各组离散程度相差悬殊,即方差明显不齐,且不能变换达到齐性。
(4)个别数据偏离过大,或资料为单侧或双侧没有上限或下限值。
(5)分布类型不明。
(6)初步分析。有些医学资料由于统计工作量大,可采用非参数统计方法进行初步分
析,挑选其中有意义者再进一步分析(包括参数统计内容)。
(7)对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作
出估计,在这种情况下可用非参数统计方法。
非参数检验的优缺点:(简答)
优点:
适用范围广
对数据要求不严
方法简便、易于理解和掌握
缺点:
损失信息、检验效能低
符合条件
首选参数检验
不符合条件
非参数检验
注意:
凡符合或经过变换后符合参数检验条件的资料,最好用参数检验。当资料不具备参数检验的条件时,非参数检验是一种有效的分析方法。
配对设计的符号秩和检验方法(简答)
(1)假设:H0:差值总体中位数Md=0
H1:Md≠0
α =0.05
(2)求差值
(3)编秩:依差值的绝对值从小到大编秩。编秩时遇差数等于 0,舍去不计,同时样本
例数减1;遇绝对值相等差数,符号相同顺次编秩,符号相反取平均秩次,且符号相反。
(4)求秩和并确定检验统计量:分别求出正负秩次之和,正秩和以 T+表示,负秩和的绝
对值以T-表示。T+及T-之和应等于 n(n+1)/2,任取T+(或 T-)作检验统计量T 。
(5)确定 P 值和作出推断结论:当 n≤50 时,查 T 界值表,得出 P值。若检验统计量T
值在上、下界值范围内,其 P值大于表上方相应概率水平;若 T值在上、下界值上若范围外,其 P值小于表上方相应概率水平。
第九章
线性相关系数(名解)
线性相关系数:表示两个变数线性相关方向及程度的统计数或参数。又叫直线相关系数,简称相关系数。,|R|的极值为1,|R|越大(接近1),则直线关系越好。
线性相关系数取值范围(填空)
-1≤r≤1
样本相关系数 r的假设检验(填空题)
(1)r 界值表法;
(2)t检验法。
线性相关或回归应用应注意的问题(简答)
⑴作回归分析和相关分析时要有实际意义,不能把毫无关联的两种现象作回归、相关分
析,必须对两种现象间的内在联系有所认识。
⑵在进行回归分析和相关分析之前,应绘制散点图。但观察点的分布有直线趋势时,才
适宜作回归、相关分析。如果散点图呈明显曲线趋势,应使之直线化再行分析。散点图还能
提示资料有无可疑异常点。
⑶直线回归方程的应用范围一般以自变量的取值范围为限。若无充分理由证明超过自变
量取值范围外还是直线,应避免外延。
⑷双变量的小样本经 t 检验只能推断两变量间有无直线关系,而不能推断相关的紧密程
度,要推断相关的紧密程度,样本含量必须很大。
⑸相关或回归关系不一定是因果关系,也可能是伴随关系,有相关或回归关系不能证明
事物间确有内在联系。
秩相关的应用适用范围(简答)
秩相关,又称等级相关(rank correlation),是用双变量等级数据作直线相关分析,适用
于下列资料:
⒈不服从双变量正态分布而不宜作积差相关分析;
⒉总体分布型未知;
⒊用等级表示的原始数据。
第九章
相关与回归的区别与联系(简答)
区别:1. 相关说明相关关系,回归说明依存关系;
2. r与b有区别;
3. 资料要求不同。
联系:1. r与b值可相互换算;
2. r与b正负号一致;
3. r与b的假设检验等价;
4. 回归可解释相关。相关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分。
回归系数的估计原则:最小二乘(least squares)原则(填空)
应用直线回归时(简答)
应用直线回归时的注意事项:
1.作回归分析要有实际意义,不能把毫无关联的两种现象作回归分析,必须对两种现象间的内在联系有所认识。
2.在进行直线回归分析之前,应绘制散点图,当观察点的分布有直线趋势时,才适宜作直线回归分析,散点图还能提示资料有无异常点。异常点的存在往往对方程中的系数(a、b)的估计产生较大影响。因此,需对异常点进行复查。
3.建立直线回归方程后,要对系数进行假设检验,以确定回归方程有无意义。
4.直线回归方程的适用范围一般以自变量的取值范围为限,避免外延。获得自变量值的手段也应与建立方程时相同。否则会产生较大偏差。
一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误(ɑ错误): H0为真时却被拒绝,弃真错误 Ⅱ型错误(β错误): H0为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n
医学统计学章节重点归纳 第一节概述 1、主要内容:a、卫生统计学的基本原理和方法(研究设计和数据处理中的统计理论和方法)b、健康统计(医 学人口统计、疾病统计和生长发育统计)c、卫生服务统计(卫生资源、医疗卫生服务的需求和利用、医疗保健制度和管理中的统计问题)。 2、 卫生统计工作的步骤:设计、资料的搜集、资料的整理、资料的分析 3、医学统计资料主要四个方面:统计报表、报告卡(单)、日常医疗卫生工作记录,专题研究或实验。 4、观察单位:是获得数据的最小单位,观察单位是根据研究目的确定的,观察单位可以是人、标本、家庭、国 家等。 5、变异:是指客观事物的多样性和不确定性。 6、变量: 观察单位的某种特征,称为变量。a、数值变量(定量变量)b、分类变量(定型变量或字符变量)。 7、总体:根据研究目的所确定的同质研究对象的全体。确切的说是性质相同的所有观察单位的某种变量的集合。 8、样本:从总体中随机抽取部分观察单位,其变量值就构成样本,通过样本信息来推断总体特征。 9、概率:事件发生的可能性大小的量度,通常以符号P表示。 10、误差:测量值与真值之差或样本指标和总体指标之差。分为随机误差和系统误差。 第二节数值资料的统计描述 1、频数分布就是观察值在所取得范围内分布的情况。重要特征:集中趋势和离散趋势。 2、频数分布类型:正态分布型频数、正偏态分布型频数,负偏态分布型频数。 3、集中趋势指标:算术平均数(均数)、几何均数、中位数。 指标使用条件计算公式 算术平均数适用于正态或近似正态分布 的数值变量资料 几何均数①对数正态分布,即数据经 过对数变换后呈正态分布的 资料;②等比级数资料,即 观察值之间呈倍数或近似倍 数变化的资料。 中位数①非正态分布资料(对数正 态分布除外);②频数分布 的一端或两端无确切数据的 资料③总体分布不清楚的资 料。为奇数 , 为偶数, 4、离散型趋势指标:极差、标准差和变异系数 指标计算公式主要优缺点 极差R=Xmax-Xmin 计算简单,便于理解;只考虑最大值与最小值之差异,不能反映 组内其它观察值的变异度,不稳定,受样本量影响很大。
医学统计学试题及答案 The latest revision on November 22, 2020
医学统计学 一、选择题 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制( B ) A 条图 B 百分条图或圆图 C线图 D直方图 2、均数和标准差可全面描述 D 资料的特征 A 所有分布形式B负偏态分布C正偏态分布D正态分布和近似正态分布 3、要评价某市一名5岁男孩的身高是否偏高或偏矮,其统计方法是( A ) A 用该市五岁男孩的身高的95%或99%正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99%的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用( A ) A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是( A ) A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同
6. 男性吸烟率是女性的10倍,该指标为( A ) (A)相对比(B)构成比(C)定基比(D)率 7、统计推断的内容为( D ) A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A和B均不是 D. A和B均是 8、两样本均数比较用t检验,其目的是检验( C ) A两样本均数是否不同 B两总体均数是否不同 C两个总体均数是否相同 D两个样本均数是否相同 9、有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t 检验时,自由度是( D ) (A) n1+ n2 (B) n1+ n2 –1 (C) n1+ n2 +1 (D) n1+ n2 -2 10、标准误反映( A ) A 抽样误差的大小 B总体参数的波动大小
(一)单项选择题 3.抽样的目的是(b )。 A.研究样本统计量 B. 由样本统计量推断总体参数 C.研究典型案例研究误差 D. 研究总体统计量 4.参数是指(b )。 A.参与个体数 B. 总体的统计指标 C.样本的统计指标 D. 样本的总和 5.关于随机抽样,下列那一项说法是正确的( a )。 A.抽样时应使得总体中的每一个个体都有同等的机会被抽取 B.研究者在抽样时应精心挑选个体,以使样本更能代表总体 C.随机抽样即随意抽取个体 D.为确保样本具有更好的代表性,样本量应越大越好 6.各观察值均加(或减)同一数后( b )。 A.均数不变,标准差改变 B.均数改变,标准差不变 C.两者均不变 D.两者均改变 7.比较身高和体重两组数据变异度大小宜采用( a )。 A.变异系数 B.差 C.极差 D.标准差 8.以下指标中(d)可用来描述计量资料的离散程度。 A.算术均数 B.几何均数 C.中位数 D.标准差 9.偏态分布宜用(c)描述其分布的集中趋势。 A.算术均数 B.标准差 C.中位数 D.四分位数间距 10.各观察值同乘以一个不等于0的常数后,(b)不变。 A.算术均数 B.标准差 C.几何均数 D.中位数 11.( a )分布的资料,均数等于中位数。 A.对称 B.左偏态 C.右偏态 D.偏态 12.对数正态分布是一种( c )分布。 A.正态 B.近似正态 C.左偏态 D.右偏态 13.最小组段无下限或最大组段无上限的频数分布资料,可用( c )描述其集中趋势。 A.均数 B.标准差 C.中位数 D.四分位数间距 14.( c )小,表示用该样本均数估计总体均数的可靠性大。 A. 变异系数 B.标准差 C. 标准误 D.极差 15.血清学滴度资料最常用来表示其平均水平的指标是( c )。 A. 算术平均数 B.中位数 C.几何均数 D. 平均数
第一章健康管理概论 健康管理是以现代健康概念(生理、心理和社会适应能力)和新的医学模式(生理、心理、社会)以及中医治未病为指导,通过采用现代医学和现代管理学的理论、技术、方法和手段,对个体或群体整体健康状况及其影响健康的危险因素进行全面检测、评估、有效干预与连续跟踪服务的医学行为及过程。 其目的是以最小投入获取最大健康效益。 健康管理的八大目标: 1.完善健康和福利 2.减少健康危险因素 3.预防疾病高危人群患病 4.易化疾病的早期诊断 5.增加临床效用、效率 6.避免可预防的疾病相关并发症的发生 7.消除或减少无效或不必要的医疗服务 8.对疾病结局作出度量并提供持续的评估和改进 健康管理的特点: 标准化足量化个体化系统化 健康管理的三个基本步骤: 1.了解和掌握健康,开展健康信息收集和健康检查 2.关心和评价健康,开展健康风险评价和健康评估 3.干预和促进健康,开展健康风险干预和健康促进 健康风险评估是手段,健康干预是关键,健康促进是目的 健康管理的五个服务流程: 1.健康调查与健康体检 2.健康评估 3.个人健康咨询 4.个人健康管理后续服务 5.专项的健康和疾病管理服务 健康管理的六个基本策略: 1.生活方式管理 2.需求管理 3.疾病管理 4.灾难性病伤管理 5.残疾管理 6.综合群体健康管理 生活方式管理的特点: 1.以个体为中心,强调个体的健康责任和作用
2.以预防为主,有效整合三级预防 生活方式的四大干预技术: 教育激励训练营销 影响需求管理的四大主要因素: 1.患病率 2.感知到的需要 3.消费者选择偏好 4.健康因素以外的动机(残疾补贴、请病假的能力等) 需求管理的策略: 1.小时电话就诊和健康咨询 2.转诊服务 3.基于互联网的卫生信息数据库 4.健康课堂 5.服务预约 疾病管理的三个特点: 1.目标人群是患有特定疾病的个体 2.不以单个病例和(或)其单次就诊事件为中心,而关注个体或群体连续性的健康状况与 生活质量 3.医疗卫生服务以及干预措施的综合协调至关重要 灾难性病伤管理的五大特点: 1.转诊及时 2.综合考虑各方面因素,制订出适宜的医疗服务计划 3.具备一支包含多种医学专科及综合业务能力的服务队伍,能够有效应对可能出现的多种 医疗服务需要 4.最大程度地帮助病人进行自我管理 5.尽可能使患者及其家人满意 残疾管理的八大目标: 1.防止残疾恶化 2.注重功能性能力 3.设定实际康复和返工的期望值 4.详细说明限制事项和可行事项 5.评估医学和社会心理学因素 6.与病人和雇主进行有效沟通 7.有需要时要考虑复职情况 8.实行循环管理 《健康中国2030规划纲要》 1.强调预防为主,防患未然
《医学统计学》课程考试试题(A卷) (评卷总分:100分,考试时间:120分钟,考核方式:□开卷 V 闭卷) 一、选择题(每题1分,共62分,只选一个正确答案) 1、医学科研设计包括( D ) A.物力和财力设计 B.数据与方法设计 C.理论和资料设计 D.专业与统计设计 2、医学统计资料的分析包括( D ) A.数据分析与结果分析 B.资料分析与统计分析 C.变量分析与变量值分析 D.统计描述与统计推断 3、医学资料的同质性指的是( D ) A.个体之间没有差异 B.对比组间没有差异 C.变量值之间没有差异 D.研究事物存在的共性 4、离散型定量变量的测量值指的是( D ) A.可取某区间内的任何值 B、可取某区间内的个别值 C.测量值只取小数的情况 D.测量值只取整数的情况5、变量的观察结果表现为相互对立的两种情况是( A ) A.无序二分类变量 B、定量变量. C.等级变量 D.无序多分类变量 6、计量资料编制频数表时,组距的选择( D ) A.越大越好 B.越小越好 C.与变量值的个数无关 D.与变量值的个数有关
7、比较一组男大学生白细胞数与血红蛋白含量的变异度应选( D )A.极差 B.方差 C.标准差 D.变异系数 8、若要用方差描述一组资料的离散趋势,对资料的要求是( D )A.未知分布类型的资料 B.等级资料 C.呈倍数关系的资料 D.正态分布资料 9、频数分布两端没有超限值时,描述其集中趋势的指标也可用( D ) A.标准差 B.几何均数 C.相关系数 D.中位数 10、医学统计工作的步骤是( A ) A、研究设计、收集资料、整理资料和分析资料 B、计量资料、计数资料、等级资料和统计推断 C、研究设计、统计分析,统计描述和统计推断 D、选择对象、计算均数、参数估计和假设检验 11、下列关于变异系数的说法,其正确的是( A ) A.没有度量衡单位的系数 B.描述多组资料的离散趋势 C.其度量衡单位与变量值的度量衡单位一致 D、其度量衡单位与方差的度量衡单位一致 12、10名食物中毒的病人潜伏时间(小时)分别为3, 4,5,3,2,5.5,2.5,6,6.5, 7,其中位数是( B ) A.4 B.4.5 C.3 D.2 13、调查一组正常成年女性的血红蛋白,如果资料属于正态分布,描
医学统计学论文 【摘要】大学生是当今社会中的新鲜血液,是新生代的力量。当代大学生的道德素质的层次会直接左右我们的身心健康水平,同时也影响到社会的前进发展。对于当代大学生道德现状的分析调查可以直接的反映出当今社会所存在的问题。大学生的道德取向则是一个社会道德的风向标。所以,提高当代大学生道德素质是当今社会刻不容缓的问题,同时对于社会主义现代化建设也有很重要的意义。本文基于调查问卷所得出的严谨数据,对学校内的大学生道德现状进行客观分析,并得出相应数据。 一、调查目的 1了解现在大学生的社会道德水平。 2关注大学生的发展,以总结现大学生存在的问题。 3分析原因,找到相关的原因。 二、调查设计 1调查对象:郑州大学继续教育学院 2调查时间:2016年9月—2016年10月 3调查方法:采用问卷调查(问卷共30题) 4问卷:发放出书面问卷200份,回收问卷179份 三、数据分析 数据经整理后,采用SPSS17.0统计软件包录入数据并运用独立样本t检验、方差分析和卡方检验进行数据分析。 四、影响因素的分析 为了能更好的来参照男女性别以及年级的不同,从而对调查问卷涉及的问题所给出的不同回答,我们做了诸多的关于性别差异,年纪差异的数据分析。其中也包括了T检验,交叉表等形式,当然,对于道德素质的选材,我们也没有一个硬性的指标来衡量乃至划分层次的高低。一方面,这给我们的调查统计造成了难以精准的障碍,另一方面,在我们的论文阐述中也不易找到相似的文献资料供以参考。尽管有这些不可避免的问题存在,我们小组还是尽量在数据统计分析出的结果中找到相关性。 1,年级差异对道德水平的影响 针对我们调查问卷主要涉及大学生群体的三个年级、大一、大二、大三,我们采用了不同的交叉表等形式来进行分析。
考试题型: 名词解释10个 选择20个 填空题20个 简答4-5个 讨论分析1-2题 计算1-2题 绪论 2选1 总体:总体(population)指特定研究对象中所有观察单位的测量值。可分为有限总体和无限总 体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。 样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代 表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。 3选1 小概率事件:我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件 P值:结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。p值是将观察结果认为有效即具有总体代表性的犯错概率。一般结果≤0.05被认为是有统计学意义 小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实验中是不会发生的,数学上称之小概率原理。统计学中,一般认为等于或小于0.05或0.01的概率为小概率。 资料的类型(3选1) (1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为 计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表 现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、 脉搏(次/分)、血压(KPa)等。 (2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料 (count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的 类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效 的人数;调查一批少数民族居民的A、B、AB、O 四种血型的人数等。 (3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察 单位数,称为等级资料(ordinal data)。等级资料又称有序变量。如患者的治疗结果可分为治 愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别 却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为+、++、+++等。 等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。 等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料。 2选1 抽样误差(sampling error )是指样本统计量与总体参数的差别。在总体确定的情 况下,总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。 系统误差:由于测量仪器结构本身的问题、刻度不准确或测量环境改变等原因,在多次测量时所产生的,总是
医学统计学 第一章 医学统计中的基本概念 1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。 2 资料的类型:计量资料(数值变量),计数资料(无序分类),等 变异(variation):在同质的基础上被观察个体的差异。级分组资料(有序分类)。 3 同质(homogeneity):对研究指标有影响的非实验因素相同。 4 总体(population):根据研究目的确定的同质的全部研究对象称总体 。 样本(sample):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。 5 参数(parameter):总体的设计指标称为参数。 统计量(statistic):样本的统计指标称为统计量。 6 变量(variable):观察对象的特征或指标称为变量,测量的结果即为变量值。 7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。 第二章 集中趋势的统计描述 一 算术均法(mean)简称为均数,适用于正态或近似正态分布资料 (一)直接法 X n x n X X X n ∑= +?++= 21 (二)加权法(针对频数表)n fx n x f f f X k k ∑= +++= (21) 二 几何均数(geometic mean,G)适用于倍数关系变化,经对数转换后呈正态分布(如:抗体滴度, 血清凝集效价,细菌计数,某些物质浓度等) G= n n X X X ?21 为了计算方便,常改用对数的形式计算,即=G lg 1 -( n X ∑lg ) 对于频数表资料,可用公式 G=lg 1 -( n x f ∑lg ) 三 中位数(M)与百分位数 中位数:适用于偏态分布资料,末端无确切数值的资料及分布情况不确定 公式:M=L+( M L f f n -5.0) M i L,M i ,M f 分别为M 所在组段的下限,组距与频数,L f 为M 所在组段之前各组数的累积频数。 百分位数:用符号X P 表示,x 即百分位 公式:x P =L+( x L f f x n -%·)x i 式中L,x i ,x f 分别为x P 所在组段的下限,组距与频数,L f 为x P 所在组段之前各组段的累积频数
一、单向选择题 1. 医学统计学研究的对象是 E.有变异的医学事件 2. 用样本推论总体,具有代表性的样本指的是E.依照随机原则抽取总体中的部分个体 3. 下列观测结果属于等级资料的是 D.病情程度 4. 随机误差指的是 E. 由偶然因素引起的误差 5. 收集资料不可避免的误差是 A.随机误差 1.某医学资料数据大的一端没有确定数值,描述其集中趋势适用的统计指标是 A. 中位数 2. 算术均数与中位数相比,其特点是 B.能充分利用数据的信息 3. 一组原始数据呈正偏态分布,其数据的特点是 D.数值分布偏向较小一侧 4. 将一组计量资料整理成频数表的主要目的是E.提供数据和描述数据的分布特征 1. 变异系数主要用于 A .比较不同计量指标的变异程度 2. 对于近似正态分布的资料,描述其变异程度应选用的指标是E. 标准差 3.某项指标95%医学参考值范围表示的是D.在“正常”总体中有95%的人在此范围 4.应用百分位数法估计参考值范围的条件是B .数据服从偏态分布 5.已知动脉硬化患者载脂蛋白B 的含量(mg/dl)呈明显偏态分布,描述其个体差异的统计指标应使用 E .四分位数间距 1.样本均数的标准误越小说明 E.由样本均数估计总体均数的可靠性越大 2. 抽样误差产生的原因是D.个体差异 3.对于正偏态分布的的总体,当样本含量足够大时,样本均数的分布近似为C.正态分布 4. 假设检验的目的是 D.检验总体参数是否不同 5. 根据样本资料算得健康成人白细胞计数的95%可信区间为7.2×109 /L ~9.1×109 /L ,其含义是 E.该区间包含总体均数的可能性为95% 1. 两样本均数比较,检验结果05.0 P 说明 D.不支持两总体有差别的结论 2. 由两样本均数的差别推断两总体均数的差别, 其差别有统计学意义是指 E. 有理由认为两总体均数有差别 3. 两样本均数比较,差别具有统计学意义时,P 值越小说明 D.越有理由认为两总体均数不同 4. 减少假设检验的Ⅱ类误差,应该使用的方法是 E.增加样本含量 5.两样本均数比较的t 检验和u 检验的主要差别是B.u 检验要求大样本资料
试题】2010-01-05/山东大学/医学院/2009级/研究生/医学统计 简答 1 给了一张表,计算患病率,发病率,病死率,以及患者哪个年龄段最多,是多少,发病率哪个年龄段最多,是多少等等 2 一个单向有序资料(分组变量无序,指标变量有序),用了卡方检验,问你对不对为什么如果是你,用什么 3 假设检验的基本思想和原则 4 给了多元线性回归的资料(列出了几个方程的校正决定系数,决定系数,剩余标准差等的数值),判断哪个方程回归效果最好,为什么 5 给了甲流的例子,用某药治疗,用了自身对照(用药前后抗体浓度变化为指标),得出了药物有效。问你合不合理,为什么你的设计是什么 6一型错误和二型错误的区别和联系 7什么是抽样误差举例说明分类资料和数量资料的抽样误差 计算 1 给了健康人的白天和晚上血压的相关数值(x和y各自的平均数,和,平方和,以及两者差值的均数等)注:计算时直接带入公式的相关数值 (1)比较白天晚上血压有无差别(配对t检验计算) (2)白天和晚上血压有无相关(相关分析) (3)如何用白天血压估计晚上血压(回归分析) 2 多个平均值进行总体假设检验。类如几种药的作用效果是否相同(方差分析)(也有人说:一个大题,3问,第一问是配对t检验计算,第二问相关分析,第三问,回归分析,都是计算题15分)
3 样本率与总体率的比较 (u检验)(也有人说:配伍组方差分析) 2008 1. 列出样本标准误的估计值的公式,至少五个(包括两样本差值的标准误,两样本率差值的标准误等) 2. 医学统计中,将正态分布视为近似正态分布有哪几种情况列出应用条件和公式 3. 数值资料的统计描述指标公式 4. 多元回归模型的基本形式参数含义回归效果的评价 5. 什么叫截尾值产生原因举例说明 6. 一同学两样本率的比较用了卡方检验,你有什么建议若不符合卡方检验的应用条件,你又有什么建议他再比较三个样本率是否来自同一总体,也用了卡方检验,你又有什么建议 7. 一个三因素的2X2X2的析因设计的实验设计及分析思路 8. 给了一个数值资料: 小鼠的饮食量X1,X2,X3,X4,X5,X6,X7,X8,X9共十个数值 小鼠的体重增加量也有十个值 (1)对体重增加量资料进行统计描述 (2)求饮食量和体重增加量的关系 (3)由体重增加量的样本估计其代表总体均数的可信区间 (4)求小鼠体重增加量为X5(就是从体重增加量的那十个値里取了一个)的95%的置信区间 (5)(3)和(4)中的可信区间有什么差别
预 防 医 学 医学统计学 第一章医学统计学中的基本概念 1医学统计学中的基本概念 3选1 变异:由众多的、偶然的、次要的因素造成的个体之间的差异称为变异。 总体:总体(population)指特定研究对象中所有观察单位的测量值。可分为有限总体和无限总 体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。 样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代 表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。 样本特性代表性随机性可靠性可比性 3选1 小概率事件:我们把概率很接近于0(即在大量中出现的频率非常低)的事件称为小概率事件。 P值:结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。p值是将观察结果认为有效即具有总体代表性的犯错概率。一般结果≤0.05被认为是有统计学意义。 小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实验中是不会发生的,数学上称之小概率原理。统计学中,一般认为等于或小于0.05或0.01的概率为小概率。
资料的类型(3选1) (1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为 计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表 现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、 脉搏(次/分)、血压(KPa)等。 (2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料 (count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的 类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效 的人数;调查一批少数民族居民的A、B、AB、O 四种血型的人数等。 (3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察 单位数,称为等级资料(ordinal data)。等级资料又称有序变量。如患者的治疗结果可分为治 愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别 却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为+、++、+++等。 等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。 等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料。 3选1 抽样误差(sampling error )是指样本统计量与总体参数的差别。在总体确定的情 况下,总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。 系统误差:由于测量仪器结构本身的问题、刻度不准确或测量环境改变等原因,在多次测量时所产生的,总是偏大或总是偏小的误差,称为系统误差。它带有规律性,经过校正和处理,通常可以减少或消除。 随机测量误差:在收集原始资料时,仪器由于各种偶然因素造成同一对象多次测定的结果不一致。 统计的步骤(考填空题,四个空) 医学统计工作的内容 1.实验设计:设计内容包括资料收集、整理和分析全过程总的设想和安排。设计是整个研 究中最关键的一环,是今后工作应遵循的依据。 2.收集资料:应采取措施使能取得准确可靠的原始数据。 3.整理资料:简化数据,使其系统化、条理化,便于进一步分析计算。 4.分析资料:计算有关指标,反映事物的综合特征,阐明事物的内在联系和规律。分 析资料包括统计描述和统计推断。 实验设计的基本原则(考填空题,三个空) 随机化原则、对照的原则(对照的类型,对照的设置)、重复的原则。 对照的类型空白对照实验对照标准对照 自身对照相互对照历史对照安慰剂对照 2选1 参数:参数(paramater)是指总体的统计指标,如总体均数、总体率等。总体参数 是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样 本,用算得的样本统计量估计未知的总体参数。 统计量:统计量(statistic)是指样本的统计指标,如样本均数、样本率等。样本 统计量可用来估计总体参数。总体参数是固定的常数,统计量是在总体参数附近波动的随机 变量。 完全随机设计常用的几种实验设计方法:配对设计和完全随机设计(名解2选1) 完全随机设计:完全随机设计仅涉及一个处理因素(但可为多水平),故又称单因素(one-way)设计。它是将受试对象按随机化的方法分配到各个处理组中,观察实验效应,临床试验中的随机对照试验也属于此类设计。 配对设计:是将受试对象按一定条件配成对子,再随机分配每对中的两个受试对象到不同处理组。配对的因素是影响实验效应的主要非处理凶素。 第二章集中趋势的统计描述 频数表的制作步骤以及频数分布表的用途(问答题) 频数分布表的编制步骤: 例:某市1982年50名7岁男童的身高(cm)资料如下,试编制频数表。 114.4117.2122.7124.0114.0110.8118.2116.7118.9118.1
描述内容 指 标 意 义 适 用 场 合 平均水平 均 数 个体的平均值 对称分布 几何均数 平均倍数 取对数后对称分布 中 位 数 位次居中的观察值 ①非对称分布;②半定量资料;③末端开口资料;④分布不明 众 数 频数最多的观察值 不拘分布形式,概略分析 调和均数 基于倒数变换的平均值 正偏峰分布资料 变 异 度 全 距 观察值取值范围 不拘分布形式,概略分析 标 准 差 (方 差) 观察值平均离开均数的程度 对称分布,特别是正态分布资料 四分位数间距 居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开口资料;④分布不明 变异系数 标准差与均数的相对比 ①不同量纲的变量间比较;②量纲相同但数量级相差悬殊的变量间比较 4. 常用统计图有哪些?分别适用于什么分析目的? 常用统计图的适用资料及实施方法 图 形 适 用 资 料 实 施 方 法 条 图 组间数量对比 用直条高度表示数量大小 直 方 图 定量资料的分布 用直条的面积表示各组段的频数或频率 百分条图 构成比 用直条分段的长度表示全体中各部分的构成比 饼 图 构成比 用圆饼的扇形面积表示全体中各部分的构成比 线 图 定量资料数值变动 线条位于横、纵坐标均为算术尺度的坐标系 半对数线图 定量资料发展速度 线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系 散 点 图 双变量间的关联 点的密集程度和形成的趋势,表示两现象间的相关关系 箱 式 图 定量资料取值范围 用箱体、线条标志四分位数间距及中位数、全距的位置 茎 叶 图 定量资料的分布 用茎表示组段的设置情形,叶片为个体值,叶长为频数 定性资料统计描述常用的统计指标及其适用场合 指标 计算公式 适用场合 频率 n/N 估计总体中某一结局发生的概率 频率分布 n 1/N ,n 2/N,…..,n k /N 估计总体中所有可能结局发生的概率 强度 阳性人数/总观察人时数 估计总体中单位时间内某一结局发生的概率 比 A/B 估计两个指标的相对大小 4.常用参考值范围的制定? 参考值范 围(%) 正态分布法 百分位数法 双侧 单侧 双侧 单侧 下限 上限 下限 上限 90 S X 64.1± S X 1.28- S X 1.28+ P 5~P 95 P 10 P 90 95 S X 96.1± S X 64.1- S X 64.1+ P 2.5~P 97.5 P 5 P 95 99 S X 58.2± S X 2.33- S X 2.33+ P 0.5~P 99.5 P 1 P 99
l.统计中所说的总体是指: A A根据研究目的确定的同质的研究对象的全体B随意想象的研究对象的全体 C根据地区划分的研究对象的全体 D根据时间划分的研究对象的全体 E根据人群划分的研究对象的全体 2.概率P=0,则表示 B A某事件必然发生 B某事件必然不发生 C某事件发生的可能性很小D某事件发生的可能性很大E以上均不对3.抽签的方法属于 D A分层抽样B系统抽样 C整群抽样 D单纯随机抽样 E二级抽样4.测量身高、体重等指标的原始资料叫: B A计数资料B计量资料 C等级资料 D分类资料 E有序分类资料5.某种新疗法治疗某病患者41人,治疗结果如下: 治疗结果治愈显效好转恶化死亡
治疗人数82363 1 该资料的类型是: D A计数资料 B计量资料 C无序分类资料 D有序分类资料 E数值变量资料6.样本是总体的 C A有价值的部分B有意义的部分C有代表性的部分D任意一部分E典型部分7.将计量资料制作成频数表的过程,属于统计工作哪个基本步骤:C A统计设计B收集资料C整理资料D分析资料E以上均不对8.统计工作的步骤正确的是 C A收集资料、设计、整理资料、分析资料 B收集资料、整理资料、设计、统计推断C设计、收集资料、整理资料、分析资料 D收集资料、整理资料、核对、分析资料E搜集资料、整理资料、分析资料、进行推断9.良好的实验设计,能减少人力、物力,提高实验效率;还有助于消除或减少: B
A抽样误差B系统误差C随机误差D责任事故E以上都不对 10.以下何者不是实验设计应遵循的原则 D A对照的原则B随机原则C重复原则D交叉的原则E以上都不对 第八章数值变量资料的统计描述11.表示血清学滴度资料平均水平最常计算 B A算术均数B几何均数C中位数D全距E率12.某计量资料的分布性质未明,要计算集中趋势指标,宜选择 C A X B G C M D S E C V 13.各观察值均加(或减)同一数后: B A均数不变,标准差改变B均数改变,标准差不变 C两者均不变D两者均改变E以上均不对14.某厂发生食物中毒,9名患者潜伏期分别为:16、2、6、3、30、2、l O、2、24+(小时),问该食物中毒的平均潜伏期为多少小时 C A5B5.5C6D10E1 2
将生存时间按从小到大顺序排列如下: 表1 BCG治疗组生存情况 *死亡=1;删失=0
*死亡=1;删失=0 按上述二表将数据输入SPSS软件,其中数据编号为i,列(1)即时间为t,列(3)即生存结局为status,表1为group1,表2为group2。 选择Analyze中的Survival里的Kaplan-Meier分析,将Time,Status,Factor依次选定,option 和Compare Factor依次设定完成后,得到输出结果,结果分析如下: Survival Table中: 1为BCG治疗组患者生存率(Estimate)及其标准误(Std. Error)的计算结果。2为药物与BCG结合治疗组患者生存率(Estimate)及其标准误(Std. Error)的计算结果。 Overall Comparisons
Log Rank (Mantel-Cox) .057 1 .811 Breslow (Generalized Wilcoxon) .658 1 .417 Tarone-Ware .336 1 .562 Test of equality of survival distributions for the different levels of group. 两组生存率的log-rank 检验 H 0:两种疗法患者生存率相同 H 1:两种疗法患者的生存率不同 α =0.05 采用SPSS 软件对两组生存率进行检验,得到上面Overall Comparisons 表,其中第一行为LogRank 检验结果。即X 2=0.057,P=0.811。按α=0.05水准,不拒绝H 0,还不能认为用BCG 疗法和用药物与BCG 结合疗法治疗黑色素瘤患者的生存率有差别。 生存曲线如上图所示,其中生存时间为横轴,生存率为纵轴。
医学统计学考试重点 The latest revision on November 22, 2020
一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 真实情况拒绝H 不拒绝H
H 正确Ⅰ型错误(ɑ) 推断正确(1ɑ) 不正确推断正确(1β) H Ⅱ型错误(β) 为真时却被拒绝,弃真错误 Ⅰ型错误(ɑ错误): H 为假时却被接受,取伪错误 Ⅱ型错误(β错误): H 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义: ①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上)安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数)
误差:观测值与真实值、样本计量与总体参数之间的差别。 相对数:两个有关的绝对数之比,也可以是两个有关联统计指标之比。 相对比:相对比是A、B两个有关联指标值之比,用以描述两者的对比水平,说明A是B 的若干倍或百分之几。 统计描述:描述及总结一组数据的重要特征,目的是使实验或观察得到的数据表达清楚并便于分析。 统计推断:指由样本数据的特征推断总体特征的方法,包括参数估计和假设检验。 同质:指根据研究目的所确定的观察单位其性质应大致相同。 变量:反映实验或观察对象生理、生化、解剖等特征的指标,变量的观测值称为数据。 定量数据:也称计量资料。变量的观测值是定量的,其特点是能够用数值大小衡量其水平的高低,一般有计量单位。根据变量的取值特征可分为连续型数据和离散型数据。 有序数据:也称半定量数据或等级资料。变量的观测值是定性的,但各类别(属性)之间有程度或顺序上的差别。 总体:根据研究目的确定的所有同质观察单位的全体,它包括所有定义范围内的个体变量值。样本:从研究总体中抽取部分有代表性的观察单位,对变量进行观测得到的数据。 参数:描述总体特征的指标称为参数。 统计量:描述样本特征的指标称为统计量。 概率:描述某事件发生可能性大小的度量。 小概率事件:习惯上将P≤0.05的事件称为小概率事件。 平均数:是描述一组观察值集中位置或平均水平的统计指标,常用的有算术均数、几何均数和中位数。 率:率表示在一定空间或时间范围内某现象的发生数与可能发生的总数之比。 构成比:表示某事物内部各组成部分在整体中所占的比重,常以百分数表示,计算公式为区间估计:是指按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。 线性相关的概念:研究两个变量之间是否具有直线相关关系。 相关系数:是说明具有线性相关关系的两个数值变量间相关的密切程度与相关方向的统计量。 研究对象:根据研究目的而确定的观察总体,也可称为受试对象或实验对象。 处理因素:根据研究目而欲施研究对象的干预措施。 处理水平:处理因素在实验中所处的状态称为因素的水平(level),亦称处理水平。 对照:指在实验中应设立对照组,其目的是通过与对照组效应对比鉴别出实验组的效应大小。随机化:是指每个受试对象有相同的概率或机会被分配到不同的处理组。 重复:是指在相同实验条件下重复进行多次观察。 统计学的基本内容:统计设计,数据整理,统计描述,统计判断 数据类型:定量数据,定性数据,有序数据 误差的类型:系统误差,随机测量误差,抽样误差 配对样本t检验配对设计:同源配对,异源配对,自身配对 方差分析的基本思想:将全部观测值的总变异按影响因素分解为相应的若干部分变异,在此基础上,计算假设检验的统计量F 值,实现对总体均数是否有差别的推断。 非参数检验的适用范围:①总体分布类型未知或非正态分布数据;②有序或半定量资料;③数据两端无确定的数值。 标准差与标准误的区别与联系:区别:标准差:意义,描述个体观察值变异程度的大小,标准差越小,均数对一组观察值的代表性越好。应用,与X拔结合,用以描述个体观察值的
第一套试卷及参考答案 一、选择题(40分) 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制( B ) A 条图 B 百分条图或圆图 C线图 D直方图 2、均数和标准差可全面描述 D 资料的特征 A 所有分布形式B负偏态分布C正偏态分布D正态分布和近似正态分布 3、要评价某市一名5岁男孩的身高是否偏高或偏矮,其统计方法是( A ) A 用该市五岁男孩的身高的95%或99%正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99%的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用( A ) A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是( A ) A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体
均数不同 6. 男性吸烟率是女性的10倍,该指标为( A ) (A)相对比(B)构成比(C)定基比(D)率 7、统计推断的内容为( D ) A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A和B均不是 D. A和B均是 8、两样本均数比较用t检验,其目的是检验( C ) A两样本均数是否不同 B两总体均数是否不同 C两个总体均数是否相同 D两个样本均数是否相同 9、有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t检验时,自由度是( D ) (A)n1+ n2(B)n1+ n2–1 (C) n1+ n2 +1 (D) n1+ n2 -2 10、标准误反映( A ) A 抽样误差的大小B总体参数的波动大小 C 重复实验准确度的高低 D 数据的离散程度 11、最小二乘法是指各实测点到回归直线的 (C)
医学统计学考试重点Prepared on 21 November 2021
一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 不 真实情况拒绝H 拒绝H 正确Ⅰ型错误(ɑ) 推 H 断正确(1ɑ) 不正确推断正确(1β) Ⅱ型 H 错误(β) 为真时却被拒绝,弃真错误 Ⅰ型错误(ɑ错误): H Ⅱ型错误(β错误): H 为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义: ①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S =S/√n x ㈡样本率 率的抽样误差:样本率p和总体率π的差异