当前位置:文档之家› 生物医学统计学

生物医学统计学

生物医学统计学
生物医学统计学

统计学是应用概率论和数理统计的方法,研究数据的搜集、整理、分析与推断的学科,是认识世界的一种重要手段。

变量(variable):就是反映个体特征或属性的量.变量值(variable value):变量的观察结果或测量值。定量变量quantitative variable/数值变量numerical variable 定性变量qualitative variable/分类变量categorical variable

同质(homogeneity)是指被研究指标的影响因素相同。但在医学研究中,有些影响因素往往是难以控制的(如遗传、营养等),甚至是未知的。因此,在实际工作中只有相对的同质。

变异(variation):同质基础上的各观察单位间的差异称为变异。

总体:是根据研究目的所确定的同质观察对象的全体,或者说所有同质的某指标实测值的集合。样本:根据随机化的原则从总体中抽取有代表性的部分观察单位,其变量实测值构成样本。

参数(parameter):根据总体变量值统计计算出来的、描述总体特征的统计指标。统计量(statistic):根据样本变量值统计计算出来的、描述样本特征的统计指标。

误差:指测量值和真实值之间的差别

准确度(accuracy) :观察值与真值的接近程度,受系统误差的影响。可靠度(reliability):也称精密度(precision)或重复性(repeatability):是重复观察时观察值与其均值的接近程度,受随机误差的影响。

概率:是描述随机事件发生的可能性大小的一种度量,常用P表示。0≤P≤1 随机事件

P=1 必然事件P=0 不可能事件P≤0.05或P≤0.01为小概率事件

统计工作的基本步骤: 统计设计(研究对象,处理因素,统计分析),搜集资料(任务:遵循统计学原理,按照设计要求,采取必要措施得到准确可靠的原始资料。原则:及时、准确、完整。),整理资料(编码,将数据输入计算机;纠错改错、补漏等;根据研究目的将原始数据进行归纳、分组或计算),分析资料如何对数值变量进行统计描述。1频数表与频数分布图2集中趋势的统计描述3离散趋势的统计描述

相对数的概念包括率、构成比、相对比和动态数列,由于它是两个有联系的指标之比,因而叫作相对数。相对数应用中的注意事项1计算相对数的分母不易过小2防治概念混淆, 分析时不能以构成比代替率3对观察单位不等的几个率,不能直接相加求其平均率。4资料的对比应注意同质5对样本率的比较应遵循随机抽样,要作假设检验。

率:表示在一定条件下,发生某现象的观察单位数与可能发生某现象的观察单位数之比。

构成比表示某一现象内部各组成部分所占的比重或分布。特征1各组成部分的构成比之和为100% 2某一部分构成比增大或减小,必然使其它部分产生相应的变化。注意区别率和构成比虽然两者均为两个指标之比,但意义却完全不同。率反应了某项指标的平均强度或平均水平,它具有数值变量中平均数的含意,构成比表示某一现象内部各组成部分所占的比重或分布,不能反应该现象的平均强度或平均水平。

正态分布的概念若将各直条顶端的中点顺次连接起来,得到一条折线。当样本量n越来越大时,组段越分越细,此时直方渐进直条,这条折线就越来越接近于一条光滑的曲线(见图3.1),我们把这条呈中间高,两边低,左右基本对称的“钟型”曲线称为正态分布曲线,近似于数学上的正态分布(高斯分布; Gauss)。正态分布的特征1.集中性:正态曲线在横轴上方均数处最高2.对称性:以均数为中心,左右对称。3.正态分布的图形由均数和标准差两个参数决定。位置参数μ;变异度参数σ4. 正态分布曲线下的面积分布有一定规律:正态曲线与横轴所夹的面积为1(1.64,1.96,2.58)应用1. 制定医学参考值范围2. 估计频数分布3. 进行质量控制4.正态分布是许多统计方法的理论基础

二项分布在医学研究中,许多观察或试验的可能结果可以归结为二个相互排斥的结果。性质与特征⑴形态取决于π和n:当π接近0.5时,分布对称,π离

0.5越远,分布对称性越差;但当n增大时, 分布趋于对称。⑵高峰在μ=nπ处⑶二项分布的总体均数μ=nπ,方差为4当nπ>5,且n(1- π)>5时,二项分布趋于正态分布。

Poisson分布Poisson分布是一个重要的离散型概率分布。一般地,Poisson分布应用于观察例数n很大、而π发生的概率很小的情况。特性1)Poisson分布属于离散型分布,λ是Poisson分布的总体参数,也是惟一的参数。(2)方差σ2与均数λ相等,即σ2= λ。这是Poisson分布的一个非常重要而且非常独特的性质,经常用于判断某随机事件是否服从Poisson分布。

(3)设X1~P(u1)且X2~P(u2),并且X1与X2相互独立,则Y=X1+X2 服从总体均数为u1+u2的Poisson分布

抽样误差:由于抽样造成的样本统计量与样本统计量,以及样本统计量与总体参数间的差别

样本均数的标准差(简称标准误,standard error)是描述均数的抽样误差大小的指标。

区间估计:根据抽样误差的规律,按一定的概率估计总体均数的所在范围。统计上习惯用95%或99%可信区间表示总体均数可能所在范围。总体均数的95%置信区间表示的实际涵义是:如果从同一总体中重复抽取100份样本含量相同的独立样本,每份样本分别计算1个置信区间,在100个置信区间中,将大约有95个置信区间覆盖总体均数,大约有5个置信区间并不覆盖总体均数。

假设检验(hypothesis test)亦称显著性检验(significance test),先对总体的参数或分布作出某种假设,如设总体均数(或率)为一定值;两总体均数(或率)相等,然后选用适当的方法根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。原理:在抽样研究中,由于抽样误差的客观存在,使得从同一总体中随机抽取的样本含量相等的若干个样本均数往往不相等。根据正态分布原理,在100次(n相等)抽样中,理论上将有95个u值小于1.96,仅有5个u 值大于或等于1.96。当进行一次抽样研究时,若依据该样本均数算得的u值小于1.96,则表明从该总体中抽得此样本的可能性将大于5%(P大于0.05),因此可认为此样本来自该总体;若算得的u值大于1.96,则表明从该总体中抽得此样本的可能性将小于或等于5%(P≤0.05),这种小概率事件在一次抽样中是不大可能发生的,因此可认为此样本不是来自该总体。步骤1提出无效假设和备择假设,规定显著性水平2确定并计算检验统计量3确定P值,作出统计推断结论

小概率在一次试验中,一个几乎不可能发生的事件发生的概率,由研究者事先确定。

第一类错误(弃真错误)拒绝了实际上存在的H0,第一类错误的概率为α.第二类错误(存伪错误)不拒绝实际上不存在的H0,第二类错误的概率为 β(Beta) 掌握两独立样本定量资料的统计分析思路:两样本均来自正态总体且总体方差齐时用t 检验;两样本来自正态总体但总体方差不齐时用t‘检验或秩和检验。当数据来自偏态分布总体时,首先考虑采用变量变换,再考虑选用秩和检验。掌握配对设计的含义及两配对样本定量资料的统计分析思路:对于配对设计定量资料的统计分析,若差值服从正态分布,可采用配对t检验;否则,采用配对资料的符号秩和检验。

秩和检验的优缺点优点:①适用范围广。②对数据要求不严。缺点:对于符合参数检验的资料如果用秩和检验,由于没有充分利用资料提供的信息,故检验效能低于参数检验,若要使检验效能相同,往往需要更大的样本含量。因此,在实际工作中对符合参数检验的资料,或经变量变换后符合参数检验的资料应首选参数检验;若不能满足参数检验条件的资料,应选用秩和检验。

单因素方差分析的基本思想和模型假设模型条件1独立性:各样本是相互独立的随机样本

2正态性:各样本来自正态分布3方差齐性:各样本方差相等,即方差齐步骤1.建立假设,确定显著性水平H0 :μ1= μ2 = μ3 =…H1 :总体均数不等或不全相等α=0.05. 2.计算统计量F3.求概率值P,做出推论在多组定量资料比较

时,ANOV A 是一种常用的方法。但ANOV A只能说明多个总体均数总得来说有无差别,若想进一步了解到底哪哪两个组之间有差别,还需做两两比较。单因素方差分析要求各样本均来自正态总体且总体方差齐,当数据来自偏态分布或总体方差不齐时,采用变量变换或秩和检验(Kruskal-Wallis Test)其基本思想和两独立样本一样(wilcoxon rank sum test),只是在编秩时将所有数据混在一起编秩,然后分别计算各组的秩和。

卡方检验基本思想是检验实际数A与理论数T的差别,是否由抽样误差引起?如果H0假设成立,A与T之差一般不会太大,认为A与T之间的吻合程度高,出现大χ2值的概率是很小的;若P≤α,A与T相差较大;吻合程度差,就怀疑检验假设成立,作出拒绝H0,接受H1的推断。

行×列表没有校正公式,使用条件:不能有理论数T<1,并且1≤T≤5的格子数不超过总格子数的1/5。条件不足时有三种处理方法。①增大样本例数使理论数增大;②删除理论数太小的行或列;③将邻近的行或列合并,增大理论数(但注意合理性)。

R×C表的χ2检验注意事项1若表格内有一个方向按多个等级分类,则称为单项有序行列表,当等级数大于3时,一般用秩和检验分析更为合适。2列联表资料要求理论数小于5不能太多,不能超过总格子数的1/5,根据专业知识是否能合并或增大样本含量。

简单相关分析的方法步骤(一)绘制散点图,看有无线性关系(二)估计简单相关系数r(三)检验简单相关系数ρ是否有统计学

线性相关分析注意事项(一)当两变量有线性趋势时,才能进行线性相关分析。一般应首先利用散点图观察并判断两变量间的关系,根据变量间可能的关系,选择不同的相关分析方法。(二)相关分析适用于双变量正态分布的资料,否则需进行变量变换或采用其它计算方法,如秩相关。(三)相关分析适用于两变量均为随机取值的资料,当一个变量的数值人为选定时不能做相关分析四)异常点的存在对相关分析往往有影响,要特别注意。(五)分层资料盲目合并容易引起假象

秩相关分析秩相关又称等级相关,是一种非参数统计方法,适用于资料不是正态双变量或总体分布未知;数据一端或两端有不确定值的资料或等级资料。

Pearson积差相关系数适用条件:双变量正态分布资料。表示方法:r注意事项:不可用相关系数检验所得P值的大小来判断有否线性关系。一定要先绘制散点图,看出两变量间有线性趋势时,再计算积差相关系数。

Spearman秩相关适用条件:不满足正态分布的两变量随机样本—等级资料表示方法:rs

简单线性回归分析回归模型的基本假设1.线性(linear) 指反应变量Y的总体平均值与自变量X呈线性关系。2.独立(independent) 指任意两个观察值互相独立。3.正态(normal假定线性模型的误差项服从正态分布。4.等方差(equal variance是指在自变量X取值范围内,不论X取什么值,Y都具有相同的方差。方法步骤1绘制散点图2求回归系数和常数项3回归系数和常数项的假设检验4列出回归方程,并进行假设检验5回归方程的解释

线性回归分析的应用一、总体回归线的95% 置信带二、个体Y预测值的区间估计

直线回归方程的应用(一)定量描述两变量之间的依存关系。

(二)利用回归

方程进行预测。(三)利用回归方程进行统计控制

简单线性回归分析的注意事项1.要注意实际意义;2.绘制散点图观察两变量的关系以及找出异常点;3.注意自变量和因变量的变化范围。

多重线性回归分析的基本步骤1估计参数(最小二乘法)2回归模型的假设检验(F检验)3回归系数的假设检验(t 检验)4列出回归方程

未标准化的回归系数(偏回归系数):用来构建回归方程,即方程中各自变量的斜率。标准化的回归系数:用于综合评价各解释变量对因变量Y的贡献大小,标准化的回归系数越大,说明X对Y的影响幅度越大。

多重线性回归分析模型假设:LINE 诊断方法:残差分析1残差的直方图判断分布的正态性2绘制残差与反应变量预测值的散点图考察模型是否满足线性和方差齐性

多重线性回归模型的应用注意事项1定量地建立一个反应变量与多个解释变量之间的线性关系。2筛选危险因素。3通过较易测量的变量估计不易测量的变量。4通过解释变量预测反应变量。5通过反应变量控制解释变量。注意事项1. 因变量Y是服从正态分布的连续型随机变量;2. 自变量最好是连续型变量,也可以是等级资料,若自变量为多项无序分类资料,则必须先哑变量化后才能进入模型。3. 自变量之间不存在多重共线性,即互相独立 4.利用自变量对因变量进行预测是回归分析的主要目的之一,此时,只能在X的取值范围内进行。

随机区组设计(randomized block design),又称为配伍组设计,是将受试对象按一定性质配成区组(同年龄、同性别、同窝别),然后随机分配每对中的受试对象到不同的处理组。

变异之间的关系:

随机区组设计资料方差分析SS总= SS组内+ SS组间+ SS配伍间,ν总= ν组内+ ν组间+ν配伍间模型条件正态性:各样本来自正态分布方差齐性:各样处理组方差齐;各区组方差齐基本步骤配伍组设计资料的方差分析的无效假设有二个,其一是关于处理因素的,另一个是关于配伍因素的。相应的统计量也有二个。

实验设计的3个基本要素受试对象(subject)处理因素(treatment)实验效应(experimental effect)

实验设计的基本原则1对照原则,意义:使实验组和对照组内的非处理因素基本一致,使处理因素的效应得以显露。2随机的原则:所谓随机化(randomization),就是采用随机化的原则,使每个受试对象都有同等的机会被抽取或分配到不同的实验组和对照组。3 重复的原则:

概念:重复是指在相同实验条件下进行多次研究或多次观察(一定的样本含量),以提高实验的可靠性和科学性。无限增加样本含量,将加大实验规模,延长实验时间,浪费人力物力,反而增加系统误差。样本含量不足,检验效能(Power,1-β)偏低,总体参数间原有差异无法检验出来。

在设立对照时,应特别注意以下问题:(1)缺乏对照或对照多余2)缺乏适当的对照(3)对照不全

重复的三层含义1整个实验的重复:它确保了实验的重现性,从而提高了实验的可靠性。2用多个受试对象进行重复:它避免了把个别情况误认为普遍情况。3同一受试对象的重复观察:它保证了观察结果的精度。

完全随机设计含义:是采用完全随机化分组方法将同质的实验单位分配到各处理组,各组分别接受不同的处理。

Logistic回归分析的用途1筛选危险因素,并确定其作用大小;校正混杂因素;预测:预测某个病例事件发生的概率

B0表示在不接触任何潜在危险/保护因素条件下,即在自变量均为零时效应事件发生(死亡)优势(odds)的对数值,或效应指标发生与不发生的概率之比的对数值。bi为因素Xi的Logistic回归系数,exp( bi )为其他各因素取固定值时,因素Xi与疾病关联的优势比( OR ),反映了危险因素Xi与疾病关联的程度。或称为其某两个相邻水平相比对效应事件发生的优势比的对数值。

在Logistic 回归模型中,自变量每增加1个单位,对应的优势比为OR>1, 说明X 增大是疾病的危险因素OR<1, 说明X 增大是疾病的保护因素OR=1, 说明X 的变化与疾病无关 删失数据(censored data ):又称截尾。随访研究中,在规定的观察期内,对某些观察对象由于某种原因未能观察到终点事件的发生,并不知道确切的生存时间。

生存概率:单位时段开始时存活的个体到该时段结束时仍然存活的可能性;p=某年活满一年人数/某年年初人口数 注意:若年内有删失,分母用校正人口数。 生存率(survival rate) :0时刻存活的个体在t 时刻仍存活的可能性。累积生存概率

生存概率是针对单位时间而言的,生存率是针对某个较长时段的,是生存概率的累计结果。

死亡概率(probability of death ):表示某时段开始存活的个体,在该时段内死

亡的可能性。

注意:如果年内有删失,则分母用校正人口数: 校正人口数= 年初人口数—删失例数/2

半数生存期,也称中位生存期(median survival time),即生存时间中位数,表示50%的个体可存活的时间。即生存率为50%时对应的生存时间(集中趋势指标)。中位生存期越长,表示疾病的预后越好。

生存曲线的估计一、寿命表法(life table method )应用范围:样本含量较大时.

期初有效例数=期初病例数-期内删失数/2 死亡概率=期内死亡数/期初有效例数 生存概率=1-死亡概率 二、乘积极限法( Kaplan-Meier method Product limit method ,应用于样本含量较小时。基本思想:将生存时间由小到大依次排列,在每个死亡点上,计算期初人数、死亡人数、死亡概率、生存概率和生存率。 生存曲线的比较(Log rank 检验)

年初人口数年内死亡人数

)死亡概率(=q 观察总例数时刻仍存活例数

资料中无删失数据时k

k

t t T P t S =≥=)()(?k

k k k k p t S p p p t T P t S ?=??=≥=-)(?......)()(?121资料中有删失数据时时间由小到大排序将两组数据统一按生存:两总体生存曲线不同:两总体生存曲线相同.105.01

0=αH H i

i gi gi

gi

i

i

i

gi

gi

i

n d n T T

t d n d n t =

上的理论死亡数计算各组在时间。和死亡例数两组合计的期初例数以及和死亡例数上的期初例数分别计算两组在时间.3,.2患者。患者的生存曲线高于,肿瘤做出统计结论

(((计算统计量

数和理论死亡总数计算各组的实际死亡总cm 0.3cm 0.305.0.6196.64584

.9)4584.9165416.17)5416.1711).5.42

2

2

2

≥<<==-+-=-=∑

P T T A g

g

g

νχ

Log-rank检验用于整条生存曲线的比较;Log-rank检验属于单因素分析方法,其应用条件是除比较因素外,影响生存率的各混杂因素在不同的组间均衡。否则,可采用cox回归。

Logistic回归模型的注意事项(1)应用条件(2)异常值及计量资料间的共线性问题(3)回归系数的解释_多因素Logistic回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在交互作用时,回归系数的解释更为复杂。(4) 要有足够的样本量来保障参数估计的稳定性。(5) logistic回归对自变量进行筛选不要完全依赖检验水准来筛选,专业解释往往更重要。

(6)logistic回归模型的自变量可以是无序多分类变量,常用多个哑变量(用categorical可直接哑变量化)来代替,使结果更容易解释。

Logistic 回归与多重线形回归的区别与联系

区别:1,Logistic 回归分析要求应变量必须是分类资料,即二分类、多项无序分类或有序资料,而多重线形回归则要求应变量必须服从正态分布。2,Logistic 回归分析对自变量无严格的要求,既可是定量资料,又可是定性资料,而多重线形回归一般要求自变量是定量资料,亦可是有序资料。联系:均是用来分析多个自变量与一个因变量之间的关系。

生物统计学期末复习题

统计选择题 1,由于(1,研究对象本身的性质)造成我们所遇到的各种统计数据的不齐性。 2,研究某一品种小麦株高,因为该品种小麦是个极大的群体,其数量甚至于是个天文数字,该体属于(4,无限总体) 3,从总体中(2,随机抽出)一部分个体称为样本。 4,用随机抽样方法从总体中获得一个样本的过程称为(3,抽样) 5,身高,体重,年龄这一类数据属于(3,连续型数据;1,度量数据) 6,每10个中男性人数,每亩麦田中杂草株数,喷洒农药后每100只害虫中死虫数等,这一类数据属于(1,离散型数据;2,计数数据) 7,把频数按其组值的顺序排列起来,称为(3,频数分布) 8,以组值作为一个边,相应的频数为另一个边,做成的连续矩形图称为(2,直方图)9,绘制(4,多边形图)的方法是在坐标平面内点上各点(中值,频数),以线段连接各点,最高和最低非零频数点与相邻零频数点相连。 10,累积频数图是根据(3,累积频数表)直接绘出的。 11,样本数据总和除以样本含量,称为(算数平均数 12,已知样本平方和为360,样本含量为10,以下4种结果中(2,6.0)是正确的标准差。 13,概率的古典定义是(2,基本事件数与事件总数之比) 14,下面第(2,概率是事物所固有的特性) 15,对于事件A和B,P(A∪B)等于(2,P(AB)) 16,对于事件A和事件B,P(A|B)等于(P(AB)/P(B)) 17,对于任意事件A和B,P(AB)等于(P(B)P(B|A)) 18,下述(3随机试验中所输入的变量)项称为随机变量 19,关于连续型随机变量,有以下4种提法,其中(1,可取某一区间内的任何数值)20,总体平均数可以用以下4种符号中的一种表示,它是(2,μ) 21,样本标准差可以用以下4种符号中的一种表示,它是(1,s) 22,在养鱼场中,A鱼塘的面积占10%,A鱼塘中鱼的发病率为1%,问从养鱼场中任意捕捞一条鱼,它既是A鱼塘,又是生病的鱼的概率是(4,0.003) 23,以下4点是描述连续型随机变量特征的,其中(2,f(x)=lim △x→0P(x

医学统计学试题和答案解析

第一套试卷及参考答案 一、选择题 (40分) 1、根据某医院对急性白血病患者构成调查所获得得资料应绘制( B ) A 条图 B 百分条图或圆图 C线图 D直方图 2、均数与标准差可全面描述 D 资料得特征 A 所有分布形式B负偏态分布 C 正偏态分布D正态分布与近似正态分布 3、要评价某市一名5岁男孩得身高就是否偏高或偏矮,其统计方法就是( A ) A 用该市五岁男孩得身高得95%或99%正常值范围来评价 B用身高差别得假设检验来评价 C用身高均数得95%或99%得可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用( A ) A变异系数 B 方差C标准差 D 四分位间距 5、产生均数有抽样误差得根本原因就是( A ) A、个体差异B、群体差异C、样本均数不同D、总体均数不同 6、男性吸烟率就是女性得10倍,该指标为( A ) (A)相对比(B) 构成比(C)定基比 (D)率 7、统计推断得内容为( D ) A、用样本指标估计相应得总体指标B、检验统计上得“检验假设”C、A与B均不就是D、A与B均就是 8、两样本均数比较用t检验,其目得就是检验( C ) A两样本均数就是否不同B两总体均数就是否不同C两个总体均数就是否相同 D两个样本均数就是否相同 9、有两个独立随机得样本,样本含量分别为n1与n2,在进行成组设计资料得t检验时,自由度就是( D ) (A) n1+ n2 (B) n1+ n2–1(C) n1+ n2 +1 (D)n1+ n2-2 10、标准误反映( A ) A 抽样误差得大小 B总体参数得波动大小 C 重复实验准确度得高低 D 数据得离散程度 11、最小二乘法就是指各实测点到回归直线得(C) A垂直距离得平方与最小 B垂直距离最小 C纵向距离得平方与最小D纵向距离最小 12、对含有两个随机变量得同一批资料,既作直线回归分析,又作直线相关分析。令对相关系数检验得t值为tr,对回归系数检验得t值为tb,二者之间具有什么关系?(C) A t r>t b B t r〈t b C t r= tb D二者大小关系不能肯定 13、设配对资料得变量值为x1与x2,则配对资料得秩与检验(D ) A分别按x1与x2从小到大编秩 B把x1与x2综合从小到大编秩 C把x1与x2综合按绝对值从小到大编秩 D把x1与x2得差数按绝对值从小到大编秩 14、四个样本率作比较,χ2>χ20、05,ν可认为( A ) A各总体率不同或不全相同 B各总体率均不相同 C各样本率均不相同D各样本率不同或不全相同 15、某学院抽样调查两个年级学生得乙型肝炎表面抗原,其中甲年级调查35人,阳性人数4人;乙年级调查40人,阳性人数8人。该资料宜选用得统计方法为( A ) A.四格表检验 B、四格表校正检验 C t检验 D U检验 16、为调查我国城市女婴出生体重:北方n1=5385,均数为3、08kg,标准差为0、53kg;南方n2=4896,均数为3、10kg,标准差为0、34kg,经统计学检验,p=0、0034〈0、01,这意味着( D )

生物医学统计学

统计学是应用概率论和数理统计的方法,研究数据的搜集、整理、分析与推断的学科,是认识世界的一种重要手段。 变量(variable):就是反映个体特征或属性的量.变量值(variable value):变量的观察结果或测量值。定量变量quantitative variable/数值变量numerical variable 定性变量qualitative variable/分类变量categorical variable 同质(homogeneity)是指被研究指标的影响因素相同。但在医学研究中,有些影响因素往往是难以控制的(如遗传、营养等),甚至是未知的。因此,在实际工作中只有相对的同质。 变异(variation):同质基础上的各观察单位间的差异称为变异。 总体:是根据研究目的所确定的同质观察对象的全体,或者说所有同质的某指标实测值的集合。样本:根据随机化的原则从总体中抽取有代表性的部分观察单位,其变量实测值构成样本。 参数(parameter):根据总体变量值统计计算出来的、描述总体特征的统计指标。统计量(statistic):根据样本变量值统计计算出来的、描述样本特征的统计指标。 误差:指测量值和真实值之间的差别 准确度(accuracy) :观察值与真值的接近程度,受系统误差的影响。可靠度(reliability):也称精密度(precision)或重复性(repeatability):是重复观察时观察值与其均值的接近程度,受随机误差的影响。 概率:是描述随机事件发生的可能性大小的一种度量,常用P表示。0≤P≤1 随机事件 P=1 必然事件P=0 不可能事件P≤0.05或P≤0.01为小概率事件 统计工作的基本步骤: 统计设计(研究对象,处理因素,统计分析),搜集资料(任务:遵循统计学原理,按照设计要求,采取必要措施得到准确可靠的原始资料。原则:及时、准确、完整。),整理资料(编码,将数据输入计算机;纠错改错、补漏等;根据研究目的将原始数据进行归纳、分组或计算),分析资料如何对数值变量进行统计描述。1频数表与频数分布图2集中趋势的统计描述3离散趋势的统计描述 相对数的概念包括率、构成比、相对比和动态数列,由于它是两个有联系的指标之比,因而叫作相对数。相对数应用中的注意事项1计算相对数的分母不易过小2防治概念混淆, 分析时不能以构成比代替率3对观察单位不等的几个率,不能直接相加求其平均率。4资料的对比应注意同质5对样本率的比较应遵循随机抽样,要作假设检验。 率:表示在一定条件下,发生某现象的观察单位数与可能发生某现象的观察单位数之比。 构成比表示某一现象内部各组成部分所占的比重或分布。特征1各组成部分的构成比之和为100% 2某一部分构成比增大或减小,必然使其它部分产生相应的变化。注意区别率和构成比虽然两者均为两个指标之比,但意义却完全不同。率反应了某项指标的平均强度或平均水平,它具有数值变量中平均数的含意,构成比表示某一现象内部各组成部分所占的比重或分布,不能反应该现象的平均强度或平均水平。 正态分布的概念若将各直条顶端的中点顺次连接起来,得到一条折线。当样本量n越来越大时,组段越分越细,此时直方渐进直条,这条折线就越来越接近于一条光滑的曲线(见图3.1),我们把这条呈中间高,两边低,左右基本对称的“钟型”曲线称为正态分布曲线,近似于数学上的正态分布(高斯分布; Gauss)。正态分布的特征1.集中性:正态曲线在横轴上方均数处最高2.对称性:以均数为中心,左右对称。3.正态分布的图形由均数和标准差两个参数决定。位置参数μ;变异度参数σ4. 正态分布曲线下的面积分布有一定规律:正态曲线与横轴所夹的面积为1(1.64,1.96,2.58)应用1. 制定医学参考值范围2. 估计频数分布3. 进行质量控制4.正态分布是许多统计方法的理论基础 二项分布在医学研究中,许多观察或试验的可能结果可以归结为二个相互排斥的结果。性质与特征⑴形态取决于π和n:当π接近0.5时,分布对称,π离

生物统计学考试试卷及答案

考试轮次:2017-2018学年第一学期期末考试试卷编号 考试课程:[120770] 生物统计与实验设计命题负责人曾汉元 适用对象:生物与食品工程学院生物科学专业2015级审查人签字 考核方式:上机考试试卷类型:A卷时量:150分钟总分:100分 注意:答案中要求保留必要的计算和推理过程,全部答案保存为一个Word文档,文件名 为学号最后两位数+姓名。考试结束后不要关机。提交答卷后,请到主机看一下是否提交成功。第1题12分,第3题5分,第10题13分,其余的题各10分。 1、下表为某大学96位男生的体重测定结果(单位:kg),请根据资料分别计算以下指标:(1)算术平均数;(2)几何平均数;(3)中位数;(4)众数;(5)极差;(6)方差;(7)标准差;(8)变异系数;(9)标准误。(10) 绘制各体重分布柱形图。 66 69 64 65 64 66 70 64 59 67 66 66 60 66 65 61 61 66 67 68 62 63 70 65 64 66 68 64 63 60 60 66 65 61 61 66 59 66 65 63 58 66 66 68 64 65 71 61 62 69 70 68 65 63 66 65 67 66 74 64 70 64 59 67 66 66 60 66 65 61 61 66 67 68 62 63 70 65 64 66 68 64 63 60 60 66 65 61 61 66 59 66 65 63 58 66 2、已知1000株水稻的株高服从正态分布N(97,3 2),求: (1)株高在94cm以上的概率? (2)株高在90~99cm之间的概率? (3)株高在多少cm之间的中间概率占全体的99%? 3.已知某批30个小麦样品的平均蛋白质含量为14.5%,σ=2.50%,试进行95%置信度下的蛋白质含量的区间估计和点估计。 4、有一大麦杂交组合,F2代的芒性状表型有钩芒、长芒和短芒三种,观察计得其株数依次分别为348、11 5、157,试检验其比率是否符合9:3:4的理论比率。 5、某医院用某种中药治疗7例再生障碍性贫血患者,现将血红蛋白含量(g/L)变化的数据列在下面,假定资料满足各种假设测验所要求的前提条件,问:治疗前后之间的差别有无显著性意义? 患者编号 1 2 3 4 5 6 7 治疗前血红蛋白含量65 75 50 76 65 72 68 治疗后血红蛋白含量82 112 125 85 80 105 128

医学统计学试题及答案

《医学统计学》课程考试试题(A卷) (评卷总分:100分,考试时间:120分钟,考核方式:□开卷 V 闭卷) 一、选择题(每题1分,共62分,只选一个正确答案) 1、医学科研设计包括( D ) A.物力和财力设计 B.数据与方法设计 C.理论和资料设计 D.专业与统计设计 2、医学统计资料的分析包括( D ) A.数据分析与结果分析 B.资料分析与统计分析 C.变量分析与变量值分析 D.统计描述与统计推断 3、医学资料的同质性指的是( D ) A.个体之间没有差异 B.对比组间没有差异 C.变量值之间没有差异 D.研究事物存在的共性 4、离散型定量变量的测量值指的是( D ) A.可取某区间内的任何值 B、可取某区间内的个别值 C.测量值只取小数的情况 D.测量值只取整数的情况5、变量的观察结果表现为相互对立的两种情况是( A ) A.无序二分类变量 B、定量变量. C.等级变量 D.无序多分类变量 6、计量资料编制频数表时,组距的选择( D ) A.越大越好 B.越小越好 C.与变量值的个数无关 D.与变量值的个数有关

7、比较一组男大学生白细胞数与血红蛋白含量的变异度应选( D )A.极差 B.方差 C.标准差 D.变异系数 8、若要用方差描述一组资料的离散趋势,对资料的要求是( D )A.未知分布类型的资料 B.等级资料 C.呈倍数关系的资料 D.正态分布资料 9、频数分布两端没有超限值时,描述其集中趋势的指标也可用( D ) A.标准差 B.几何均数 C.相关系数 D.中位数 10、医学统计工作的步骤是( A ) A、研究设计、收集资料、整理资料和分析资料 B、计量资料、计数资料、等级资料和统计推断 C、研究设计、统计分析,统计描述和统计推断 D、选择对象、计算均数、参数估计和假设检验 11、下列关于变异系数的说法,其正确的是( A ) A.没有度量衡单位的系数 B.描述多组资料的离散趋势 C.其度量衡单位与变量值的度量衡单位一致 D、其度量衡单位与方差的度量衡单位一致 12、10名食物中毒的病人潜伏时间(小时)分别为3, 4,5,3,2,5.5,2.5,6,6.5, 7,其中位数是( B ) A.4 B.4.5 C.3 D.2 13、调查一组正常成年女性的血红蛋白,如果资料属于正态分布,描

2017年人民大学统计学生物医学统计学考研参考书

2017年人民大学统计学生物医学统计学考研参考书 统计学:生物医学统计学 风险管理与精算学: 《概率论》,李贤平,高等教育出版社 《数理统计基础》,陆璇,清华大学出版社 《概率论与数理统计》,茆诗松、周纪芗,中国统计出版社 《应用回归分析》,何晓群等编,中国人民大学出版社 《统计学》,贾俊平等编,中国人民大学出版社 概率论与数理统计: 《数学分析》上、下册复旦大学数学系陈传璋、金福临等编高等教育出版社《高等代数》北京大学出版社 《概率论》李贤平高等教育出版社 《数理统计基础》陆璇清华大学出版社 《概率论与数理统计》茆诗松、周纪芗中国统计出版社 流行病与卫生统计学: 《流行病学》詹思延人民卫生出版社 《卫生统计学》方积乾、徐勇勇、陈峰编人民卫生出版社 (专业学位)应用统计: 《统计学》第四版贾俊平中国人民大学出版社配套习题 《应用回归分析》何晓群等编中国人民大学出版社 《多元回归分析》何晓群等编中国人民大学出版社 《抽样技术》金勇进等编中国人民大学出版社 《时间序列分析》易丹辉中国人民大学出版社 《概率论与数理统计》第三版刘次华高等教育出版社配套习题 2017年新祥旭考研全程复习计划

一、英语全程规划 基础阶段(3月-6月) 1.学习目标:完成至少1轮的单词背诵,巩固语法基础 2.阶段重点:英语单词、语法 3.复习建议: (1)英语每天抽空背背单词,建议时长0.5-1h;不管是用单词软件还是传统词书,不管是用词根词缀还是死记硬背,最重要的是每天都背。积累到某一天时,你会发现好多文章都看得懂了。 (2)英语基础不牢的童鞋,应该花点时间复习语法。语法知识能帮助你在读文章和翻译时更加流畅、对文章意思把握得更准确。 (3)多看看新闻,关注时事热点。近年来的英语作文和阅读都是涉及到热点话题的。 (4)不建议大家在这个阶段做习题集。 强化阶段(7月-10月) 1.学习目标:熟读并详细分析近10年真题 2.阶段重点:真题真题真题,重点是阅读 3.复习建议: (1)单词记忆每天进行,不间断。 (2)定时做真题阅读,做完后详细分析。 ①利用早上整段的时间做真题(作文可以不写),不要查单词,完全自己做,然后对答案,之后看一下答案分析。 ②每天分析2-3篇,分析包括:第一遍分析正确选项,第二遍分析错误选项的设置,第三遍在原位中找对应的句子,是每个选项对应的句子哟,分析为什么这样出题,第四遍,了解文章的背景,作者的情感。 ③此阶段不建议专门建立单词笔记本,重要的单词在分析时顺便查一下就好。 ④时间比较充足的童鞋可以全文翻译阅读原文。 (3)完成阅读后,用同样的方法完型、翻译和新题型。完型和新题型这两类题型不用全文

常用医学统计学方法汇总

选择合适的统计学方法 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两

生物统计学期末复习题库及答案

第一章 填空 1.变量按其性质可以分为(连续)变量和(非连续)变量。 2.样本统计数是总体(参数)的估计值。 3.生物统计学是研究生命过程中以样本来推断(总体)的一门学科。 4.生物统计学的基本内容包括(试验设计)和(统计分析)两大部分。 5.生物统计学的发展过程经历了(古典记录统计学)、(近代描述统计学)和(现代推断统计学)3个阶段。 6.生物学研究中,一般将样本容量(n ≥30)称为大样本。 7.试验误差可以分为(随机误差)和(系统误差)两类。 判断 1.对于有限总体不必用统计推断方法。(×) 2.资料的精确性高,其准确性也一定高。(×) 3.在试验设计中,随机误差只能减小,而不能完全消除。(∨) 4.统计学上的试验误差,通常指随机误差。(∨) 第二章 填空 1.资料按生物的性状特征可分为(数量性状资料)变量和(质量性状资料)变量。 2. 直方图适合于表示(连续变量)资料的次数分布。 3.变量的分布具有两个明显基本特征,即(集中性)和(离散性)。 4.反映变量集中性的特征数是(平均数),反映变量离散性的特征数是(变异数)。 5.样本标准差的计算公式s=( )。 判断题 1. 计数资料也称连续性变量资料,计量资料也称非连续性变量资料。(×) 2. 条形图和多边形图均适合于表示计数资料的次数分布。(×) 3. 离均差平方和为最小。(∨) 4. 资料中出现最多的那个观测值或最多一组的中点值,称为众数。(∨) 5. 变异系数是样本变量的绝对变异量。(×) 单项选择 1. 下列变量中属于非连续性变量的是( C ). A. 身高 B.体重 C.血型 D.血压 2. 对某鱼塘不同年龄鱼的尾数进行统计分析,可做成( A )图来表示. A. 条形 B.直方 C.多边形 D.折线 3. 关于平均数,下列说法正确的是( B ). A. 正态分布的算术平均数和几何平均数相等. B. 正态分布的算术平均数和中位数相等. C. 正态分布的中位数和几何平均数相等. D. 正态分布的算术平均数、中位数、几何平均数均相等。 4. 如果对各观测值加上一个常数a ,其标准差( D )。 A. 扩大√a 倍 B.扩大a 倍 C.扩大a 2倍 D.不变 5. 比较大学生和幼儿园孩子身高的变异度,应采用的指标是( C )。 A. 标准差 B.方差 C.变异系数 D.平均数 第三章 12 2--∑∑n n x x )(

生物医学研究的统计学方法_课后习题答案 2014 主编 方积乾

思考与练习参考答案 第1章绪论 一、选择题 1. 研究中的基本单位是指( D)。 A.样本 B. 全部对象C.影响因素 D. 个体 E. 总体 2. 从总体中抽取样本的目的是( B )。 A.研究样本统计量 B. 由样本统计量推断总体参数 C.研究典型案例 D. 研究总体统计量E. 计算统计指标 3. 参数是指( B )。 A.参与个体数 B. 描述总体特征的统计指标 C.描述样本特征的统计指标 D. 样本的总和 E. 参与变量数 4. 下列资料属名义变量的是(E)。 A.白细胞计数B.住院天数 C.门急诊就诊人数D.患者的病情分级 E. ABO血型 5.关于随机误差下列不正确的是(C)。 A.受测量精密度限制B.无方向性 C. 也称为偏倚 D.不可避免 E. 增加样本含量可降低其大小 二、名称解释(答案略) 1. 变量与随机变量 2. 同质与变异 3. 总体与样本 4. 参数与统计量 5. 误差 6. 随机事件 7. 频率与概率 三、思考题 1. 生物统计学与其他统计学有什么区别和联系? 答:统计学可细分为数理统计学、经济统计学、生物统计学、卫生统计学、医学统计学等,都是关于数据的学问,是从数据中提取信息、知识的一门科学与艺术。而生物统计学是统计学原理与方法应用于生物学、医学的一门科学,与医学统计学和卫生统计学很相似,其

不同之处在于医学统计学侧重于介绍医学研究中的统计学原理与方法,而卫生统计学更侧重于介绍社会、人群健康研究中的统计学原理与方法。 2. 某年级甲班、乙班各有男生50人。从两个班各抽取10人测量身高,并求其平均身高。如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什么? 答:不能。因为,从甲、乙两班分别抽取的10人,测量其身高,得到的分别是甲、乙两班的一个样本。样本的平均身高只是甲、乙两班所有同学平均身高的一个点估计值。即使是按随机化原则进行抽样,由于存在抽样误差,样本均数与总体均数一般很难恰好相等。因此,不能仅凭两个样本均数高低就作出两总体均数熟高熟低的判断,而应通过统计分析,进行统计推断,才能作出判断。 3. 某地区有10万个7岁发育正常的男孩,为了研究这些7岁发育正常男孩的身高和体重,在该人群中随机抽取200个7岁发育正常的男孩,测量他们的身高和体重,请回答下列问题。 (1) 该研究中的总体是什么? 答:某地区10万个7岁发育正常的男孩。 (2) 该研究中的身高总体均数的意义是什么? 答:身高总体均数的意义是: 10万个7岁发育正常的男孩的平均身高。 (3) 该研究中的体重总体均数的意义是什么? 答:体重总体均数的意义是: 10万个7岁发育正常的男孩的平均体重 (4) 该研究中的总体均数与总体是什么关系? 答:总体均数是反映总体的统计学特征的指标。 (5)该研究中的样本是什么? 答:该研究中的样本是:随机抽取的200个7岁发育正常的男孩。 (宇传华方积乾) 第2章统计描述 思考与练习参考答案 一、最佳选择题 1. 编制频数表时错误的作法是( E )。 A. 用最大值减去最小值求全距 B. 组距常取等组距,一般分为10~15组 C. 第一个组段须包括最小值 D. 最后一个组段须包括最大值

生物统计学试题及答案

一、填空 变量按其性质可以分为连续变量和非连续变量。 样本统计数是总体参数的估计量。 生物统计学是研究生命过程中以样本来推断总体的一门学科。 生物统计学的基本内容包括试验设计、统计分析两大部分。 统计学的发展过程经历了古典记录统计学、近代描述统计学、现代推断统计学3 个阶段。 生物学研究中,一般将样本容量n >30称为大样本。 试验误差可以分为随机误差、系统误差两类。 资料按生物的性状特征可分为数量性状资料变量和质量性状资料变量。 直方图适合于表示连续变量资料的次数分布。 变量的分布具有两个明显基本特征,即集中性和离散性。 反映变量集中性的特征数是平均数,反映变量离散性的特征数是变异数。 林星s= 样本标准差的计算公式s= 如果事件A和事件B为独立事件,则事件A与事件B同时发生地概率P (AB) = P(A)*P(B)。 二项分布的形状是由n和p两个参数决定的。 正态分布曲线上,卩确定曲线在x轴上的中心位置,c确定曲线的展开程度。样本平均数的标准误等于c Wi。 t分布曲线和正态分布曲线相比,顶部偏低,尾部偏高。

统计推断主要包括假设检验和参数估计两个方面。

参数估计包括点估计和区间估计假设检验首先要对总体提出假设,一般应作两个假设,一个是无效假设,一个是备择假设。 对一个大样本的平均数来说,一般将接受区和否定区的两个临界值写作卩-U a^x_ 卩+U a c x 在频率的假设检验中,当np或nq v30时,需进行连续性矫正。 2检验主要有3种用途:一个样本方差的同质性检验、适应性检验和独立性检验。 2检验中,在自由度df = (1)时,需要进行连续性矫正,其矫正的2 = ( p85 )。 2分布是连续型资料的分布,其取值区间为[0.+ %)。 猪的毛色受一对等位基因控制,检验两个纯合亲本的F2代性状分离比是否符合 孟德尔第一遗传规律应采用适应性检验法。 独立性检验的形式有多种,常利用列联表进行检验。 根据对处理效应的不同假定,方差分析中的数学模型可以分为固定模型、随机模型和混合模型混合模型3类。 在进行两因素或多因素试验时,通常应该设置重复,以正确估计试验误差,研究因素间的交互作用。 在方差分析中,对缺失数据进行弥补时,应使补上来数据后,误差平方和最小。方差分析必须满足正态性、可加性、方差同质性3个基本假定。 如果样本资料不符合方差分析的基本假定,则需要对其进行数据转换,常用的数据转换方法有平方根转换、对数转换、正反弦转换等。 相关系数的取值范围是[-1,1]O

医学统计学部分试题及答案解析

第一章绪论 1.下列关于概率的说法,错误的是 A. 通常用P表示 B. 大小在0%与100%之间 C. 某事件发生的频率即概率 D. 在实际工作中,概率是难以获得的 E. 某事件发生的概率很小,在单次研究或观察中时,称为小概率事件 [参考答案] C. 某事件发生的频率即概率 2.下列有关个人基本信息的指标中,属于有序分类变量的是 A. 学历 B. 民族 C. 血型 D. 职业 E. 身高 [参考答案] A. 学历3.下列有关个人基本信息的指标,其中属于定量变量的是 A. 性别 B. 民族 C. 职业 D. 血型 E. 身高 [参考答案] E. 身高 4.下列关于总体和样本的说法,不正确的是 A. 个体间的同质性是构成总体的必备条件 B. 总体是根据研究目的所确定的观察单位的集合 C. 总体通常有无限总体和有限总体之分 D. 一般而言,参数难以测定,仅能根据样本估计 E. 从总体中抽取的样本一定能代表该总体

[参考答案] E. 从总体中抽取的样本一定能代表该总体 5.在有关2007年成都市居民糖尿病患病率的调查研究中,总体是 A. 所有糖尿病患者 B. 所有成都市居民 C. 2007年所有成都市居民 D. 2007年成都市居民中的糖尿病患者 E. 2007年成都市居民中的非糖尿病患者[参考答案] C. 2007年所有成都市居民 6.简述小概率事件原理。 答:当某事件发生的概率很小,习惯上认为小于或等于0.05时,统计学上称该事件为小概率事件,其含义是该事件发生的可能性很小,进而认为它在一次抽样中不可能发生,这就是所谓小概率事件原理,它是进行统计推断的重要基础。 7.举例说明参数和统计量的概念答:某项研究通常想知道关于总体的某些数值特征,这些数值特征称为参数,如整个城市的高血压患病率。根据样本算得的某些数值特征称为统计量,如根据几百人的抽样调查数据所算得的样本人群高血压患病率。统计量是研究人员能够知道的,而参数是他们想知道的。一般情况下,这些参数是难以测定的,仅能根据样本估计。显然,只有当样本代表了总体时,根据样本统计量估计的总体参数才是合理的 8.举例说明总体和样本的概念 答:研究人员通常需要了解和研究某一类个体,这个类就是总体。总体是根据研究目的所确定的观察单位的集合,通常有无限总体和有限总体之分,前者指总体中的个体数是无限的,如研究药物疗效,某病患者就是无限总体,后者指总体中的个体数是有限的,它是指特定时间、空间中有限个研究个体。但是,研究整个总体一般并不实际,通常能研究的只是它的一部分,这个部分就是样本。例如在一项关于2007

医学统计学试题和答案.doc

医学统计学试题和答案

(一)单项选择题 3.抽样的目的是( b )。 A.研究样本统计量 B. 由样本统计量推断总体参数 D. 研究总体统计量 C.研究典型案例研究误差 4.参数是指( b )。 A.参与个体数 B. 总体的统计指标 C.样本的统计指标 D. 样本的总和 5.关于随机抽样,下列那一项说法是正确的(a)。 A.抽样时应使得总体中的每一个个体都有同等的机会被抽取 B.研究者在抽样时应精心挑选个体,以使样本更能代表总体 C.随机抽样即随意抽取个体 D.为确保样本具有更好的代表性,样本量应越大越好 6.各观察值均加(或减)同一数后( b )。 A. 均数不变,标准差改变 B. 均数改变,标准差不变 C. 两者均不变 D. 两者均改变 7. 比较身高和体重两组数据变异度大小宜采用(a )。 A. 变异系数 B. 差 C. 极差 D.标准差 8. 以下指标中(d)可用来描述计量资料的离散程度。 A. 算术均数 B. 几何均数 C. 中位数 D.标准差 9. 偏态分布宜用(c)描述其分布的集中趋势。 A. 算术均数 B. 标准差 C. 中位数 D. 四分位数间距 10. 各观察值同乘以一个不等于 0 的常数后,(b)不变。 A.算术均数 B. 标准差 C. 几何均数 D.中位数 11.( a)分布的资料,均数等于中位数。 A. 对称 B. 左偏态 C. 右偏态 D.偏态 12.对数正态分布是一种( c )分布。 A. 正态 B. 近似正态 C. 左偏态 D.右偏态 13. 最小组段无下限或最大组段无上限的频数分布资料,可用( c )描述其集中趋势。 A. 均数 B. 标准差 C. 中位数 D.四分位数间距 14.( c)小,表示用该样本均数估计总体均数的可靠性大。 A. 变异系数 B. 标准差 C. 标准误 D. 极差 15. 血清学滴度资料最常用来表示其平均水平的指标是(c )。 A. 算术平均数 B. 中位数 C. 几何均数 D. 平均数

《生物统计学》试卷与参考答案

《生物统计学》试卷 一.判断题(正确的打“√”错误的打“×”,每题2分,共10分) 1. 分组时,组距和组数成反比。( ) 2. 粮食总产量属于离散型数据。 ( ) 3. 样本标准差的数学期望是总体标准差。 ( ) 4. F 分布的概率密度曲线是对称曲线。 ( ) 5. 在配对数据资料用t 检验比较时,若对数n=13,则查t 表的自由度为12。 ( ) 二. 选择题(每题2分,共10分) 1. x ~N (1,9),x 1,x 2,…,x 9是X 的样本,则有( ) A. 31 -x ~N (0,1) B.11-x ~N (0,1) C.91-x ~N (0,1) D.以上答案均不正确 2. 假定我国和美国的居民年龄的方差相同。现在各自用重复抽样方法抽取本国人口的1% 计算平均年龄,则平均年龄的标准误( ) A.两者相等 B.前者比后者大 C.前者比后者小 D.不能确定大小 3. 设容量为16人的简单随机样本,平均完成工作需时13分钟。已知总体标准差为3分钟。若想对完成工作所需时间总体构造一个90%置信区间,则( ) A.应用标准正态概率表查出u 值 B.应用t 分布表查出t 值 C.应用卡方分布表查出卡方值 D.应用F 分布表查出F 值 4. 1-α是( ) A.置信限 B.置信区间 C.置信距 D.置信水平 5. 如检验k (k=3)个样本方差s i 2 (i=1,2,3)是否来源于方差相等的总体,这种检验在统计上称为( )。 A.方差的齐性检验 B. t 检验 C. F 检验 D. u 检验 三. 填空题(每题1分,共10分) 1、统计学的3个基本特点: 、 、 。 2、统计资料的特点: 、 、 。 3、统计资料可分为 、和 、两类,后者又可分为 、和 。 4、统计表由 、 、 、 、 组成,通常分为 和 。 5、显著性检验又称 ,是统计学的核心内容。 6、随机实验的每一个可能的结果称为 。 7、通常把α称为显著性水平或置信系数,常用显著性水平有两个,它们是 和 。 8、数据资料按其性质不同各分为 资料和 资料两种。 9、小概率事件原理判定的基础是 。 10、试验设计的三大基本原则是设置重复、 和 。 四、名词解释(每题4分,共40分) 1、样本: 2、随机抽样: 3、总体: 4、随机误差: 5、参数: 6、概率事件原理: 7、平均数: 8、准确性: 密 线 封 层次 报读学校 专业 姓名

医学统计学练习题与答案

一、单向选择题 1. 医学统计学研究的对象是 E.有变异的医学事件 2. 用样本推论总体,具有代表性的样本指的是E.依照随机原则抽取总体中的部分个体 3. 下列观测结果属于等级资料的是 D.病情程度 4. 随机误差指的是 E. 由偶然因素引起的误差 5. 收集资料不可避免的误差是 A.随机误差 1.某医学资料数据大的一端没有确定数值,描述其集中趋势适用的统计指标是 A. 中位数 2. 算术均数与中位数相比,其特点是 B.能充分利用数据的信息 3. 一组原始数据呈正偏态分布,其数据的特点是 D.数值分布偏向较小一侧 4. 将一组计量资料整理成频数表的主要目的是E.提供数据和描述数据的分布特征 1. 变异系数主要用于 A .比较不同计量指标的变异程度 2. 对于近似正态分布的资料,描述其变异程度应选用的指标是E. 标准差 3.某项指标95%医学参考值范围表示的是D.在“正常”总体中有95%的人在此范围 4.应用百分位数法估计参考值范围的条件是B .数据服从偏态分布 5.已知动脉硬化患者载脂蛋白B 的含量(mg/dl)呈明显偏态分布,描述其个体差异的统计指标应使用 E .四分位数间距 1.样本均数的标准误越小说明 E.由样本均数估计总体均数的可靠性越大 2. 抽样误差产生的原因是D.个体差异 3.对于正偏态分布的的总体,当样本含量足够大时,样本均数的分布近似为C.正态分布 4. 假设检验的目的是 D.检验总体参数是否不同 5. 根据样本资料算得健康成人白细胞计数的95%可信区间为7.2×109 /L ~9.1×109 /L ,其含义是 E.该区间包含总体均数的可能性为95% 1. 两样本均数比较,检验结果05.0 P 说明 D.不支持两总体有差别的结论 2. 由两样本均数的差别推断两总体均数的差别, 其差别有统计学意义是指 E. 有理由认为两总体均数有差别 3. 两样本均数比较,差别具有统计学意义时,P 值越小说明 D.越有理由认为两总体均数不同 4. 减少假设检验的Ⅱ类误差,应该使用的方法是 E.增加样本含量 5.两样本均数比较的t 检验和u 检验的主要差别是B.u 检验要求大样本资料

哈佛大学生物医学信息学专业详解.doc

哈佛大学生物医学信息学专业详解 校名称: 美国哈佛大学(剑桥) Harvard University (Cambridge) 所在位置:美国,86 Brattle Street Cambridge, MA 02138

创建时间:1636年 QS排名:1 USNEWS排名:2 学费:39849 录取率:0.058 学校中文网址:https://meiguo./school/2139/

哈佛大学生物医学信息学硕士专业由哈佛医学院生物医学信息学系提供,它提供给有志于从事对数据科学技能有很高要求的生物医学行业的学生。学生有机会向整个哈佛大学的专家们学习。毕业生对生物医学信息学领域的基础知识和原理有充分的理解,有能力将众多方法和技能运用于选定的行业。 以下是哈佛大学生物医学信息学专业介绍,带你了解。 1. 学位要求 哈佛医学院的生物医学信息学专业提供两条入学的路径。对于持有学士学位(48个学分)的学生,它要求具备优秀的定量分析能力。 对于持有博士学位或者注册医学博士(MD)项目(36个学分)的学生,它要求: a. 持有生物医学学位,并认可信息学与数据科学在个人研究中的相关性。 b. 有意向拿到临床信息学进修资格。 c.

有意向在医学实践中挖掘信息学的重要意义。 针对以上两类学生的课程都提供知识框架,便于将系统的定量方法熟练地运用到自己的领域。项目包含实践拓展训练营、一系列设计定量合生物医学学科的基础课程,以及精准施药、数据科学、数据可视化等新兴领域的课程。 所有学生都需要完成一个顶石研究项目,参与纵向的系列研讨会。 2. 入学要求 生物医学信息学硕士新生必须具备相关专业的本科知识,比如生物信息学、数学、计算机科学、统计学、物理学、机械工程、化学工程。必须具备一定的生物统计学基础,比如假设检验、线性回归、分类。必须了解分类器(classifier),分类器的检测及诊断。 此外,必须具备一定的程序设计和计算机科学知识,至少有一门程序语言经历(包括算法、变量、控制结构相关知识),对R编程语言有基本的认识,了解文件管理、数据解析、基础数据库原理等数据处理知识。 3. 课程

生物统计学应用试题

·《生物统计学》应用题试题库 生物统计学应用试题1 姓名: 学号: 单位: 得分: 一. 某省生物会考满分为100分,平均分71分,标准差12.8分,现定前15%为A 等,次25%为B等,问A等、B等的最低分数线各是多少分? 二. 为了验证某种“增高”药物的效果,现取某班级男生随机分组后进行对照实 三. 四.

生物统计学应用试题2 姓名: 学号: 单位: 得分: 一.某省生物会考满分为100分,平均分71分,标准差12.8分,现定前15%为A等,某考生考了88分,问该考生是否达到A等? 二.为了检验长跑的体锻效果,某班级12名男生长跑一个月进行前后对比实 三.

生物统计学应用试题3 姓名: 学号: 单位: 得分: 一.某省生物摸底考满分为120分,平均分86分,标准差14.8分,现定前後15%为优和差,问优和差的分数线是多少? 二.为了检验某减肥药的减肥效果,12名受试者一个月进行前后对比实验, 三. 理。

生物统计学用于试题4 姓名: 学号: 单位: 得分: 以上,某学生的 一. 美国大学规定獲得獎學金的学生的成績百分位需在P 85 CEEB=620分,问该生能否獲得獎學金? (注:CEEB=100Z+500) 二. 为了检验游泳的体锻效果,某班级12名男生游泳鍛煉一个月进行前后对比 三. 四.

生物统计学应用试题5 姓名: 学号: 单位: 得分: 一.某省生物会考满分为100分,平均分71分,标准差12.8分,现定前15%为A等, 次25%为B等,某考生考了72分,问该考生是否达到B等? 二.为了检验长跑的体锻效果,某班级12名男生长跑一个月进行前后对比实验, 三. 四.

(完整word版)医学统计学试题和答案

(一)单项选择题 3.抽样的目的是(b )。 A.研究样本统计量 B. 由样本统计量推断总体参数 C.研究典型案例研究误差 D. 研究总体统计量 4.参数是指(b )。 A.参与个体数 B. 总体的统计指标 C.样本的统计指标 D. 样本的总和 5.关于随机抽样,下列那一项说法是正确的( a )。 A.抽样时应使得总体中的每一个个体都有同等的机会被抽取 B.研究者在抽样时应精心挑选个体,以使样本更能代表总体 C.随机抽样即随意抽取个体 D.为确保样本具有更好的代表性,样本量应越大越好 6.各观察值均加(或减)同一数后( b )。 A.均数不变,标准差改变 B.均数改变,标准差不变 C.两者均不变 D.两者均改变 7.比较身高和体重两组数据变异度大小宜采用( a )。 A.变异系数 B.差 C.极差 D.标准差 8.以下指标中(d)可用来描述计量资料的离散程度。 A.算术均数 B.几何均数 C.中位数 D.标准差 9.偏态分布宜用(c)描述其分布的集中趋势。 A.算术均数 B.标准差 C.中位数 D.四分位数间距 10.各观察值同乘以一个不等于0的常数后,(b)不变。 A.算术均数 B.标准差 C.几何均数 D.中位数 11.( a )分布的资料,均数等于中位数。 A.对称 B.左偏态 C.右偏态 D.偏态 12.对数正态分布是一种( c )分布。 A.正态 B.近似正态 C.左偏态 D.右偏态 13.最小组段无下限或最大组段无上限的频数分布资料,可用( c )描述其集中趋势。 A.均数 B.标准差 C.中位数 D.四分位数间距 14.( c )小,表示用该样本均数估计总体均数的可靠性大。 A. 变异系数 B.标准差 C. 标准误 D.极差 15.血清学滴度资料最常用来表示其平均水平的指标是( c )。 A. 算术平均数 B.中位数 C.几何均数 D. 平均数

相关主题
文本预览
相关文档 最新文档