当前位置:文档之家› 南方医科大学·医学统计学·简答题总结

南方医科大学·医学统计学·简答题总结

南方医科大学·医学统计学·简答题总结
南方医科大学·医学统计学·简答题总结

第四章·资料分布特征与描述统计量

1.统计描述主要从哪几个方面发现和描述数据特征?

统计描述可以从样本含量n,集中趋势(算术均数、几何均数、中位数),离散趋势(极差、四分位数间距、方差和标准差)以及通过绘制统计图,编制统计表来发现和描述数据特征。

2.频数表的主要用途有哪些?

(1)描述频数分布的类型;

(2)描述频数分布的特征;

(3)便于发现一些特大或特小的可疑值;

(4)便于进一步做统计分析和处理。

3.算数均数、几何均数和中位数各有什么适用条件?

算术均数主要适合描述对称分布资料的集中位置;

几何均数适合描述当资料呈倍数关系或对数正态分布时的集中趋势;

当大部分观测值比较集中,少数观测值偏向一侧时,或资料分布情况不清楚时,或数据的最大值(最小值)无准确测量数据时,宜用中位数来表示其平均水平。

4.标准差有何用途?

(1)表示变量分布的离散程度。两组资料(总体或样本)均数相近,度量单位相同的条件下,标准差较大,说明变量值的变异度较大,即各变量值较分散(较远离均数),因而均数的代表性较差;反之标准差较小,说明变异度

x 来较小,即各变量值较集中在均数周围,因而均数对各变量值的代表性较好,在用数字作统计描述时常用符号s

反映均数代表性的好坏。

(2)可用来计算变异系数。当两组资料单位不同,或单位相同,均数相差较大时,不能直接用标准差比较它们的变异程度,须用变异系数进行比较。

(3)结合均数描述正态分布的特征,并利用正态曲线下面积分布规律,来计算医学上各种生化、生理的参考值范围。

(4)在单纯随机抽样调查中,是计量资料估计样本大小的不可缺的重要依据之一。

(5)可用来计算抽样误差的大小。

5.变异系数与标准差有何异同?

同:变异系数与标准差都可反映数据的变异度大小,

异:标准差是一组同质数据间变异度大小的量度指标,它带有单位,因而不同单位的数据间的变异度大小不可用标准

差作比较;而变异系数是一种不带单位的反映变异度大小的相对数值,因而它可对不同单位数据间的变异度大小

作比较。可以说,标准差是反映数据内部变异度大小的指标,变异系数是用来比较不同单位数据间变异度大小的一个指标,所以在应用时要注意它们的区别。

6.应用比例/频率/率应注意些什么?

①应用相对数对比分析时,要考虑资料是否具有可比性。所谓可比性,通常是指两个指标的同质范围,内容、时间、条件和方法等方面的齐同性,一般要求除了被研究的因素之外,其余可能影响指标的重要因素应控制在齐同的条件下。如一般发病率的计算,分母是某地区的平均人口数,这个数值基本上是稳定的,而分子是发病人数,它与时间的长短有着密切关系,观察时间越长,发病的例数就积累增多。一年的发病例数就是各月发病累积的总和,因此年发病率的水平就高于月发病率。所以计算这类相对数时,必须具体说明时期。不同时间长短的发病率就不能互相比较。

②计算相对数时,分母不宜过小。一般来说观察单位足够多时,计算的相对数比较稳定,能够正确反映实际情况,例如用某药治疗4个病例有3个痊愈,按此得治愈率75%的结论就不合适。又如某病只有2个病例,死去1例,就此说病死率是50%,是不切实际的,在例数少是,还是以绝对数表示较好。

③对观察单位数不等的几个率,不能直接相加求其平均。由于原来计算各个率的分母和分子的绝对数值大小不同,因而它们在总体中所占的比重不同,因此要以总的绝对数值为依据来计算平均率(或总率)。例如,某医院四个科室的病死率(%)分别为6.43,2.03, 0.12, 3.79则这四个科室的平均率应为四个科室的病人总数除四个科室的病人死亡人数。而不能将(6.43+2.03+0.12+3.79)/4=3.09%,这样计算出的平均病死率是错误的。

④分析时不能以结构相对数的构成比代替强度相对数的率。率说明事物发生的频率,构成比说明某部分占总体的比重。彼此计算不同、性质不同,说明的问题也不同,不能互相混淆,否则将导致错误的结论。

⑤样本率之间的比较由于存在着抽样误差,一定要作假设检验。

7.简述统计表的主要结构。

(1)标题:表的标题应位于表的上方,不可过于简略,也不能过于烦琐,要用一句精练的语言表明主要内容,必要时注明资料的时间和地点。

(2)标目:有横标目、纵标目及总标目之分。横标目位于表的左侧,纵标目位于表的上端,必要时,纵标目可以冠以总标目。

(3)线条:统计表中的线条应尽量减少,最基本的线有三条,即顶线、底线和纵标目与表体之间的分隔线。如需合计,各组数字与“合计”数字之间也要有分隔线。

(4)数字:表内一律采用阿拉伯数字。同一指标小数位要一致,当数字暂缺或无数字时,可用“…”和“—”表示。

8.简述统计图的主要结构。

(1)标题:统计图都应有标题,其要求与统计表的标题一致。

(2)图域:除圆图外,图域通常是个矩形,其长宽之比一般要求为7 : 5或5 : 7,此图形较美观。 (3)标目:统计图的纵横两轴应有标目,即纵标目和横标目。

(4)尺度:纵轴尺度自下而上,横轴尺度自左而右,一律由小到大,同时刻度要适中,不要过松或过密。 (5)图例:表示两种或几种事物时,要用图例说明。

&变异系数的用途是什么?

比较单位不同或单位相同、均数相差较大的两组资料的变异程度。

&常用的相对数有哪几种?简述各种相对数指标的含义,计算方法及特点。 有率、构成比、相对比三种。

率:含义:某现象实际发生的例数与可能发生的总例数之比,说明某现象发生的频率或强度。

特点:说明某现象发生的强度。 计算公式: 比例基数计

所有观测结果的频数合的频数

观察结果中某现象发生比例?=

构成比:含义:事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占

的比重或分布,通常以100为比例基数,又称百分比。

特点为:①一组构成比的总和应等于100%,即各个分子的总和等于分母;

②各构成部分之间是相互影响的,某一部分比重的变化受到两方面因素的影响,其一是这个部分 自身数值的变化,其二是受其它部分数值变化的影响。

计算公式: P i =

%100?个类别的总频数

观察结果中个类别的频数

观察结果中第k i (观察值有k 个类别(k>2),频数分布表妹个类别

频率基座P 1,P 2,P 3,P 4···P i )

相对比:含义:是两个有关指标之比,说明两指标间的比例关系。

特点:两个指标可以是性质相同,也可以是性质不同;两个指标可以是绝对数、相对数或平均数。 计算公式:相对比=指标

指标

B A

&以实例说明为什么不能以构成比代替率?

率和构成比所说明的问题不同,因而绝不能以构成比代率。构成比只能说明各组成部分的比重或分布,而不能说明某现象发生的频率或强度。

例如:以男性各年龄组高血压分布为例,50~60岁年龄组的高血压病例占52.24%,所占比重最大,60~岁组则只占到6.74%。这是因为60~岁以上受检人数少,造成患病数低于50~60岁组,因而构成比相对较低。但不能认为年龄在50~60岁组的高血压患病率最严重,而60岁以上反而有所减轻。若要比较高血压的患病率,应该计算患病率指标。

&在统计描述中,统计表和统计图分别起着什么作用?

统计表展示统计数据的结构、分布和主要特征,便于在进一步分析中选择和计算统计量。在学术报告和论文中常用统计表代替冗长的文字叙述,表达主要的研究结果、数据、指标和统计量,方便读者作比较和掌握主要研究结果。统计图将统计数据形象化,让读者更易于领会统计资料的核心内容,易于做分析比较,并且可以给读者留下深刻的印象。

&统计表的制作原则和要求有哪些?

统计表的制表原则:

首先,重点突出,一张表一般只表达一个中心内容,不要把过多的内容放在一个庞杂的大表里,宁愿用多个表格表达不同指标和内容。

其次,统计表就如完整的一句话,有其描述的对象(主语)和内容(宾语)。通常主语放在表达左边,作为横标目;宾语放在右边,作为纵标目。由左向右读,构成完整的一句话。

最后,统计表应简单明了,一切文字、数字和线条都尽量从简。

制表的基本要求:

①标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。

②标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。

③线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两纵标目分割开。其它竖线和斜线一概省去。

④数字:用阿拉伯数字表示。无数字用“—”表示,缺失数字用“…”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。

⑤表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。51. 统计图的制作原则和要求有哪些?

&统计图的制作原则和要求有哪些?

①根据资料性质和分析目的正确选用适当的统计图。例如分析比较独立的、不连续的、无数量关系的多个组或多个类别的统计量(如例数、相对数和均数等)宜选用直条图,分析某指标随时间或其它连续变量变化而变化的趋势宜选用线图,描述某变量的频数分布宜选用直方图,描述或比较不同事物内部构成比时用圆图或百分比条图等。

②与统计表相似,统计图必须有标题,概括统计图资料的时间、地点和主要内容。统计图的标题放在图的下方。

③统计图一般有横轴和纵轴,并分别用横标目和纵标目说明横轴和纵轴代表的指标和单位。一般将两轴的相交点即

原点处定为0。纵横轴的比例一般以5:7或7:5为宜。

④统计图用不同线条和颜色表达不同事物和对象的统计量,需要附图例加以说明。图例可放在图的右上角空隙处或下方中间位置。

&常用的统计图有哪几种,各适用于什么类型资料?

常用的统计图有直条图、直方图、圆图或构成比直条图、线图和统计地图。 直条图适用于:比较独立分类组的统计指标; 直方图适用于:描述频数分布;

圆图和构成比直条图适用于:描述构成比;

线图适用于:描述某统计量随时间或另一统计量变化而变化的趋势; 统计地图适用于:描述统计指标的地理分布。

&统计表与统计图有何联系和区别?

联系:统计表和统计图都是清晰地、有条理地展示数据,让读者易于领会统计资料的核心内容,易于做比较分析。 区别:统计图将统计数据形象化,可以给读者留下深刻的印象。但统计图只能提供概略的情况,而不能获得确切数值,因此不能完全代替统计表,常需要同时列出统计表作为统计图的数值依据。

第五章·概率与概率分布 1.简述概率的统计定义。

随机事件A 在n 次试验中出现f 次,计算出随机事件A 出现的频率()f

p A n

,由于()p A 是一个样本统计量,总是在其真正的概率附近摆动,当n 趋于无穷大时,()p A 趋于一个常数P ,则称该常数P 为随机事件A 的概率。

2.举例说明医学观察结果中的离散型随机变量和连续型随机变量。

在医学观察中只可能取有限个或无限可列个实数值的随机变量称为离散型随机变量,如用某药物治疗某种非传染病,要具体数一下此药治疗的有效或无效各多少个;某一人群的四种血型A 、B 、O 、AB 各多少个;某一单位有男、女各多少人等对于无法一一列出各种可能的取值的随机变量称为连续性随机变量,如身高、体重、某一人群的年龄等。

3.举例说明医学现象中的先验概率和后验概率。

答:先验概率是人们在抽样前对某现象发生概率的认识,如欲用Bayes 判别方法,通过4个指标鉴别3类疾病,首先可根据经验取这3类疾病的概率都为1/3,这里的1/3就为先验概率。后验概率是人们在抽样后通过计算从而对此现象发生概率的认识。如通过计算得出这三类病的发病概率分别为0.982、0.018、0.000,这时的0.982、0.018、0.000就称为后验概率。

4.简述二项分布的应用条件。

(1) 每次试验只会发生两种互斥的可能结果之一,即两种互斥结果的概率之和恒等于1。 (2)每次试验产生某种结果(如“阳性”)的概率固定不变。

(3)重复试验是互相独立的,即任何一次试验结果的出现不会影响其它试验结果出现的概率。

5.简述Poisson 分布的性质特征。 (1)总体均数λ与总体方差2σ相等;

(2)当n 很大,而π很小,且n πλ=为常数时,Poisson 分布可看作是二项分布的极限分布;

(3)当λ增大时,Poisson 分布渐近正态分布。一般而言,λ≥20时,Poisson 分布资料可作为正态分布处理; (4)Poisson 分布具备可加性。即对于服从Poisson 分布的m 个互相独立的随机变量X 1,X 2,……,X m ,它们之和也服从Poisson 分布,且其均数为这m 个随机变量的均数之和。

6.简述概率和概率分布在临床决策中的运用。

在决策分析中,由于各种“处理”的结局是不确定的,或者说不同的结局出现的概率大小不同,在一般情况下,决策者往往选择概率大的结局。因此,不同结局出现的概率或不同结局的概率分布,是临床决策的重要依据。

第六章·正态分布与医学参考值范围

1.如何将任一个正态分布),(2

σμN 转换为标准正态分布? 通过X u μ

σ

-=的变换,即可将()2

,N

μσ的正态分布转换成标准正态分布。

2.简述正态曲线、正态分布和标准正态分布的意义。

正态曲线:是一条高峰位于中央,左右两侧完全对称,两端与横轴永不相交的钟型曲线,有数学函数与之严格的对 应。

正态分布:若变量X 的频率分布曲线对应于数学上的正态曲线,则称该变量服从正态分布,记为X~()2

,N μσ。

标准正态分布:将原始变量X 作()u X μσ=-转换后,可得到均数为0,标准差为1的标准正态分布,记为

u~N (0,1)。

3.试述医学参考值范围的意义及计算方法。

医学参考值是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标范围,亦称正常值范围。

所谓“正常人”并非身体各项指标均正常,仅是相对于研究指标而言。

根据不同资料的分布类型,选择不同的计算方法。正态或近似正态分布的资料:正态分布法;偏态资料:百分位数法。

4.标准正态分布与t 分布的区别与联系?

答:t 分布与标准正态分布相比具有以下特点:t 分布曲线顶部稍低而左右两段稍高。当自由度v 较小时,与标准正态分布区别明显;随着自由度v 的增大,t 分布曲线越来越接近于标准正态分布曲线。当v =∞时,t 分布的极限分布就是标准正态分布。

5.简述2

χ分布的特点。

2χ分布是一种连续型分布,其形状依赖于自由度v 的大小。当自由度v ≤2时,曲线呈L 型,自由度v 越大,曲线

越趋于对称;当自由度v 趋于无穷大时,2

χ分布则趋于正态分布。

6.简述F 分布的特点。

F 分布是一种连续型分布,其密度曲线为单峰的偏态分布,当X ≤0时,密度函数等于0。

(1)X 为算术均数,说明正态分布或近似正态分布资料的集中趋势; (2)S 为标准差,说明正态分布或近似正态分布资料的离散趋势;

(3)S X 96.1±可估计正态指标的95%的医学参考值范围,即此范围在理论上应包含总体的95%的个体值。

&试述正态分布、标准正态分布及对数正态分布的联系和区别。 联系: 区别:

(1)正态分布:原始值不需转换;属于对称分布类型;用μ表示集中趋势的指标;均数与中位数的关系是μ=M (中

位数)

(2)标准正态分布:作u 转换;属于对称分布类型;集中趋势μ=0;均数与中位数的关系是μ=M

(3)对数正态分布:作对数转换;属于正偏态分布;集中趋势用G (几何均数表示);均数与中位数的关系是μ>M

&试述正态分布的面积分布规律。

(1)X 轴与正态曲线所夹面积恒等于1或100%;

(2)区间σμ±的面积为68.27%,区间σμ96.1±的面积为95.00%,区间σμ58.2±的面积为99.00%。

&简述正态分布的应用。 (1)估计频数分布 (2)制定参考值范围

(3)质量控制:为了控制实验中的检测误差,常以±2 s 作为上、下警戒值,以±3 s 作为上、下控制值。 (4)统计分析方法的基础。

第七章·参数估计

1. 用什么统计指标说明样本统计量抽样误差的大小?以样本均数为例,说明抽样误差的大小主要受哪些因素的影响?

用样本统计量的标准误来说明样本统计量抽样误差的大小。当样本量n 一定时,σ越大,即样本的个体差异越大,

X σ-就越大,样本均数的抽样误差就越大;σ越小,X σ-就越小,即样本均数抽样误差就越小。当σ固定时,n 越

大,X σ-就越小;n 越小,X σ-

就越大。故影响抽样误差大小的主要因素是样本量。

2.什么叫做区间估计?它和医学参考值范围有什么区别?

区间估计是利用样本信息计算出一个区间,并同时给出重复试验时该区间包含总体均数或总体率的概率。 与医学参考值范围的区别:

3. 标准差与标准误的区别与联系是什么? 区别:

(1)含义不同: ①标准差描述个体变量值(x )之间的变异度大小,标准差越大,变量值(x )越分散;反之变量值

越集中,均数的代表性越强。

②标准误是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样 误差越大;反之,样本均数越接近总体均数,抽样误差越小。

(2)与n 的关系不同: n 增大时,①标准差→σ(恒定);②标准误减少并趋于0(不存在抽样误差)。 (3)用途不同: ①标准差:表示x 的变异度大小,计算cv ,估计正常值范围,计算标准误等

②标准误:参数估计和假设检验。

联系: 二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比;标准误等于标准差除样本

含量的开方即/x s s =

4. 可信区间的涵义是什么?

对于一个给定的概率,我们可以认为该区间包含了总体参数,而不能认为总体参数以这个给定的概率落在这个区间里。因为计算出的区间是变化的而总体参数值是固定的。以均数的95%可信区间为例,在同一总体中作100次抽样,可得100个可信区间,平均有95个可信区间包含总体均数μ(估计正确),只有5个可信区间不包含总体均数μ(估计不正确),或对于某一个区间而言,它包含总体均数μ的可能性为95%,而不包含总体均数μ的可能性仅为5%。

5.小结本章介绍了哪些统计是可信区间的估计方法。在哪些情况下,可信区间的估计采用u 界值;在哪些情况下,采用t 界值?

本章介绍了正态分布法和t 分布法。 ①σ未知时,按t 分布原理,采用t 界值。

②σ已知时,按正态分布原理采用u 界值;σ未知但n 足够大时,σ用样本标准差作为估计值,采用u 界值。

X S ±提供了资料分布的集中趋势和离散趋势信息,应用时应该注意适用条件即资料要服从或近似服从正态分布。

第八章·假设检验的基本概念

1.假设检验中α与P 有什么联系与区别?

α和P 均为概率,其中α是指拒绝了实际上成立的0H 所犯错误的概率,是进行统计推断时预先设定的一个小概率

事件标准。P 值是由实际样本获得的,在0H 成立的前提下出现等于及大于(或/和等于及小于)现有样本获得的

检验统计量值的概率。在假设检验中通常是将P 与α对比来得出结论,若P ≤α,则拒绝0H 接受1H ,有统计学意义,可以认为......不同或不等;否则,若P >α,则不拒绝0H ,无统计学意义,还不能认为……不同或不等。

2.设定检验假设

H 有哪两种方式?这两种方式对假设检验的结果判定有什么影响?

检验假设中有无效假设0H 和备择假设1H 两种假设。其中,0H 尤其重要,它是假设检验计算检验统计量和P 值的依据。设立0H 主要有两种方式,一是在研究设计时,通过随机抽样的方法得到研究样本,使样本统计量(如X ,

P )在施加干预前能代表总体均数或总体率;或者在施加干预前通过随机分组的方法使两样本数据具有相同的总体

特征(如相同的分布,相同的总体参数)。二是根据反证法的思想,直接对总体参数或总体分布做出假设,如两总体均数相等、两总体方差相等、观察数据服从正态分布等,并不去考虑0H 的合理性

3.为什么假设检验结果P<0.05可以下“有差别”的结论,P>0.05不能下“无差别”的结论?

在假设检验结果P <0.05的时候,下“有差别”的结论时,虽然有犯错误的可能(Ⅰ型错误),但犯错误的概率不大于α。而在假设检验结果P >0.05的情况下,不能下“无差别”或“总体参数相等”的结论,因为P >α不能证明H 0就是正确的。退一步说,即使0H 正确,接受0H 时也会犯错误(Ⅱ型错误),但一般假设检验只能提供犯Ⅰ型错误的概率α,不提供犯Ⅱ型错误的概率β。所以,根据P >α接受H 0,下“无差别”或“总体参数相等”的结论实际上得不到应有的概率保证。因此,假设检验结果P <0.05可以下“有差别”的结论,P >0.05不能下“无差别”的结论。

4.怎样正确运用单侧检验和双侧检验?

单双侧检验首先应根据专业知识来确定,同时也应考虑所要解决的目的。若从专业知识判断一种统计方法的结果可能低于或高于另一种方法的结果,则用单侧检验;在尚不能从专业知识判断两种结果谁高谁低时,用双侧检验。若研究者对低于或高于两种结果都不关心,则用双侧检验;若仅关心其中一种可能,则取单侧检验。一般认为双侧检验较保守和稳妥,单侧检验由于充分利用了另一侧的不可能性,故更易得出有差别的结论,但应慎用。

5.简述怎样用可信区间的方法分析两均数u 检验的问题?

可信区间用于推断总体均数的范围,而假设检验用于推断总体均数间是否相等。可信区间亦可部分回答假设检验问题,如两总体均数之差的100(1)%α-的可信区间包含了0,则按α水准不拒绝012:H μμ=,如果该区间未包含0,同样拒绝0H 接受1H ,与u 检验的结论相同。

6.简述假设检验对实际问题的推断能力(单双侧检验时);

假设检验也称显著性检验。它是利用小概率反证法的思想,从问题的对立面(0H )出发间接判断要解决的问题(1H )是否成立。然后在0H 成立的条件下计算检验统计量,最后获得P 值来判断。当P 小于或等于预先规定的概率值α,就是小概率事件。根据小概率事件原理:小概率事件在一次抽样中发生的可能性很小,如果它发生了,则有理由怀疑原假设0H ,认为其对立面1H 成立,该结论可能犯大小为α的错误。

7.简述检验效能的概念和主要影响因素以及它们之间的关系;

检验效能用概率1-β表示,其中β为假设检验接受0H 时犯第二类错误的概率。检验效能的意义是,当两总体确有差别,按检验水准α,假设检验结果能发现其差别(拒绝0H )的能力。 影响检验效能的四个因素:

1.总体参数的差异越大,检验效能越大。

2.个体差异(标准差)越小,检验效能越大。

3.样本量越大,检验效能越大。

4.检验水准α(Ⅰ型错误的概率)定得越宽,检验效能越大。

联系:在这四个因素当中,总体参数的差异δ、总体标准差σ、检验水准α通常是相对固定的,尤其是δ和σ,都是不可改变的的参数,只能做出比较接近的估计,但不能随意设定。可以人为调整因素的唯有样本量1n 、2n ,而且样本量对检验效能的影响最大。

8.I 型错误与II 型错误有何区别与联系?了解这两类错误有何实际意义?

区别:当0H 为真时,假设检验结论拒绝0H 接受1H ,这类错误称为第一类错误/Ⅰ型错误/假阳性错误/“弃真”错误。前面所说的检验水准,就是预先规定的允许犯Ⅰ型错误概率的最大值,用α表示。当真实情况为0H 不成立而H 1成立时,假设检验结论不拒绝0H 反而拒绝1H ,这类错误称为第二类错误/Ⅱ型错误/假阴性错误/“取伪”错误。其概率大小用β表示。

关系:α越小,β越大;相反,α越大,β越小。若要同时减小Ⅰ型错误α和Ⅱ型错误β,唯一的方法就是增加样本量n 。

了解这两类错误的实际意义:若在应用中要重点减少α(如一般的假设检验),则取α=0.05;若在应用中要重点减少β(如方差齐性检验,正态性检验或想用一种方法代替另一种方法的检验等),则取α=0.01或0.02甚至更高。

9.在哪些情况下容易出现多次重复检验的问题?多次重复检验有哪些不良后果?如何避免多次重复检验问题? 多次重复检验多在以下两种情况下出现:一是有多个观察指标,如肝功能检查项目、心功能检查项目等,对每个指

标都进行试验组和对照组有无差别的假设检验。但是,对多个观察指标进行多次重复检验,必定会增加假阳性率。因此,如果是科研目的明确的临床试验,为了避免多次重复检验问题,应在研究计划书中确定1~2个反映疗效的主要观察指标;;二是对同一个指标的多次重复测量,如高血压患者的血压测量值,对多个时间点(如每周)进行组间差别检验。这样的话,假设检验的次数要成倍的增加。因此,为了避免一个观察指标多次测量的重复检验问题,使疗效判定有一个非常明确的判断标准,需要在研究设计时预先确定主要研究目的和主要疗效评价指标。

&假设检验时,一般当P<0.05时,则拒绝H0,理论根据是什么?

P值系由H0所规定的总体做随机抽样,获得等于及大于(或等于及小于)依据现有样本信息所计算得的检验统计量的概率。当P≤0.05时,说明在H0成立的条件下,得到现有检验结果的概率小于α,因为小概率事件几乎不可能在一次试验中发生,所以拒绝H0。同时,下“有差别”的结论的同时,我们能够知道可能犯错误的概率不会大于α,也就是说,有了概率的保证。

&可信区间与假设检验有何联系与区别?

区别:可信区间用于说明量的大小即推断总体均数的范围,而假设检验用于推断质的不同即判断两总体均数是否不等。可信区间亦可回答假设检验的问题,算得的可信区间若包含了H0,则按α水准,不拒绝H0;如不包含H0,则按α水准,拒绝H0,接受H1。

联系:

1)可信区间不但能回答差别是否有统计学意义,而且还能比假设检验提供更多的信息,即提示差别有无实际的专业意义。

2)可信区间不能够完全代替假设检验,可信区间只能在预先规定的概率——检验水准α的前提下进行计算,而假设检验能够获得一个较为确切的概率P值。故将二者结合起来,才是完整的分析。

&为什么假设检验的结论不能绝对化?

假设检验的结论是概率性的。拒绝H0,可能产生I型错误;不拒绝H0,可能产生II型错误。

还与单、双侧检验有关,报告结果是应注明,以便读者与同类研究比较,正确评价结果的参考价值;

另外,还与检验水准α的高低有关。有时对于同一问题,按α=0.01时可能不拒绝H0,而按α=0.05时可能拒绝H0;统计结论还与样本大小有关,有时随着样本含量n的增加,即使取同一检验水准,由于抽样误差的减小,结论有可能从不拒绝H0到拒绝H0。

&为什么在报告统计假设检验结果时,提倡使用P确切数值并给出95%CI?

报告统计假设检验结果时,P确切数值能够提供抽样误差造成总体和样本差别的确切概率,便于下结论时对具体问题作具体分析,还便于对同类研究结果进行综合.如meta分析使用的Fisher法。总体参数(如总体均数)差别的95 %CI不仅能提供总体参数有无差别的信息,还能提供其差别大小的可能范围。

&假设检验的统计“显著”与专业意义上“显著”有何联系和区别?

统计“显著”对应于统计结论,专业“显著”对应于专业结论.P 值大小只能说明统计学意义的“显著”,不说明实际效果的“显著”。若统计结论和专业结论一致,则最终结论也一致;若统计结论和专业结论不一致,则最终结论需根据实际情况而定。以临床试验为例,临床疗效“显著”的处理,当观察例数很少时,P 值可能很大(统计“不显著”);反之,临床疗效“不显著”的处理(如新药比对照药有效率仅提高了0. 1%),当观察例数很大时,P 值可能很小(统计“显著”)。因此.对于P 值的解释一定要结合专业知识,并且用两均数(率)之差的可信区间反映出实际差别的大小。

&假设检验的理论依据是什么?请简述假设检验的基本步骤。 假设检验的理论依据:小概率事件原理

步骤: (1)根据研究目的建立假设,确定检验水准

(2)根据样本统计量的抽样分布规律,选择适当的统计方法,计算检验统计量

(3)确定P 值,做出推断结论

第九章·χ2

检验

1、简述2

χ检验的基本思想。 在2

χ检验的理论公式()

2

2

A T T

χ-=

中,A 为实际频数,T 为理论频数。根据检验假设H 0:π1=π2,若H 0 成立,

则四个格子的实际频数A 与理论频数T 相差不应很大,即2

χ统计量不应很大。若2

χ值很大,即相对应的P 值很小,比如P ≤a ,则反过来推断A 与T 相差太大,超出了抽样误差允许的范围,从而怀疑H 0的正确性,继而拒绝H 0,接受其对立假设H 1,即π1≠π2。

2、四格表2

χ检验有哪两种类型?各自在运用上有何注意事项?

四格表2

χ检验分为两独立样本率检验和两相关样本率检验。两独立样本率检验应当首先区分其属于非连续性校正

2χ检验,或是连续性校正2χ检验。非连续性校正2χ检验的理论计算公式为:()

2

2A T T

χ-=∑

,专用计算公式

为:()()()()()

2

2

ad bc n a b a c b d c d χ-=

++++。连续性校正2

χ检验的理论计算公式为:()2

20.5A T T

χ--=∑

,专用

计算公式为()2

2

2ad bc n n

a b a c b d c d χ--=

++++;两相关样本率检验的理论计算公式为:()2

2

b c b c

χ-=

+,当样本数

据b +c <40时,需做连续性校正,其公式为()

2

2

1c b c b c

χ--=

+

3、什么情况下使用Fisher 确切概率检验两个率的差别?

当样本量n 和理论频数T 太小时,如n <40而且T <5,或T <1,或n <20,应该用确切概率检验,即Fisher 检验。

4、在回顾性研究和前瞻性研究的四格表中,各自如何定义优势比?

暴露组的优势与非暴露组的优势之比就称为优势比,也称为比数比,简记为OR 。前瞻性研究暴露组相对于非暴露组关于非暴露组关于“发病”的优势比,即:()()

Odd a c ad

OR Odd b d bc

=

=

=

暴露非暴露;如果资料来自回顾性病例对照研究,则根据“暴露”相对于“非暴露”的优势计算病例组相对于对照组关于“暴露因素”的优势比,即:

()()

Odd a b ad

OR Odd c d bc

=

=

=病例对照。

&两样本率比较的u 检验与2

χ检验有何异同?

同:凡是能用u 检验进行的两个率比较检验的资料,都可用2χ检验,两者是等价的,即u 2=2

χ;

异:(1)u 检验可进行单侧检验;

(2)满足四格表u 检验的资料,计算两个率之差的可信区间,可从专业上判断两率之差有无实际意义;

(3)2

χ检验可用于2×2列联表资料有无关联的检验。

&对于四格表资料,如何正确选用检验方法?

(1)首先应分清是两样本率比较的四格表资料还是配对设计的四格表资料。

(2)对于两样本率比较的四格表资料,应根据各格的理论值T 和总例数n 的大小选择不同的计算公式:

①当n ≥40且所有的T ≥5时,用非连续性校正2

χ值理论计算公式或四格表专用计算公式

②n ≥40,且任一理论频数T 有1≤T <5,用连续性校正2

χ值理论计算公式或四格表专用计算公式; ③当n <40,或T <1时,用四格表资料的Fisher 确切概率法。 若资料满足两样本率u 检验的条件,也可用u 检验。

(3)对于配对设计的四格表资料,应根据样本数据b+c 的大小选择不同的计算公式: ①(b+c) ≥40, 使用未经校正的公式; ②(b+c) <40, 使用经过校正的公式。

&说明行?列表资料2

χ检验应注意的事项。

(1)行×列表中的理论频数不应小于1,或1≤T <5的格子数不宜超过格子总数的1/5。

(2)多个样本率比较,若所得统计推断为拒绝H0,接受H1时,只能认为各总体率之间总的来说有差别,但不能说明

任两个总体率之间皆有差别。要进一步推断哪两个总体率之间有差别,需进一步做两两比较。

(3)对于有序的R ×C 表资料不宜用2

χ检验。对于R ×C 表的资料要根据其分类类型和研究目的选用恰当的检验方法。

&说明R C ?表的分类及其检验方法的选择。

(1)分类:R×C 表可以分为双向无序、单向有序、双向有序属性相同和双向有序属性不同4类。 (2)检验方法的选择:

①双向无序R×C 表:若研究目的为多个样本率(或构成比)的比较,可用行×列表资料的2

χ检验;

若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时,可用行×列表资料

的2

χ检验以及Pearson 列联系数进行分析。

②单向有序R×C 表:若R×C 表中的分组变量是有序的,而指标变量是无序的,此种单向有序R×C 表资料可进行

行×列表资料的2

χ检验分析其构成情况;

若R×C 表中的分组变量为无序的,而指标变量是有序的,此种单向有序R×C 表资料宜用秩 和检验分析。

③双向有序属性相同的R×C 表:宜用一致性检验分析两种检测方法的一致性。

④双向有序属性不同的R×C 表:若研究目的如为分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序R

×C 表资料,选用秩和检验;

&R×C 表2

χ检验的适用条件及当条件不满足时可以考虑的处理方法是什么?

适用条件:理论频数不宜过小,否则有可能产生偏性。

当条件不满足时有三种处理方法:①增大样本例数使理论频数变大;

②删去理论数太小的行或列;

③将理论数太小的行或列与性质相近的邻行或邻列合并,使重新计算的理论频数变大。但②、③法都可能会损失信息或损害样本的随机性,因此应慎用。 ④使用Fisher 确切概率检验

第十章·t 检验

1. 两均数比较t 检验的应用条件是什么?

t 检验的应用条件是:①当样本含量较小时,理论上要求样本为来自正态分布总体的随机样本;②当做两小样本均

数比较时,要求两总体方差相等(方差齐性,即2221σσ=)。在实际工作中,若上述条件略有偏离,仍可进行t

检验分析。

2. 如何获得一个配对样本?

配对设计即将受试对象按某些重要特征相近配成对子,每对中的两个实验单位随机分配到两种处理组。医学研究中配对设计主要有三种情况:

一是配成对子的同对实验单位分别给予两种不同的处理(如把同窝、同性别和体重相近的动物配成一对;把同性别、同病情和年龄相近的病人配成一对等);

二是同一受试对象同时分别接受两种不同处理得到的两个观察结果(如实验动物两个部位的创面愈合时间);

三是同一受试对象(一种)处理前后。

3.两均数比较的t检验和u检验有什么区别与联系?在应用条件上有何不同?

t检验和u检验是统计量分别为t和u的假设检验,两者均是常见的假设检验方法。

相同点:凡是能用u检验进行两个均数比较检验的资料,都可用t检验。

不同点:两者的检验统计量不同,它们应用的条件也是不同的。

t检验的应用条件:当样本例数n较小时,要求样本取自正态总体,作两样本均数比较时还要求两样本的总体方差相等。但在实际应用时,与上述条件略有偏离,对结果影响不大。

u检验的应用条件:样本例数n较大,或n虽小但总体标准差已知。

4.为什么两独立样本的方差齐性检验是双侧检验?

因为从理论上讲,第一个样本的方差既可能大于第二个样本的方差,也可能小于第二个样本的方差,故样本方差齐性检验是双侧检验。

5.对方差不齐的数据,如何进行两均数比较的假设检验?

当两样本方差不齐时,特别是小样本资料,这时候要进行两样本均数差别的比较,可采用数据变换(如两样本几何均数的t检验,就是将原始数据取对数后进行t检验)或使用近似t检验-t‘检验或秩转换的非参数检验。

6.变量代换的主要目的是什么?常用的变量代换方法有哪几种?

变量代换也称为变量变换,是将原始数据作某种函数转换,如转换为对数值。它的目的是:

①使各组数据达到方差齐性;

②使资料转换为正态分布,以满足t检验和方差分析的应用条件。通常情况下,一种适当的函数变换可以同时满足上述两个目的;

③直线化。常用于曲线拟合。

常用的变量代换方法有对数变换、平方根变换、倒数变换、平方根反正弦变换等。

&在一个研究中重复多次进行t检验,是否能增加结论的可靠性?用什么方法可以减少t检验的次数?

在一个研究中重复多次进行t检验,不能增加结论的可靠性,可用方差分析方法减少t检验的次数。

第十一章·方差分析

1. 简述均数比较方差分析的基本思想?

方差分析(analysis of variance ,ANOVA)的基本思想就是根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和与自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如各组均数的变异组间SS 可由处理因素的作用加以解释。通过比较不同变异来源的均方,借助F 分布作出统计推断,从而推论各种研究因素对试验结果有无影响。

2. 均数比较方差分析与实验设计有何联系?

均数比较的方差分析与实验设计类型密切相关。方差分析的数据是按照特定实验设计进行实验所得的数据,不同的实验设计其总变异的分解有所不同。因此在应用方差分析时,除要求资料满足方差分析的应用条件外,还应结合具体实验设计来选择相应的方差分析方法。

3.方差分析对数据有什么要求?

(1)各样本是相互独立的随机样本,且来自正态分布总体; (2)各样本的总体方差相等,即方差齐性(homoscedasticity )。

4.为什么不能用t 检验进行多个均数的两两比较?

两均数比较的t 检验进行多重比较,将会加大Ⅰ类错误的概率α,从而可能把本无差别的两个总体均数判为有差别。例如,有4个均数,两两组合数为C 2

4 = 6 ,若用t 检验做6次比较,且每次比较的检验水准选为05.0=α,则每次比较不犯Ⅰ类错误的概率为()05.01-,6次均不犯Ⅰ类错误的概率为()6

05.01- ,这时,总的检验水准变为

()26.005.0116

=--,比05.0大多了。因此,不能用t 检验进行多个均数的两两比较。

5.单样本重复测量数据的方差分析与随机区别设计方差分析有何不同?在什么情况下,单样本重复测量数据可用随机区组设计方差分析进行假设检验? 单样本重复测量数据与随机区组设计的区别为:

(1)重复测量设计中的“处理”是在区组(受试者)间随机分配,区组内的各时间点是固定的,不能随机分配。 (2)重复测量设计区组内单位彼此不独立,资料间呈一定的相关性。

当单样本重复测量的资料满足“球对称”条件时,可用随机完全区组设计方差分析进行假设检验。

6.简述均数比较方差分析随机效应模型与固定效应模型的区别。

在进行均数比较的方差分析中,处理效应为固定不变的常数时,称为固定效应模型(fixed effect model );当方

差分析资料中没有干预因素,要研究的处理效应不是固定不变的常数,而是随机的,称为随机效应模型(random effect model)。区别为处理效应一个为固定不变,一个为随机。

7.简述随机效应方差分析的应用。

随机效应方差分析应用于:方差分析资料中没有干预因素,要研究的k个水平的处理效应不是固定不变的常数,而是随机选择的。研究的目的不是估计总体均数,而是估计样本代表总体的测量误差。

&方差分析的基本思想、应用条件、用途是什么?

方差分析的基本思想:按研究目的和设计类型,将总变异的离均差平方和SS和自由度v分别分解成若干部分,并求得各相应部分的变异;其中的组内变异或误差主要反映个体差异或抽样误差,其它部分的变异与之比较得出统计量F值,由F值的大小确定P值,并做出推断。

应用条件:①独立性和随机性: 各个样本是相互独立的随机样本

②正态性:对于因素的每一个水平,其观察值是来自服从正态分布总体的随机样本。例1中每个时间测

得的ATP含量服从正态分布

③方差齐性:对于各组观察数据,是从方差相等的总体中抽取的三个时间例1中ATP含量这三个总体的

方差相等

用途:①两个或多个样本均数间的比较;

②分析两个或多个因素间的交互作用;

③回归方程的线性假设检验;

④多元线性回归分析中偏回归系数的假设检验等。

&在完全随机设计方差分析中SS组间、SS组内各表示什么含义?

SS

:表示各样本均数与总均数的差异,反映了处理因素的作用,也包括了随机误差。

组间

SS

:表示每组内观测值与该组均数的差异,反映了随机误差的大小。

组内

&随机区组设计的方差分析与完全随机设计方差分析在设计和变异分解上有什么不同?

(1)完全随机设计资料的方差分析完全随机设计(completely random design):亦称成组设计。该设计仅涉及一个研究因素,k个不同的水平(k个分组)。用单因素方差分析(one-way ANOVA)。

三种变异:SS总=SS组间+SS组内

(2)随机区组设计资料的方差分析随机区组设计(random block design):又称配伍设计,是配对设计的扩展。

四种变异:SS总= SS处理+ SS区组+ SS误差,ν总=kb-1

&为什么在方差分析的结果为拒绝H 0、接受H 1之后,对多个样本均数的两两比较要用多重比较的方法?

方差分析的备择假设H 1是g 个总体均数不全相等,拒绝H 0,接受H 1,只说明g 个总体均数总的来说有差别,并不说明两两总体均数都有差别。若想进一步了解哪两两总体均数不等,则需进行多个样本均数间的多重比较。

第十二章·线性回归分析

1.用什么方法考察回归直线是否正确? 用以下三种方法判定:

(1)直线必须通过点(X ,Y )。

(2)若纵坐标、横坐标无折断号,将此线左端延长与纵轴相交,焦点的纵坐标必等于截距a 。 (3)直线是否在自变量X 的实测范围内。

2.简述回归系数方差分析Y 的平方和自由度的分解。

SS 总即2

Y Y ∑(-),为反应变量Y 的离均差平方和,表示在未考虑X 与Y 的回归关系时Y 的变异,可分解为两部

分的变异,一部分为回归平方和,另一部分为剩余平方和,分别用SS 回和SS 剩表示。这三个平方和,各有其相应的自由度ν,其关系为:ννν总回残=+,1n ν=-总,1ν回=,n -2ν残=。

3.简述回归分析中Y 的标准差Y S 与剩余标准差X Y S ,的区别和联系。

Y S 表示在总体中,当X 为某一定值时,个体Y 值的波动范围。而剩余标准差,Y X S 是指当X 对Y 的影响被扣除后,Y 方面仍有变异。这部分变异与X 无关,纯属抽样变异。当X 与X 接近且充分大时,可用,Y X S 代替Y S 。

4.简述Y S ?与0

Y S 的区别。

Y ∧

是X 对应Y 的总体均数的一个样本估计值,Y

S ∧是反映其抽样误差大小的标准误,其计算公式

YX

YX Y

S S S ∧==0Y S 是反映个体Y 值的容许区间大小的,也就是说当总体中X 为某定值时,Y 值由于随机误差影响在0Y ∧

上下波动的范围的大小就取决于标准差0Y S ,其计算公式

0Y YX

YX S S S ==

5.举例说明如何用直线回归方程进行预测和控制? 步骤如下:

(1)根于研究目的确定预报因子(X )和预报量(Y ),由X 估计Y 值,收集资料。

(2)建立预报方程bX a Y +=

,并进行回归系数假设检验。若P 小于检验水准,则回归方程成立。

(3)根据回归方程在X 实测范围内对Y 进行预测,并计算X 为某定值时,个体Y 值波动范围(容许区间)。例如:1-7岁儿童,X 为年龄,Y 为体重,可根据年龄预测(估计)体重。

统计控制是利用回归方程进行逆估计,如要求因变量Y 值在一定范围内波动,可以通过控制自变量X 的取值来实现。步骤同前。例如:针刺哑门穴,进针深度Y 与颈围X 间存在直线关系,可根据X 取值达到控制Y 的目的。

6.直线回归分析时怎样确定自变量和因变量?

(1)Ⅰ型回归中,X 为精密测定和严格控制的变量,Y 为正态变量。表示原因的为X ,表示结果的为Y 。 (2)Ⅱ型回归中,X 、Y 均为服从正态分布的随机变量,互为因果,可计算两个回归方程。何者为X ,何者为Y ,根据研究目的确定。如身高、体重两变量,若目的只是由身高估计体重,则确定X 为身高,Y 为体重。 7.简述曲线回归常用的几种曲线形式。

(1)指数函数(()a bX Y e +=),当b >0时,Y 随X 上升而上升;当b <0时,Y 随X 上升而下降。 (2)幂函数(b Y aX =),当b >0时,Y 随X 上升而上升;当b <0时,Y 随X 上升而下降。

(3)对数函数(ln Y a b X =+),当b >0时,Y 随X 上升而上升,先快后慢;当b <0时,Y 随X 上升而下降,先快后慢。 (4)logistic 函数(1

1a bX

Y e

+=+),当b >0时,Y 随X 上升而下降;当b <0时,Y 随X 上升而上升。

&试总结从样本数据判断总体回归关系是否成立的统计方法有哪些? 用t b 、t r 作t 检验;用F 对b 和R 2

作方差分析;直接查相关系数r 界值表。

&现有根据10对数据算出的直线回归方程:?Y

=2.1+0.8X ,只有X 和Y 的均数、标准差,而原始数据丢失时如何判定回归方程是否成立?

例如可以利用r=b ×S X /S Y ,求得相关系数,然后查相关系数界值表对回归方程作假设检验。

&直线回归分析中应注意哪些问题?

(1)两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归分析,其中哪一个作为应变量主要是根据专业上的要求而定,同时直线回归要求至少对于每个X 相应的Y 要服从正态分布,X 可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量。

(2)进行直线回归分析前应绘制散点图,以检查数据是否满足模型基本假设,发现异常点并进行进一步处理。 (3)对结果应有正确解释。反映两变量间数量上影响大小的统计量应该是回归系数的绝对值,而不是假设检验的P 值。P 值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越 “显著”。直线回归用于预测时应尽量避免不合理的外延。结果中的决定系数可表示两变量关系的实际效果。

相关主题
文本预览
相关文档 最新文档