医学统计学复习提纲 考试必过
- 格式:pdf
- 大小:613.03 KB
- 文档页数:33
总复习一、统计工作的基本步骤:四个步骤:设计(最关键的一步)、搜集资料(统计分析的前提)、整理资料、分析资料。
二、三种资料类型:1. 计量资料(定量资料)2. 计数资料(分类资料)3. 等级资料三、几个基本概念1. 总体与样本2. 概率四、计量资料的统计描述1. 集中趋势:X、G、M(Px):适用条件、计算2. 离散趋势:R、Q、S、CV:意义及适用条件五、集中趋势离散趋势指标的选择判断步骤:资料是抗体滴度 G、S否是偏态、开口 M、Q否X、S六、正态分布1.正态分布的特征2.正态曲线下分布面积的规律3.u变换(见下)七、抽样误差的概念1. 抽样误差(概念)2. 抽样误差的特点:⑴客观存在,可控制但不能消除;⑵它是反映抽样误差大小的指标:用Sx来说明均数的抽样误差大小;用Sp 来说明率的抽样误差大小;⑶均数抽样误差的大小与标准差成正比,与√n成反比;⑷减少抽样误差最切实可行的办法为:增加样本含量。
3. 总体均数的估计方法⑴点(值)估计:⑵区间估计:①95%可信区间:X±1.96Sx②99%可信区间:X±2.58Sx附:①正常参考值范围估计:①95%正常值范围:X±1.96S②99%正常值范围:X±2.58S②可信区间与正常值范围的区别4. u变换与t变换:X-μ X-μu变换: u=──── u=────σσxt变换: X-μt=────Sx八、假设检验的一般步骤:⑴建立假设①H0:无效假设;H1:备择假设②单双侧检验:根据专业知识来定。
⑵确定检验水准:α=0.05⑶选定检验方法并计算检验统计量⑷确定P值:直接计算、查表法⑸作出推断结论:统计结论:是否拒绝H0专业结论:谁高谁低?(有无效果)九、常用t检验(重点是掌握根据资料的性质、分析的目的来选择假设检验方法)1. t(u)检验的应用条件2. 假设检验方法:⑴ X与μ的比较的t检验(一般是单组原始数据)⑵配对设计资料的t检验(关键是掌握什么是配对资料)配对设计的三种情况:①同一对象治疗前后比较;②同一标本分别用两种方法处理;③将条件相同或相近的两个对象配成对子,然后随机分配到两个处理组中,观察两种处理有无差别。
《医学统计学》复习提纲第二章 统计描述公式:几何均数(1)直接法: nn X X X G ...21=或 )lg (lg )lg ...lg lg (lg 1211nX n X X X G n ∑--=+++=(2)加权法:)lg (lg ....lg ...lg lg (lg 12122111∑∑--=++++++=f X f f f f X f X f X f G k k k中位数(median ) (1) 直接法:n 为奇数 , 2)1(+=n X M n 为偶数,)(21122++=n n X X M(2)频数表法:用于频数表资料。
∑-+=)2(L Mf nf i L M 标准差(standard deviation ): nX ∑-=2)(μσ 1)(2--=∑n X X S离均差平方和2)(∑-X X 常用SS 或l XX 表示。
∑∑∑-=-==NX X X X l SS XX 222)()(直接法: 1)(22--=∑∑n n X X S 加权法:1)(22--=∑∑∑∑f ffX fX S1. 常用的相对数指标有哪些?它们的意义和计算上有何不同?2. 为什么不能以构成比代率?请联系实际加以说明。
率和构成比所说明的问题不同,绝不能以构成比代率。
构成比只能说明各组成部分的比重或分布,而不能说明某现象发生的频率或强度。
例如:以男性各年龄组高血压分布为例,50~60岁年龄组的高血压病例占52.24%,所占比重最大,60~岁组则只占到6.74%。
这是因为60~岁以上受检人数少,造成患病数低于50~60岁组,因而构成比相对较低。
但不能认为年龄在50~60岁组的高血压患病率最严重,而60岁以上反而有所减轻。
若要比较高血压的患病率,应该计算患病率指标。
3. 应用相对数时应注意哪些问题?4.简述医学中参考值范围的涵义及制定参考值范围的一般步骤。
医学中常把绝大多数正常人的某指标范围称为该指标的参考值范围,也叫正常值范围。
医学统计学复习大纲(一)绪论1)总体与样本总体:根据研究目的确定的同质研究对象的全体。
分为有限总体与无限总体。
样本:从总体中随机抽取的部分观察单位。
2)参数与统计量参数:总体的统计指标,用希腊字母表示。
如总体均数、标准差,分别记为μ、σ。
固定的常数。
统计量:样本的统计指标,用拉丁字母表示。
如样本均数、标准差,为X(拔)、S。
在参数附近波动的随机变量。
3)抽样误差误差:实际观察值与客观真实值之差a.系统误差在实际观测过程中,由研究者、仪器设备、研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。
特点:观察值有方向性、周期性。
可以通过严格的实验设计和技术措施消除b.非系统误差由研究者的偶然失误而造成。
c.随机误差排除上述误差后尚存的误差,受多种无法控制的因素的影响。
特点:大小和方向不固定。
随机测量误差——提高操作者熟练程度可以减少这种误差。
随机抽样误差(由抽样造成的样本统计量和总体参数间的差异。
)——不可避免,但有一定的分布规律,可估计。
4)四种随机抽样方法a.单纯随机抽样——将观察单位逐一编号,然后用随机数字表、抽签或电脑等方法随机抽取部分观察单位组成样本。
为最基本的抽样方法。
b.系统抽样——按一定顺序机械地每隔若干个观察单位抽取一个观察单位以组成样本。
又称间隔抽样、机械抽样、等距抽样。
c.整群抽样——从总体中随机抽取若干个“群体”以组成样本。
这个群体可以是班级、街道社区等。
d.分层抽样——先按影响观察值变异较大的某种特征,将总体分为若干类型或组别(统计上叫“层”),再从每一层内随机抽取一定数量的观察单位,以组成样本。
也即分类抽样。
误差大小排序:整群抽样>单纯随机抽样>系统抽样>分层抽样5)P ≤ 0.05(5%)或P ≤ 0.01(1%)称为:小概率事件,即某事件发生的可能性很小。
6)变量的分类a.数值变量——其变量值是定量的,表现为数值的大小,一般有度量衡单位。
——计量(定量)资料b.分类变量——其变量值是定性的,表现为互不相容的类别或属性。
第1章绪论医学统计学是一门“运用统计学的原理和方法,研究医学科研中有关数据的收集、整理和分析的应用科学。
1.个体:又称观察单位,是统计研究的最基本单位,也是构成总体的最基本的观察单位。
2.总体:根据研究目的确定的同质观察单位某项指标测量值(观察值)的集合。
分为有限总体(明确规定了空间、时间、人群范围内有限个观察单位)和无限总体(无时间和空间范围的限制)。
反映总体特征的指标为参数,常用小写希腊字母表示。
3.样本:从总体中随机抽取的一部分有代表性的观察单位组成的整体。
(抽样,随机化原则,样本含量)根据样本资料计算出来的相应指标为统计量,常用大写英文字母表示。
4.抽样研究:从总体中随机抽取样本,根据样本信息推断总体特征的方法。
抽样误差是由随机抽样(样本的偶然性)造成的样本指标与总体指标之间、样本指标与样本指标之间的差异。
其根源在于总体中的个体存在变异性。
只要是抽样研究,就一定存在抽样误差,不能用样本的指标直接下结论。
统计分析主要是针对抽样误差而言。
5.变量(一个个体的任意“特征”);资料(变量值的集合),资料类型:①计量资料/定量资料/数值变量资料:表现为数值大小,一般有度量衡单位,又可分为连续型和离散型两类;②计数资料/定性资料/无序分类变量资料/名义变量资料:表现为互补相容的属性或类别,一般无度量衡单位,可分为二分类和多分类;③等级资料/半定量资料/有序分类变量资料:表现为等级大小或属性程度。
各类资料间可相互转化。
①可选分析方法有:t检验、方差分析、相关回归分析等;②可选分析方法有:χ2检验、z检验等;③可选分析方法有:秩和检验、Ridit分析等。
6.误差:实测值与真实值之差。
可分为随机误差(随机测量误差+抽样误差)与非随机误差(系统误差与非系统误差)。
①随机误差:是一类不恒定、随机变化的误差,由多种尚无法控制的因素引起,它是不可避免的;②系统误差:是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是可知的或可以掌握的,它是可以消除或控制的;③非系统误差:又称过失误差,是指在实验过程中由于研究者偶然失误而造成的误差,可以消除。
教学提要(一)《医用统计学》基本概念1、变异:宇宙中的事物,千差万别,各不相同。
即使是性质相同的事物,就同一观察指标来看,各观察指标(亦称个体)之间,也各有差异,称为变异。
同质观察单位之间的个体变异,是生物的重要特征,是偶然性的表现。
2、变量:由于生物的变异特性,使得观察单位某种指标的数值互相不等,所以个体值称为变量值或观察值。
3、总体:即根据研究目的确定的同质的研究对象的全体。
更确切地说,是性质相同的所有观察单位的某种变量值的集合。
4、样本:即从总体中抽取一部分作为观察单位进行观察,这部分观察单位称为样本。
为了使样本对总体有较好的代表性,抽样必须遵循随机化的原则,即总体中每一观察单位均有相同的机会被抽取到样本中去。
5、计量资料(数值变量资料):对每个观察单位用定量方法测定某项指标量的大小,所得的资料称为计量资料,一般有度量衡等单位。
6、计数资料(分类变量资料):将观察单位按某种属性或类别分组,所得各组的观察单位数,称为计数资料。
可分为二项式或多项式分类变量。
7、等级资料:将观察单位按某种属性的不同程度分组,所得各组的观察单位数,称为等级资料。
这类资料与计数资料不同的是:属性的分组有程度的差别,各组按大小顺序排列;与计量资料不同的是:每个观察单位未确切定量,因而称为半定量资料。
8、抽样误差:由于总体中各观察单位间存在个体差异, 抽样研究中抽取的样本, 只包含总体的一部分, 因而样本指标不一定等于相应的总体指标, 这种样本统计量与总体参数间的差别称为抽样误差。
(二)统计工作的基本步骤1、设计: 这是关键的一步。
要求科学、周密、简明。
2、搜集资料: 要求完整、准确、及时。
医学统计资料的来源主要有三个方面:(1) 统计报表; (2) 日常医疗工作的原始记录和报告卡片; (3) 专题调查3、整理资料: 核查资料; 按性质或数量分组, 拟定整理表。
4、分析资料: 包括指标的计算、统计图表的绘制, 用统计方法如参数估计、假设检验等对资料作统计分析。
医学统计学复习资料导言医学统计学是医学领域中非常重要的一门学科,它的作用是帮助医生和研究人员通过收集、分析和解释数据来评估医学检验和治疗的效果。
本文将提供一份医学统计学的复习资料,帮助读者回顾和巩固相关的知识。
一、基本概念1.1 总体和样本在医学统计学中,总体是指我们研究的整体对象,而样本则是总体的一个子集。
例如,我们对某种疾病的患者进行研究时,患者总体就是所有患该病的人群,而样本则是我们实际观察到的一部分患者。
1.2 参数和统计量在医学统计学中,参数是用来描述总体特征的统计量,例如总体均值、总体方差等。
而统计量是通过样本数据来估计总体参数的量,例如样本均值、样本方差等。
假设检验是医学统计学中常用的一种方法,它用于判断总体参数的假设是否成立。
在假设检验中,我们先假设总体参数的某个值是正确的(称为零假设),然后通过收集样本数据来判断该假设是否成立。
二、数据的分布2.1 正态分布正态分布在医学统计学中非常重要,因为许多统计方法都假设数据服从正态分布。
正态分布具有钟形曲线的特点,均值、中位数和众数都重合在一起。
常见的正态分布检验有Shapiro-Wilk检验和Kolmogorov-Smirnov检验。
2.2 t分布t分布是一种在样本量较小的情况下使用的概率分布,它比正态分布的尾部更加厚重。
t分布的形状取决于样本量,当样本量增加时,t分布逐渐趋近于正态分布。
在医学研究中,常用t分布来进行样本均值的假设检验。
非参数检验是一种不依赖于数据分布的统计方法,它对数据的要求相对较低。
与参数检验不同,非参数检验适用于无法确定数据分布或偏离正态分布的情况。
常见的非参数检验方法有Wilcoxon秩和检验和Mann-Whitney U检验。
三、统计推断3.1 置信区间置信区间是一种用来估计总体参数的范围,它是一个区间,表示我们对总体参数的估计在一定置信水平下的可信程度。
通常,置信区间的宽度与置信水平相关,越高的置信水平意味着更宽的置信区间。
医学统计学考前复习提纲第1章绪论⼀、名解1、Statistic统计量:由样本观测值获得的统计指标称为统计量。
2、Statistics统计学:收集、分析、解释与呈现数据资料同时处理数据中变异的⼀门学科。
3、Medical statistics医学统计学:运⽤概率论和数理统计学的原理和⽅法,研究医学数据的收集、整理、分析和推断,从⽽发现医学现象的内在规律,⽤以指导医学理论和实践的学科。
4、Individual个体(观察单位observation unit):是医学研究获得数据的基本单位,也是研究者所直接⾯对的研究对象。
5、Population总体:根据研究⽬的,所有的同质的观察单位(个体)某项观测值的全体称为总体。
6、Sample样本:来⾃总体的部分观察单位的观测值称为样本。
7、Descriptive statistics统计描述:⽤统计指标、统计图表等描述资料的数量特征及其分布规律。
8、Statistics inference统计推断:指⽤样本信息推断总体特征的统计学问题,包括参数估计parameter estimation和假设检验hypothesis test两部分内容。
9、Homogeneity同质:同⼀总体中个体的性质,影响条件或背景相同或⾮常相近。
个体的同质性是构成研究总体的必备条件。
10、Variation变异:对于同质的研究对象,其变量值之间的差异称为变异。
11、Variable变量:可以测量的任何特征或属性(不同个体结果可能不同),能表现观察单位变异的某种特征。
12、Variance⽅差/均⽅mean square:13、random variable随机变量:随机实验结果的所有取值称为随机变量。
14、概率与频率:在相同的条件下,独⽴地重复n次实验(如采⽤某种药物治疗多名患者),随机实验地某⼀结果A(如有效)出现f次,则称f/n为结果A出现地频率(frequency)。
当n逐渐增⼤时,频率f/n始终在⼀个常数左右微⼩摆动,称该常数为结果A出现的概率(probability),记为P。
统计学概述一、统计学的意义统计学是研究数据的收集、整理、分析的一门科学,是认识社会和自然现象客观规律数量特征的重要工具。
统计学方法就是帮助人们透过偶然现象认识其内在的规律性,揭示疾病或现象发生、发展规律,为预防疾病、促进健康提供客观依据。
二、统计学的基本概念(一)同质与变异同质是指被研究指标的影响因素相同。
变异是同质基础上的观察单位(亦称为个体)之间的差异。
(二)总体与样本总体是指根据研究目的确定的同质观察单位的全体。
样本从总体中随机抽取的部分观察单位,其测量值(或变量值)的集合。
(三)变量与变量值变量:确定总体后,研究者应对每个观察单位的某些特征进行测量或观察,这种特征称为变量,如:身高、体重等。
变量值:变量的测得值。
如身高150cm,体重50Kg等。
(四)参数与统计量参数是指总体特征的统计指标。
如某地健康成年男性的平均血红蛋白值。
统计量是指样本特征的统计指标。
如从某地健康成年男性中抽取一部分人的平均血红蛋白值。
(五)误差误差泛指测量值与真实值之差。
根据误差的性质和来源,统计工作中产生的误差主要有三种类型,即系统误差、随机测量误差、抽样误差。
1.系统误差:测量结果有倾向性。
查明原因,可以避免。
特点:①测量结果有倾向性。
如仪器、试剂、判定标准等。
②查明原因,可以避免。
2.随机测量误差:收集资料的过程中,即使避免了系统误差,但由于各种偶然因素造成的测量值与真实值不完全一致,这种误差称为随机测量误差。
特点:①随机误差没有大小和方向。
②不可避免。
3.抽样误差:由于随机抽样所引起的样本统计量与总体参数之间的差异以及各样本统计量之间的差异称为抽样误差。
特点:变异是绝对的,抽样误差不可避免。
原因:个体之间的差异;抽样时只能抽取总体中的一部分作为样本。
(六)概率(P)概率是描述某随机事件发生可能性大小的量值,常用符号P表示。
随机事件的概率在0~1之间,即0≤P≤1。
小概率事件:P≤0.05或P≤0.01的事件。
(完整word版)医学统计学考试重点(人卫第七版)编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望((完整word版)医学统计学考试重点(人卫第七版))的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为(完整word版)医学统计学考试重点(人卫第七版)的全部内容。
1、同质:是指观察单位或观察指标受共同因素制约的部分2、观察单位:亦称个体,是统计研究中最基本的单位3、变异:在同质的基础上个体间的差距4、总体:根据研究目的所确定的同质观察单位的全体,既是同质的所有观察单位某项观察值的集合5、有限总体:总体若受一定的时间和空间控制,其观察单位数是有限的,称为有限总体无限总体:理论上其观察单位数是无法穷尽的6、样本:是指从总体中随机抽取部分观察单位其某项指标实测值的集合7、抽样:从总体中抽取部分个体的过程称为抽样8、抽样必须遵循随机化原则,即总体中每一个体都有同等的机会被抽取到9、抽样研究的方法,利用样本的信息推论总体的特征来达到研究目的10、参数:描述总体特征的量11、统计量:根据样本个体值计算得到的描述样本特征的量12、总体参数是常数,而样本统计量可随样本不同而不同13、随机误差:指一类不恒定、随机变化的误差,有多种尚无法控制的因素所引起14、抽样误差:指抽样引起的样本统计量与总体参数之间的差异15、系统误差:在实际观测过程中,由于仪器未校正、观测者感官的某种倾向、研究者掌握的标准偏高或偏低等原因,使观察值不是随机分散在真值两侧,而是具有方向性、系统性或周期性的偏离真值,这类误差称为系统误差16、过失误差:指各种失误所导致的误差17、随机事件:在一定条件下某一现象可能发生也可能不发生的事件18、概率:反映某一随机事件发生可能性大小的量,用符号P表示19、小概率事件:统计学上一般把P≤0.05的事件称为小概率事件,表示某事件发生的可能性很小20、变量:观察单位的某个特征21、变量值:变量的观察结果或测定值22、按变量值是定性的还是定量的,可将变量分为数值变量和分类变量23、数值变量又称定量变量,其变量值是用定量方法测得的,所的资料是计量资料24、分类变量又称定性变量,其变量值是用定性方法测得的25、分类变量根据类别是否有程度上的差别,可分为无序分类变量(构成的资料为计数资料)和有序分类变量(所得资料为等级资料)25、医学统计工作的基本步骤:一、设计;二、收集资料;三、整理资料;四、分析资料26、统计表和统计图是描述统计资料的重要工具27、统计表的结构:①标题位于统计表的上中方②标目用来说明表内各纵横数字的含义,注意标明指标的单位。
(完整版)医学统计学复习要点第⼀章绪论1、数据/资料的分类:①、计量资料,⼜称定量资料或者数值变量;为观测每个观察单位某项治疗的⼤⼩⽽获得的资料。
②、计数资料,⼜称定性资料或者⽆序分类变量;为将观察单位按照某种属性或者类别分组计数,分组汇总各组观察单位数后⽽得到的资料。
③、等级资料,⼜称半定量资料或者有序分类变量。
为将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后⽽得到的资料。
2、统计学常⽤基本概念:①、统计学(statistics)是关于数据的科学与艺术,包括设计、搜集、整理、分析和表达等步骤,从数据中提炼新的有科学价值的信息。
②、总体(population)指的是根据研究⽬的⽽确定的同质观察单位的全体。
③、医学统计学(medical statistics):⽤统计学的原理和⽅法处理医学资料中的同质性和变异性的科学和艺术,通过⼀定数量的观察、对⽐、分析,揭⽰那些困惑费解的医学问题背后的规律性。
④、样本(sample):指的是从总体中随机抽取的部分观察单位。
⑤、变量(variable):对观察单位某项特征进⾏测量或者观察,这种特征称为变量。
⑥、频率(frequency):指的是样本的实际发⽣率。
⑦、概率(probability):指的是随机事件发⽣的可能性⼤⼩。
⽤⼤写的P表⽰。
3、统计⼯作的基本步骤:①、统计设计:包括对资料的收集、整理和分析全过程的设想与安排;②、收集资料:采取措施取得准确可靠的原始数据;③、整理资料:将原始数据净化、系统化和条理化;④、分析资料:包括统计描述和统计推断两个⽅⾯。
第⼆章计量资料的统计描述1. 频数表的编制⽅法,频数分布的类型及频数表的⽤途①、求极差(range):也称全距,即最⼤值和最⼩值之差,记作R;②、确定组段数和组距,组段数通常取10-15组;③、根据组距写出组段,每个组段的下限为L,上限为U,变量X值得归组统⼀定为L≤X<U,最后⼀组包括下限。
医学统计学部分复习考试题第⼀部分复习练习题⼀、最佳选择题1、 X表⽰⼀组对称分布的变量值的____________a. 平均⽔平b. 频数分布c. 离散情况d. 极差2、⼀组正态分布资料,理论上有_____________a. X>Mb.Xc. X=Md. X≥M或X≤M3、反映⼀组⾎清学滴度资料或效价资料平均⽔平采⽤____。
a. Xb. Mc. Gd. R4、在σ未知且n较⼤时,估计µ95%可信区间可⽤____表⽰。
a. X±c. X±5、µ时更可靠。
c. Sd. CV6、在假设检验中,由于抽样的偶然性,拒绝了实际上成⽴的H0假设,则__。
a. 犯第I类错误b. 犯第II类错误c. 推断正确d. a,b都有可能7、在假设检验中,由于抽样偶然性,接受了实际上不成⽴的H0假设,则__。
a. 犯第I类错误b. 犯第II类错误c. 推断正确d. a,b都有可能8、在假设检验中,接受了实际上成⽴的H0假设,则____。
a. 犯第I类错误b. 犯第II类错误c. 推断正确d. a,b都有可能9、α=0.05, t>t0.05,ν,统计上可认为___。
11、在均数为µ,标准差为σ的正态总体中随机抽样,得| X-µ|≥______的概率为0.05。
c.作X2检验,不必校正d.先进⾏合理的合并13、某病发病率和患病率中,理论上可能超过100%的是___。
a.发病率b.患病率c.发病率和患病率都会d.发病率和患病率都不会14、计算两县宫颈癌标化死亡率,⽬的是_____。
a. 消除两县妇⼥⼈⼝年龄构成不同的影响b. 消除两县总⼈⼝不同的影响c. 消除两县妇⼥总⼈⼝不同的影响d. 为了能与其他地区⽐较15、两个四格表资料,-个X2> X20.01 ,另⼀个X2> X20.05,可认为____。
a. 前者两个率相差较⼤b. 后者两个率相差较⼤c. 前者结论更可靠d. 后者结论更可靠16、假设检验时,是否拒绝H。
绪论一、卫生统计学的定义根据统计学的原理和方法,研究医学数据的收集、表达和分析的一门应用学科。
二、统计工作的步骤1、设计2、搜集资料3、整理资料4、分析资料三、统计资料的类型1、定量资料:可通过对观察单位测量取得数值,一般有度量衡单位。
如身长(cm)、血压(kPa)、脉搏( 次/ 分)。
虽然如脉搏、白细胞计数等测量值只能是正整数(不连续),但为研究方便习惯上也视为连续变量。
2、分类资料:分类变量的可能取值是离散的。
表现为互不相容的类别。
如性别、血型、民族、职业等。
(1)无序分类unordered categories(或名义变量nominal variable)表现为变量的不同取值间没有大小、强弱、优劣等程度之别。
如性别、血型等。
无序分类资料称为计数资料。
A.二项分类:如性别分为男、女;虫卵化验结果分为阴性、阳性等。
B.多项分类:如人群血型的A、B、O、AB等。
(2)有序分类:表现为变量的不同取值间有大小、强弱、优劣等程度之别。
如疗效可分为治愈、显效、好转、无效,尿蛋白化验结果分为一、±、++、+++等。
各类之间有程度上的差别。
有序分类变量资料称为等级资料(ranked data)。
(3)各类变量间的互相转化根据研究分析的需要,各类资料可相互转化。
分类变量转化为数值是将具有属性的事物,按其顺序、轻重、大小、主次标以数码。
A.对于有序分类变量有时可通过给各类别赋值,如治愈为3、显效为2、好转为l、无效为0,作为数值变量处理。
B.数值变量也可转化为分类变量:如按血压测量值大小将血压分为低血压、正常、高血压,从而按分类变量处理。
四、基本概念1、总体:根据研究目的确定的同质观察单位的全体。
有限总体?无限总体?2、样本:从总体中随机抽取部分观察单位实测值的集合。
3、同质:是指具有某些相同因素的个体,而这些因素会对研究指标产生影响(如同一地区、同一年份、同一性别等)。
4、变异是指在同质的基础上各观察值之间的差异。
题型:一、名词解释5 个二、单选20 个(流行病学1-8、10、11 章课后;医学统计学1- 11、15 章课后)三、简答7 道四、论述五、案例2 道:t 检验(参考p60 例7-1 例7-2)卡方检验(参考p86 例9-2 例9-4)1.统计推断:指由样本数据特征推断总体特征的方法,包括参数估计和假设检验。
2.参数估计:分为点估计和区间估计,指用样本指标估计总体指标。
3.总体:是根据研究目的确定的所有同质观察单位的全体,它包括所有定义范围内的个体变量值。
4.样本:是从研究总体中抽取部分有代表性的观察单位,对变量进行观测得到的数据。
5.计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料。
计数资料也称为定性资料或分类资料。
6.计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的观察单位称为计量资料。
计量资料也称定量资料,测量资料。
7.等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料。
等级资料又称有序变量。
8.小概率事件:在统计学上,统计推断的结论都是基于一定概率得出的,习惯上将P≤0.05 的事件称为小概率事件,表示在一次试验中发生的可能性很小。
9.中位数:将一组观察值从小到大按顺序排列X1≤X2≤……Xn,居中心位置的数值即为中位数。
10.正态分布:以均数u 为中心左右完全对称的分布,记为X---u11.医学参考值范围:是指“正常”人的解剖,生理,生化指标等数据大多数个体值的波动范围。
12.循证医学:是慎重,准确和明智地应用当前所能获得的最佳的研究证据,同时结合临床医生的个人专业技能和多年临床经验,考虑患者的权利,价值和期望,将三者完美地结合以制定出患者的治疗措施。
13.病死率:表示某期间内,某病患者中因该病死亡的频率,表示该疾病的严重程度和医疗水平等,多用于急性传染病。
14.病因:指能使疾病发生概率升高的因素,包括化学,物理,生物,精神心理以及遗传等。
预防医学复习题统计部分复习重点及简答题1. 医学统计学的基本概念如:总体与样本的联系区别2. 资料的分类如:请列举资料的类型并举例说明3. 定量资料统计描述的指标集中与离散趋势如:定量统计描述指标有哪些如:正态分布与偏态分布资料统计描述方法有何区别4. 定性资料统计描述的指标5. 正态分布、标准正态分布、t分布的概念、特征、曲线下面积规律如:正态分布、标准正态分布与t分布的区别联系6. 小概率事件在医学统计学的应用P值的含义如:P值的含义是什么,对统计结论有何意义7. 假设检验的基本原理与步骤8. 四种主要统计假设检验方法及其应用场合9. 统计表的绘制选择题1.样本是总体中:2.A、任意一部分B、典型部分C、有意义的部分D、有代表性的部分E、有价值的部分2、参数是指:A、参与个体数B、研究个体数C、总体的统计指标D、样本的总和E、样本的统计指标3、抽样的目的是:A、研究样本统计量B、研究总体统计量C、研究典型案例D、研究误差E、样本推断总体参数4、脉搏数次/分是:A、观察单位B、数值变量C、名义变量D.等级变量E.研究个体5、疗效是:A、观察单位B、数值变量C、名义变量D、等级变量E、研究个体6、统计学常将P≤或P≤的事件称A、必然事件B、不可能事件C、随机事件D、小概率事件E、偶然事件7.统计中所说的总体是指:A根据研究目的确定的同质的研究对象的全体B随意想象的研究对象的全体C根据地区划分的研究对象的全体D根据时间划分的研究对象的全体E根据人群划分的研究对象的全体8.概率P=0,则表示A某事件必然发生B某事件必然不发生C某事件发生的可能性很小D某事件发生的可能性很大E以上均不对9.总体应该由A.研究对象组成B.研究变量组成C.研究目的而定D.同质个体组成E.个体组成10. 在统计学中,参数的含义是A.变量B.参与研究的数目C.研究样本的统计指标D.总体的统计指标E.与统计研究有关的变量11.调查某单位科研人员论文发表的情况,统计每人每年的论文发表数应属于A.计数资料B.计量资料C.总体D.个体E.样本12.统计学中的小概率事件,下面说法正确的是:A.反复多次观察,绝对不发生的事件B.在一次观察中,可以认为不会发生的事件C.发生概率小于的事件D.发生概率小于的事件E.发生概率小于的事件13、统计上所说的样本是指:A、按照研究者要求抽取总体中有意义的部分B、随意抽取总体中任意部分C、有意识的抽取总体中有典型部分D、按照随机原则抽取总体中有代表性部分E、总体中的每一个个体14、以舒张压≥为高血压,测量1000人,结果有990名非高血压患者,有10名高血压患者,该资料属资料;A、计算B、计数C、计量D、等级E、都对15、红细胞数是:A、观察单位B、数值变量C、名义变量D、等级变量E、研究个体16、某次研究进行随机抽样,测量得到该市120名健康成年男子的血红蛋白数,则本次研究总体为:A.所有成年男子B.该市所有成年男子C.该市所有健康成年男子D.120名该市成年男子E.120名该市健康成年男子17、某地区抽样调查1000名成年人的血压值,此资料属于:A、集中型资料B、数值变量资料C、无序分类资料D、有序分类资料E、离散型资料18、抽样调查的目的是:A、研究样本统计量B、研究总体统计量C、研究典型案例D、研究误差E、样本推断总体参数19、测量身高、体重等指标的原始资料叫:A计数资料B计量资料C等级资料D分类资料E有序分类资料20、某种新疗法治疗某病患者41人,治疗结果如下:治疗结果治愈显效好转恶化死亡治疗数823631该资料的类型是:A计数资料B计量资料C无序分类资料D有序分类资料E数值变量资料21、样本是总体的A有价值的部分B有意义的部分C有代表性的部分D任意一部分E典型部分22.以下指标中____可用来描述计量资料离散程度;A.算术平均数B.几何均数C.中位数D.标准差E.第50百分位数23.偏态分布资料宜用___描述其分布的集中趋势;A.算术平均数B.标准差C.中位数D.四分位数间距E.方差24.用均数和标准差可全面描述___资料的分布特征;A.正态分布B.正偏态分布C.负偏态分布D.对称分布E.任何计量资料分布可用于比较身高与体重的变异度A.方差B.标准差C.变异系数D.全距E.四分位数间距26.描述一组偏态分布资料的变异度,以_____指标较好.A. 全距RB. 标准差sC. 变异系数CVD. 四分位数间距Qu-QL27.对于均数μ﹑标准差为σ的正态分布,95%的变量值分布范围为A.μ-σ~μ+σB.μσ~μ+σ~μ+σ∞~μ+σE.μσ~μ+σ28.若u服从均数为0,标准差为1的正态分布,则≥的P= ≥的P=的P= ≥的P=E. u≥的P=双侧29.正态分布有两个参数μ与σ,______曲线的形状越扁平;A. μ越大B. μ越小C. σ越大D. σ越小E. μ与σ越接近030.正态分布是以A.标准差为中心的频数分布值为中心的频数分布C.组距为中心的频数分布D.均数为中心的频数分布E.观察例数为中心的频数分布DCEBD DABDD ABDBB C17 18 BD CDCAC DBACD三、综合案例题每题2分,共20分1. 现有若干名高危人群体检部分指标,见下表表1 某年某地某人群健康检查部分检测结果编号性别年龄身高坐高血型乙肝表面抗原便血肠癌1 男47 A + ++ 有2 女28 AB - - 无3 女42 O - + 有4 男39 A - - 无5 男69 A - - 无. . . . . . . .1.上述变量中,下列哪个指标不是计量资料_ ______计量、定量、数值变量一个意思A.年龄B.性别C. 肠癌D. 身高2. 上述变量中,下列哪个指标不是计数资料__ _____这里的计数指的是无序分类变量资料A.性别B. 便血C.血型D. 肠癌3. 上述变量中,下列哪个指标是等级资料_ _____等级资料是有序分类变量资料A. 便血B.血型C. 年龄D. 性别4. 如果年龄是正态分布的资料,在进行统计描述时宜计算哪两个指标___ __A. 均数B. 标准差C. 四分卫数间距D. 变异系数E. 率F. 构成比5. 采用什么指标来比较身高和坐高的变异程度____ ___A. 均数B. 标准差C. 四分卫数间距D. 变异系数6. 描述人群的肠癌指标宜计算___ ___A. 均数B.比例C. 率D. 构成比7. 描述人群的血型分布,宜计算____ __A. 均数B.比例C. 率D. 构成比8. 要分析乙肝抗原阳性与阴性者肠癌发病率是否不同,宜选用的统计方法为____ __A. t检验B.方差分析F检验C. 卡方检验D. 秩和检验9. 要分析不同性别的病情程度便血是否不同,宜选用的统计方法为____ __A. t检验B.方差分析F检验C. 卡方检验D. 秩和检验10. 要分析不同血型的人群身高是否不同,宜选用的统计方法为____ ___A. t检验B.方差分析F检验C. 卡方检验D. 秩和检验B B A AB DCD C D B分析题1. 某防疫站1972年开始在城关建立“预防接种卡”使计划免疫得到加强;为说明效果,1975年的5月观察了482人的锡克试验反应,其中:幼儿园儿童101人,阳性21人,小学生145人,阳性22人;中学生236人,阳性15人;相比起来,1974年为:幼儿园儿童144人,阳性37人,小学生1417人,阳性323人;中学生259人,阳性41人;试用适当的统计表描述上述结果,并作简要分析2. 某医院对麦芽根糖浆治疗急慢性肝炎161例的疗效列表9-1,试作改进;3.某医师用甲、乙两药治疗某病,结果如下表,问甲、乙两药疗效有无差别表6-1 甲、乙两药疗效比较药物例数治愈数治愈率%甲40 29乙73 691若要比较甲药乙药的疗效差异,应采用何种统计分析方法2若P>,请下结论4.试检验表三组人的血浆总皮质醇测定值有无差别表7-7:三组人的血浆总皮质醇测定值正常人单纯性肥胖皮质醇增多症测定值测定值测定值1三组资料正态分布,请问采用何种统计描述指标进行描述2三组资料非正态分布,请问采用何种指标进行统计描述3三组资料正态分布,与比较差异,应采用何种统计分析方法4三组资料非正态分布,与比较差异,应采用何种统计分析方法5若统计结果P<,请下结论;一、简答题共2题,每题5分,共10分1. 应用两样本t检验时,对资料有什么要求2. 以卡方检验为例,请写出假设检验基本步骤二、选择填空题每题2分,共20分1. 现有若干名高危人群体检部分指标,见下表表1 某年某地某人群健康检查部分检测结果编号性别年龄身高坐高血型乙肝表面抗原便血肠癌1 男47 A + ++ 有2 女28 AB - - 无3 女42 O - + 有4 男39 A - - 无5 男69 A - - 无. . . . . . . .1. 上述变量中,下列哪个指标不是计量资料_______A.年龄B.性别C. 肠癌D. 身高2. 上述变量中,下列哪个指标不是计数资料_______A.性别B. 便血C.血型D. 肠癌3. 上述变量中,下列哪个指标是等级资料_______A. 便血B.血型C. 年龄D. 性别4. 如果年龄是正态分布的资料,在进行统计描述时宜计算哪两个指标______A. 均数B. 标准差C. 四分卫数间距D. 变异系数E. 率F. 构成比5. 采用什么指标来比较身高和坐高的变异程度_______A. 均数B. 标准差C. 四分卫数间距D. 变异系数6. 描述人群的肠癌指标宜计算______A. 均数B.比例C. 率D. 构成比7. 描述人群的血型分布,宜计算______A. 均数B.比例C. 率D. 构成比8. 要分析乙肝抗原阳性与阴性者肠癌发病率是否不同,宜选用的统计方法为______A. t检验B.方差分析F检验C. 卡方检验D. 秩和检验9. 要分析不同性别的病情程度便血是否不同,宜选用的统计方法为_______A. t检验B.方差分析F检验C. 卡方检验D. 秩和检验10. 要分析不同血型的人群身高是否不同,宜选用的统计方法为_______A. t检验B.方差分析F检验C. 卡方检验D. 秩和检验三.论述题本大题共2题,每题10分,共20分1.某个班级共有男性18名,女性19名,分别测量男性和女性的每分钟脉搏跳动次数;结果如下:某研究者采用配对t检验方法比较男性和女性脉搏跳动次数总体均数有无统计学差异发现P<,则可以认为男女脉搏跳动次数总体均数存在着差异;请问这种方法是否正确,为什么正确的方法是2.应用中医和传统西医疗法治疗系统性红斑狼疮,疗效如下表3,要比较两种药物的疗效的差异,采用何种检验方法有学者采用了卡方分析方法,结果发现,χ2=, P<,认为两种方法在疗效上的差异有统计学意义;请问这种方法是否正确,为什么正确的方法是表3 两种方法治疗系统性红斑狼疮分组治愈显效好转无效合计中医2241141188西医2037161588合计42783026176四、综合分析题1. 为了解某中药降血糖的疗效,某研究者选取34位糖尿病病人作为研究对象,将34位糖尿病患者随机分为两组,一组安慰剂组,一组为中药组,在治疗后对每一位研究对象的空腹血糖进行测量;请问:(1)学者在对两组资料的正态性检验发现,两组资料正态性检验结果P<;请问,上述两组资料血糖总体水平的比较,应采用何种统计分析方法;5分(2)通过SPSS统计分析,研究获得了以下统计结果,请下结论;5分3 请写出本题SPSS统计分析操作过程;8分2. 某学者研究中西医结合治疗和单纯西医治疗方案治疗肺炎病人,在89名患者身上进行实验,比较两种方案的有效率,得到资料如下表5;表5 两组肺炎病人治疗结果治疗方案例数无效有效中西医结合46 6 西医18 81请分别对中西医结合与西医治疗肺炎病人的疗效进行统计描述6分2若通过SPSS 统计软件得到以下结果,请选择正确的统计方法并下结论;6分3请写出SPSS统计分析操作过程8分3.开展中医、中西医、西医治疗前列腺炎的比较研究,将42只雄性大鼠随机等分成三组,分别为中医、中西医结合组和西医组组,测得各个体的HTT指标,HTT数据下表和统计分析结果如下:请问:1 本题应采用哪些统计分析方法6分2请根据两张分析结果表,分别报告统计结果6分医学统计学案例与分析题1. 某市20岁男学生160人的脉搏次/分钟,经正态性检验服从正态分布;求得样本均数为,样本标准差为;试估计:A、脉搏数的95%参考值范围;B、脉搏总体均数95%的可信区间;6. 应用中医和传统西医疗法治疗COPD,疗效如下表3,要比较两种药物的疗效的差异,采用何种检验方法有学者采用了卡方分析方法,结果发现,χ2=, P<,认为两种方法在疗效上的差异有统计学意义;请问这种方法是否正确,为什么正确的方法是秩和检验表3 两种方法治疗COPD分组治愈显效好转无效合计中医2241141188西医2037161588合计427830261768. 现有100名糖尿病病人健康检查一览表的部分检测指标,见下表;20分表3某年某地100名糖尿病病人检查部分检测结果性别 年龄周岁 身高cm 坐高cm 血型 乙肝抗原尿蛋白血糖 男 27 A 阴性 ++女 48 AB 阳性 - 女 60 O 阴性 + 男 91 A 阳性 - . . . . . . .请回答:① 上述变量中,定量资料的指标有_身高 坐高 年龄 血糖 ② 无序分类资料的指标有_性别 血型 乙肝抗原 ③ 有序分类资料的指标有_____________________④ 如果年龄是正态分布的资料,在进行统计描述时宜计算哪两个指标 均数 标准差⑤ 如果年龄是偏态分布的资料,在进行统计描述时宜计算哪两个指标 中位数、四分位数间距⑥ 采用什么指标来比较身高和坐高的变异程度 __变异系数_____________ ⑦ 描述人群的血型指标宜计算 ______构成比_______________⑧ 要分析男性和女性的血糖值是否不同,宜选用的统计方法为_______t 检验______________⑨ 要分析不同性别血型是否不同,宜选用的统计方法为_____卡方检验______ ⑩ 若进行男性和女性的乙肝抗原阳性率比较时,计算出检验统计量0.42=χ,则统计学结论为__________p<, 男女阳性率有差异9. 为了研究“果糖二磷酸钠”治疗新生儿缺血性脑病的疗效,某课题将患者随机分为观察组和对照组,观察组用“果糖二磷酸钠”,对照组用“胞二磷胆碱”;治疗效果分为无效、有效和显效三个等级,见下表;原作者进行一般t 检验,t =>,P <,认为两组疗效之间的差异有显著性意义;你认为这样的分析是否正确 如果不正确的话,应该采用什么方法进行分析 请计算正确方法的统计量F 值、卡方值或各组总秩和并写出计算过程不需要进行统计推断;10分;秩和检验组别 例 数例疗效: 显效 有效 无效 观察组 58 44 18 对照组564335。
一、统计学(statistics) ---是搜集资料、整理资料、分析资料,并且据此作出决策的一门学科。
医学统计学(medical statistics) --- 是以医学理论为指导,运用数理统计学的原理和方法研究医学资料的搜集、整理、分析,并且作出决策。
从而掌握事物内在客观规律的一门学科。
二、医学统计工作可分为四个步骤:1、统计设计(第一步也是关键一步);2、搜集资料(资料来源:统计报表,医疗卫生工作记录,专题调查或实验研究);3、整理资料(审核,分组,汇总);4、分析资料(统计描述,统计推断)。
三、频数分布图的步骤,用途:步骤:1、计算全距;2、确定组距;3、划分组段;4、统计频数;5、频率与累计频率。
用途:①反映频数分布的类型。
②描述频数分布的特征。
③便于发现极端值:如极大值、或极小值。
④便于进一步进行统计分析。
四、集中趋势与离散趋势的概念、特点及应用条件:集中趋势:反映一组数据的平均水平的指标。
(1)算术均数:应用条件:①正态分布的数据;②对称分布的数据。
(2)几何均数:适用条件:对于变量值呈倍数关系或呈对数正态分布。
(3)中位数:应用条件:①偏态分布②分布不明③有极端值④有开口的资料。
特点:不受极端值影响。
(4)百分位数:应用条件:①描述一组资料在某百分位置上的水平;②用于确定正常值范围;③计算四分位数间距。
(5)众数:一组观察值中出现次数最多的那个数值,可以没有也可以不止一个。
离散趋势:反映一组数据离散或分散的水平的指标。
(1)极差:全距=最大值-最小值。
优点:计算简单方便,应用广范,容易理解。
缺点:只反映两端数据最大最小值的差别,易受极端值的影响,不能反映组内其他变量离散情况。
(2)四分位数间距:Q=P75-P25。
优点:不受极端值影响,比极差R 稳定。
缺点:计算繁琐、不易理解、只反映中间50%的数据的两端的差值(3)方差的特点:①充分反映了每一个数据与平均数的差别;② S2指标很稳定;③S2应用广泛;④S2计算比较麻烦;⑤S2单位是原单位的平方,在实际应用时不太方便。