复习资料(医学统计)
- 格式:doc
- 大小:1.56 MB
- 文档页数:50
医学统计学第一章绪论第一节医学统计学的定义和内容1.医学统计学的主要内容 :统计推断、统计描述第二节统计工作的基本步骤1.医学统计工作可分为四个步骤:统计设计搜集资料整理资料分析资料第三节统计资料的类型医学统计资料按研究指标的性质一般分为:定量资料、定性资料、等级资料一、定量资料(计量资料)定量资料(quantitative data)是用定量的方法测定观察单位(个体)某项指标数值的大小,所得的资料称定量资料。
如身高(㎝)、体重(㎏)、脉搏(次/分)、血压(kPa,mmHg)等为数值变量,其组成的资料为定量资料。
二、定性资料(计数资料)定性资料(qualitative data)是将观察单位按某种属性或类别分组,清点各组的观察单位数,所得的资料。
亦称无序分类资料。
如:男-女分组;中医的虚、实,阴、阳等分组;按生存-死亡分组;A、B、O、AB分组。
三、等级资料等级资料(ranked data)是将观察单位按属性的等级分组,清点各组的观察单位数,所得的资料为等级资料。
亦称有序分类资料。
如治疗结果分为治愈、显效、好转、无效四个等级。
:疾病的严重程度可以分为,轻、中、重;中医辨证中舌象的颜色有,淡、红、暗、紫。
♦根据需要,各类变量可以互相转化。
♦若按贫血的诊断标准将血红蛋白分为四个等级:重度贫血、中度贫血、轻度贫血、正常,可按等级资料处理。
有时亦可将定性资料或等级资料数量化,如将等级资料的治疗结果赋以分值,分别用0、1、2…等表示,则可按定量资料处理。
第四节统计学中的几个基本概念一、同质与变异同质(homogeneity)是指观察单位或研究个体间被研究指标的主要影响因素相同或基本相同。
如研究儿童的生长发育,同性别、同年龄、同地区、同民族、健康的儿童即为同质儿童。
变异(variation)由于生物个体的各种指标所受影响因素极为复杂,同质的个体间各种指标存在差异,这种差异称为变异。
如同质的儿童身高、体重、血压、脉搏等指标会有一定的差别。
第1章绪论医学统计学是一门“运用统计学的原理和方法,研究医学科研中有关数据的收集、整理和分析的应用科学。
1.个体:又称观察单位,是统计研究的最基本单位,也是构成总体的最基本的观察单位。
2.总体:根据研究目的确定的同质观察单位某项指标测量值(观察值)的集合。
分为有限总体(明确规定了空间、时间、人群范围内有限个观察单位)和无限总体(无时间和空间范围的限制)。
反映总体特征的指标为参数,常用小写希腊字母表示。
3.样本:从总体中随机抽取的一部分有代表性的观察单位组成的整体。
(抽样,随机化原则,样本含量)根据样本资料计算出来的相应指标为统计量,常用大写英文字母表示。
4.抽样研究:从总体中随机抽取样本,根据样本信息推断总体特征的方法。
抽样误差是由随机抽样(样本的偶然性)造成的样本指标与总体指标之间、样本指标与样本指标之间的差异。
其根源在于总体中的个体存在变异性。
只要是抽样研究,就一定存在抽样误差,不能用样本的指标直接下结论。
统计分析主要是针对抽样误差而言。
5.变量(一个个体的任意“特征”);资料(变量值的集合),资料类型:①计量资料/定量资料/数值变量资料:表现为数值大小,一般有度量衡单位,又可分为连续型和离散型两类;②计数资料/定性资料/无序分类变量资料/名义变量资料:表现为互补相容的属性或类别,一般无度量衡单位,可分为二分类和多分类;③等级资料/半定量资料/有序分类变量资料:表现为等级大小或属性程度。
各类资料间可相互转化。
①可选分析方法有:t检验、方差分析、相关回归分析等;②可选分析方法有:χ2检验、z检验等;③可选分析方法有:秩和检验、Ridit分析等。
6.误差:实测值与真实值之差。
可分为随机误差(随机测量误差+抽样误差)与非随机误差(系统误差与非系统误差)。
①随机误差:是一类不恒定、随机变化的误差,由多种尚无法控制的因素引起,它是不可避免的;②系统误差:是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是可知的或可以掌握的,它是可以消除或控制的;③非系统误差:又称过失误差,是指在实验过程中由于研究者偶然失误而造成的误差,可以消除。
第一至五章统计学是研究数据及其存在规律的科学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。
统计学的总体是指根据研究目的确定的、全部同质个体的某个(或某些)变量值。
这里的个体又称观察单位(或研究单位),可以是一个社区、一个特定的人群、一个人、一个血样、一个细胞、一个基因、一个蛋白质等。
样本:总体中有代表性的一部分。
根据研究目的,对研究对象的某个或某些特征(亦称研究指标或项目)实施观测,这些特征(指标或项目)称为变量。
变量的测得值叫变量值(也叫观察值或资料)统计工作的步骤 一研究设计,二收集资料;三整理资料;四 分析资料。
计量资料定义通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料。
如:体重与身高,特点:有度量衡单位;多为连续性资料(通过测量得到)计数资料定义:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。
特点:没有度量衡单位;多为间断性资料(通过枚举或记数得来)等级资料定义:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。
特点:每一个观察单位没有确切值;各组之间有性质上的差别或程度上的不同。
总体:根据研究目的确定的同质的、观察单位的全体。
同质与变异研究对象具有的相同的状况或属性等共性称同质或同质性;对于同质的各观察单位,其某变量值之间的差异,称为变异。
误差:统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。
主要有二种:系统误差;随机误差。
系统误差:指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小。
特点:具有累加性。
随机误差:由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。
特点:随测量次数参加而减小。
抽样误差:由于抽样原因造成的样本指标与总体指标之间的差别。
特点:有抽样发生抽样误差就不可避免。
减少抽样误差的方法:(1)增加样本的代表性。
样本量 n 相等的情况下:整群抽样>单纯随机抽样>系统抽样>分层抽样(2) 增加样本量n (3)选择变异程度较小的研究指标。
一、名解:1、定量资料:以定量值表达每个观察单位的某项观察指标2、定性资料:以定性方式表达每个观察单位的某项观察指标3、等级资料:以等级方式表达每个观察单位的某项观察指标4、总体:是指按研究目的所确定的研究对象中所有观察单位某项指标取值的集合。
5、样本:是指从研究总体中随机抽取具有代表性的部分观察单位某项指标取值的集合。
6、参数:描述某总体特征的指标称为总体参数。
7、统计量:描述某样本特征的指标称为样本统计量。
8、小概率事件:当某事件发生的概率小于或等于0.05时,统计学上称该事件为小概率事件9、小概率原理:其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能发生,此即为小概率原理。
小概率原理是进行统计推断的依据。
(8&9常写在一起)10∙变异,是以具有同质性的观察单位为载体,某项观察指标在其单位之间显示的差别。
11标准化率:用统一的标准对内部构成不同的各组频率进行调整和对比,对比后的率为标准化率。
12参考值范围:又称正常值范围,大多数人正常人某观察指标所在的范围。
由于正常人的形态、功能、生化等各种指标的数据因人而异,而且同一个人的某些指标还会随着时间、机体内外环境的改变而变化,因此需要确定其波动范围,即正常值范围,简称正常值。
13、抽样误差:由抽样引起的样本统计量与总体参数间的差别。
14、中心极限定理:①从均数为U,标准差为。
的总体中独立随机抽样,当样本含量?增加时,样本均数的分布将趋于正态分布,均数为标准差为。
X②从非正态分布的总体中随机抽样,只要样本含量足够大,样本均数趋于正态分布。
15、统计推断:就是根据样本所提供的信息,以一定的概率推断总体的性质。
16、区间估计/参数估计/可信区间:包括点估计和区间估计,由样本信息估计总体参数。
按一定的概率或可信度(La)用一个区间估计总体参数所在范围。
这个范围称作可信度为l-α的可信区间(ConfidenCeinterval,Cl),又称置信区间。
医学统计学复习资料导言医学统计学是医学领域中非常重要的一门学科,它的作用是帮助医生和研究人员通过收集、分析和解释数据来评估医学检验和治疗的效果。
本文将提供一份医学统计学的复习资料,帮助读者回顾和巩固相关的知识。
一、基本概念1.1 总体和样本在医学统计学中,总体是指我们研究的整体对象,而样本则是总体的一个子集。
例如,我们对某种疾病的患者进行研究时,患者总体就是所有患该病的人群,而样本则是我们实际观察到的一部分患者。
1.2 参数和统计量在医学统计学中,参数是用来描述总体特征的统计量,例如总体均值、总体方差等。
而统计量是通过样本数据来估计总体参数的量,例如样本均值、样本方差等。
假设检验是医学统计学中常用的一种方法,它用于判断总体参数的假设是否成立。
在假设检验中,我们先假设总体参数的某个值是正确的(称为零假设),然后通过收集样本数据来判断该假设是否成立。
二、数据的分布2.1 正态分布正态分布在医学统计学中非常重要,因为许多统计方法都假设数据服从正态分布。
正态分布具有钟形曲线的特点,均值、中位数和众数都重合在一起。
常见的正态分布检验有Shapiro-Wilk检验和Kolmogorov-Smirnov检验。
2.2 t分布t分布是一种在样本量较小的情况下使用的概率分布,它比正态分布的尾部更加厚重。
t分布的形状取决于样本量,当样本量增加时,t分布逐渐趋近于正态分布。
在医学研究中,常用t分布来进行样本均值的假设检验。
非参数检验是一种不依赖于数据分布的统计方法,它对数据的要求相对较低。
与参数检验不同,非参数检验适用于无法确定数据分布或偏离正态分布的情况。
常见的非参数检验方法有Wilcoxon秩和检验和Mann-Whitney U检验。
三、统计推断3.1 置信区间置信区间是一种用来估计总体参数的范围,它是一个区间,表示我们对总体参数的估计在一定置信水平下的可信程度。
通常,置信区间的宽度与置信水平相关,越高的置信水平意味着更宽的置信区间。
名词解释1.总体:是指根据研究目的确定的、性质相同的的所有观察单位的集合。
2.样本:是从总体中随机抽取的,对总体有代表性的一部分观察单位所组成的集合3.抽样误差:由于随机抽样所造成的样本统计量与总体参数的差异4.概率:表示事件发生机会大小的统计指标,是一个介于0-1时间的值5.小概率事件:习惯上将P≦0.05或P≦0.01成为小概率事件,表示事件发生的可能性小6.构成比:表示某事物内部各组成部分在总体中所占的比重或分布7.率:说明某现象在一定条件下发生的频率或强度8.标准化法:采用同一标准,计算得到标准化率后再进行比较的方法9.流行:当一个地区(或单位)某病的发生率显著超过该病的历年的发病水平时10.发病率:表示一定时间内(通常是一年)特定人群中某病新病例出现的频率11.患病率:表示某以特定时间内被发现观察总人口中某病新旧病例所占的比值12.死亡率:指某人群在一定期间(通常为一年)内的死亡人数与该地区同期人口数的比值13.抽样调查:在研究人群中随机地抽取一部分个体进行调查,即调查人群中具有代表性的一部分,根据这种调查结果估计该人群某病的患病率或某些特征的情况14.食物中毒:是指摄入了还有生物性、化学性有毒有害物质的食物或把有毒有害物质当作食品摄入后引起的非传染性急性或亚急性疾病15.消毒:用化学、物理、生物等方法杀灭或消除外界环境中致病性微生物的一种措施16.病原携带者:没有任何临床症状但有排出病原体的人17.潜伏期:指病原体侵入机体到最早出现临床症状的这段时间18.空白对照:对照组不施加任何处理措施19.双盲:指研究者和研究对象都不知道研究对象的分组情况20.沾染:对照组的患者额外地接受了实验组的药物,使对照组疗效提高,人为地扩大对照组疗效的情况21.分类变量:按属性或类别事先将研究对象分组,然后清点各组研究对象的个数而得的数据22.Ⅰ类错误:在假设检验中拒绝一个实际成立的原假设所犯癿错误,其概率记为α23.Ⅱ类错误:在假设检验中接叐了一个实际不成立的原假设所犯的错误其概率记为β24.合理营养:全面而平衡的营养,每日膳食中各种营养素种类齐全,数量充足,相互间比例恰当25.RR:暴露组与非暴露组的发病率或死亡率之比,表示暴露某因素后易患某病的程度26.OR:含义与相对危险度相同,指暴露组发生某病的危险性为非暴露组的多少倍或百分之几简答题1.描述集中趋势三个指标的应用区别算数均数适用于对称分布,尤其是正态分布;几何均数适用于对数正态分布,如抗体滴度等呈倍数关系的资料,但应注意数值中出现零值或负值时不宜使用;中位数适用于各种分布的资料,特别是偏态分布资料,分布末端无确定值的资料2.相对数的应用注意计算相对数时应有足够的样本例数;不能用构成比代替率;正确计算总率;注意资料的可比性;样本率或构成比的比较需要进行假设检验3.统计表的制作要求(1)标题:简明扼要,清晰地反应统计表的核心内容,包括研究时间地点内容(2)标目:分横标目和纵标目,。
复习资料第一大题:单项选择题1、欲了解某市8岁小学生的身高情况,该市某小学二年级8岁小学生是:()∙ A. 样本∙ B. 有限总体∙ C. 无限总体∙ D. 个体2、抽样调查了某地4岁男孩的生长发育情况,得到身高均数为98.67cm,标准差为4.63cm,头围均数为46.23cm,标准差为3.16cm,欲比较两者的变异程度,下列结论正确的是:()∙ A. 身高变异程度大∙ B. 头围变异程度大∙ C. 身高和头围的变异程度相同∙ D. 由于两者的均数相差很大,无法比较两者的变异程度3、在计算方差时,若将各观察值同时减去某一常数后求得的方差:( )∙ A. 会变小∙ B. 会变大∙ C. 不变∙ D. 会出现负值4、某地2006年肝炎发病人数占当年传染病发病人数的10.1%,该指标为( )∙ A. 概率∙ B. 构成比∙C. 发病率∙D. 相对比5、两个分类变量的频数表资料作关联性分析,可用( )∙A. 积距相关或等级相关∙B. 积距相关或列联系数∙C. 列联系数或等级相关∙D. 只有等级相关6、对于服从双变量正态分布的资料,如果直线相关分析算出的值越大,则经回归分析得的相应的b 值:∙A. 越大∙B. 越小∙C. 比r小∙D. 可能较大也可能较小7、多组均数的两两比较中,若不用q检验而用t 检验,则:()∙A. 结果更合理∙B. 结果一样∙C. 会把一些无差别的总体判断为有差别∙D. 会把一些有差别的总体判断为无差别8、在比较甲、乙两种监测方法测量结果是否一直时,若采用配对设计秩和检验,甲、乙两法测量值之差中有-0.02、0.02,若差值绝对值的位次为3、4,则这两个差值的秩次分别为:()∙A. -3.5,3.5∙ B. -3.5,-3.5∙ C. 3.5,3.5∙ D. -3,49、Y=14+4X是1~7岁儿童以年龄(岁)估计体重(市斤)回归方程,若体重换成国际单位kg,则此方程:()∙ A. 截距改变∙ B. 回归系数改变∙ C. 两者都改变∙ D. 两者都不变10、某卫生局对其辖区内甲、乙两医院医疗技术人员的业务素质进行考核,在甲医院随机抽取100人,80人考核结果为优良;乙医院随机抽取150人,100人考核结果为优良。
统计学概述一、统计学的意义统计学是研究数据的收集、整理、分析的一门科学,是认识社会和自然现象客观规律数量特征的重要工具。
统计学方法就是帮助人们透过偶然现象认识其内在的规律性,揭示疾病或现象发生、发展规律,为预防疾病、促进健康提供客观依据。
二、统计学的基本概念(一)同质与变异同质是指被研究指标的影响因素相同。
变异是同质基础上的观察单位(亦称为个体)之间的差异。
(二)总体与样本总体是指根据研究目的确定的同质观察单位的全体。
样本从总体中随机抽取的部分观察单位,其测量值(或变量值)的集合。
(三)变量与变量值变量:确定总体后,研究者应对每个观察单位的某些特征进行测量或观察,这种特征称为变量,如:身高、体重等。
变量值:变量的测得值。
如身高150cm,体重50Kg等。
(四)参数与统计量参数是指总体特征的统计指标。
如某地健康成年男性的平均血红蛋白值。
统计量是指样本特征的统计指标。
如从某地健康成年男性中抽取一部分人的平均血红蛋白值。
(五)误差误差泛指测量值与真实值之差。
根据误差的性质和来源,统计工作中产生的误差主要有三种类型,即系统误差、随机测量误差、抽样误差。
1.系统误差:测量结果有倾向性。
查明原因,可以避免。
特点:①测量结果有倾向性。
如仪器、试剂、判定标准等。
②查明原因,可以避免。
2.随机测量误差:收集资料的过程中,即使避免了系统误差,但由于各种偶然因素造成的测量值与真实值不完全一致,这种误差称为随机测量误差。
特点:①随机误差没有大小和方向。
②不可避免。
3.抽样误差:由于随机抽样所引起的样本统计量与总体参数之间的差异以及各样本统计量之间的差异称为抽样误差。
特点:变异是绝对的,抽样误差不可避免。
原因:个体之间的差异;抽样时只能抽取总体中的一部分作为样本。
(六)概率(P)概率是描述某随机事件发生可能性大小的量值,常用符号P表示。
随机事件的概率在0~1之间,即0≤P≤1。
小概率事件:P≤0.05或P≤0.01的事件。
医学统计复习资料一、引言医学统计学是医学研究中非常重要的一门学科,它通过收集、整理和分析医学数据,帮助医学研究者更好地了解和解释医学现象。
本文将为您提供一份医学统计复习资料,帮助您系统地复习医学统计学的基本概念、方法和应用。
二、医学统计学的基本概念1. 统计学的定义:统计学是一门研究数据收集、整理、分析和解释的学科,它可以帮助我们从大量的数据中发现规律和趋势。
2. 研究设计与样本选择:在医学研究中,合理的研究设计和样本选择是确保研究结果准确性的关键。
常见的研究设计包括前瞻性研究、回顾性研究和随机对照试验等。
3. 变量类型与测量:医学研究中常见的变量类型包括定性变量和定量变量。
定性变量是指描述性质或特征的变量,如性别、病情等;定量变量是指能够用数字表示的变量,如年龄、血压等。
4. 描述统计学:描述统计学是对收集到的数据进行整理、总结和描述的方法。
常用的描述统计学方法包括频数分布表、直方图、均值和标准差等。
5. 推断统计学:推断统计学是通过对样本数据进行分析,从而对总体进行推断的方法。
常用的推断统计学方法包括假设检验、置信区间和相关分析等。
三、医学统计学的常用方法1. 假设检验:假设检验是用来判断样本数据是否支持某个假设的方法。
它包括设立原假设和备择假设、选择适当的检验统计量、计算P值并进行决策等步骤。
2. 置信区间:置信区间是用来估计总体参数的范围的方法。
它通常以一个区间来表示,如95%的置信区间表示有95%的把握总体参数落在该区间内。
3. 相关分析:相关分析用来研究两个变量之间的关系。
常见的相关分析方法包括皮尔逊相关系数和斯皮尔曼等级相关系数。
4. 方差分析:方差分析是用来比较两个或多个样本均值之间差异的方法。
它可以判断不同因素对样本均值的影响是否显著。
5. 生存分析:生存分析是用来研究时间至某一事件发生的概率的方法。
它常用于医学研究中的生存分析和生存率比较。
四、医学统计学的应用1. 流行病学研究:医学统计学在流行病学研究中起着重要作用,可以帮助研究者确定疾病的发病率、死亡率和风险因素等。
一、名词解释1.概率:在重复试验中,事件A的频率,随着试验次数的不断增加将愈来愈接近一个常数p,这个常数p就称为事件A出现的概率(probability),记作P(A)或P。
2。
抽样误差:由于抽样造成的统计量与参数之间的差别,特点是不能避免的,可用标准误描述其大小.3.医学参考值范围:是指绝大多数正常人的某指标值都在一定的范围内,其中最常用的是95%4.总体:是指根据研究目的确定的、同质的全部研究的观测值,即某个随机变量X可能取的值得全体。
4。
总体:根据研究目的所确定的同质观察单位的全体.5。
线性回归系数:直线回归方程y=a+bX的系数b称为回归系数,也就是回归直线的斜率(slope),表示X 每增加一个单位,Y 平均改变 b 个单位.二、填空题1。
统计资料的类型分:计量资料、计数资料、等级资料。
2.统计工作的步骤分为:统计设计、收集资料、整理资料、分析资料。
3。
统计表的结构为:标题、标目、线条、数字.4。
可信区间的两个要素是:准确度、精密度。
5。
方差分析的应用条件为:①各组样本是相互独立的随机样本②来自正态总体③各组总体方差相等,即方差齐性。
6。
描述正态分布曲线形态的指标是σ,描述t分布曲线形态的指标是ν。
7。
从集中趋势、离散趋势两个方面来描述计量资料的分布特征。
三、单项选择题(请把正确答案写在下面的表格里,每题2分,共20分)1.将90名高血压病人随机等分成三组后分别用 A、B 和 C 方法治疗,以服药前后血压的差值为疗效,欲比较三种方法的效果是否相同,正确的是 CA 作三个差值样本比较的 t 检验B 作三个差值样本比较的方差分析C 作配伍组设计资料的方差分析D 作两两比较的 t 检验2。
某地1952和1998年三种死因别死亡率绘制成统计图,宜用 BA 直条图B 百分条图C 圆图D 直方图3。
下列哪个变量为标准正态变量 BA B C D4.某医院对30名麻疹易感儿童经气溶胶免疫一个月后,测得其血凝抑制抗体滴度,最合适描述其集中趋势的指标是 BA 均数B 几何均数C 标准差 D中位数5.配对设计的目的 DA 提高测量精度 B操作方便 C为了可以使用t检验D提高组间可比性6.测定尿铅含量有甲乙两种方法.现用甲乙两法检测10份相同样品,要比较两法测得的结果有无差别,宜用 AA 配对设计t检验B 成组设计的t检验 C均数的u检验 D 方差分析7。
第一章2选1总体:总体(population)是根据研究目的确定的同质观察单位(研究对象)的全体,实际上是某一变量值的集合。
可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
总体population根据研究目的而确定的同质观察单位的全体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
样本sample从总体中随机抽得的部分观察单位,其实测值的集合。
3选1小概率事件:我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件。
P值:P 值即概率,反映某一事件发生的可能性大小。
统计学根据显著性检验方法所得到的P 值反应结果真实程度,一般以P ≤ 0.05 认为有统计学意义, P ≤0.01 认为有高度统计学意义,其含义是样本间的差异由抽样误差所致的概率等于或小于0.05 或0.01。
P值是:1) 一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。
2) 拒绝原假设的最小显著性水平。
3) 观察到的(实例的) 显著性水平。
4) 表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。
小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实际实验中是不会发生的,数学上称之小概率原理,也称为小概率的实际不可能性原理。
统计学中,一般认为等于或小于0.05或0.01的概率为小概率。
资料的类型(3选1)(1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。
计量资料亦称定量资料、测量资料。
.其变量值是定量的,表现为数值大小,一般有度量衡单位。
如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等。
计量资料measurement data定量资料quantitative data数值变量资料numerical variable为观测每个观察单位某项指标的大小,而获得的资料。
医学统计学总复习1、几种集中趋势指标的适用条件均数—正态分布或近似正态分布;几何均数—呈正偏态分布,但数据经过对数变换后呈正态分布的资料,也可用于观察值之间呈倍数或近似倍数变化(等比关系)的资料;中位数—偏态分布资料以及频数分布的一端或两端无确切数据资料。
几种离散程度指标的适用条件:极差(全距)—常用于描述单峰对称分布小样本资料的变异程度或用于初步了解资料。
四分位数间距—常用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。
方差和标准差—正态分布和近似正态分布。
变异系数—比较计量单位不同以及均数相差悬殊的几组资料。
21.标准正态分布(u分布)与t分布的异同:相同点;集中位置都是0,都是单峰分布,是对称分布,标准正态分布是t分布的特例(自由度是无限大时)。
不同点:t分布是一簇分布曲线,t分布的曲线形态是随自由度的变化而变化,标准正态分布的曲线的形态不变,是固定不变的,因为它的形状参数为1。
3.为什么不可以说“总体均数有95%的概率落在这个区间里”?样调查的成本会更高5.t检验的应用条件为:▪①在单样本检验中,总体标准差未知且样本含量较小(n<50)时,要求样本来自正态分布总体;▪②成组检验要求两组资料相应的总体分别服从正态分布且方差齐。
当不满足这些条件时可使用变量变换将数据转换成正态或者近似正态分布,或使用秩和检验。
两小样本均数比较时,若两总体方差不相等,还可使用t’检验。
6.假设检验中的注意事项▪要保证组间的可比性▪要根据研究目的、设计类型和资料类型选用适当的检验方法▪正确理解假设检验中概率P值的含义▪结论不能绝对化▪单、双侧检验应事先确定7.方差分析的基本思想把全部观察值间的变异按设计类型的不同,分解成两个或多个组成部分,然后将各部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义。
8.方差分析的应用条件▪ 1. 各样本是相互独立的随机样本,均服从正态分布▪ 2. 各样本的总体方差相等,即方差齐性独立、正态、方差齐性如果方差不齐时,可采用F’检验或秩和检验。
《医学统计学》复习资料一、名词解释1.计量资料( measurement data):是用定量方法测量观察对象指标数值的大小所得到的资料。
通常有单位。
又称为数值变量资料。
2.计数资料(enumeration data):通常先将研究对象按观察指标的性质和类别分类,然后清点个数得到的资料。
又称分类变量资料。
如患病未患病。
3.等级资料(ranked data,等级分组资料):指研究资料既有计数资料的特性,又有半定量的性质,称等级(分组)资料,又称半定量资料。
4、同质(homogeneity)指观察单位研究指标的影响因素相同(即同质指研究指标的影响因素性质相同)。
5、变异(heterogeneity/variance):指同质的个体之间的差异,来源于一些未加控制或无法控制的甚至不明原因的因素。
6、总体(population):根据研究目的确定的同质观察单位的全体,即按研究目的确定的同质观察单位某项变量值的集合。
7、样本(sample):从总体中随机抽取的有代表性的一部分观察单位组成样本(是某项指标的实测值组成样本)。
8、抽样( sampling ):从总体中抽取部分个体的过程。
9、完全随机设计(completely random design):指将受试对象随机分配到处理组、对照组中,或从不同总体中随机抽样进行研究。
10、配对设计(paired design):指将受试对象按配对条件配成对子,称为配对样本。
11、●随机区组设计(randomized block design):随机区组设计是配对设计的扩展。
●随机事件(random event):是指随机现象的某个可能的观察结果或可能发生也可能不发生的事件。
12、误差(error):泛指观测值与真实值之差,统计量与总体参数之差。
13、系统误差(system error):观测值倾向性的偏大或偏小。
影响准确性,须克服。
14、抽样误差(sampling error) :由抽样不同引起的样本均数(或其他统计量)与总体均数(或其他参数)之间的差异称作抽样误差;产生原因包括个体差异和抽样时只能抽取部分总体做样本;虽然不可避免,但可以用统计方法进行分析。
复习资料第一大题:单项选择题1、欲了解某市8岁小学生的身高情况,该市某小学二年级8岁小学生是:( )A. 样本B. 有限总体C. 无限总体D. 个体2、抽样调查了某地4岁男孩的生长发育情况,得到身高均数为98.67cm ,标准差为 4.63cm ,头围均数为46.23cm ,标准差为3.16cm ,欲比较两者的变异程度,下列结论正确的是:( )A. 身高变异程度大B. 头围变异程度大C. 身高和头围的变异程度相同D. 由于两者的均数相差很大,无法比较两者的变异程度3、在计算方差时,若将各观察值同时减去某一常数后求得的方差:( )A. 会变小B. 会变大C. 不变D. 会出现负值4、某地2006年肝炎发病人数占当年传染病发病人数的%,该指标为( )A. 概率B. 构成比C. 发病率D. 相对比5、两个分类变量的频数表资料作关联性分析,可用 ( )A. 积距相关或等级相关B. 积距相关或列联系数C. 列联系数或等级相关D. 只有等级相关6、对于服从双变量正态分布的资料,如果直线相关分析算出的值越大,则经回归分析得的相应的b 值:A. 越大B. 越小C. 比 r 小D. 可能较大也可能较小7、多组均数的两两比较中,若不用q 检验而用t 检验,则:( )A. 结果更合理B. 结果一样C. 会把一些无差别的总体判断为有差别D. 会把一些有差别的总体判断为无差别8、在比较甲、乙两种监测方法测量结果是否一直时,若采用配对设计秩和检验,甲、乙两法测量值之差中有、,若差值绝对值的位次为3、4,则这两个差值的秩次分别为:( )A. ,B. ,C. ,D. -3,49、Y =14+4X 是1~7岁儿童以年龄(岁)估计体重(市斤)回归方程,若体重换成国际单位kg ,则此方程:( )A. 截距改变B. 回归系数改变C. 两者都改变D. 两者都不变10、某卫生局对其辖区内甲、乙两医院医疗技术人员的业务素质进行考核,在甲医院随机抽取100人,80人考核结果为优良;乙医院随机抽取150人,100人考核结果为优良。
本题中资料类型与设计类型分别为:A. 定量资料 成组设计B. 定量资料 配对设计C. 分类资料 成组设计D. 分类资料 配对设计11、在某农村地区随机抽取100名儿童,进行蛔虫感染情况粪检,结果50名儿童蛔虫卵粪检为阳性,则该地儿童蛔虫卵粪检总体阳性率的95%的置信区间为:( )A. 35%-60%B. 37%-63%C. 30%-70%D. 40%-60%12、两样本均数比较,经t 检验,差别有显著性时,P 越小,说明:( )A. 两样本均数差别越大B. 两总体均数差别越大C. 越有理由认为两总体均数不同D. 越有理由认为两样本均数不同13、用于推断总体特征的样本应该是: ( )A. 从总体中随机抽取的一部分B. 从总体中随便抽取的一部分C. 总体中有价值的一部分D. 总体中便于测量的一部分14、某研究欲了解男性高血压患者与女性高血压患者血脂是否有差异,从某市6家医院随机调查了400人,测量血脂水平,经t 检验,得P <,有统计学差异,由此推断该地男、女高血压患者血脂总体均数有差别,这里所谓有统计学差异是指:( )A. 两样本均数差别有统计学差异B. 两总体均数差别有统计学差异C. 两样本均数和两总体均数的差别有统计学差异D. 其是有一个样本均数和总体均数有统计学差异15、下列关于医学参考值范围的叙述不正确的是:()A. 没有疾病的人的解剖、生理、生化等数据的波动范围B. 习惯以包含95%或99%的观察值为界值C. 根据专业知识确定单侧范围或双侧范围D. 资料为正态分布时,选择正态分布法计算16、假设某地35岁以上正常成年男性收缩压的总体均数为,标准差为,后者反映的是:()A. 个体变异的大小B. 抽样误差的大小C. 系统误差的大小D. 总体的平均水平17、在计算标准化率时,标准人口应选择:()A. 文献中经常涉及的非目标人群B. 方便获得、与目标人群不同类的人群C. 前人研究过、与目标人群不相关的人群D. 有代表性的、较稳定的、数量较大的人群18、Wilcoxon两样本比较的秩和检验在编秩时,若遇到两组中有相同数值,应:()A. 不计秩次B. 依次序编秩C. 取其平均秩次D. 以平均秩次的整数为秩19、下列关于直线回归的说法中,错误的是:()A. 回归分析前应绘制散点图B. 应变量与自变量关系应为线性C. 回归方程可用来描述两定量变量间数量依存的关系D. 假设检验的 P 值能够反映自变量对应变量数量上的影响大小20、下列关于样本含量的叙述,正确的是: ( )A. 样本含量越大越好B. 以实际可以收集到的样本例数为准C. 时间、财力、人力等条件允许下的最大样本例数D. 一定的推断精度和检验效能下的最少样本例数21、均数与标准差的关系:( )A. 均数越大,标准差越大B. 均数越大,标准差越小C. 标准差越大,均数对各变量值的代表性越好D. 标准差越小,均数对各变量值的代表性越好22、两样本均数比较,经t 检验,差别有显著性时,P 越小,说明:( )A. 两个样本均数差别越大B. 两总体均数差别越大C. 越有理由认为两总体均数不同D. 越有理由认为两样本均数不同23、成组设计的方差分析中,有( )A. MS 组间=MS 组内B. SS 组内=SS 组间C. MS 总=MS 组间+MS 组内D. SS 总=SS 组间+SS 组内24、比较身高和体重两组数据变异度大小宜采用:( )A. 变异系数(CV )B. 方差(S )C. 极差(R )D. 四分位数间距25、正态近似法估计总体率的95%置信区间为:( )A. )96.1,96.1(nSPnSP+-B. )58.2,58.2(nSPnSP+-C. )96.1,96.1(PPSPSP+-D. )58.2,58.2(PPSPSP+-26、成组设计四格表资料的X2检验,选用基本公式()TTA22-=χ的条件A. A≥5B. T≥5C. A≥5且T≥5D. n≥40且T≥527、对于一组服从双变量正态分布的资料,经直线相关分析得相关系数=1,则有: ( )A. SS总=SS残B. SS残=SS回C. SS总=SS回D. SS总>SS回28、3. 由两样本均数的差别推断两总体均数的差别,H 0 :μ1 =μ2,H 1 :μ1 ≠μ2 。
t 检验结果P <,拒绝H 0 ,接受H 1 ,是因为:( )A. 第一型错误小于5%B. H 0成立的可能性小于5%C. 第二型错误小于5%D. H 1成立的可能性大于95%29、正态分布曲线下,横轴上,从均数μ到μ S 的面积为:( )A. 95%B. 45%C. %D. %30、符合t 检验条件的数值变量资料如果采用秩和检验,则下列说法正确的是:A. 第一类错误增大B. 第二类错误增大C. 第一类错误减少D. 第二类错误减少31、实验设计应遵循的基本原则是:A. 随机化、对照、盲法B. 随机化、盲法、配对C. 随机化、重复、配对D. 随机化、对照、重复32、以下资料类型不宜用秩和检验的是:( )A. 等级资料B. 二项分布C. 极度偏态分布资料D. 数据一端不确定资料33、某研究检测了男性和女性红细胞数,经检验该资料总体方差相等,欲比较男性和女性的红细胞数有无差异,取双侧a=,经成组t检验得P <,则:()A. 可认为男性和女性的红细胞均数差异有统计学意义B. 可认为男性和女性的红细胞均数无差异C. 可认为男性和女性的红细胞均数差异很大D. 尚不能认为男性和女性的红细胞均数有差异34、根据500例正常人的发铅原始数据(偏态分布),计算其95%医学参考值范围应采用:( )A. 双侧正态分布法B. 双侧百分位数法C. 单上侧百分位数法D. 单下侧百分位数法35、用于推断总体特征的样本应该是: ( )A. 从总体中随机抽取的一部分B. 从总体中随便抽取的一部分C. 总体中有价值的一部分D. 总体中便于测量的一部分36、宜用均数和标准差进行统计描述的资料分布类型是:( )A. 正态分布B. 对数正态分布C. 正偏态分布D. 两端无确切值的分布37、关于t分布特征的叙述错误的是:( )A. 分布为单峰分布B. t分布曲线是一簇曲线C. 以0为中心,左右对称D. 自由度越大,t分布曲线的峰部越低,尾部越高38、随机抽取某市100名10岁女孩,测得其体重均数为35kg,若以一定的概率估计该市10岁女孩体重的总体均数,宜采用:()A. 点估计B. 区间估计C. 假设检验D. 医学参考值范围39、下列关于样本含量的叙述,正确的是:()A. 样本含量越大越好B. 以实际可以收集到的样本例数为准C. 以实际可以收集到的样本例数为准D. 一定的推断精度和检验效能下的最少样本例数40、方差分析的应用条件:()A. 样本小,来自正态总体,样本间相互独立B. 样本来自正态总体,样本例数足够小C. 样本例数小,样本相互独立D. 样本来自正态总体,方差齐,样本数据独立41、用最小二乘法建立直线回归方程的原则是各实测点距回归直线的:()A. 纵向距离平方和最小B. 垂直距离的和最小C. 垂直距离的平方和最小D. 纵向距离之和最小42、若以成年男性血红蛋白低于120g/L为贫血的判断标准,调查某地成年男性1000人,记录每人是否患有贫血,结果有19名贫血患者,981名非贫血患者,则该资料的类型为:()A. 定量资料B. 二项分类资料C. 有序多分类资料D. 无序多分类资料43、对两个地区恶性肿瘤发病率进行比较时,应该:( )A. 排除两地人口年龄构成不同的影晌B. 排除两地总人口数不同的影响C. 排除各年龄组死亡人数不同的影响D. 排除抽样误差44、用某疗法治疗急性腰扭伤病人30例,两周后25例患者痊愈,由此可认为:( )A. 该疗法疗效好B. 该疗法疗效一般C. 因无对照,尚不能说明该疗法的疗效如何D. 因冶疗例数少,尚不能说明该疗法的疗效如何45、在计算标准化率时,标准人口应选择:( )A. 有代表性的、较稳定的、数量较大的人群B. 方便获得、与目标人群不同类的人群C. 前人研究过、与目标人群不相关的人群D. 根据研究目的随机抽样获得的小样本人群46、不受年龄构成的影响,能够反映整个人群死亡水平的指标是:( )A. 死因别死亡率B. 粗死亡率C. 标准化死亡率D. 年龄别死亡率47、描述血清抗体滴度资料的平均水平宜选用:( )A. 均数B. 中位数C. 几何均数D. 标准差48、抽样调查某市正常成年男性与女性各300人,测得其血红蛋白含量,欲比较男性与女性的血红蛋白含量有无差异(假设男性和女性的血红蛋白的方差相等),应采用:()A. 样本均数与总体均数比较的t检验B. 配对t检验C. 成组t检验D. 成组设计两样本比较的秩和检验49、完全随机设计的方差分析组间变异源于:()A. 个体变异B. 随机变异C. 处理因素D. 随机变异和处理因素50、某医生对患某病的10例成年男性患者的血清蛋白含量与血红蛋白含量资料进行分析,得到两变量的相关系数为r=且p<,下列说法正确的是:()A. 两变量呈正相关关系B. 两变量呈负相关关系C. 两变量不存在相关关系D. 两变量间相关关系密切程度不高51、下列分布中,均数等于方差的是:()A. X2B. u分布C. 二项分布D. Poisson分布52、已知男性的钩虫感染率高于女性,今欲比较甲,乙两乡居民的钩虫感染率,最合适的方法是: ( )A. 分性别进行比较B. 两个率比较的X2检验C. 不具可比性,不能比较D. 对性别进行标准化后再比较53、在同一正态总体中随机抽样,总体均数有90%的可能在:()A.XSX96.1±B.XSX64.1±C. SX96.1±D. SX64.1±54、正态性检验,按α=水准,认为总体不服从正态分布,此时若推断的错,其错误的概率为:()A. 等于B. β,而β未知C. 等于D. 1-β,且β未知55、对于R×C行列表的X2检验,其自由度计算公式为:()A. R-1B. C-1C. (R-1)(C-1)D. R×C-156、某研究欲比较正常人(n1=10)与单纯肥胖者(n2=8)血浆总皮质醇是否有差异,采用秩和检验。