重庆医科大学医学统计学1
- 格式:doc
- 大小:128.50 KB
- 文档页数:7
第一章绪论1、统计学的定义:统计学研究数据的收集、整理、分析的一门学科。
医学统计学:医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理、方法,研究医学资料的搜集、整理、分析和推断的一门科学。
2、医学统计研究三个步骤:研究设计、资料分析、结论3、(必考的)几个概念:(1)同质:性质相同异质:性质不同观察单位间的同质性是进行研究的前提同质是相对的(不同研究中或同一研究中不同观察指标对观察对象的同质性的要求不同)(2)个体变异:同质个体间的差异。
变异的两个方面:不同观察单位(个体)间的差别;同一个体在不同阶段的差别(重复测量)个体变异是普遍存在的;个体变异是有规律的。
注意:由于个体变异的存在,同质个体指标的取值会存在差异!(例:体温波动)(3)总体:按研究目的所确定的同质研究对象的全体。
有限总体:有时间、空间的概念,观察单位有限无限总体:无时间、空间的概念(例:某种治疗措施的效果,就包括接受这种治疗措施的所有病人过去、现在、未来,因而观察单位无限)(4)个体:组成总体的基本单位。
样本:从研究总体中随机抽取具有代表性的部分观察单位随机性的三个体现:抽样随机、分组随机、试验顺序随机(5)随机变量:观察对象个体的特征或测量的结果观察结果在一定范围内以一定的概率分布随机取值的变量,表示随机现象。
在一定条件下,并不总是出现相同结果变量值:个体观察指标具体取值(6)总体参数:总体的统计指标或特征值固有的、不变的,但往往是未知的(7)样本统计量:由样本所算出的统计指标或特征值已知的,且随着试验的不同而不同,但分布是有规律的(8)样本含量:样本中包含个体的数量(9)频率f=m/n,f的值随n的增大接近常数p,概率P(A)=p即:频率为一变量,是样本统计量;概率为常数,是一总体参数小概率事件:概率小于等于0.05小概率原理:小概率事件在一次试验中是不会发生的(10)抽样误差:两个表现:样本统计量与总体参数间的差别;不同样本统计量间的差别两个原因:个体变异;抽样过程抽样误差不可避免,但是有规律。
重庆医科大学200 —200 学年度 学期《医学统计学》考试试卷(一)一.名词解释(15分,每题3分) 1. 样本与总体 2. 标准差与标准误 3. I 类错误与II 类错误4. x ±1.96s 与x ±⋅)(05.0νt x s ⋅5. 直线相关分析与直线回归分析二.选择题(只选一个正确答案或最佳答案)(30分,每题2分)1. 某检验师测定了240例正常人白、球蛋白比例,获得的资料为___。
A 、数值变量资料 B 、分类变量资料 C 、相对比资料D 、血清学滴度资料E 、二项分布资料 2.在正态分布曲线下,计算{}σμμ96.1+<≤x p 的概率为___________。
A. 0.500 B. 0.475 C. 0.450 D. 0.050 E. 0.0103.某医师观察环丙沙星治疗下呼吸道感染者131例的临床疗效,结果见下表。
表1 环丙沙星治疗下呼吸道感染的临床疗效病种 总例数 痊愈 显效 好转 无效 无效率% 肺炎 慢支炎感染63 6830 2121 2411 151 81.59 11.76欲分析两病种疗效,应采用___________。
A. t 检验B.秩和检验C. 方差分析D. χ2检验E.q 检验 4. 对欲比较的样本测定资料进行参数统计假设检验的目的是____。
A .判断样本对总体是否具有代表性 B.推断各总体水平参数是否相等C.判断表达样本平均水平的统计量有无显著性差别D.对测定方法的精密度、准确度、灵敏度提出质控要求E.对总体水平进行区间估计5. 四格表中,如果有一个实际数为0 ,________________。
A . 根本不能检验B . 就不能作2χ检验 C . 仍然能够作2χ检验 D . 就必须用校正2χ检验 E . 还不能决定是否可以作2χ检验 6. 统计假设检验中常使用P 值作为推断的依据,P 值的含义是____。
A .表达对比组数据来自同一总体的概率 B .表达对比组抽样误差的大小 C .表达对比组统计量不相同的概率 D .拒绝参数相等假设实际犯Ⅰ类错误的概率 E. 接受参数相等假设实际犯Ⅱ类错误的概率7.完全随机设计方差分析中,引起数据变异的原因可能区分为___________A.个体因素与随机(误差)因素B.处理因素与区组因素C.样本含量与把握度D.处理因素与随机(误差)因素E.个体因素与处理因素8.方差分析的应用条件之一是方差齐性,所谓方差齐性是指__________ A.各比较组的样本方差相等 B.各比较组相应的总体方差相等C.组内方差=组间方差D.总方差=各组方差之和E.各组自由度相等 9.对x,y 两个变量作直线相关分析__________A.要求x,y 呈双变量正态分布B. 只要求x 服从正态分布C.只要求y 服从正态分布D.只要求x,y 是定量资料E.对x,y 无要求10.现比较两组患者血中SOD 活性的含量,(见下表),探讨两组间差别的显著性,应采用_______。
重庆医科大学200 —200 学年度学期《医学统计学》考试试卷参考答案一、名词解释(15分,每题3分,共15分)1. 样本与总体样本:以某方式按预先规定的概率从总体中随机抽取的、具有足够数量的、能代表总体分布特征的一部分观察单位某指标数据的集合。
总体:根据研究目的所确定的同性质的全部观察单位某一指标(或某些因素及结果)测量值的集合。
根据总体集合所包括元素是否有限,可分为有限总体与无限总体;总体具有特定的分布特征及参数;根据研究目的从总体中抽取部分有代表性的样本,用样本统计量推断总体参数3. I类错误与II类错误假设检验中,无论是接受还是拒绝原假设均有可能犯错。
如拒绝了一个实际成立的原假设,所犯错误称为Ⅰ类错误,其概率记为α;如接受了一个实际不成立的原假设,所犯错误称为Ⅱ类错误,其概率记为β;当样本含量确定时,α越大,则β越小,反之,α越小,则β越大,如拟同时降低α与β,则需增大样本含量。
4. x ±1.96s 与x ±⋅)(05.0νt x s ⋅X ±1.96S :从正态总体中抽样,样本含量较大时,观测值95%的波动范围;X ±1.96x S :从正态总体中抽样,样本含量较小时,总体均数95%的可信区间(置信区间)5. 直线相关分析与直线回归分析5、直线相关与直线回归1)区别资料要求:回归要求因变量Y 在给定x=x0的条件下,服从正态分布; X 是可以精确测量和严格控制的变量,一般称为Ⅰ型回归。
相关要求两个变量X 、Y 服从双变量正态分布。
这种资料若进行回归分析称为Ⅱ型回归。
可以计算两个回归方程;应用:相关分析主要是描述两个变量之间线性关系的密切程度和方向;回归分析说明两变量间依存变化的数量关系,不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制统计量:回归分析中主要统计量为截距a 和回归系数b ,相关分析统计量为相关系数r 。
Δ总体与样本(population and sample):A:根据研究目的确定的同质研究对象的全体(集合)。
总体具有特定的分布特征及参数。
分有限总体与无限总体;B:从总体中随机抽取的部分观察单位;More:根据研究目的,从总体中抽取部分有代表性的样本,用样本统计量推断总体参数。
Δ标准差与标准误(standard deviation & standard error):s: 表示单个测量值对其均数()的离散程度,;:表示样本统计量对总体参数的离散程度,;More:标准差越大,标准误越小; 标准差用于描述观测值变异范围;标准误用来推断估计总体参数的可信区间和假设检验; 计算公式: 变量值标准差样本均数标准误阳性结果标准差样本阳性率的标准误。
ΔⅠ型错误和Ⅱ型错误(typeⅠ error & type Ⅱ error):Ⅰ:在假设检验中拒绝一个实际成立的原假设所犯的错误,其概率记为α;Ⅱ:在假设检验中接受了一个实际不成立的原假设所犯的错误,其概率记为β;More:假设检验中,无论是接受还是拒绝原假设均有可能犯错。
当样本含量确定时,α越大,则β越小,反之,α越小β越大。
增大样本量可同时减低α和β。
Δ与::从正态总体中抽样,样本含量较大时,观测值为95%的波动范围;:从正态总体中抽样,样本含量较大时,总体均数95%的可信区间;Δ计量资料与计数资料(quantitative data & qualitative data):A(定量、数值变量):每个观察对象通过定量测定的方法都有一个确切的值,通常有单位,但也有例外(例如:淋巴细胞转化率)。
EG: 医学中:身高、体重、血压、血红蛋白值等;B(定性、分类变量):按照研究对象的某个特征进行分组,然后分组计数所获得的资料。
EG:男 25 女35;等级分组资料(计数资料的一种):按照程度递增或递减。
EG:癌症分期:早、中、晚;More:判断资料类型的标准:看每个观察对象是否有一个确切的值,有:计量;无:计数;计量资料、计数资料和等级分组资料不可以相互转化,只能高级向低级转化(高精度向低精度)。
实习1 计量资料的描述一、目的与要求1、掌握计量资料频数表的编制方法和用途;2、掌握均数、中位数、几何均数的意义、应用条件及计算;3、掌握极差、四分位数间距、方差、标准差、变异系数的意义、应用条件及计算;4、掌握百分位数的含义及计算方法。
二、学时3 学时。
三、案例1、2005年某市城镇8岁男孩握力(Kg)测验结果如表1-1所示。
表1-1120例8岁男孩握力(Kg)测验结果8.6 10.714.6 13.515.09.415.514.011.2 11.217.5 9.28.4 12.88.611.08.69.713.5 16.811.1 12.510.5 12.08.011.012.07.014.0 11.513.5 6.515.0 12.211.511.911.413.511.3 15.013.5 13.414.2 11.38.09.212.58.5 6.4 10.311.5 11.212.0 9.010.013.511.47.413.2 11.810.0 12.57.5 14.08.214.610.011.58.5 10.010.4 12.49.6 13.211.2 5.511.012.49.5 10.315.5 12.59.0 7.211.29.98.710.211.3 12.413.2 9.410.2 12.210.514.512.015.09.7 6.37.1 10.010.1 11.59.87.812.09.712.0 10.013.5 7.512.5 10.516.09.810.011.514.0 7.4 问题1:编制握力数据的频数表,并绘制直方图;问题2:计算握力数据的算术均数及中位数;哪一个指标表达集中趋势更合理,为什么?问题3:计算极差、方差、标准差、变异系数;问题4:计算P2.5,P50,P97.5,并计算四分位数间距;问题5:试计算样本中握力小于sx 的男孩占本次测验全部男孩的比例。
重庆医科大学医学统计学1一.名词解释1. 调查讨论与试验讨论调查讨论是指讨论者较被动地举行观看,希翼尽可能削减或控制非试验因素干扰的讨论。
调查讨论可以在相应的人群中随机抽样,但不能随机分组,只能按不同的裸露水平分组,与试验讨论相比,调查中涉及的混杂因素较多,所需样本量较大,资料必需做多因素分析。
试验讨论是指讨论者主动支配试验因素,控制试验条件,排解非试验因素干扰的讨论。
也是指对讨论对象人为施加干预的讨论。
在干预前,讨论对象来自同一总体,讨论者通过随机分组,对不同处理组的讨论对象施加不同的干预,从而比较不同干预措施结果间的差异。
调查讨论常为试验讨论提供线索,试验讨论成绩又须回到现场实践中去验证。
两者的区分为:1.处理因素能否由讨论者主动设置。
2.对象能否随机分组。
3.样本大小不同。
4.混杂因素多少不同。
5.统计办法应用不同。
6.严谨性,重临性不同。
2. 分层抽样,整群抽样,分层整群抽样分层抽样:是先将总体所有个体按某种特征分成若干层,再从每一层内随机抽取一定数量的个体合起来组成样本。
整群抽样:是先将总体分成若干群体,形成一个抽样框,从中随机抽取几个群体组成样本,对抽中群体的所有个体举行调查。
分层整群抽样:先将总体所有个体按某种特征分为若干层,在全部层内实施整群随机抽样的办法。
分层抽样的优点:抽样误差小;对不同层可采纳不同抽样办法;可对不同层自立举行分析。
缺点:需要把握对抽样对象的分层特征;抽样工作量大。
使用范围:主要用于控制重要混杂因素影响。
整群抽样的优点:便于组织;节约经费;简单控制调查质量。
缺点:抽样误差较大;群间变异较大;抽样误差较大。
使用范围:适用抽样总体很大的状况。
3. 数值变量资料与分类变量资料数值变量资料(计量资料):是指通过度量衡的办法,测量每一个观看单位的某项指标的量的大小而得到的一系列数据资料,其特点是多有度量单位和多为延续性资料。
分类变量资料(计数变量):指将全体观看单位根据某种性质或特征分组,然后再分离清点各组观看单位的个数而得到的数据资料,其特点是没有度量衡单位和多为间断性资料。
一. 名词解释1. 调查研究与实验研究调查研究是指研究者较被动地进行观察,希望尽可能减少或控制非实验因素干扰的研究。
调查研究可以在相应的人群中随机抽样,但不能随机分组,只能按不同的暴露水平分组,与实验研究相比,调查中涉及的混杂因素较多,所需样本量较大,资料必须做多因素分析。
实验研究是指研究者主动安排实验因素,控制实验条件,排除非实验因素干扰的研究。
也是指对研究对象人为施加干预的研究。
在干预前,研究对象来自同一总体,研究者通过随机分组,对不同处理组的研究对象施加不同的干预,从而比较不同干预措施结果间的差异。
调查研究常为实验研究提供线索,实验研究成果又须回到现场实践中去验证。
两者的区别为:1.处理因素能否由研究者主动设置。
2.对象能否随机分组。
3.样本大小不同。
4.混杂因素多少不同。
5.统计方法应用不同。
6.严谨性,重现性不同。
2. 分层抽样,整群抽样,分层整群抽样分层抽样:是先将总体全部个体按某种特征分成若干层,再从每一层内随机抽取一定数量的个体合起来组成样本。
整群抽样:是先将总体分成若干群体,形成一个抽样框,从中随机抽取几个群体组成样本,对抽中群体的全部个体进行调查。
分层整群抽样:先将总体全部个体按某种特征分为若干层,在所有层内实施整群随机抽样的方法。
分层抽样的优点:抽样误差小;对不同层可采用不同抽样方法;可对不同层独立进行分析。
缺点:需要掌握对抽样对象的分层特征;抽样工作量大。
使用范围:主要用于控制重要混杂因素影响。
整群抽样的优点:便于组织;节省经费;容易控制调查质量。
缺点:抽样误差较大;群间变异较大;抽样误差较大。
使用范围:适用抽样总体很大的情况。
3. 数值变量资料与分类变量资料数值变量资料(计量资料):是指通过度量衡的方法,测量每一个观察单位的某项指标的量的大小而得到的一系列数据资料,其特点是多有度量单位和多为连续性资料。
分类变量资料(计数变量):指将全体观察单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数而得到的数据资料,其特点是没有度量衡单位和多为间断性资料。
4. 点估计值与95%可信区间点估计值:就是直接用样本统计量的一个数值来估计总体参数,例,基于一份随机样本,用均数x 作为总体均数u 的一个估计,用样本的标准S 作为总体标准差o 的一个估计,即直接用样本统计量X+_S 作为总体参数u+-0的估计值。
点估计方法简单,但未考虑抽样误差,故难以反映估计值对其真值的代表性。
区间估计:将样本统计量和标准误结合起来,按预先给定的概率(1—a )所确定的一个包含未知总体参数的范围,该范围为总体参数的置信区间(CI )。
预先给定的概率(1—a )称为可信度或置信度,常取95%或99%。
95%可信区间:按预先给定的概率0.95用一个区间来估计总体均数,这个区间称为可信度0.95的可信区间(CI )或置信区间,预先给定的0.95称为可信度或置信度。
5. X+-1.96S 与X+-Ta/2 S xs x 96.1±:表示从正态总体中抽样,样本含量较大时,观测值双侧95%的波动范围,常用来制定参考范围,判断某人的某一指标是否正常。
x v s t x ⋅±)(2/α:从正态总体中抽样,样本含量较大(小)时,按照预先给定的概率a 确定的总体均值的(1—a )的可信区间,表示该区间有(1—a )的可能性包括总体均数。
6. OR 与 RRRR :相对危险度,表示暴露于某种危险因素观察对象的发病(死亡)危险度(P1)与无暴露因素组(或低暴露)观察对象发病危险度(P0)的比值。
当RR=1时,表示该因素对疾病的发病无影响; 当RR>1时,表示该因素为危险因素,它使发病危险度增大; 当RR<1时,表示该因素为保护因素,它使发病危险度减小。
优势:指某病患者组(或非患者组)中某种危险因素存在的比例P (e )与不存在的比例(1-P(e))的比值称为优势。
OR :优势比,病例组有暴露因素的优势与对照组有暴露因素的优势比值。
OR>1表示有暴露因素的人患某病的机会或优势与对照组相比增加,为危险因子。
OR<1表示有暴露因素的人患疾病的机会(或优势)减少,为保护因子。
OR=1意味无论暴露出线与否,与疾病关系不大。
OR 为比值比,指病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非暴露人数的比值。
是反映疾病与暴露之间关联强度的指标。
RR 为相对危险度,是反映暴露与发病(死亡)关联强度的最有用的指标。
表明暴露组发病或死亡的危险是非暴露组的多少倍。
RR 值越大,表明暴露的效应越大,暴露与结局关联的强度越大。
两者都是指暴露者的疾病危险性为非暴露者疾病危险性的多少倍,但是RR 多用于队列研究,OR 用于病例对照研究。
7. r 与 br :描述样本资料的两个变量之间线性相关性的相关系数称样本线性相关系数,用符号r 表示。
在实际工作中,总体线性相关系数是未知的,通常用样本线性相关系数r 进行估计,其取值范围为-1到1,r>0表示正相关;r<0表示负相关,r=0表示不相关。
相关系数的绝对值越接近1,来那个个变量 的线性相关程度越强;相关系数越接近0,两个变量的线性关系越弱,r=1时称完全正相关,r=-1称完全负相关。
其资料条件为双变量正态分布或Y 为正态分布。
b :样本直线回归系数,当X 变换一个单位时Y 的平均改变的估计值,b>0,Y 随X 的增大而增大,b<0,Y 随X 的减小而减小。
b=0,X 与Y 无直接关系。
其资料条件为双变量正态分布。
两者相同点:1.均为数量协同变化研究2.同一资料,两者方向一致3,同一资料,两者假设检验一致4均有一定的线性范围5bxy 。
Byx=r2 两者不同点:1含义不同2两者表达式不同3两者应用范围不同:直线相关应用于流行病学,探索性实验研究,直线回归应用于实验室工作曲线研究。
b r (1)概念 样本直线回归系数 样本直线相关系数(2)计算公式 ∑∑∑∑∑--=n X X n Y X XY b /)(/))((22 r=∑∑----22)()())((y y x x y y x x(3)统计意思 当X 变化一个单位时Y 的平均改变的估计值。
b>0,Y 随X 的增大而增大;b<0,Y 随X 的增大而减小。
具有直线关系的两变量间相关的密切程度与相关方向。
r>0为正相关,r<0为负相关。
(4)资料条件 双变量正态分布,或Y 为正态分布。
双变量正态分布8. 1-a 与1- b1-a :在假设检验中,拒绝Ho ,犯I 类错误的概率,1-a 越大,所需样本量越小,一般要求1-a 在0.95以上。
1-b :在假设检验中,不拒绝Ho ,犯II 类错误的概率,1-b 越大,所需样本量越大一般要求1-b 在0.8以上,b 一般只取单侧。
假设检验中,无论是接受还是拒绝原假设均有可能犯错。
如拒绝了一个实际成立的原假设,所犯错误称为Ⅰ类错误,其概率记为α(1分);如接受了一个实际不成立的原假设,所犯错误称为Ⅱ类错误,其概率记为β(1分);当样本含量确定时,α越大,则β越小,反之,α越小,则β越大(1分),如拟同时降低α与β,则需增大样本含量(1分)。
9. 完全随机设计与随机区组设计完全随机设计:是指将同质的受试对象随机分到各处理组进行实验观察或从不同总体中随机抽样进行对比的研究。
优点:设计及统计分析简单。
缺点:试验效率不高,只能分析单因素。
随机区组设计:讲受试对象按某些特征或条件配成对子,然后分别把每对中的两个受试对象随机分配到实验组和对照组,再给予每对中的个体以不同的处理,连续试验若干对,观察对子间的差别无意义。
优点:把条件一致的研究对象编入同一区组并分配于各研究组,使各研究组之间的可比性更强,能改善组间均衡性,即缩小了误差,又可分析处理组间和配伍组间两因素的影响,试验效率较高。
缺点:分组较繁,临床几乎不可能做的。
完全随机设计将全部实验对象完全随机分配到处理因素各水平,通过比较各组均数来判定处理结果(2分);随机区组设计指全部实验对象按区组与处理分配,即先根据对象的自然属性或对实验有影响的非处理因素分为几个区组,再于每一组中随机抽取分配到各处理水平的分配方式(2分)。
10. LR(+)与LR (-)LR(+):阳性释然比,是筛查结果的真阳性率与假阳性率之比。
表示正确判断阳性的可能性是错误判断阳性可能性的倍数。
其比值越大,试验结果阴性时为真阳性的可能性越大。
LR(-):阴性释然比,是筛查结果的假阴性率与真阴性率之比。
表示错误判断阴性的可能性是正确判断阴性可能性的倍数。
其比值越小,试验结果阴性时为真阴性的可能性越大。
筛检的阳性预报率:表示某种诊断方法预测阳性结果的正确率,即诊断结果为阳性者实际患病的概率。
筛检的阴性预报率:表示某种诊断方法诊断结果为阴性者实际未患病的概率。
11. 定量测量的一致性 与 定性测量一致性定量测量的一致性:定性测量的一致性:、12. 信度和效度信度:即可靠性,是指采用同一方法对同一对象进行调查时,问卷调查结果的稳定性和一致性,即测量工具能否稳定地测量所测得事务或变量。
信度指标多以相关系数表示。
效度:即有效性,它是指测量工具或手段能够测量出所需测量的事物的程度。
效度分为三种类型:内容效度,准则效度和结构效度。
13.定量测量的精密度与准确度精密度:是指对同一个标本进行多次重复测定时,测量值与平均测定值的接近程度,属于随机误差,常用标准差或变异系数表示。
此值越小,说明测定方法重现性越好。
准确度:是指测量值与真值的接近程度,用于说明测定方法有无系统误差。
一般偏离100%较大时,则测定方法存在系统误差。
精密度与准确度均为评价检测方法可信赖程度的指标,其中以准确度为首要指标,当测定方法存在系统误差时,即使精密度高,也不能采用此方法;当测量方法的精密度差时,其准确度也不会高。
14.独立测定与重复测定独立测定:对一群观察指标独立测定一次,形成一个群体数据,观察值间相互独立,不互相影响。
重复测定:是指对同一研究对象的某一观察指标在不同的场合进行的多次测量。
各测量数据之间有关联。
15.关联分析与趋势分析关联分析:是研究有相互作用(对称关系)或单向作用(不对称关系)的两变量取值或取值频数是否存在影响与联系的统计分析方法。
较趋势分析内涵广,适用资料广,但量化含义相对粗狂。
适用于社会调查资料分析,对于定量变量一般不计方向。
特点:1变量搭配形式多2多为静态3统计量关联系数无量纲4关联或影响不分正负5统计量只表达关联程度6一般区分愿意变量和结果变量7原因变量不参与计算分析趋势分析:针对一个变量随另一个变量的数量变化有规律地发生线性,非线性数量协边关系,研究其协变关系规律的统计分析方法,存在自变量和应变量。