医学统计学定性资料统计描述思考与练习带答案
- 格式:doc
- 大小:335.00 KB
- 文档页数:11
第一章数据的描述和整理一、学习目的和要求1. 掌握数据的类型及特性;2.掌握定性和定量数据的整理步骤、显示方法;3.掌握描述数据分布的集中趋势、离散程度和分布形状的常用统计量;4.能理解并熟练掌握样本均值、样本方差的计算;5.了解统计图形和统计表的表示及意义;6. 了解用Excel软件进行统计作图、频数分布表与直方图生成、统计量的计算。
二、内容提要(一)数据的分类(二)常用统计量1、描述集中趋势的统计量2、描述离散程度的统计量3、描述分布形状的统计量* 在分组数据公式中,m i , f i 分别为各组的组中值和观察值出现的频数。
三、综合例题解析例1.证明:各数据观察值与其均值之差的平方和(称为离差平方和)最小,即对任意常数C ,有2211()()n ni ii i x x x C ==-≤-∑∑ 证一:设 21()()ni i f C x C ==-∑由函数极值的求法,对上式求导数,得11()2()22, ()2 n ni i i i f C x C x nC f C n =='''=--=-+=∑∑令 f '(C )=0,得唯一驻点11= ni i C x x n ==∑由于()20f x n ''=>,故当C x =时f (C )y 有最小值,其最小值为21()()ni i f x x x ==-∑。
证二:因为对任意常数C 有22222211111222212()()(2)2(2)()0nn n n nii iii i i i i i ni i xx x C x nx x C x nC nx C x nC n x Cx C n x C ======---=---+=-+-=--+=--≤∑∑∑∑∑∑故有2211()()nni ii i x x x C ==-≤-∑∑。
四、习题一解答1.在某药合成过程中,测得的转化率(%)如下:94.3 92.8 92.7 92.6 93.3 92.9 91.8 92.4 93.4 92.6 92.2 93.0 92.9 92.2 92.4 92.2 92.8 92.4 93.9 92.0 93.5 93.6 93.0 93.0 93.4 94.2 92.8 93.2 92.2 91.8 92.5 93.6 93.9 92.4 91.8 93.8 93.6 92.1 92.0 90.8 (1)取组距为0.5,最低组下限为90.5,试作出频数分布表; (2)作频数直方图和频率折线图;(3)根据频数分布表的分组数据,计算样本均值和样本标准差。
预防医学第三篇复习思考题及参考答案第十三章医学统计学方法的基本概念和基本步骤1.举例说明总体与样本的关系。
总体是根据研究目的确定的同质的所有观察单位某项观察值(变量值)的集合。
例如研究某地2002年正常成人白细胞数,观察对象是该地2002年全部正常成人,观察单位是每个人,观察值是每人测得的白细胞数,则该地2002年全部正常成人的白细胞数就构成了一个总体;从总体中随机抽取部分观察单位其某项指标的实测值组成样本。
从上述的某地2002年正常成人中随机抽取150人,这150正常成人的白细胞数就是样本。
抽取样本的目的是用样本的信息推论总体特征。
2.简述3种变量类型的特征。
(1)数值变量的变量值是用定量方法测量的,表现为数值的大小,一般有计量单位;(2)无序分类变量的变量值是用定性方法得到的,表现为互不相容的类别或属性,但各类别间无程度上的差别,包括二项分类和多项分类;(3)有序分类变量的变量值也是用定性方法得到的,也表现为互不相容的类别或属性,但各类别之间有程度上的差别。
第十四章数值变量的统计描述1.均数、几何均数和中位数的适用范围是什么?(1)均数适用于描述对称分布,特别是正态分布的数值变量资料的平均水平;(2)几何均数适用于描述原始数据呈偏态分布,但经过对数变换后呈正态分布或近似正态分布的数值变量资料的平均水平;(3)中位数适用于描述呈明显偏态分布(正偏态或负偏态),或分布情况不明,或分布的末端有不确切数值的数值变量资料的平均水平。
2.全距、四分位数间距、方差、标准差、变异系数各有何特点?(1)全距是一组观察值中最大值与最小值之差,计算简单,意义明了,但全距的不能反映组内其他观察值之间的离散情况,并且容易受个别特大值或特小值的影响,稳定性较差;(2)四分位数间距内包括了全部观察值的一半,可看作为中间一半观察值的全距,它比全距稳定,但仍未考虑每个观察值的离散度,它适用于描述偏态分布资料,特别是分布末端无确定数据资料的离散度;(3)方差是离均差平方和的均数,克服了全距和四分位数间距不能反映组内每个观察值离散度的缺点,但方差把观察值的原度量单位变成了平方单位,导致计算结果难于解释;(4)方差开方,即为标准差,它适宜于描述对称分布,特别是正态分布的数值变量资料的离散程度;(5)变异系数是标准差与均数之比,它适宜于描述度量单位不同的观察值的离散程度和度量单位相同但均数相差悬殊的观察值的离散程度。
医学统计学课程思考题及答案(注:红色字体表示已经改正,多余表示删除的内容)一.名词解释1.Population and Sample总体:根据研究目的确定的同质研究对象某观测值的集合。
样本:从总体中随机抽取的有代表性的部分研究对象其观测值的集合。
2.Cross-over design交叉设计:每个受试者随机地在两个或多个不同试验阶段分别接受指定的处理(试验药或对照药)。
3.Variance方差:离均差平方和的均数,反映一组同质计量资料的离散趋势大小。
4.Power of test检验效能:常用1-β表示,其意义是当两个总体存在差异时,使用统计检验发现总体间差异的能力,一般在0.8左右5.Relative ration相对数、相对比:二.选择题1、分析母亲体重与婴儿的出生体重的关系,宜绘制( C )A. 直方图B. 圆图C. 散点图D. 直条图2、统计推断包括( D )A、统计描述B、参数估计C、估计抽样误差D、参数估计和假设检验3、两样本率比较,经χ2检验,差别无显著性时,P值越大小,说明(B C )A.两样本率差别越大B.两总体率相同的可能性越大C.越有理由认为两总体率不同D.越有理由认为两样本率不同4、调查某地1000人,记录每人的血压值,所得的资料是一份( B A)。
A、计量资料B、计数资料C、还不能决定是计量资料还是计数资料D、可看作计量资料,也可看作计数资料5、某医师用A药治疗25例病人,治愈20人;用B药治疗30例病人,治愈10人;比较两药疗效时,可选用的最适当的方法是( A )。
A、χ2检验B、 u检验C、校正χ2检验D、确切概率法χ2检验:推断两个或两个以上总体率(或构成比)之间有无差别及两分类变量间有无相关关系等。
因为T=25*25/55>=5,n>=40,所以采用四格表专用公式。
u检验:两完全随机设计两总体均数比较,样本量很大,且总体的方差已知。
校正χ2检验:1<T<5,n>=406、若对照组的样本含量为10,实验组的样本含量为20,观察指标为计量资料,则做两样本均数比较t检验时,其自由度为( C )。
医学统计学第七版课后答案及解析医学统计学第七版课后答案第一章绪论一、单项选择题答案 1. D 2. E 3. D 4. B 5. A 6. D 7. A 8. C 9. E 10. D二、简答题1答由样本数据获得的结果,需要对其进行统计描述和统计推断,统计描述可以使数据更容易理解,统计推断则可以使用概率的方式给出结论,两者的重要作用在于能够透过偶然现象来探测具有变异性的医学规律,使研究结论具有科学性。
2答医学统计学的基本内容包括统计设计、数据整理、统计描述和统计推断。
统计设计能够提高研究效率,并使结果更加准确和可靠,数据整理主要是对数据进行归类,检查数据质量,以及是否符合特定的统计分析方法要求等。
统计描述用来描述及总结数据的重要特征,统计推断指由样本数据的特征推断总体特征的方法,包括参数估计和假设检验。
3答统计描述结果的表达方式主要是通过统计指标、统计表和统计图,统计推断主要是计算参数估计的可信区间、假设检验的P 值得出相互比较是否有差别的结论。
4答统计量是描述样本特征的指标,由样本数据计算得到,参数是描述总体分布特征的指标可由“全体”数据算出。
5答系统误差、随机测量误差、抽样误差。
系统误差由一些固定因素产生,随机测量误差是生物体的自然变异和各种不可预知因素产生的误差,抽样误差是由于抽样而引起的样本统计量与总体参数间的差异。
6答三个总体一是“心肌梗死患者”所属的总体二是接受尿激酶原治疗患者所属的总体三是接受瑞替普酶治疗患者所在的总体。
第二章定量数据的统计描述一、单项选择题答案 1. A 2. B 3. E 4. B 5. A 6. E 7. E 8. D 9. B 10. E二、计算与分析2第三章正态分布与医学参考值范围一、单项选择题答案 1. A 2. B 3. B 4. C 5. D 6. D 7. C 8. E 9. B 10. A二、计算与分析12 [参考答案] 题中所给资料属于正偏态分布资料,所以宜用百分位数法计算其参考值范围。
第四章定量资料的统计描述1. 编制频数表时错误的做法是()。
A. 用最大值减去最小值求全距B. 组距常取等组距,一般分为10~15组C. 第一个组段须包括最小值D. 最后一个组段须包括最大值E. 写组段,如“~3,3~5,5~,…”2. 描述一组负偏峰分布资料的平均水平时,适宜的统计量是()。
A. 中位数B. 几何均数C. 调和均数D. 算术均数E. 众数3. 比较5年级小学生瞳距和他们坐高的变异程度,宜采用()。
A. 变异系数B. 全距C. 标准差D. 四分位数间距E. 百分位数与的间距4. 均数X和标准差S的关系是()。
…A. S越小,X对样本中其他个体的代表性越好B. S越大,X对样本中其他个体的代表性越好C. X越小,S越大D. X越大,S越小E. S必小于X5. 在正态分布条件下表示变量值变异情况的指标最常用的是()。
A. 标准差B. 标准误C. 变异系数D. 全距E. 百分位数6. 变异系数越大说明()。
A. 标准差越大B. 平均数越大C. 标准差、平均数都大D. 平均数小E. 以均数为准变异程度大7. 在服从正态分布),(2σμN条件下,样本标准差S的值()。
A. 与集中位置有关B. 与观察例数n无关C. 与平均数有关%D. 与平均数无关E. 与个体的变异程度有关8. 计算几何均数G时,用常用对数lgX和用自然对数lnX所得计算结果()。
A. 一样B. 不一样C. 有时一样,有时不一样D. 有时相差较大,只能用lgX9. 算术均数与中位数相比,()。
A. 抽样误差更大B. 不易受极端值的影响C. 更充分利用数据信息D. 更适用于分布不明及偏态分布资料10. 比较连续分布数据的离散度,()。
A. 单位相同时根本不能用CVB. 单位相同均数相差较大时根本不能用SC. S表示绝对离散度,CV表示相对离散度。
D. 只要单位相同,用S和用CV都是一样的11. 以中位数表示几种趋势,()资料。
医学统计学第二版高等教育出版社课后习题答案第一章绪论1.举例说明总体和样本的概念。
研究人员通常需要了解和研究某一类个体,这个类就是总体。
总体是根据研究目的所确定的所有同质观察单位某种观察值(即变量值)的集合,通常有无限总体和有限总体之分,前者指总体中的个体是无限的,如研究药物疗效,某病患者就是无限总体,后者指总体中的个体是有限的,它是指特定时间、空间中有限个研究个体。
但是,研究整个总体一般并不实际,通常能研究的只是它的一部分,这个部分就是样本。
例如在一项关于2007年西藏自治区正常成年男子的红细胞平均水平的调查研究中,该地2007年全部正常成年男子的红细胞数就构成一个总体,从此总体中随即抽取2000人,分别测的其红细胞数,组成样本,其样本含量为2000人。
2.简述误差的概念。
误差泛指实测值与真实值之差,一般分为随机误差和非随机误差。
随机误差是使重复观测获得的实际观测值往往无方向性地围绕着某一个数值左右波动的误差;非随机误差中最常见的为系统误差,系统误差也叫偏倚,是使实际观测值系统的偏离真实值的误差。
3.举例说明参数和统计量的概念。
某项研究通常想知道关于总体的某些数值特征,这些数值特征称为参数,如整个城市的高血压患病率。
根据样本算得的某些数值特征称为统计量,如根据几百人的抽样调查数据所算得的样本人群高血压患病。
统计量是研究人员能够知道的,而参数是他们想知道的。
一般情况下,这些参数是难以测定的,仅能够根据样本估计。
显然,只有当样本代表了总体时,根据样本统计量估计的总体参数才是合理的。
4.简述小概率事件原理。
当某事件发生的概率小于或等于0.05时,统计学上习惯称该事件为小概率事件,其含义是该事件发生的可能性很小,进而认为它在一次抽样中不可能发生,这就是所谓的小概率事件原理,它是进行统计推断的重要基础。
第二章调查研究设计1.调查研究主要特点是什么?调查研究的主要特点是:①研究的对象及其相关因素(包括研究因素和非研究因素)是客观存在的,不能人为给予干预措施②不能用随机化分组来平衡混杂因素对调查结果的影响。
医学统计学试题及答案一、单选题1. 医学统计学的目的是:A. 统计医学信息B. 分析医学数据C. 研究医学现象D. 应用数学方法答案:B2. 在医学研究中,常用的数据类型包括:A. 定量数据B. 定性数据C. 随机数据D. 假设数据答案:A、B3. 下列哪项属于描述性统计学的内容:A. 假设检验B. 变异系数计算C. 抽样分布D. 数据整理和展示答案:D4. 以下哪个指标可以反映一组数据的离散程度:A. 均值B. 中位数C. 标准差D. 百分位数答案:C5. 进行医学实验时,其随机分组的目的是:A. 防止数据泄露B. 确保实验结果的准确性C. 消除实验对象间的差异D. 提高实验效率答案:C二、填空题1. 样本容量越大,抽样误差越________。
答案:小2. 法定代表人同意书中要注明_________。
答案:被代表人的姓名3. 在统计学中,p值代表的是__________。
答案:假设检验的显著性水平4. 方差分析是用来比较__________。
答案:多个样本组间的均值差异5. 临床试验中的“安慰剂”是指__________。
答案:没有治疗作用的物质三、计算题1. 某药物在两组患者中的治疗效果进行比较,结果显示组A的治愈率为70%,组B的治愈率为60%。
请计算治愈率之间的风险差异,并求出其相对风险和绝对风险减少率。
答案:风险差异 = 组A治愈率 - 组B治愈率 = 70% - 60% = 10%相对风险 = 组A治愈率 / 组B治愈率= 70% / 60% ≈ 1.167绝对风险减少率 = 组B治愈率 - 组A治愈率 = 60% - 70% = -10%2. 某研究人员对100名患者的收入进行调查,得到以下数据:平均收入为5000元,标准差为1000元。
请计算收入在(5000 - 1000,5000 + 1000)这一区间内的概率。
答案:根据正态分布的性质,收入在(5000 - 1000,5000 + 1000)区间内的概率为68%。
第五章定性资料的统计描述【思考与练习】一、思考题1.应用相对数时需要注意哪些问题?2. 为什么不能以构成比代替率?3. 标准化率计算的直接法和间接法的应用有何区别?4. 常用动态数列分析指标有哪几种?各有何用途?5. 率的标准化需要注意哪些问题?二、案例辨析题某医生对98例女性生殖器溃疡患者的血清进行检测,发现杜克雷氏链杆菌、梅毒螺旋体和人类单纯疱疹病毒2型病原体感染患者分别是30、51、17例,于是该医生得出结论:女性生殖器溃疡患者3种病原体的感染率分别为30.6%(30/98)、52.0%(51/98)和17.4%(17/98)。
该结论是否正确?为什么?三、最佳选择题1. 某地2006年肝炎发病人数占当年传染病发病人数的10.1%,该指标为BA. 率B. 构成比C. 发病率D. 相对比E. 时点患病率2. 标准化死亡比SMR是指AA. 实际死亡数/预期死亡数B. 预期死亡数/实际死亡数C. 实际发病数/预期发病数D. 预期发病数/实际发病数E. 预期发病数/预期死亡数3. 某地人口数:男性13,697,600人,女性13,194,142人;五种心血管疾病的死亡人数:男性16774人,女性23334人;其中肺心病死亡人数:男性13952人,女性19369人。
可计算出这样一些相对数:11395283.18%16774p ==, 2139521936983.08%1677423334p +==+,313952101.86/1013697600p ==万, 416774122.46/1013697600p ==万,523334176.85/1013194142p ==万, 645p p p =+71395219369123.91/101369760013194142p +==+万81677423334149.15/101369760013194142p +==+万该地男性居民五种心血管疾病的死亡率为D A. 1p B. 2p C. 3pD. 4pE. 5p4. 根据第3题资料,该地居民五种心血管病的总死亡率为E A. 1p B. 2p C. 5pD. 6pE. 8p5. 根据第3题资料,该地男、女性居民肺心病的合计死亡率为D A. 2p B. 5pC. 6pD. 7pE. 8p6. 某地区2000~2005年结核病的发病人数为015,,,a a a ⋯,则该地区结核病在此期间的平均增长速度是DA .0156a a a ⋯+++B.C.D.1-E.7. 经调查得知甲、乙两地的恶性肿瘤的粗死亡率均为89.94/10万,但经过标准化后甲地恶性肿瘤的死亡率为82.74/10万,而乙地为93.52/10万,发生此现象最有可能的原因是CA. 甲地的诊断技术水平更高B. 乙地的恶性肿瘤防治工作做得比甲地更好C. 甲地的老年人口在总人口中所占比例比乙地多D. 乙地的老年人口在总人口中所占比例比甲地多E. 甲地的男性人口在总人口中所占比例比乙地多 8. 下列不属于相对比的指标是 C A. 相对危险度RR B. 比值比ORC. 病死率D. 变异系数CVE. 性别比9. 计算标准化率时,宜采用间接法的情况是BA.已知被标准化组的年龄别死亡率与年龄别人口数B.已知被标准化组的死亡总数与年龄别人口数C.已知标准组年龄构成与死亡总数D.已知标准组的人口总数与年龄别人口数E.被标化组各年龄段人口基数较大四、综合分析题1. 为研究经常吸烟与慢性阻塞性肺病(COPD)的关系,1998~2000年间,某医生收集了356例COPD患者的吸烟史,经常吸烟(日平均1支以上,30年)的COPD 患者有231例;而同时期同年龄段的479名非COPD患者中,经常吸烟的有183例。
试计算两组患者的经常吸烟率,并分析经常吸烟对COPD的影响。
2. 某地居民1998~2004年某病的死亡率资料如表5-1所示,试作动态分析。
表5-1 某地居民1998~2004年某病死亡率(1/10万)年份1998~ 1999~ 2000~ 2001~ 2002~ 2003~ 2004~死亡率160.5 144.2 130.0 120.2 85.6 69.5 38.5 3.对某地不同年龄、性别人群的HBsAg阳性率进行检测,结果如表5-2所示,试比较该地男、女HBsAg阳性率。
表5-2某地不同年龄、性别人群的HBsAg阳性率(%)年龄组(岁)男性女性检查数阳性数阳性率检查数阳性数阳性率0~ 521 12 2.30560 13 2.3220~ 516 14 2.71957 26 2.7240~ 710 43 6.06836 54 6.4660~ 838 63 7.52570 49 8.60合计2585 132 5.112923 142 4.86【习题解析】一、思考题1.①计算相对数应有足够的观察单位数;②分析时不能以构成比代替率;③计算观察单位数不等的几个率的合计率或平均率时,不能简单地把各组率相加求其平均值而得,而应该分别将分子和分母合计,再求出合计率或平均率;④相对数的比较应注意其可比性,如果内部构成不同,应计算标准化率;⑤样本率或样本构成比的比较应作假设检验。
2. 率是指某现象实际发生数与某时间点或某时间段可能发生该现象的观察单位总数之比,用以说明该现象发生的频率或强度。
构成比是指事物内部某一组成部分观察单位数与同一事物各组成部分的观察单位总数之比,以说明事物内部各组成部分所占的比重,不能说明某现象发生的频率或强度大小。
两者在实际应用时容易混淆,要注意区别。
3. 对死亡率的年龄构成标准化,当已知被标化组的年龄别死亡率时,宜采用直接法计算标准化率;当不知道被标化组的年龄别死亡率,只有年龄别人口数和死亡总数时,可采用间接法。
4. 常用的动态数列分析指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。
绝对增长量是指事物现象在一定时期增长的绝对值;发展速度与增长速度都是相对比指标,用以说明事物现象在一定时期的速度变化;平均发展速度是指一定时期内各环比发展速度的平均值,用以说明事物在一定时期内逐年的平均发展程度;平均增长速度是说明事物在一定时期内逐年的平均增长程度。
5. ①标准化法的目的是为了通过选择同一参照标准,消除混杂因素的影响,使算得的标准化率具有可比性。
但标准化率并不代表真实水平,选择标准不同,计算出的标准化率也不相同。
因此标准化率是用于相互间的比较,实际水平应采用未标化率来反映。
②样本的标准化率是样本指标值,亦存在抽样误差,若要比较其代表的总体标准化率是否相同,需作假设检验。
③注意标准化方法的选用。
如对死亡率的年龄构成标准化,当已知被标化组的年龄别死亡率时,宜采用直接法计算标准化率。
但当被标化组各年龄段人口数太少,年龄别死亡率波动较大时,宜采用间接法。
④各年龄组率若出现明显交叉,或呈非平行变化趋势时,则不适合采用标准化法,宜分层比较各年龄组率。
此外,对于因其它条件不同,而非内部构成不同引起的不可比性问题,标准化法难以解决。
二、案例辨析题该结论不正确。
因为该医生所计算的指标是构成比,只能说明98例女性生殖器溃疡患者中,3种病原体感染所占的比重,不能说明3种病原体感染发生的频率或强度,该医生犯了以构成比代替率的错误。
三、最佳选择题1. B2. A3. D4. E5. D6. D7. C8. C9. B四、综合分析题1. 解:表5-3 经常吸烟与慢性阻塞性肺病(COPD)的关系分组调查人数经常吸烟经常吸烟率(%) 是否COPD患者356 231 125 64.89 非COPD患者479 183 296 38.20 COPD患者的经常吸烟率:231/356×100%=64.89%非COPD患者经常吸烟率:183/479×100%=38.20%COPD 患者的经常吸烟率比非COPD 患者高26.69%231296=2.989125183OR 比值比()⨯=⨯还需进一步对OR 作假设检验(见第十一章),若经检验有统计学意义,可以认为经常吸烟与慢性阻塞性肺病(COPD)有一定的关系。
SPSS 操作 数据录入:打开SPSS Data Editor 窗口,点击Variable View 标签,定义要输入的变量,case 表示分组(0为非COPD 患者,1为COPD 患者),smok 表示吸烟情况 (0为非经常吸烟,1为经常吸烟),freq 表示频数;再点击Data View 标签,录入数据(见图5-1,图5-2)。
图5-1 Variable View 窗口内定义要输入的变量case 、smok 和freq图5-2 Data View 窗口内录入数据分析:Data →Weight Cases…Weight Cases by : Frequency 框:freq OKAnalyze → Descriptive Statistics →Crosstabs Rows 框:case Columns 框:smok Statistics :RiskContinue OK输出结果分组 * 吸烟情况 Cros s tabulationCount296183479125231356421414835非COPD 患者COPD 患者分组Total不吸烟吸烟吸烟情况TotalRis k Estimate2.989 2.2473.9761.760 1.503 2.061.589.513.675835Odds Ratio for 分组 (非COPD 患者 / COPD 患者)For cohor t 吸烟情况 = 非经常吸烟For cohor t 吸烟情况 = 经常吸烟N of Valid CasesValue Low er Upper 95% Confidence Interval2. 解:表5-4 某地居民1998~2004年某病死亡率(1/10万)动态变化年份 符号 死亡率 绝对增长量发展速度增长速度累计 逐年 定基比 环比 定基比 环比 1998~ a 0 160.5 — ——— — — 1999~ a 1 144.2 -16.3 -16.3 0.90 0.90 -0.10 -0.10 2000~ a 2 130.0 -30.5 -14.2 0.81 0.90 -0.19 -0.10 2001~a 3120.2-40.3-9.80.750.92-0.25-0.082002~ a 4 85.6 -74.9 -34.6 0.53 0.71 -0.47 -0.29 2003~ a 5 69.5 -91 -16.1 0.43 0.81 -0.57 -0.19 2004~a 638.5-122-310.240.55-0.76-0.45该病死亡率的平均发展速度0.79== 该病死亡率的平均增长速度=1=0.791=0.21---平均发展速度3. 解:因为该地男、女性的年龄构成有所不同,为了消除年龄构成的不同对HBsAg 阳性率的影响,应先进行标准化再进行比较。