医学统计学资料
- 格式:docx
- 大小:13.88 KB
- 文档页数:4
医学统计学1. 对定量资料进行统计描述时,如何选择适宜的指标定量资料统计描述常用的统计指标及其适用场合描述内容指标意义适用场合平均水平;均数个体的平均值·对称分布几何均数平均倍数取对数后对称分布中位数[位次居中的观察值①非对称分布;②半定量资料;③末端开口资料;④分布不明众数频数最多的观察值不拘分布形式,概略分析?调和均数基于倒数变换的平均值正偏峰分布资料变异度全距观察值取值范围不拘分布形式,概略分析标准差(方差)观察值平均离开均数的程度对称分布,特别是正态分布资料四分位数间距?居中半数观察值的全距①非对称分布;②半定量资料;③末端开口资料;④分布不明变异系数标准差与均数的相对比①不同量纲的变量间比较;②量纲相同但数量级相差悬殊的变量间比较定性资料:阳性事件的概率,概率分布,强度和相对比。
¥2. 应用相对数时应注意哪些问题答:(1)防止概念混淆相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。
(2)计算相对数时分母不宜过小样本量较小时以直接报告绝对数为宜。
(3)观察单位数不等的几个相对数,不能直接相加求其平均水平。
(4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。
3. 常用统计图有哪些分别适用于什么分析目的常用统计图的适用资料及实施方法<图形适用资料实施方法条图组间数量对比用直条高度表示数量大小直方图用直条的面积表示各组段的频数或频率(定量资料的分布百分条图构成比用直条分段的长度表示全体中各部分的构成比饼图构成比用圆饼的扇形面积表示全体中各部分的构成比定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系、线图半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系散点图}双变量间的关联点的密集程度和形成的趋势,表示两现象间的相关关系箱式图定量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布'用茎表示组段的设置情形,叶片为个体值,叶长为频数第3章概率分布(连续随机变量的正态分布;离散随机变量的二项分布及Poisson分布)1. 服从二项分布及Poisson分布的条件分别是什么二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。
1. 总体(population):根据研究目的所确定的同质观察单位的全体。
只包括(确定的时间和空间范围内)有限个观察单位的总体,称为有限总体(finite population)。
假想的,无时间和空间概念的,称为无限总体(infinite population)。
2. (总体)参数(parameter):总体的统计指标或特征值。
总体参数是事物本身固有的、不变的。
3. 样本(sample):从总体中随机抽取的部分个体。
4. 样本含量(sample size):样本中所包含的个体数。
5. 变量(variable):观察对象个体的特征或测量的结果。
由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测,故称为随机变量(random variable),简称变量(variable)。
变量的取值称为变量值或观察值(observation)。
根据变量的取值特性,分为数值变量和分类变量。
6. 数值变量(Numerical variable):又称为计量资料、定量资料,指构成其的变量值是定量的,其表现为数值大小,有单位。
对每个观察单位用定量的方法测定某项指标的数值,组成的资料。
7. 计数资料:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。
分类变量(categorical variable):或称定性变量,其取值是定性的,表现为互不相容的类别或或属性,有两种情况:1)无序分类(unordered categories):包括①二项分类,如上述“性别”变量,表现为互相对立的结果;②多项分类,如上述“血型”变量,表现为互不相容的多类结果。
2)有序分类(ordered categories):各类之间有程度上的差别,或等级顺序关系,有“半定量”的意义,亦称等级变量。
等级资料:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。
8. 抽样(sampling):从总体中抽取部分观察单位的过程称为抽样。
医学统计学复习资料①(期中单选题库+解题思路整理)期中考试选择题题库,单选:1、某研究者测量了某地237⼈晨尿中的氟含量,结果见表1-1,对该资料的集中趋势和离散趋势进⾏描述宜选⽤()B表1-1:0.2~(75)0.6~(67)1.0~(30)1.4~(20)1.8~(16)2.2~(19)2.6~(6)3.0~(2)3.4~(1)3.8~(1)A、均数与标准差B、中位数与四分位数间距C、众数与标准差D、均数与变异系数E、中位数与变异系数1、某⼚发⽣⾷物中毒,9名患者潜伏期分别为:16、2、6、3、30、2、10、2、34+(⼩时),问该⾷物中毒的平均潜伏期为多少⼩时?()CA、5B、5.5C、6D、10E、122、正态分布是以()EA、t值为中⼼的频数分布B、z值为中⼼的频数分布C、变量为中⼼的频数分布D、观察例数为中⼼的频数分布E、均数为中⼼的频数分布3、某次研究进⾏随机抽样,测量得到该市120名健康成年男⼦的⾎红蛋⽩数,则本次研究总体为()CA、所有成年男⼦⾎红蛋⽩数B、该市所有成年男⼦⾎红蛋⽩数C、该市所有健康成年男⼦⾎红蛋⽩数D、120名该市成年男⼦⾎红蛋⽩数E、120名该市健康成年男⼦⾎红蛋⽩数4、以舒张压≥12.7kPa为⾼⾎压,测量1000⼈,结果有990名⾮⾼⾎压患者,有10名⾼⾎压患者,该资料属于()资料BA、计算B、计数C、计量D、等级E、都对5、某病患者8⼈的潜伏期(天)为:2、3、3、3、4、5、6、30+,则平均潜伏期为()DA、7天B、3天C、4天D、3.5天E、⼤于7天6、确定某指标的医学参考值范围时,其正常⼈是指()DA、从未患过病的⼈B、只患过⼩病但不影响被研究指标的⼈C、健康状况良好的⼈D、排除了影响被研究指标的疾病或因素的⼈E、排除了患过某病或某因素的⼈7、关于假设检验,下列哪个说法正确()CA、单侧检验优于双侧检验B、采⽤单侧检验还是双侧检验取决于检验统计量的⼤⼩C、若P值⼤于0.05,应不拒绝H0D、若P值⼩于0.05,接受H1可能犯错误,所以接受H0E、⽤z检验进⾏两样本总体均数⽐较时,对样本量没有要求8、t分布曲线⽐标准正态分布曲线()CA、中⼼位置右移,但曲线形状相同B、中⼼位置左移,但曲线形状相同C、中⼼位置相同,但曲线峰部偏低D、中⼼位置相同,但曲线峰部偏⾼E、中⼼位置相同,且曲线形状相同9、下列哪项指标为统计量()(x指x-bar)CA、µB、бC、SxD、ΠE、бx11、下列哪个变量为标准正态变量(D)医学统计学作业4第7题,选D12、统计上所说的样本是指()DA、按照研究者要求抽取总体中有意义的部分B、随意抽取总体中任意部分C、有意识的抽取总体中有典型部分D、按照随机原则抽取总体中有代表性部分E、总体中的每⼀个个体13、下列哪个公式可⽤于估计医学95%参考值范围(A)14、在2011年我国死亡⼈⼝中,恶性肿瘤占27.79%,则27.79%是()BA、率B、构成⽐C、绝对数D、标化率E、平均率15、某种疗法治疗患者41⼈,治疗结果如下,该资料的类型是()D治愈:8,显效:23,好转;6,恶化:3,死亡:1A、计数资料B、计量资料C、⽆序分类资料D、有序分类资料E、数值变量资料16、样本量⼀定,标准差越⼤时,下列认识中错误的是()BA、观察个体之间变异越⼤B、观察个体之间变异越⼩C、样本的抽样误差可能越⼤B、样本对总体的代表性可能越差E、由样本估计总体参数可能越容易出现偏差17、良好的实验设计,能减少⼈⼒、物⼒,提⾼实验效率,还有助于消除或减少()BA、抽样误差B、系统误差C、随机误差D、责任事故E、以上都不对18、关于抽样误差说法正确的是()BA、抽样研究中抽样误差是可以避免的B、从同⼀总体中随机抽样,获得的各样本均数间也存在抽样误差C、抽样误差的⼤⼩可以⽤标准差来说明D、造成抽样误差的唯⼀原因是个体差异E、控制抽样误差⼤⼩的最佳⽅法是减⼩个体变异19、对成倍增长的计量资料描绘其集中趋势,宜⽤()BA、算数均数B、⼏何均数C、中位数D、众数E、百分位数20、假设检验中,结果为P<0.05,有统计学意义。
误差:观测值与真实值、样本计量与总体参数之间的差别。
相对数:两个有关的绝对数之比,也可以是两个有关联统计指标之比。
相对比:相对比是A、B两个有关联指标值之比,用以描述两者的对比水平,说明A是B 的若干倍或百分之几。
统计描述:描述及总结一组数据的重要特征,目的是使实验或观察得到的数据表达清楚并便于分析。
统计推断:指由样本数据的特征推断总体特征的方法,包括参数估计和假设检验。
同质:指根据研究目的所确定的观察单位其性质应大致相同。
变量:反映实验或观察对象生理、生化、解剖等特征的指标,变量的观测值称为数据。
定量数据:也称计量资料。
变量的观测值是定量的,其特点是能够用数值大小衡量其水平的高低,一般有计量单位。
根据变量的取值特征可分为连续型数据和离散型数据。
有序数据:也称半定量数据或等级资料。
变量的观测值是定性的,但各类别(属性)之间有程度或顺序上的差别。
总体:根据研究目的确定的所有同质观察单位的全体,它包括所有定义范围内的个体变量值。
样本:从研究总体中抽取部分有代表性的观察单位,对变量进行观测得到的数据。
参数:描述总体特征的指标称为参数。
统计量:描述样本特征的指标称为统计量。
概率:描述某事件发生可能性大小的度量。
小概率事件:习惯上将P≤0.05的事件称为小概率事件。
平均数:是描述一组观察值集中位置或平均水平的统计指标,常用的有算术均数、几何均数和中位数。
率:率表示在一定空间或时间范围内某现象的发生数与可能发生的总数之比。
构成比:表示某事物内部各组成部分在整体中所占的比重,常以百分数表示,计算公式为区间估计:是指按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。
线性相关的概念:研究两个变量之间是否具有直线相关关系。
相关系数:是说明具有线性相关关系的两个数值变量间相关的密切程度与相关方向的统计量。
研究对象:根据研究目的而确定的观察总体,也可称为受试对象或实验对象。
处理因素:根据研究目而欲施研究对象的干预措施。
统计有三大特性,用三句话予以简单的概括:实用性丰富性公平性统计学是研究数据搜集、整理与分析的科学,是认识社会和自然现象数量特征的重要工具。
医用统计学(Medical Statistics):运用概率论和数理统计的原理,方法,结合医学实际,研究数字资料的搜集,整理,分析,推断的一门学科。
统计结论的正确取决于:实验设计,资料搜集,数据管理等;随机事件(Random event):一次试验结果不确定,,在一定数量重复条件下呈现出规律性。
同质(homogeneity)的事物 : 研究的事物性质基本相同总体(population:是根据研究目的确定的、同质的全部研究对象中所有观察单位某种变量值的集合有有限总体和无限总体之分。
样本:根据随机化原则从总体中抽取的一定数量(sample size)的个体,称为样本,用样本信息来推断总体特征。
从总体中抽取部分个体的过程称为抽样。
抽样必须遵循随机性、可靠性、可比性、代表性代表性:指样本中的每一个个体必须符合总体规定的同质性。
随机性:指总体中的每个个体都有相同几率被抽作样本。
随机不是随便或随意。
可靠性:实验结果的可重复性即由样本结果推测总体的结论有较大的可信度。
可比性:即处理组的样本与对照组的样本,除处理因素不同外,其他可能影响实验结果的因素应基本保持相同。
同质:是指影响被研究指标的非实验因素相同。
变异:同质基础上的各观察单位(亦称为个体)之间的差异为变异。
统计学是研究变异的科学。
没有变异就不需要统计学。
总体的统计指标称为参数;样本的统计指标称为统计量。
误差:观察值与实际值的差异,成为误差。
分为:过失误差(可以避免);系统误差(可以);随机测量误差(无法避免);随机抽样误差(无法避免);抽样误差: 总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),表现为多次抽样的样本均数或率不同。
这种由抽样引起的差异称为抽样误差。
医学统计学基本知识•总体(population)指同质的研究对象中所有观察单位研究指标变量值的集合。
总体通常限定于特定的时间与空间范围之内,且为有限数量的观察单位,称为有限总体;有时总体是假设的,没有时间和空间限制,观察单位数是无限的,称为无限总体。
•样本(sample)医学实践与研究中,要直接研究无限总体通常是不可能的,即使是有限总体,由于人力、物力、时间、条件等限制,要对其中每个观察单位进行研究或观察,有时也是不可能的,也不必要。
而只是从总体中随机抽取部分观察单位,其变量实测值构成样本,目的用样本指标推断总体特征。
这种推断不要经过严谨的实验设计,以样本的可靠性和代表性为基础。
样本的可靠性:主要是使样本中每一观察单位确属同质总体。
样本的代表性:使样本能充分反映总体的实际情况,要求抽样遵循随机化原则,目的是使每个观察单位被抽得的机会相等,避免主观取舍及偏性;还要保证足够的样本量,即保证足够的观察单位个数。
•参数(parameter)统计学上描述总体变量的特征称为参数。
如总体均数、中位数和众数等体参数称为样本指标。
如以样本均数()推算总体均数(m),以样本标准差(s)推算总体标准差(s)等,值得注意的是,选择统计量作为参数估计值时,通常选择无偏、有效且一致的估计量,即对总体变量渐进无偏估计量。
计量资料(measurement data)又称定量资料(quantitative data)或数值变量(numerical variable)资料。
为测定每个观察单位某项指标的大小而获得的资料。
其变量值是定量的,表现为数值大小,一般有度量衡单位。
计数资料(enumeration data)又称定性资料(qualitative data)或无序分类变量(unordered categorical variable)资料。
为将观察单位按某属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。
其变量值是定性的,表现为互不相容的属性或类别,如试验结果的阴阳性,家族史的有无等等。
一、两组或多组计量资料的比较
1.两组资料:
1)大样本资料或服从正态分布的小样本资料
(1)若方差齐性,则作成组t检验
(2)若方差不齐,则作t’检验或用成组的Wilcoxon秩和检验
2)小样本偏态分布资料,则用成组的Wilcoxon秩和检验
2.多组资料:
1)若大样本资料或服从正态分布,并且方差齐性,则作完全随机的方差分析。如
果方差分析的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法
(如:LSD检验,Bonferroni检验等)进行两两比较。
2)如果小样本的偏态分布资料或方差不齐,则作Kruskal Wallis的统计检验。如
果Kruskal Wallis的统计检验为有统计学意义,则进一步作统计分析:选择合适
的方法(如:用成组的Wilcoxon秩和检验,但用Bonferroni方法校正P值等)
进行两两比较。
二、分类资料的统计分析
1.单样本资料与总体比较
1)二分类资料:
(1)小样本时:用二项分布进行确切概率法检验;
(2)大样本时:用U检验。
2)多分类资料:用Pearson c2检验(又称拟合优度检验)。
2. 四格表资料
1)n>40并且所以理论数大于5,则用Pearson c2
2)n>40并且所以理论数大于1并且至少存在一个理论数<5,则用校正c2或用
Fisher’s 确切概率法检验
3)n£40或存在理论数<1,则用Fisher’s 检验
3. 2×C表资料的统计分析
1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则行评分的
CMH c2或成组的Wilcoxon秩和检验
2)列变量为效应指标并且为二分类,列变量为有序多分类变量,则用趋势c2检
验
3)行变量和列变量均为无序分类变量
(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用
Pearson c2
(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s 确
切概率法检验
4. R×C表资料的统计分析
1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则CMH c2
或Kruskal Wallis的秩和检验
2)列变量为效应指标,并且为无序多分类变量,行变量为有序多分类变量,作
none zero correlation analysis的CMH c2
3)列变量和行变量均为有序多分类变量,可以作Spearman相关分析
4)列变量和行变量均为无序多分类变量,
(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用
Pearson c2
(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s 确
切概率法检验
三、Poisson分布资料
1.单样本资料与总体比较:
1)观察值较小时:用确切概率法进行检验。
2)观察值较大时:用正态近似的U检验。
2.两个样本比较:用正态近似的U检验。
配对设计或随机区组设计四、两组或多组计量资料的比较
1.两组资料:
1)大样本资料或配对差值服从正态分布的小样本资料,作配对t检验
2)小样本并且差值呈偏态分布资料,则用Wilcoxon的符号配对秩检验
2.多组资料:
1)若大样本资料或残差服从正态分布,并且方差齐性,则作随机区组的方差分析。
如果方差分析的统计检验为有统计学意义,则进一步作统计分析:选择合适的方
法(如:LSD检验,Bonferroni检验等)进行两两比较。
2)如果小样本时,差值呈偏态分布资料或方差不齐,则作Fredman的统计检验。
如果Fredman的统计检验为有统计学意义,则进一步作统计分析:选择合适的
方法(如:用Wilcoxon的符号配对秩检验,但用Bonferroni方法校正P值等)
进行两两比较。
五、分类资料的统计分析
1.四格表资料
1)b+c>40,则用McNemar配对c2检验或配对边际c2检验
2)b+c£40,则用二项分布确切概率法检验
2.C×C表资料:
1)配对比较:用McNemar配对c2检验或配对边际c2检验
2)一致性问题(Agreement):用Kap检验
变量之间的关联性分析六、两个变量之间的关联性分析
1.两个变量均为连续型变量
1)小样本并且两个变量服从双正态分布,则用Pearson相关系数做统计分析
2)大样本或两个变量不服从双正态分布,则用Spearman相关系数进行统计分析
2.两个变量均为有序分类变量,可以用Spearman相关系数进行统计分析
3.一个变量为有序分类变量,另一个变量为连续型变量,可以用Spearman相关
系数进行统计分析
七、回归分析
1.直线回归:如果回归分析中的残差服从正态分布(大样本时无需正态性),残
差与自变量无趋势变化,则直线回归(单个自变量的线性回归,称为简单回归),
否则应作适当的变