医学统计学重点总结
- 格式:doc
- 大小:734.50 KB
- 文档页数:9
医学统计学重点一.选择1.几何均数:平均血清抗体滴度(如P9例2.4)2.正态分布:横轴为µ1.962.5%单侧双侧90%: 1.6495%: 1.64 1.9699%: 2.583.P值与ɑ的关系,ɑ是人为规定的,它们之间没有关系; P值↑,ɑ↑(×)4.方差分析自由度v的计算,v总=n-1;v组间=组数(k)-1;v组间=v总-v组间5.理论秩和(n(n+1)/2),实际秩和(通过平均秩次算)6.可信区间的正确应用:总体参数有95%的可能落在该区间内(×);有95%的总体参数在该区间内(×);该区间包含95%的总体参数(x);该区间有95%的可能包含总体参数。
(x);这个区间的可信度为95%(√);总体参数只有一个,要么在区间内,要么不在7.相关系数与回归系数:相关系数为0,两个变量之间没有相关关系(×);回归系数↑,相关系数↑(×);(要做假设检验)二、名解1.参考值范围:根据正常人的数据估计绝大多数的正常人所在的范围2.区间估计(可信区间):按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围。
这个范围称作可信度为1-α的可信区间,又称置信区间。
3.P值:拒绝H0时所冒的风险(或“作出拒绝H0 而接受H1 ”结论时冒了P风险)4.ɑ(第一类错误):H0真实时被拒绝(或H0真实时,拒绝H0,接受H1)5.β(第二类错误):H0不真实时不拒绝(或H0不真实时,不拒绝H0)1-β检验效能:对真实的H1做肯定结论之概率6.秩次:是指全部观察值按某种顺序排列的位序;7.秩和:同组秩次之和8.剩余标准差:扣除了X的影响后,Y方面的变异; 引进回归方程后, Y方面的变异。
三、简答1.假设检验与可信区间的联系与区别分辨多个样本是否分别属于不同的总体,并对总体作出适当的结论。
分辨一个样本是否属于某特定总体等。
区间估计(可信区间):按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围。
第一章绪论1、统计学的定义:统计学研究数据的收集、整理、分析的一门学科。
医学统计学:医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理、方法,研究医学资料的搜集、整理、分析和推断的一门科学。
2、医学统计研究三个步骤:研究设计、资料分析、结论3、(必考的)几个概念:(1)同质:性质相同异质:性质不同观察单位间的同质性是进行研究的前提同质是相对的(不同研究中或同一研究中不同观察指标对观察对象的同质性的要求不同)(2)个体变异:同质个体间的差异。
变异的两个方面:不同观察单位(个体)间的差别;同一个体在不同阶段的差别(重复测量)个体变异是普遍存在的;个体变异是有规律的。
注意:由于个体变异的存在,同质个体指标的取值会存在差异!(例:体温波动)(3)总体:按研究目的所确定的同质研究对象的全体。
有限总体:有时间、空间的概念,观察单位有限无限总体:无时间、空间的概念(例:某种治疗措施的效果,就包括接受这种治疗措施的所有病人过去、现在、未来,因而观察单位无限)(4)个体:组成总体的基本单位。
样本:从研究总体中随机抽取具有代表性的部分观察单位随机性的三个体现:抽样随机、分组随机、试验顺序随机(5)随机变量:观察对象个体的特征或测量的结果观察结果在一定范围内以一定的概率分布随机取值的变量,表示随机现象。
在一定条件下,并不总是出现相同结果变量值:个体观察指标具体取值(6)总体参数:总体的统计指标或特征值固有的、不变的,但往往是未知的(7)样本统计量:由样本所算出的统计指标或特征值已知的,且随着试验的不同而不同,但分布是有规律的(8)样本含量:样本中包含个体的数量(9)频率f=m/n,f的值随n的增大接近常数p,概率P(A)=p即:频率为一变量,是样本统计量;概率为常数,是一总体参数小概率事件:概率小于等于0.05小概率原理:小概率事件在一次试验中是不会发生的(10)抽样误差:两个表现:样本统计量与总体参数间的差别;不同样本统计量间的差别两个原因:个体变异;抽样过程抽样误差不可避免,但是有规律。
医学统计学重点说明:本重点仅供参考:不能包括所有选择题考题,名词和简答可信度高,计算题熟练运算过程;同时自己要清楚各种检验方法的基本思想,重点程度与星号数量相关)一、名词解释1、★★★医学统计学:用概率论和数理统计方法研究医学事件的群体特征的一门方法。
2、★总体:根据研究目的确定的同质的研究对象的全体(集合)。
3、样本:从总体中随机抽取的部分研究对象。
4、随机:总体中每个个体有同等的机会进入样本。
5、系统误差:指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差。
6、随机误差:由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。
7、★★抽样误差:由于抽样原因造成的样本指标与总体指标之间的差,或者是样本指标与样本指标之间的差。
8、准确度(accuracy)或真实性(validity):观察值与真值的接近程度,受系统误差的影响(9、可靠度(reliabiliy)——也称精密度(precision)或重复性(repeatability):重复观察时观察值与其均值的接近程度,受随机误差的影响。
10、★★★小概率事件:一般常将p ≤ 0.05或p ≤ 0.01称为小概率事件,表示某事件发生的可能性很小。
通俗讲一次抽样是不可能发生的事件。
11、★★正态分布定:又称高斯分布,是一条中间高,两头低,左右完全对称地下降,但永远不与横轴相交的钟形曲线。
12、★★医学参考值范围:指绝大多数正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。
最常用的是95%参考值范围。
13、★★标准误:用于反映均数抽样误差大小的指标,也叫样本均数的标准差,它反映了样本均数之间的离散程度。
14、★95%的可信区间:如果从同一总体中重复抽取100个独立样本,将可能有95个可信区间包括总体均数,有5个可信区间未包括总体均数。
二、填空题1、★医学统计学工作基本步骤:统计设计;收集资料.;整理资料;分析资料2、★统计分析包括:统计描述、统计推断3、频数分布的两个重要特征:集中趋势和离散趋势4、正态分布的两个参数:均数;标准差。
名词解释1、一类错误:拒绝了实际上成立的Ho,这类“弃真”的错误称为I型错误或第一类错误。
2、参数和统计量:这些总体的统计指标或特征值称为参数。
由样本所算出的统计指标或特征值称为统计量。
3、变异系数:亦称离散系数,为标准差与均数之比,常用百分数表示。
4、P值:即概率,反映某一事件发生的可能性大小。
5、检验效能:1-β称为检验效能或把握度,即两总体却有差别,按α水准能发现它们有差别的能力。
简答题1、描述数值变量资料(统计资料)的集中程度有哪些指标,有何运用条件?算数均数:单峰对称分布的资料几何均数:对数变换后的单峰对称的资料中位数:偏态分布,分布不明资料,有不确定值的资料。
百分位数:当样本含量较少时不宜用靠近俩端的百分位数来估计频数分布范围。
2、实验研究的基本要素和基本原则是什么?基本要素:处理因素、受试对象和实验效应。
基本原则:对照原则、随机化原则和重复原则大题1、(1)变量资料(2)成组t检验对立性正态性方差齐性(3)HO:μ1=μ2,新药与常规药物的疗效相同H1:μ1≠μ2,新药与常规药物的疗效不同α=0.05T=1.0195V=n1+n2-2=18(2)t<t0.05,18 ,p>0.05,按a=0.05水准,不拒绝H0,差别无统计学意义。
结论:t检验结果表明,故尚不能认为新药与常规药物的疗效相同。
2、(1)T=13×17/47=4.7(2)x2 检验(3)X2>X2(0.05,1),p<0.05,按a=0.05水准,拒绝H0,接受H1,差别有统计学意义。
结论:x2检验结果表明,乙疗法比甲疗法好。
3、(1)成组设计两样本比较的秩和检验(2)实验组秩次:13、11.5、8.5、14、15.5、15.5、17、18对照组秩次:1、2、4、3、5、6、8.5、7、10、11.5(3)H0:两组局部温热的疗效总体分布相同H1:两组局部温热的疗效总体分布不同4(1)Ho:ρ=0,即母体内时间与体重无线性相关关系H1:ρ≠0,即母体内时间与体重有线性相关关系α=0.05F>5.23,拒绝HO,接受H1,相关系数有统计学意义。
医学统计学重点选择1.几何均数:平均血清抗体滴度(如P9例2.4)2.正态分布:横轴为μ(界值、面积)2.5% I1.962.5%单侧双侧90%: 1.6495%: 1.64 1.9699%: 2.583.P值与α的关系,α是人为规定的,它们之间没有关系;P值f,Qt(X)4.方差分析自由度V的计算,V总=nT;V组间=组数(k)-1;V组间=V总-V组间5.理论秩和(n(n+1)∕2),实际秩和(通过平均秩次算)6.可信区间的正确应用:总体参数有95%的可能落在该区间内(X);有95%的总体参数在该区间内(X);该区间包含95%的总体参数(X);该区间有95%的可能包含总体参数。
(X);这个区间的可信度为95%(√);总体参数只有一个,要么在区间内,要么不在7.相关系数与回归系数:相关系数为0,两个变量之间没有相关关系(X);回归系数t,相关系数t(X);(要做假设检验)二、名解1.参考值范围:根据正常人的数据估计绝大多数的正常人所在的范围2.区间估计(可信区间):按一定的概率或可信度(bα)用一个区间估计总体参数所在范围。
这个范围称作可信度为1-a的可信区间,又称置信区间。
3.P值:拒绝HO时所冒的风险(或“作出拒绝HO而接受H1”结论时冒了P风险)4.a(第一类错误):HO真实时被拒绝(或HO真实时,拒绝H0,接受H1)5.β(第二类错误):HO不真实时不拒绝(或HO不真实时,不拒绝HO)1-β检验效能:对真实的H1做肯定结论之概率6.秩次:是指全部观察值按某种顺序排列的位序;7.秩和:同组秩次之和8.剩余标准差:扣除了X的影响后,Y方面的变异;引进回归方程后,Y方面的变异。
三、简答1.假设检验与可信区间的联系与区别分辨多个样本是否分别属于不同的总体,并对总体作出适当的结论。
分辨一个样本是否属于某特定总体等。
区间估计(可信区间):按一定的概率或可信度(1-a)用一个区间估计总体参数所在范围。
1.简述总体和样本的定义,并且举例说明。
总体是研究目的确定的所有同质观察单位的全体。
样品是从研究总体中抽取部分有代表性的观察单位。
2.简述参数和统计量的定义,并且举例说明。
描述总体特征的指标称为参数,描述样本特征的指标称为统计量。
3.变量的类型有哪几种?举例说明各种类型变量有什么特点。
①定量数据:计量资料;定量的观测值是定量的,其特点是能够用数值的大小衡量其水平的高低。
②定性数据:计数资料;变量的观测值是定性的,表现为互不相容的类别或属性。
③有序数据:半定量数据/等级资料;变量的观测值是定性的,但各类别(属性)有程度或顺序上的差异。
4.请举例说明一种类型的变量如何变换为另一种类型的变量。
定量数据>有序数据>定性数据--------------->5.请简述什么是小概率事件?概率是描述事件发生可能性大小的度量,P 0.05事件称为小概率事件。
≤6.举例说明什么是配对设计。
配对设计是将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理。
①同源配对:同一受试对象或同一标本的两个部分,随机分配接受两种不同处理;②异源配对:为消除混杂因素的影响,将两个同质受试对象配对分别接受两种处理。
7.非参数假设检验适合什么类型数据进行分析?①总体分布类型未知或非正态分布数据;②定量或半定量数据;③数据两端无确定的数值。
8.简述P 25 P 50 P 75的统计学意义。
(条件:明显偏态且不能转化为正态或近似对称;一端或两端无确定数值;分布情况未知)用来描述资料的观测值序列在某百分位置的水平,四分位数间距可以作为说明个体差异的指标(说明个体在不同位置的变异情况)。
9.直条图、直方图、圆饼图的使用条件是什么?直条图:各自独立的统计指标的数值大小和他们之间的对比;直方图:连续变量频数分布情况;圆饼图:全体中各部分所占的比例。
10.统计分析包括哪两个方面的内容?为什么要进行统计推断?统计描述和统计分析;统计描述用来描述及总结一组数据的重要特征,其目的是使实验或观察得到的数据表达清楚并便于分析。
一:基本概念:1.参数:反映总体的统计指标。
2. 统计量:反映样本的统计指标称为统计量。
3. 概率:描述随机事件发生的可能性的大小的一个量度4.小概率事件:把p小于等于0.05或小于等于0.01的随机事件。
资料类型:计量资料,计数资料,等级资料。
医学统计的基本步骤:研究设计,收集资料,整理资料,分析资料,结果报告与结论表达。
二:变量分布:1.正态分布:指变量的频数或频率呈中间最多,两端逐渐对称地减少,表现为钟形的一种概率分布。
特征:(1)正态分布曲线是单峰,对称,钟形曲线,X=μ时曲线达到最高峰。
(2)正态曲线有两个参数,总体均数μ和总体标准差σ,μ越大曲线右移,越小左移,故称位置参数,σ越小曲线越瘦高,越大曲线越矮胖,故称形状参数。
(3)正态分布曲线下的面积分布具有一定的规律。
P80页。
应用:(1)质量控制(2)是统计学的理论基础(3)制定医学参考值范围制定医学参考值范围:包括绝大多数正常人的人体形态功能和代谢反应等各种生理生化指标的波动范围,是作为判定某项指标正常与否的参考标准。
方法:确定正常人对象的范围,统一测量标准,确定分组,样本含量确定,确定参考值范围的但双侧,确定百分界值,医学参考值范围的估计。
2.二项分布特征:(1)二项分布的图形:当π=0.5时图形对称,π≠0.5时,图形呈偏态,且当n的含量增大时,图形趋于对称。
(2)二项分布的均数与标准差:μ=n π;σ²=nπ(1-π);σ=根号下nπ(1-π)(3)二项分布的正态近似:当n无限增大时越趋近于正态分布。
应用:对立性,独立性,重复性三:统计分析:㈠1.统计描述:图表和指标(1)图表:频数分布图分为正偏态和负偏态,长尾向右侧延伸为正偏态,向左侧延伸为负偏态。
频数分布的特点:集中趋势和离散趋势。
(2)指标:分为计数指标和计量指标。
计数指标:相对数。
应用相对数的注意事项:①计算相对数时分母不宜太小②观测单位数不等的几个率不能直接想加求其合计率③资料对比时注意可比性④资料分析时不能以构成比代替率⑤考虑存在抽样误差计量指标:1.集中趋势:①算数均数χ:适用于对称分布资料,特别是正态或近似正态分布的计量资料。
医学统计学重点第一章绪论1.基本概念:总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。
样本:从总体中随机抽取部分个体的某个变量值的集合。
总体参数:刻画总体特征的指标,简称参数。
是固定不变的常数,一般未知。
统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。
抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。
频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。
称m/n为事件A在n次试验中出现的频率或相对频率。
概率:频率所稳定的常数称为概率。
统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
统计推断:包括参数估计和假设检验。
用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计。
用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。
2.样本特点:足够的样本含量、可靠性、代表性。
3.资料类型:(1)定量资料:又称计量资料、数值变量或尺度资料。
是对观察对象测量指标的数值大小所得的资料,观察指标是定量的,表现为数值大小。
每个个体都能观察到一个观察指标的数值,有度量衡单位。
(2)分类资料:包括无序分类资料(计数资料)和有序分类资料(等级资料)①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由各分组标志及其频数构成。
包括二分类资料和多分类资料。
二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容。
多分类:将观察对象按多种互斥的属性分类②等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单位的个数所得的资料。
4.统计工作基本步骤:统计设计、资料收集、资料整理、统计分析。
第二章实验研究的三要素1.实验设计三要素:被试因素、受试对象、实验效应2.误差分类:随机误差(抽样误差、随机测量误差)、系统误差、过失误差。
3.实验设计的三个基本原则:对照原则、随机化分组原则、重复原则。
第一章绪论一、名词解释1.设计(design):根据研究的问题与目的,从统计学的角度对各步提前做出的周密计划和安排。
2.收集资料(data collection):获得研究所需要的原始数据的过程。
3.整理资料(data storing):对收集到的原始资料进行归类整理汇总的过程。
4.分析资料(data analysis):对整理的资料进行统计分析,获取资料中有关信息的过程。
5.总体(population):根据研究目的确定的,所有同质研究对象某一(组)指标值的集合6.样本(sample):从总体中随机抽取的,数量足够的能代表总体特征的部分研究对象某一(组)指标值的集合。
7.参数(parameter):描述总体特征的指标称为参数。
8.变异(variation):对同质研究对象某指标值得波动性称为变异。
9.误差(error):观测值与真实值之差。
10.变量(variable):描述研究对象某种特征的指标。
11.资料(data):变量全部或部分测量值构成资料12.计量资料(measurement data):每个研究对象的变量值为一数值,表现出有量的大小,由这样一组研究对象定量观测值所构成的资料为计量资料。
13.计数资料(enumeration data):每个研究对象的变量值为互不相同的属性之一,由这样一组研究对象定性变量值组成的资料为技术资料。
14.等级资料(ranked data):每个研究对象变量值为互不相容的属性之一,且这些属性间有程度的递进或递减关系,有这样一组研究对象变量值组成的资料为等级资料。
15.过失误差:由科研工作者的失误或过错造成的误差。
16.系统误差(systematic error):在收集资料的过程中,由于研究者或被研究者、仪器设备、检测用材料、检测方法、环境条件等原因,造成观测结果偏大或偏小,称作系统误差。
17.随机误差(random error):在没有过失误差和系统误差的条件下仍存在大量偶然无法消除的不确定因素所引起的误差为随机误差。
第一章2选1总体:总体(population)是根据研究目的确定的同质观察单位(研究对象)的全体,实际上是某一变量值的集合。
可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
总体population根据研究目的而确定的同质观察单位的全体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
样本sample从总体中随机抽得的部分观察单位,其实测值的集合。
3选1小概率事件:我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件。
P值:P 值即概率,反映某一事件发生的可能性大小。
统计学根据显著性检验方法所得到的P 值反应结果真实程度,一般以P ≤ 0.05 认为有统计学意义, P ≤0.01 认为有高度统计学意义,其含义是样本间的差异由抽样误差所致的概率等于或小于0.05 或0.01。
P值是:1) 一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。
2) 拒绝原假设的最小显著性水平。
3) 观察到的(实例的) 显著性水平。
4) 表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。
小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实际实验中是不会发生的,数学上称之小概率原理,也称为小概率的实际不可能性原理。
统计学中,一般认为等于或小于0.05或0.01的概率为小概率。
资料的类型(3选1)(1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。
计量资料亦称定量资料、测量资料。
.其变量值是定量的,表现为数值大小,一般有度量衡单位。
如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等。
计量资料measurement data定量资料quantitative data数值变量资料numerical variable为观测每个观察单位某项指标的大小,而获得的资料。
第一章绪论1、数据 / 资料的分类:①、计量资料,又称定量资料也许数值变量;为观察每个观察单位某项治疗的大小而获取的资料。
②、计数资料,又称定性资料也许无序分类变量;为将观察单位依照某种属性也许种类分组计数,分组汇总各组观察单位数后而获取的资料。
③、等级资料,又称半定量资料也许有序分类变量。
为将观察单位按某种属性的不相同程度分成等级后分组计数,分类汇总各组观察单位数后而获取的资料。
2、统计学常用基本看法:①、统计学( statistics)是关于数据的科学与艺术,包括设计、收集、整理、解析和表达等步骤,从数据中提炼新的有科学价值的信息。
②、整体( population )指的是依照研究目的而确定的同质观察单位的全体。
③、医学统计学( medical statistics):用统计学的原理和方法办理医学资料中的同质性和变异性的科学和艺术,经过一定数量的观察、比较、解析,揭穿那些迷惑难懂的医学问题背后的规律性。
④、样本( sample):指的是从整体中随机抽取的部分观察单位。
⑤、变量( variable):对观察单位某项特点进行测量也许观察,这类特点称为变量。
⑥、频率( frequency ):指的是样本的本质发生率。
⑦、概率( probability):指的是随机事件发生的可能性大小。
用大写的 P 表示。
3、统计工作的基本步骤:①、统计设计:包括对资料的收集、整理和解析全过程的设想④、分组划记并统计频数。
与安排;频数分布的种类包括对称分布和偏态分布;②、收集资料:采用措施获取正确可靠的原始数据;偏态分布主要分为右偏态分布(也称正偏态分布)和左偏态分③、整理资料:将原始数据净化、系统化和条理化;布(也称负偏态分布)。
④、解析资料:包括统计描述和统计推断两个方面。
频数表的用途包括以下几个方面:①、描述频数分布的种类;第二章计量资料的统计描述②、描述频数分布的特点;1.频数表的编制方法,频数分布的种类及频数表的用途③、便于发现一些特大或特小的离群值;①、求极差( range ):也称全距,即最大值和最小值之差,记④、便于进一步做统计解析和办理。
一、基本概念1.总体与样本总体:所有同质观察单位某种观察值即变量值的全体样本:是总体中抽取部分观察单位的观察值的集合2.普查与抽样调查普查:就是全面调查,即调查目标总体中全部观察对象抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查3.参数与统计量参数:总体的某些数值特征统计量:根据样本算得的某些数值特征4.Ⅰ型与Ⅱ型错误假设检验的结论真实情况拒绝H0不拒绝H0H0正确Ⅰ型错误ɑ推断正确1ɑH0不正确推断正确1βⅡ型错误βⅠ型错误ɑ错误: H0为真时却被拒绝,弃真错误Ⅱ型错误β错误: H0为假时却被接受,取伪错误5.随机化原则与安慰剂对照随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚;意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上安慰剂对照:是一种常用的对照方法;安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别;安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性;安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应6.误差与标准误区分率与均数㈠均数抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异;标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表 =S/√n示为Sx㈡样本率率的抽样误差:样本率p和总体率π的差异率的标准误:样本率的标准差,公式为σp=√π1-π/n7.方差分析方差分析:又称F检验,是通过对数据变异按设计类型的不同,分解成两个或多个样本均数所代表总体均数是否有差别的一种统计学方法;方差分析的基本思想:把全部观察值间的变异按设计类型的不同,分解成两个或多个组成部分,然后将各部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义二、问题1.集中趋势与离散趋势描述的常用指标、适用范围与优缺点㈠描述集中趋势的常用指标:①均数资料呈正态或近似正态优点:反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本资料进行比较;在描述正态分布的特征方面有重要意义;缺点:因均数易受到极端值的影响,故不适用于描述偏态分布资料的集中位置;②几何均数呈倍数关系的等比资料或对数正态分布正偏态资料优点:能正确描述观察值数值相差极大甚至达到不同数量级的集中位置如:血清抗体滴度、细菌计数、体内某些微量元素含量;缺点:因为0不能取对数,所以数据中若有0则不宜直接使用几何均数;③中位数适合各种类型的资料尤其适用于:大样本偏态分布资料;资料有不确定数值;资料分布不明优点:不受极端值影响,适用于各种类型资料;缺点:不能代表全体数据的水平;㈡描述离散趋势的常用指标①极差可用于各种分布的资料优点:是最简单的变异指标,可用于各种分布的资料;缺点:只涉及两个极端值没有利用全部数据的信息,不能反映组内其他观察值的变异;②四分位数间距偏态分布、两端无确切值或分布不明资料优点:能反映去除两端各四分之一数据后中间一半观察值的变动范围;缺点:不能完全反映全体数据观察值的变动范围;③方差标准差正态优点:反映总变异程度;缺点:数值大小易受平均水平大小的影响;④变异系数观察指标单位不同;同单位资料,但均数相差悬殊优点:消除了因统计量单位不同、均数相差很大、数据分布的集中位置相差很远造成的影响;缺点:变异系数只是一个相对离散指标;2. Poisson分布的性质①总体均数μ与总体方差σ2相等时Poisson分布的重要特征;②当n很大,而π很小,且nπ=μ为常数时,Poisson分布可看做是二项分布的极限分布;③当μ增大时,Poisson分布渐进正态分布;④Poisson分布具备可加性;⑤μ的大小决定了Poisson分布的图形特征;3.检验的注意事项①数据应该来自设计科学严密的实验或调查;②数据应该满足假设检验方法的前提条件;③正确理解假设检验中概率P值的含义;④结论不能绝对化;⑤统计学意义与实际意义;4.直线回归与相关分析的区别与联系㈠区别:①资料要求:直线相关性分析要求x、y服从双变量正态分布;直线回归分析要求在给定某个x值时y值服从正态分布②应用:说明两变量间的相互关系互依关系用直线相关分析;说明两变量的数量依存关系用直线回归分析③意义:相关系数r说明具有直线关系的两变量间相互关系的方向与密切程度;回归系数b表示x每改变一个单位所引起的y的平均该变量④计算公式:r=lxy/√lxxlyy,b=lxy/lxx⑤取值范围:﹣1≤r≤1,﹣∞<b<∞⑥单位:r没有单位,b有单位;㈡联系:①对于服从双变量正态分布的同一组数据,即可做直线相关分析又可做直线回归分析,计算出的b与r正负号一致;②相关系数与回归系数的假设检验等价,即对于同一样本,tb=tr;③对于服从双变量正态分布的同一组资料,其相关系数r与回归系数b可以相互换算:r=bSx/Sy;④用回归可以解释相关;决定系数R2=SS回/SS总,为相关系数的平方;5.应用相对数的注意事项①不能以构成比代替率;②计算相对数的分母不宜过小,小则直接描述;③相对数的比较应注意其可比性;④应分别将分子分母合计求平均率;⑤样本率或构成比的比较应作假设检验;6.率的标准化的基本思想和应用率的标准化的注意事项率的标准化的基本思想:就是采用统一的标准构成,以消除年龄、性别病情轻重及病程长短等因素构成不同对病死率、死亡率、治愈率等的影响,使算得的标准化率具有可比性;应用率的标准化的注意事项:①选择的标准不同,计算出的标准化率也不相同;②标准化率仅适用于相互间的比较,实际水平应采用未标准化率来反映;③样本的标准化率是样本指标值,亦存在抽样误差,若要比较其代表的总体标准化率是否不同,需作假设检验;④各年龄组若出现明显交叉,则不适合采用标准化法,宜分层比较各年龄组率;⑤对于因其他条件不同,而非内部构成不同引起的不可比性问题,标准化法难以解决;对于符合参数统计设计分析条件者,采用非参数统计分析,其经检验较能较低8.标准误与标准差的区别与联系标准差均数的标准误区别统计符号总体标准差用表示均数的标准误用x 表示样本标准差用S表示其估计值用S x 表示计算公式 S=√∑X-X /n-1 S x =S/√n统计学意义标准差越小个体观察值标准误越小,反映间变异程度越小抽样误差越小用途描述个体值的变异程度描述均数的抽样误差大小联系 S x =S/√n三、填空题1.实验设计的三要素与四原则三要素:受试对象、处理因素、实验效应四原则:对照、随机化、盲法、重复2.方差分析与两小样本t检验的应用条件方差分析的应用条件:独立;正态;方差齐性当组数为2时,方差分析与两均数比较的t检验是等价的,t=√F两小样本t检验的应用条件:正态;方差齐性若方差不齐,则用t’检验3.调查研究设计的基本内容主要包括哪些①明确调查目的和指标;②确定调查对象和观察单位;③确定调查方法;④确定调查方式;⑤确定调查项目和调查表;⑥制定资料整理分析计划;⑦制定调查的组织计划;4.变量变换的目的①使资料转换为正态分布;②使资料达到方差齐性;③使曲线直线化;5.完全随机设计与随机区组设计方差分析变异分解完全随机设计:SS总=SS组间+SS组内,v总=v组间+v组内随机区组设计:SS总=SS处理+SS区组+SS误差,v总=v处理+v区组+v误差6.变异系数的适用条件①观察指标单位不同,如身高、体重;②同单位资料,但均数相差悬殊;7.正态分布、标准正态分布、二项分布与Poisson分布的表示正态分布:Nμ,σ2标准正态分布:N0,1二项分布:x ~Bn,pPoisson分布:x ~pμ四、简答题㈠配对设计资料的x 2检验不独立样本①制四格表书P142②建立检验假设,确定检验水准Ho:B=C,即两种方法的检测结果相同H1:B≠C,即两种方法夫人检测结果不同α=③计算x 2值和自由度当b+c≥40, x 2=b-c 2/b+c , v=1当b+c﹤40, x 2=|b-c|-1 2/b+c , v=1④确定P值,作出统计推断查表得:界值x 2=,故P>< ,按α=水准,接受拒绝,差异有/无统计学意义,可以认为两种方法的检测结果相/不同;㈡完全随机设计的x 2检验独立样本①制四格表书P134②建立检验假设,确定检验水准Ho:π1=π2,即两种药物的有效率相同H1:π1≠π2,即两种药物的有效率不同α=③计算x 2值和自由度实际频数A,理论频数TRC=nRnC/n,v=R-1C-1Ⅰ当n≧40且T≧5时,x 2=∑A-T2/T或x 2=ad-bc 2n/a+bc+da+cb+d,v=1;Ⅱ当n≧40且1≦T<5时,用校正的X2值:x 2=∑|A-T|2/T, v=1或x2=|ad-bc|-n/2 2n/a+bc+da+cb+d或用四格表的确切概率法;Ⅲ当n<40或T<1时,用四格表的确切概率法;④确定P值,作出统计推断查表得:界值x 2=,故P>< ,按α=水准,接受拒绝,差异有/无统计学意义,可以认为两种药物的有效率相/不同;五、选择题1.整群抽样与分层抽样的区别:书P152.抽样误差大小关系:书P16,整群抽样误差≥单纯随机抽样误差≥系统抽样误差≥分层抽样误差检验的应用条件:书P914.相关分析应用中应注意的问题:书P168最佳选择题1、2。
一、描述集中位置的指标应用适用范围【筒】平均数:算数均数、几何均数、中位数、百分位数。
1、算数平均数:适用于单峰对称分布或近似于单峰对称分布的资料2、几何均数:适用于对数变换后单峰对称的资料。
eg∙等比资料、滴度资料、对数正态分布资料3、中位数:理论上可用于任何分布资料•,但当资料适合计算均数或几何均数时,不宜用中位数。
Eg:偏态分布、分布不明资料、有不确定值的资料.4、百分位数:适用于任何分布的资料。
二、描述离散趋势的指标【简】变异度:极差、四分位数间距、标准差、方差、变异系数。
1、极差:又称全距,是一组数据中最大值和最小值之差。
极差大说明资料的离散度大。
优点:简单明了缺点:不灵敏和不稳定。
样本例数相差悬殊时,不适宜比较其极差。
2、四分位数间距:即中间一半观察值的极差。
四分位数间距较全距稳定,常与中位数一起,描述不对称分布资料的特征。
3、标准差:基本内容是离均差,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。
在同质的前提下,标准差大,表示变量值的离散程度大,即变量值的分布分散、不整齐、波动较大;标准差小,表示变量值的离散程度小,即变量值的分布集中、整齐、波动较小。
4、方差:利用了所用的信息,与变异度和变量值的个数有关。
5、变异系数(CV):变异系数派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。
三、正态分布特征1、单峰分布;高峰在均数处;2、以均数为中心,均数两侧完全对称。
3、正态分布有两个参数(Parameter),即位置参数_(均数)和变异度参数_(标准差)。
4、有些指标本身不服从正态分布,但经过变换之后可以服从正态分布。
5、正态曲线下的面积分布有一定的规律。
四、参考值范围(含义+原则)【简】1、含义:(1)又称正常值范围,是绝大多数正常人的某观察指标所在的范围。
绝大多数:90%,95%,99%等等。
(2)确定参考值范围的意义:用于判断正常与异常。
名词解释1、一类错误:拒绝了实际上成立的H。
,这类“弃真”的错误称为I型错误或第一类错误。
2、参数和统计量:这些总体的统计指标或特征值称为参数。
由样本所算出的统计指标或特征值称为统计量。
3、变异系数:亦称离散系数,为标准差与均数之比,常用百分数表示。
4、P值:即概率,反映某一事件发生的可能性大小。
5、检验效能:B称为检验效能或把握度,即两总体却有差别,按α水准能发现它们有差别的能力。
简答题1、描述数值变量资料(统计资料)的集中程度有哪些指标,有何运用条件?算数均数:单峰对称分布的资料几何均数:对数变换后的单峰对称的资料中位数:偏态分布,分布不明资料,有不确定值的资料。
百分位数:当样本含量较少时不宜用靠近俩端的百分位数来估计频数分布范围。
2、实验研究的基本要素和基本原则是什么?基本要素:处理因素、受试对象和实验效应。
基本原则:对照原则、随机化原则和重狂原则大题1、(1)变量资料(2)成组t检验对立性正态性方差齐性(3)H0ιμ1=μ2,新药与常规药物的疗效相同H1rμ1≠μ2,新药与常规药物的疗效不同α=0.05T=1.0195V=n1+n2-2=18(2)t<t0.05z18,p>0.05,按a=0.05水准,不拒绝H0,差别无统计学意义。
结论:t检验结果表明,故尚不能认为新药与常规药物的疗效相同。
2、(1)T=13×17/47=4.7(2)x2检验(3)X2>X2(0.05,1),p<0.05,按a=0.05水准,拒绝H0,接受HQ差别有统计学意义。
结论:x2检验结果表明,乙疗法比甲疗法好。
3、(1)成组设计两样本比较的秩和检验(2)实验组秩次:13、I15、8.5、14、15.5、15.5、17、18对照组秩次:1、2、4、3、5、6、8.5、7、10、11.5(3)H0:两组局部温热的疗效总体分布相同H1:两组局部温热的疗效总体分布不同4(1)Ho:P=O,即母体内时间与体重无线性相关关系H1:P≠0,即母体内时间与体重有线性相关关系a=0.05F>5.23,拒绝HO,接受HI,相关系数有统计学意义。
医学统计学第一章 绪言研究设计、资料分析、结论定量资料:以定量值表达每个观察单位的某项观察指标,如血脂心率等。
定性资料:以定性方式表达每个观察单位的某项观察指标,如血型性别等。
等级资料:以等级方式表达每个观察单位的某项观察指标,如疗效分级等。
总体:是指按研究目的所确定的研究对象中所有观察单位某项指标取值的集合。
样本:是指从研究总体中随机抽取具有代表性的部分观察单位某项指标取值的集合。
(以上均可能考名解)描述某总体特征的指标称为总体参数,简称参数;描述某样本特征的指标称为样本统计量,简称统计量。
概率是随机事件发生可能性大小的一个度量,概率小于或等于0.05时,统计学通常称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能发生,此即为小概率原理。
定量资料的统计指标(大题):算术均数,几何均数,中位数和百分位数。
同质性与异质性:同质是指观察单位具有相同的性质,是构成研究总体的必备条件;异质性是指性质不同,研究内容不同,对同质性的要求不同。
第二章 个体变异与变量分布变异(名解):是以具有同质性的观察单位为载体,某项观察指标在观察单位之间显示的差别。
【在同质的基础上各观察单位(或个体)之间的差异】 正偏态与负偏态【2.3节为重点,尤其是统计指标与图的关系】几何均数应用于比值数据,中位数适用于偏态分布离散趋势指标(重点简答):全距,四分位数间距,方差,标准差和变异系数,其中常用的是标准差和变异系数。
变异系数(名解):亦称离散系数,是标准差s 与均数x 之比,即XS CV X100%,变异系数常用于比较度量衡单位不同的两组或多组资料的变异度、比较均数相差悬殊的两组或多组资料的变异度。
如何正确使用相对数(选择或简答):1,计算相对数的分母不宜过小。
2,分析时不能以构成比代替率。
3,对观察单位数不等的几个率,不能直接相加求其平均率(或称总率)。
4,计算率时要注意资料的同质性,对比分析时应注意资料的可比性。