医学统计学-知识梳理
- 格式:doc
- 大小:275.50 KB
- 文档页数:15
医学统计学1. 对定量资料进行统计描述时,如何选择适宜的指标定量资料统计描述常用的统计指标及其适用场合描述内容指标意义适用场合平均水平;均数个体的平均值·对称分布几何均数平均倍数取对数后对称分布中位数[位次居中的观察值①非对称分布;②半定量资料;③末端开口资料;④分布不明众数频数最多的观察值不拘分布形式,概略分析?调和均数基于倒数变换的平均值正偏峰分布资料变异度全距观察值取值范围不拘分布形式,概略分析标准差(方差)观察值平均离开均数的程度对称分布,特别是正态分布资料四分位数间距?居中半数观察值的全距①非对称分布;②半定量资料;③末端开口资料;④分布不明变异系数标准差与均数的相对比①不同量纲的变量间比较;②量纲相同但数量级相差悬殊的变量间比较定性资料:阳性事件的概率,概率分布,强度和相对比。
¥2. 应用相对数时应注意哪些问题答:(1)防止概念混淆相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。
(2)计算相对数时分母不宜过小样本量较小时以直接报告绝对数为宜。
(3)观察单位数不等的几个相对数,不能直接相加求其平均水平。
(4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。
3. 常用统计图有哪些分别适用于什么分析目的常用统计图的适用资料及实施方法<图形适用资料实施方法条图组间数量对比用直条高度表示数量大小直方图用直条的面积表示各组段的频数或频率(定量资料的分布百分条图构成比用直条分段的长度表示全体中各部分的构成比饼图构成比用圆饼的扇形面积表示全体中各部分的构成比定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系、线图半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系散点图}双变量间的关联点的密集程度和形成的趋势,表示两现象间的相关关系箱式图定量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布'用茎表示组段的设置情形,叶片为个体值,叶长为频数第3章概率分布(连续随机变量的正态分布;离散随机变量的二项分布及Poisson分布)1. 服从二项分布及Poisson分布的条件分别是什么二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。
医学统计学知识点汇总(精华)一.概论1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。
2,医学统计学的主要内容:1)统计研究设计调查研究设计和实验研究设计2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。
A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。
3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。
3,统计工作步骤:1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。
2)搜集材料A,搜集材料的原则及时、准确、完整B,统计资料的来源医学领域的统计资料的来源主要有三个方面。
一是统计报表,二是经常性工作记录,三是专题调查或专题实验。
C,资料贮存3)整理资料 a检查核对b设计分组c拟定整理表d归表4)分析资料统计分析包括统计描述和统计推断4,同质(homogeneity):指被研究指标的影响因素相同。
变异(variation):同质基础上的各观察单位间的差异。
变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。
变量类型变量值表现实例资料类型数值变量离散型定量测量值,有计量单位产前检查次数计量资料连续型身高分类变量无序二分类对立的两类属性性别(男女)计数资料多分类不相容的多类属性血型(A,B,O,AB)有序多分类类间有程度差异的属性受教育程度(小学,中学,高中,大学…)等级资料5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。
实用标准文案精彩文档第一章绪论1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。
2、研究对象:具有不确定性结果的事物。
3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。
4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。
5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。
6、医学统计学中的基本概念(1) 同质与变异同质,指根据研究目的所确定的观察单位其性质应大致相同。
变异,指总体内的个体间存在的、绝对的差异。
统计学通过对变异的研究来探索事物。
(2) 变量与数据类型变量,是反映实验或观察对象生理、生化、解剖等特征的指标。
变量的观测值,称为数据分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。
(如身高、体重、血压、温度等)定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。
包括二分类、无序多分类。
(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB等)有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。
统计方法的选用与数据类型有密切的关系。
(3)总体与样本总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。
样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。
抽样,是从研究总体中随机抽取部分有代表性的观察单位。
参数,指描述总体特征的指标。
统计量,指描述样本特征的指标。
(4)误差误差,指观测值与真实值、统计量与参数之间的差别。
可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。
随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。
抽样误差,是抽样引起的统计量与参数间的差异。
医学统计学基本知识•总体(population)指同质的研究对象中所有观察单位研究指标变量值的集合。
总体通常限定于特定的时间与空间范围之内,且为有限数量的观察单位,称为有限总体;有时总体是假设的,没有时间和空间限制,观察单位数是无限的,称为无限总体。
•样本(sample)医学实践与研究中,要直接研究无限总体通常是不可能的,即使是有限总体,由于人力、物力、时间、条件等限制,要对其中每个观察单位进行研究或观察,有时也是不可能的,也不必要。
而只是从总体中随机抽取部分观察单位,其变量实测值构成样本,目的用样本指标推断总体特征。
这种推断不要经过严谨的实验设计,以样本的可靠性和代表性为基础。
样本的可靠性:主要是使样本中每一观察单位确属同质总体。
样本的代表性:使样本能充分反映总体的实际情况,要求抽样遵循随机化原则,目的是使每个观察单位被抽得的机会相等,避免主观取舍及偏性;还要保证足够的样本量,即保证足够的观察单位个数。
•参数(parameter)统计学上描述总体变量的特征称为参数。
如总体均数、中位数和众数等体参数称为样本指标。
如以样本均数()推算总体均数(m),以样本标准差(s)推算总体标准差(s)等,值得注意的是,选择统计量作为参数估计值时,通常选择无偏、有效且一致的估计量,即对总体变量渐进无偏估计量。
计量资料(measurement data)又称定量资料(quantitative data)或数值变量(numerical variable)资料。
为测定每个观察单位某项指标的大小而获得的资料。
其变量值是定量的,表现为数值大小,一般有度量衡单位。
计数资料(enumeration data)又称定性资料(qualitative data)或无序分类变量(unordered categorical variable)资料。
为将观察单位按某属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。
其变量值是定性的,表现为互不相容的属性或类别,如试验结果的阴阳性,家族史的有无等等。
新版医学统计学知识点归纳总结医学统计学是医学研究中不可或缺的一部分,它涉及到数据的收集、分析和解释,帮助医学工作者从大量数据中提取有价值的信息。
以下是新版医学统计学的知识点归纳总结:1. 研究设计:研究设计是统计分析的前提,包括观察性研究和实验性研究。
观察性研究如队列研究、病例对照研究,而实验性研究如随机对照试验(RCT)。
2. 数据类型:医学统计学中的数据可分为定性数据和定量数据。
定性数据如性别、血型,定量数据如血压、体重。
3. 描述性统计:描述性统计用于描述数据集的特征,包括集中趋势(均值、中位数、众数)和离散程度(方差、标准差、极差)。
4. 概率分布:在统计学中,概率分布描述了随机变量取值的概率。
常见的分布有正态分布、二项分布和泊松分布。
5. 假设检验:假设检验是统计推断的核心,用于判断样本数据是否支持某个假设。
常见的检验方法有t检验、卡方检验和F检验。
6. 置信区间:置信区间提供了一个范围,用以估计总体参数的可能值。
95%的置信区间意味着有95%的把握认为总体参数落在这个区间内。
7. 回归分析:回归分析用于研究一个或多个自变量对因变量的影响。
简单线性回归和多元线性回归是常见的回归分析方法。
8. 生存分析:生存分析关注个体生存时间的分布和相关因素,常用于肿瘤学和流行病学研究。
Kaplan-Meier估计和Cox比例风险模型是生存分析中的重要工具。
9. 诊断试验评价:诊断试验评价涉及敏感性、特异性、阳性预测值和阴性预测值等指标,用于评估诊断方法的准确性。
10. 样本量计算:样本量计算是研究设计的重要环节,它决定了研究的可行性和结果的可靠性。
样本量计算需要考虑效应大小、显著性水平和检验力。
11. 多变量分析:多变量分析用于同时考虑多个变量对结果的影响,如多元回归分析和判别分析。
12. 统计软件的应用:统计软件如SPSS、SAS和R在医学统计分析中扮演着重要角色,它们提供了数据处理和统计分析的功能。
一、资料、变量类型的识别定量资料1.某医院2006年2月的手术病人数资料属于(C )A等级资料B计数资料C计量资料D定性资料2.某医院将60名失眠者随机分成3组,分别使用不同的镇静剂,比较3组受试者平均睡眠延长时间有无差别。
请问该资料属于(B )A等级资料B定量资料C定性资料 D 有序分类资料3.某医师研究洛赛克治疗消化性溃疡(60例)的疗效,以泰胃美作对照(60例),得到治疗有效人数洛赛克为54例,泰胃美为36例。
请问该资料属于( A )A定性资料B定量资料C等级资料D数值变量资料4.用某药治疗胃癌,对溃疡型和梗阻型胃癌的治疗结果分别用治愈、显效、好转和无效表示,则该好转人数属于(D )A等级资料B定性资料C有序分类变量D数值变量5.下列变量中,属于定量变量的是(D )A性别B职业C血型D体重6.南京市区2006年新生儿出生体重资料属于(A )A定量资料B等级资料C计数资料D定性资料7.某年某山区120名孕妇产前检查次数(B)A二项分布资料 B Poisson分布资料C正态分布资料D对数正态分布资料8.接受某种处理的5只小鼠的生存时间(分钟)分别为50.0、63.2、62.7、61.9、60.5,则该资料属于(A )A定量资料B等级资料C计数资料D定性资料9.下列变量中,不属于数值变量的是(C )A坐高B胸围C血型D身高10.某医院某年口腔科就诊儿童的乳牙萌出时间资料属于(A )A定量资料B等级资料C计数资料D定性资料定性资料1.在英格兰和威尔士曾进行了一次关于孕妇孕期风疹病毒感染与所生新生儿先天性畸形关系的队列研究。
选择曾患风疹的孕妇共有578人作为暴露组,对照组的对象是从未患过风疹的孕妇中随机抽取的5117人。
请问该资料属于( C )A定量资料B半定量资料C计数资料D等级资料2.启东市癌症登记处1972年1月1日至2001年12月31日肺癌发病登记报告显示:30年间登记并经核实肺癌病例8167例,其中男性5859例,女性2308例。
实用标准文案精彩文档第一章绪论1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。
2、研究对象:具有不确定性结果的事物。
3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。
4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。
5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。
6、医学统计学中的基本概念(1) 同质与变异同质,指根据研究目的所确定的观察单位其性质应大致相同。
变异,指总体内的个体间存在的、绝对的差异。
统计学通过对变异的研究来探索事物。
(2) 变量与数据类型变量,是反映实验或观察对象生理、生化、解剖等特征的指标。
变量的观测值,称为数据分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。
(如身高、体重、血压、温度等)定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。
包括二分类、无序多分类。
(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB等)有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。
统计方法的选用与数据类型有密切的关系。
(3)总体与样本总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。
样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。
抽样,是从研究总体中随机抽取部分有代表性的观察单位。
参数,指描述总体特征的指标。
统计量,指描述样本特征的指标。
(4)误差误差,指观测值与真实值、统计量与参数之间的差别。
可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。
随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。
抽样误差,是抽样引起的统计量与参数间的差异。
重点知识梳理第一章1.统计学(statistics)是研究数据的收集、整理和分析的一门科学,帮助人们分析所占有的信息,达到去伪存真、去粗取精、正确认识世界的一种重要手段。
2.总体(population)与样本(sample)任何统计研究都必须首先确定观察单位亦称个体(individual)总体(population)是根据研究目的确定的同质观察单位的全体,或者说,是同质的所有观察单位某种观察值(变量值)的集合。
总体又分为有限总体(finite population)和无限总体(infinite population),有限总体是指在某特定的时间与空间范围内,同质研究对象的所有观察单位的某变量值的个数为有限个无限总体是抽象的,无时间和空间的限制,观察单位数是无限的3.统计学的研究方法(1)大量观察法对所研究事物的全部或足够数量进行观察的方法。
依据是大数定律(2)综合指标法从数量方面对现象总体特征的概括说明(3)统计推断法在一定的置信度下,根据样本资料的特征对总体特征作出估计和预测的方法第二章1.方差(variance):为了全面考虑观察值的变异情况,克服全距和四分位数间距的缺点,需计算总体中每个观察值X与总体均数的差值(X-μ),称之为离均差。
2.标准差(standard deviation):方差的度量单位是原度量单位的平方,将方差开方后与原数据的度量单位相同。
标准差大,表示观察值的变异度大;反之,标准差小,表示观察值的变异度小。
3.变异系数(coefficient of variation,简记为CV):常用于比较度量单位不同或均数相差悬殊的两组或多组资料的变异度。
第三章1.正态分布(Normal distribution),也称“常态分布”,又名高斯分布。
是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
t1nν=-一、描述集中位置的指标应用适用范围【简】平均数:算数均数、几何均数、中位数、百分位数。
1、算数平均数:适用于单峰对称分布或近似于单峰对称分布的资料2、几何均数:适用于对数变换后单峰对称的资料。
eg.等比资料、滴度资料、对数正态分布资料3、中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数。
Eg:偏态分布、分布不明资料、有不确定值的资料.4、百分位数:适用于任何分布的资料。
二、描述离散趋势的指标【简】变异度:极差、四分位数间距、标准差、方差、变异系数。
1、极差:又称全距,是一组数据中最大值和最小值之差。
极差大说明资料的离散度大。
优点:简单明了缺点:不灵敏和不稳定。
样本例数相差悬殊时,不适宜比较其极差。
2、四分位数间距:即中间一半观察值的极差。
四分位数间距较全距稳定,常与中位数一起,描述不对称分布资料的特征。
3、标准差:基本内容是离均差,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。
在同质的前提下,标准差大,表示变量值的离散程度大,即变量值的分布分散、不整齐、波动较大;标准差小,表示变量值的离散程度小,即变量值的分布集中、整齐、波动较小。
4、方差:利用了所用的信息,与变异度和变量值的个数有关。
5、变异系数(CV):变异系数派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。
三、正态分布特征1、单峰分布;高峰在均数处;2、以均数为中心,均数两侧完全对称。
3、正态分布有两个参数(parameter),即位置参数 (均数)和变异度参数 (标准差)。
4、有些指标本身不服从正态分布,但经过变换之后可以服从正态分布。
5、正态曲线下的面积分布有一定的规律。
四、参考值范围(含义+原则)【简】1、含义:(1)又称正常值范围,是绝大多数正常人的某观察指标所在的范围。
绝大多数:90%,95%,99%等等。
(2)确定参考值范围的意义:用于判断正常与异常。
医学卫生统计学知识点在医学领域,卫生统计学是一门重要的学科,它运用统计学原理和方法来收集、整理、分析和解释与卫生相关的数据,旨在揭示人群健康状况、卫生问题以及卫生政策的影响。
本文将介绍医学卫生统计学中的一些重要知识点,并探讨其在医疗实践和公共卫生政策制定中的应用。
一、数据类型与数据收集1. 定性数据和定量数据:- 定性数据是描述性质或特征的数据,例如性别、年龄组、病理类型等。
定性数据通常用文字或符号来表示,如男性(M)和女性(F)。
- 定量数据是数量或度量的数据,例如血压、体重、人口数量等。
定量数据通常用数字来表示。
2. 数据收集方法:- 问卷调查:通过向被调查者提问,记录他们的回答,以获取数据。
这是一种常用的数据收集方法,适用于大规模的数据收集。
- 抽样调查:从总体中选择一部分样本进行观察和调查,并根据样本数据推断总体特征。
抽样调查通常用于资源有限或时间有限的情况下。
- 实验研究:通过对不同组进行干预和观察,比较实验组和对照组之间的结果差异,以评估干预措施的效果。
二、描述统计学描述统计学是卫生统计学的重要组成部分,它主要通过图表和概括性指标来描述和总结数据。
以下是几种常见的描述统计学指标:1. 频数与频率:频数是某一数值在数据中出现的次数,频率是某一数值在数据中出现的比例。
频数和频率可以帮助我们了解数据的分布情况。
2. 中心倾向性指标:- 平均数(均值):用于度量一组数据的集中趋势,计算方法为将所有观测值相加后除以观测值的总数。
- 中位数:将一组数据按照大小顺序排列,中位数是位于中间位置的观测值,将数据分为两半。
- 众数:一组数据中出现次数最多的数值。
3. 离散程度指标:- 极差:一组数据中最大观测值与最小观测值之间的差异。
- 方差:观测值与均值之间的平均偏差的平方和,用于度量数据的离散程度。
- 标准差:方差的平方根,更常用于度量数据的离散程度。
三、生存分析生存分析是医学卫生统计学的重要应用领域之一,主要用于分析和预测疾病发生和死亡的时间。
第一章绪论1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。
2、研究对象:具有不确定性结果的事物。
3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。
4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。
5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。
6、医学统计学中的基本概念(1) 同质与变异同质,指根据研究目的所确定的观察单位其性质应大致相同。
变异,指总体内的个体间存在的、绝对的差异。
统计学通过对变异的研究来探索事物。
(2) 变量与数据类型变量,是反映实验或观察对象生理、生化、解剖等特征的指标。
变量的观测值,称为数据分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。
(如身高、体重、血压、温度等)定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。
包括二分类、无序多分类。
(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、A B等)有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。
统计方法的选用与数据类型有密切的关系。
(3)总体与样本总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。
样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。
抽样,是从研究总体中随机抽取部分有代表性的观察单位。
参数,指描述总体特征的指标。
统计量,指描述样本特征的指标。
(4)误差误差,指观测值与真实值、统计量与参数之间的差别。
可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。
随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。
抽样误差,是抽样引起的统计量与参数间的差异。
抽样误差主要来源于个体的变异。
1-绪论第一节统计学与医学统计学方法1、统计学是收集、分析、解释与呈现数据资料的一门科学收集数据:实验设计、调查设计分析数据:统计学描述、统计学推断解释数据:根据专业等解释统计结果呈现结果:向杂志社、上级部门发表结果2、统计工作的基本步骤①统计设计:包括调查、实验设计②收集资料:取得准确可靠的原始资料③整理资料:对资料进行整理、改错、数量化④分析资料:统计描述、统计推断(参数估计、假设检验)第二节数据类型1、计量资料(定量数据):用仪器、工具等测量方法获得的数据。
特点:有计量单位2、计数资料(定性数据/分类资料):按某种属性分类,然后清点每类的数据。
无固有计量单位,分为二分类和多分类3、等级资料(有序分类资料):半定量或半定性的观察结果。
有大小顺序4、三类资料间关系第三节统计学基本概念1、随机变量(random variable)及其分类简称变量(variable),用大写拉丁字母表示,如X、Y、Z。
变量值用小写拉丁字母表示①离散型变量(discrete variable)相当于计数资料(定性数据)②连续型变量(continuous variable)相当于计量资料(定量数据)③有序变量(ordinal variable)相当于等级资料2、同质与变异(homogeneity and variation)同质:指事物的性质、影响条件或背景相同或非常相近变异:指同质的个体之间的差异3、总体与样本(population and sample)总体:根据研究目的确定的同质研究对象的全体(集合)分有限总体与无限总体样本:从总体中随机抽取的部分观察单位随机抽样(random sampling)为保证样本的可靠性和代表性,需要采用随机的抽样方法4、参数与统计量(parameter and statistic)参数:总体的统计指标,如总体均数,标准差,为固定的常数统计量:样本的统计指标,如样本均数、标准差,为参数附近波动的随机变量5、误差(error)实际观察值与客观真实值之差①系统误差(systematic error)在实际观测中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。
均数 方差 标准差 均数标准差/标准误
样本 X
2S
S 估计值 XS
总体 2
X
均数±2.58标准差:表示集中位置、离散程度 均数±2.58标准误:表示平均水平、抽样误差大小P75
一、标准差的主要作用是估计正常值的范围 实际应用中,估计观察值正常值范围应该用标准差(s),表示为“Mean ±SD”。此写法综合表达一组观察值的集中和离散特征的变异情况,说明样本平均数对观察值的代表性。s 的大或小说明数据取值的分散或集中。s与样本均数合用, 主要是在大样本调查研究中, 对正态或近似正态分布的总体正常值范围进行估计。如果不是为了正常值范围估计,一般不用。当数据与正态分布相差很大,或者虽为正态分布, 但样本容量太小(小于30 或100),也不宜用估计正常值范围。
二、标准差还可用来计算变异系数(CV) 当两组观察值单位不同, 或两均数相差较大时,不能直接用标准差比较其变异程度的大小, 须用变异系数系数来做比较。: 2.2 标准误的正确使用 一、标准误用来衡量抽样误差的大小和了解用样本平均数来推论总体平均数的可靠程度。 在抽样调查中,往往通过样本平均数来推论总体平均数,样本标准误 适用于正态或近似正态分布的数据, 是主要描述小样本试验中,样本容量相同的同质的多个样本平均均数间的变异程度的统计量。即如果多次重复同一个试验, 它们之间的变异程度用。显然它越小,样本平均数变异越小,越稳定,用样本平均数估计总体均数越可靠。因此,为说明它的稳定性、可靠性或通过几个对几组数据进行比较(这是科研论文中最常见的),应当用描述数据。实际应用中应该写成“平均数±标准误”或而英文表示为“Mean ±SE”的形式。
二、标准误还可以进行总体平均数的区间估计与点估计(置信区间)。 根据正态分布原理, 与 合用还可以给出正态总体平均数的可信区间估计即推论总体平均数的可靠区间,例如常用 (其中t0.05 (n-1) 为样本容量是n的t界值)表示总体均值的95%可信区间, 意指总体平均数有95%的把握在所给范围内。
三、标准误还可用来进行平均数间的显著性检验,从而判断平均数间的差别是否是由抽样误差引起的。例如:某当地小麦良种的千粒重=34克,现在从外地引入一新品种,通过多小区的田间试验得到千粒重的平均数=35.2克,问新引进品种千粒重与当地良种有无显著差异?新引进品种千粒重与当地良种有无显著差异实质是判断与的差别是否是有田间试验是抽样误差引起,所以要进行显著性检验,这里用t测验进行检验,而,由于,故,所以认为新引进品种千粒重与当地良种千粒重的不同是由于田间试验是抽样
误差引起,因此他们之间无显著差异。所以在进行平均数间的显著性检验是必须用到。 总之,标准差和标准误最常用的统计量,二者都是衡量样本变量(观察值) 随机性的指标,只是从不同角度来反映误差,二者在统计推断和误差分析中都有重要的应用。如果没有标准差,人们就无法看出一组观察值间变异程度有多大,这些数字到底有无代表性,如果没有标准误又很难看出我们的样本平均数是否可以代表总体平均数。所以二者都非常重要。 定量资料的统计描述: 频数分布表:全距,R=最大值-最小值;组距=全距/组数,(组数8-9人一组) 频数分布图:直方图 集中位置的描述:平均数3
1.算数均数:μ总体均数,X样本均数。适用定量资料,对称分布,正态或近似正态 2.几何均数:G,适用变量值呈倍数关系,偏态尤其对数变换后正态或近似正态 3.中 位 数:M,各种分布(不对称,两端无确切值,分布不明确),正态等于算数均数,对数正态等于几何均数。 离散程度描述:5 1.极差:R,同全距,各种分布,但一般单峰、对称、小样本 2.四分位数间距:P75—P25,(不对称,两端无确切值,分布不明确),P25,P50,P75,共三点将全部观察值分为四部分 3.方差:总体σ2,样本S2(计算时除以自由度n-1)。单峰对称。 4.标准差:总体σ,样本S。单峰对称,对数变换后正态或近似正态使用几何标准差。
5.变异系数:CV=S/X*100%。适用不同计量单位(身高和体重),或均数相差很大 正态分布及其应用:N(μ,σ2) 特征:4①横轴上方均数处最高;②均数为中线,左右对称;③位置参数/总体均数μ,形态参数/标准差σ;④曲线下面积分布有一定规律,对称,1.645—90.00%,1.96—95.00%,2.58—99.00%。
6.正态分布:N(,2)经标准化转换 XZ 为标准正态分布/Z分布:Z(0,1) 7.制定医学参考限值时,分双侧(±)、单侧,单侧又分只有下限(-)、只有上限(+)。 定性资料描述:分类/计数资料,性别,疾病感染情况,病情轻重...,相对数进行统计描述。 相对数:3 1.率:频率(发病率、患病率),0到1之间;速率(肿瘤患者5年生存率),分母乘以时间数(125人追踪2年死亡2人,年死亡率=2/125*2 *100%)0到∞。
2.构成比: 3.相对比:两个有关联的指标比值(变异系数,相对危险度,比值比..) 应用注意:①足够的观察单位数; ②不能以构成比代替率,事物内部各组分所占比重不能说明某现象发生的频率或强度大小; ③分别将分子和分母合计求合计率; ④相对数的比较注意可比性,其他的年龄、性别等相同或相近,可分层或标准化再比较; ⑤样本率、样本构成比应做假设检验再比较(是比较其所代表的总体~有无差异)。 率的标准化:
标准化率:p’=NpNii(pi被标化组死亡率,Ni标准组年龄别人口,N标准组总人口) 标准化死亡率比:SMR=被标化组实际死亡数/预期死亡数 被标化组实际死亡数=本年龄组死亡率*标准组本年龄组人口(用被标化组年龄别死亡率去预测标准人口中可能死亡人数) 总体均数的估计: 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 样本均数的标准差=均数的标准误,其估计值:nSSX (进行一次抽样即可估计均数标准误)
t分布 1nS/-XS-XtXnv,μμ (总体均数的区间估计,t检验...) t分布特征:①以t=0为左右对称的单峰分布; ②曲线形态取决于自由度大小,n越小,XS越大,样本X间差异越大,n→∞,t分布就是标准正态分布(Z分布)。 总体均数的估计: 点估计用X作为μ,无法评价可信程度。 区间估计:2
1、单样本:n不论大小,μ双侧(1-α)置信区间 XvStX,2/(确切法)
n>100,t接近Z,μ双侧(1-α)置信区间 XvSZX,2/ (1.645 1.96 2.58)(正态近似法) 2、两样本: 两均数之差的标准误:① n1、n2不论大小,)11(21221nnSSCXX(确切法) ② n1、n2均较大时,t接近Z,则221221nSnSSCCXX(正态近似法) 两总体均数差值的置信区间:(μ1-μ2) 为 212/21-XXvStXX,(t与Z根据条件可互换) t检验:Student’s t检验,从样本均数推总体均数 条件:①t检验,单样本中,n<50,总体正态分布。 ②t’检验,两小样本,总体正态分布,但两样本总体方差不等。公式好复杂,P96 ③Z检验,两大样本,n均>50,单峰、近似正态。 1、单样本t检验:样本所代表的总体均数μ与已知总体均数μ0比较 1nS/-XS-Xt0X0nv,μμ
2、配对t检验:①配对的两受试对象分别接受2种不同处理;②同一样品用两种方法或仪器检测;③同一受试对象两不同部位测定数据。
H0为两总体均数相同,差值的样本均数d所代表的总体均数d
μ为0,则
1n/Sdn/S0-dS-dtdddnvd,μ(n为对子数) 3、两独立样本/成组t检验:两样本分别正态分布,H0为两总体均数相等,则
① n1、n2不论大小, 2)2111(21221nnvnnSXXtc,(确切法) ② n1、n2均>50,t接近Z, 22212121nSnSXXZ(正态近似法) 4、两样本几何均数t检验:(抗体滴度等)不服从正态,但服从对数正态,公式同成组t检验。 正态性检验:①图示法:P-P图法,Q-Q图法 ②统计检验法:W检验(n≤50),矩法检验(总体偏度、峰度),D检验 方差齐性检验:①两总体方差齐性检验,判断两总体方差是否相等,F检验 11(22112221nvnvSSF,,(较小)较大)(进行假设检验,α=0.10,查F界值表) NXC2)(
②多样本方差齐性检验:q检验!!!Levene检验(可两总体),Bartlett检验。用于方差分析。 方差分析ANOVA/F检验:总体均数之间差别? 多样本均数的比较,通过对数据变异的分析来推断两个/多个样本均数所代表的总体均数是否有差别。 应用条件:①各样本是相互独立的随机样本,均服从正态;②各样本总体方差相等,即方差齐性。 总变异:数据的均方MS总,处理影响+随机误差(个体差异+测量误差) 组间变异:MS组间,处理因素的影响 组内变异:MS组内,随机误差的影响
21,vvMSMSF分母(服从自由度分子组内组间) 1、完全随机设计资料:成组设计的多个样本~,单因素两水平/多水平方差分析。3变异 同质的受试对象 随机分配到各处理组,各组样本含量相等或不等。
SS总=SS组间+SS组内 1XMS2总NC NXCkCnXvii221/SSMS)(,)(组间组间组间 V总=V组间+V组内
v总=N-1 V组间=k-1 V组内=N-k 21
,vvMSMSF分母(服从自由度分子组内组间) v1组间,v2组内
注意:总体均数不全相同,两两之间比较用另外的方法。 2、随机区组设计资料;配伍组设计,两因素。3变异 受试对象按照性质分成b个区组/配伍组,每个区组随机分配到k个处理组。 MS总=MS处理组+MS区组+MS误差 vSS=MS v总=v处理组+v区组+v误差 =(处理-1)+(区组-1)+误差=N-1
处理误差处理处理,vMSMSF 区组误差区组区组,vMSMSF 同理:总体均数不全相同,两两之间比较用另外的方法。 3、多个样本均数两两比较,即上面的“注意”、“同理” ①SNK法,q检验 ②Dunnett-t检验 4、交叉设计资料,分两阶段和多阶段(×)