@2017.3.16-统计学-计量资料的统计描述方法
- 格式:doc
- 大小:217.79 KB
- 文档页数:11
计量资料的统计学方法
首先,计量资料的统计学方法包括描述统计和推断统计。
描述
统计用于总结和展示数据的特征,包括均值、中位数、标准差、频
数分布等。
这些统计量可以帮助我们了解数据的集中趋势、离散程
度和分布形态。
推断统计则用于从样本数据中推断总体的特征,包
括参数估计和假设检验。
参数估计可以帮助我们对总体参数(如均值、比例)进行估计,而假设检验则可以帮助我们对总体参数的假
设进行检验。
其次,计量资料的统计学方法还包括回归分析和方差分析。
回
归分析用于研究自变量和因变量之间的关系,可以帮助我们预测因
变量的取值。
常见的回归分析包括简单线性回归和多元线性回归。
方差分析则用于比较多个总体均值是否相等,可以帮助我们判断不
同组别之间的差异是否显著。
此外,计量资料的统计学方法还包括相关分析和时间序列分析。
相关分析用于研究两个变量之间的相关关系,可以帮助我们了解它
们之间的相关性强弱和方向。
时间序列分析则用于研究时间序列数
据的特征和规律,包括趋势、季节性和周期性等,可以帮助我们进
行未来的预测和规划。
综上所述,计量资料的统计学方法涵盖了描述统计、推断统计、回归分析、方差分析、相关分析和时间序列分析等多个方面,可以
帮助我们全面深入地理解和解释数据的特征和规律。
在实际应用中,研究者可以根据具体问题的特点和要求选择合适的统计方法进行分
析和解释。
计量资料和计数资料的统计方法计量资料和计数资料是统计学中常见的两种数据类型,它们在统计分析中有着不同的处理方法和应用场景。
本文将分别介绍计量资料和计数资料的统计方法,并探讨其在实际问题中的应用。
一、计量资料的统计方法计量资料是指可以用数值表示的数据,例如身高、体重、温度等。
统计学中常用的计量资料分析方法有描述统计和推断统计。
1. 描述统计描述统计是对收集到的数据进行总结和描述的方法。
常用的描述统计量有平均值、中位数、众数、标准差、方差等。
平均值是计量资料最常用的描述统计量,它可以反映数据的集中趋势。
中位数和众数则可以反映数据的位置和分布情况。
标准差和方差则可以衡量数据的离散程度。
2. 推断统计推断统计是基于样本数据对总体进行推断的方法。
在推断统计中,常用的统计分析方法有假设检验和置信区间估计。
假设检验用于验证关于总体的某个参数的假设,例如总体均值是否等于某个特定值。
置信区间估计则可以给出总体参数的一个区间估计,例如总体均值的置信区间。
二、计数资料的统计方法计数资料是指不连续的、以计数形式出现的数据,例如人数、次数、事件发生次数等。
计数资料的统计方法主要包括频数分布、列联表分析和卡方检验。
1. 频数分布频数分布是计数资料最常用的分析方法之一,它将数据按照不同的取值进行分类,并统计每个类别的频数。
通过频数分布可以直观地了解数据的分布情况和特征。
2. 列联表分析列联表分析是用于分析两个或多个分类变量之间关系的方法。
通过构建列联表可以清晰地展示不同变量之间的交叉频数,并计算各个格子的期望频数和卡方值。
列联表分析可以帮助我们判断两个变量之间是否存在相关性。
3. 卡方检验卡方检验是用于检验两个或多个分类变量之间是否存在显著差异的统计方法。
卡方检验基于计数资料的频数分布和列联表,通过计算观察频数与期望频数的差异,并进行假设检验来判断变量之间是否独立。
三、计量资料和计数资料的应用计量资料和计数资料在实际问题中具有广泛的应用。
统计学计量的统计描述方法文档编制序号:[KK8UY-LL9IO69-TTO6M3-MTOL89-FTT688]计量资料的统计描述方法怎样表达一组数据描述计量资料的常用指标—A 、描述平均水平(中心位置):均数X 、中位数和百分位数、几何均数G 、众数(mode ) B 、描述数据的分散程度:标准差、四分位数间距、 变异系数、方差、全距(一)均数mean 和标准差standard deviation 1. (算术)均数X均数是描述一组计量资料平均水平或集中趋势的指标。
*直接计算公式:12nX X X X X nn+++==∑应用条件:适用于对称分布,特别是正态分布资料。
2. 中位数(median )M 和百分位数(percentile ) A.中位数M是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。
应用条件:用于任何分布类型,包括偏态资料、两端数据无界限的资料。
计算:n 为奇数时--1()2n M X+=n 为偶数时--()(1)2212n n M X X +⎛⎫=+ ⎪⎝⎭9人数据:12,13,14, 14, 15, 15, 15, 17, 19天B.百分位数是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。
中位数是第百分50位数。
四分位数间距(quartile range )= 第25百分位数(P25)~第75百分位数(P75)。
四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。
)(天155219===+X X M 8845122221415214.5()M X X X X ⎛⎫==== ⎪⎝⎭+如果只调查了前八位中学生,则:+(+)(+)天百分位数计算(频数表法):(%)XX XL Xi P L nX f f =+-∑X L :第X 百分位数所在组段下限L Σf :小于X L 各组段的累计频数X i :第X 百分位数所在组段组距n :总例数 f x :所在组段频数注:有的教材X= r ; L f ∑=C例:求频数表的第25、第75百分位数(四分位数间距)组段 频数f 累积频数∑f 56~ 2 2 59~ 5 7 62~ 12 19 ∑f 25 L 25 65~15 34 P 25在此 68~ 25 59 71~ 26 85 ∑f 75 L 75 74~19 104 P 75在此 77~ 15 119 80~ 10 129 83~85 1 130合 计130① 确定Px 所在组段:P 25所在的组段:n X %=130×25%=,65~组最终的累积频数=34,落在65~组段内;P 75所在的组段:n X %=130×75%=, 此值落在74~组段 ② 确定Px 所在组段的X L 、X i 、f x 、L Σf ③ P 25=65+3x[(130x25%-19)/15]=P 75=74+3x[(130x75%-85)/19]=四分位数间距=~ (次/分)3.几何均数G (geometric mean ) 应用:适用于成等比数列的资料,特别是服从对数正态分布资料。
计量资料的统计描述描述性统计分析是进行统计分析的第一步,做好这一步是正确进行统计推断的先决条件。
计量资料常用的统计描述指标和方法主要有:1、集中趋势指标(Central Tendency):包括均数、几何均数、中位数等。
其中均数适用于正态分布和对称分布资料;几何均数适用于对数正态分布和呈等比的数据资料;中位数适合于所有分布类型的资料,但在实际中,中位数主要应用于偏态分布资料、分布不明资料和开口资料。
2、离散趋势指标(Dispersion):包括全距、四分位数间距、方差、标准差、变异系数、标准误等。
方差、标准差用于正态分布资料,四分位数间距用于偏态分布资料,变异系数用于度量单位不同和均数相差悬殊的资料,标准误用于反映样本均数的离散程度,说明均数抽样误差大小。
SPSS的许多模块均可完成描述性统计分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程:产生频数表;按要求给出某百分位数。
对计量资料、计数资料和等级资料的描述都适用Descriptives过程:进行一般性的统计描述,用于服从正态分布的资料,计算产生均数、标准差等;Explore过程:用于对数据概况不清时的探索性分析;Crosstabs过程:完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。
本次实习练习前3个过程:Frequencies过程,Descriptives过程,Explore过程。
Crosstabs过程在X2检验实习讲述。
Frequencies过程案例:某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5。
4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.715.69 4.12 4.56 4.37 5.396.30 5.217.22 5.543.93 5.214.125.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.896.25 5.324.50 4.63 3.61 4.44 4.43 4.25 4.035.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.165.10 5.86 4.79 5.34 4.24 4.32 4.776.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.604.095.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.186.14 3.24 4.90 3.05一、建立数据文件1、定义变量:在数据窗口,点击Variable View ,定义一个变量,变量名(Name)“x”,类型(Type)“数值()8,小数位数(Decimals)2,变量标签(Label):“血清总胆固醇”。
计量资料得统计描述方法怎样表达一组数据?描述计量资料得常用指标—A 、描述平均水平(中心位置):均数X 、中位数与百分位数、几何均数G 、众数(mode) B 、描述数据得分散程度:标准差、四分位数间距、 变异系数、方差、全距(一)均数mean 与标准差standard deviation1、 (算术)均数X均数就是描述一组计量资料平均水平或集中趋势得指标。
*直接计算公式:12nX X X X X nn+++==∑应用条件:适用于对称分布,特别就是正态分布资料。
2、 中位数(median )M 与百分位数(percentile)A 、中位数M就是将一组观察值从小到大排序后,居于中间位置得那个值或两个中间值得平均值。
应用条件:用于任何分布类型,包括偏态资料、两端数据无界限得资料。
计算:n 为奇数时--1()2n M X+=n 为偶数时--()(1)2212n n M X X +⎛⎫=+ ⎪⎝⎭9人数据:12,13,14, 14, 15, 15, 15, 17, 19天B 、百分位数 就是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位得数值即为第X 百分位数。
中位数就是第百分50位数。
四分位数间距(quartile range)= 第25百分位数(P25)~第75百分位数(P75)。
四分位数间距用于描述偏态资料得分散程度(代替标准差S),包含了全部观察值得一半。
百分位数计算(频数表法):(%)XX XL Xi P L nX f f =+-∑X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段得累计频数X i :第X 百分位数所在组段组距n :总例数 f x :所在组段频数注:有得教材X= r ;L f ∑=C)(天155219===+X X M 8845122221415214.5()M X X X X ⎛⎫==== ⎪⎝⎭+如果只调查了前八位中学生,则:+(+)(+)天例:求频数表得第25、第75百分位数(四分位数间距)组段 频数f 累积频数∑f 56~ 2 2 59~ 5 762~ 12 19 ∑f 25 L 25 65~15 34 P 25在此68~ 25 5971~ 26 85 ∑f 75 L 75 74~19 104 P 75在此77~ 15 119 80~ 10 129 83~851 130合 计130① 确定Px 所在组段:P 25所在得组段:n X %=130×25%=32、5,65~组最终得累积频数=34,32、5落在65~组段内;P 75所在得组段:n X %=130×75%=97、5, 此值落在74~组段 ② 确定Px 所在组段得X L 、X i 、f x 、L Σf ③ P 25=65+3x[(130x25%-19)/15]=65、90P 75=74+3x[(130x75%-85)/19]=74、66四分位数间距=65、90~74、66 (次/分)3、几何均数G (geometric mean)应用:适用于成等比数列得资料,特别就是服从对数正态分布资料。
2计量资料的统计描述指标介绍计量资料的统计描述指标是对数据集合进行概括和描述的方法,可帮助我们了解数据的分布、集中趋势和离散程度,以及可能存在的异常值。
常用的统计描述指标包括均值、中位数、众数、极差、标准差、方差、四分位数和百分位数等。
1. 均值(Mean):均值是一组数据的总和除以数据的个数。
均值可以反映数据的集中程度,但容易受到异常值的影响。
2. 中位数(Median):中位数是一组数据按大小排序后,位于中间位置的数值。
中位数可以反映数据的中间位置,不受异常值的影响。
3. 众数(Mode):众数是一组数据中出现次数最多的数值。
众数可以反映数据集中的特点。
4. 极差(Range):极差是一组数据的最大值与最小值之差。
极差可以反映数据的全面分布。
5. 标准差(Standard Deviation):标准差测量数据的离散程度。
标准差越大,数据的离散程度越大。
6. 方差(Variance):方差是标准差的平方。
方差可以反映数据的离散程度,但单位是原数据的平方。
7. 四分位数(Quartiles):四分位数将一组数据按大小排序后,分为四等分,分位点分别是Q1(25%分位点)、Q2(中位数)和Q3(75%分位点)。
四分位数可以帮助我们了解数据集的分布情况。
8. 百分位数(Percentiles):百分位数是将一组数据按大小排序后,分为100等分,每个等分对应一个百分位数。
百分位数可以帮助我们了解数据的分布情况,例如第75百分位数表示排在该位置的数据值大约有75%的数据小于它。
这些统计描述指标都是通过对数据进行运算得出的,可以帮助我们了解数据的分布情况和特点。
在实际应用中,我们可以根据具体的问题选取适当的统计描述指标进行分析,帮助我们更好地理解数据。
同时,还需要注意统计描述指标的局限性,例如均值容易受到异常值的影响,中位数和众数不能反映数据的离散程度等,因此在使用时需要结合具体情况进行综合分析。
计量资料的统计方法计量资料那可是科研和实际工作中的常客呀!到底啥是计量资料呢?简单说就是用数字表示的资料,像身高、体重、血压啥的。
那计量资料的统计方法有哪些呢?首先就是参数检验啦!比如t 检验、方差分析。
这就好比在数字的海洋里找规律,t 检验就像是个小侦探,专门比较两组数据有没有差异。
咱想想,要是两组人的身高不一样,t 检验就能告诉咱这差异是真的不一样呢,还是只是偶然呢?方差分析呢,就更厉害了,能同时比较多组数据。
这就像一场数字大比拼,看看哪一组更厉害。
那做这些统计的时候有啥注意事项呢?可得注意数据的正态性和方差齐性。
要是数据不正态或者方差不齐,那可就麻烦啦!这就像盖房子,地基不牢可不行。
咱得先检查检查数据是不是符合要求,不然得出的结果可就不靠谱喽。
计量资料统计方法安全不?稳定不?那当然啦!只要咱按照正确的方法来,就像走在平坦的大路上,稳稳当当的。
这些方法都是经过无数科学家验证过的,放心用就行。
那计量资料统计方法都用在啥场景呢?那可多了去了。
比如医学研究中,比较不同药物的疗效;工程领域里,分析不同材料的性能。
这就像一把万能钥匙,能打开很多知识的大门。
优势也很明显呀,能给出精确的结果,让咱心里有数。
咱来举个实际案例吧!比如说研究两种减肥方法的效果,咱就可以用计量资料的统计方法。
测量一群人的体重,一部分人用方法A,一部分人用方法B,最后看看两组人的体重变化有没有差异。
哇塞,这多直观呀!结果一出来,咱就知道哪种方法更好啦。
所以说呀,计量资料的统计方法真的超棒!它就像一个神奇的魔法棒,能让我们从一堆数字中找到有用的信息。
咱可得好好掌握这些方法,让它们为我们的工作和研究服务。
计量资料的统计描述方法怎样表达一组数据?描述计量资料的常用指标一A、描述平均水平(中心位置):均数X、中位数和百分位数、几何均数G众数(mode)B描述数据的分散程度:标准差、四分位数间距、变异系数、方差、全距(一)均数mea n 和标准差sta ndard deviati on1. (算术)均数X均数是描述一组计量资料平均水平或集中趋势的指标。
*直接计算公式:X i X2 III X n X X 二n n应用条件:适用于对称分布,特别是正态分布资料。
2. 中位数(median M和百分位数(percentil®A.中位数M是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。
应用条件:用于任何分布类型,包括偏态资料、两端数据无界限的资料。
计算:n为奇数时--M 二X n亠1(2)n为偶数时1—1X n X n2(2)(亍+1)9 人数据:12, 13, 14, 14 , 15 , 15 , 15 , 17, 19 天M = X 9 厂X 15(天)2如果只调查了前八位中学生,贝y:M =.8十X8 2 = (X4+ X)2 =(14+15)/2 =14.5(天)——+ 1 /< 2 2 丿/B.百分位数是将N个观察值从小到大依次排列,再分成100等份,对应于X%i的数值即为第X百分位数。
中位数是第百分50位数。
四分位数间距(quartile range/=第25百分位数(P23〜第75百分位数(P73。
四分位数间距用于描述偏态资料的分散程度(代替标准差S),包含了全部观察值的一半。
百分位数计算(频数表法):P x = L x ;x( nX % - 二f L )f XL x :第X百分位数所在组段下限E f L:小于L X各组段的累计频数i x:第x百分位数所在组段组距n:总例数f x:所在组段频数注:有的教材X= r ; [f L=C 例:求频数表的第25、第75百分位数(四分位数间距)组段频数f累积频数刀f56〜2259〜5762〜1219刀f25L25 65 〜1534P25在此68〜255971〜2685刀f75L75 74 〜19104P 75在此77〜1511980〜1012983 〜851130合计130①确定Px所在组段:P25所在的组段:n X %=130X 25%=32.5,65〜组最终的累积频数=34, 32.5落在65〜组段内;P75所在的组段:n X %=130X75%=97.5,此值落在74〜组段②确定Px所在组段的L X、i X、fx、E f L③P25= 65+3x[(130x25% —19)/15] = 65.90P75= 74+3x[(130x75% —85)/19] = 74.66四分位数间距=65.90〜74.66 (次份)4是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个3.几何均数 G (geometric mean应用:适用于成等比数列的资料,特别是服从对数正态分布资料。
计量资料的统计描述方法怎样表达一组数据?描述计量资料的常用指标—A、描述平均水平(中心位置):均数X、中位数和百分位数、几何均数G、众数(mode)B、描述数据的分散程度:标准差、四分位数间距、变异系数、方差、全距(一)均数mean和标准差standard deviation1. (算术)均数X均数是描述一组计量资料平均水平或集中趋势的指标。
*直接计算公式:应用条件:适用于对称分布,特别是正态分布资料。
2. 中位数(median)M和百分位数(percentile)A.中位数M是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。
应用条件:用于任何分布类型,包括偏态资料、两端数据无界限的资料。
计算:n为奇数时--n为偶数时--9人数据:12,13,14, 14, 15, 15, 15, 17, 19天B.百分位数是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。
中位数是第百分50位数。
四分位数间距(quartile range )= 第25百分位数(P25)~第75百分位数(P75)。
四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。
百分位数计算(频数表法):X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数X i :第X 百分位数所在组段组距 n :总例数 f x :所在组段频数注:有的教材X= r ; L f =C例:求频数表的第25、第75百分位数(四分位数间距)组段频数f 累积频数∑f 56~2 2 59~5 7 62~12 19 ∑f 25 L 25 65~15 34 P 25在此 68~25 59 71~26 85 ∑f 75 L 75 74~19 104 P 75在此 77~15 119 80~10 129 83~851 130 合 计 130① 确定Px 所在组段:P 25所在的组段:n X %=130×25%=32.5,65~组最终的累积频数=34,32.5落在65~组段内;P 75所在的组段:n X %=130×75%=97.5, 此值落在74~组段② 确定Px 所在组段的X L 、X i 、f x 、L Σf③ P 25=65+3x[(130x25%-19)/15]=65.90P75=74+3x[(130x75%-85)/19]=74.66四分位数间距=65.90~74.66 (次/分)3.几何均数G(geometric mean)应用:适用于成等比数列的资料,特别是服从对数正态分布资料。
计量资料的统计描述方法怎样表达一组数据?描述计量资料的常用指标—A 、描述平均水平(中心位置):均数X 、中位数和百分位数、几何均数G 、众数(mode ) B 、描述数据的分散程度:标准差、四分位数间距、 变异系数、方差、全距(一)均数mean 和标准差standard deviation1. (算术)均数X均数是描述一组计量资料平均水平或集中趋势的指标。
*直接计算公式:应用条件:适用于对称分布,特别是正态分布资料。
2. 中位数(median )M 和百分位数(percentile )A.中位数M是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。
应用条件:12nXX X X X nn+++==∑L用于任何分布类型,包括偏态资料、两端数据无界限的资料。
计算:n 为奇数时--n 为偶数时--9人数据:12,13,14, 14, 15, 15, 15, 17, 19天B.百分位数是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。
中位数是第百分50位数。
四分位数间距(quartile range )=第25百分位数(P25)~第75百分位数(P75)。
四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。
)(天155219===+X X M 8845122221415214.5()M X X X X ⎛⎫==== ⎪⎝⎭+如果只调查了前八位中学生,则:+(+)(+)天百分位数计算(频数表法):X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数 X i :第X 百分位数所在组段组距n :总例数f x :所在组段频数注:有的教材X= r ;L f ∑=C例:求频数表的第25、第75百分位数(四分位数间距)组段 频数f 累积频数∑f 56~ 2 2 59~ 5 7 62~ 12 19 ∑f 25L 2565~15 34 P 25在此68~ 25 59 71~ 26 85∑f 75L 7574~19 104 P 75在此77~ 15 119 80~ 10 129 83~851 130合计130① 确定Px 所在组段:P 25所在的组段:n X %=130×25%=32.5,65~组最终的累积频数=34,32.5落在65~组段内;P 75所在的组段:n X %=130×75%=97.5, 此值落在74~组段 ② 确定Px 所在组段的X L 、X i 、f x 、L Σf ③P 25=65+3x[(130x25%-19)/15]=65.90P 75=74+3x[(130x75%-85)/19]=74.66四分位数间距=65.90~74.66 (次/分)3.几何均数G (geometric mean )应用:适用于成等比数列的资料,特别是服从对数正态分布资料。
原始数据分布不对称,经对数转换后呈对称分布的资料。
可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。
例如抗体滴度。
计算:N 个数值的乘积开N 次方, 即为这N 个数的几何均数。
有8份血清的抗体效价分别为1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗体效价。
使用分母计算!121lg 1lg (lg lg lg )lg lg n G X G X X X n n XG n-==+++==∑∑L 为正值,为底的反对数表示以为底的对数;表示以010lg 10lg 1>-X 57.566403201608040201058=⋅⋅⋅⋅⋅⋅⋅=G 1lg [(lg5lg10lg20lg640)/8]56.57G -=++++=L平均抗体效价为: 1:57 加权法:众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。
适用于大样本但较粗糙。
例:有16例病人的发病年龄为42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。
正态分布时:均数=中位数=众数正(右)偏态分布时:均数>中位数>众数 负(左)偏态分布时:均数<中位数<众数3. 标准差SS 描述数据的分散程度.描述一组数据在其平均数周围的分布情况,若每个数据集中在其平均数周围,此平均数对这组数据的代表照就大;反之,代表性较差。
标准差S甲组 75 80 85 90 95 100 105 n 1=7 X 1=90 s 1=10.8 乙组45607590105 120 135 n 2=7X 2=90s 2=32.4()数据越分散 12-∑-=n X X S ,分子越大。
或者S =标准差的5应用:描述变异程度、计算标准误、计算变异系数、描述正态分布、估计正常值范围S用于正态分布资料怎样使用均数和标准差?论文中常用X±S描述对称、正态或近似正态分布数据的特征。
描述偏态资料的分散程度需用四分位数间距P25~P75(代替标准差S)。
方差:方差=S2全距R :R= 最大值–最小值。
简单,但仅利用了两端点值,稳定性差。
变异系数(coefficient of variation,CV):计算:CV=(S/X) 100%,无单位应用:1.单位不同的多组数据比较;2.均数相差悬殊的多组资料什么是正态分布?(二)正态分布(Normal distribution)正态分布是描述连续型变量值分布的曲线. 当例数比较多时,医学上许多资料近似服从正态分布。
正态分布在统计推断上有重要的作用。
正态分布曲线理论上的特征(1)以X= μ均数为中心, X值呈钟型分布,中央高、两端对称性减少、与X轴永不相交。
(2 )在X= μ处,f(x)取最大值(例数最多)。
(3 )正态分布由均数μ、标准差σ决定曲线的左右位置和高低形状:正态分布有两个参数,即位置参数--均数μ和形态参数--标准差σ。
若固定标准差σ,改变均数μ值,曲线沿着X轴平行移动,其形状不变。
若固定μ,σ越小,曲线形状越陡峭;反之,σ越大,曲线越平坦。
正态分布均数(位置参数)、标准差(变异度)变化示意图正态曲线面积分布规律:① X 轴与正态曲线所夹面积恒等于1或100%; ② 区间μσ±的面积为68.27%; ③ 区间 1.96μσ±的面积为95.00%; ④ 区间 2.58μσ±的面积为99.00%。
正态分布u 值表(标准正态分布概率单位值)尾部面积为α的u 值,记为u α,称为u 界值:尾部面积各为2.5%时(黑色处),其对应的u 值为u=±1.96; u=(-2.58,2.58)区间的面积为0.99(空白处)正态分布的应用:1.估计正态分布X 值在特定值范围内的分布比例(概率)。
2.制定某临床指标的参考值范围3.利用估计变量值的范围或对极端值做取舍。
4.许多统计方法的统计推断建立在正态分布基础上。
怎样确定资料是否属正态分布?1.做正态性检验;2.粗略估计: 正态一般X S 31<;X S >者必为偏态!正态分布可用于求参考值范围!(三)医学参考值范围的制定概念 医学参考值是指包括绝大多数“正常人”的各种生理及生化指标常数,也称正常值(背景值)。
正常值是指在一定范围内波动的值,医学上常用95%的范围作为判定正常或异常的参考标准。
制定参考值的基本原则1.选定正常人:即排除了影响研究指标的有关因素的同质人群。
有足够的样本例数(一般不低于100例)2.确定参考值范围的百分界限(常用95%)3.考虑制定单侧或双侧诊断界值:新药肯定比旧药好(旧药肯定比新药差)——单侧新药可能好,也可能差------------------------------双侧双侧标准较高,结论较可靠(常用)4. 依分布(正态或偏态) 确定计算方法:(1)正态分布法X±µ·S,其中双侧95%参考值范围公式:X±1.96S单侧95%参考值范围公式:X+1.64S例11.3:已知111人的血铅X=0.010 µg/100ml, S=0.012 µg/100ml 因为血铅可以低而不可以高,故用单侧95%参考值范围X+1.64S=0.010+1.64×0.012=0.030(µg/100ml);血铅95%参考值范围≤0.030 µg/100ml注意:如果资料非正态分布而使用正态分布法,会得出错误结论!!(2)百分位数法适用于偏态分布资料计算公式:双侧界值:P2.5~ P97.5单侧用上界: P95单侧用下界: P5。