2017.3.16-统计学-计量资料的统计描述方法
- 格式:docx
- 大小:201.22 KB
- 文档页数:10
计量资料的统计描述方法怎样表达一组数据?描述计量资料的常用指标—A、描述平均水平(中心位置):均数X、中位数和百分位数、几何均数G、众数(mode)B、描述数据的分散程度:标准差、四分位数间距、变异系数、方差、全距(一)均数mean和标准差standard deviation1. (算术)均数X均数是描述一组计量资料平均水平或集中趋势的指标。
*直接计算公式:应用条件:适用于对称分布,特别是正态分布资料。
2. 中位数(median)M和百分位数(percentile)A.中位数M是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。
应用条件:用于任何分布类型,包括偏态资料、两端数据无界限的资料。
计算:n为奇数时--n为偶数时--9人数据:12,13,14, 14, 15, 15, 15, 17, 19天B.百分位数是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。
中位数是第百分50位数。
四分位数间距(quartile range )= 第25百分位数(P25)~第75百分位数(P75)。
四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。
百分位数计算(频数表法):X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数X i :第X 百分位数所在组段组距 n :总例数 f x :所在组段频数注:有的教材X= r ; L f =C例:求频数表的第25、第75百分位数(四分位数间距)组段频数f 累积频数∑f 56~2 2 59~5 7 62~12 19 ∑f 25 L 25 65~15 34 P 25在此 68~25 59 71~26 85 ∑f 75 L 75 74~19 104 P 75在此 77~15 119 80~10 129 83~851 130 合 计 130① 确定Px 所在组段:P 25所在的组段:n X %=130×25%=32.5,65~组最终的累积频数=34,32.5落在65~组段内;P 75所在的组段:n X %=130×75%=97.5, 此值落在74~组段② 确定Px 所在组段的X L 、X i 、f x 、L Σf③ P 25=65+3x[(130x25%-19)/15]=65.90P75=74+3x[(130x75%-85)/19]=74.66四分位数间距=65.90~74.66 (次/分)3.几何均数G(geometric mean)应用:适用于成等比数列的资料,特别是服从对数正态分布资料。
计量资料的统计描述方法怎样表达一组数据描述计量资料的常用指标 一A 、 描述平均水平(中心位置):均数X 、中位数和百分位数、几何均数 G 、众数(mode )B 、 描述数据的分散程度:标准差、四分位数间距、变异系数、方差、全距(一)均数 mea n 和标准差1.(算术)均数X均数是描述一组计量资料平均水平 或集中趋势的指标。
直接计算公式:应用条件:适用于对称分布,特别是正态分布资料2.中位数(median ) M 和百分位数(percentile )A.中位数M是将一组观察值从小到大排序后,居于中间位置的那个值或两个 中间值的平均值。
应用条件:用于任何分布类型,包括偏态资料、两端数据无界限的资料。
计算:sta ndard deviati onX ! X 2 LX nn 为奇数时--Mx (=n 为偶数时--M X 9 1X 515(天)2如果只调查了前八位中学生,贝y : MX 8+ X 82 (X 4+ X )2 (14+15)/2 14.5(天) ・+ 1 *2 2B.百分位数是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。
中位数是第百分50位数。
四分位数间距 (quartile range /=第25百分位数(P25)〜第75百分位数(P75)。
四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包 含了全部观察值的一半。
1 — X 门X 门2(2)(2 1)9 人数据:12, 13, 14, 14,15, 15, 15, 17,19 天百分位数计算(频数表法):P X L x -7^ ( nx % f L )f XL x :第X百分位数所在组段下限 E f L:小于L x各组段的累计频数i x:第x百分位数所在组段组距n:总例数f x:所在组段频数注:有的教材x= r ; f L=C 例:求频数表的第25、第75百分位数(四分位数间距)组段频数f累积频数刀f56〜2259〜5762〜1219 刀f25L25 65 〜1534 P25在此68〜255971〜2685 刀f75L75 74 〜19104 P75在此77〜1511980〜1012983 〜851130合计130①确定Px所在组段:P25 所在的组段:n x %=130X 25%=,65〜组最终的累积频数=34,落在65〜组段内;P75所在的组段:n x %=130X 75%=,此值落在74〜组段②确定Px所在组段的L x、i x、f x、E f L③P25= 65+3X[(130X25%- 19)/15]=P75 = 74+3x[(130x75%- 85)/19]=四分位数间距二〜(次/分)3•几何均数G (geometric mean )应用:适用于成等比数列的资料,特别是服从对数正态分布资料。
计量资料的统计描述方法怎样表达一组数据?描述计量资料的常用指标—A 、描述平均水平(中心位置):均数X 、中位数和百分位数、几何均数G 、众数(mode ) B 、描述数据的分散程度:标准差、四分位数间距、 变异系数、方差、全距(一)均数mean 和标准差standard deviation1. (算术)均数X均数是描述一组计量资料平均水平或集中趋势的指标。
*直接计算公式:应用条件:适用于对称分布,特别是正态分布资料。
2. 中位数(median )M 和百分位数(percentile )A.中位数M是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。
应用条件:用于任何分布类型,包括偏态资料、两端数据无界限的资料。
计算:12nX X X X X nn+++==∑n为奇数时--n为偶数时--9人数据:12,13,14, 14, 15, 15, 15, 17, 19天B.百分位数是将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X百分位数。
中位数是第百分50位数。
四分位数间距(quartile range)= 第25百分位数(P25)~第75百分位数(P75)。
四分位数间距用于描述偏态资料的分散程度(代替标准差S),包含了全部观察值的一半。
)(天155219===+XXM8845122221415214.5()M X X X X⎛⎫====⎪⎝⎭+如果只调查了前八位中学生,则:+(+)(+)天百分位数计算(频数表法):X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数 X i :第X 百分位数所在组段组距n :总例数 f x :所在组段频数注:有的教材X= r ;L f ∑=C例:求频数表的第25、第75百分位数(四分位数间距)组段 频数f 累积频数∑f 56~ 2 2 59~ 5 762~ 12 19 ∑f 25 L 25 65~15 34 P 25在此68~ 25 5971~ 26 85 ∑f 75 L 75 74~19 104 P 75在此77~ 15 119 80~ 10 129 83~851 130合 计130① 确定Px 所在组段:P 25所在的组段:n X %=130×25%=32.5,65~组最终的累积频数=34,32.5落在65~组段内;P 75所在的组段:n X %=130×75%=97.5, 此值落在74~组段 ② 确定Px 所在组段的X L 、X i 、f x 、L Σf ③ P 25=65+3x[(130x25%-19)/15]=65.90P 75=74+3x[(130x75%-85)/19]=74.66四分位数间距=65.90~74.66 (次/分)3.几何均数G (geometric mean )应用:适用于成等比数列的资料,特别是服从对数正态分布资料。
原始数据分布不对称,经对数转换后呈对称分布的资料。
可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。
例如 抗体滴度。
计算:N 个数值的乘积开N 次方, 即为这N 个数的几何均数。
有8份血清的抗体效价分别为1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗体效价。
使用分母计算!平均抗体效价为: 1:57众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个121lg 1lg (lg lg lg )lg lg nG X G X X Xn nXG n-==+++==∑∑为正值,为底的反对数表示以为底的对数;表示以010lg 10lg 1>-X 57.566403201608040201058=⋅⋅⋅⋅⋅⋅⋅=G 1lg [(lg5lg10lg20lg640)/8]56.57G -=++++=组段的组中值。
适用于大样本但较粗糙。
例:有16例病人的发病年龄为42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。
正态分布时: 均数=中位数=众数正(右)偏态分布时:均数 > 中位数 >众数 负(左)偏态分布时:均数 < 中位数 <众数3. 标准差SS 描述数据的分散程度.描述一组数据在其平均数周围的分布情况,若每个数据集中在其平均数周围,此平均数对这组数据的代表照就大;反之,代表性较差。
标准差S甲组 75 80 85 90 95 100 105 n 1=7 X 1=90s 1=10.8 乙组45607590105 120 135 n 2=7X 2=90s 2=32.4()数据越分散 12-∑-=n X X S ,分子越大。
或者标准差的5应用:描述变异程度、计算标准误、计算变异系数、 描述正态分布、估计正常值范围S 用于正态分布资料S =怎样使用均数和标准差?论文中常用X±S描述对称、正态或近似正态分布数据的特征。
描述偏态资料的分散程度需用四分位数间距P25~P75(代替标准差S)。
方差:方差=S2全距R :R= 最大值–最小值。
简单,但仅利用了两端点值,稳定性差。
变异系数(coefficient of variation,CV):计算:CV=(S/X) 100%,无单位应用:1.单位不同的多组数据比较;2.均数相差悬殊的多组资料什么是正态分布?(二)正态分布(Normal distribution)正态分布是描述连续型变量值分布的曲线. 当例数比较多时,医学上许多资料近似服从正态分布。
正态分布在统计推断上有重要的作用。
正态分布曲线理论上的特征(1)以X= μ均数为中心, X值呈钟型分布,中央高、两端对称性减少、与X轴永不相交。
(2 )在 X= μ处,f(x)取最大值(例数最多)。
(3 )正态分布由均数μ、标准差σ决定曲线的左右位置和高低形状:正态分布有两个参数,即位置参数--均数μ和形态参数--标准差σ。
若固定标准差σ,改变均数μ值,曲线沿着X轴平行移动,其形状不变。
若固定μ,σ越小,曲线形状越陡峭;反之,σ越大,曲线越平坦。
正态分布均数(位置参数)、标准差(变异度)变化示意图正态曲线面积分布规律:①X轴与正态曲线所夹面积恒等于1或100%;②区间μσ±的面积为68.27%;③区间 1.96μσ±的面积为95.00%;④区间 2.58μσ±的面积为99.00%。
正态分布u值表(标准正态分布概率单位值)尾部面积为α的u值,记为uα,称为u界值:尾部面积各为2.5%时(黑色处),其对应的u值为u=±1.96;u=(-2.58,2.58)区间的面积为0.99(空白处)正态分布的应用:1.估计正态分布X 值在特定值范围内的分布比例(概率)。
2.制定某临床指标的参考值范围3.利用估计变量值的范围或对极端值做取舍。
4.许多统计方法的统计推断建立在正态分布基础上。
怎样确定资料是否属正态分布?1.做正态性检验;2.粗略估计: 正态一般X S 31<; X S >者必为偏态!正态分布可用于求参考值范围!(三)医学参考值范围的制定概念 医学参考值是指包括绝大多数“正常人”的各种生理及生化指标常数,也称正常值(背景值)。
正常值是指在一定范围内波动的值,医学上常用95%的范围作为判定正常或异常的参考标准。
制定参考值的基本原则1. 选定正常人:即排除了影响研究指标的有关因素的同质人群。
有足够的样本例数(一般不低于100例)2. 确定参考值范围的百分界限(常用95%)3. 考虑制定单侧或双侧诊断界值:新药肯定比旧药好(旧药肯定比新药差)——单侧 新药可能好,也可能差------------------------------双侧 双侧标准较高,结论较可靠(常用)4. 依分布(正态或偏态) 确定计算方法:(1)正态分布法X±µ·S,其中双侧95%参考值范围公式:X±1.96S单侧95%参考值范围公式:X+1.64S例11.3:已知111人的血铅X=0.010 µg/100ml, S=0.012 µg/100ml 因为血铅可以低而不可以高,故用单侧95%参考值范围X+1.64S=0.010+1.64×0.012=0.030(µg/100ml);血铅95%参考值范围≤0.030 µg/100ml注意:如果资料非正态分布而使用正态分布法,会得出错误结论!!(2)百分位数法适用于偏态分布资料计算公式:双侧界值:P2.5~ P97.5单侧用上界: P95单侧用下界: P5。