数值变量资料的统计描述
- 格式:doc
- 大小:301.50 KB
- 文档页数:8
实习二统计描述第164~180页实习二统计描述医学统计资料类型¾数值变量资料:又称为计量资料。
变量值是定量的,有单位的,表示为数值的大小。
¾无序分类资料:又称为计数资料。
变量值是定性的,没有单位,表示为相互独立的类别。
¾有序分类资料:又称为等级资料。
变量值是定性的,没有单位,各类别具有程度上的差异。
注:不同类型的资料,统计方法不同;各种类型的资料之间是可以相互转化的。
一、数值变量资料的统计描述统计描述包括两个方面:集中趋势的描述和离散趋势的描述一、数值变量资料的统计描述(一)数值变量资料的频数表频数表(frequency table):当变量值或者观测值较多时,将变量值分为适当的组段,统计各组段中相应的频数(或者人数),以描述数值变量资料的分布特征和分布类型。
一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途1.描述数值变量资料的分布特征集中趋势(central tendency):频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布是逐渐增加的。
离散趋势(tendency of dispersion):从中心到两侧,频数分布是逐渐减少的。
反映了数据的离散程度或者变异程度。
一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途2.描述数值变量资料的分布类型正态分布:集中位置居中,左右两侧频数基本对称。
常见近似正态分布。
偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布:集中位置偏向数值小的一侧或者左侧,有较长的右尾部。
负偏态分布:集中位置偏向数值大的一侧或者右侧,有较长的左尾部。
一、数值变量资料的统计描述(二)数值变量资料的频数分布图及正态曲线直方图及近似正态分布直方图及正偏态分布(二)数值变量资料的频数分布图及正态曲线一、数值变量资料的统计描述(三)集中趋势指标描述1.算数均数(均数mean )适用于正态分布或者近似正态分布总体均数:µ;样本均数:一、数值变量资料的统计描述一、数值变量资料的统计描述(三)集中趋势指标描述2.几何均数(geometric mean,G)适用于一种特殊的偏态分布资料:等比资料(常见于抗体滴度)。
实验二、数值变量资料的统计描述一、实验内容(项目)1.均数、几何均数、中位数的选择和计算。
2.标准差、方差、变异系数的选择和计算。
二、实验目的和要求能正确选择应用并计算各种指标,能对数值变量资料进行基本的统计描述。
三、主要实验仪器及材料计算机、SPSS软件、数据资料。
四、实验步骤:1.教师演示相应软件操作。
2.学生独立用软件完成统计资料的分析和计算,并提交分析计算结果。
3.教师引导下讨论结果,总结,完成并上交实验报告。
统计资料:1、某医科大学抽查了100名健康女大学生的血清总蛋白含量(g/L),检查结果如下:74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 74.0 72.0 76.5 74.3 76.5 77.6 67.3 72.0 73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 75.8 73.5 75.0 72.7 70.4 77.2 68.8 67.3 75.8 73.5 75.0 72.7 73.5 72.7 81.6 73.5 75.0 72.7 70.4 76.5 72.7 77.2 84.3 75.0 71.2 71.2 69.7 73.5 70.4 75.0 72.7 67.3 70.3 76.5 73.5 78.0 68.0 73.5 68.0 73.5 68.0 74.3 72.7 73.7 试分析:(1) 输入资料建立文件。
(2) 对变量血清总蛋白含量频数分布分析:样本量、均数、中位数、最小值、最大值、方差、标准差、极差、总和、峰度系数、偏度系数及其标准误;绘制住院时间的频数分布表及直方图,观察其分布特征。
第一章数值变量资料的统计描述统计描述(statistical description)即利用原始数据,选择适宜的统计指标及统计图表,简明准确地探察数据的分布类型和数量特征,以便研究者根据样本信息,正确地推论其总体规律的统计分析方法。
统计指标(statistical index)是表示数据分布特征的一个或一组数值,是统计分析的基本依据.第一节频数分布的概念与应用对获取的数据进行统计学分析之前,了解数据的分布特征是至关重要的。
因为很多参数分析方法都要求样本数据来自某种已知分布的总体,否则,就应对数据实施合适的数据转换,或者采用非参数分析方法。
对频数表及频数图进行分析是描述性统计学分析的基本内容,也是表达或探索数据分布特征的基本手段.一、频数分布1.频数分布(frequency distribution)的概念频数(frequency)是相同观察值或观察结果出现的次数;分布(distribution)指随着随机变量取值的变化,其相应的概率变化的规律性。
频数分布即观察值(变量值)按大小分组,各个组段内观察值个数(频数)的分布,它是了解数据分布形态特征与规律的基础.2.频数分布的特征(1)集中趋势(central tendency):指一组变量值的集中倾向或中心位置.(2)离散趋势(tendency of dispersion):指一组变量值的分散倾向。
3.频数分布的类型⑴对称分布:指集中位置居中、左右两侧的频数分布基本对称的频数分布。
又可分为正态分布(normal distribution)和非正态分布(non-normal distribution).⑵偏态分布:是集中位置偏倚、两侧频数的分布不对称的频数分布,可分为两类:①正偏态:亦称右偏态,特点是峰偏左,此时均数与众数之差为正值,长尾向右侧(即观察值较大一端)伸延;②负偏态:亦称左偏态,特点为峰偏右,此时均数与众数之差为负值,长尾向左侧(即观察值较小一端)伸延。
二、频数表和频数图13.8412。
5313.7014.8917.5313。
1918。
8210.1514。
5611。
2314。
7317.4413.9014.1012。
2912.6114。
7814.409。
9315.1814。
5914.7118.6219.0410.9513.8110。
5318。
0616.1815。
6013。
5611.4813。
0716。
8817.0417。
9812.6710。
6216。
4314。
2611。
039。
2315。
0414。
0915.9011.4814.6417。
2415。
4313.3713。
6414.3915。
7413.9911。
3117.6116。
2611.3217。
8816.7813。
5311.6813。
2511.8814.2115。
2115.2916.6312。
8715.9313.7014。
4511.2319.8413.1115.1511。
7015。
3712.3514。
5114。
0918.2214。
3415。
4811.9816.5412。
9512。
0616.6717.0916。
8513。
2016。
4812.2912。
0914。
8315.6614。
5016。
4315。
5712。
8112。
8917。
3416。
0413.4117.1312.329。
2918。
4214。
1714.3516.1915.7313。
7414.9417。
2815。
1911。
9215.4715。
33表1—2 某地120名正常成年人血浆铜含量(μmol/L)频数表组段划记频数f频率P(%)累积频数fC累积频率PC(%)⑴⑵⑶⑷⑸⑹9。
00~下 3 2.5 3 2.510。
00~止 4 3。
3 7 5.811。
00~正正T1210。
01915.812。
00~正正下1310.83226.613。
00~正正正T1714.24940.814.00~正正正正T2218。
37159。
115。
00~正正正下1815.08974。
116.00~正正下1310。
810284.917.00~正正——11 9。
211394.118。
00~正 5 4.211898.319.00~T 2 1。
7120100.0合计——120100。
0————2.数值变量资料频数图的编制1.等距分组以横轴表示变量,以纵轴表示频数。
由表1-2的资料绘制频数图(图3—1)。
2.不等距分组以横轴表示变量,但纵轴是每个横轴单位的频数。
由表1—3的资料绘制频数图(图3—2)。
第二节 数值变量资料集中趋势的描述集中趋势(central tendency)是度量由变异导致变量值多样性的数量指标,其代表值为平均数。
平均数是一组描述或反映一组数值变量平均水平的统计指标。
根据计算或确定方法的不同,平均数可分为算术平均数(arithmetic mean)、几何平均数(geometric mean)、中位数(median ) 、调和平均数(harmonic mean )和众数(mode)。
一、算术平均数1.定义 算术平均数简称为均数,是一组观察值之和与观察值个数之商。
是数量上的平均。
统计符号x 。
2.应用条件 要求资料服从正态或近似正态分布。
如生理指标. 3.计算方法⑴直接法 用于观察值例数不多的资料。
计算公式见公式1—1.⑵加权法 用于观察值例数较多或观察值中相同数据较多的资料。
计算公式见公式1—2。
x =nx∑ (公式1-1)x =ffx∑∑ (公式1-2) 式中希腊字母Σ为求和的符号。
例1—2 12例肾虚失钠型哮喘病人甲皱微循环的管袢长度(μm)分别为125。
0、125。
0、125。
0、187.5、187。
5、187。
5、187。
5、250。
0、250。
0、250.0、312.5、312.5,求其均数.代入公式1-1得:x =25。
0+125.0+125.0+187。
5+187。
5+187.5+187。
5+250。
0+250。
0+250.0+312。
5+312.5)/12=2500/12=208.3(μm)例1—3 计算表1—2资料的均数。
(1)列计算表 见表1—4。
表1—4 某地120名正常成年人血浆铜含量(μmol/L )的均数、标准差计算表血浆铜含量(μmol/L ) 组中值x 频数f fx fx2⑴⑵⑶⑷=⑵⑶⑸=⑵⑷9。
00~9.50 8 28。
50 270。
75 10.00~ 10。
5l 4 42.00 441.00 11.00~ 11。
50 12 138。
00 1 587。
00 12。
00~ 12.50 13 162。
50 2 031。
25 13.00~13。
5017 229。
50 3 098。
25二、几何均数1.定义几何均数是n个数值连乘积的n次方根。
是比例或倍数上的平均。
统计符号G。
2.应用条件等比数列资料。
如抗体滴度。
3.计算方法⑴直接法用于观察值例数不多的资料。
计算公式见公式1—3.⑵加权法用于观察值例数较多或观察值中相同数据较多的资料。
计算公式见公式1-4。
注:式中希腊字母Π为求积的符号。
例1-4 某医院测得8例脾虚纳呆患儿的尿液淀粉酶含量(U/10ml)为4,4,8,8,8,16,16,32,试求其均数。
例1—5 某地46例暑温病人的血凝抑制抗体滴度如表3—8第⑴、⑵栏,试求其平均数。
(1)列计算表见表1-5。
(2)计算几何均数将表1—5第⑵、⑸栏合计数代入公式1—4,得:G=㏒—1(104.7004/46) =㏒-12.2761=189三、中位数1.定义将一组观察值按由小到大的顺序排列,位次居中的数值即中位数。
是位次上的平均。
统计符号M。
2.应用条件不拘分布或分布类型不明的资料;一端或两端无界的资料.如潜伏期、治愈时间和发病年龄。
3.计算方法⑴直接法用于观察值例数不多的资料。
若观察值为偶数:M=X(n+1)/2 。
若观察值为偶数,位次居中的两个观察值的均数即中位数。
M=(X n/2+X(n/2+1))⑵频数表法用于观察值例数较多的资料。
计算公式见公式1—5.式中L为M所在组段的下限;i为该组段的组距;fm为该组段的f;Σf为总例数(f之和);Σf L为小于L的各组段fC。
用该式求中位数时,需先编制频数表。
例1-6某医院用大黄粉治疗胃热血瘀型血证病人9例,其大便转阴天数分别为1,1,2,2,3,4,5,7,10,试求其中位数。
本例观察值的个数为奇数,将9个观察值按从小到大的顺序排列后,位次居中的第五个观察值“3天”即其中位数。
如果观察值为10个,第10个数值为16天,则位次居中的两个观察值“3"和“4"的算术均数3.5即为M。
例1—7某医院905例男性银屑病患者的发病年龄资料见表1—6 第⑴、⑵栏,试求其M。
M的累计频率应为50%.由表1—6第(4)栏可知,“20~”组段的累计频率已大于50%,故M应位于该组段内。
代入公式1—5,得:M=20+(10/346)(905/2-306)=24。
23(岁)表1-6 905例男性银屑病病人的发病年龄年龄(岁)频数f累计频数fC累计频率PC(%)⑴⑵⑶⑷<10 54 54 5。
9710~ 252 306(ΣfL) 33.8120~(L) 346(fM)652 72.0430~ 128780 86。
1940~ 84864 95。
4750~ 29893 98。
6760~ 5898 99.23≥70 7 905(Σf)100。
00第三节数值变量资料的离散趋势描述离散趋势指标亦称变异性指标,它们是在整体上描述一组同质观察值的变异程度大小的综合指标,常用的变异性指标有极差、四分位数间距、方差、标准差和变异系数。
为了全面描述研究总体的特征,需要在计算集中性指标的同时计算离散性指标.如表1—7的两组数据,A与B两个学生五门课程成绩的均数都是80,但各科成绩分布情况却不相同。
A较集中,变异较小;而B较分散,变异较大。
一、极差(range)极差亦称全距(R),其计算公式见公式1-2。
R与变异程度成正比。
其特点是意义明确、计算简便,但灵敏性和稳定性较差。
二、百分位数(percentile )和四分位数间距(quartile range )1.概念 百分位数是把一组观察值从小到大排列,分为100等份,与x%位次所对应的数值即为第百分之x位数,以符号Px 表示。
如称居于全部观察值个数百分之五位置的点值为第百分之五位数,以符号P5表示。
一个Px 将全部观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。
故百分位数是一种位置指标。
中位数即P50.四分位数间距是上四分位数Q U(P75)与下四分位数Q L(P25)之差,符号为QR 。
它是中间50%观察值的极差。
2.计算方法 可按公式1—6求得百分位数Px .公式1—6求得四分位数间距。