计量资料的统计描述-
- 格式:pps
- 大小:1.28 MB
- 文档页数:114
第二章 计量资料的统计描述一、教学大纲要求(一)掌握内容1. 频数分布表与频数分布图 (1)频数表的编制。
(2)频数分布的类型。
(3)频数分布表的用途。
2. 描述数据分布集中趋势的指标掌握其意义、用途及计算方法。
算术均数、几何均数、中位数。
3. 描述数据分布离散程度的指标掌握其意义、用途及计算方法。
极差、四分位数间距、方差、标准差、变异系数。
(二)熟悉内容连续型变量的频数分布图:等距分组、不等距分组。
二、 教学内容精要计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。
常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。
(一)频数分布表的编制频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。
对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。
如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。
对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。
制作连续型数据频数表一般步骤如下:1.求数据的极差(range )。
min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。
确定组段和组距。
每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ<U 。
3.写出组段,逐一划记。
频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。
(二)描述频数分布中心位置的平均指标描述中心位置的平均指标,但常因资料的不同而选取不同的指标进行描述。
1.算术均数算术均数(arithmetic mean )简称均数,描述一组数据在数量上的平均水平。
2计量资料的统计描述指标介绍计量资料的统计描述指标是对数据集合进行概括和描述的方法,可帮助我们了解数据的分布、集中趋势和离散程度,以及可能存在的异常值。
常用的统计描述指标包括均值、中位数、众数、极差、标准差、方差、四分位数和百分位数等。
1. 均值(Mean):均值是一组数据的总和除以数据的个数。
均值可以反映数据的集中程度,但容易受到异常值的影响。
2. 中位数(Median):中位数是一组数据按大小排序后,位于中间位置的数值。
中位数可以反映数据的中间位置,不受异常值的影响。
3. 众数(Mode):众数是一组数据中出现次数最多的数值。
众数可以反映数据集中的特点。
4. 极差(Range):极差是一组数据的最大值与最小值之差。
极差可以反映数据的全面分布。
5. 标准差(Standard Deviation):标准差测量数据的离散程度。
标准差越大,数据的离散程度越大。
6. 方差(Variance):方差是标准差的平方。
方差可以反映数据的离散程度,但单位是原数据的平方。
7. 四分位数(Quartiles):四分位数将一组数据按大小排序后,分为四等分,分位点分别是Q1(25%分位点)、Q2(中位数)和Q3(75%分位点)。
四分位数可以帮助我们了解数据集的分布情况。
8. 百分位数(Percentiles):百分位数是将一组数据按大小排序后,分为100等分,每个等分对应一个百分位数。
百分位数可以帮助我们了解数据的分布情况,例如第75百分位数表示排在该位置的数据值大约有75%的数据小于它。
这些统计描述指标都是通过对数据进行运算得出的,可以帮助我们了解数据的分布情况和特点。
在实际应用中,我们可以根据具体的问题选取适当的统计描述指标进行分析,帮助我们更好地理解数据。
同时,还需要注意统计描述指标的局限性,例如均值容易受到异常值的影响,中位数和众数不能反映数据的离散程度等,因此在使用时需要结合具体情况进行综合分析。
计量资料的统计描述描述性统计分析是进行统计分析的第一步,做好这一步是正确进行统计推断的先决条件。
计量资料常用的统计描述指标和方法主要有:1、集中趋势指标(Central Tendency):包括均数、几何均数、中位数等。
其中均数适用于正态分布和对称分布资料;几何均数适用于对数正态分布和呈等比的数据资料;中位数适合于所有分布类型的资料,但在实际中,中位数主要应用于偏态分布资料、分布不明资料和开口资料。
2、离散趋势指标(Dispersion):包括全距、四分位数间距、方差、标准差、变异系数、标准误等。
方差、标准差用于正态分布资料,四分位数间距用于偏态分布资料,变异系数用于度量单位不同和均数相差悬殊的资料,标准误用于反映样本均数的离散程度,说明均数抽样误差大小。
SPSS的许多模块均可完成描述性统计分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程:产生频数表;按要求给出某百分位数。
对计量资料、计数资料和等级资料的描述都适用Descriptives过程:进行一般性的统计描述,用于服从正态分布的资料,计算产生均数、标准差等;Explore过程:用于对数据概况不清时的探索性分析;Crosstabs过程:完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。
本次实习练习前3个过程:Frequencies过程,Descriptives过程,Explore过程。
Crosstabs过程在X2检验实习讲述。
Frequencies过程案例:某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5。
4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.715.69 4.12 4.56 4.37 5.396.30 5.217.22 5.543.93 5.214.125.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.896.25 5.324.50 4.63 3.61 4.44 4.43 4.25 4.035.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.165.10 5.86 4.79 5.34 4.24 4.32 4.776.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.604.095.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.186.14 3.24 4.90 3.05一、建立数据文件1、定义变量:在数据窗口,点击,定义一个变量,变量名(Name)“x”,类型(Type)“数值()8,小数位数(Decimals)2,变量标签(Label):“血清总胆固醇”。
第二节 计量资料的统计描述数值变量的统计描述主要是分成两步:一是正态分布性检验,二是统计描述指标的计算。
根据资料是否正态,选择的指标不一样,如资料呈正态性分布则选用算术均数和标准差,如资料呈非正态分布则用中位数和四分位间距进行描述。
统计指标计算的具体命令有三个:Frequencies:可以产生详细的频数表,还可以按要求给出某百分位点的数值;Descriptive:适用于正态分布资料;Explore:功能最强大,直接给出四分位间距和可信区间。
一、原始资料的统计描述例16.2 某地某年测量了100名正常成年男子血清总胆固醇(mol/L)含量,数据见表16.4,请进行统计描述。
表16.4 某地某年100名成年男子血清总胆固醇(mol/L)含量3.374.795.10 4.77 5.32 4.50 5.10 4.70 4.44 5.164.37 6.255.55 4.56 3.35 4.08 4.63 3.61 4.97 4.175.77 5.09 4.38 5.18 4.79 5.15 4.79 5.30 4.77 4.404.895.86 3.40 3.38 4.55 5.15 4.24 4.32 5.85 3.245.85 3.04 3.896.16 4.58 5.72 4.87 5.17 4.61 4.124.43 4.31 6.14 4.88 2.70 4.60 6.55 4.76 4.48 6.515.18 3.91 5.39 4.52 4.47 3.64 4.09 5.966.14 4.696.36 4.60 5.09 4.47 3.56 4.23 4.34 5.18 5.69 4.25 6.30 3.95 4.03 5.38 5.217.22 4.31 4.71 5.21 3.97 5.12 4.55 4.90 3.05 5.20 4.74 5.54 3.93 3.50 6.381.建立数据文件 取变量CHO,定义为数值型,宽度为8,2位小数。