02计量资料的统计描述(1)
- 格式:ppt
- 大小:537.50 KB
- 文档页数:56
统计描述与统计推断统计的主要工作就是对统计数据进行统计描述和统计推断。
统计描述是统计分析的最基本内容,是指应用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行测定和描述;而统计推断是指通过抽样等方式进行样本估计总体特征的过程,包括参数估计和假设检验两项内容。
(一)统计描述1.计量资料的统计描述计量资料的统计描述主要通过编制频数分布表、计算集中趋势指标和离散趁势指标以及统计图表来进行。
(1)集中趋势。
指频数表中频数分布表现为频数向某一位置集中的趋势。
集中趋势的描述指标:1)算术平均数。
直接法:x为观察值,n为个数加权法又称频数表法,适用于频数表资料,当观察例数较多时用。
f为各组段的频数。
2)几何平均数(geometric mean)。
几何平均数用符号G表示。
用于反映一组经对数转换后呈对称分布的变量值在数学上的平均水平。
直接法:加权法又称频数表法,当观察例数n较大时,可先编制频数分布表,用此法算几何平均数:3)百分位数(percentile )与中位数(median )。
百分位数是一种位置坐标,用符号x P 表示常用的百分位数有 2.5P 、5P 、50P 、75P 、95P 、97.5P 等,其中25P 、50P 、75P 又称为四分位数。
百分位数常用于描述一组观察值在某百分位置上的水平,多个百分位结合使用,可更全面地描述资料的分布特征。
中位数是一个特定的百分位数即50P ,用符号M 表示。
把一组观察值按从小到大(或从大到小)的次序排列,位置居于最中央的那个数据就是中位数。
中位数也是反映频数分布集中位置的统计指标,但它只由所处中间位置的部分变量值计算所得,不能反映所有数值的变化,故中位数缺乏敏感性。
中位数理论上可以用于任何分布类型的资料,但实践中常用于偏态分布资料和分布两端无确定值的资料。
其计算方法有直接法和频数表法两种。
直接法:当观察例数n 不大时,此法常用,先将观察值按大小次序排列,选用下列公式求M 。
统计学资料背诵版一、单选题:第二章:计量资料的统计描述1、描述一组偏态分布资料的变异度,以四分位数间距指标较好。
2、用均数和标准差可以全面描述正态分布资料的特征。
3、各观察值均加(或减)同一数后标准差不变。
4、比较某地1~2岁和5~5.5岁儿童身高的变异程度,宜用变异系数。
5、偏态分布宜用中位数描述其分布的集中趋势。
6、各观察值同乘以一个不等于0的常数后,变异系数不变。
7、正态分布的资料,均数等于中位数。
8、对数正态分布是一种右偏态分布(说明:设X变量经Y=lgX变换后服从正态分布,问X变量属何种分布?)9、横轴上,标准正态曲线下从0到2.58的面积为49.5%10、当各观察值呈倍数变化(等比关系)时,平均数宜用几何均数。
第三章:总体均数的估计与假设检验1、均数的标准误反映了样本均数与总体均数的差异。
2、两样本均数比较的t检验,差别有统计学意义时,P越小,说明越有理由认为两总体均数不同。
3、甲乙两人分别从同一随机数字表抽得30个(各取两位数字)随机数字作为两个样本,求得X1和S 12、X2和S22,则理论上由甲、乙两样本均数之差求出的总体均数95%可信区间,很可能包括04、在参数未知的正态总体中随机抽样,丨X-μ丨≥t0.05/2,vS X的概率为5%5、某地1992年随机抽取100名健康女性,算得其血清总蛋白含量的均数为74g/L,标准差为4g/L,则其95%的参考值范围为74±1.96×46、关于以0为中心的t分布,叙述错误的是相同时,丨t丨越大,P越大。
7、在两样本均数比较的t检验中,无效假设为两总体均数相等。
8、两样本均数比较作t检验时,分别取以下检验水准,犯第二类错误概率最小的是α=0.309、正态性检验,按α=0.10水准,认为总体服从正态分布,此时若推断有错,其错误的概率等于β,而β未知。
10、关于假设检验,说法正确的是采用配对t检验还是两样本t检验是由试验设计方案所决定的。
02计量资料的统计描述D计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。
常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。
(一)频数分布表的编制频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。
对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。
如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。
对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。
制作连续型数据频数表一般步骤如下:1.求数据的极差(range )。
min max X X R -=(2-1)2.根据极差选定适当“组段”数(通常8—10个)。
确定组段和组距。
每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ<U 。
3.写出组段,逐一划记。
频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。
(二)描述频数分布中心位置的平均指标描述中心位置的平均指标,但常因资料的不同而选取不同的指标进行描述。
1.算术均数算术均数(arithmetic mean )简称均数,描述一组数据在数量上的平均水平。
总体均数用μ表示,样本均数用X 表示,其计算方法如下:(1)直接法:直接用原始观测值计算。
n X X ∑=(2-2)(2)加权法:在频数表基础上计算,其中X为组中值,f 为频数。
∑∑=f fX X (2-3)2.几何均数几何均数(geometric mean )用以描述对数正态分布或数据呈倍数变化资料的水平。
记为G 。
其计算公式为:(1)直接法 ⎪⎭⎫ ⎝⎛∑=-n X G lg lg1 (2-4) (2)加权法 ⎪⎪⎭⎫ ⎝⎛∑∑=-f X f G lg lg1 (2-5) 3.中位数中位数(median )将一组观察值由小到大排列,n 为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。
2计量资料的统计描述指标介绍计量资料的统计描述指标是对数据集合进行概括和描述的方法,可帮助我们了解数据的分布、集中趋势和离散程度,以及可能存在的异常值。
常用的统计描述指标包括均值、中位数、众数、极差、标准差、方差、四分位数和百分位数等。
1. 均值(Mean):均值是一组数据的总和除以数据的个数。
均值可以反映数据的集中程度,但容易受到异常值的影响。
2. 中位数(Median):中位数是一组数据按大小排序后,位于中间位置的数值。
中位数可以反映数据的中间位置,不受异常值的影响。
3. 众数(Mode):众数是一组数据中出现次数最多的数值。
众数可以反映数据集中的特点。
4. 极差(Range):极差是一组数据的最大值与最小值之差。
极差可以反映数据的全面分布。
5. 标准差(Standard Deviation):标准差测量数据的离散程度。
标准差越大,数据的离散程度越大。
6. 方差(Variance):方差是标准差的平方。
方差可以反映数据的离散程度,但单位是原数据的平方。
7. 四分位数(Quartiles):四分位数将一组数据按大小排序后,分为四等分,分位点分别是Q1(25%分位点)、Q2(中位数)和Q3(75%分位点)。
四分位数可以帮助我们了解数据集的分布情况。
8. 百分位数(Percentiles):百分位数是将一组数据按大小排序后,分为100等分,每个等分对应一个百分位数。
百分位数可以帮助我们了解数据的分布情况,例如第75百分位数表示排在该位置的数据值大约有75%的数据小于它。
这些统计描述指标都是通过对数据进行运算得出的,可以帮助我们了解数据的分布情况和特点。
在实际应用中,我们可以根据具体的问题选取适当的统计描述指标进行分析,帮助我们更好地理解数据。
同时,还需要注意统计描述指标的局限性,例如均值容易受到异常值的影响,中位数和众数不能反映数据的离散程度等,因此在使用时需要结合具体情况进行综合分析。
计量资料的统计描述描述性统计分析是进行统计分析的第一步,做好这一步是正确进行统计推断的先决条件。
计量资料常用的统计描述指标和方法主要有:1、集中趋势指标(Central Tendency):包括均数、几何均数、中位数等。
其中均数适用于正态分布和对称分布资料;几何均数适用于对数正态分布和呈等比的数据资料;中位数适合于所有分布类型的资料,但在实际中,中位数主要应用于偏态分布资料、分布不明资料和开口资料。
2、离散趋势指标(Dispersion):包括全距、四分位数间距、方差、标准差、变异系数、标准误等。
方差、标准差用于正态分布资料,四分位数间距用于偏态分布资料,变异系数用于度量单位不同和均数相差悬殊的资料,标准误用于反映样本均数的离散程度,说明均数抽样误差大小。
SPSS的许多模块均可完成描述性统计分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程:产生频数表;按要求给出某百分位数。
对计量资料、计数资料和等级资料的描述都适用Descriptives过程:进行一般性的统计描述,用于服从正态分布的资料,计算产生均数、标准差等;Explore过程:用于对数据概况不清时的探索性分析;Crosstabs过程:完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。
本次实习练习前3个过程:Frequencies过程,Descriptives过程,Explore过程。
Crosstabs过程在X2检验实习讲述。
Frequencies过程案例:某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5。
4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.715.69 4.12 4.56 4.37 5.396.30 5.217.22 5.543.93 5.214.125.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.896.25 5.324.50 4.63 3.61 4.44 4.43 4.25 4.035.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.165.10 5.86 4.79 5.34 4.24 4.32 4.776.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.604.095.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.186.14 3.24 4.90 3.05一、建立数据文件1、定义变量:在数据窗口,点击,定义一个变量,变量名(Name)“x”,类型(Type)“数值()8,小数位数(Decimals)2,变量标签(Label):“血清总胆固醇”。