离散趋势测量法教学内容
- 格式:doc
- 大小:1.46 MB
- 文档页数:20
社会统计学教学大纲课程名称:社会统计学英文名称:social statistics课程编号:12600722j使用专业:社会工作专业总学时数:48学时总学分:3学分大纲撰写人:文法学院社工系马永方内容简介社会统计学是社会学主干课之一,与社会学调查研究方法结合起来,完整地介绍了当代社会调查研究的科学方法和资料处理技术。
社会统计学则侧重介绍资料的收集、整理、分析和推论的处理技术。
从事社会工作研究理论和实践的人都有必要掌握社会统计学这门有用的工具。
本课程共7章。
第一章导论,介绍社会统计学和相关概念,第二章统计资料的搜集,第三章统计资料的整理,第四章到第七章是统计分析。
第四章和第五章是描述统计,第六到第七章是统计推断,第六章概率论是统计推断的基础,统计推断有两个基本内容:假设检验第七章。
一、讲授的主要内容第一章社会学研究和统计分析(2学时)第一节社会学研究的科学性第二节社会调查资料的特点和统计学的运用第二章单变量统计描述分析第一节分布统计表统计图第二节集中趋势测量法第三节离散趋势测量法第三章概率(3学时)第一节基础概率第二节概率分布、均值和方差第四章二项分布及其他离散型随机变量的分布(3学时)第一节二点分布第二节排列与组合第三节二项分布第四节多项分布第五节超几何分布第六节泊松分布第五章正态分布、常用统计分布和极限定理(3学时)第一节什么是正态分布第二节标准正态分布第三节标准正态分布表的使用第四节常用统计分布第五节大数定理和中心极限定理第六章参数估计(4学时)第一节名词解释第二节参数的点估计第四节正态总体的区间估计第五节大样本区间估计第七章假设检验(4学时)第一节统计假设第二节统计检验的基本步骤一、建立假设二、求抽样分布三、选择显著性水平和否定域四、计算检验统计量五、判定第八章单总体假设检验(4学时)第一节大样本假设检验第二节小样本假设检验第九章二总体假设检验第一节引言第二节大样本二总体假设检验第三节小样本二总体假设检验第十章列联表(4学时)第一节什么是列联表第二节列联表的检验第三节列联强度第十一章等级相关(定序变量之间)(4学时)第一节斯皮尔曼等级相关系数第二节Gamma等级相关第三节其他等级相关系数第十二章回归与相关(6学时)第一节回归研究的对象第二节回归直线方程的建立与最小二乘法第三节回归方程的假定与检验第四节相关第五节用回归方程进行预测第十三章方差分析(3学时)第一节引言第二节一元方差分析第三节二元方差分析第四节多元方差分析第十四章非参数检验(4学时)第一节非参数检验第二节符号检验第三节符号秩检验第四节累计频次检验第十五章抽样(4学时)第一节引言第二节抽样调查方法第四节样本容量的确定二、参考书目1. 社会统计学,卢淑华,北京大学出版社,2005年第三版.2.社会统计学,张彦,高等教育出版社,2005年第一版.3.社会统计学导论,周德民、贺翠微,中南大学出版社,2004年第一版.教学大纲说明一、教学目的与课程性质任务本课程属于专业限选课,是社会工作专业课程体系的重要组成部分。
第二讲 频数分布的集中趋势与离散趋势① 频数分布通过调查或试验取得原始资料后,要对全部资料进行检查和核对后,才能进行数据的整理。
根据样本资料的多少确定是否分组,一般样本容量n<30称为小样本,可直接进行统计描述分析,样本容量n>30称为大样本,此时须将数据分成若干组后进行描述分析。
1、频数分布表1)、频数表的编制相同观察结果出现的次数称为频数。
将所有观察结果的频数按一定顺序排列在一起便是频数表(frequency table)。
步骤:① 找出最大和最小值,计算极差 R=X max ―X min② 根据斯梯阶公式确定组距n RH log 322.31+=③ 扫描样本值,划记后获得频数 2)、频数表的用途① 大样本数据(不限于计量资料)常用的表达方式。
② 便于观察数据的分布类型。
③ 便于发现资料中远离群体的某些特大或特小的可疑值,必要时经检验后舍去。
④ 当样本含量足够大时,各组段的分布频率作为分布概率的估计值。
样本量与分组数量的关系样本量分组数30 ~ 60 5 ~ 860 ~ 100 7 ~ 10100 ~ 200 9 ~ 12200 ~ 500 10 ~ 18500以上15 ~ 30例1:某地随机检查了140名成年男性红细胞数(1012/L)4.765.26 5.61 5.95 4.46 4.57 4.31 5.18 4.92 4.27 4.77 4.885.00 4.73 4.47 5.34 4.70 4.81 4.93 5.04 4.40 5.27 4.63 5.50 5.24 4.97 4.71 4.44 4.94 5.05 4.78 4.52 4.63 5.51 5.24 4.98 4.33 4.83 4.56 5.44 4.79 4.91 4.26 4.38 4.87 4.99 5.60 4.46 4.95 5.07 4.80 5.30 4.65 4.77 4.50 5.37 5.49 5.22 4.58 5.074.81 4.54 3.82 4.01 4.89 4.625.12 4.85 4.59 5.08 4.82 4.935.05 4.40 4.14 5.01 4.37 5.24 4.60 4.71 4.82 4.94 5.05 4.79 4.52 4.64 4.37 4.87 4.60 4.72 4.83 5.33 4.68 4.80 4.15 4.65 4.76 4.88 4.61 3.97 4.08 4.58 4.31 4.05 4.16 5.04 5.15 4.50 4.62 4.73 4.47 4.58 4.70 4.81 4.55 4.28 4.78 4.51 4.63 4.36 4.48 4.59 5.09 5.20 5.32 5.05 4.41 4.52 4.64 4.75 4.49 4.22 4.71 5.21 4.94 4.68 5.17 4.91 5.02 4.76R= 5.95 ― 3.82 = 2.13连续型资料:红细胞数(1012/L)(1)频数f(2)组中值X(3)Fx(4)=(2)*(3)3.80~4.00~ 4.20~ 4.40~ 4.60~4.80~5.00~ 5.20~ 5.40~ 5.60~ 5.80~ 261125322717134213.904.104.304.504.704.905.105.305.505.705.907.824.647.3112.5150.4132.386.768.922.011.45.9合计140(∑f)669.8(∑fX)离散型资料:我国某地农村1995年已婚育龄妇女现有子女数的分布子女数(1)妇女数f(2)频率(%)(3)累计频数(4)累计频率(%)(5)0 1 2 3 4 5 6 7 8 9 ≥10 合计137512519130426285602171913695725532681513731561455259.4517.3020.9119.6214.929.414.982.250.100.260.11100.0013751389226934897908119627133322140577143845144996145369145525——9.4526.7547.6567.2882.2091.6196.6098.8599.6499.89100.00——(一)、均数(mean )的计算① 直接法n xn x x x x x in∑=+++=...32 1例2. 10名7岁男童体重(kg )分别为:17.3、 18.0、 19.4、 20.6、21.2、21.8、 22.5、 23.2、 24.0、 25.5,求平均体重。
集中和离散趋势指标1.引言1.1 概述概述部分将介绍集中和离散趋势指标的基本概念和背景。
集中趋势指标和离散趋势指标是统计学中常用的分析工具,用于描述和度量数据集中和离散程度的重要指标。
在实际问题中,我们经常遇到需要描述和分析数据集中和离散程度的情况。
集中趋势指标主要关注数据的中心值,用于度量数据集中在何处,以及数据的均匀分布程度。
而离散趋势指标则用于度量数据的分散程度,即数据的离散程度有多大。
集中趋势指标和离散趋势指标在统计学、经济学、金融学等领域被广泛应用。
例如,在统计学中,我们常常使用平均值、中位数、众数等指标来描述数据的集中趋势;而方差、标准差、极差等指标则用于度量数据的离散趋势。
本文将分别介绍集中趋势指标和离散趋势指标的定义和解释,并列举一些常见的集中趋势指标和离散趋势指标的示例。
通过对这些指标的应用和分析,我们能够更加客观地了解数据的分布特征,为后续的数据分析和决策提供依据。
在下一章节的正文部分,我们将详细介绍集中趋势指标和离散趋势指标的定义、计算方法和使用场景。
希望通过本文的介绍,读者能够对集中和离散趋势指标有一个全面的认识,并能够在实际应用中灵活运用这些指标,提高数据分析的精确性和准确性。
接下来,我们将开始介绍集中趋势指标的相关内容,包括定义和解释等方面的内容。
敬请关注!1.2 文章结构文章结构部分的内容:本文将围绕集中和离散趋势指标展开讨论。
首先,在引言部分进行概述,介绍集中和离散趋势指标的基本概念和作用。
然后,通过分析文章目录可以看出,正文部分将重点介绍集中趋势指标和离散趋势指标,包括它们的定义和解释以及常见的指标类型。
最后,在结论部分对集中趋势指标和离散趋势指标的应用进行总结。
具体而言,在正文部分,我们会首先介绍集中趋势指标,包括其定义和解释。
随后,会详细介绍一些常见的集中趋势指标,例如均值、中位数和众数等。
这些指标能够反映数据集中在某个位置或数值上的趋势,有助于我们对数据的整体特征进行理解和分析。
第五章离中趋势测量法主要内容:(1)变异指标;(2)全距和四分位差;(3)平均差、标准差和标准分;(4)绝对离势和相对离势;(5)偏度(及峰度)所谓离中趋势,是指数列中各变量值之间的差距和离散程度。
离势小,平均数的代表性高;离势大,平均数代表性低。
例如有A、B、C、D四组学生各5人的成绩如下:A组:60 ,60,60,60,60B组:58,59,60,61,62C组:40,50,60,70,80D组:80,80,80,80,80数据显示,平均数相同,离势可能不同;平均数不同,离势可能相同。
变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。
变异指标如按数量关系来分有以下两类:凡用绝对数来表达的变异指标,统称绝对离势;主要有极差、平均差、四分位差、标准差等。
凡用相对数来表达的变异指标,统称相对离势;主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。
第一节全距与四分位差1.全距(Range)全距(R):最大值和最小值之差。
也叫极差。
全距越大,表示变动越大。
R =Xmax - Xmin[例] 求74,84,69,91,87,74,69这些数字的全距。
[解] 把数字按顺序重新排列:69,69,74,74,84,87,91,显然有 R =Xmax - Xmin=91 - 69=22对分组资料,不能确知最大值和最小值,求全距:(1)用组值最大组的组中值减去最小组的组中值(2)用组值最大组的上限减去最小组的下限(3)用组值最大组的组中值减去最小组的下限;或最大组的上限减去最小组的组中值优点:计算简单、直观。
缺点:(1)受极端值影响大;(2) 没有量度中间各个单位间的差异性,数据利用率低,信息丧失严重;(3)受抽样变动影响大,大样本全距比小样本全距大。
2. 四分位差(Quartile deviation)第三四分位数和第一四分位数的半距。
避免全距受极端值影响大的缺点。
第五章离散趋势测量一、单项选择题(在各题的备选答案中,只有1项是正确的,请将正确答案的序号,填写在题中的括号内。
每小题2分,共20分)1. 离散系数的主要目的是( )。
A. 反映一组数据的平均水平B. 比较多组数据的平均水平C. 反映一组数据的离散程度D. 比较多组数据的离散程度2. 两组数据的平均数不相等,但是标准差相等。
那么( )。
A. 平均数小的,离散程度小B. 平均数大的,离散程度大C. 平均数大的,离散程度小D. 两组数据离散程度相同二、名词解释(每题4分,共20分)3. 方差与标准差四、计算题(每题 1 5分,共30分)4.某校社会学专业共有两个班级。
期末考试时, 一班同学社会学理论平均成绩为86分,标准差为12分。
二班同学成绩如下所示。
二班同学社会学理论成绩分组数据表按成绩分组(分) 人数(个)60分以下 260~70 770~80 980~90 790~100 5合计30要求:(1) 计算二班同学考试成绩的均值和标准差。
(2) 比较一班和二班哪个班成绩的离散程度更大? (提示: 使用离散系数)5.甲单位人均月收入4500元, 标准差1200元。
乙单位月收入分布如下所示。
乙单位月收入分布表按收入分组(元) 人数(个)3000 分以下1203000~4000 4204000~5000 5405000~6000 4206000 以上300合计1800要求:(1) 计算乙单位员工月收入的均值和标准差。
(2) 比较甲单位和乙单位哪个单位员工月收入的离散程度更大? (提示: 使用离散系数)答案: 1. C 2. C3. 方差与标准差方差(variance) 是各数值与均值离差平方的平均数,它是数值型数据离散趋势最主要的测量值。
(2分)标准差(standard variance) 是方差的平方根,用于测量数值型数据离散趋势。
(2分)4.(1)均值:kkk f f f X f X f X f X ++++++=212211=(55×2+65×7+75×9+85×7+95×5)÷ 30 = 2310 ÷ 30= 77 (4分)方差:()Nf X Xki ii∑=-=122σ()()()()()30577957778597775777652775522222÷⎥⎥⎦⎤⎢⎢⎣⎡⨯-+⨯-+⨯-+⨯-+⨯-= = 4080 ÷ 30= 136标准差: 6619.111362≈==σσ (4分)(2)一班考试成绩的离散系数为:1395.08612=÷==一班一班一班X S V (3分)二班考试成绩的离散系数为:1515.07766.11=÷==二班二班二班X S V (3分)一班V <二班V ,所以说一班成绩的离散程度小于二班。
离散趋势的方法有哪些离散趋势是指数据集中数据的分布方式,用于描述数据的集中程度和离散程度。
在统计学和数据分析领域中,有许多方法用于测量和描述离散趋势。
下面将介绍一些常用的离散趋势方法,以及它们的原理和应用。
1. 极差(Range):极差是指一组数据中最大值和最小值之间的差值。
计算方法为极差= 最大值- 最小值。
极差可以快速测量数据的离散程度,但它只考虑了最大值和最小值,未能考虑中间数值的分布情况。
因此,极差通常配合其他方法一起使用。
2. 四分位差(Interquartile Range,IQR):四分位差是指数据集中处于25%和75%位置之间的数据的差值。
首先,计算数据的上四分位数(Q3)和下四分位数(Q1),然后计算四分位差= Q3 - Q1。
四分位差能够更好地反映数据集中间50%数据的分布情况,不受极端值的影响。
3. 方差(Variance):方差是衡量随机变量离散程度的一种方法。
方差反映了各数据与其均值之间的差距的平方的平均值。
方差越大,数据的离散程度也就越大。
方差的计算方法有两种:总体方差和样本方差。
总体方差计算方法为总体方差= 平均数[(数据值- 平均数)^2];样本方差计算方法为样本方差= (平均数[(数据值- 平均数)^2]) * (n-1)/n(其中n为样本容量)。
4. 标准差(Standard Deviation):标准差是方差的平方根,用于度量数据集的离散程度。
标准差的计算方法与方差相同,但是最后需要对方差结果开方。
与方差一样,标准差也有总体标准差和样本标准差两种计算方法。
5. 平均绝对偏差(Mean Absolute Deviation,MAD):平均绝对偏差是衡量数据离散程度的一种方法。
它是各数据与其均值的差的绝对值的平均值。
平均绝对偏差越小,数据的离散程度也就越小。
6. 变异系数(Coefficient of Variation,CV):变异系数是标准差与均值之比的一种指标,用于衡量数据离散程度相对于均值大小的一种方法。
离散趋势测量法第五章 离散趋势测量法第二节、全距与四分位差• 一、全距• 1、未分组资料计算公式• 全距又称极差,是一组数据的最大值与最小值之差,用表示。
计算公式为:•• 式中, 、 分别表示为一组数据的最大值与最小值。
由于全距是根据一组数据的两个极值表示的,所以全距表明了一组数据数值的变动范围。
越大,表明数值变动的范围越大,即数列中各变量值差异大,反之,越小,表明数值变动的范围越小,即数列中各变量值差异小。
2、分组资料计算公式R=最高组上限 - 最低组下限• R=最高组组中组-最低组组中值• R=最高组组中组-最低组下限• R=最高组上限-最低组组中值• 如果资料经过整理,并形成组距分配数列,全距可近似表示为:• R ≈最高组上限值-最低组下限值3、优缺点:优点:计算简单,易于理解。
缺点:(1)受极端值影响大,遇含开口组的资料时无法计算;max()min()i i R X X =-max()i X min()i X(2)数据利用率低,信息丧失严重;(3)受抽样变动影响大(一般大样本的全距会比小样本的全距大)。
二、四分位差(inter-quartile range)上四分位数与下四分位数之差的平均数,称为四分位差,亦称为内距或四分间距。
四分位差的计算方法:Q·D=(Q3-Q1) /2四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。
此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。
四分位差主要用于测度顺序数据的离散程度。
当然,对于数值型数据也可以计算四分位差,但不适合于分类数据。
优缺点:主要是避免了全距受极端值影响的缺点,其他优缺点同全距:数据利用率低,信息丧失严重;受抽样变动影响大。
第三节、平均差•平均差是各变量值与其算术平均数离差绝对值的平均数,用A.D表示。
根据掌握资料的不同,平均差有以下两种计算方法:• 1. 简单平均法•对于未分组资料,采用简单平均法。
其计算公式为:2. 加权平均法在资料分组的情况下,应采用加权平均式第四节、方差和标准差•一、概念要点•方差和标准差同平均差一样,也是根据全部数据计算的,反映每个数据与其算术平均数相比平均相差的数值,因此它能准确地反映出数据的差异程度。
但与平均差不同之处是在计算时的处理方法不同,平均差是取离差的绝对值消除正负号,而方差、标准差是取离差的平方消除正负号,这更便于数学上的处理。
因此,方差、标准差是实际中应用最广泛的离中程度度量值。
由于总体的方差、标准差与样本的方差、标准差在计算上有所区别•1、方差是个变量值与其均值离差平方的平均数,标准差是方差的开方。
• 2、离散程度的测度值之一。
• 3、最常用的测度值。
• 4、反映了数据的分布。
•5、反映了各变量值与均值的平均差异。
•6、根据总体数据计算的,称为总体方差或标准差。
根据样本数据计算的,称为样本方差或标准差二、总体的方差和标准差设总体的方差为,标准差为,对于未分组整理的原始资料,方差和标准差的计算公式分别为(二)样本的方差和标准差样本的方差、标准差与总体的方差、标准差在计算上有所差别。
总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数,而样本的方差和标准差在对各个离差平方平均时是用样本数据个数或总频数减1去除总离差平方和。
4. 方差的数学性质第五节、标准分相对位置的度量:标准分数有了均值和标准差之后,我们可以计算一组数据中各个数值的标准分数,以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群值。
1、定义。
变量值与其平均数的离差除以标准差后的值,称为标准分数,也称标准化值或Z值标准分数也给出了一组数据中各数值的相对位置。
比如,如果某个数值的标准分数为-2,我们就知道该数值低于均值2倍的标准差。
(4.4.21) 式也就是我们常用的统计标准化公式,在对多个具有不同量纲的变量进行处理时,常常需要对各变量数值进行标准化处理。
实际上,z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0、标准差为1•经验法则表明:当一组数据对称分布时•——约有68.27%的数据在平均数加减1个标准差的范围内•——约有95.45%的数据在平均数加减2个标准差的范围内•——约有99.73%的数据在平均数加减3个标准差的范围内。
•由此可见,一组数据中低于或高于平均数3个标准差以上的数据很少。
因此,在统计上,往往将平均数3个标准差以外的数据称为异常值或离群值•2、标准分的特性•(1)对于给定资料,由于算术平均数和标准差都是确定值,所以z是和X一一对应的变量。
•(2)它没有单位,是一个不受原资料单位影响的相对数,因而也适用于不同单位资料的比较。
•(3)均值和方差不同的正态分布经Z分数标准化后,可以转化为标准正态分布,所以Z又称标准正态变量。
•(4)Z分数的数学特性:•Z分数之和等于0;•Z分数的算术平均数等于0;•Z分数的标准差和方差均为1。
3、标准分的主要作用:标准分数的作用主要在两个方面,一是可以表明原始数据在总体分布中的相对位置,二是可以对不同分布的各原始数据进行比较。
第六节离散系数相对离散程度:离散系数用离差的绝对指标除以平均指标来求离差的相对指标,就可以在计量单位不同或平均水平不一的对象间进行直接比较。
这种由绝对离差与其算术平均数的比值,叫变异系数。
•1、全距系数:全距与算术平均数之比。
•2、平均差系数:平均差与算术平均数之比。
•3、标准差系数(最重要和最常用的变异系数)•(1)标准差与其相应的均值之比•(2)消除了数据水平高低和计量单位的影响•(3)测度了数据的相对离散程度•(4)用于对不同组别数据离散程度的比较离散系数是反映一组数据相对差异程度的指标,是各变异指标与其算术平均数的比值。
离散系数是一个无名数,可以用于比较不同数列的变异程度。
离散系数通常用表示,常用的离散系数有平均差系数和标准差系数,其计算公式分别为:[例3.19] 甲乙两组工人的平均工资分别为138.14元、176元,标准差分别为21.32元、24.67元。
两组工人工资水平离散系数计算如下:【例】某管理局抽查了所属的8家企业,其产品销售数据如表,试比较产品销售额与销售利润的离散程度企业编号产品销售额(万元)X1销售利润(万元)X21 2 3 4 5 6 7 8 17022039043048065095010008.112.518.022.026.540.064.069.0X1=536.25(万元)X2=32.5215(万元)S1=309.19(万元)S2=23.09(万元)V1=S1/X1=0.577 V2=S2/X2=0.710结论:计算结果表明,V1<V2,说明产品销售额的离散程度小于销售利润的离散程度第七节、异众比率•非众数组的频数占总频数的比率(variation ratio),称为异众比率,用表示。
•异众比率的计算公式为:•式中:为变量值的总频数;为众数组的频数•异众比率的作用是衡量众数对一组数据的代表性程度的指标。
•异众比率越大,说明非众数组的频数占总频数的比重就越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。
•异众比率主要用于测度分类数据的离散程度,当然,对于顺序数据也可以计算异众比率[例3.10]一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。
调查员在某天对50名顾客购买饮料的品牌进行了纪录。
整理得不同品牌饮料的频数分布资料如表4.4.1所示,要求根据资料计算异众比率数据类型和所适用的离散程度测度值数据类型定类数据定序数据定距数据或定比数据适用的测度值※异众比率※四分位差※方差或标准差—异众比率※离散系数(比较时用)——平均差——极差——四分位差——异众比率第八节偏度和峰度数据分布偏态与峰度的测度指标•偏度是对数据分布在偏移方向和程度所作的进一步描述;峰度是用来对数据分布的扁平程度所做的描述。
•对于偏斜程度的描述用偏态系数,扁平程度的描述用峰度系数。
•集中趋势和离中趋势是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。
偏态和峰度就是对这些分布特征的描述。
一、偏态的度量•(一)由算术平均数与众数之间的关系求偏态系数•任何一个频数分布的算术平均数与众数之间的差异情况,与这个频数分布的形态有固定的关系。
若频数分布是对称的,则算术平均数等于众数;若频数分布为右偏,则算术平均数大于众数;若频数分布为左偏,则算术平均数小于众数。
用其二者的差量除以标准差,即可求得偏态系数,•(二)动差法•动差又称矩,原是物理学上用以表示力与力臂对重心关系的术语,这个关系和统计学中变量与权数对平均数的关系在性质上很类似,所以统计学也用动差来说明频数分布的性质。
•二、峰度的度量•峰度是用来衡量分布的集中程度或分布曲线的尖峭程度的指标。
•当峰度β>0时,表示分布的形状比正态分布更瘦更高,这意味着分布比正态分布更集中在平均数周围,这样的分布称为尖峰分布,如图3.4(a);•β=0时,分布为正态分布;•β<0,表示分布比正态分布更矮更胖,意味着分布比正态分布更分散,这样的分布称为平峰分布如图3.4(b)。
[例3.20] 根据例4.5.1中的数据,计算农民家庭人均收入分布的峰度系数【例】已知1997年我国农村居民家庭按纯收入分组的有关数据如表。
试计算偏态系数按纯收入分组(元)户数比重(%)(百元)4292111==Ki i iK i i (百元)429.2111=•=∑∑==&&K i i i K i i F F X X 11==K i i i K i i (百元)089.1211=•=∑∑==&&K i i i K i i F F X σ311133133==i i iK i i i ()()()956.07339.176625.1689089.121429.21311133133==⨯-=-=∑∑==i i i K i i i F X N F X X σα结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大【例】根据表中的计算结果,计算农村居民家庭纯收入分布的峰度系数。
结论:由于=3.4>3,说明我国农村居民家庭纯收入的分布为尖峰分布,说明低收入家庭占有较大的比重。
4.3089.25.24144==Ki i i()()4.3089.12125.7252124144=⨯=-=∑=σαN F X X K i i i。