第五章 离趋势测量法
- 格式:doc
- 大小:128.11 KB
- 文档页数:6
第五章 离散趋势测量法 第二节、全距与四分位差• 一、全距• 1、未分组资料计算公式• 全距又称极差,是一组数据的最大值与最小值之差,用表示。
计算公式为: ••式中, 、 分别表示为一组数据的最大值与最小值。
由于全距是根据一组数据的两个极值表示的,所以全距表明了一组数据数值的变动范围。
越大,表明数值变动的范围越大,即数列中各变量值差异大,反之,越小,表明数值变动的范围越小,即数列中各变量值差异小。
2、分组资料计算公式R=最高组上限 - 最低组下限• R=最高组组中组-最低组组中值 • R=最高组组中组-最低组下限• R=最高组上限-最低组组中值• 如果资料经过整理,并形成组距分配数列,全距可近似表示为: •R ≈最高组上限值-最低组下限值3、优缺点:优点:计算简单,易于理解。
缺点:(1)受极端值影响大,遇含开口组的资料时无法计算; (2)数据利用率低,信息丧失严重;(3)受抽样变动影响大(一般大样本的全距会比小样本的全距大)。
二、四分位差(inter-quartile range )上四分位数与下四分位数之差的平均数,称为四分位差,亦称为内距或四分间距。
四分位差的计算方法:Q·D=(Q3-Q1) /2四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。
此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。
四分位差主要用于测度顺序数据的离散程度。
当然,对于数值型数据也可以计算四分位差,但不适合于分类数据。
优缺点:主要是避免了全距受极端值影响的缺点,其他优缺点同全距:数据利用率低,信息丧失严重;受抽样变动影响大。
max()min()i i R X X =-max()i X min()i X第三节、平均差•平均差是各变量值与其算术平均数离差绝对值的平均数,用A.D表示。
根据掌握资料的不同,平均差有以下两种计算方法:• 1. 简单平均法•对于未分组资料,采用简单平均法。
第五章离散趋势测量一、单项选择题(在各题的备选答案中,只有1项是正确的,请将正确答案的序号,填写在题中的括号内。
每小题2分,共20分)1. 离散系数的主要目的是( )。
A. 反映一组数据的平均水平B. 比较多组数据的平均水平C. 反映一组数据的离散程度D. 比较多组数据的离散程度2. 两组数据的平均数不相等,但是标准差相等。
那么( )。
A. 平均数小的,离散程度小B. 平均数大的,离散程度大C. 平均数大的,离散程度小D. 两组数据离散程度相同二、名词解释(每题4分,共20分)3. 方差与标准差四、计算题(每题 1 5分,共30分)4.某校社会学专业共有两个班级。
期末考试时, 一班同学社会学理论平均成绩为86分,标准差为12分。
二班同学成绩如下所示。
二班同学社会学理论成绩分组数据表按成绩分组(分) 人数(个)60分以下 260~70 770~80 980~90 790~100 5合计30要求:(1) 计算二班同学考试成绩的均值和标准差。
(2) 比较一班和二班哪个班成绩的离散程度更大? (提示: 使用离散系数)5.甲单位人均月收入4500元, 标准差1200元。
乙单位月收入分布如下所示。
乙单位月收入分布表按收入分组(元) 人数(个)3000 分以下1203000~4000 4204000~5000 5405000~6000 4206000 以上300合计1800要求:(1) 计算乙单位员工月收入的均值和标准差。
(2) 比较甲单位和乙单位哪个单位员工月收入的离散程度更大? (提示: 使用离散系数)答案: 1. C 2. C3. 方差与标准差方差(variance) 是各数值与均值离差平方的平均数,它是数值型数据离散趋势最主要的测量值。
(2分)标准差(standard variance) 是方差的平方根,用于测量数值型数据离散趋势。
(2分)4.(1)均值:kkk f f f X f X f X f X ++++++=212211=(55×2+65×7+75×9+85×7+95×5)÷ 30 = 2310 ÷ 30= 77 (4分)方差:()Nf X Xki ii∑=-=122σ()()()()()30577957778597775777652775522222÷⎥⎥⎦⎤⎢⎢⎣⎡⨯-+⨯-+⨯-+⨯-+⨯-= = 4080 ÷ 30= 136标准差: 6619.111362≈==σσ (4分)(2)一班考试成绩的离散系数为:1395.08612=÷==一班一班一班X S V (3分)二班考试成绩的离散系数为:1515.07766.11=÷==二班二班二班X S V (3分)一班V <二班V ,所以说一班成绩的离散程度小于二班。
第五章离中趋势测量法平均指标对总体的共性和一般水平作了概括,以此来说明总体标志值分布的集中趋势。
但是总体作为统计对象,还有其变异性的一面。
变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。
变异指标不仅可以综合地显示变量值的离中趋势,还可以用来判别平均数的代表性。
所谓离中趋势,是指数列中各变量值之间的差距和离散程度。
离势小,平均数的代表性高;离势大,平均数代表性低。
变异指标的种类较多,如按计算的基准来分有以下两类:(1)以两数之差来表达的有全距和四分位差等。
(2)以对平均数偏差来表达的有平均差、标准差等。
变异指标如按数量关系来分有以下两类;(1)凡用绝对数来表达的变异指标,统称绝对离势,主要有极差、平均差、四分位差、标准差等。
(2)凡用相对数来表达的变异指标,统称相对离势,主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。
第一节全距与四分位差1.全距全矩是最大变量值与最小变量值之差,用R来表示。
对未分组资料,计算全距用原始式。
由于全距是一组数据中两个极端值之差,所以它又称极差。
全距的最大优点是:计算简单,便于直观。
缺点是;①受极端值影响大,遇含开口组的资料时将无法计算;②由于没有量度中间各个单位间的差异性,所以数据利用率很低,信息丧失严重;③受抽样变动影响很大。
一般说来,大样本全距要比小样本全距大些,因为大样本有较多的机会包含最极端的变量值。
2.四分位差四分位是用第三四分位数和第一四分位数的半距作为测定离中趋势的一种变异指标,它可以避免全距测量离中趋势受极端值影响大这个缺点。
但由于它仅以两数之差为基准,全距的另两个缺点依然无法避免。
第二节平均差要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计算各变量值与算术平均数的离差。
但由于算术平均数的性质,各变量值与其算术平均数离差的代数和恒为零,所以用这个性质无法构造出能够测定离中趋势的变异指标。
第五章集中趋势和离中趋势的度量第五章数据分布特征的描述第⼀节集中趋势指标概述⼀、集中趋势指标及其特点集中趋势(Central tendency),是指⼀组数据向某⼀中⼼值靠拢的倾向,测度集中趋势也就是要寻找数据⼀般⽔平的代表值或是⼼值。
在现象的同质总体中,各个单位的标志值是不尽相同的。
如果我们的⽬的是要对总体的数量⽔平有⼀个概括地、⼀般地认识,显然不能⽤某⼀单位的标志值表⽰。
统计平均数就是⽤来反映总体的⼀般⽔平和集中趋势的指标。
通俗的理解就是,在不变更总体总量的情况下,对总体内的全部标志值进⾏“截长补短”,使得总体各单位拥有同⼀⽔平的数量表现,这个同⼀⽔平的数量表现就是平均数,即集中趋势指标。
统计平均数有两个重要的特点:第⼀,平均数是⼀个代表值,表⽰被研究总体的⼀般⽔平。
例如,某企业职⼯的⼯资⽔平有⾼有低,有的职⼯⽉⼯资1680元,有的职⼯⽉⼯资1900元,有的职⼯⽉⼯资1870元,有的职⼯⽉⼯资2200元,等等。
若根据该企业各个职⼯⽉⼯资额综合计算出职⼯⽉平均⼯资为1860元,那么,1860元就是⼀个代表值。
它反映了该企业职⼯⽉⼯资的—般⽔平。
第⼆,平均数把被研究总体各单位的标志值的数量差异抽象化了。
例如,某企业职⼯的⽉平均⼯资为1860元,但是各个职⼯的⼯资⽔平有⾼有低,⾼于1860元的⼯资和低于1860元的⼯资互相抵消了,从⽽得出平均⼯资1860元。
由此可见,平均⼯资(1860元)已把各职⼯⽉⼯资⽔平的差别抽象化了。
⼆、集中趋势指标的作⽤集中趋势指标——统计平均数,在统计研究中被⼴泛应⽤,平均数的作⽤可以归纳为以下⼏点:1.利⽤平均数对⽐不同总体的⼀般⽔平。
平均数可以⽤来对同类现象在各单位、各部门、各地区之间进⾏⽐较,以说明⽣产⽔平的⾼低或经济效果的好坏。
例如,要⽐较不同的⽣产企业⽣产⽔平的好坏,仅对⽐企业的产品总产量是不⾜以说明问题的,因为产品总产量受到企业规模⼤⼩的影响。
要⽐较,需要计算各企业⽣产⼈员的平均产品产量,即劳动⽣产率,并分析不同的⽣产条件,才能做出正确的判断。
第五章离散趋势测量一、基本概念1、离散趋势反映一组数据中各数值与中心值偏离的程度。
中心趋势的各种测量值是对数据水平的一个概括性度量,但是如果数据离散程度大,集中趋势测量值对数据的代表性就差,这时候需要离散趋势测量值对数据的离散程度进行测量。
2、质性差异指数(IQV)质性差异指数是实际观察到的变异量和依数据可能有的最大变异量之间的比值,其数值是介于0与1中间,用IQV表示。
3、极差极差是一组数据中最大值与最小值的差值,也称为全距。
通常用R表示极差。
极差是一组数据中最大值和最小值的差值,因而,极差只适用于数值型数据,但是不适合定类数据和定序数据离散趋势的测量。
极差越大说明数据的离散程度越大。
4、四分位差四分位差是上四分位数和下四分位数之差,也称为内距或者四分间距。
四分位差反映了中间50%数据的离散程度,如果数值越小,说明离散程度越小,中间50%数据集中性越好;相反,如果四分位差越大,则说明离散程度越大,中间数据的集中性越差。
5、平均差平均差就是一组数据中每一个数据与这组数据均值之差的绝对值之和的平均,也称为平均离差,通常用Md表示。
平均差也只适用于数值型数据离散趋势的测量,而不适用于定类数据和定序数据。
6、方差方差是各数值与均值离差平方的平均数,它是数值型数据离散趋势最主要的测量值。
与平均差不同的是,方差采用平方的方式避免避免正、负抵消带来的问题,但是采用平方的方式给方差的解释带来一定的困难。
7、标准差标准差是方差的平方根,用于测量数值型数据离散趋势。
标准差克服了方差面临的夸大离散程度、不容易解释的问题。
与方差相比,标准差是有量纲的,它与变量值的单位相同,容易解释。
在实际中,标准差使用更为普遍。
8、离散系数离散系数是一组数据的标准差与该组数据均值之比,也称为变异系数。
离散系数是测量数据离散程度的相对指标,通常用V s适用于数值型数据离散程度的测量。
二、基本方法1、质性差异指数的计算IQV的计算公式为:IQV=()()1222-⨯-∑KNf NK其中,k 为分类数据的类别数或者组数,N 是样本容量,∑2f 是各组频数平方的总和。
第五章离中趋势测量法
主要内容:(1)变异指标;(2)全距和四分位差;(3)平均差、标准差和标准分;(4)绝对离势和相对离势;(5)偏度(及峰度)
所谓离中趋势,是指数列中各变量值之间的差距和离散程度。
离势小,平均数的代表性高;离势大,平均数代表性低。
例如有A、B、C、D四组学生各5人的成绩如下:
A组:60 ,60,60,60,60
B组:58,59,60,61,62
C组:40,50,60,70,80
D组:80,80,80,80,80
数据显示,平均数相同,离势可能不同;平均数不同,离势可能相同。
变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。
变异指标如按数量关系来分有以下两类:
凡用绝对数来表达的变异指标,统称绝对离势;
主要有极差、平均差、四分位差、标准差等。
凡用相对数来表达的变异指标,统称相对离势;
主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。
第一节全距与四分位差
1.全距(Range)
全距(R):最大值和最小值之差。
也叫极差。
全距越大,表示变动越大。
R =Xmax - Xmin
[例] 求74,84,69,91,87,74,69这些数字的全距。
[解] 把数字按顺序重新排列:69,69,74,
74,84,87,91,显然有 R =Xmax - Xmin=91 - 69=22
对分组资料,不能确知最大值和最小值,求全距:
(1)用组值最大组的组中值减去最小组的组中值
(2)用组值最大组的上限减去最小组的下限
(3)用组值最大组的组中值减去最小组的下限;或最大组的上限减去最小组的组中值
优点:计算简单、直观。
缺点:(1)受极端值影响大;
(2) 没有量度中间各个单位间的差异性,数据利用率低,信息丧失严重;
(3)受抽样变动影响大,大样本全距比小样本全距大。
2. 四分位差(Quartile deviation)
第三四分位数和第一四分位数的半距。
避免全距受极端值影响大的缺点。
求下列两组成绩的四分位差:
A: 78 80 82 85 89 87 90 86 79 88 84 81
B: 55 68 78 88 99 100 98 90 85 83 84 81
第二节 平均差(Mean absolute deviation)
要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计算各变量值与算术平均数的离差。
平均差是离差绝对值的算术平均数。
(mean deviation)
1.对于未分组资料
A ·
2.对于分组资料 A · D=
3.平均差的性质:在受抽样变动、极端值影响,处理不确定组距方面均同于算术平均数;不适于代数运算,其理论意义不易阐述。
第三节 标准差(standard deviation)
各变量值对其算术平均数的离差平方的算术平均数的平方根,均方差,又称用S 表示。
即克服平均差带有绝对值的缺点,又保留其综合平均的优点。
1. 对于未分组资科
[例1] 试分别以算术平均数为基准,求85,69,69,74,87
,91,74这些数字的平均差。
求72、81、86、69、57这些数字的标准差。
2. 对于分组资料
3. 标准差的性质
标准差是反映总体各单位标志值的离散状况和差异程度的最佳测度。
(1)以算术平均数为基准计算的标准差比以其他任何数值为基准计算的标准差要小。
“最小二乘方”性质——各变量值对算术平均数的离差的平方和,必定小于他们对任何其他数偏差的平方和。
(2)它将总体中各单位标志值的差异全包括在内,受抽样变动影响小。
但在受极端值影响以及处理不确定组距方面,缺点同算术平均数。
值得注意的是,在推论统计中我们将发现,方差是比标准差更有理论价值的概念。
所谓方差,即标准差的平方,它直接写成S。
2,,S2也常被称为变异数。
4. 标准分(standard score)
以离差和标准差的比值来测定变量与
的相对位置。
使原来不能
直接比较的离差标准化,可以相互比较,加、减、平均。
(1)Z是和X一一对应的变量值;
(2)Z分数没有单位,是一个不受原资料单位影响的相对数,所以可以用于不同单位资料的比较;
(3)Z分数实际表达了变量值距总体均值有几个标准差。
Z分数也有标准正态变量之称。
按Z值大小编制出的正态分布表,其用途十分广泛。
Z分数的性质:
(1)Z分数之和等于0
(2)Z分数的算术平均数等于0
(3)Z分数的标准差等于1,方差也等于1
第四节相对离势
上述各种反映离中趋势的变异指标,都具有和原资料相同的计算单位,称绝对离势。
但欲比较具有不同单位的资料的参差程度,或比较单位虽相同而均值不相同的资料的参差程度,离势的绝对指标则很可能导致某些错误结论。
所以,我
们还得了解和学习相对离势。
1. 变异系数
绝对离势统计量与其算术平均数的比率,用V 表示。
变异系数是最具有代表性的相对离势。
全距系数是众数据的全距与其算术平均数之比,其计算公式是:
平均差系数是众数据的平均差与其算术平均数之比,其计算公式是:
标准差系数是众数据的标准差与其算术平均数之比,其计算公式是:
2.异众比率
所谓异众比率,是指非众数的频数与总体单位数的比值,用V · R 来表示
其中: 为众数的频数; N 是总体单位数
异众比率能表明众数所不能代表的那一部分变量值在总体中的比重。
例1:某项调查发现,现今三口之家的家庭最多(32%),求异众比率。
某开发商根据这一报导,将房屋的户型大部分都设计为适合三口之家居住的样式和面积,你认为如何呢?
例2:设为测体重,得到成人组和婴儿组各100人的两个抽样总体。
成人组平均体重为65千克,全距为10千克;婴儿组平均体重为4千克,全距为2.5千克。
能否认为成人组体重的离势比婴儿组体重的离势大?
例3:对一个群体测量身高和体重,平均身高为170.2厘米,身高标准差为5.30厘米;平均体重为70千克,体重标准差为4.77千克。
比较身高o M f
和体重的离散程度。
3. 偏态系数
我们在前面讨论统计图时已经对频数分布的正态偏态有所认识。
我们又看到了算术平均数与中位数、众数之间存在的关系:
、M D 、M O 三者完全相等;当总体呈不对称的偏态分布时,它们之间存在着数量(位置)
的差异。
因此,偏态可由
为了使不同数列的偏态值可比,同样可计算偏态的相对数,即偏态系数,用α来表示
偏态系数是以标准差为单位的算术平均数与众数的离差,其取值一般在0与±3之间。
偏态系数为0表示对称分布,偏态系数为+3或-3则表示极右或极左偏态。