当前位置:文档之家› 第二章 数据分布特征的测度

第二章 数据分布特征的测度

第二章 数据分布特征的测度
第二章 数据分布特征的测度

第二章数据分布特征的测度

对数据分布特征主要从三个方面进行测度和描述:一是分布的集中趋势,反映数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏斜程度和峰度。本章主要介绍如何使用函数以及“数据分析”工具对数据分布特征进行测度和描述。

第一节函数的介绍

本节主要介绍在统计分析中需要用到的一些函数,其中包括我们本章(描述统计)中以及在概率分布、参数估计与假设检验、方差分析、相关与回归等分析中涉及到的函数,读者在后面章节的学习中可以参阅本节的内容。

一、统计计算中经常用到的函数(函数列表)★

Excel为用户提供了数学、三角函数、统计函数、数据库函数、财务函数、工程函数、逻辑函数、文本函数、时间和日期函数、信息函数、查找和引用函数等10类300多种,可以满足多方面的需要。其中,统计函数最多达78种;此外还有14种数据库函数,以及在统计中经常使用的数学函数20种,合计112种。下面将这些函数名称及功能列表显示。

★本小节摘自: 安维默主编,《统计电算化》第34~37页,中国统计出版社,2000

表2-1 可用于统计分析的函数(续2)

1、函数的语法

工作表函数包括两个部分:函数名和紧跟的一个或多个参数。函数名,例如SUM和A VERAGE,表明函数要执行的操作;参数则指定函数所使用的值或单元格。例如,在公式“=SUM(C3:C5)”中,SUM为函数名,C3:C5为参数。此函数计算单元格C3、C4和C5中值的总和。函数的参数可以为数值类型。例如,公式“=SUM(327,209,176)”中的SUM 函数将数字327、209和176求和。不过通常的做法是,先在工作表的单元格中输入使用的数字,然后将这些单元格作为函数的参数使用。请注意函数参数两端的括号:开括号表示参数的开始,必须紧跟在函数名后。如果在函数名和括号之间输入了空格或其他字符,那么Excel会显示错误信息“Microsoft Excel 在公式中发现了错误。建议更正如下:是否接受建议的修改?”如果单击【是】按钮,则Excel会自动更新公式;如果单击【否】按钮,则单元格中将显示错误值﹟NAME?。

如果在函数中使用多个参数,则要用逗号将参数隔开。例如,公式“=PRODUCT (C1,C2,C5)”告诉Excel将单元格C1,C2,和C5的数值相乘。函数中可使用的参数多达30个,但公式的长度不能超过1024个字符。参数可以是工作表中包括任意数目单元格的区域。例如,函数“=SUM(A1:A5,C2:C10,D3:D7)”只有3个参数,但对29个单元格的数据进行求和运算(第一个参数A1:A5,指从A1到A5的所有单元格,依此类推)。反过来,引用的单元格中也可以包括公式,这些公式引用更多的单元格或单元格区域。使用这些参数,就可以轻松地创建复杂的公式来执行功能强大的各种操作。

2、函数的输入

对一些单变量和比较简单的函数,可用键盘直接输入。其方法与在单元格中输入公式相

同,首先输入一个“=”号,然后将函数的正确形式输入即可。例如:“=SUM(B2:B5)”等。

对于一些复杂或参数较多的函数,其形式难以记忆,可用“粘贴函数”对话框。其步骤如下:

第一步:选中某个单元格并选择“插入”菜单中的“函数”命令,或者单击“常用”工具栏上的“粘贴函数”按钮,来显示对话框(见图2.1)。

第二步:从对话框左侧的“函数分类”列表中选择所需要的函数类别(表中除前述10类函数外,还有“常用”和“全部”两项);从对话框右侧的“函数名”列表中选择所需要的函数,单击确定或回车确认,屏幕上出现该函数的对话框。本例从“统计”函数分类中,选择A VERAGE(平均数函数),如图2.2所示。

图2.1粘贴函数对话框

图2.2 A VERAGE函数对话框

图2.2A VERAGE函数对话框包括两个参数,即等价于公式“=A VERAGE(A1:A5,C2:C5)”,对9个单元格的数据进行求平均数。在此对话框中,所选函数的每个参数均有相应的编辑框。如果函数参数较多,对话框会在输入可选参数时自动进行扩展。对话框底部会显示对编辑框中当前所包含插入符的参数描述。

每个参数编辑框右边的显示区域将显示参数的当前值。对话框底部会显示函数的当前值,如本例计算结果为8。需要说明的是参数多少的选择要根据情况而定,本例使用了两个参数(A1:A5,C2:C5),原因是这两个数据区域不相连,如果将这两组数据放在一列,则只需

一个参数。

当然,由于不同的函数功能不同,所以在使用中参数的形式可能也不同,这里就不逐一列举。读者在具体的使用中也可以借助Excel的帮助功能。

第二节数据分布特征测度函数的使用

本节就描述统计中对数据分布特征的测度,所用到的函数做具体的说明。本节以某电脑公司2002年前4个月各天的销售量数据(单位:台)为例,见表2-2。

表2-2 某电脑公司2002年前4个月各天的销售量

一、集中趋势的测度

集中趋势的测度值有:众数、中位数、简单均值、调和平均数与几何平均数。在Excel 中用函数求这些测度值,可以打开函数的对话框操作,也可以直接输入包含函数的公式。

1、众数

众数是一组数据中出现次数最多的变量值,用M0表示。

具体做法如前所述:选中某个单元格并选择“插入”菜单中的“函数”命令,或者单击

“常用”工具栏上的“粘贴函数”按钮,从弹出的对话框左侧“函数分类”列表中选

择“统计”,从右侧“函数名”列表中选择MODE函数,回车进入MODE函数对话框(如图2.3所示)。

图2.3 MODE函数对话框

在对话框的“Number1”框中输入原始数据所在的单元格区域,本例为A1:J12;完成以上操作后在对话框底部给出计算结果,本例为172(台);单击“确定”按钮,计算结果自动计入指定位置。

如采取直接输入带函数的公式计算,可单击任一空单元格,输入“=MODE(A1:J12)”回车确认,可得出同样的结果。

2、中位数

中位数是一组数据排序后,处于中间位置上的变量值,用M e 表示。

采取直接输入带函数的公式计算,单击任一单元格,输入“=MEDIAN(A1:J12)”,回车确认,即得出结果182(台)。

3、均值

(1)简单均值

对于简单均值,单击任一空格,输入“=A VERAGE(A1:J12)”,回车确认,即可得出结果184.56。

(2)调和平均数

各变量值倒数的平均倒数,称为调和平均数,用H m 表示。在Excel 中,调和平均数也可以用函数求得,但只适用于简单的计算。例如:有甲、乙、丙三种蔬菜,每种蔬菜的价格分别为每斤0.5、0.8和0.9元,现在各买1元钱的每种蔬菜,计算平均价格,就是一个求调和平均数的问题。用求调和平均数函数HARMEAN 计算,单击任一单元格,输入“=HARMEAN(0.5,0.8,0.9)”,回车确认,结果为0.688(元)。

(3)几何平均数

n 个变量值乘积的n 次方根,称为几何平均数,用G m 表示。

几何平均数的计算公式为:

G m =n n

i i n n x x x x ∏=????=121 式中,∏为连乘符号。

几何平均数是适用于特殊数据的一种平均数,它主要用于计算比率的平均。当我们所掌握的变量值本身是比率的形式,这时就应采用几何平均数计算平均比率。在实际应用中,几何平均数主要用于计算社会经济现象的年平均增长率。

例:某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比为20%。求各年的平均增长率。

在Excel 中求几何平均数,非常简单,单击任一单元格,输入“=GEOMEAN(0.09,0.16,0.20)”,回车确认,其结果为14.2%。

二、离散程度的测度

离散程度的测度值主要有:异众比率、极值、四分位差、标准差、方差。这里就数值型数据离散程度的函数测度做简单介绍。

1、极值

在Excel 中求极值可用MAX 和MIN 函数求最大值和最小值,然后求其差值。

单击任一单元格,输入“=MAX(A1:J12)-MIN(A1:J12)”,即得出其值为96。

2、四分位差

上四分位数与下四分位数之差,称为四分位差,也称为内距或四分间距,用d Q 表示。 四分位差的计算公式为:

l u d Q Q Q -= 其中,u Q 表示上四分位数,l Q 表示下四分位数。

四分位差反映了中间50%数据的离散程度,其值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。四分位差不受极值的影响,一定程度反映了中位数对一组数据的代表程度。

在Excel中求四分位差,可用QUARTILE函数。按前面所述的步骤,打开QUARTILE 函数对话框,如图2.4所示。

图2.4 QUARTILE函数对话框

其中,“Array”框要求输入数据所在的区域,“Quart”框决定返回那一个四分位值。

Quart的取值范围为[0,4],具体来讲:

◆值为0,表示最小值;

◆值为1,下四分位数;

◆值为2,中位数;

◆值为3,上四分位数;

◆值为4,最大值

◆值不为整数,将被截尾取整。

所以,要计算四分位差,可分别在Quart对话框中输入3、1,然后将返回的上、下四分位数作差。

本例也可以单击任一单元格,输入“=QUARTILE(A1:J12,3)-QUARTILE(A1:J12,1)”,即可得到结果为43.25(台)。

3、标准差和方差

方差和标准差是数值型数据测度离散程度的最主要测度值。各变量值与其均值离差平方和的平均数,称为方差。方差的平方根,称为标准差。通常情况下,总体方差用2

σ表示,函数形式为V ARP;总体标准差用σ表示,其函数形式为STDEVP;样本方差用S2表示,函数形式为VAR;样本标准差用S表示,其函数形式为STDEV。

本例如果要求样本方差和样本标准差,可单击单元格在其中输入“=V AR(A1:J12)”或输入“=STDEV(A1:J12)”,即可得到样本方差或样本标准差,分别为470.05,21.68(台)(注意标准差有量纲)。

三、偏态与峰态的测度

集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。偏态和峰态就是对分布形状的测度。

“偏态”一词是由统计学家Pearson于1895年首次提出的,是对数据分布对称性的测度,其测度值称为偏态系数(SK),测度函数为SKEW。如果一组数据的分布是对称的,则偏态系数等于零;偏态系数大于零,为右偏分布;偏态系数小于零,为左偏分布。

本例在任一单元格输入“=SKEW(A1:J12)”,可得到偏态系数为0.41,为右偏分布。

“峰态”一词是由统计学家Pearson于1905年提出的,是对数据分布平峰和尖峰程度的测度,其测度值称为峰态系数(K),测度函数为KURT。峰态系数是通过与标准正态分布的峰态系数比较而言的。由于标准正态分布的峰态系数为0,当K>0时为尖峰分布;当K<0时为扁平分布。

需要注意的是,有的教课书中其峰态系数计算公式没有减3,所以把标准正态分布的峰态系数作为3,当K>3时为尖峰分布;K<3时为扁平分布。在Excel计算过程中,以零为比较对象。

本例在任一单元格输入“=KURT(A1:J12)”可得到峰态系数为-0.22,为扁平分布。

第三节描述统计工具的使用

上面介绍了数据分布特征的各种函数测度值,其中多数可以通过Excel“数据分析”选项中的“描述统计”命令得出计算结果。仍以表2-2为例,其步骤如下:

一、将数据输入到A1:A120区域中,在“工具”下拉菜单中单击“数据分析”选项,从其对话框“分析工具”列表中选择“描述统计”,回车进入“描述统计”对话框。如图2.5所示。

图2.5“描述统计”对话框

二、在“输入区域(I)”框中输入“A1:A120”,如果需要指出输入区域的数据是按行或按列排列的,可在“分组方式”后面单击“逐行”或“逐列”选项。选择“逐列”后,如果第一行为标题行,则要单击“标志位于第一行(L)”的复选框。

在输出选项中,本例选择“输出区域(O)”,输入“C2”;选择“汇总统计(S)”,可给出一系列描述统计测度值;选择“第K个大值(A)”或“第K个小值(M)”,其右侧框中将显示默认值“1”,即要求给出数据中第1个最大值或最小值。如输入“2”,则要求给出数据中2个最大值或最小值;选择“平均数置信度(N)”是指用样本平均数估计总体平均数的可信程度。如选择此复选框,则其右侧框中将显示默认值95%,如认为不合适,可自己调整。

以上各项选定后,回车确认,即可在指定输出区域得到描述统计各测度值的结果,见表2-3。

表2-3 “描述统计”输出结果

最后对表2-3的输出结果做部分解释:

◆“平均”指样本均值。

◆“标准误差”指样本平均数的“抽样误差”,即样本标准差除以样本单位数的均方。

◆“中值”即中位数。

◆“模式”即众数。

◆“标准偏差”即样本标准差。

◆“区域”即极差,最大值减最小值。

数据特征的测度

数据特征的测度 统计数据经过整理和显示后,我们对数据分布的类型和特点就有了一个大致的了解,但这种了解只是表面上的,还缺少代表性的数量特征值准确地描述出统计数据的分布。为进一步掌握数据分布的特征和规律,进行更深入的分析,还需要找到反映数据分布特征的各个代表值。对统计数据分布的特征,我们可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的偏态和峰度,反映数据分布的形状。这三个方面分别反映了数据分布特征的不同侧面,这里我们主要讨论集中趋势和离散程度的测度方法。 (一)集中趋势的测度 集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。集中趋势的测度值主要有众数、中位数、均值、几何平均数等几种。 1.众数 众数是一组数据中出现次数最多的变量值,用0M 表示。例如,下面是抽样调查的10个家庭住房面积(单位:平方米)的数据: 55 75 75 90 90 90 90 105 120 150 这10个家庭住房面积的众数为90。即0M =90(平方米) 众数是一个位置代表值,它的特点是不受数据中极端值的影响。 2.中位数 中位数是一组数据按一定顺序排序后,处于中间位置上的数值,用e M 表示。显然,中位数将全部数据等分成两部分,每部分包含50%的数据,一部分数据比中位数大,另一部分则比中位数小。 根据未分组数据计算中位数时,要先对数据进行排序,然后确定中位数的位置,其公式为: 2 1 +n 中位数位置= 式中的n 为数据的个数,最后确定中位数的具体数值。 设一组数据为1x ,2x ,…,n x ,按从小到大排序后为)1(x ,)2(x ,…,)(n x ,则中位数可表示为: ??? ? ??????? ??+=++为偶数时 当为奇数时当n x x n x M n n n e 122)21 (21 例如,在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位: 元): 750 780 850 960 1080 1250 1500 1650 2000

数据分布特征的测度

习题 一、填空题 1、统计数据分布的特征,可以从三个方面进行测度和描述:一是分布的__________,反映所有数据向其中心值靠拢或聚集的程度;二是分布的__________,反映各数据远离其中心值的趋势;三是分布的__________,反映数据分布的形状。 2、算术平均数有两个重要数学性质:各变量值与其算术平均数的__________等于零;各变量值与其算术平均数的__________等于最小值。 3、简单算术平均是加权算术平均数的__________,事实上简单算术平均数也有权数存在,只不过各变量值出现的权数均_________。 4、几何平均数主要用于计算__________的平均。它只适合于__________数据。 5、在一组数据分布中,当算术平均数大于中位数大于众数时属于________分布;当算术平均数小于中位数小于众数时属于________分布。 6、__________是各变量值与其均值离差平方的平均数,是测度数值型数据__________最主要的方法。 7、为了比较人数不等的两个班级学生的学习成绩的优劣,需要计算__________;而为了说明哪个班级学生的学习成绩比较整齐,则需要计算________。 8、偏态是对分布__________和__________的测度;而峰度则是指分布集中趋势__________的形状。 二、判断题 1、根据组距式数列计算得到的算术平均数只能是一个近似值。() 2、众数的大小只取决于众数组相邻组次数的多少。() 3、若已知甲数列的标准差小于乙数列,则可断言:甲数列算术平均数的代表性好于乙数列。() 4、如果数据的分布没有明显的集中趋势或最高峰点,众数也可能不存在。() 5、若A、B、C三个公司的利润计划完成程度分别为95%、100%和105%,则这三个公司平均的利润计划完成程度应为100%。() 6、当所掌握的变量值本身是比率的形式,而且各比率的乘积等于总的比率时,应采用倒数平均数来计算平均比率。() 7、投资者连续三年股票投资收益率为4%、2%和5%,则该投资者三年内平均收益率为3.66%。() 8、离散系数最适合于不同性质或不同水平数列算术平均数代表性的比较。() 9、当偏态系数α=0时,表明数据分布属于对称分布。() 10、当峰度系数β=0时,表明数据分布属于正态分布。() 三、单项选择题 1、由组距式数列确定众数时,如果众数组相邻两组的次数相等,则()。 A.众数为零B.众数组的组中值就是众数 C.众数不能确定D.众数组的组限就是众数 2、受极端数值影响最小的集中趋势值是()。 A.算术平均数B.众数和中位数C.几何平均数D.调和平均数 3、加权算术平均数中的权数为()。 A.变量值B.次数的总和C.变量值的总和D.次数比重 4、标准差系数抽象了()。 A.总体单位数多少的影响B.算术平均数高低的影响 C.总体指标数值大小的影响D.标志变异程度的影响 5、某车间三个班生产同种产品,6月份劳动生产率分别为2、3、4(件/工日),产量分别为400、500、600件,则该车间平均劳动生产率计算式应为()。

第4章 数据分布特征的测度

第四章 数据分布特征的测度 §1概述 §2 集中趋势的测度 一、集中趋势的含义 (一)集中趋势的概念 集中趋势(Central tendency )是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。 (二)集中趋势的内容 1.均值(Mean ) 算术平均数 调和平均数 几何平均数 切尾均值 2.位置平均数 中位数 四分位数 十分位数 百分位数 3.众数 二、众数 1.概念 众数(Mode )是一组数据中出现次数最多的变量值,用0M 表示。主要用于测度定类型数据的集中趋势。 2.单项分组数列 )max(0i f x M 例:为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题作了邮寄问卷调查,其中的一个问题是:“您比较关心下列哪一类广告?”

①商品广告;②服务广告;③金融广告;④房地产广告;⑤招生招聘广告;⑥其他广告。 表4-1 某城市居民关注广告类型的频数分布 =0M 商品广告 3.组距分组数列 ①确定众数组——频数最多的组 ②计算众数值 图4-1 众数值计算示意图 可见,众数实际上是频数最大组的下限加上按一定几何比例分配组距所得到的那段组距,即

X L M +=0 因为 2 11?+?+=?y x x d y x x 2 11 211)(?+??=+?+??= 所以 d L M 2 11 0?+??+ =(下限公式) 同理,可得上限公式: d U M 2 12 0?+??- = 例:某地区3000家农户的年收入情况资料如下: 解:57048010501=-=?; 45060010502=-=? 所以 75591000450 570570 70000=?++ =M (元) 三、位置平均数 1.中位数 中位数(Median )是一组数据按从小到大排序后,处于中间位置上的变量值,用e M 表示。中位数是一个位置代表值,它主要用于测度定序数据的集中趋势。 2.根据未分组资料确定中位数 ①按标志值大小进行排列得),,,(21n x x x Λ;

中级经济基础知识-数据特征的测度(精选试题)

中级经济基础知识-数据特征的测度 1、下列离散程度的测度值中,能够消除变量值水平和计量单位对测度值影响的是()。 A.标准差 B.离散系数 C.方差 D.极差 2、中位数() A.不是平均数 B.是一种趋势值 C.是一种位置平均数 D.是一种位置 3、什么反映数据远离其中心值的趋势 A.集中趋势 B.离散程度 C.标准差系数 D.偏态和峰度 4、下面一组数据为9个家庭的人均月收入数据(单位:元):700、780、

850、960、1080、1300、1500、1650、1800,中位数为()。 A.700 B.960 C.1080 D.1800 5、数据的离散程度越小,集中趋势的测度值对该组数据的代表性()。 A.越好 B.越差 C.不变 D.不确定 6、某学校学生的平均年龄为15岁,标准差为2岁;该学校老师的平均年龄为30岁,标准差为3岁。比较该学校年龄的离散程度,则()。 A.教师年龄的离散程度大一些 B.学生年龄的离散程度大一些 C.学生年龄和教师年龄的离散程度相同 D.教师年龄的离散程度是学生年龄离散程度的1.5倍 7、下面是抽样调查的9个家庭住房面积(单位:平方米):657585909098105120210,这9个家庭住房面积的众数为()。

A.75 B.85 C.90 D.150 8、一组数据向某一中心值靠拢的程度称为()。 A.峰度 B.偏态 C.离散程度 D.集中趋势 9、以下属于位置平均数的是()。 A.众数 B.极差 C.几何平均数 D.算术平均数 10、下列数据特征的测度值中,受极端值影响的是()。 A.众数 B.中位数 C.位置平均数 D.加权算术平均数

统计学第四版课后答案

统计课后思考题答案 第一章思考题 1.1什么是统计学 统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据并从中得出结论。 1.2解释描述统计和推断统计 描述统计;它研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。 推断统计;它是研究如何利用样本数据来推断总体特征的统计方法。 1.3统计学的类型和不同类型的特点 统计数据;按所采用的计量尺度不同分; (定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述; (定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。 (定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。 统计数据;按统计数据都收集方法分; 观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。 实验数据:在实验中控制实验对象而收集到的数据。 统计数据;按被描述的现象与实践的关系分; 截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。 时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。 1.4解释分类数据,顺序数据和数值型数据 答案同1.3 1.5举例说明总体,样本,参数,统计量,变量这几个概念 对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。 1.6变量的分类 变量可以分为分类变量,顺序变量,数值型变量。 变量也可以分为随机变量和非随机变量。经验变量和理论变量。 1.7举例说明离散型变量和连续性变量 离散型变量,只能取有限个值,取值以整数位断开,比如“企业数” 连续型变量,取之连续不断,不能一一列举,比如“温度”。 1.8统计应用实例 人口普查,商场的名意调查等。 1.9统计应用的领域 经济分析和政府分析还有物理,生物等等各个领域。 第二章思考题 2.1什么是二手资料?使用二手资料应注意什么问题 与研究内容有关,由别人调查和试验而来已经存在,并会被我们利用的资料为“二手资料”。

第四章 数据分布特征的测度

第四章数据分布特征的测度 教学目的与要求:统计平均指标是表明总体数量特征的一个重要指标,它是将总体各单位标志值的差异抽象化,反映总体各单位标志值的一般水平,揭示总体分布的集中趋势。变异指标是反映总体各单位标志值的差异程度,揭示总体分布离中趋势的又一重要数量特征指标。通过本章的学习,要求理解统计平均指标的意义和作用;掌握各种统计平均指标的特点、应用条件、应用范围和计算方法;理解变异指标的意义和作用;掌握各种变异指标的性质和计算方法;能运用变异指标衡量平均数代表性的大小。 教学重点与难点:重点为各种平均指标和变异指标的概念、特点、应用条件、应用范围和计算方法。难点是不同条件下平均指标和变异指标的计算。 统计数据经过整理和显示后,对数据分布的形状和特征就可以有一个大致的了解。为进一步掌握数据分布的特征和规律,进行更深入的分析,还需要找到反映数据分布特征的各个代表值。对一组数据分布的特征,可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢和聚集的程度;二是分布的离散程度,反映各数据远离中心值的趋势;三是分布偏态和峰态,反映数据分布的形状。这三个方面分别反映了数据分布特征的不同侧面。 第一节集中趋势的测度 集中趋势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在。测度集中趋势也就是寻找数据一般水平的代表值或中心值。低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据。因此,选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型和特点来确定。 一、分类数据:众数(M o) 众数是指一组数据中出现次数最多的变量值。 ?出现次数最多的变量值 ?不受极端值的影响 ?一组数据可能没有众数或有几个众数 ?主要用于分类数据,也可用于顺序数据和数值型数据

数据分布特征的描述习题答案

第四章 数据分布特征的描述习题 一、填空题 1、数据分布集中趋势的测度值(指标)主要有 众数 、 中位数 和 均值 。其中 众数 和 中位数 用于测度品质数据集中趋势的分布特征, 均值 用于测度数值型数据集中趋势的分布特征。 2、标准差是反映 数据离散程度 的最主要指标(测度值)。 3、几何平均数是计算 平均比率 和 平均速度 的比较适用的一种方法。 4、当两组数据的平均数不等时,要比较其数据的差异程度大小,需要计算 标准系数 。 5、在测定数据分布特征时,如果M M e X 0==,则认为数据呈 对称 分布。 6、当一组工人的月平均工资悬殊较大时,用他们工资的 众数(中位数) 比其算术平均数更能代表全部工人工资的总体水平。 二、选择题 单选题: 1、 反映的时间状况不同,总量指标可分为( (2) ) (1)总量指标和时点总量指标 (2)时点总量指标和时期总量指标 (3)时期总量指标和时间指标 (4)实物量指标和价值量指标 2、某厂1999年完成产值200万元,2000年计划增长10%,实际完成了231万元,超额完成( (2) ) (1)% (2)5% (3)% (4) % 3、在同一变量数列中,当标志值(变量值)比较大的次数较多时,计算出来的平均数( (2) ) (1) 接近标志值小的一方 (2)接近标志值大的一方 (3)接近次数少的一方 (4)接近哪一方无法判断 4、在计算平均数时,权数的意义和作用是不变的,而权数的具体表现( (1) ) (1)可变的 (2)总是各组单位数 (2) 总是各组标志总量 (4)总是各组标志值 5、1998年某厂甲车间工人的月平均工资为520元,乙车间工人的月平均工资为540元,1999年各车间的工资水平不变,但甲车间的工人占全部工人的比重由原来的40%提高到了60%,则1999年两车间工人的总平均工资比1998年( (3) ) (1)提高 (2)不变 (3)降低 (4)不能做结论 6、在变异指标(离散程度测度值)中,其数值越小,则( (2) ) (1)说明变量值越分散,平均数代表性越低 (2)说明变量值越集中,平均数代表性越高 (3)说明变量值越分散,平均数代表性越高 (4)说明变量值越集中,平均数代表性越低 7、有甲、乙两数列,已知甲数列:07.7,70==甲甲 σX ;乙数列: 41.3,7==乙乙σX 根据以上资料可直接判断( (4) )

统计学教(学)案(第5章数据分布特征的测度)

统计学

第一节总体分布集中趋势的测度 总体分布集中趋势是指总体中各单位的次数分布从两边向中间集中(靠拢)的趋势。 在分布数列中,越靠近中心值,标志值出现的次数越多,而远离中心值的次数较少。 由于对大多数统计总体来说,其总体单位的数值分布是以平均数为中心的,因此平均数反映了总体分布的集中趋势。所以,对集中趋势进行测度,就是寻找总体一般水平的中心值或代表值,就是计算总体的平均数(平均指标)。 一、平均指标的概念和作用 ㈠概念:平均指标是指在同质总体将各单位的数量差异抽象化,反映总体一般水平的代表值。 ㈡特点 ⒈将数量差异抽象化; ⒉必须具有同质性; ⒊反映总体变量值的集中趋势。 ㈢作用: ⒈可用于同类现象在不同空间的比; ⒉可用于同类现象在不同时间的比。

式中,m 代表各组标志总量,其余符号与前相同。 例: 某食堂购进某种蔬菜,相关资料如下,求这种蔬菜的平均价格。 4-13 某种蔬菜价格资料及其计算表 早午晚 价格(元/千克) 购买金额(元) 购买量(千克) x m m x 1.00 1.20 1.10 10.0 15.0 20.0 10.0 12.5 18.2 合计 - 45.0 40.7 根据上表计算食堂购进这种蔬菜的平均价格为: 10.015.020.045.0 1.106 /40.740.7m H m x ++= ===∑∑(元千克) 通过上例计算,可以看出,加权平均数实质上是加权算术平均数的一种变形式。其变换形式如下: m xf xf H m xf f x x = ==∑∑∑∑∑∑ 3.几何平均数 (1)概念 几何平均数是n 个比率乘积的n 次方根。 (2)几何平均数的计算 社会经济统计中,几何平均法适用于计算平均比率和平均速度。 简单几何平均数的计算公式为: n 21x x x G ???=Λ G表示几何平均数;x 表示变量值;n 表示变量值个数。 加权几何平均数的计算公式为

第24章 数据特征的测度

第二十四章数据特征的测度 一、单选题: 1、位置平均数和数值平均数是对(B190)的测度。 A、离散程度C、离散系数D、偏态 2A190) A、集中趋势 B、离散程度 C、偏态 D、峰度 3、以下属于位置平均数的是(C190+中位数AB→数值平均数) A、几何平均数 B、算术平均数 C、众数 D、极差 4、一组数据中出现频数最多的那个数值称为( C190 )。 A、中位数 B、极值 C、众数 D、平均数 5( D190 )。 A、众数 B、算术平均数 C、几何平均数 D、中位数 6、平均数指标反映了总体的( A190 )。 A、集中趋势 B、离散程度 C、变动趋势 D、分布特征 7、下列集中趋势测度值中,适用于品质数据的是(A190 BCD→适用于数值型数据) A、众数 B、简单算术平均数 C、标准差 D、加权算术平均数 8、下列数据特征的测度值中,不受极端值影响的是(C190+众数)。 A、简单算术平均数 B、极差 C、中位数 D、加权算术平均数 9、算术平均数与众数、中位数具有共同特点是(D190 )。 A、都属于分类数据 B、都适用于顺序数据 C、都不受极端值的影响 D、都适用于数值型数据 解析:众数、中位数不受极端值的影响;算术平均数易受极端值的影响。 众数→适用于品质(分类+顺序)、数值型数据中位数→适用于顺序、数值型数据 算术平均数→适用于数值型数据 10、某中学高中一年级840人、42人、42人、42人、44人、44人、45人、46人,其众数、中位数分别为(A190 )人。 A、42、43 B、43、43 C、43、42 D、46、43 解析:出现频数最多的数是42 中位数位置=(8+1)÷2=4.5→第四人与第五人之间 中位数=(42+44)÷2=43 11、某小学六年级8个班的学生人数由少到多依次为34人、34人、35人、35人、36人、36人、37人、37人,其中位数为(C190 )人。 A、34 B、35 C、36 D、37 解析:中位数位置=(8+1)÷2=4.5→第四人与第五人之间中位数=(35+36)÷2=35.5 ≈ 36人→人数要取整数 12、9个超市中食品的日销售额分别为(单位:元):500、300、400、350、350、500、450、700、600,其中位数为(C190 )人。 A、350 B、500 C、450 D、600 解析:先从小到大排序:300、350、350、400、450、500、500、600、700,中位数位置=(9+1)÷2=5 13、某连锁超市6个分店的职工人数由小到大排序后为57人、58人、58人、60人、63人、70人,其算术平均数、众数分别为(B191 )人。 A、59、58 B、61、58 C、61、59 D、61、70

第二章 数据分布特征的测度讲解

第二章数据分布特征的测度 对数据分布特征主要从三个方面进行测度和描述:一是分布的集中趋势,反映数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏斜程度和峰度。本章主要介绍如何使用函数以及“数据分析”工具对数据分布特征进行测度和描述。 第一节函数的介绍 本节主要介绍在统计分析中需要用到的一些函数,其中包括我们本章(描述统计)中以及在概率分布、参数估计与假设检验、方差分析、相关与回归等分析中涉及到的函数,读者在后面章节的学习中可以参阅本节的内容。 一、统计计算中经常用到的函数(函数列表)★ Excel为用户提供了数学、三角函数、统计函数、数据库函数、财务函数、工程函数、逻辑函数、文本函数、时间和日期函数、信息函数、查找和引用函数等10类300多种,可以满足多方面的需要。其中,统计函数最多达78种;此外还有14种数据库函数,以及在统计中经常使用的数学函数20种,合计112种。下面将这些函数名称及功能列表显示。 ★本小节摘自: 安维默主编,《统计电算化》第34~37页,中国统计出版社,2000

表2-1 可用于统计分析的函数(续2)

1、函数的语法 工作表函数包括两个部分:函数名和紧跟的一个或多个参数。函数名,例如SUM和A VERAGE,表明函数要执行的操作;参数则指定函数所使用的值或单元格。例如,在公式“=SUM(C3:C5)”中,SUM为函数名,C3:C5为参数。此函数计算单元格C3、C4和C5中值的总和。函数的参数可以为数值类型。例如,公式“=SUM(327,209,176)”中的SUM 函数将数字327、209和176求和。不过通常的做法是,先在工作表的单元格中输入使用的数字,然后将这些单元格作为函数的参数使用。请注意函数参数两端的括号:开括号表示参数的开始,必须紧跟在函数名后。如果在函数名和括号之间输入了空格或其他字符,那么Excel会显示错误信息“Microsoft Excel 在公式中发现了错误。建议更正如下:是否接受建议的修改?”如果单击【是】按钮,则Excel会自动更新公式;如果单击【否】按钮,则单元格中将显示错误值﹟NAME?。 如果在函数中使用多个参数,则要用逗号将参数隔开。例如,公式“=PRODUCT (C1,C2,C5)”告诉Excel将单元格C1,C2,和C5的数值相乘。函数中可使用的参数多达30个,但公式的长度不能超过1024个字符。参数可以是工作表中包括任意数目单元格的区域。例如,函数“=SUM(A1:A5,C2:C10,D3:D7)”只有3个参数,但对29个单元格的数据进行求和运算(第一个参数A1:A5,指从A1到A5的所有单元格,依此类推)。反过来,引用的单元格中也可以包括公式,这些公式引用更多的单元格或单元格区域。使用这些参数,就可以轻松地创建复杂的公式来执行功能强大的各种操作。 2、函数的输入 对一些单变量和比较简单的函数,可用键盘直接输入。其方法与在单元格中输入公式相

第四章 数据分布特征的测度讲解

第四章数据分布特征的测度 学习目的和要求: 通过本章的学习,掌握数据分布特征的各种描述方法;掌握不同测度方法的特点、应用条件及应用场合;能利用所学的方法对统计数据作各种统计描述。 难点释疑: (一)算术平均数通常用来反映总体分布的集中趋势,调和平均数往往只作为算术平均数的变形来使用,即在已知标志总量而未知总体单位总量的情况下计算调和平均数;而几何平均数较适用于计算平均比率和平均速度。 (二)调和平均数虽然是根据标志值的倒数计算的,但其结果不等于算术平均数的倒数。在计算和应用平均指标时,除了考虑数理方面的要求外,更重要的是要考虑其现实的经济意义。 (三)平均数的性质是简捷计算法的基础,也是计算标志变异指标的基础。掌握中位数和众数与算术平均数的关系的目的是能够根据其中的两个平均数大体计算出第三个平均数,并判断总体的分布状态。 (四)全距、四分位差、平均差、标准差在反映标志变异程度方面各有优缺点。全距是描述数据离散程度的最简单测度值,它计算简单,易于理解,但不能全面反映总体各单位标志值的差异程度。标准差与平均差的意义基本相同,但在数学性质上比平均差要优越,所以,在反映标志变动度大小时,一般都采用标准差。标准差是实际中应用最广泛的离散程度测度值。 (五)标准差系数的应用。为了对比和分析不同平均水平总体的标志差异程度,就需要使用标准差系数。它是标志变异的相对指标。它既消除了变量数列变量值差异程度的影响,也消除了变量数列水平高低的影响。 练习题: (一)单项选择题(在下列备选答案中,只有一个是正确的,请将其顺序号填入括号内) 1.平均指标反映了()。 ①总体变量值分布的集中趋势②总体分布的离散特征 ③总体单位的集中趋势④总体变动趋势

统计学导论 曾五一 第三章 数据分布特征的描述

第三章数据分布特征的描述 第一节统计变量集中趋势的测定 一测定集中趋势的指标及其作用 集中趋势(Central tendency) 较大和较小的观测值出现的频率比较低,大多数观测值密集分布在中心附近,使得全部数据 呈现出向中心聚集或靠拢的态势。 测度集中趋势的指标有两大类: 数值平均数——是根据全部数据计算得到的代表值,主要有算术平均数、调和平均数及几何平均数; 位置代表值——根据数据所处位置直接观察或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中位数。 1.反映变量分布的集中趋势和一般水平。 如用平均工资了解职工工资分布的中心,反映职工工资的一般水平。 2.可用来比较同一现象在不同空间或不同阶段的发展水平。 不受总体规模大小的影响; 在一定程度上使偶然因素的影响相互抵消。 3.可用来分析现象之间的依存关系。 如研究劳动者的文化程度与收入的关系。 4.平均指标也是统计推断中的一个重要统计量,是进行统计推断的基础。 二数值平均数 (一)算术平均数(均值) 一组数据的总和除以这组数据的项数所得的结果; 最常用的数值平均数。 1.简单算术平均数 把每项数据直接加总后除以它们的项数。 通常用于对未分组的数据计算算术平均数。 计算公式: 2.加权算术平均数 加权算术平均数的计算公式: 加权—为了体现各变量值轻重不同的影响作用,对各个变量值赋予不尽相同的权数(fi )。权数(fi ,也称权重) 权数——指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。可以是绝对数形式,也可以是比重形式(如频率)来表示。

事实上比重权数更能够直接表明权数的权衡轻重作用的实质。 当权数完全相等(f1 =f2 =…= fn)时,加权算术平均数就成了简单算术平均数。 3.由组距数列计算算术平均数 各组变量值用组中值来代表。 假定条件是各组内数据呈均匀分布或对称分布。 计算结果是近似值。 4.对相对数求算术平均数 由于各个相对数的对比基础不同,采用简单算术平均通常不合理,需要加权。 权数的选择必须符合该相对数本身的计算公式。 权数通常为该相对数的分母指标。 5.算术平均数的主要数学性质 (1)算术平均数与变量值个数的乘积等于各个变量值的总和。 (2)各变量值与算术平均数的离差之总和等于零。 (3)各变量值与算术平均数的离差平方之总和为最小。 (二)调和平均数(Harmonic mean) 调和平均数也称为倒数平均数。 各变量值的倒数(1/xi)的算术平均数的倒数。 其计算公式为: 社会经济统计中所应用的调和平均数通常是加权算术平均数的变形。 已知各组变量值xi 和(xi fi)而缺乏fi 时,加权算术平均数通常可变形为调和平均数形式来计算。 (三)几何平均数(Geometric mean) 几何平均数—n个变量值连乘积的n次方根。 简单几何平均数

相关主题
文本预览
相关文档 最新文档