第4章 数据分布特征的测度
- 格式:doc
- 大小:388.50 KB
- 文档页数:12
第四章思考与习题一、思考题1.什么是集中趋势?测度集中趋势常用指标有哪些?2.算术均值.众数和中位数有何关系?3.什么是几何平均数?其适用场合是什么?4.什么叫离散趋势?测度离散趋势常用指标有哪些?5.为什么要计算离散系数?二、练习题(一)填空题1.统计数据分布的特征,可以从三个方面进行测度和描述:一是分布的集中趋势离散程度偏斜和峰度__________,反映所有数据向其中心值靠拢或聚集的程度;二是分布的__________,反映各数据远离其中心值的趋势;三是分布的__________,反映数据分布的形状。
2.在某城市随机抽取13个家庭,调查得到每个家庭的人均月收入数据如下:,则其众数为,中位数为。
3.算术均值有两个重要数学性质:各变量值与其算术均值的__________等于零;各变量值与其算术均值的__________等于最小值。
4.简单算术均值是__________的特例。
4.几何均值主要用于计算__________的平均。
5.在一组数据分布中,当算术均值大于中位数大于众数时属于________分布;当算术均值小于中位数小于众数时属于________分布。
6.__________是各变量值与其均值离差平方的平均数,是测度数值型数据__________最主要的方法。
7.为了比较人数不等的两个班级学生的学习成绩的优劣,需要计算__________;而为了说明哪个班级学生的学习成绩比较整齐,则需要计算________。
8.偏态是对数据分布__________或__________的测度;而峰度是对数据分布_________的测度。
(二)判断题1.众数的大小只取决于众数组与相邻组次数的多少。
()2.当总体单位数n为奇数时,中位数=(n+1)/2。
()3.根据组距分组数据计算的均值是一个近似值。
()4.若已知甲企业工资的标准差小于乙企业,则可断言:甲企业平均工资的代表性好于乙企业。
()5.标准分数只是将原始数据进行线性变换,没有改变该组数据分布的形状,也没有改变一个数据在该组数据中的位置,只是使该组数据的均值为0,标准差为1。
统计学基础复习提纲复习内容:第一章:统计数据;第二章;数据搜集;第四章:数据分布特征的测度;第五章:抽样与参数估计;第六章:假设检验;第七章:相关与回归分析;第八章:时间序列分析和预测:第九章:指数。
重点内容:第一章统计和数据(1)统计的概念和应用(2)统计数据类型:分类数据、顺序数据、数值型数据;观测数据和实验数据;截面和时间序列数据。
(3)统计中的基本概念:总体与样本;参数与统计量;变量。
第二章数据搜集(1)数据来源:直接来源和间接来源(2)调查设计:调查方案设计和调查问卷设计(3)统计数据质量第四章数据分布特征的测度(1)集中趋势的测度:平均数;中位数和分位数;众数(2)离散程度的度量:极差和四分位差;平均差;方程和标准差;离散系数(3)偏态与峰态度量:偏态系数;峰态系数第五、六章参数估计与假设检验(1)参数估计的基本原理:点估计与区间估计(2)总体均值的区间估计和总体比率的区间估计(3)样本容量的确定(4)假设检验的基本原理:原假设与备择假设;两类错误与显著性水平;检验统计量与拒绝域。
(5)总体均值的检验:大样本检验方法;小样本检验方法。
第七章相关与回归分析(1)变量间关系度量:相关关系的描述和测度;散点图与离散系数。
(2)一元线性回归:一元线性回归模型;参数的最小二乘估计;回归方程的拟合优度;显著性检验。
(3)利用回归房产进行估计和预测第八章时间序列分析与预测(1)时间序列的分解和描述:图形描述;增长率分析(2)预测方法的选择和估计(3)平稳序列的预测:移动平均法;指数平滑法(4)趋势序列的预测:线性趋势预测;非线性趋势预测平均数:x 二2 4 10 11| 14 151096 9.610(2-9.6)2(4-9.6)2 川(15-9.6)2n -110-12、一家公司在招收职员时,首先要进行两项能力测试。
在A 测试中,其平均分数是100分, 标准差是15分;在B 项测试中,其平均数是 400分,标准分数是50分。
第四章数据分布特征的测度一、选择题1.一组数据中出现频数最多的变量值称为()。
A.众数B.中位数C.四分位数D.均值2.下列关于众数的叙述,不正确的是()。
A.一组数据可能存在多个众数B.众数主要适用于分类数据C.一组数据的众数是唯一的D.众数不受极端值的影响3.一组数据排序后处于中间位置上的变量值称为()。
A.众数B.中位数C.四分位数D.均值4.一组数据排序后处于25%和75%位置上的值称为()。
A.众数 B.中位数C.四分位数D.均值5.非众数组的频数占总额数的比率称为()。
A.异众比率B.离散系数C.平均差D.标准差6.如果一个数据的标准分数是-2,表明该数据()。
A.比平均数高出2个标准差B.比平均数低2个标准差C.等于2倍的平均数D.等于2倍的标准差7.比较两组数据的离散程度最适合的统计量是()。
A.极差B.平均差C.标准差D.离散系数8.偏度系数测度了数据分布的非对称性程度。
如果一组数据的分布是对称的,则偏度系数()。
A.等于0 B.等于1 C.大于0 D.大于1 9.某专家小组成员的年龄分别为29,45,35,43,45,58,他们的年龄中位数为()。
A.45 B.40 C.44 D.3910.某居民小区准备建一个娱乐活动场所,为此,随机抽取了80户居民进行调查,其中表示赞成的有59户,表示中立的有12户,表示反对的有9户。
该组数据的中位数是()。
A.赞成B.59 C.中立D.1211.对于右偏分布,均值、中位数和众数之间的关系是()。
A .均值>中位数>众数B .中位数>均值>众数C .众数>中位数>均值D .众数>均值>中位数12.某班学生的大学英语平均成绩是70分,标准差是10分。
如果已知该班学生的考试分数为对称分布,可以判断成绩在60分~80分之间的学生大约占( )。
A .95%B .89%C .68%D .99%13.当一组数据中有一项为零时,不能计算( )。
第四章数据分布特征的测度学习目的和要求:通过本章的学习,掌握数据分布特征的各种描述方法;掌握不同测度方法的特点、应用条件及应用场合;能利用所学的方法对统计数据作各种统计描述。
难点释疑:(一)算术平均数通常用来反映总体分布的集中趋势,调和平均数往往只作为算术平均数的变形来使用,即在已知标志总量而未知总体单位总量的情况下计算调和平均数;而几何平均数较适用于计算平均比率和平均速度。
(二)调和平均数虽然是根据标志值的倒数计算的,但其结果不等于算术平均数的倒数。
在计算和应用平均指标时,除了考虑数理方面的要求外,更重要的是要考虑其现实的经济意义。
(三)平均数的性质是简捷计算法的基础,也是计算标志变异指标的基础。
掌握中位数和众数与算术平均数的关系的目的是能够根据其中的两个平均数大体计算出第三个平均数,并判断总体的分布状态。
(四)全距、四分位差、平均差、标准差在反映标志变异程度方面各有优缺点。
全距是描述数据离散程度的最简单测度值,它计算简单,易于理解,但不能全面反映总体各单位标志值的差异程度。
标准差与平均差的意义基本相同,但在数学性质上比平均差要优越,所以,在反映标志变动度大小时,一般都采用标准差。
标准差是实际中应用最广泛的离散程度测度值。
(五)标准差系数的应用。
为了对比和分析不同平均水平总体的标志差异程度,就需要使用标准差系数。
它是标志变异的相对指标。
它既消除了变量数列变量值差异程度的影响,也消除了变量数列水平高低的影响。
练习题:(一)单项选择题(在下列备选答案中,只有一个是正确的,请将其顺序号填入括号内)1.平均指标反映了()。
①总体变量值分布的集中趋势②总体分布的离散特征③总体单位的集中趋势④总体变动趋势2.加权算术平均数的大小( )。
①受各组标志值的影响最大 ②受各组次数的影响最大③受各组权数系数的影响最大 ④受各组标志值和各组次数的共同影响3.在变量数列中,如果变量值较小的一组权数较大,则计算出来的算术平均数( )。
第四章数据分布特征的测度【教学要求】了解绝对数和相对数的概念及作用,掌握绝对数的种类、相对数的种类及应用;掌握集中趋势的测度方法,掌握算术平均数、调和平均数、几何平均数、众数、中位数的计算方法及应用;掌握离散程度的测度方法,理解全距、四分位差、异众比率、平均差的概念及计算方法,掌握标准差、离散系数的计算方法及应用;了解偏态与峰度的测度方法。
【知识点】绝对数、相对数、术平均数、调和平均数、几何平均数、众数、中位数、全距、四分位差、异众比率、平均差、标准差、离散系数【本章重点】相对数的种类及应用;算术平均数、调和平均数、几何平均数、众数、中位数的计算方法及应用;理解全距、四分位差、异众比率、平均差的概念及计算方法,掌握标准差、离散系数的计算方法及应用。
【本章难点】算术平均数、调和平均数、几何平均数、众数、中位数的计算方法及应用;理解全距、四分位差、异众比率、平均差的概念及计算方法,掌握标准差、离散系数的计算方法及应用。
【教学内容】第一节绝对数和相对数统计指标就其具体内容来讲非常多,可谓成千上万,但从其基本形式看,则不外乎总量指标、相对指标和平均指标三种类型,统称统计综合指标。
一、绝对数(一)绝对数的概念和种类1、绝对数的作用主要表现在:(1)绝对数可以反映一个国家、地区、部门或单位的基本情况(2)绝对数是制定政策、编制计划以及进行科学管理的重要依据(3)绝对数是计算相对数和平均数的基础相对数和平均数是由两个有联系的总量指标对比计算出来的统计综合指标,无论是相对指标还是平均指标,都是总量指标的派生指标,没有总量指标就不会有相对指标和平均指标。
例如,职工劳动生产率、职工平均工资、宏观经济增长速度、国民经济发展的重要比例关系、农作物单位面积产量等都是在总量指标的基础上计算出来的。
(二)绝对数的种类1、按反映总体内容不同分为总体单位总量和总体标志总量。
例、某业企业职工人数1,000人,工资总额1980,000元。
第四章 数据分布特征的测度§1概述§2 集中趋势的测度一、集中趋势的含义(一)集中趋势的概念集中趋势(Central tendency )是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。
(二)集中趋势的内容 1.均值(Mean ) 算术平均数 调和平均数 几何平均数 切尾均值 2.位置平均数 中位数 四分位数 十分位数 百分位数 3.众数 二、众数1.概念众数(Mode )是一组数据中出现次数最多的变量值,用0M 表示。
主要用于测度定类型数据的集中趋势。
2.单项分组数列)max(0i f x M例:为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题作了邮寄问卷调查,其中的一个问题是:“您比较关心下列哪一类广告?”①商品广告;②服务广告;③金融广告;④房地产广告;⑤招生招聘广告;⑥其他广告。
表4-1 某城市居民关注广告类型的频数分布=0M 商品广告3.组距分组数列①确定众数组——频数最多的组 ②计算众数值图4-1 众数值计算示意图可见,众数实际上是频数最大组的下限加上按一定几何比例分配组距所得到的那段组距,即X L M +=0因为211∆+∆+=∆y x x d y x x 211211)(∆+∆∆=+∆+∆∆=所以 d L M 2110∆+∆∆+=(下限公式)同理,可得上限公式: d U M 2120∆+∆∆-=例:某地区3000家农户的年收入情况资料如下:解:57048010501=-=∆; 45060010502=-=∆ 所以 7559100045057057070000=⨯++=M (元)三、位置平均数1.中位数 中位数(Median )是一组数据按从小到大排序后,处于中间位置上的变量值,用e M 表示。
中位数是一个位置代表值,它主要用于测度定序数据的集中趋势。
2.根据未分组资料确定中位数①按标志值大小进行排列得),,,(21n x x x Λ;②计算中间位置)21(+=n ; ③计算中位数具体数值。
标志值个数为奇数时 )21(+=n e x M 标志值个数为偶数时2)22()2(++=n n e x x M3.根据分组资料确定中位数 ①单项分组资料ⅰ计算中位数位置)2(∑=f ;ⅱ将分组数列的次数进行向上或向下累计;ⅲ选择第一个大于或等于2∑f 的组即为中位数所在组;ⅳ对应的标志值为中位数。
②组距分组资料ⅰ、ⅱ、ⅲ同单项分组资料; ⅳ计算中位数值:图4-2 中位数值计算示意图设标志值次数在一组内为均匀分布的,运用插值法,得m m e f S f d L M 12--=-∑ 整理得下限公式:d f S f L M mm e ⨯-+=-∑12 上限公式:d f S fU M mm e ⨯--=+∑12 例:某地区3000家农户的年收入情况资料如下:7743100010507000=⨯+=e M (元)2.四分位数四分位数(Quartile )也称四分位点,它是通过三个点将全部数据等分为四部分,其中每部分包含25%的数据,处在分位点上的数值就是四分位数。
①下四分位数l Q ②中位数m Q ③上四分位数u Q3.十分位数和百分位数①十分位数(Decile )是通过九个点将全部数据等分为十部分,其中每部分包含10%的数据,处在分位点上的数值就是十分位数。
②百分位数(Percentile )是通过99个点将全部数据等分为100部分,其中每部分包含1%的数据,处在分位点上的数值就是百分位数。
四、均值1.算术平均数算术平均数(Arithmetic mean )是全部数据的算术平均,是集中趋势的最主要测度值,用X 表示。
①未分组数列——简单算术平均数nxnx x x x ni in ∑==+++=121Λ例:某机械厂某生产小组6个工人生产某种零件的日产量(件)分别为15、16、17、18、19、20。
则平均日产量为5.1761056201918171615==+++++=x (件)②分组数列——加权算术平均数∑∑∑∑======++++++=ni ni iii n i ini iinnn ff x ff xf f f f x f x f x x 1111212211)(ΛΛ例:某机械厂180个工人对某种零件的生产情况资料如下:180180==x (件) ⅰ标志值的选择——在组距分组数列中以组中值为标志值例:某机械厂180个职工的工资资料如下:7.63015009460008181===∑∑==i ii iiff xx (元) ⅱ权数的选择——i i f x 要有实际意义例:某管理局下属10家企业1995年的产量计划完成情况资料如下:000000000010210112021103100495=⨯+⨯+⨯+⨯=x000000000025.1111205012040110201001095=⨯+⨯+⨯+⨯=x③算术平均数的性质ⅰ各变量值与算术平均数的离差之和等于零;0)(1=-∑=Ni iX Xⅱ各变量值与其算术平均数的离差平方和最小;∑∑==-=-Ni i Ni iA X X X1212)()(2.调和平均数调和平均数(Harmonic mean )是均值的另一种表现形式,它是标志值倒数的算术平均数的倒数,用H 表示。
①未分组数列——简单调和平均数∑==+++=ni inx n x x x nH 1211111Λ②分组数列——加权调和平均数∑∑===++++++=ni ii ni inn nx m mx m x m x m m m m H 11221121ΛΛ例:某工厂本月购进某材料四批,每批价格以及采购金额如下:02.411219500004141===∑∑==i ii i ix m mH (元) 3.几何平均数几何平均数(Geometric mean )是N 个变量值乘积的N 次方根,是标志值对数的算术平均数的反对数,用G 表示。
①未分组数列——简单几何平均数nni i n n xx x x G ∏===121Λ例:某机械厂有毛坯车间、粗加工车间、精加工车间、装配车间四个流水连续作业的车间。
本月份毛坯车间制品合格率为95%,粗加工车间为92%,精加工车间为90%,装配车间为85%。
求该企业平均车间产品合格率。
00443.909043.085.090.092.095.0==⨯⨯⨯=G②分组数列——加权几何平均数)(1)(2112121∑===∏=+++ni i i n n f ni f i f f f f nf f x x x x G ΛΛ例:某银行某年实行保值储蓄,各月的利率分配为:有4个月为3%,2个月为5%,2个月为8%,3个月为10%,1个月为15%。
求该银行的平均月利率。
0682.115.110.108.105.103.11322413224=⨯⨯⨯⨯=++++G 所以,月平均利率为1.0682-1=0.0682=6.82% 五、算术平均数、中位数、众数的关系1.对称分布(钟型分布)eo M X M ==2.右偏分布(正偏分布)e o3.左偏分布(负偏分布)oe M M X <<§2 离散趋势的度量一、全距 Range1、概念全距是指总体各单位标志值中最大值与最小值之差,又称极差。
2、计算[1] 未分组数列:全距=)m in()m ax (i i x x - [2] 单项分组数列:全距=1x x n -[3] 组距分组数列:全距=最上组的上限-最下组的下限 3、优缺点[1] 优点:计算简便、易于了解。
[2] 缺点:方法粗略,易受极端数值的影响,因而测定的结果往往不能充分反映现象的实际离散程度。
二、四分位差 Quartile deviationL U D Q Q Q -=三、平均差 Mean deviation (..D A )1、概念平均差是各单位标志值与算术平均数的离差绝对值的算术平均数。
2、简单算术平均差——未分组资料n xx D A n i i ∑=-=1..7005==x (元) 12052001000100200..=++++=D A (元) 3、加权平均差——分组数列∑∑==-=n i in i ii ff x x D A 11.. 四、方差(2σ)和标准差(σ)1、概念标准差又叫均方根差,是采用平方的方法来消除离差的正负号。
2、简单标准差nx x n i i ∑=-=12)(σ 如上例,14152001000)100()200(22222≈+++-+-=σ(元) 3、加权标准差∑∑==-=n i ini i iff x x 112)(σ 五、标准化值 Standard scoreσXX Z i i -=六、标志变异系数(离散系数)Coefficient of variation1、平均差系数00..100..⨯=xD A D A ν 2、标准差系数00..100⨯=x D A σν§3 偏态与峰度趋势的测度一、偏态(Skewness )趋势及其测度∑∑==-=n i ini ii f f X X a 13133)(σ 当⎪⎩⎪⎨⎧<=<正偏或右偏对称负偏或左偏000333a a a二、峰度(Kurtosis )趋势及其测度3)(14144--=∑∑==n i iK i ii f f X X a σ 04>a 尖峰分布04<a 平峰分布。