第4章数据分布特征的测度(二)学习资料
- 格式:ppt
- 大小:476.50 KB
- 文档页数:37
第4章(数据的概括性度量)学习指导数据分布的特征可以从三个方面进行描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布偏斜程度和峰度。
掌握计算、特点及其应用场合。
主要内容学习要点2.1 集中趋势的度量众数▶概念:众数。
▶众数的特点。
中位数和分位数▶概念:中位数,四分位数。
▶中位数和四分位数的特点。
▶中位数和四分位数的计算。
平均数▶概念:平均数,简单平均数,加权平均数,调和平均数,几何平均数。
▶简单平均数和加权平均数的计算。
▶用Excel中的统计函数计算平均数。
▶几何平均数的计算和应用场合。
众数、中位数和平均数的比较▶众数、中位数和平均数在分布上的关系。
▶众数、中位数和平均数的特点及应用场合。
异众比率▶概念:异众比率异众比率的计算和应用场合。
2.2离散程度的度量四分位差(内距)概念:四分位差。
四分位差的计算。
用Excel中的统计函数计算四分位差。
方差和标准差概念:极差,平均差,方差,标准差。
样本方差和标准差的计算。
用Excel计算标准差。
离散系数概念:离散系数。
离散系数的计算。
离散系数的用途。
2.3偏态与峰态的度量偏态及其测度概念:偏态,偏态系数。
用Excel计算偏态系数。
偏态系数数值的意义。
峰态及其测度概念:峰态,峰态系数。
用Excel计算峰态系数。
峰态系数数值的意义。
Excel统计函数的应用。
一)判断题1,各变量值与其平均数的离差之和为最小值。
( )2.当各组的变量值所出现的频率相等时,加权算术平均数中的权数就失去作用,因而,加权算术平均数也就等于简单算术平均数( )3.比较两总体的平均数的代表性,离散系数较小的总体,平均数代表性亦小。
( )4,平均数与次数和的乘积等于各变量值与次数乘积的和。
( )5.若两总体的平均数不同,而标准差相同,则离散系数也相同。
( )6.并非任意一个变量数列都可以计算其算术平均数、中位数和众数。
第四章一.思考题1、一组数据的分布特征可以从哪几个方面进行测度?答:可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态。
2、怎样理解平均数在统计学中的地位?答:平均数在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。
从统计学思想上看,平均数是一组数据的重心所在,是数据误差相互抵消后的必然结果。
3、简述四分位数的计算方法。
答:四分位数是一组数据排序后处于25%和75%位子上的值。
四分位数是通过3个点将全部数据等分成4分,其中每部分包含25%的数据。
中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值和处在75%位置上的数值。
它是根据为分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置,该位置上的数据就是四分位数。
4、对于比率数据的平均数为什么采用几何平均?答:几何平均数是适用于特殊数据的一种平均数,主要适用于计算平均比率。
当所掌握的变量值本身是比率的形式时,采用几何平均法计算平均比率更为合理。
5、简述众数、中位数、平均数的特点和应用场合。
答:众数是数据中出现次数次数最多的变量值。
主要应用于分类数据。
中位数是一组数据排序后处于中间位置的变量值,其适用于顺序数据。
平均数也称均值,它是一组数据相加后除以数据个数的结果,是集中去世的主要测量值,它适用于数值型数据。
6、简述异众比率、四分位差、方差、标准差的使用场合。
答:异众比率主要适合测度分类数据的离散程度,对于顺序数据以及数值型数据也可以计算异众比率。
四分位差主要用于测度顺序数据的离散程度。
方差和标准差适用于测度数值型数据的离散程度。
7、标准分数有哪些用途?答:首先是比较不同单位和不同质数据的位置。
其次是和正态分布结合起来,求得概率和标准分值之间的对应关系。
还有就是在假设检验和估计中应用。
第四章数据分布特征的测度教学目的与要求:统计平均指标是表明总体数量特征的一个重要指标,它是将总体各单位标志值的差异抽象化,反映总体各单位标志值的一般水平,揭示总体分布的集中趋势。
变异指标是反映总体各单位标志值的差异程度,揭示总体分布离中趋势的又一重要数量特征指标。
通过本章的学习,要求理解统计平均指标的意义和作用;掌握各种统计平均指标的特点、应用条件、应用范围和计算方法;理解变异指标的意义和作用;掌握各种变异指标的性质和计算方法;能运用变异指标衡量平均数代表性的大小。
教学重点与难点:重点为各种平均指标和变异指标的概念、特点、应用条件、应用范围和计算方法。
难点是不同条件下平均指标和变异指标的计算。
统计数据经过整理和显示后,对数据分布的形状和特征就可以有一个大致的了解。
为进一步掌握数据分布的特征和规律,进行更深入的分析,还需要找到反映数据分布特征的各个代表值。
对一组数据分布的特征,可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢和聚集的程度;二是分布的离散程度,反映各数据远离中心值的趋势;三是分布偏态和峰态,反映数据分布的形状。
这三个方面分别反映了数据分布特征的不同侧面。
第一节集中趋势的测度集中趋势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在。
测度集中趋势也就是寻找数据一般水平的代表值或中心值。
低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据。
因此,选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型和特点来确定。
一、分类数据:众数(M o)众数是指一组数据中出现次数最多的变量值。
•出现次数最多的变量值•不受极端值的影响•一组数据可能没有众数或有几个众数•主要用于分类数据,也可用于顺序数据和数值型数据从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。
统计学基础复习提纲复习内容:第一章:统计数据;第二章;数据搜集;第四章:数据分布特征的测度;第五章:抽样与参数估计;第六章:假设检验;第七章:相关与回归分析;第八章:时间序列分析和预测:第九章:指数。
重点内容:第一章统计和数据(1)统计的概念和应用(2)统计数据类型:分类数据、顺序数据、数值型数据;观测数据和实验数据;截面和时间序列数据。
(3)统计中的基本概念:总体与样本;参数与统计量;变量。
第二章数据搜集(1)数据来源:直接来源和间接来源(2)调查设计:调查方案设计和调查问卷设计(3)统计数据质量第四章数据分布特征的测度(1)集中趋势的测度:平均数;中位数和分位数;众数(2)离散程度的度量:极差和四分位差;平均差;方程和标准差;离散系数(3)偏态与峰态度量:偏态系数;峰态系数第五、六章参数估计与假设检验(1)参数估计的基本原理:点估计与区间估计(2)总体均值的区间估计和总体比率的区间估计(3)样本容量的确定(4)假设检验的基本原理:原假设与备择假设;两类错误与显著性水平;检验统计量与拒绝域。
(5)总体均值的检验:大样本检验方法;小样本检验方法。
第七章相关与回归分析(1)变量间关系度量:相关关系的描述和测度;散点图与离散系数。
(2)一元线性回归:一元线性回归模型;参数的最小二乘估计;回归方程的拟合优度;显著性检验。
(3)利用回归房产进行估计和预测第八章时间序列分析与预测(1)时间序列的分解和描述:图形描述;增长率分析(2)预测方法的选择和估计(3)平稳序列的预测:移动平均法;指数平滑法(4)趋势序列的预测:线性趋势预测;非线性趋势预测平均数:x 二2 4 10 11| 14 151096 9.610(2-9.6)2(4-9.6)2 川(15-9.6)2n -110-12、一家公司在招收职员时,首先要进行两项能力测试。
在A 测试中,其平均分数是100分, 标准差是15分;在B 项测试中,其平均数是 400分,标准分数是50分。
第四章数据分布特征的测度学习目的和要求:通过本章的学习,掌握数据分布特征的各种描述方法;掌握不同测度方法的特点、应用条件及应用场合;能利用所学的方法对统计数据作各种统计描述。
难点释疑:(一)算术平均数通常用来反映总体分布的集中趋势,调和平均数往往只作为算术平均数的变形来使用,即在已知标志总量而未知总体单位总量的情况下计算调和平均数;而几何平均数较适用于计算平均比率和平均速度。
(二)调和平均数虽然是根据标志值的倒数计算的,但其结果不等于算术平均数的倒数。
在计算和应用平均指标时,除了考虑数理方面的要求外,更重要的是要考虑其现实的经济意义。
(三)平均数的性质是简捷计算法的基础,也是计算标志变异指标的基础。
掌握中位数和众数与算术平均数的关系的目的是能够根据其中的两个平均数大体计算出第三个平均数,并判断总体的分布状态。
(四)全距、四分位差、平均差、标准差在反映标志变异程度方面各有优缺点。
全距是描述数据离散程度的最简单测度值,它计算简单,易于理解,但不能全面反映总体各单位标志值的差异程度。
标准差与平均差的意义基本相同,但在数学性质上比平均差要优越,所以,在反映标志变动度大小时,一般都采用标准差。
标准差是实际中应用最广泛的离散程度测度值。
(五)标准差系数的应用。
为了对比和分析不同平均水平总体的标志差异程度,就需要使用标准差系数。
它是标志变异的相对指标。
它既消除了变量数列变量值差异程度的影响,也消除了变量数列水平高低的影响。
练习题:(一)单项选择题(在下列备选答案中,只有一个是正确的,请将其顺序号填入括号内)1.平均指标反映了()。
①总体变量值分布的集中趋势②总体分布的离散特征③总体单位的集中趋势④总体变动趋势2.加权算术平均数的大小( )。
①受各组标志值的影响最大 ②受各组次数的影响最大③受各组权数系数的影响最大 ④受各组标志值和各组次数的共同影响3.在变量数列中,如果变量值较小的一组权数较大,则计算出来的算术平均数( )。
第四章数据分布特征的测度【教学要求】了解绝对数和相对数的概念及作用,掌握绝对数的种类、相对数的种类及应用;掌握集中趋势的测度方法,掌握算术平均数、调和平均数、几何平均数、众数、中位数的计算方法及应用;掌握离散程度的测度方法,理解全距、四分位差、异众比率、平均差的概念及计算方法,掌握标准差、离散系数的计算方法及应用;了解偏态与峰度的测度方法。
【知识点】绝对数、相对数、术平均数、调和平均数、几何平均数、众数、中位数、全距、四分位差、异众比率、平均差、标准差、离散系数【本章重点】相对数的种类及应用;算术平均数、调和平均数、几何平均数、众数、中位数的计算方法及应用;理解全距、四分位差、异众比率、平均差的概念及计算方法,掌握标准差、离散系数的计算方法及应用。
【本章难点】算术平均数、调和平均数、几何平均数、众数、中位数的计算方法及应用;理解全距、四分位差、异众比率、平均差的概念及计算方法,掌握标准差、离散系数的计算方法及应用。
【教学内容】第一节绝对数和相对数统计指标就其具体内容来讲非常多,可谓成千上万,但从其基本形式看,则不外乎总量指标、相对指标和平均指标三种类型,统称统计综合指标。
一、绝对数(一)绝对数的概念和种类1、绝对数的作用主要表现在:(1)绝对数可以反映一个国家、地区、部门或单位的基本情况(2)绝对数是制定政策、编制计划以及进行科学管理的重要依据(3)绝对数是计算相对数和平均数的基础相对数和平均数是由两个有联系的总量指标对比计算出来的统计综合指标,无论是相对指标还是平均指标,都是总量指标的派生指标,没有总量指标就不会有相对指标和平均指标。
例如,职工劳动生产率、职工平均工资、宏观经济增长速度、国民经济发展的重要比例关系、农作物单位面积产量等都是在总量指标的基础上计算出来的。
(二)绝对数的种类1、按反映总体内容不同分为总体单位总量和总体标志总量。
例、某业企业职工人数1,000人,工资总额1980,000元。
第四章 静态指标分析法(一)一、填空题1、数据分布集中趋势的测度值(指标)主要有、和。
其中和用于测度品质数据集中趋势的分布特征,用于测度数值型数据集中趋势的分布特征。
2、标准差是反映的最主要指标(测度值)。
3、几何平均数是计算和的比较适用的一种方法。
4、当两组数据的平均数不等时,要比较其数据的差异程度大小,需要计算。
5、在测定数据分布特征时,如果M M e X 0==,则认为数据呈分布。
6、当一组工人的月平均工资悬殊较大时,用他们工资的比其算术平均数更能代表全部工人工资的总体水平。
二.选择题单选题:1.反映的时间状况不同,总量指标可分为( )A 总量指标和时点总量指标B 时点总量指标和时期总量指标C 时期总量指标和时间指标D 实物量指标和价值量指标2、某厂1999年完成产值200万元,2000年计划增长10%,实际完成了231万元,超额完成( )A 5.5%B 5%C 115.5%D 15.5%3、在同一变量数列中,当标志值(变量值)比较大的次数较多时,计算出来的平均数( )A 接近标志值小的一方B 接近标志值大的一方C 接近次数少的一方D 接近哪一方无法判断4、在计算平均数时,权数的意义和作用是不变的,而权数的具体表现( )A 可变的B 总是各组单位数C 总是各组标志总量D 总是各组标志值 5、1998年某厂甲车间工人的月平均工资为520元,乙车间工人的月平均工资为540元,1999年各车间的工资水平不变,但甲车间的工人占全部工人的比重由原来的40%提高到了60%,则1999年两车间工人的总平均工资比1998年( )A 提高B 不变C 降低D 不能做结论 6、在变异指标(离散程度测度值)中,其数值越小,则( )A 说明变量值越分散,平均数代表性越低B 说明变量值越集中,平均数代表性越高C 说明变量值越分散,平均数代表性越高D 说明变量值越集中,平均数代表性越低7、有甲、乙两数列,已知甲数列:07.7,70==甲甲σX ;乙数列:41.3,7==乙乙σX 根据以上资料可直接判断( )A 甲数列的平均数代表性大B 乙数列的平均数代表性大C 两数列的平均数代表性相同D 不能直接判别8、杭州地区每百人手机拥有量为90部,这个指标是 ( )A 、比例相对指标B 、比较相对指标C 、结构相对指标D 、强度相对指标 9、某组数据呈正态分布,计算出算术平均数为5,中位数为7,则该数据分布为 ( ) A 、左偏分布 B 、右偏分布 C 、对称分布 D 、无法判断10、加权算术平均数的大小 ( )A 主要受各组标志值大小的影响,与各组次数多少无关;B 主要受各组次数多少的影响,与各组标志值大小无关;C 既与各组标志值大小无关,也与各组次数多少无关;D 既与各组标志值大小有关,也受各组次数多少的影响11、已知一分配数列,最小组限为30元,最大组限为200元,不可能是平均数的为 ( ) A 、50元 B 、80元 C 、120元 D 、210元12、比较两个单位的资料,甲的标准差小于乙的标准差,则 ( ) A 两个单位的平均数代表性相同 B 甲单位平均数代表性大于乙单位C 乙单位平均数代表性大于甲单位D 不能确定哪个单位的平均数代表性大 13、若单项数列的所有标志值都增加常数9,而次数都减少三分之一,则其算术平均数 ( ) A 、增加9 B 、增加6C 、减少三分之一 D 、增加三分之二 14、如果数据分布很不均匀,则应编制( )A 开口组B 闭口组C 等距数列D 异距数列 15、计算总量指标的基本原则是:( ) A 总体性B 全面性C 同质性D 可比性16、某企业的职工工资分为四组:800元以下;800-1000元;1000—1500元;1500以上,则1500元以上这组组中值应近似为()A1500元 B 1600元 C 1750元D 2000元 17、统计分组的首要问题是( )A 选择分组变量和确定组限B 按品质标志分组C 运用多个标志进行分组,形成一个分组体系D 善于运用复合分组18、某连续变量数列,其末组为开口组,下限为200,又知其邻组的组中值为170,则末组组中值为( )A 230B 260C 185D 215 19、分配数列中,靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,这种分布的类型是( )A 钟型分布B U 型分布C J 型分布D 倒J 型分布 20、要了解上海市居民家庭的开支情况,最合适的调查方式是:() A 普查B 抽样调查C 典型调查D 重点调查21、已知两个同类企业的职工平均工资的标准差分别为5元和6元,而平均工资分别为3000元,3500元则两企业的工资离散程度为 ( )A 甲大于乙B 乙大于甲C 一样的D 无法判断 22、加权算术平均数的大小取决于( )A 变量值B 频数C 变量值和频数D 频率23、如果所有标志值的频数都减少为原来的1/5,而标志值仍然不变.那么算术平均数( ) A 不变 B 扩大到5倍 C 减少为原来的1/5 D 不能预测其变化 24、 计算平均比率最好用 ( )A 算术平均数B 调和平均数C 几何平均数D 中位数25、若两数列的标准差相等而平均数不同,在比较两数列的离散程度大小时,应采用() A 全距 B 平均差 C 标准差 D 标准差系数26、若n=20,∑∑==2080,2002x x ,标准差为( )A 2B 4C 1.5D 327、已知某总体3215,3256==eMM,则数据的分布形态为( )A左偏分布B正态分布 C 右偏分布DU型分布28、一次小型出口商品洽谈会,所有厂商的平均成交额的方差为156.25万元,标准差系数为14.2%,则平均成交额为( )万元A11 B 177.5 C 22.19 D 8826、欲粗略了解我国钢铁生产的基本情况,调查了上钢、鞍钢等十几个大型的钢铁企业,这是()A普查B重点调查C典型调查D抽样调查多选题:1.某企业计划2000年成本降低率为8%,实际降低了10%。