统计学基础课件第四章——数据分布特征的测度
- 格式:ppt
- 大小:27.84 MB
- 文档页数:68
第4 章数据分布特征的测度(进行一些描述性的计算)4.1集中趋势的度量4.2 离散程度的度量4.3数据分布的性质4.4 偏态与峰度的度量441数据分布的特征集中趋势(位置)离中趋势(分散程度)偏态和峰态(形状)2414.1 集中趋势的度量4.1.1 分类数据:众数4.1.2 顺序数据:中位数和分位数4.1.3 数值型数据:平均数4.1.4 众数、中位数和平均数的比较414众数中位数和平均数的比较3集中趋势(central tendency)1.测度集中趋势就是寻找数据水平的代表值或中心值值22.不同类型的数据用不同的集中趋势测度值低层次数据的测度值用于高层次的测数据3.低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据44.1.1 分类数据的集中趋势的测度•众数(mode):一组数据中出现次数最多的变量值•组数据中出现次数最多的变量值•注:顺序数据和数值型数据显然也有众数5例:分类数据的众数籍贯的频数分布百分比•解:这里的变量为解:这里的变量为““籍贯频数比例(%)上海1503030籍贯籍贯””,这是个分类变量变量,,不同类型的籍浙江江苏110.300.2201822贯就是变量值•众数为众数为““上海上海””这一山东辽宁960.180.120181812品牌品牌,,即•Mo =上海广东90.1818海合计501100顺序数据的众数甲城市家庭对住房状况评价的频数分布甲城市Mo =不满意回答类别户数(户)百分比(%)非常不满意不满意24108836一般满意93453115非常满意30101000合计300100.0数值型数据的众数(mode)•无众数个众数原始数据: 10 5 9 12 6 8一个众数原始数据: 6 5 9 8 5 5多于一个众数:252828364242原始数据: 25 28 28 36 42 428(d)众数(mode)•适合于数据量较多且有明显的集中趋势时使用•不受极端值的影响•一组数据可能没有众数或有几个众数(multimodal: 多众数的)•主要用于分类数据,也可用于顺序数据和数值型数据94124.1.2 顺序数据•中位数(Median):•排序后处于中间•分位数:四分位数十分位置上的值•四分位数,十分位数,百分位数。
第四章数据分布特征的测度教学目的与要求:统计平均指标是表明总体数量特征的一个重要指标,它是将总体各单位标志值的差异抽象化,反映总体各单位标志值的一般水平,揭示总体分布的集中趋势。
变异指标是反映总体各单位标志值的差异程度,揭示总体分布离中趋势的又一重要数量特征指标。
通过本章的学习,要求理解统计平均指标的意义和作用;掌握各种统计平均指标的特点、应用条件、应用范围和计算方法;理解变异指标的意义和作用;掌握各种变异指标的性质和计算方法;能运用变异指标衡量平均数代表性的大小。
教学重点与难点:重点为各种平均指标和变异指标的概念、特点、应用条件、应用范围和计算方法。
难点是不同条件下平均指标和变异指标的计算。
统计数据经过整理和显示后,对数据分布的形状和特征就可以有一个大致的了解。
为进一步掌握数据分布的特征和规律,进行更深入的分析,还需要找到反映数据分布特征的各个代表值。
对一组数据分布的特征,可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢和聚集的程度;二是分布的离散程度,反映各数据远离中心值的趋势;三是分布偏态和峰态,反映数据分布的形状。
这三个方面分别反映了数据分布特征的不同侧面。
第一节集中趋势的测度集中趋势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在。
测度集中趋势也就是寻找数据一般水平的代表值或中心值。
低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据。
因此,选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型和特点来确定。
一、分类数据:众数(M o)众数是指一组数据中出现次数最多的变量值。
•出现次数最多的变量值•不受极端值的影响•一组数据可能没有众数或有几个众数•主要用于分类数据,也可用于顺序数据和数值型数据从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。
第四章数据分布特征的测度学习目的和要求:通过本章的学习,掌握数据分布特征的各种描述方法;掌握不同测度方法的特点、应用条件及应用场合;能利用所学的方法对统计数据作各种统计描述。
难点释疑:(一)算术平均数通常用来反映总体分布的集中趋势,调和平均数往往只作为算术平均数的变形来使用,即在已知标志总量而未知总体单位总量的情况下计算调和平均数;而几何平均数较适用于计算平均比率和平均速度。
(二)调和平均数虽然是根据标志值的倒数计算的,但其结果不等于算术平均数的倒数。
在计算和应用平均指标时,除了考虑数理方面的要求外,更重要的是要考虑其现实的经济意义。
(三)平均数的性质是简捷计算法的基础,也是计算标志变异指标的基础。
掌握中位数和众数与算术平均数的关系的目的是能够根据其中的两个平均数大体计算出第三个平均数,并判断总体的分布状态。
(四)全距、四分位差、平均差、标准差在反映标志变异程度方面各有优缺点。
全距是描述数据离散程度的最简单测度值,它计算简单,易于理解,但不能全面反映总体各单位标志值的差异程度。
标准差与平均差的意义基本相同,但在数学性质上比平均差要优越,所以,在反映标志变动度大小时,一般都采用标准差。
标准差是实际中应用最广泛的离散程度测度值。
(五)标准差系数的应用。
为了对比和分析不同平均水平总体的标志差异程度,就需要使用标准差系数。
它是标志变异的相对指标。
它既消除了变量数列变量值差异程度的影响,也消除了变量数列水平高低的影响。
练习题:(一)单项选择题(在下列备选答案中,只有一个是正确的,请将其顺序号填入括号内)1.平均指标反映了()。
①总体变量值分布的集中趋势②总体分布的离散特征③总体单位的集中趋势④总体变动趋势2.加权算术平均数的大小( )。
①受各组标志值的影响最大 ②受各组次数的影响最大③受各组权数系数的影响最大 ④受各组标志值和各组次数的共同影响3.在变量数列中,如果变量值较小的一组权数较大,则计算出来的算术平均数( )。