统计数据的整理与显示课程
- 格式:pptx
- 大小:328.12 KB
- 文档页数:30
统计数据的整理与显示统计数据收集上来之后,首先应对这些数据进行加工整理,使之系统化、条理化,以符合分析的需要。
数据整理是统计分析之前的必要步骤,通过加工整理可以简化数据,使我们更容易理解和分析。
不同类型的数据,所采取的处理方式和所适用的处理方法是不同的。
分类数据和顺序数据主要是做分类整理,数值型数据则主要是做分组整理。
数据经过整理后,可以用图形将其显示出来,以便对数据的特征有一个初步的了解。
(一)分类数据的整理和图示分类数据本身就是对事物的一种分类,因此,在整理时我们除了列出所分的类别外,还要计算出每一类别的频数、频率或比例、比率,同时选择适当的图形进行显示,以便对数据及其特征有一个初步的了解。
1.分类数据的整理分类数据的整理通常要计算下面的一些指标。
(1)频数与频数分布。
频数也称次数,它是落在各类别中的数据个数。
我们把各个类别及其相应的频数全部列出来就是频数分布或称次数分布。
将频数分布用表格的形式表现出来就是频数分布表。
例如,为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中的一个问题是:“您比较关心下列哪一类广告?”1.商品广告;2.服务广告;3.金融广告;4.房地产广告;5.招生招聘广告;6.其他广告。
这里的变量就是“广告类型”,不同类型的广告就是变量值。
调查数据经整理分类后形成表的频数分布表。
很显然,如果我们不做分类整理,观察200个人对不同广告的关注情况,既不便于理解,也不便于分析。
经分类整理后,可以大大简化数据,我们可以很容易看出,关注“商品广告”的人数最多,而关注“其他广告”的人数最少。
(2)比例。
比例是一个总体中各个部分的数量占总体数量的比重,通常用于反映总体的构成或结构。
假定总体数量N 被分成K 个部分,每一部分的数量分别为1N ,2N ,…,k N ,则比例定义为N N i /。
显然,各部分的比例之和等于1,即121=+++NNN N N N K K比例是将总体中各个部分的数值都变成同一个基数,也就是都以1为基数。
1. 2.掌握3.掌握 4.用Excel5.§3.1数据的预处理3.1.1 数据审核3.1.2 数据筛选3.1.3 数据排序1.错误2.符合条件3.升序和降序4.按需要汇总(raw data)完整性准确性检查数据是否有错误,计算是否正确等数值型数据,计算检查)(second hand data)1.适用性2.时效性3.确认(data filter)1. 2.不符合明显错误剔除符合筛选出来,而不用Excel 进行数据筛选8名学生的考试成绩数据(data filter)(data rank)1.一定顺序2.有助于3.排序本身就是分析的目的4.借助于计算机(方法)1.分类数据 字母型习惯上用升序汉字型首位拼音字母笔画多少2.数值型–递增递增–递减x (2)>…>x (n)数据透视表(pivot table )1.复杂提取有用 2.重要信息汇总和作图3. 4.首行列标题拖至区域,将需要汇总的“变【向导—3步骤之3】对,即可输出数据透视表§3.2 分类和顺序数据的整理与显示3.2.1 分类数据的整理与显示3.2.2 顺序数据的整理与显示(基本问题)1.弄清数据类型2.分类数据和顺序数据分类整理3.数值型数据分组整理4.适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整(基本过程) BAEDC比率百分比比例频数分类(可计算的统计量)1.个数2.一类别全部数据3.4.不同类别制作频数分布表(bar Chart )1.宽度相同高度或长短2.单式复式3.分类数据频数分布4.条形图可以横置或纵置汇源果汁露露品牌(side - 1.不同时间或不同空间2.差异或变化趋势688563328247戴尔电脑品牌1.频数多少排序2.分类数据不同品牌饮料的帕累托图百事可乐露露汇源果汁品牌(pie Chart)1.圆形及圆内扇形的角度2.各组成部分所占的比例结构性问题3.绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占不同品牌饮料的构成旭日升冰茶22%分类数据显示图例(可计算的指标)频数逐级累加频率(百分比)的逐级累加☺☺☺☺☺☺———100.092562510276168753044.075.090.0100.0132225270300乙城市回答类别100.093.060.034.012.7300279180102387.040.066.087.3100.0211201982623007.033.026.021.312.72199786438非常不满意不满意一般满意非常满意百分比(%)户数(户)百分比(%)户数(户)向下累积向上累积百分比(%)户数(户)乙城市家庭对住房状况评价的频数分布(243001322252700100200300400非常不满意不满意一般满意非常满意累积户数(户)(a)向上累积非常不满意不满意一般满意非常满意(b)向下累积甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布(annular chart)1. 2.同时绘制多个总体3. 4.环形图主要用于展示分类和顺序数据满意非常满意§3.3 数值型数据的整理与显示3.3.1 数据分组3.3.2 数值型数据的图示等距分组等距分组异距分组异距分组(要点)一个变量值离散变量值较少的情况☺☺☺☺(要点)1.一个区间2.连续变量3.变量值较多4.“不重不漏”5.等距不等距☺~ ☺☺~ ☺☺~ ☺☺~ ☺☺~ ☺(步骤)1.确定组数2.确定组距上限与下限之差,可根据全部数据的最大统计频数并整理成频数分布表(几个概念)(例题分析)【例】某电脑公司2005年前四个月各天的销售量数据(单位:台)。