第三章 统计整理

  • 格式:ppt
  • 大小:358.50 KB
  • 文档页数:50

下载文档原格式

  / 50
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章 统计整理
第三章 统计整理
第一节 统计整理方案
第二节 统计分组 第三节 统计表 第四节 分布数列
第一节
统计整理
统计整理方案
将统计调查得到的原始资料进行 科学的分组和汇总形成综合统计 资料的工作过程 是统计调查的继续,统计分析的 前提和基础
地位
统计数据的处理:
内 容 统计资料的分组、汇总及制表
对于连续变量,相邻组组限必须重叠; 符合“上组限不计入”原则; 首末两组可使用“××以下”及“××以上” 的开口组。
编制异距数列
编制步骤:
⒈确定标准组距 标准组距=数列中最小组组距 2.确定标准组距次数 或者直接计算次数密度或频率密度
频数密度=频数/组距 频率密度=频率/组距
工人按年龄分 组 15~20 20~25 25~30 30~35 35~45 45~50
3)等距分组与异距分组
等距分组:标志值在各组保持相等的组距,即各
组的标志值变动都限于相同的范围。
一般用于标志值变动比较均匀的场合。
异距分组:各组的组距不都相等。
一般用于标志值变动分布不均匀
2、 相关指标的计算
1)组距 连续式分组的组距计算公式: 组距=本组上限–本组下限 间断式分组的组距计算公式:
组中值=50-(100-50)/2 =25 (万元) 某地区 100个百货商店 月销售额与流通费用情况
销售额(万元)
50以下 50~100 100~200 200~300 300以上 商店数 (个) 10 20 30 25 15 每百元商品销售额 中支付的流通费 (元) 14.2 11.4 10.1 9.2 8.5
组中值=300+(300-200)/2 =350(万元)
3、组距数列的编制
• 1)等距数列的编制 • 2)异距数列的编制
等距数列编制
适用于总体单位的标志值变 动比较均匀的情况
己知某地区某年50个商店商品销售额的资料如下(单位: 百万元): 7.4 12.6 29.0 2.0 12.4 7.0 14.8 17.5 15.0 18.2 18.7 15.5 12.8 26.0 17.3 8.3 14.7 12.0 3.5 6.8 25.0 19.3 6.4 4.0 11.9 8.5 13.2 14.5 17.1 15.6 13.4 4.5 9.5 20.0 15.7 6.0 11.4 23.0 14.2 16.7 21.0 16.0 13.6 10.0 13.9 5.0 5.8 10.5 16.3 22.0 要求编制组距数列。
统计数据的管理:
数据的传输、贮存、更新及输出
统计整理的步骤 制定统计整理方案 对原始资料进行审核 资料的分组和汇总 制作统计图表 统计资料的积累和保管
第二节
统计分组
• 一、统计分组的概念和意义
• 二、统计分组的程序和原则 • 三、统计分组的种类
• 四、变量分组
一、统计分组的概念和意义
根据统计研究的目的和客观现象的内在 统计分组 特点,按某个标志(或几个标志)把被研 究的总体划分为若干个不同性质的组。
2.0 7.4 12.6 15.0 18.2 3.5 8.3 12.8 15.5 18.7 4.0 8.5 13.2 15.6 19.3 4.5 9.5 13.4 15.7 20.0 5.0 10.0 13.6 16.0 21.0 5.8 10.5 13.9 16.3 22.0 6.0 11.4 14.2 16.7 23.0 6.4 11.9 14.5 17.1 25.0 6.8 12.0 14.7 17.3 26.0 7.0 12.4 14.8 17.5 29.0
组距=本组上限-前组上限(通用公式)
2)组中值:
上下限之间的中点数值,组中值的计算公式:
组中值
上限 下限 2
年龄分组:17-20,20-22
上组限U
某地区100个百货商店 月销售额与流通费用情况
每百元商品销售额 组距 d=U-L 商店数 销售额(万元) 中支付的流通费 =100-50=50 (万元) (个) 50以下 50~100 100~200 200~300 300以上 10 20 30 25 15
编制等距数列
编制步骤:
⒈求全距 R X max X min 29 2 27 (百万元) ⒉确定组距及组数 R≤组距(d) ×组数(m)
确定组距的原则:
要能区分各组的性质差异 要能反映总体资料的分布特征 为方便计算,尽可能为5或10的整数倍
编制等距数列 计算组数(组数不宜过多,也不宜太少)
分配数列
将总体各单位按某个标志分成若干组, 列出各组的总体单位数或各组在总体中 所占的比重而形成的数列
频数: 分布在各组的个体单位数 频率: 频数与总频数之比
各组频数(fi)之和等于总体单位数
各组频率( fi fi )
之和等于1,且0 ≤频率≤1
构成要素
分组标志的具体表现 各组的次数或频率
பைடு நூலகம்
2、累计频数与累计频率
组距
人数(人)
标准组距人数
次数密度
5 5 5 5 10 5
17 28 40 70 65 10
17 28 40 70 32.5 10
3.4 5.6 8 14 6.5 2
合计
——
230
——
——
第三节
统计图表
一、统计表 二、统计图
一、统计表
统计表
以纵横交叉的线条所形成的表格来表现 统计资料的形式
统计表有广义和狭义之分: 广义指统计工作阶段中的所有的一切表格。 狭义指整理后的结果表和分析表。 具有 容量 大、 方便 计算 等特 点
3、组距数列的编制
1、变(数)量分组
• 1)单项式分组和组距式分组
• 2)间断组距式分组和连续组距式分组 • 3)等距分组和异距分组
1)单项式分组与组距式分组
单项式分组:用一个变量值作为一组,形成单项式变量数 列。
单项式分组一般适用于离散型变量且变量变动范围不大的 场合。 组距式分组:将变量依次划分为几段区间,一段区间表现 为“从……到……”,把一段区间内的所有变量值归为一组, 形成组距式变量数列。 组距式分组适用于连续型变量或者变动范围较大的离散型 变量。
统计表的常用结构:
总 标 题 宾词栏 主词栏 注释 数据栏
统计表的加工方法
对主词栏加工 (对主体进行分组)
单式加工 复式加工
对宾词栏加工(选择指标及对指标进行分组)
简单设计 复合设计
按月工资分 组 300以下 300~400 400~500 500~600
按性别分(人)
按级别分
小计
4 16 22 15
统计分组的作用:
划分现象的类型 反映现象的内部结构和比例关系 揭示现象之间的相互依存关系
总体经过分组,能够突出组与组之间的差异 而抽象掉组内各单位之间的差异,使数据变 得条理化,便于进一步分析研究。
二、统计分组的程序与原则
选择分组 标志 确定分组 体系 总体单位 归类
科学性:
组间差异大, 组内差异小。
下组限L
(元) 14.2 11.4 10.1 9.2 8.5
组中值x=(U+L)/2 =(100+200)/2 =150(万元)
开口式组距数列组中值的计算:
先计算开口组的假定上、下限: 首组假定下限=首组上限-相邻组组距 末组假定上限=末组下限+相邻组组距
因此有:
首组 首组上限 首组假定下限 首组 相邻组组距 组中值 2 2 上限 末组 末组下限 末组假定上限 末组 相邻组组距 组中值 2 2 下限
完备性和互斥性:
每个单位均能且 只能归到某个组 中。
二、统计分组的程序与原则 对父母亲下岗情 对大学生月生活 况进行分组研究: 费支出情况进行 单亲下岗; 分组研究: 双亲下岗; 按家庭收入水平 双亲在岗。 分组;
按城乡分组; 按性别分组; 按年龄分组。?
不符合科学性 城乡区别
离退休 是否健在 不符合完备性和互斥性
二、统计图
统计图 以点、线条、面积等方法描述、显 示统计数据的形式 具有直观、醒目、易于理解等特点
组成: 坐标系
单式图 图形 图例
一个图只用来显示一种现象的 数量特征
复合图
叠加图
用一个图同时显示几种数量的 分布或变化情况
几种常用的统计图
条形图(Bar)用于显示离散型变量的次数分布
5
4 3 2
1 0
向 上 累 计 向 下 累 计 从变量值低的组开始,将各组频数(频
率)逐次向变量值高的组累计,说明某一
组上限以下各组的累计频数(频率)。 从变量值高的组开始,将各组频数(频 率)逐次向变量值低的组累计,说明某一
组下限以上各组的累计频数(频率)。
VAR00001 Valid Percent 1.2 2.4 2.4 4.8 1.2 2.4 2.4 14.5 8.4 9.6 4.8 3.6 9.6 6.0 3.6 8.4 1.2 6.0 2.4 3.6 1.2 100.0 Cum ulative Percent 1.2 3.6 6.0 10.8 12.0 14.5 16.9 31.3 39.8 49.4 54.2 57.8 67.5 73.5 77.1 85.5 86.7 92.8 95.2 98.8 100.0
下限,上限:组距式分组的每一组变量值中,其
最小值为下限,最大值为上限。
组距:上下限之间的距离。 组限:相邻两组的界限。
“上限不在内”原则:统计上规定,凡是总体某
一个单位的变量值是相邻两组的界限值,这一个单 位归入作为下限值的那一组内。
2)间断组距式分组和连续组距式分组
间断组距式分组:组限不相连的组距式分组。 连续组距式分组:组限相连的组距式分组。 离散型变量,可间断组距式分组,也可连续组距 式分组。 连续型变量,只能采用连续组距式分组。
R R m (当 d d R R m 1 (当 d d
的结果为整数时) 的结果为小数时)
上例中,取d=5,则有
R 27 m 1 1 6(组) d 5
编制等距数列
⒊确定组限
组限的表示方法
对于离散变量,相邻组组限可以间断,也可 重叠;

1 6 10 11

3 10 12 4
小计
4 16 22 15
技工
0 2 4 5
学徒工
4 14 18 10
600~700
700以上
10
5
8
4
2
1
10
5
8
5
2
0
合计
72
40
32
72
24
48
对宾词栏的简单设计
按级别分(人) 按月工资 分组 技工 学徒工 总 计 小计 男 女 小计 男 女
对宾词栏的复合设计

三、统计分组的种类
根据分组标志的性质不同:
1、品质分组 2、数量分组:单项式和组距式 根据分组标志的个数不同: 1.简单分组:即只按一个标志进行的分组。 2. 复合分组:按两个或两个以上标志进行 重叠分组。
分组体系
指同时使用两个以上标志分组 时,分组标志的组合形式。 各分组标志并列使用 各分组标志交叉结合使用
体操
举重
乒乓球 羽毛球
射击
跳水
柔道
田径
跆拳道
用于显示连续型变量的 直方图( Histogram ) 次数分布
40
30
20
10 Std. Dev = 4.86 Mean = 163.3 0 154.0 158.0 162.0 166.0 170.0 174.0 N = 83.00
VAR00001
用于显示定类变量的次 圆形图(饼图 Pie ) 数分布
1 2 1 3
体操 举重
5 5
乒乓球 羽毛球 射击 跳水 柔道 田径
4 3
跆拳道
4
线图(Line)
主要用于显示连续型变量的次 数分布和现象的动态变化
茎叶图
主要显示数据的分布形状及数 据的离散状况。
第四节 分布数列
• 1、分布数列的定义及种类
• 2、累计频数与累计频率 • 3、频数分布的类型
1、分配数列的定义及种类
平行分组体系 交叉分组体系
平行分组体系
按性别分类
对教师 的分类
男性 女性
高级
共计 7 组 按职称分类 中级 2+3+2 初级
按年龄分类
青年
中年
交叉分组体系
按性别 分类
对教师 的分类
共计12组 男 2× 3× 2

按职称 分类 按年龄 分类
高级
中级 初级
青年 中年
四、变量分组
1、变(数)量分组
2、相关指标的计算
统计表的编制规则
标题设计:总标题、横行标题和纵栏标题应简明扼要。 表格长与宽比例适当 表的上、下端用粗线或双线封口,左右两端一般不封口; 纵列合计在最后一行,横行合计可列在最前一栏或最后一栏 计量单位:全表只有一种计量单位则放在表达右上方,若各栏 的指标数值 的计量单位不同可在纵栏标题中注明;或横栏标题 后添一列计量单位。 可在各列的文字标题下面设置栏数编号加以标识,主词栏用“甲、 乙、丙”;宾词栏用“(1)、(2)、(3)……”等序号。 (如p205,209) ; 数据栏不能有空白,数字小忽略用“0”,缺少数字用“…”;