第三章 统计数据分布的特征

  • 格式:ppt
  • 大小:383.00 KB
  • 文档页数:37

下载文档原格式

  / 37
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
GM N X 1 X 2 X N N
i 1

Xi
例题:见书79页
众数、中位数和算术平均数的关系
均值 <中位数 < 众数
均值 = 中位数 = 众数
众数 <中位数 < 均值
左偏分布
__
__
对称分布
右偏分布
M0 Me x
__
x Me M0
x Me M0
分配为钟形、轻微不对称的经验公式:
3 算术平均数(均值,Arithmetic Mean)
总体均值常用 X 或 表示。样本均值常 用 x 表示。样本均值的计算公式:
简单平均数:
x
__
x
i 1
n
i
n
加权平均数(分组数据) :
x
x f
i 1 k
k
i i
f
i 1
i
算术平均数(例子)
某企业的工会随机调查了20名工人2005 年6月加班的小时数,结果如下:
对称分布:偏态系数=0。
数据向右边 延伸得更多
右偏分布(也称正偏分布) :
偏态系数SK> 0;偏态系数的 绝对值越大,偏斜越严重。
2
峰度及峰度系数(Kurtosis)
峰度:数据分布的扁平或尖峰程度。 峰度系数:数据分布峰度的度量值,对数据分 布尖峰或扁平程度的测度,一般用K表示。 公式计算:
频数 f
3 5 8 14 10 6 4 50
xi f i
322.5 562.5 940.0 1715.0 1275.0 795.0 550.0 6160.0
例题2:某银行为250户企业贷款情况如下,计算平均每 个企业贷款额。
贷款额 (万元) 贷款户数 组中值 比重%
fi
12 56 85 64 15 45 75
加班小时 数 13 18 12 15 7 合计 绝对离 差 0 5 1 2 6 14 离差平方 0 25 1 4 36 66
s
66 4.06 5 1
4 离散系数(Coefficient of Variation)
标准差与其相应的均值之比,表示为百分 数。 s V (总体) 或 v (样本) X x
向下累积 频数
50 47 42 34 20 10 4
频率
100 94 84 68 40 20 8
合计
50
100
例题2:某省某年电信职工收入调查资料如表。计算M 0和 M e 按月收入额分组 调查职工人数 向上累积次数 向下累积次数
1000以下 1000-1300 1300-1600 1600-1900 1900-2200 2200-2500 2500以上 合计 40 90 110 105 70 50 35 500 40 130 240 345 415 465 500 — 500 460 370 260 155 85 35 —
M o M e 2( M e x )
__
M o 3M e 2 x
__
众数、中位数、均值的应用场合
众数、中位数均不受极值影响。 所以,对于偏态分布,代表性比均值好。 当数据呈对称分布或接近对称分布,选均 值。 当数据呈偏态分布,应选众数或中位数。

众数的实际应用
集市贸易的商品价格,选择最普遍成交价格 即可。 也是衡量品质数据位置的重要量度。如:下 表 矿泉水品牌 次数
特点:
反映了相对于均值的相对离散程度; 可用于比较计量单位不同的数据的离散程度; 计量单位相同时,如果两组数据的均值相差悬殊, 离散系数可能比标准差等绝对指标更有意义。
离散系数:例子
对30名经理人员的调查表明年平均收入=$500,000, 标准差 = $50,000。 对30名工人的调查表明平均收入= $32,000,标准 差 = $5,000。
( xi x) 4 f i
i 1 k
K
ns
4
3
峰度系数的含义
峰度系数K<0,与正 态分布相比该分布一 般为扁平、瘦尾,肩 部较胖。
扁平分布
均值和方差 相同的正态 分布
尖峰分布
峰度系数K>0,与正 态分布相比该分布一 般为尖峰、肥尾,肩 部较瘦。
九龙矿泉 南湖矿泉 17 20
大峡谷
农夫山泉 河源矿泉
5
60 25
2 分布离散程度的测度
反映各变量值远离其中心值的程度(离散 程度),从另一个侧面说明了集中趋势测 度值的代表程度。 常用指标:
全距(极差) 平均差 方差和标准差 离散系数
1 全距(Range)
全距也称极差,是一组数据的最大值与最 小值之差。
Me X
(
N 1 ) 2
n为偶数时等于第n/2和n/2+1个数的平均值
1 Me X N X N ( 1) 2 (2) 2
1,2 ,5,9 ,11
中位数 =5
1,2 ,5 , 9,11,18
中位数=(5+9)/2=7
中位数(Me)
分组数据
N S m1 Me L 2 i fm
( x x ) 0
缺点:
易受极端值的影响。
张村有个张千万, 九个邻居穷光蛋; 统计平均算资产, 个个都是张百万。
例题1:计算 按零件数分组
105-110 110-115 115-120 120-125 125-130 130-135 135-140 合计
x
i
组中值 xi
107.5 112.5 117.5 122.5 127.5 132.5 137.5
例题1:计算 M 0 和 M e
频率 向上累积 按零件数 频数 分组 (人) (%) 频数 频率
105-110 110-115 115-120 120-125 125-130 130-135 135-140
3 5 8 14 10 6 4 6 10 16 28 20 12 8 3 8 16 30 40 46 50 6 16 32 60 80 92 100
20550
12.42 6.60
82.2
调和平均数
各变量值的倒数的平均数。又称倒数平均 数。 n x 1 简单调和平均数
x
例题:书77页例3-2 加权调和平均数 x m m为权数 例题:见书78页例
m x
几何平均数
用于计算比率或速度的平均。 在计算社会经济现象时应用较多。 公式: N
3 方差和标准差
方差是一组数据中各数值与其算术平均 数离差平方的平均数,标准差是方差正 的平方根。
总体方差和样本方差的符号不同,计算公式也不一 样。 是反映定量数据离散程度的最常用的指标。
方差的计算公式
总体方差 样本方差
未分组 数据

2

i 1
N
( X i X )2 N
s
2
(x x)
f f 1 M0 L i ( f f 1 ) ( f f 1 )
2 中位数(Median)
一组数据按大小顺序排列后,处在数列中 点位置的数值。 特点:
对一组数据是唯一的。 不受极端值的影响。
根据原始数据计算中位数
n为奇数时等于第(n+1)/2个数。
i i 1
n
2
样本方差用(n-1)去除,从数学角度看是
因为它是总体方差σ2的无偏估计量。
n 1
k
分组数据
2

i 1
K
( X i X )2 fi
s2

i 1
( xi x ) 2 f i
k
f
i 1
K
i
f
i 1
i
1
标准差(例子)
某工会随机调查了5名工人上月的加班时间 如下表,平均加班时间为13小时。计算数 据的标准差。
集中趋势
集中趋势:一组数据向其中 心值靠拢的倾向和程度。 集中趋势测度:寻找数据水 平的代表值或中心值。
1 众数(Mode)
一组数据中出现次数最多的变量值。 主要特点:
不受极端值的影响。 有的数据无众数或有多个众数。
众数的不惟一性
无众数
众数
众数 1
众数2
众数(M0)
如何找出众数? 未分组数据:出现次数最多的变量值。 分组数据: 等距分组的众数计算公式
R=最大值-最小值 组距分组数据可根据最高组上限 -最低组下限计 算。 特点:受极端值的影响。
2,5,6,7,8,9,10,12,15,16,20
全距=?
2 平均差
总体各单位标志值与其均值的离差的绝对 值的算术平均数。 公式: xx
A.D. n

A.D.
xx f f
例题:见书91页例题3-12
13 15 12 19 18 5 10 6 12 12 9 7 15 17 13 11 7 7 12 12
该组数据算术平均数等于 (13+18+ … +12)/20=11.6(小时)。
加权算术平均数(例子)
在前面的例子中,假设我们只得到了分 人数 组中值 xf 组后的资料: 分组
5-10 10-15 15-20 合计 6 9 5 20 7.5 12.5 17.5 45 112.5 87.5 245
尖峰分布
1

偏态及其测定(Skewness)
数据分布的不对称性称作偏态。
偏态系数就是对数据分布的不对称性(即偏 斜程度)的测度。
偏态系数有多种计算方法,
( xi x)3 f i wenku.baidu.com
i 1 k
SK
ns3
偏态系数的含义
数据向左边 延伸得更多
左偏分布(也称负偏分布): 偏态系数 SK< 0;偏态系数的 绝对值越大,偏斜越严重
离散系数:
经理人员: 工人:
50000 v 100% 10% 500000
虽然经理人员收入的绝对离散程度远远大于工人,但经理 人员收入的相对离散程度小于工人。
5000 v 100% 15.625% 32000
3.3 分布偏态与峰度的测度
偏态 峰态
左偏分布
扁平分布
正态分布
右偏分布
该组数据算术平均数等于 245/20=12.25(小时)。
关于计算结果的说明
根据原始数据和分组资料计算的结果一般 不会完全相等,根据分组数据只能得到近 似结果。 只有各组数据在组内呈对称或均匀分布时, 根据分组资料的计算结果才会与原始数据 的计算结果一致。
算术平均数的性质
1、所有的定量数据都有算术平均数。 2、计算算术平均数时使用了所有数据。 3、各变量值与均值的离差之和等于零。
第三章 统计数据分布的特征
1、集中趋势分析 2、离中趋势分析 3、分布偏态与峰度的测度
数据描述的数值方法
数据描述的数值方法
集中趋势
均 值
离散程度
极差 四分位距
分布的形状
偏 态 峰 度
中位数 众 数
方差和标准差 离散系数
2.2 分布集中趋势的测度
众数 中位数 分位数 均值 几何平均数 切尾均值
xi
fi
4.8 22.4 34 25.6

fi
xi f i
180 2520 6374 6720
fi xi f i
0.72 10.08 25.50 26.88
30以下
30-60 60-90 90-120
105
120-150 150以上
合计
23 10
250
135 165
9.2 4
100
3105 1650