Xi 例题:见书79页 众数、中位数和算术平均数的关系 均值 <中位数 < 众数 均值 = 中位数 = 众数 众数 <中位数 < 均值 左偏分布 __ __ 对称分布 右偏分布 M0 Me x __ x Me M0 x Me M0 分配为钟形、轻微不对称的经验公式: 3 算术平均数(均值,Arithmetic Mean) 总体均值常用 X 或 表示。样本均值常 用 x 表示。样本均值的计算公式: 简单平均数: x __ x i 1 n i n 加权平均数(分组数据) : x x f i 1 k k i i f i 1 i 算术平均数(例子) 某企业的工会随机调查了20名工人2005 年6月加班的小时数,结果如下: 对称分布:偏态系数=0。 数据向右边 延伸得更多 右偏分布(也称正偏分布) : 偏态系数SK> 0;偏态系数的 绝对值越大,偏斜越严重。 2 峰度及峰度系数(Kurtosis) 峰度:数据分布的扁平或尖峰程度。 峰度系数:数据分布峰度的度量值,对数据分 布尖峰或扁平程度的测度,一般用K表示。 公式计算: 频数 f 3 5 8 14 10 6 4 50 xi f i 322.5 562.5 940.0 1715.0 1275.0 795.0 550.0 6160.0 例题2:某银行为250户企业贷款情况如下,计算平均每 个企业贷款额。 贷款额 (万元) 贷款户数 组中值 比重% fi 12 56 85 64 15 45 75 加班小时 数 13 18 12 15 7 合计 绝对离 差 0 5 1 2 6 14 离差平方 0 25 1 4 36 66 s 66 4.06 5 1 4 离散系数(Coefficient of Variation) 标准差与其相应的均值之比,表示为百分 数。 s V (总体) 或 v (样本) X x 向下累积 频数 50 47 42 34 20 10 4 频率 100 94 84 68 40 20 8 合计 50 100 例题2:某省某年电信职工收入调查资料如表。计算M 0和 M e 按月收入额分组 调查职工人数 向上累积次数 向下累积次数 1000以下 1000-1300 1300-1600 1600-1900 1900-2200 2200-2500 2500以上 合计 40 90 110 105 70 50 35 500 40 130 240 345 415 465 500 — 500 460 370 260 155 85 35 — M o M e 2( M e x ) __ M o 3M e 2 x __ 众数、中位数、均值的应用场合 众数、中位数均不受极值影响。 所以,对于偏态分布,代表性比均值好。 当数据呈对称分布或接近对称分布,选均 值。 当数据呈偏态分布,应选众数或中位数。 • 众数的实际应用 集市贸易的商品价格,选择最普遍成交价格 即可。 也是衡量品质数据位置的重要量度。如:下 表 矿泉水品牌 次数 特点: 反映了相对于均值的相对离散程度; 可用于比较计量单位不同的数据的离散程度; 计量单位相同时,如果两组数据的均值相差悬殊, 离散系数可能比标准差等绝对指标更有意义。 离散系数:例子 对30名经理人员的调查表明年平均收入=$500,000, 标准差 = $50,000。 对30名工人的调查表明平均收入= $32,000,标准 差 = $5,000。 ( xi x) 4 f i i 1 k K ns 4 3 峰度系数的含义 峰度系数K<0,与正 态分布相比该分布一 般为扁平、瘦尾,肩 部较胖。 扁平分布 均值和方差 相同的正态 分布 尖峰分布 峰度系数K>0,与正 态分布相比该分布一 般为尖峰、肥尾,肩 部较瘦。 九龙矿泉 南湖矿泉 17 20 大峡谷 农夫山泉 河源矿泉 5 60 25 2 分布离散程度的测度 反映各变量值远离其中心值的程度(离散 程度),从另一个侧面说明了集中趋势测 度值的代表程度。 常用指标: 全距(极差) 平均差 方差和标准差 离散系数 1 全距(Range) 全距也称极差,是一组数据的最大值与最 小值之差。 Me X ( N 1 ) 2 n为偶数时等于第n/2和n/2+1个数的平均值 1 Me X N X N ( 1) 2 (2) 2 1,2 ,5,9 ,11 中位数 =5 1,2 ,5 , 9,11,18 中位数=(5+9)/2=7 中位数(Me) 分组数据 N S m1 Me L 2 i fm ( x x ) 0 缺点: 易受极端值的影响。 张村有个张千万, 九个邻居穷光蛋; 统计平均算资产, 个个都是张百万。 例题1:计算 按零件数分组 105-110 110-115 115-120 120-125 125-130 130-135 135-140 合计 x i 组中值 xi 107.5 112.5 117.5 122.5 127.5 132.5 137.5 例题1:计算 M 0 和 M e 频率 向上累积 按零件数 频数 分组 (人) (%) 频数 频率 105-110 110-115 115-120 120-125 125-130 130-135 135-140 3 5 8 14 10 6 4 6 10 16 28 20 12 8 3 8 16 30 40 46 50 6 16 32 60 80 92 100 20550 12.42 6.60 82.2 调和平均数 各变量值的倒数的平均数。又称倒数平均 数。 n x 1 简单调和平均数 x 例题:书77页例3-2 加权调和平均数 x m m为权数 例题:见书78页例 m x 几何平均数 用于计算比率或速度的平均。 在计算社会经济现象时应用较多。 公式: N 3 方差和标准差 方差是一组数据中各数值与其算术平均 数离差平方的平均数,标准差是方差正 的平方根。 总体方差和样本方差的符号不同,计算公式也不一 样。 是反映定量数据离散程度的最常用的指标。 方差的计算公式 总体方差 样本方差 未分组 数据
2
i 1 N ( X i X )2 N s 2 (x x) f f 1 M0 L i ( f f 1 ) ( f f 1 ) 2 中位数(Median) 一组数据按大小顺序排列后,处在数列中 点位置的数值。 特点: 对一组数据是唯一的。 不受极端值的影响。 根据原始数据计算中位数 n为奇数时等于第(n+1)/2个数。 i i 1 n 2 样本方差用(n-1)去除,从数学角度看是 因为它是总体方差σ2的无偏估计量。 n 1 k 分组数据 2
i 1 K ( X i X )2 fi s2
i 1 ( xi x ) 2 f i k f i 1 K i f i 1 i 1 标准差(例子) 某工会随机调查了5名工人上月的加班时间 如下表,平均加班时间为13小时。计算数 据的标准差。 集中趋势 集中趋势:一组数据向其中 心值靠拢的倾向和程度。 集中趋势测度:寻找数据水 平的代表值或中心值。 1 众数(Mode) 一组数据中出现次数最多的变量值。 主要特点: 不受极端值的影响。 有的数据无众数或有多个众数。 众数的不惟一性 无众数 众数 众数 1 众数2 众数(M0) 如何找出众数? 未分组数据:出现次数最多的变量值。 分组数据: 等距分组的众数计算公式 R=最大值-最小值 组距分组数据可根据最高组上限 -最低组下限计 算。 特点:受极端值的影响。 2,5,6,7,8,9,10,12,15,16,20 全距=? 2 平均差 总体各单位标志值与其均值的离差的绝对 值的算术平均数。 公式: xx A.D. n