统计学平均指标PPT精选文档
- 格式:ppt
- 大小:980.50 KB
- 文档页数:48
第一节平均指标对统计数据进行排序分组整理是对数据的分布特征进行描述的一个基本方面为进一步掌握数据分布特征及其变化规律以进行深入的分析还需找出反映数据分布特征的各个代表值统计学中刻划数据分布特征的的最主要的代表有二数据分布的集中趋势与数据分布的离散程度例美国一家具有福利院性质的医院Barnes Hospital 该项活动中每月都有数据统计及分析以用来进行该项活动的调整与实施如有一组关于病人进入救助活动的时间长度的数据67个样本时间长度从1天到185天除了对该组数据进行频数方面的描述和分析外下面的统计方法在描述数据分布特征及分析方面也很重要均值 mean 357天中位数 median 17天众数 Mode 1天Interpretation 1 the average time a patient stays in the Program is 357days or slightly over a month 2half of the patients are in the Program17 days or less and half are in the Program 17 days or more 3 many patientshave a short day in the Program 集中趋势是指一组数据向某一中心值靠拢的倾向测度集中趋势就是寻找数据一般水平的代表值或中心值一均值Mean 均值就是一组数据的平均值 average value 用来测度中心位置central location 基本形式是标志值总量单位数总量 1简单算术平均对样本其中n为样本数对总体其中N为总体单位数2加权算术平均其中为权数加权算术平均往往适用于对分组后的数据求均值这时Xi为各组变量代表值往往取组中值为各组变量值出现的频数例1一组大学班级人数规模的数据5个班如下465442463254 在未分组的情况下其均值为44 如果分成如下组别I32II42III4646IV54 则其均值为例2美国一个关于大学生毕业后工作起薪的问卷调查Table 1 MonthlyStarting Salaries for a Sample of 12 College Graduates GraduatesMonthly Graduates Monthly Graduates Monthly Salary Salary Salary 1 2350 52255 9 2440 2 2450 6 2210 10 2852 3 2550 7 2390 11 2428 4 2380 8 2630 12 2380 未分组时的算术平均值为2440 算术均值具有如下性质 1各变量值与其均值的离差和为零 2各变量值与其均值的离差平方和最小▲注意均值容易受到统计数据中个别极端数据的影响从而使均值代表某组统计数据的平均水平时失去意义这时往往用剔除极端值的方法加以修正如例2中如果将月薪2825的最高值用10000代替则均值为3038 2几何平均数 Geometric Mean 1 几何平均数是N个变量值乘积的N次方根上述班级人数规模例中几何平均数为4337 可看出几何平均数算术平均数 2 加权几何平均数其中为的权数几何平均数的对数是各变量值对数的算术平均几何平均主要用于计算比率或速度的平均例3某水泥生产企业1995年产水泥100万吨199619971998年的水泥产量分别上一年增长916与20则19961998年的年均增长率为例4银行为吸收存款逐年提高利率5年各年年利率分别为10%12%15%18%24%如果第1年存入1000元问5年后实际存款额达到多少元分别用单利率和复利率来算求出其对应的平均利率分析单利率5年后实际存款额 1000∑ 1000×年利率 1790元求平均利率可以用一未知数代替上式中的实际数据与原式是相等的即单利率时1000 ∑ 1000×年利率 1000∑ 1000×A得A ∑年利率5 可用简单算术平均数计算平均利率复利率5年后实际存款额 1年后10001000 ×10 1000 110 2年后1000 110 1000 110 ×12 1000 110 112 3年后4年后 5年后1000 110 112 115 118 124 207306元求平均利率可以用一未知数代替上式中的实际数据与原式是相等的即1000110 112 115 118 124 1000 1B 1B 1 B 1B1B 得可用几何平均数计算平均利率 3调和平均数 Harmonic Mean 调和平均数是各数据倒数的简单算术平均数的倒数 ]假设同一的个数有个且则上式可写成如下加权的形式例5某农贸市场某日鸡蛋价格及销售额资料如下表所示试求其鸡蛋的平均售价鸡蛋种类价格元KG销售额元 A 76 15200 B 80 8000 C 82 4100 不难求得鸡蛋的平均价格等于销售总额除以销售量二众数 Mode 众数是一组数据中出现次数最多的变量值在班级规模的例中众数为46 在大学毕业生工作起薪的例中众数为2380 在分组数据中众数可按下式计算下限公式式中为某数值出现次数频数最多的组第m组的频数与分别为第m-1组与m1组的频数 LU分别为第m组的下限与上限值 d为该组组距二众数 Mode 上限公式式中为某数值出现次数频数最多的组第m组的频数与分别为第m-1组与m1组的频数 LU分别为第m组的下限与上限值 d为该组组距 3对众数的几何解释 f fMo f Mo- f Mo-1 f Mo- f Mo1 0 LMo Mo UMo x 依据是众数与相邻的两个组的频数分布有直接关系在班级规模的例中若按例中给出的分组情况则该组数据的众数为或在学生英语成绩例中次数最多的组也在7080组中则有 1810 9 或▲注意 1如果某组统计数据中没有哪个数值出现较多的频率次数则可认为该组数无众数如果有多个数据出现的次数频率较多则认为有多个众数在有多个众数的情况下则对众数的关注度下降因为多众数对描述数据位置无多大帮助 2对描述品质数据的分布特征的位置测度只能用众数例如在前面购买五类不同品牌 Company Frequency 计算机的统计中得到如右表 Apple 13 所示的频数分布表显然众Compaq 12 数即个人购买最多的机算机Gateway2000 5 品牌是Apple在这类数据中 IBM 9 均值与中位数是没有任何 Packard Bell 11 意义的众数提供了频数最高的个人电脑购买品牌三中位数 Median 中位数是一组数据按大小排序后处于正中间位置上的变量值 1 对于未分组数据 1如果数据个数为奇数则中位数恰为处于中间位置的数班级规模例中按升序排出的5个统计数为 3242464654 则中位数为46 2如果数据个数为偶数则为中间位置两个数的平均数例大学毕业生起薪例中按升序排出的12个统计数为2210 2255 2350 2380 2380 23902420 2440 2450 2550 2630 2825 则中位数为▲注意由于均值容易受到统计数据中个别极端数据的影响从而使均值代表某组统计数据的平均水平时失去意义这时用中位数代替均值则更有意义如在大学生毕业工作起薪的例中如果原统计数中最高薪金由2825换为10000则得到平均薪金为3038的结论显然与其他11位均在2000多的薪水水平不符但这时若用中位数2405显然更具代表意义 2对于分组后的数据 1 单项式变量数列资料由于变量值已经序列化故可以采用下面的公式计算 2对于组距式数列首先需确定中位数所在的组然后可根据下列公式计算中位数有上限公式和下限公式下限公式式中m为中位数所在的组d为该组组距 L 为该组的下限值fm为该组的频数为该组以下各组的频数总和显然 2对于组距式数列上限公式式中m为中位数所在的组d为该组组距 U为该组的上限值 fm为该组的频数为该组以上各组的频数总和显然3对中位数的几何解释 S ∑f2 f Me S me- 1 0 L Me U x 假设在中位数组内的各单位是均匀分布的例6某班级英语考试成绩分组情况见下表成绩分组人数累计人数成绩分组人数累计人数分分50以下 2 2 7080 18 35 5060 57 8090 9 44 6070 10 17 90以上 650 从成绩由低往高排中位数所在组应在第4组即7080的组由于L 70U 80d 10而 2510 17 96 15 fm 18故或班级人数规模的例中按例中分组情况则中位数为或四中位数众数与算术平均数的关系 1如果数据具有单一众数且分布是对称的则众数中位数与均值相等即2对于非对称分布当分布左偏时说明存在极端小的值当分布右偏时说明存在极端大的值 3在偏斜度适度的情况下不论是左偏还是右偏中位数与算术平均数之差约等于众数与算术平均数之差的13即有如下经验公式众数中位数和均值的应用场合众数中位数和均值都是对数据集中趋势的测度 1均值由全部数据计算包含了全部数据的信息具有良好的数学性质当数据接近对称分布时具有较好的代表性但对于偏态分布其代表性较差 2中位数是一组数据中间位置上的代表值不受数据极端值的影响对于偏态分布的数据其代表性要比均值好 3众数是一组数据分布的峰值是一种位置的代表当数据的分布具有明显的集中趋势时尤其对于偏态分布众数的代表性比均值好 4对接近正态的分布数据常用均值描述数据的集中趋势对偏态分布常用众数或中位数描述数据的集中趋势 5均值只适用于定距或定比尺度的数据定序尺度数据可用中位数或众数进行描述而对定类尺度数据只能用众数进行描述五计算和应用平均数应该注意的主要问题一平均数必须用于同质总体二用组平均数补充说明总体平均数三用频数分布补充说明平均数四平均分析与具体分析相结合第四节变异指标一变异指标的概念和分类1概念对数据分布特征的另一个测度指标是数据分布离散程度它反映各数据远离其中心值的程度因此也称离中趋势集中趋势反映的是各变量值向其中心值聚集的程度离中趋势反映各变量值之间的差异状况注意集中趋势的测度值概括地反映了数据的一般水平它对该组数据的代表程度取决于该组数据的离散水平数据的离散程度越大集中趋势的测度值对该组数据的代表性就越差例7如果你是一家制造业公司的供应部门经理与两家原材料供应商联系供货两家供应商均表示能在大约10个工作日内供齐所需原材料几个月的运转之后你发现尽管两家供货商供货的平均时间都是大约10天但他们供货所需天数的分布情况却是不同的见下页图你认为两家供货商按时供货的可信度相同吗考虑它们直方图的差异你更愿意选择哪家供货商供货呢两家供货商供货图 2变异指标的作用 1用以反映社会经济现象变动的均匀性和稳定性程度 2用以说明平均指标的代表性程度 3可以研究总体标志值分布偏离正态的情况 3变异指标的分类 1标志变异指标 2分布变异指标二极差与分位差 Range and Percentile 1 极差是最简单的测度离中趋势分散程度的指标也称全距是一组数据最大值与最小值之差 RangeLargest Value - Smallest Value ▲注意 1极差易受极端值的影响2由于极差只利用了数据两端的信息没有反映中间数据的分散状况因而不能准确描述数据的分散程度例8 某班级甲乙两组同学成绩如下甲组6065727578 乙组5064707492 两组同学成绩平均成绩都为70分但甲组成绩的极差 R甲=78-60=18分乙组成绩的极差 R乙=92-50=42分对于组距分组数据极差可近似地表示为R 最高组上限 - 最低组下限例9某班级全体学生成绩如下班级学生成绩分布成绩分组中值学生数总成绩50-60 55 1 55 60-70 65 2130 70-80 75 8 600 80-90 85 24 2040 90-100 95 15 1425 - 50 4250 班级平均成绩x=4250/50=85分则极差100-50 50 2分位差 Percentile 是对极差指标的一种改进常见的有四分位差八分位差十六分位差以及百分位差以四分位差Quartiles为例四分位间距 QR=Q3 - Q1 四分位差QD=Q3 - Q1 /2 三平均差平均差是总体各单位标志值对算术平均数的绝对离差的算术平均数其计算公式为仍以前面例为例甲乙两班成绩平均差计算结果说明乙组离散程度比甲组离散程度大四方差Variance方差是各变量值与其均值离差deviation about the mean 平方的平均数一总体方差 Population Variance 二样本方差Sample Variance ▲注意 1相同点方差和平均差比较同样是根据所有的标志值计算离差程度并且都是以算术平均数为比较标准 2不同点方差不是以离差的绝对值而是以离差的平方计算平均数离差的平方不但可以消除离差正负差别而且强化了离差的信息使这个指标更灵敏在数学性质上有许多明显的优越性四标准差 Standard Deviation 方差的平方根正即为标准差在五个班级规模的例中如果视5个班为总体则标准差为715若视为样本则标准差为8 ▲注意 1由于方差计算中使用了平方运算因此方差的单位也是平方如上述班级规模例中方差为64 学生 2其具体意义不明确因此方差只有在比较不同组数据的离散程度时才有数量大小上的意义 2标准差是对方差的开方运算因此其单位与原始数据的单位一致它与均值及其他用同一单位测度的数据相比较也容易一些如标准差就是指数据离散程度的测度值距均值的距离▲方差的数学性质 1变量的方差等于变量平方的平均数减去变量平均数的平方五离散系数 Coefficient of Variation 离散系数定义为一组数据变异指标值与其均值的比也可分别称为极差系数平均差系数标准差系数最常用的是标准差系数是测度数据离散程度的相对指标例五个班级规模的例中若视为总体离散系数为71544 016 若视为样本则离散系数为844 0182 ▲注意 1对不同组数据其离散程度既受其数据本身的水平的影响也受数据计量单位的影响因此对不同性质组别的数据不好用离差或标准差来比较它们的离散程度 2由于离散系数消除了来自这两方面的影响因此可以用它进行不同数据组的比较例10某管理局抽查了其所属的8家企业其产品销售额与销售利润数据如下表所示试比较销售额与销售利润的离散程度企业编号销售额销售利润企业编号销售额销售利润万元万元万元万元 X1 X2 X1 X2 1 170 81 5 480 265 2 220 125 6 650 400 3 390 180 7 950 640 4 430 220 8 1000 690 计算结果表明产品销售额的离散程度小于销售利润的离散程度六总方差组间方差和组内方差之间关系总方差=组间方差与组内方差平均数之和举例给以解释假如某班级同学50名每月分别消费元 300340310500600计算50名同学之间差异也就是总的方差即为总方差如果把这50名按男女性别分为两组男组月消费额求得的方差即为组内方差乙组月消费额求得的方差即为组内方差男女两组之间求得的方差即为组间方差例11 某企业按两种标志进行分组得到下列表明工人按工龄和按完成生产定额的分组资料工龄5年以上工龄5年以下完成定额工人数完成定额工人数 80以下 10 90以下 5 80-90 15 90-10015 90-100 20 100-110 200100-105 100 110-120 80 105-110 45 120-130 40 110-120 15 130-150 20 120-130 5 150以上 20 数据分为两组工龄5年以上和工龄5年以下接上页题组间方差 308 组内方差平均数 1789 ≈总方差 2100 练习 1 某公司将其生产某产品的15个企业按产品平均单位成本高低分组资料如下平均单位成本企业数各组产量占元/件总产量的比重%10-12722 12-146 40 14-16 2 38 试计算这15个企业的平均单位成本练习2 下面分别记录5名田径队员跑步时间过200米线的时间 28 ″ 30 ″ 33 ″ 34 ″35 ″过1000米线的时间 3 ′12 ″3′30 ″ 3 ′ 48 ″ 4 ′00 ″ 4 ′ 30 ″教练认为200米的时间差异更小些请用标准差与标准差系数对上述时间的变异作出评价判断教练观点是否成立练习3 两种不同的水稻品种分别在5块田地上试种其产量如下甲品种乙品种田块面积产量田块面积产量亩公斤亩公斤1260015840 1149514770 1044512 540 09540 10 520 08 420 09 450 1分别计算两品种单位面积产量 2计算两品种亩产量的标准差 3假定生产条件相同确定哪一个品种具有较大的稳定性易于推广七分布偏态与峰度的测度分布变异指标偏态和峰度是对数据分布特征的进一步描述平均数与标准差相同的数据组其频数分配分布也可能不同如果频数分布是对称的则称为对称分布否则为偏态分布一偏态及其测度 Skewness 测定偏态比较严谨的方法主要有两种动差法和分位数法此外还有算术平均数与众数比较法 1算术平均数与众数比较法由于在完全对称的分布中算术平均数中位数众数是重合的而在非对称分布里三者是相互分离的其中算术平均数与众数分离两边中位数位于它们之间因而可用算术平均数与众数之间的距离作为测度偏态的一个尺度偏态算术平均数 - 众数这是偏态的绝对数它以原有数据的单位为单位同样地偏态绝对数不能用来比较不同数据组不同计量单位数据的偏态程度为了使不同数据组的偏态数值能相互比较需计算偏态的相对数 2分位数法以四分位数为例不同分布情形下诸四分位数之间的关系3动差法动差又称矩可用来说明数据频数分布的特征二峰度及其测度Kurtosis 峰度是频数分布另一重要特点其特点是某种频数分布的曲线与正态分布曲线相比是尖顶还是平顶其尖顶或平顶的程度如何峰度就是频数分布曲线顶端的尖峭程度峰度测度往往以中心4阶动差为基础进行将4阶动差的数值除以标准差的4次方化为相对数就是峰度的测度值即峰度系数经验表明上述峰度系数为3时恰为正态分布曲线因此当峰度系数 3时为平顶分布曲线当峰度系数 3时为尖顶分布曲线当峰度系数接近于18时则频数分布曲线趋向于一条水平线当峰度系数小于18时为U型曲线在上述班级规模的例子中以中心4阶动差矩计算的峰度系数值为注意 1在用动差法计算偏态系数与峰度系数时对所考察的对象按总体公式测度其方差与标准差 2偏度与峰度主要用于检查样本的分布是否正态来判断总体的分布是否接近于正态分布如果样本的偏度接近于0而峰度接近于3就可以推断总体的分布是接近于正态分布的第五节成数指标一成数指标的概念1成数2是非标志3成数指标设总体N个单位中有N1 单位具有某种性质有N0个单位不具有某种性质且N=N0 N1以P代表具有某种性质的成数以Q代表不具有某种性质的成数则PN1 N N-N0 N 1-N0 N 1-Q 二是非标志的量化三是非标志的平均数品质标志分布表品质标志标志值次数是 1 N1非0N0 合计-N 四是非标志的方差与标准差品质标志分布表品质标志标志值次数是 1N1 非0 N0 合计-N 例某市120万人口中的男女性别构成如下表性别标志标志值x 人数万人 f 男 1 66 女 0 54 合计- 120 由前面的公式可得注意 1是非标志的平均数为p 2是非标志的方差为pq或p 1-p q 1-q 3是非标志中pq 1 4是非标志的方差最大值为025 是非标志的标准差最大值为05 本章作业课本53-55页123456题本章作业 7某快餐店登记20顾客用餐一次时间分如下 20 15 24 28 7 25 5 6 10 12 1814 8 21 16 12 20 18 7 14 试根据以上资料计算算术平均数平均差标准差并做简单分析本章作业 8某企业两车间生产同种产品产量和成本资料如下表 1992年 1993年车间单位成本元产量吨单位成本元总成本万元甲600 1200 62093 乙 700 1800 667 1334 要求1分别计算1992年和1993年甲乙两车间平均单位成本 2分析该种产品甲乙两车间平均单位成本变动情况 9 某公司将其生产某产品的15个企业按产品平均单位成本高低分组资料如下平均单位成本企业数各组产量占元/件总产量的比重%10-127 22 12-146 40 14-16 2 38 试计算这15个企业的平均单位成本 10 下面分别记录5名田径队员跑步时间过200米线的时间 28 ″ 30 ″ 33 ″ 34 ″35 ″过1000米线的时间 3 ′12 ″3′30 ″ 3 ′ 48 ″ 4 ′00 ″ 4 ′ 30 ″教练认为200米的时间差异更小些请用标准差与标准差系数对上述时间的变异作出评价判断教练观点是否成立 11 两种不同的水稻品种分别在5块田地上试种其产量如下甲品种乙品种田块面积产量田块面积产量亩公斤亩公斤1260015840 11495 14770 1044512 540 09540 10 520 08 420 09 450 1分别计算两品种单位面积产量 2计算两品种亩产量的标准差 3假定生产条件相同确定哪一个品种具有较大的稳定性易于推广这可怎么做 2变量与其算术平均数计算的方差小与变量与任何其它常数计算的方差 3变量线性变换的方差等于变量方差乘以变量系数的平方设y abx 则 4n个独立总体各变量代数和的方差标准差等于小于各变量方差标准差的代数和排序分组整理表述统计数据寻找反映数据分布特征的代表值集中趋势离散趋势为了改善频临死亡的病人及其家庭的生活质量救助活动服务队医生家庭健康保健员社会工作者受训志愿者给予病人及家庭一些指导帮助减轻由于疾病分离等而引起的精神紧张 Mo-LMo UMo -Mo f Mo- f Mo-1 f Mo- f Mo1 ∑f2 -S me- 1 是L 至 Me之间的次数而 f Me是L至U之间的次数所以∑f2 -S me- 1 Me- L f Me U –L以下是附加文档,不需要的朋友下载后删除,谢谢班主任工作总结专题8篇第一篇:班主任工作总结小学班主任特别是一年级的班主任,是一个复合性角色。