统计学第四章第三节
- 格式:doc
- 大小:82.09 KB
- 文档页数:9
第二节离散程度的测度10天道森供应公司克拉克批发公司5 0.54 0.49 10 11 工作日数 7 8 9 10 11 12 13 14 15 工作日数集中趋势只是数据分布的一个特征,数据的离中趋势是数据分布的另一个重要特征。
两者是反映总体数据分布特征的一对对立统一的代表值。
一、离散程度指标,又称标志变异指标,标志变动度。
(一)定义就是总体各项标志值差别大小的程度。
(二)应用1.主要是评价平均数代表性的依据。
平均数的代表性与标志变动度的数值成反比。
例如:有甲乙两组工人,人数都是5人。
每人每日产量:甲:5 20 45 85 95乙:48 49 50 51 52平均数 5095-59052-48 42.标志变动度可以用来反映社会生产和其他社会经济活动过程的均衡性或协调性。
标志变动度小,就说明生产或经济活动各阶段变动幅度小,是均衡的协调的,反之,就是不均衡,不协调的。
二、测量标志变动度的主要方法(一)异众比率——分类数据,顺序数据,数值型数据1 定义:异众比率,即非众数组的频数占总频数的比率。
2 公式:Vr=(∑fi —fm)/ ∑fi =1—fm/ ∑fi∑fi变量值的总频数,fm众数组的频数。
3作用:主要用于衡量众数对一组数据的代表程度。
异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;反之,异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。
4 适用范围:测定分类数据(也可以是顺序数据,数值型数据)的离散程度饮料品牌频数可口可乐 15旭日升 11百事可乐 9汇源果汁 6露露 9合计 50异众比率解:Vr=(∑fi —fm)/ ∑fi=1—fm/ ∑fi=(50—15)/50=35/50=0.7=70%(二)四分位差——顺序数据数值型数据1 定义:上四分位数和下四分位数之差。
2 公式: Qd=Qu—Ql3 作用:反映了中间50%数据的离散程度。
其数值越小,说明中间的数据越集中,数值越大,说明中间的数据越分散。
常常和中位数一起使用4特点:四分位差不受极值的影响。
例如:在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位为元),计算人均月收入的四分位差1500 750 780 1080 850 960 2000 1250 1630解:先按大小顺序排队750 780 850 960 1080 1250 1500 1630 2000QL位次(n+1)/4 =(9+1)/4=2.5QL=(780+850)/2=815(元)QU位次3(n+1)/4 =3(9+1)/4=7.5QU=(1500+1630)/2=1565(元)四分位差Qd=Qu—Ql=1565—815=750(元)(三)全距(极差)——数值型数据1 全距——是一个数列中两个极端数值之差。
(最大值-最小值)组距数列,以最大一组的上限和最小一组的下限之差为全距。
例如:甲:5 20 45 85 95乙:48 49 50 51 52甲组全距=95-5=90 乙组全距=52-48=4一般地说,全距数值愈小,标志变动度愈小,反映变量值愈集中,反之,越大。
2评价:意义明确,计算简单。
但不考虑中间变量,受极端值影响。
有时根本反映不出差异程度。
10 20 30 40 50 60 70 80 90 100 55 9010 50 50 50 50 60 60 60 60 100 55 90(四)平均差1定义:各标志值对其算数平均数的平均离差2公式(五)标准差1 定义各标志值对其算数平均数的平均离差2简单式(未分组资料)3加权式(分组资料)如果是样本资料,将来要推断总体的,方差及标准差的公式就是:分母用样本数据个数减1:n—1 ——n—1 称为自由度。
公式为:为什么样本方差是用自由度n—1去除?样本方差的表达式中的分子,为 n个量的平方和,为何自由度只有 n—1 、这是因为这n个离差并不能自由变化,而是受到一个约束,即离差之和等于零,这使它的自由度少了一个。
在样本方差公式中的分母上是n—1,就是因为当给定均值时,x1,x2,x3,------xn,这n个数据中前n—1个数据都可以自由取值,而第n个数据受全部数据的平均值的制约,不能自由取值。
第n个数据可以由公式∑xi求得。
因此,方差的自由度是n—1。
也可以这样理解:从字面意义上看,自由度是指一组数据中,可以自由取值的个数。
当样本数据的个数为n时,如果样本平均数确定后,只有n—1个数据可以自由取值,其中必有一个数据不能自由取值。
例如,假如样本有3个数值,X1=2,X2=4,X3=9,则平均数=5。
当平均数=5确定后,X1,X2,X3只有两个数据可以自由取值,其中必有一个不能自由取值。
例如X1=6,X2=7,那么X3则必然取2,而不能取其他值。
另一种解释:即共有n个样本,有n个自由度。
用样本方差估计总体方差,自由度本应为n,但总体均值也未知,用样本平均数去估计它,就用掉了了一个自由度,故,只剩下n—1个自由度。
(七)标准差系数厂名工人平均标准差标准差系数劳动生产率(元)甲 16000 600 3.75乙 8000 400 5.00(八)标准分数——每一个变量值相对位置的测度1. 标准分数——变量值与其平均数的离差除以标准差后的值。
又称z 分数,或标准化值。
设标准分数为zi,则有zi=(离差/标准差)z分数,zi可以被解释为xi偏离平均数,相当于标准差的个数。
如,z=2,表示变量值比平均数大2个标准差,如果等于-2,则表示变量值比平均数小2个标准差。
z分数大于0,是指那些数值大于平均数的观察值,z分数小于0,是指那些数值小于平均数的观察值,z分数等于0,是指那些数值等于平均数的观察值,任何观察值的z分数都可以解释为该观察值在数据集中相对位置的测度。
因此,如果位于两个不同数据集中的观察值的z分数相等,则可以说它们的相对位置相同,即偏离平均数的标准差的个数相同。
例如:已知下面样本的平均数为44,标准差是8。
班级的学生数xi 均值的离差 z分数46 2 0.2554 10 1.2542 -2 -0.25 46 20.25 32 -12 -1.5第5个观察值的z分数是-1.5,说明它是偏离平均数最远的一个样本,它比平均数低1.5个标准差。
(九)经验法则经验法表明,当一组数据对称分布时:约有68%的数据在平均数加减1个标准差的范围之内。
约有95%的数据在平均数加减2个标准差的范围之内。
约有99%的数据在平均数加减3个标准差的范围之内。
例如,液体清洁剂纸板箱在生产线上可以被自动装满。
填充的重量通常呈钟型分布。
如果填充重量的平均值是16盎司,标准差是0.25盎司,利用经验公式:大约68%的已填充纸板箱的重量在15.75-16.25之间大约95%的已填充纸板箱的重量在15.50-16.50之间大约99%的已填充纸板箱的重量在15.25-16.75之间可以看到,一组数据中低于或高于平均数3倍标准差之外的数值是很少的,也就是说,在平均数加减3个标准差的范围内几乎包含了全部数据,而在3个标准差之外的数据,在统计上也称为异常值或离群点。
(十)切比雪夫不等式对于任意分布形态的数据,根据切比雪夫不等式,至少有(1-1/z.z)的数据落在z个标准差之内。
其中z是大于1的任意值,但不一定是整数。
z=2,至少有75%的数据落在平均数加减2个标准差的范围之内z=3,至少有89%的数据落在平均数加减3个标准差的范围之内。
z=4,至少有94%的数据落在平均数加减4个标准差的范围之内例如,假设100个大学生数学课程的考试成绩的平均数是70分,标准差是5分。
那么有多少学生的考试成绩在60——80之间?又有多少学生的考试成绩在58——82之间?第二节偏态与峰态的度量偏度和峰度是从整个图形来刻画分布特征的。
一偏态及其测度(一)偏态即指数据分布的不对称性。
偏斜的程度测定——偏态系数1.未分组资料的偏态系数公式例如:某组工人生产产品日产量件数分别为48 49 50 51 52计算偏态系数。
平均数=∑x/n=(48+49+50+51+52)/5=50标准差=1.41 n=5生产件数离差离差平方离差立方48 -2 4 -849 -1 1 -150 0 0 051 1 1 152 2 4 8250 0 10 0sk=5×0/(5-1)(5-2) 1.41 ×1.41×1.41=0(正态分布)例如:某组工人生产产品日产量件数分别为5 20 45 85 95计算偏态系数。
平均数=∑x/n=50标准差=35.2 n=5生产件数离差离差平方离差立方5 -45 2025 -9112520 -30 900 -2700045 -5 25 -12585 35 1225 4287595 45 2025 91125250 0 6200 15750sk=5×15750 /(5-1)(5-2) ×35.2×35.2×35.2=78750/523370.5=5.296=0.15(有点正偏斜,右偏斜)偏态系数测度了数据分布的非对称程度。
如果一组数据的分布是对称的,则偏态系数等于0;如果偏态系数明显不同于0,表明分布是非对称的。
2 分组资料的偏态系数公式:它是离差三次方的平均数再除以标准差的三次方。
当对称分布时,离差三次方后正负离差可以相互抵消,因此,sk是分子等于0,sk也就等于0。
当分布不对称时,正负离差不能相互抵消,就形成了正或副的偏态系数。
当sk为正值时,表示正离差值较大,可以判断为正偏,或右偏。
Sk为负值时,表示负离差数值较大,可以判断为负偏或左偏。
Sk值越大,表示偏斜的程度越大。
例如:资料如下,计算偏斜系数月工资额(元)工人数(人)工资总额(元)离差离差平方离差立方离差立方乘次数500 30 15000 -180 32400600 50 30000 80 6400700 70 49000 20 400800 30 24000 120 14400900 20 18000 220 48400合计 200 136000 ——————平均数=13600/200=680(元)标准差=Sk=从计算结果可以看出,偏态系数为二峰态及其测度(一)峰态定义即数据分布的平峰或尖峰程度。
(二)峰态的测度—峰态系数1未分组资料的峰态系数K2公式:第四节平均指标的应用原则一、社会经济现象的同质性二、组平均数补充总平均数三、分配数列补充平均数。