统计学第四章
- 格式:doc
- 大小:173.00 KB
- 文档页数:9
第四章 差异量教学目的:1.理解全距、四分位距、百分位距、平均差、方差、标准差和差异系数等概念;2.掌握各种差异量指标的计算方法。
数据的分布特征不仅有集中趋势,还有离中趋势。
以动态的眼光,从不同的角度看,数据是向中间变动的,也是向两端变动的。
两组数据可能平均水平相同,但两组数据的分布特征并不完全相同。
【如】:比较下列两组数据 A 组:88、82、73、76、81 B 组:92、86、70、72、80两组平均数,80==B A X X 但R A =88-73=15,R B=92-70=22。
即A 组较集中,B 组较分散。
因此,我们描述一组数据的分布特征,既要描述其集中趋势,也要描述其离中趋势。
差异量:表示一组数据的离中趋势或变异程度的量称为差异量。
常用的差异量指标有全距、四分位距、百分位距、平均差、方差、标准差和差异系数。
第一节全距、四分位距、百分位距一、全距全距:是一组数距中最大值与最小值之差。
优点:意义明确,计算方便。
缺点:反应不灵敏,易受极端值影响。
二、四分位距(一)四分位距的的概念四分位距:是指一组按大小顺序排列的数据中间部位50%个频数距离的一半。
)(1.4213Q Q QD -=QD :表示四分位距; Q 3:表示第三四分位数;Q 1:表示第一四分位数。
所以:四分位距的公式又为:22575P P QD -=(二)四分位数的计算方法 1、原始数据计算法(1)将数据由小到大进行排列; (2)分别求出三位四分位数(点); (3)代入公式计算。
【例如】:有以下16个数据25、22、29、12、40、15、14、39、37、31、33、19、17、20、35、30,其中四分位距的计算方法如下:(1)先将原始数据从小到大排列好;12、14、15、17、*19、20、22、25、*29、30、31、33、*35、37、39、40Q 1=18 Md =27 Q 3=34(2)求出Q 1、Md 、Q 3;(3)将Q 1、Md 、Q 3的得数代入公式(4.1)。
第四章 推断统计概述第一部分 概率论基本知识← 一、概率的定义;二、概率的性质;三、概率的加法定理和乘法定理← 四、概率分布类型四、概率分布类型← 概率分布(probability distribution )是指对随机变量取不同值时的概率的描述,一般用概率分布函数进行描述。
← 依不同的标准,对概率分布可作不同的分类。
1、离散型分布与连续型分布← 依随机变量的类型,可将概率分布分为离散型概率分布与连续型概率分布。
← 教育统计学中最常用的离散型分布是二项分布,最常用的连续型分布是正态分布。
2、经验分布与理论分布← 依分布函数的来源,可将概率分布分为经验分布与理论分布。
← 经验分布(empirical distribution )是指根据观察或实验所获得的数据而编制的次数分布或相对频率分布。
← 理论分布(theoretical distribution )是按某种数学模型计算出的概率分布。
3、基本随机变量分布与抽样分布← 依所描述的数据的样本特性,可将概率分布分为基本随机变量分布与抽样分布(sampling distribution )。
← 基本随机变量分布是随机变量各种不同取值情况的概率分布,← 抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。
第二部分 几种常见的概率分布← 一、二项分布← 二项分布(binomial distribution )是一种具有广泛用途的离散型随机变量的概率分布,它是由贝努里创始的,因此又称为贝努里分布。
← 2.二项分布函数← 二项分布是一种离散型随机变量的概率分布。
← 用 n 次方的二项展开式来表达在 n 次二项试验中成功事件出现的不同次数(X =0,1…,n )的概率分布,叫做二项分布函数。
← 二项展开式的通式(即二项分布函数):← ←← ← ←← 成功概率 p ;样本容量 n← 在成功概率为p 的总体中随机抽样,抽取样本容量为n 的样本中,有X 次为成()011111100q p C q p C q p C q p C q p n n n n n n n n n n n ++++=+---Λ()Xn X X n X q p C P -⋅⋅=()X n X q p X n X n -⋅-=!!!功的概率: ←(X =0,1…,n ) ←称X 服从参数为n ,p 的二项分布,记为: ←X ~B(n ,p ) 其中,0<p<1 ←二项分布的性质 ←二项分布有如下性质: ←①当p=q 时,图形是对称的。
第四章 差异量教学目的:1、理解全距、四分位距、百分位距、平均差、方差、标准差与差异系数等概念;2、掌握各种差异量指标的计算方法。
数据的分布特征不仅有集中趋势,还有离中趋势。
以动态的眼光,从不同的角度瞧,数据就是向中间变动的,也就是向两端变动的。
两组数据可能平均水平相同,但两组数据的分布特征并不完全相同。
【如】:比较下列两组数据 A 组:88、82、73、76、81 B 组:92、86、70、72、80两组平均数,80==B A X X 但R A =88-73=15,R B=92-70=22。
即A 组较集中,B 组较分散。
因此,我们描述一组数据的分布特征,既要描述其集中趋势,也要描述其离中趋势。
差异量:表示一组数据的离中趋势或变异程度的量称为差异量。
常用的差异量指标有全距、四分位距、百分位距、平均差、方差、标准差与差异系数。
第一节全距、四分位距、百分位距一、全距全距:就是一组数距中最大值与最小值之差。
优点:意义明确,计算方便。
缺点:反应不灵敏,易受极端值影响。
二、四分位距(一)四分位距的的概念四分位距:就是指一组按大小顺序排列的数据中间部位50%个频数距离的一半。
)(1.4213Q Q QD -=QD :表示四分位距; Q 3:表示第三四分位数; Q 1:表示第一四分位数。
所以:四分位距的公式又为:22575P P QD -=(二)四分位数的计算方法 1、原始数据计算法 (1)将数据由小到大进行排列; (2)分别求出三位四分位数(点); (3)代入公式计算。
【例如】:有以下16个数据25、22、29、12、40、15、14、39、37、31、33、19、17、20、35、30,其中四分位距的计算方法如下:(1)先将原始数据从小到大排列好;12、14、15、17、*19、20、22、25、*29、30、31、33、*35、37、39、40 Q 1=18 Md =27 Q 3=34(2)求出Q 1、Md 、Q 3;(3)将Q 1、Md 、Q 3的得数代入公式(4、1)。
821834=-=DQ 2、频数分布表计算法 利用频数分布表计算公式为:)(2.422575P P QD -=关键就是分别计算P 75与P 25,百分位数计算方法掌握了,这里的计算就不会有什么问题。
(三)优缺点优点:意义明确,不受极端值影响。
缺点:反应不灵敏。
三、百分位距百分位距:就是指两个百分位数之差。
常用的百分位距有两种:P 90-P 10与P 93-P 7 优点:意义明确,不受极值影响。
缺点:反映不灵敏。
第二节 平均差一、平均差的概念平均差:就是指每个数据与本组数据的平均数(或中位数)之差的绝对值的算术平均数(用MD 表示)。
二、平均差的计算方法1、原始数据计算法 公式为:)(||||3.4⎪⎪⎭⎪⎪⎬⎫-=-=∑∑N Md X MD NX X MD 或【如】:求88、82、73、76、81的平均差。
4.45808180768073808280888058176738288|)||||||||(|||)(=÷-+-+-+-+-=∑-=∴=÷++++=∑=NX X MD NXX:解 2、频数分布表计算法 公式为:.)(||4.4为各组组中值:c cX NX Xf MD ∑-=【例】:求表4、1中30数据的平均差。
表4、130个分数的频数分布表分数 60— 70- 80- 90- 频数 5 12 10 3 组中值657585957.7830953851075126551=⨯+⨯+⨯+⨯=∑=N fX X c )(解:5.7307.789537.7885107.7875127.78655)2(|)|||||||(||=÷-⨯+⨯+-⨯+-⨯=∑-=-NX X f MD c 三、平均差的优缺点优点:意义明确,反应灵敏。
缺点:不适合代数运算。
第三节方差与标准差一、方差与标准差的概念1、方差:就是一组数据离差平方的算术平均数(用2x σ表示)。
定义公式为:)()(5.422NX X x ∑-=σ。
:;:为离差平方和为离差2)(∑--X X X X2、方差的方根即标准差)()(6.42NX X x ∑-=σ例:求72,78,80,86的方差与标准差 解:(1)求算术平均数79486807872=+++==∑NX X(2)求方差254)7986()7980()7978()7972()(222222=-+-+-+-=-=∑NX X xσ(3)求标准差5252===x x σσ※:标准差的值越大,说明数据越分散。
二、方差与标准差的计算方法 1、原始数据计算法)()(.)(222222222222NXX NX N X N X N X X N X NX N X X N X NXX X X N X X x ∑=∑-∑=-∑==∑+⋅-∑=∑∑∑+⋅-=∑-=ΘΘ)(σ所以得:)()()()(8.47.422222NX N X NX N X x x∑-∑=∑-∑=σσ【例】:计算80、78、84、80、72的方差与标准差。
解:9.336.1536.15572808478802722802842782802222])[(5)(===÷-=∑-∑=-+++++++x xN X N X σσ)(2、频数分布表计算法 公式为:)()()()(10.49.422222NfX N fX N fX N fX c cx c c x∑-∑=∑-∑=σσ。
:;:;:;:个数据的和为个数据的平方和为为组频数为组中值f fX f fX f X c cc 2例题:参瞧教材48。
三、方差与标准差的优缺点:优点:严密确定,反映灵敏,适合代数运算。
缺点:不太容易理解,易受两极端值影响。
第四节相对差异量一、相对差异量的概念平均差、方差、标准差等都带有单位,就是绝对差异量。
常常不能对不同组的数据差异直接比较。
差异系数:也叫相对差异量,就是指同一组数据的标准差与算术平均数的百分比(用CV 表示)。
公式为:)(11.4%100⨯=XCV xσCV 值越大,表明数据离散程度越大。
二、差异系数的用途1、比较不同单位资料的差异程度。
【例题】:某班学生的平均身高为152cm,标准差为5、1cm;平均体重为47公斤,标准差为3、2公斤,问该班学生身高变异大还就是体重变异大?解:%36.3%1001521.5%100=⨯=⨯=XCV xσ:身高%8.6%100472.3%100=⨯=⨯=XCV xσ:体重得:该班学生体重变异大。
2、比较单位相同平均数差异较大的两组资料的差程度。
【如】:某班语文测验平均分为86、5分,标准差为5、5分;英语平均分为71分,标准差为5分,则:%04.7%100715%36.6%1005.865.5=⨯==⨯=CVCV 英语:语文:所以,英语成绩的变异大。
3、可判断特殊情况:一般CV 值在5%~35%之间。
,性差;即对各个数据的代表,的计算可能有误或时当可能失去意义时当x X CVX CV σ535<>第五节 偏态量与峰态量偏态量与峰态量:就是判断频数分布就是否为正态分布的统计量,就是一种粗略指标。
正态性检验常用2χ检验。
一、偏态量偏态量有两种计算方法 1、皮尔逊指数法)()()()(13.432312.40xxxMd X X Md X SK M X SK σσσ-=--=-=或当SK =0则分布就是对称形;当SK>0时,分布为正偏;当SK < 0时,分布为负偏。
【例】:某校200名学生的英语平均分为80分,中位数为82分,标差为8分,其偏态度为:解:。
分布为负偏态该校学生的英语分数的)(∴<-=-=-⨯=-=,0)(75.075.08828033SK Md X SK xΘσ2、根据动差来计算动差:就是指力与力距的乘积(力学中的概念)。
)()()()(15.414.4333333xcxNX Xf NX X σασα∑∑-=-=当3α=0时,分布对称;当3α>0时,分布就是正偏态;当3α<0时,分布就是负偏态。
计算3α时,N 应大于200、例题:参瞧教材57页。
二、峰态量峰态量:就是用于说明分布曲线高狭与低阔程度的量。
1、用两个百分位距来计算)()(216.410902575P P P P K u --=当Ku =0、263时,分布就是正态峰;当Ku <0、263时,分布为高狭峰;当Ku >0、263时,分布低阔。
表4、1 小学二年级80个学生身高的四分位距计算表【例题】:根据表4、1数据将计算出的P 75=132、84,P 25=126、40,P 90=135、75,P 10=122、5代入 公式(4、17),则峰态量为:。
,则分布为高狭峰由于263.0243.0243.0)50.12270.135(240.12684.132<=--==u u K K2、根据动差来计算)(3][)(3][18.417.4444444-÷-=-÷-=∑∑x cx NX Xf NX X σασα)()(当α4=0时,分布就是正态峰;当α4>0时,分布就是高狭峰;当α4<0时,分布就是低阔峰。
计算α4时,N 应大于1000,峰态系数方比较可靠。
表4、4 以平均数为原点四种动差的计算表【例题】:表4、4,10个数据的标准差为:。
,个数据的分布呈低阔峰表明由于-,则峰态系数为:,将数据代入公式1056.1392.1010/15.204552)17.4(92.100444<==-=αασx。