离中趋势测量法word版
- 格式:doc
- 大小:295.00 KB
- 文档页数:11
描述离中趋势的测定内容离中趋势是指一个数据集或样本中的数据点偏离中心或均值的趋势。
在统计学和机器学习中,离中趋势的测定是非常重要的,可以用于评估数据集中的数据分布、检测异常值、预测趋势等。
以下是几种常见的离中趋势测定方法:1. 中心度测定 (Centrality Determination):中心度是指一个数据点在网络中的重要性。
在社交网络分析中,中心度可以用于测定一个节点在网络中的中心地位。
在图论中,节点的中心度是指该节点在网络中的度数总和。
在统计学中,中心度可以用于测定数据的中心度。
2. 分布测定 (Distribution Determination):分布是指数据集或样本的分布情况。
在统计学中,分布测定可以用于评估数据的分布形状、对称程度、峰度等。
常用的分布测定方法包括正态分布测定 (Normal Distribution Determination)、偏态分布测定 (Unimodal Distribution Determination)、双态分布测定 (Bimodal Distribution Determination) 等。
3. 异常值检测 (Outlier Detection):异常值是指数据集或样本中偏离正常范围的数据点。
在统计学和机器学习中,异常值检测可以用于检测数据集中的异常值、预测趋势等。
常用的异常值检测方法包括离群值检测 (Outlier Detection)、异常点检测 (Outlier Detection)、离中趋势测定 (Centrality Determination) 等。
4. 趋势测定 (Trend Determination):趋势是指数据集或样本在一定时间内的变化趋势。
在统计学和机器学习中,趋势测定可以用于评估数据的变化情况、预测未来趋势等。
常用的趋势测定方法包括时间序列分析 (Time SeriesAnalysis)、回归分析 (Regression Analysis) 等。
离中趋势的测定
离中趋势是统计学中用于描述数据集中趋势的一种指标。
常见的离中趋势测定方法包括以下几种:
1. 平均值:计算数据集的算术平均值,即将所有数据相加后除以数据的个数。
2. 中位数:将数据集按照大小的顺序排列,然后找出中间位置的数值。
如果数据个数为奇数,则中位数是中间的数值;如果数据个数为偶数,则中位数是中间两个数值的平均值。
3. 四分位数:将数据集按照大小的顺序排列,然后将数据集分成四个等分,每个等分包含25%的数据。
第一个四分位数(Q1)是数据集的25%位置处的数值,第二个四分位数是数据集的50%位置处的数值(即中位数),第三个四分位数(Q3)是数据集的75%位置处的数值。
4. 极差:计算数据集的最大值与最小值之间的差值。
5. 方差:计算数据集中每个数据与平均值的差值的平方的平均值。
6. 标准差:方差的平方根。
这些测定方法可以帮助我们了解数据集的离散程度和分布情况,从而揭示出数据集的离中趋势。
选择合适的测定方法取决于数据集的特点以及我们希望得到的信息。
第五章 离中趋势测量法第一节 全距与四分位差 全矩与全矩的性质·四分位差第二节 平均差对于未分组资料·对于分组资料·平均差的性质 第三节 标准差对于未分组资料·对于分组资料·标准差的性质及方差·标准分(Z 分数) 第四节 相对离势变异系数(全矩系数·平均差系数·标准差系数)·异众比率一、填空1.对收集来的数据,数值最大者和最小者之差叫作( ),又称之为( )。
2.各变量值对其算术平均数(或中位数)离差绝对值的算术平均数,称之为( )。
3.全距由于没有度量( )之间的变异性,所以数据资料的利用率很低。
4.用绝对离势除以均值得到的相对指标,即为( )。
5.所谓( ),是指非众数的频数与总体单位数的比值。
6.偏斜系数是以标准差为单位的算术平均数与众数的离差,其取值一般在( )之间。
偏斜系数为0表示( ),偏斜系数为3+或3-则表示极右或极左偏态。
二、单项选择1.下面资料中哪个厂子的平均工资代表性意义最大( ),哪个厂子最小( )。
平均工资(元) 职工人数 工资标准差(元)A 甲厂 108 346 9.80B 乙厂 96 530 11.40C 丙厂 128 210 12.10D 丁厂 84 175 9.60 2.变异指标中,以两数之差为计算基准的是( )。
A 全距B 平均差C 标准差D 方差3.比较两个性质不同的变量数列的平均数的代表性大小,必须计算( )。
A 标准差B 平均差C 全距D 标准差系数4.设有甲乙两个变量数列,甲数列的平均数和标准差分别为20和2.5,乙数列的平均数和标准差分别为50和5.2 ,这些数据说明( )。
A 甲数列的稳定性高于乙数列B 甲数列的稳定性低于乙数列C 甲乙两数列的稳定性相同D 甲乙两数列的稳定性无法比较5.某企业1994年职工平均工资为5200元,标准差为110元,1998年职工平均工资增长了40%,标准差扩大到150元。
第三章集中趋势和离中趋势§2离中趋势的计量与集中趋势相反,离中趋势反映的是一组资料中各观测值之间的差异或离散程度。
如下如所示,三个不同的曲线表示三个不同的总体,其均值相同,但离中趋势不同。
一、区域/全距/范围(Range)全距又称极差,指一组资料中最大的数值与最小的数值之差。
R=最大值-最小值简单明了,但没有考虑中间值以及数据的分布情况。
二、平均差(A verage Deviation )1、一组数据值与其均值之差的绝对值的平均数称为平均差。
以A.D.表示,其计算公式为: nXX D A ni i ∑=-=1..平均差充分考虑了每一个数值离中的情况,完整地反映了全部数值的分散程度,在反映离中趋势方面比较灵敏,计算方法也比较简单。
它的缺陷在于,由于它的敏感性,使得它易受极端值影响,特别是绝对值运算给数学处理带来很多不便。
2、在ECXCEL 中计算平均差 函数A VEDEV三、四分位距 (Interquartile Range) Q = Q 3 - Q 1四、方差(V ariance )与标准差(Standard Deviation ) 方差与标准差是测度离中趋势的最重要、最常用的量。
1、总体方差是一组总体资料中各数值与其算术平均数离差平方和的平均数。
通常用2σ表示。
总体标准差则是总体方差的平方根,用σ表示。
nxni i∑=-=122)(μσ,nxni i∑=-=12)(μσ请注意:在这里,我们是用μ来表示总体均值的。
从方差与标准差的定义和计算公式,我们看到它与平均差同样,都是以离差来反映一组数据的差异程度的,所不同在于对离差的处理方式不同,方差和标准差是通过对离差进行平方来避免正负离差的互相抵消,这使得它不仅能够考虑所有数据的情况来可以反映数据离散程度的大小,而且避免了绝对值计算,使得数学上的处理更加方便,此外,方差在统计推断上具有较佳的统计与数学性质,这就使得方差成为最重要的离中趋势测度量。
第五章离中趋势测量法平均指标对总体的共性和一般水平作了概括,以此来说明总体标志值分布的集中趋势。
但是总体作为统计对象,还有其变异性的一面。
变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。
变异指标不仅可以综合地显示变量值的离中趋势,还可以用来判别平均数的代表性。
所谓离中趋势,是指数列中各变量值之间的差距和离散程度。
离势小,平均数的代表性高;离势大,平均数代表性低。
例如有A、B、C、D四组学生各5人的成绩如下:A组:60,60,60,60,60 B组:58,59,60,61,62C组:40,50,60,70,80 D组:80,80,80,80,80A组、B组、C组的平均成绩均为60分,D组的平均成绩为80分。
就平均数而言,A、B、C三组相同,D组的平均数高于前三组。
就离势而言,A,D两组一样,都为0;C组的离势最大,B组次之。
所以,平均数不同,离势可能相同;平均数相同.离势可能不同;平均数不同,当然离势也可能不同。
可见,要掌握总体资料中各标志值的离散、参差或分布情况,测定离中趋势也是必不可少的。
变异指标的种类较多,如按计算的基准来分有以下两类:(1)以两数之差来表达的有全距和四分位差等。
(2)以对平均数偏差来表达的有平均差、标准差等。
变异指标如按数量关系来分有以下两类;(1)凡用绝对数来表达的变异指标,统称绝对离势,主要有极差、平均差、四分位差、标准差等。
(2)凡用相对数来表达的变异指标,统称相对离势,主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。
第一节全距与四分位差关于变异指标,前面其实我们已有所接触,第三章讨论统计分组时谈到的全距便是。
全距是测定离中趋势最简单的一种指标。
它和四分位差一样,是以两数之差来表达的。
1.全距全矩是最大变量值与最小变量值之差,用R来表示。
对未分组资料,计算全距用原始式。
由于全距是一组数据中两个极端值之差,所以它又称极差。
R=X N—X1 (5.1)其中:X N是全部数据中最大的标志值,X1是最小的标志值。
[例5.1.1] 求74,84,69,91,87,74,69这些数字的全距。
[解] 把数字按顺序重新排列:69,69,74,74,84,87,91,显然有R =X N —X 1=91—69=22对于分组资料,在第三章我们已经知道,由于不能确知变量实际的最大值和最小值,因而求全距有以下三种方法:(1)用组值最大组的组中值减去组值最小组的组中值,此法求出的全距一般比实际上的全距要小些。
(2)用组值最大组的上限减去组值最小组的下限,此法求出的全距一般比实际上的全距要大些。
(3)用组值最大组的组中值减去组值最小组下限;或用组值最大组上限减去组值最小组的组中值。
此法求出的全距多接近于实际上的全距。
全距的最大优点是:计算简单,便于直观。
缺点是;①受极端值影响大,遇含开口组的资料时将无法计算;②由于没有量度中间各个单位间的差异性,所以数据利用率很低,信息丧失严重;③受抽样变动影响很大。
一般说来,大样本全距要比小样本全距大些,因为大样本有较多的机会包含最极端的变量值。
2.四分位差在第四章,我们已经了解了四分位数的计算。
它的一个用途就是,用第三四分位数和第一四分位数的半距作为测定离中趋势的一种变异指标,以避免全距测量离中趋势受极端值影响大这个缺点。
四分位差就是第三四分位数和第一四分位数的半距,用Q ·D 表示Q ·D =213Q Q - (5.2) 四分位差优点是避免了极端值变动的影响,但由于它仅以两数之差为基准,全距的另两个缺点依然无法避免。
第二节 平均差要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计算各变量值与算术平均数的离差。
但由于算术平均数的性质,各变量值与其算术平均数离差的代数和恒为零,所以用这个性质无法构造出能够测定离中趋势的变异指标。
为此,我们采取处理离差绝对值的办法,如此构造出来的变异指标,称为平均差,用A ·D 表示。
1.对于未分组资料平均差被定义为各变量值对其算术平均数(或中位数)离差绝对值的算术平均数。
对于未分组资料,求平均差用原始式,即A ·D =NX X ∑- (5.3)[例5.2.1] 试分别以算术平均数为基准,求85,69,69.74,87,91,74这些数字的平均差。
[解] 先用求平均指标的公式求出这些数字的算术平均数,得X = 78.4再利用表5.1,以算术平均数为基准求出A ·D =NX X ∑- =74.55 = 7.91 表5.12.对于分组资料对于分组资料,计算平均差需用加权式A ·D =∑∑-fXX f (5.4)[例5.2.2] 试以算术平均数为基准,求表3.10所示数据的平均差。
[解] 先算出算术平均数X =∑∑f fX =32119829=3.06(人) = 再利用表5.2算出A ·D =∑∑-fXX f =322738.2418 = 0.75(人)由此可见,2002年天津市家庭以户均人口3.06人为基准,家庭人口的平均差是0.75人。
表5.23.平均差的性质平均差以及接下来要讨论的标准差,虽都是变异指标,但就其计算的数学方法来看,仍属于算术平均数。
所以平均差在受抽样变动影响、受极端值影响和处理不确定组距这三方面,它的性质均同于算术平均数。
与此同时,平均差由于计算时采用了取绝对值来消除正负号的影响的方法,它不便于代数运算,而且平均差的意义在理论上也不容易作出阐述,所以平均差作为变异指标,其运用比下面的标准差要少得多。
另外,根据中位数的性质可知,各变量值对中位数之差的绝对值总和为最小。
因而,有时以中位数为基准来计算平均差反倒比以算术平均数为基准来计算平均差更合理。
第三节标准差为了克服平均差带有绝对值计算的缺点,同时保留平均差的优点(即它已将总体中各个单位标志值的差异全部包括在内),故将各离差平方后求算术平均,再求平方根,来构造变异指标,这样就得到一个常用的而且也是最重要的变异指标——标准差,用S表示。
1.对于未分组资科标准差被定义为各变量值对其算术平均数的离差平方的算术平均数的平方根,又称均方差。
对于末分组资料,求标准差用原始式,即S =()NXX∑-2(5.5)①①计算样本资料的标准差,应以(N―1)作为分母更合适,因为在通常的情况下,分母应为自由度数,在这里取N是近似,在N大的情况下没有多少差别。
这将在“参数估计”一章得到说明。
[例5.3.1] 求72、8l 、86、69、57这些数的标准差。
[解] 先求出算本平均数 X = NX ∑ = 5365 = 73.0再利用表5.3求出标准差S = ()NX X ∑-2=5506= 10.06 表5.3在大多数情况下,由于作为基准的X 不是简单的数值,所以求标难差用原始式(5.5)运算起来数字很繁,容易发生错误。
为此,我们可以利用标准差便于代数运算的特点,把(5.5)式变形为S = 22⎪⎪⎭⎫⎝⎛-∑∑N X N X (5.6)① [例5.3.2] 应用(5.6)式求上例的标准差。
[解]仍利用表5.3,各项数字已列于表中S = 22⎪⎪⎭⎫ ⎝⎛-∑∑N X N X = 25365527151⎪⎭⎫ ⎝⎛-= 10.06①证明:()NX X ∑-2=NXX X X∑∑∑+-222 =2222XX NX+-∑=22⎪⎪⎭⎫ ⎝⎛-∑∑N X NX2. 对于分组资料对分组资料,计算标准差要用加权式,即S =()NX X f ∑-2(5.7)①[例5.3.4] 求表3.12的标准差〔参见表5.4〕 [解] 先求出算术平均数 X =NfX∑=10017028= 170.28(厘米) 再利用(5.7)式求出标准差,各项数字已列于表5.4中S =()NX X f ∑-2=10016.5672= 7.53 (厘米)由此可见,100个男性青年的身高,以平均身高170.28厘米为基准,标准差是7.53厘米。
表5.4对于标准差的加权式,我们也可以通过代数运算,将(5.7)式变形为①(5.7)式可以写成 S =()∑-2XX PS = 22⎪⎪⎭⎫⎝⎛-∑∑N fX N fX (5.8)② [例5.3.5] 利用(5.8)式求上例的标准差〔参见表5.4〕。
[解] S =22⎪⎪⎭⎫⎝⎛-∑∑N fX NfX =2100170281002905200⎪⎭⎫ ⎝⎛-= 7.53 (厘米) 3. 标准差的性质标准差是测定总体各单位标志值的离散状况和差异程度的最佳指标,这是因为它在数学上便于代数运算,并且具有许多特有的性质:(1)以算术平均数为基准计算的标准差,较之以任何其他数值为基准计算的标准差要小。
这是因为算术平均数的“最小平方”性质:各变量值对算术平均数的离差的平方和,必定小于它们对任何其他数(X ’)偏差的平方和,即()NX X ∑-2≤()NX X ∑-2' (未加权式) (5.9a )或()NX X f ∑-2≤()NX X f ∑-2' (加权式) (5.9b )(2) 标准差同平均差一样,虽都是变异指标,但就其计算的数学方法来看,仍属于算术平均数。
因为它已将总体中各单位标志值的差异全部包括在内了,所以它受抽样变动的影响小。
但是,标准差在受极端值影响和处理不确定组距这两方面,缺点均与算术平均数相同。
值得注意的是,在推论统计中我们将发现,方差是比标准差更有理论价值的概念。
所谓方差,即标准差的平方,它直接写成S 2。
从第十章开始,我们将逐渐频繁地使用方差,但目前我们仍然集中讨论标准差。
这两个概念是很容易互换的,可以直接从一个转换到另一个。
4.标准分运用标准差.还可将原来不能直接比较的离差标准化,使之可以相加、相减、平均或者相互比较。
为此我们引入一个新的变量,用符号Z 表示,它被定义为变量X 的标准分Z =SXX - (5.10)②(5.8)式可以写成 S =∑∑-22)(PX PX由公式可以看到,Z分数是以离差与标准差的比值来测定变量X与X的相对位置的,它有三个特性:(1)对于给定资料,由于算术平均数和标准差都是确定值,所以Z是和X一一对应的变量;(2) Z分数没有单位,是一个不受原资料单位影响的相对数,因而也适用于不同单位资料的比较;(3) Z分数实际表达了变量值距算术平均数X有几个标准差。
比如Z=2,表示该变量值离X有2个S的距离;Z=1.3,表示变量值离X有1.3个S的距离。
因为Z分数和正态分布有密切关系,所以在第七章求Z分数的过程,也称为变量标准化的过程。
以后我们将看到,均值不同和方差不同的正态分布经Z 分数标准化后,成为标准正态分布,所以Z也有标准正态变量之称。