统计学 第3章 数据分布特征描述
- 格式:ppt
- 大小:1.10 MB
- 文档页数:82
第三章数据分布特征的描述一、填空题3.1.1 是指一组数据向其中心值靠拢的倾向。
3.1.2 加权算术平均数受两个重要因素的影响,一个是;另一个是各组变量值出现的。
3.1.3 计算比率的平均数时,如果已知比率及其基本计算式的分母资料,则采用。
3.1.4 计算比率的平均数时,如果已知比率及其基本计算式的分子资料,则采用。
3.1.5 是计算平均比率或平均发展速度最适用的一种方法。
3.1.6 是指一组数据中出现次数最多的变量值。
3.1.7 是指将按大小顺序排列的一组数据划分为四等分的三个变量值。
3.1.8 是指将按大小顺序排列的一组数据划分为10等分的9个变量值。
3.1.9 在数据分布呈时,算术平均数、众数和中位数三者相等。
3.1.10 是指非众数组的频数占总频数的比率。
3.1.11 上四分位数与下四分位数之差的简单算术平均数称为。
3.1.12 各个变量值与其算术平均数离差的绝对值的平均数称为。
3.1.13 总体方差是各个数据与其的离差平方的平均数,通常以2 表示。
3.1.14 皮尔逊测度法就是利用算术平均数与众数的关系来测度数据分布的一种方法。
3.1.15 是指用标准差的三次方除三阶中心矩计算偏态系数的一种方法。
二、单项选择题(在每小题的3个备选答案中选出1个正确答案,并将其字母填在题干后面的括号内。
)3.2.1 先将一组数据的变量值按一定顺序排列,然后取某一位置的变量值来反映这些数据的一般水平,把这个特殊位置上的数值看作是平均数,称为 ( )A .数值平均数B .位置平均数C .离散系数 3.2.2算术平均数反映的是数据分布的什么特征( )A .集中趋势B .离散趋势C .偏态趋势3.2.3 根据算术平均数的性质,下列表达式正确的是 ( )A .0)(=∑-f x xB .0x x f C .2()0x x f3.2.4 如果分布数列中各变量值呈几何级数变化或频率分布极不对称,计算平均数的常用方法是( )A .算术平均法B .几何平均法C .调和平均法3.2.5 用各组的组中值代表其实际数据计算算术平均数时,通常假定 ( )A .各组数据在组内是均匀分布的B .各组次数相等C .各组数据之间没有差异3.2.6 当数据分布为右偏分布时,算术平均数与中位数、众数的关系表现为 ( ) A .o e M M x << B .e o x M M << C .o e x M M <<3.2.7 离散程度测度指标中,受极端值影响最大的是 ( )A .平均差B .标准差C .全距3.2.8 平均差与标准差的主要区别在于 ( ) A .说明问题的角度不同 B .对离差的数学处理方法不同 C .计算对象不同 3.2.9标准差系数消除了( )A .总体单位数多少的影响B .平均数大小和计量单位的影响C .离散程度的影响3.2.10 直接使用标准差比较分析两个同类总体平均数的代表性,其前提条件是 ( )A.两个总体的标准差应该相等B.两个总体的平均数应该相等C.两个总体的离差平方和应该相等3.2.11 下列指标中,实际应用最广泛的离散程度测度指标是()A.平均差B.标准差C.离散系数3.2.12 皮尔逊测度法就是利用算术平均数与众数的关系来测度数据分布的()A.偏斜程度B.离散程度C.集中程度三、多项选择题(在下列4个备选答案中,至少有二个是正确的,请将其全部选出,并把字母填在题干后面的括号内。
习题及参考答案第三章数据分布特征的描述⼀、单项选择题 1、经验表明,当数据分布近似于正态分布时,则有95%的数据位于区间() A 、σ±X B 、σ2X ± C 、σ3X ± D 、σ4X ± 2、实际中应⽤最⼴泛的离散程度测度值是()A 、极差和平均差B 、平均差和四分位差C 、⽅差和标准差D 、异众⽐率和四分位差3、集中趋势的测度值中,最主要的是()A 、众数B 、中位数C 、均值D 、⼏何平均数4、有10个数据,它们对数据6的离差分别为:-3,-2,-2,-2,0,0,4,4,5,5。
由此可知这10个数据的()A 、均值为0B 、均值为1 B 、均值为6C 、均值为5、某⽣产⼩组由36名⼯⼈,每⼈⽣产的产量数量相同,其中有14⼈⽣产每件产品耗时8分钟;16⼈⽣产每件产品耗时10分钟;6⼈⽣产每件产品耗时5分钟,计算该⽣产⼩组⽣产每件产品的平均耗时应采⽤()A 、简单算术均值B 、简单调和算术均值C 、加权算术均值 D.、加权调和均值6、某敬⽼院⾥有9位百岁⽼⼈的岁数分别为101、102、103、104、108、102、105、110、102 ,据此计算的结果是()A 、均值=中位数=众数B 、均值>中位数>众数C 、众数>中位数>均值D 、中位数>均值>中数 7、⼏何均值主要适合于()A 、具有等差关系的数列B 、变量值为偶数的数列C 、变量值的连乘积等于总⽐率或总速度的数列D 、变量值之和等于总⽐率或总速度的数列 8、加权算术均值不但受变量值⼤⼩的影响,也受变量之出现的次数多少的影响,因此下列情况中对均值不发⽣影响的是()A 、变量值出现次数相等时B 、变量值较⼩、次数较多时C 、变量值较⼤、次数较少时D 、变量值较⼤、次数较多时9、⼀组数据的均值为350,众数为200,则()A 、中位数为275,数据呈右偏分布B 、中位数为275,数据呈左偏分布C 、中位数为300,数据呈左偏分布D 、中位数为300,数据呈右偏分布10、⼀组数据的均值为5,中位数为3,则()A 、数据呈右偏分布B 、数据呈对称分布C 、数据呈左偏分布D 、数据呈正态分布11、经验表明,当数据分布近似于正态分布时,则变量值落在区间σ±X 的概率为()A、95%B、68%C、%D、%12、当众数(Mo)中位数(Me)和均值(X)三者的关系表现为:Mo=Me=X,则()A、数据有极⼩值B、数具有极⼤值C、数据是对称分布D、数据是左偏分布E、数据右偏分布13、在单项式数列中,假定标志值所对应的权数都缩⼩1/10,则算术平均数()A、不变B、⽆法判断C、缩⼩1/100D、扩⼤10倍14、若单项式数列的所有标志值都减少⼀倍,⽽权数都增加⼀倍,则其算术平均数()A、增加⼀倍B、减少⼀倍C、不变D、⽆法判断15、各变量值与其算术平均数的离差之和()A、等于各变量值之和的平均数B、等于最⼤值C、等于零D、等于最⼩值16、各变量值与其算术平均数的离差平⽅之和()A、等于各变量值之和的平均数B、等于最⼤值C、等于零D、等于最⼩值⼆、多项选择题1、当众数(Mo)、中位数(Me)和均值(X)三者的关系表现为:X<Me<Mo,则()A、数据是左偏分布B、数据是右偏分布C、数据是对称分布D、数据存在极⼩值E、数据存在极⼤值2、当众数(Mo)、中位数(Me)和均值(X)三者的关系表现为:Mo<Me<X,则()A、数据是右偏分布B、数据是对称分布C、数据是左偏分布D、数据有极⼤值E、数据有极⼩值3、数据分布的两个重要特征是()A、正态分布B、集中趋势C、t分布D、 2分布E、离散程度4、利⽤组距分组数据计算众数时,有⼀些基本假定,即()A、假定数据分布具有明显的离中趋势B、既定数据分布具有明显的集中趋势C、假定众数组的频数在该组内是正态分布D、假定众数组的频数在该组内是均匀分布E、假定众数组的频数在该组内是⼆项分布5、众数()A、是⼀组数据分布的最⾼峰点所对应的数值B、可以不存在C、也可以有多个D、是位置代表值E、不受数据中极端值的影响。
第三章数据分布特征的统计描述练习题一、单项选择题1、一组数据排序后处于25%和75%位置上的值称为()A、众数B、中位数C、四分位数D、均值2、离散系数的主要用途是()A、反映一组数据的离散程度B、反映一组数据的平均水平C、比较多组数据的离散程度D、比较多组数据的平均水平3、离散系数()A、只能消除一组数据的水平对标准差的影响B、只能消除一组数据的计量单位对标准差的影响C、可以同时消除数据的水平和计量单位对标准差的影响D、可以准确反映一组数据的离散程度4、峰态通常是与标准正态分布相比较而言的,如果一组数据服从标准正态分布,则峰态系数的值()A、等于0B、大于0C、小于0D、等于15、如果峰态系数K>0,表明该组数据是()A、尖峰分布B、扁平分布C、左偏分布D、右偏分布6、某大学经济管理学院有1200名学生,法学院有800名学生,医学院有320名学生,理学院有200名学生。
在上面的描述中,众数是()A、1200B、经济管理学院C、200D、理学院7、某居民小区准备采取一项新的物业管理措施,为此,随机抽取了100户居民进行调查,其中表示赞成的有69户,表示中立的有22户,表示反对的有9户,描述该组数据的集中趋势宜采用()A、众数B、中位数C、四分位数D、均值8、甲、乙两组工人的平均日产量分别为18件和15件。
若甲、乙两组工人的平均日产量不变,但是甲组工人数占两组工人总数的比重下降,则两组工人总平均日产量()A、上升B、下降C、不变D、可能上升,也可能下降9、权数对平均数的影响作用取决于()。
在统计计算中,用来衡量总体中各单位标志值在总体中作用大小的数值叫权数。
A、各组标志值的大小B、各组的次数多少C、各组次数在总体单位总量中的比重D、总体单位总量10、当各个变量值的频数相等时,该变量的()A、众数不存在B、众数等于均值C、众数等于中位数D、众数等于最大的数据值11、有8名研究生的年龄分别为21,24,28,22,26,24,22,20岁,则他们的年龄中位数为()A、24B、23C、22D、2112、下列数列平均数都是50,在平均数附近离散程度最小的数列是()A、0 20 40 50 60 80 100B、0 48 49 50 51 52 100C、0 1 2 50 98 99 100D、0 47 49 50 51 53 10013、如果你的业务是提供足球运动鞋的号码,那么,哪一种平均指标对你更有用?()A、算术平均数B、几何平均数C、中位数D、众数14、假定某人6个月的收入分别是1800元,1840元,1840元,1840元,1840元,8800元,反映其月收入一般水平应该采用()A、算术平均数B、几何平均数C、众数D、调和平均数15、某组数据分布的偏度系数为正时,该数据的众数、中位数、均值的大小关系是()A、众数>中位数>均值B、均值>中位数>众数C、中位数>众数>均值D、中位数>均值>众数二、填空题1、某班的经济学成绩如下表所示:43 55 56 56 59 60 67 69 73 75 77 77 78 79 80 81 82 83 83 83 84 86 87 88 88 89 90 90 95 97该班经济学成绩的平均数为,众数为,中位数为,上四分位数为,下四分位数为,四分位差为,离散系数为。
第3章统计学数据分布特征的描述统计学是一门研究收集、分析和解释数据的学科。
在统计学中,数据分布特征的描述是指通过一系列统计量和图表来描述数据的集中趋势、离散程度和分布形态等特征。
数据的集中趋势描述了数据的平均水平或中心。
常用的统计量有平均值、中位数和众数。
平均值是将所有观测值相加然后除以观测值的总数,它能够反映数据的总体平均水平。
然而,当数据包含异常值时,平均值的计算结果可能会受到影响。
因此,中位数和众数在这种情况下被认为是更稳健的集中趋势度量。
中位数是将数据按大小排序,然后找出中间位置的观测值。
众数是数据中出现次数最多的观测值。
数据的离散程度描述了数据的变异程度或分散程度。
常用的统计量有方差、标准差和四分位差。
方差是观测值与均值之间差异的平方的平均值,它反映了数据的总体离散程度。
标准差是方差的平方根,用于衡量数据的波动性。
四分位差是数据的上四分位数和下四分位数之差,它描述了数据的中间50%的变异程度。
数据的分布形态描述了数据的形状和对称性。
常用的分布形态有正态分布、偏态分布和峰态分布。
正态分布是最常见的分布形态,其特点是对称、钟形曲线。
偏态分布是指数据分布不对称的情况,主要分为正偏态和负偏态。
正偏态分布意味着数据的尾部偏向右侧,负偏态分布则意味着数据的尾部偏向左侧。
峰态分布用于描述数据的峰值的尖锐程度,主要分为正态分布、高峰态和低峰态。
除了统计量,还可以使用图表来对数据分布特征进行描述。
常用的图表包括直方图、箱线图和散点图。
直方图是通过将数据分组并在坐标轴上绘制各组的频率或相对频率来展示数据的分布形态。
箱线图通过绘制数据的分位数和异常值来展示数据的中位数、四分位数和离群观测值。
散点图用于展示两个变量之间的关系,特别适用于发现变量之间的相关性和异常值。
综上所述,统计学中的数据分布特征描述是通过一系列统计量和图表来描述数据的集中趋势、离散程度和分布形态等特征。
这些描述能够帮助我们更好地理解数据,并对数据进行分析和解释。
第三章数据分布特征的描述一、单选题1. 如果所掌握到的只是各单位的标志值(变量值),这时计算算术平均数()。
A 应用简单算术平均数B应用加权算术平均数C用哪一种方法无法判断D这种资料不能计算算术平均数2. 加权算术平均数受什么因素的影响()。
A 只受各组变量值大小的影响B只受各组次数多少的影响C同时受以上两种因素的影响D无法做出判断3. 权数本身对加权算术平均数的影响决定于()。
A 权数所在组标志值的大小B权数绝对数值的大小C各组单位数占总体单位数比重的大小D总体单位数的多少4. 标志值的次数多少,对于算术平均数的影响有权衡轻重的作用。
若把标志值的次数都缩小为原来的十分之一,则算术平均数的值为()。
A 也缩小为原来的十分之一B保持不变C扩大为原来的十倍D无法判断5. 如果被平均的每一个标志值都增加5个单位,则算术平均数的数值()。
A 也增加5个单位B只有简单算术平均数是增加5个单位C减少5个单位D保持不变6. 设某企业在基期老职工占60%,而在报告期准备招收一批青年工人,估计新职工所占的比重将比原来增加20%。
假定老职工和新职工的工资水平不变,则全厂职工的总平均工资将如何变化()。
A 提高B降低C不变D无法判断7. 设有8个工人生产某种产品,他们的日产量(件)按顺序排列是:4、6、6、8、9、12、14、15,则日产量的中位数是()。
A 4.5B8和9 C8.5 D没有中位数8. 在下列哪种情况下, 算术平均数、众数和中位数三者相等()。
A 只有钟形分布B只有U形分布C钟形分布或U形分布D只有对称的钟形分布9. 当变量右偏分布时,有()。
A Mo<Me<XB Mo>Me>XC Mo≤Me≤XD Mo≥Me≥X10. 设有某企业职工人数和工资水平资料如下:报告期的总平均工资低于基期的总平均工资,原因是:()。
A 各组工资水平的变动B各组人数的增加C各组人数结构的变动D职工收入的下降11. 总体的离散程度越大,说明()。
第三章习题参考答案1.数据分布特征可以从集中趋势、离中趋势及分布形态三个方面进行描述。
平均指标是在反映总体的一般水平或分布的集中趋势的指标。
测定集中趋势的平均指标有两类:位置平均数和数值平均数。
位置平均数是根据变量值位置来确定的代表值,常用的有:众数、中位数。
数值平均数就是均值,它是对总体中的所有数据计算的平均值,用以反映所有数据的一般水平,常用的有算术平均数、调和平均数、几何平均数和幂平均数。
变异指标是用来刻画总体分布的变异状况或离散程度的指标。
测定离中趋势的指标有极差、平均差、四分位差、方差和标准差、以及离散系数等。
标准差是方差的平方根,即总体中各变量值与算术平均数的离差平方的算术平方根。
离散系数是根据各离散程度指标与其相应的算术平均数的比值。
矩、偏度和峰度是反映总体分布形态的指标。
矩是用来反映数据分布的形态特征,也称为动差。
偏度反映指数据分布不对称的方向和程度。
峰度反映是指数据分布图形的尖峭程度或峰凸程度。
2.三批产品的平均废品率为:x̅=25+30+45251.5%+302%+451%=1.3%(因为题目给了废品的数量和废品率,可以计算出总的产品数,所以用废品数除以总产品数得到平均废品率)3.该月这批产品的平均废品率为:x̅=100%−√(100%−1.5%)×(100%−2%)×(100%−2.5%)×(100%−1%) 4=1.75%(这道题错的比较多,首先应该选择几何平均(教材P54:几何平均数常用于总量等于各个数据之积的现象求平均数,如发展速度、某些比率的平均),然后不能直接将废品率进行几何平均(教材P55:计算几何平均数的前提是各个变量值的乘积有经济意义,废品率*废品率是没有经济意义的),应该先计算平均合格率(因为经过连续工序的产品的总合格率=每道工序的合格率之积,这是有经济意义的),再用100%减去平均合格率得到平均废品率)4.先对数据做一个从小到大的排序:186 188 190 199 202 207 208 211 213 215 217 218 219 221 222 223 224 226 228 230 231 234 241 242 245 247 251 253 260 272(1)均值:224.1中位数:222.5众数:不存在(2)切尾均值:223.73(3)下四分位数Q1的位置是:30+14=7.75=734第7个数是208,第8个数是211所以下四分位数Q1=208+34×(211−208)=210.25同理,上四分位数Q2的位置是:3(30+1)4=23.25=2314第23个数是241,第24个数是242所以上四分位数Q2=241+14×(211−208)=241.25极差=272-186=86;四分位差=241.25-210.25=31(4)平均差AD=∑|x−x̅|n=16.4467方差σ2=∑(x−x̅)2n=433.4233标准差σ=√∑(x−x̅)2n=20.81885.因为是定序数据,集中趋势应该选择众数和中位数(教材P58:算数平均数只适用于定量数据,中位数适用于定量和定序数据,众数适用于定量、定序和定类数据);离中趋势应该选择异众比率(教材P63:以上的变异指标均只适用于定量数据,对于定性数据,可以计算“异众比率”来衡量集中趋势值众数的代表性)①从中位数来看,甲城市为“一般”,乙城市为“不满意”,甲城市优于乙城市。
第三章统计数据分布特征的描述统计数据分布特征的描述是统计学中非常重要的一个概念,它用于对数据进行系统化的描述和分析。
统计数据分布特征的描述包括位置参数、散布参数和形状参数。
位置参数描述了数据集中心位置的特征。
最常用的位置参数是均值和中位数。
均值是指所有数据值的总和除以数据个数,它能够反映数据集的平均水平。
中位数是将数据值按大小排序后的中间值,它能够反映数据集的中心位置。
均值对异常值比较敏感,中位数能够较好地排除异常值的干扰。
散布参数描述了数据集的离散程度。
最常用的散布参数是方差和标准差。
方差是指每个数据值与均值之差的平方和的平均值,它能够反映数据集的离散程度。
标准差是方差的平方根,它与数据的单位相一致,常用于衡量数据的波动性。
方差和标准差越大,表示数据的离散程度越大。
形状参数描述了数据集的分布形状。
常用的形状参数包括偏度和峰度。
偏度是指数据分布的不对称程度,大于0表示右偏,小于0表示左偏,等于0表示对称。
偏度能够反映数据集的分布形态。
峰度是指数据分布的尖锐程度,大于0表示尖锐,小于0表示平坦,等于0表示与正态分布相似。
峰度能够反映数据集的尖峰或扁平程度。
除了这些常见的参数之外,还有其他一些描述统计数据分布特征的方法,如四分位数和箱线图。
四分位数是将数据分为四等分的值,它包括上四分位数、下四分位数和中位数。
上四分位数是四分之三分位数,下四分位数是四分之一分位数。
箱线图是以箱子和线段的形式展示数据分布特征,箱子的上边界和下边界分别代表上四分位数和下四分位数,箱子的中线代表中位数,箱子的长度代表数据的离散程度。
统计数据分布特征的描述对于研究数据的特征、提取有效信息以及进行统计推断都非常重要。
了解数据的位置、散布和形状特征能够帮助研究者更好地理解数据集的性质和规律。
在实际应用中,统计数据分布特征的描述还可以帮助决策者进行决策,例如对于质量控制的判断和产品的质量评估等。
综上所述,统计数据分布特征的描述是对数据集进行系统化描述和分析的重要工具。
第三章统计数据分布特征的描述统计数据分布特征的描述是统计学中的重要概念之一、它是通过对数据进行整理、组织和分析来了解数据的分布情况,帮助我们更好地理解数据的特点和趋势。
一、数据分布特征的描述方法在统计学中,数据分布特征主要通过以下两种方法进行描述:1.图形描述法:通过绘制图表来展示数据的分布情况。
常见的图形描述方法有直方图、条形图、饼图、箱线图等。
直方图是一种用于展示数据分布的图形。
它将其中一范围内的数据分成若干个等宽的区间,并统计每个区间中数据的频数或频率,然后绘制柱状图来表示。
箱线图是一种用于展示数据分布和异常值的图形。
它将数据划分为四个部分:最大值、上四分位数、中位数、下四分位数和最小值,并通过画出盒子和须来表示数据的分布情况。
2.数值描述法:通过使用统计指标和参数来描述数据的分布情况。
常见的数值描述方法有均值、中位数、众数、标准差、方差等。
均值是指将所有数据相加后再除以数据的总个数的得到的值,代表了数据的平均水平。
中位数是指将数据按大小排序后,处于中间位置的值,代表了数据的中心位置。
众数是指数据集中出现次数最多的值,代表了数据的集中趋势。
标准差是指数据在均值附近的波动程度,代表了数据的离散程度。
方差是指数据与均值之间的平均差的平方的平均值,代表了数据的离散程度。
二、数据分布特征的描述步骤要进行数据分布特征的描述,一般需要进行以下步骤:1.数据的整理和搜集:搜集所需的数据,并将其整理成适合进行分析的形式。
2.确定描述方法:根据数据的特点和目标,选择适当的图形描述法或数值描述法。
3.进行描述分析:根据所选的描述方法,对数据进行分析和计算,得出相应的描述结果。
4.解释和应用:根据描述结果,解释数据的分布特征,并根据需要进行相应的应用。
三、数据分布特征的描述应用数据分布特征的描述在实际应用中有很多用途,以下是几个常见的应用:1.判断数据是否符合其中一种分布:通过对数据的分布特征进行描述,可以判断数据是否符合正态分布或其他特定的分布形式。