第2章统计数据的描述
- 格式:doc
- 大小:951.50 KB
- 文档页数:47
第2章统计数据的描述练习:2.1为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。
服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。
调查结果如下:B EC C AD C B A ED A C B C DE C E EA DBC C A ED C BB ACDE A B D D CC B C ED B C C B CD A C B C DE C E BB EC C AD C B A EB ACDE A B D D CA DBC C A ED C BC B C ED B C C B C(1) 指出上面的数据属于什么类型;(2)用Excel制作一张频数分布表;(3) 绘制一张条形图,反映评价等级的分布。
2.2某行业管理局所属40个企业2002年的产品销售收入数据如下(单位:万元):152 124 129 116 100 103 92 95 127 104105 119 114 115 87 103 118 142 135 125117 108 105 110 107 137 120 136 117 10897 88 123 115 119 138 112 146 113 126(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率;(2)如果按规定:销售收入在125万元以上为先进企业,115万~125万元为良好企业,105万~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。
2.3某百货公司连续40天的商品销售额如下(单位:万元):41 25 29 47 38 34 30 38 43 4046 36 45 37 37 36 45 43 33 4435 28 46 34 30 37 44 26 38 4442 36 37 37 49 39 42 32 36 35根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。
第2章统计数据的描述练习:2.1为了确定灯泡的使用寿命(小时),在一批灯泡中随机抽取100只进行测试,所得结果如下:700 716 728 719 685 709 691 684 705 718706 715 712 722 691 708 690 692 707 701708 729 694 681 695 685 706 661 735 665668 710 693 697 674 658 698 666 696 698706 692 691 747 699 682 698 700 710 722694 690 736 689 696 651 673 749 708 727688 689 683 685 702 741 698 713 676 702701 671 718 707 683 717 733 712 683 692693 697 664 681 721 720 677 679 695 691713 699 725 726 704 729 703 696 717 688(1)利用计算机对上面的数据进行排序;(2)以组距为10进行等距分组,整理成频数分布表,并绘制直方图;(3)绘制茎叶图,并与直方图作比较。
2.2某百货公司6月份各天的销售额数据如下(单位:万元):257 276 297 252 238 310 240 236 265 278271 292 261 281 301 274 267 280 291 258272 284 268 303 273 263 322 249 269 295(1)计算该百货公司日销售额的均值、中位数和四分位数;(2)计算日销售额的标准差。
2.3在某地区抽取的120家企业按利润额进行分组,结果如下:按利润额分组(万元)企业数(个)200~300 19300~400 30400~500 42500~600 18600以上11合计120计算120家企业利润额的均值和标准差。
第二章统计数据的描述一、单项选择题1.下列中,最粗略、计量层次最低的计量尺度是()A.间隔尺度B.顺序尺度C.比例尺度D.列名尺度2.将全国人口按“民族”划分为汉、白、彝、回、藏…..,这里使用的计量尺度是()A.比例尺度B.列名尺度C.间隔尺度D.顺序尺度3.某个人对某一事物的态度可以划分为非常同意、同意、保持中立、不同意、非常不同意,这里使用的计量尺度是()A.列名尺度B.间隔尺度C.顺序尺度D.比例尺度4.下列中,计量层次的最高、最精确的计量尺度是()A.比例尺度B.间隔尺度C.顺序尺度D.列名尺度5.下列调查方式中,只能调查一些最基本、最一般现象的调查方式是()A.抽样调查B.重点调查和典型调查C.统计报表D.普查6.实际中应用最为广泛的一种调查方式是()A.重点调查B.统计报表C.普查D.抽样调查7.某城市拟对占全市储蓄额4/5的几个大储蓄所进行调查,以了解全市储蓄的一般情况,则这种调查方式是()A.抽样调查B.典型调查C.重点调查D.普查8.一次性调查是指()A.只做过一次的调查B.调查一次以后不再调查C.间隔一段时间在进行一次调查D.只隔一年就进行一次的调查9.在统计分析中,对累积的次数分配用得最直接的是()A.供给曲线B.需求曲线C.洛伦茨曲线D.边际需求曲线10.专门用来衡量和反映收入分配平均程度的统计指标是()A.基尼系数B.可决系数C.相关系数D.离散系数11.一般认为,基尼系数在()之间是比较恰当的。
A.0.1— —0.4 C.— —0..812.一般认为,基尼系数等于( )是收入分配不公平的警戒线。
A.0.2B.0.6C. 利用公式计算众数的基本假定之一是众数组的频数在该组内呈( )A.正态分布 分布 C.均匀分布 D.偏态分布14.计算中位数时,假定中位数所在组的频数在该组内呈( )A.左偏分布B.正态分布C.右偏分布D.均匀分布15.反映数据分布集中趋势的最主要的测度值是( )A.众数B.中位数C.均值D.几何平均数16.各个变量值与均值的离差之和( )A.大于0B.小于0C.等于0D.等于一个不为0的常数17.各个变量值与均值的离差平方和( )A.为最大B.为最小C.为0D.为一个不为0的常数18.下列中,专门用来衡量众数代表性大小的离散程度测度值是( )A.异众比率B.四分位差C.方差或标准差D.极差19.下列中,专门用来衡量中位数代表性大小的离散程度测度值是( )A.方差和标准差B.内距C.异众比率D.平均差20.下列中,适用于列名数据的集中趋势测度值是( )A.众数B.中位数C.均值D.几何均值21.描述数据离散程度最简单的测度值是( )A.平均差B.方差和标准差C.极差D.四分位差22.经验法则表明,当一组数据呈对称分布时,大约有95%的数据在( )范围之内。
第2章统计数据的描述●9.某百货公司6月份各天的销售额数据如下(单位:万元):257 276 297 252 238 310 240 236 265 278271 292 261 281 301 274 267 280 291 258272 284 268 303 273 263 322 249 269 295(1)计算该百货公司日销售额的均值、中位数和四分位数;(2)计算日销售额的标准差。
解:(1)将全部30个数据输入Excel表中同列,点击列标,得到30个数据的总和为8223,于是得该百货公司日销售额的均值:(见Excel练习题2.9)x=xn∑=822330=274.1(万元)或点选单元格后,点击“自动求和”→“平均值”,在函数EVERAGE()的空格中输入“A1:A30”,回车,得到均值也为274.1。
在Excel表中将30个数据重新排序,则中位数位于30个数据的中间位置,即靠中的第15、第16两个数272和273的平均数:M e=2722732+=272.5(万元)由于中位数位于第15个数靠上半位的位置上,所以前四分位数位于第1~第15个数据的中间位置(第8位)靠上四分之一的位置上,由重新排序后的Excel表中第8位是261,第15位是272,从而:Q L=261+2732724-=261.25(万元)同理,后四分位数位于第16~第30个数据的中间位置(第23位)靠下四分之一的位置上,由重新排序后的Excel表中第23位是291,第16位是273,从而:Q U=291-2732724-=290.75(万元)。
(2)未分组数据的标准差计算公式为:s =302 1()1iix xn=--∑利用上公式代入数据计算是个较为复杂的工作。
手工计算时,须计算30个数据的离差平方,并将其求和,()再代入公式计算其结果:得s=21.1742。
(见Excel练习题2.9)我们可以利用Excel表直接计算标准差:点选数据列(A列)的最末空格,再点击菜单栏中“∑”符号右边的小三角“▼”,选择“其它函数”→选择函数“STDEV”→“确定”,在出现的函数参数窗口中的Number1右边的空栏中输入:A1:A30,→“确定”,即在A列最末空格中出现数值:21.17412,即为这30个数据的标准差。
统计学简答题参考答案第一章绪论1.什么是统计学?怎样理解统计学与统计数据的关系?答:统计学是一门收集、整理、显示和分析统计数据的科学。
统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。
2.简要说明统计数据的来源。
答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。
间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。
3.简要说明抽样误差和非抽样误差。
答:统计调查误差可分为非抽样误差和抽样误差。
非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。
抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。
4.解释描述统计和推断统计的概念?(P5)答:描述统计是用图形、表格和概括性的数字对数据进行描述的统计方法。
推断统计是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法。
第二章统计数据的描述1描述次数分配表的编制过程。
答:分二个步骤:(1)按照统计研究的目的,将数据按分组标志进行分组。
按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细。
按数量标志进行分组,可分为单项式分组与组距式分组单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。
统计分组应遵循“不重不漏”原则(2)将数据分配到各个组,统计各组的次数,编制次数分配表。
2. 一组数据的分布特征可以从哪几个方面进行测度?答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。
常用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。
3.怎样理解均值在统计中的地位?答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取得最充分,具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统计推断中显示出优良特性,由此均值在统计中起到非常重要的基础地位。
统计学习题(抽样分布、参数估计)练习题第1章绪论(略)第2章统计数据的描述2.1某家商场为了解前来该商场购物的顾客的学历分布情况,随机抽取了100名顾客。
其学历表示为:1.初中;2.高中/中专;3•大专;4.本科及以上学历。
调查结果如下:4 2 2 2 4 3 4 4 1 42 2 4 4 43 24 2 23 1 2 14 4 1 4 2 42 3 3 2 1 3 4 3 4 43 3 1 24 2 4 3 2 4 2 3 2 2 2 1 2 2 4 4 2 1 2 3 3 3 3 3 3 4 2 3 4 3 3 1 3 2 3 2 4 3 1 3 4 3 4 2 1 4 2 2 4 2 3 3 4 1 2 1(1) 制作一张频数分布表。
(2) 绘制一张条形图,反映学历分布。
7437 77744326 2783 53250962 967 594 942 99 651984073 77 118 116 00 34 43 444 803 1 1 7 25 928 101 06 57 769 6 79 64 63 138 957 29 09 43 11474 4 0 6 86 85 85 69 121 699 599 69381 58 86 86 352 2202 46 3618 65 534 324 60 02 64 5 53852508832 66672 52 68 01 4 1 89 612 64 54 1 59 702 81 09 7 77 645 09 44 8 3511666 269 289 887 34 98 12.2在一项研究中,某调查公司为了解某品牌变 速箱是否存在缺陷,从一家该汽车的维修公司 获得该汽车变速箱失效前行驶的实际里程数 的资料数据如下:(1) 对以上数据进行适当的分组并编制频 数分布表和累积频数分布表。
(2) 用直方图来表现数据的分布特征 64 850 39334 92 2322.3为了解某电信客户对该电信公司的服务的满意度情况,某调查公司分别对两个地区的电信用户在以下五个方面对受访用户的满意情况进行了问卷调查得到的数据如下(表中数据为平均满意度打分,从1分到10分满意度依次递增):地区企业形象客户期望质量感知价值感知客户总体满意度A 8.26950 9.26241 7.91489 8.411344 7.51773 1 4 8B 7.44736 8.36842 8.97368 8.10526 7.394738 1 4 3 7试用条形图反映将两地区的满意度情况2.4下面是一个班50个学生的经济学考试成88 56 91 79 69 90 88 71 82 79 98 85 34 74 48 100 75 95 60 92 83 64 65 69 99 64 45 76 63 69 68 74 94 81 67 81 84 53 91 2484 62 81 83 69 84 29 66 75 94(1)对这50名学生的经济学考试成绩进行分组并将其整理成频数分布表,绘制直方图。
第一章数据与统计学一、填空题:1.统计学的发展史有三个起源,即政治算术学派、及数理统计学派。
2.在现实生活中,“统计”一词有三种涵义,即、及统计学。
3. 同一变量往往有许多变量值,变量按变量值是否连续可分为和。
4. 凡是客观存在的,并在某一相同性质基础上结合起来的许多个别事物组成的整体,我们称之为。
5.按数据的来源渠道划分,数据可分为和。
6. 统计调查按调查对象所包括被研究总体的范围可分为和。
7.抽样误差只存在于调查中。
8.从总体中抽取的部分基本单位构成的整体称为。
二、单项选择题:1. 要了解某市工业企业的生产装备情况,则统计总体是()。
A、该市全部工业企业B、该市每一个工业企业C、该市全部工业企业的某个设备D、该市工业企业的全部设备2. 对黄冈师院学生学习成绩进行调查,则总体单位是()。
A、黄冈师院所有的学生B、黄冈师院每一位学生C、黄冈师院所有的学生成绩D、黄冈师院每一位学生成绩3. 对全国城市职工家庭生活进行调查,则总体单位是()。
A、所有的全国城市职工家庭B、所有的全国城市职工家庭生活C、每一户城市职工家庭D、每一户城市职工家庭生活4.在全国人口普查中,总体单位是()A、每一户B、每个人C、每个地区的人D、全国总人口5.下列属于数量变量的是()A、性别B、年龄C、职称D、健康状况6. 下列属于品质变量的是()。
A、工人年龄B、工人性别C、工人体重D、工人工资7. 人口普查规定统一的标准时间是为了()。
A、避免登记的重复与遗漏B、确定调查的范围C、确定调查的单位D、登记的方便8. 全国人口普查中,调查单位是()。
A、全国人口B、每一个人C、每一户D、工人工资9.抽样调查的主要目的是()A、随机抽取样本单位B、对调查单位作深入研究C、计算和控制抽样误差D、用样本指标来推算和估计总体指标10.要了解上海市居民家庭的收支情况,最适合的调查方式是()A、抽样调查B、重点调查C、典型调查D、普查三、多项选择题:1. 下列属于数量变量的有()。
第2章统计数据的描述——练习题●1.为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。
服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。
调查结果如下:B EC C AD C B A ED A C B C DE C E EA DBC C A ED C BB ACDE A B D D CC B C ED B C C B CD A C B C DE C E BB EC C AD C B A EB ACDE A B D D CA DBC C A ED C BC B C ED B C C B C(1) 指出上面的数据属于什么类型;(2)用Excel制作一张频数分布表;(3) 绘制一张条形图,反映评价等级的分布。
解:(1)由于表中的数据为服务质量的等级,可以进行优劣等级比较,但不能计算差异大小,属于顺序数据。
(2)频数分布表如下:服务质量等级评价的频数分布服务质量等级家庭数(频数)频率%A1414B2121C3232D1818E1515合计100100(3)条形图的制作:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→条形图→选择子图表类型→完成(见Excel练习题。
即得到如下的条形图:700716728719685709691684705718706715712722691708690692707701708729694681695685706661735665668710693697674658698666696698706692691747699682698700710722694690736689696651673749708727688689683685702741698713676702701671718707683717733712683692693697664681721720677679695691713699725726704729703696717688(1)利用计算机对上面的数据进行排序;(2)以组距为10进行等距分组,整理成频数分布表,并绘制直方图;(3)绘制茎叶图,并与直方图作比较。
解:(1)排序:将全部数据复制到Excel中,并移动到同一列,点击:数据→排序→确定,即完成数据排序的工作。
(见Excel练习题(2)按题目要求,利用已排序的Excel表数据进行分组及统计,得到频数分布表如下:(见Excel练习题100只灯泡使用寿命非频数分布按使用寿命分组(小时)灯泡个数(只)频率(%)650~66022660~67055670~68066680~6901414690~7002626700~7101818710~7201313720~7301010730~74033740~75033合计100100制作直方图:将上表(包含总标题,去掉合计栏)复制到Excel表中,选择全表后,点击:图表向导→柱形图→选择子图表类型→完成。
即得到如下的直方图:(见Excel练习题(3)制作茎叶图:以十位以上数作为茎,填入表格的首列,将百、十位数相同的数据的个位数按由小到大的顺序填入相应行中,即成为叶,得到茎叶图如下:第5章 参数估计●1.某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客组成了一个简单随机样本。
(1) 假定总体标准差为15元,求样本均值的抽样标准误差; (2) 在95%的置信水平下,求允许误差;(3) 如果样本均值为120元,求总体均值95%的置信区间。
解:(1)已假定总体标准差为σ=15元, 则样本均值的抽样标准误差为x σσ15=(2)已知置信水平1-α=95%,得 α/2Z =,于是,允许误差是E =α/2σZ =×=。
(3)已知样本均值为x =120元,置信水平1-α=95%,得 α/2Z =, 这时总体均值的置信区间为±α/2x Z ±=124.2115.8(1)假定总体标准差为15元,求样本均值的抽样标准误差。
x σ=== (2)在95%的置信水平下,求边际误差。
x x t σ∆=⋅,由于是大样本抽样,因此样本均值服从正态分布,因此概率度t=2z α因此,x x t σ∆=⋅2x z ασ=⋅0.025x z σ=⋅=×=(3)如果样本均值为120元,求总体均值 的95%的置信区间。
置信区间为:(),x x x x -∆+∆=()120 4.2,120 4.2-+=(,)可知,如果样本均值为120元,总体均值95%的置信区间为(,)元。
利用下面的信息,构建总体均值µ的置信区间:1) 总体服从正态分布,且已知σ = 500,n = 15, =8900,置信水平为95%。
解: N=15,为小样本正态分布,但σ已知。
则1-=95%,。
其置信区间公式为∴置信区间为:8900±×500÷√15=( , )2) 总体不服从正态分布,且已知σ = 500,n = 35, =8900,置信水平为95%。
解:为大样本总体非正态分布,但σ已知。
则1-=95%,。
其置信区间公式为∴置信区间为:8900±×500÷√35=( )3) 总体不服从正态分布,σ未知,n = 35, =8900,s =500,置信水平为90%。
解:为大样本总体非正态分布,且σ未知,1-=90%,。
2α()28.109,44.10192.336.105251096.136.1052=±=⨯±=±nz x σαx x 2α()28.109,44.10192.336.105251096.136.1052=±=⨯±=±nz x σαx其置信区间为:8900±×500÷√35=(8761 9039)x4)总体不服从正态分布,σ未知,n = 35,=8900,s =500,置信水平为99%。
解:为大样本总体非正态分布,且σ未知,1-=99%,。
其置信区间为:8900±×500÷√35=()●3.某大学为了解学生每天上网的时间,在全校7500名学生中采取不重复抽样方法随机抽取36人,调查他们每天上网的时间,得到下面的数据(单位:小时):求该校大学生平均上网时间的置信区间,置信水平分别为90%、95%和99%。
解:⑴计算样本均值x:将上表数据复制到Excel表中,并整理成一列,点击最后数据下面空格,选择自动求平均值,回车,得到x=,⑵计算样本方差s:删除Excel表中的平均值,点击自动求值→其它函数→STDEV→选定计算数据列→确定→确定,得到s=也可以利用Excel进行列表计算:选定整理成一列的第一行数据的邻列的单元格,输入“=^2”,回车,即得到各数据的离差平方,在最下行求总和,得到:∑2i (x -x )=再对总和除以n-1=35后,求平方根,即为样本方差的值s=。
⑶计算样本均值的抽样标准误差: 已知样本容量 n =36,为大样本, 得样本均值的抽样标准误差为 x σs1.6093⑷分别按三个置信水平计算总体均值的置信区间:① 置信水平为90%时:由双侧正态分布的置信水平1-α=90%,通过2β-1=换算为单侧正态分布的置信水平β=,查单侧正态分布表得 α/2Z =,计算得此时总体均值的置信区间为±α/2sx Z ±×= 3.75652.8769可知,当置信水平为90%时,该校大学生平均上网时间的置信区间为(,)小时;② 置信水平为95%时:由双侧正态分布的置信水平1-α=95%,得 α/2Z =,计算得此时总体均值的置信区间为±α/2sx Z ±×= 3.84232.7910可知,当置信水平为95%时,该校大学生平均上网时间的置信区间为(,)小时;③ 置信水平为99%时:若双侧正态分布的置信水平1-α=99%,通过2β-1=换算为单侧正态分布的置信水平β=,查单侧正态分布表得 α/2Z =,计算得此时总体均值的置信区间为±α/2sx Z ±×= 4.00872.6247可知,当置信水平为99%时,该校大学生平均上网时间的置信区间为(,)小时。
●4.某居民小区共有居民500户,小区管理者准备采取一项新的供水设施,想了解居民是否赞成。
采取重复抽样方法随机抽取了50户,其中有32户赞成,18户反对。
(1)求总体中赞成该项改革的户数比率的置信区间,置信水平为95%; (2)如果小区管理者预计赞成的比率能达到80%,应抽取多少户进行调查 解: 已知总体单位数N =500,重复抽样,样本容量n =50,为大样本,样本中,赞成的人数为n 1=32,得到赞成的比率为 p =n 1n =3250=64%(1)赞成比率的抽样标准误差为=%由双侧正态分布的置信水平1-α=95%,得 α/2Z =,计算得此时总体户数中赞成该项改革的户数比率的置信区间为p ±αZ ±×%=77.304%50.696%可知,置信水平为95%时,总体中赞成该项改革的户数比率的置信区间为(%,%)。
(2)如预计赞成的比率能达到80%,即 p =80%,由得样本容量为 n =20.80.2(6.788%)⨯= 取整为35,即可得,如果小区管理者预计赞成的比率能达到80%,应抽取35户进行调查。
5.顾客到银行办理业务时往往需要等待一段时间,而等待时间的长短与许多因素有关,比如,银行业务员办理业务的速度,顾客等待排队的方式等。
为此,某银行准备采取两种排队方式进行试验,第一种排队方式是:所有顾客都进入一个等待队列;第二种排队方式是:顾客在三个业务窗口处列队等待。
为(1) 构建第一种排队方式等待时间标准差的95%的置信区间 (2) 构建第二种排队方式等待时间标准差的95%的知心区间 (3) 根据(1)和(2)的结果,你认为哪种排队方式更好 卷面解答过程: 解:已知n=10(1) 根据抽样结果计算得x =s=又∵α=,由单方差得总体标准差σ的95%的置信区间为, ;(2) 根据抽样结果计算得x =s=又∵α=,由单方差得总体标准差σ的95%的置信区间为, 。
(3) 根据上面两道题目的答案可知,第一种排队方式所需等待的时间较为稳定,更为可取。
MINITAB 操作步骤:(1) 输入数据→统计→基本统计量→单样本t →选择数据→选项:95%MINITAB 显示: 单样本 T: C1平均值变量 N 平均值 标准差 标准误 95% 置信区间 C1 10 ,(2) 同上6.从两个正态总体中分别抽取两个独立的随机样本,它们的均值和标准差如下表:来自总体1的样本 来自总体2的样本141=n 72=n 2.531=x4.432=x8.9621=s0.10222=s(1) 求21μμ-90%的置信区间;(2) 求21μμ-95%的置信区间。