统计学(第六版)贾俊平-中国人民大学出版社——课后习题答案.
- 格式:pdf
- 大小:2.29 MB
- 文档页数:59
第1章绪论5.简要说明抽样误差和非抽样误差。
答:统计调查误差可分为非抽样误差和抽样误差。
非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。
抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。
6.一家大型油漆零售商收到了客户关于油漆罐分量不足的许多抱怨。
因此,他们开始检查供货商的集装箱,有问题的将其退回。
最近的一个集装箱装的是2 440加仑的油漆罐。
这家零售商抽查了50罐油漆,每一罐的质量精确到4位小数。
装满的油漆罐应为4.536 kg。
要求:(1)描述总体;(2)描述研究变量;(3)描述样本;(4)描述推断。
答:(1)总体:最近的一个集装箱内的全部油漆;(2)研究变量:装满的油漆罐的质量;(3)样本:最近的一个集装箱内的50罐油漆;(4)推断:50罐油漆的质量应为4.536×50=226.8 kg。
7.“可乐战”是描述市场上“可口可乐”与“百事可乐”激烈竞争的一个流行术语。
这场战役因影视明星、运动员的参与以及消费者对品尝试验优先权的抱怨而颇具特色。
假定作为百事可乐营销战役的一部分,选择了1000名消费者进行匿名性质的品尝试验(即在品尝试验中,两个品牌不做外观标记),请每一名被测试者说出A品牌或B品牌中哪个口味更好。
要求:(1)描述总体;(2)描述研究变量;(3)描述样本;(4)描述推断。
答:(1)总体:市场上的“可口可乐”与“百事可乐”(2)研究变量:更好口味的品牌名称;(3)样本:1000名消费者品尝的两个品牌(4)推断:两个品牌中哪个口味更好。
第2章统计数据的描述思考题4. 一组数据的分布特征可以从哪几个方面进行测度?答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。
常用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。
5. 怎样理解均值在统计中的地位?答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取得最充分,具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统计推断中显示出优良特性,由此均值在统计中起到非常重要的基础地位。
第一章:1、什么是统计学?统计学是一门收集、分析、表述、解释数据的科学和艺术。
2、描述统计:研究的是数据收集、汇总、处理、图表描述、概括与分析等统计方法。
推断统计:研究的是如何利用样本数据来推断总体特征。
3、统计学据可以分成哪几种类型,个有什么特点?按照计量尺度不同,分为:分类数据、顺序数据、数值型数据。
分类数据:只能归于某一类别的,非数字型数据。
顺序数据:只能归于某一有序类别的,非数字型数据。
数值型数据:按数字尺度测量的观察值,结果表现为数值。
按收集方法不同。
分为:观测数据、和实验数据观测数据:通过调查或观测而收集到的数据;不控制条件;社会经济领域实验数据:在试验中收集到的数据;控制条件;自然科学领域。
按时间不同,分为:截面数据、时间序列数据截面数据:在相同或近似相同的时间点上收集的数据。
时间序列数据:在不同时间收集的数据。
4、举例说明总体、样本、参数、统计量、变量这几个概念。
总体:是包含全部研究个体的集合,包括有限总体和无限总体(范围、数目判定)样本:从总体中抽取的一部分元素的集合。
参数:用来描述总体特征的概括性数字度量。
(平均数、标准差、比例等)统计量:用来描述样本特征的概括性数字度量。
(平均数、标准差、比例等)变量:是说明样本某种特征的概念,其特点:从一次观察到下一次观察结果会呈现出差别或变化。
(商品销售额、受教育程度、产品质量等级等)(对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。
)5、变量可以分为哪几类?分类变量:说明事物类别;取值是分类数据。
顺序变量:说明事物有序类别;取值是顺序数据数值型变量:说明事物数字特征;取值是数值型数据。
变量也可以分为:随机变量和非随机变量;经验变量和理论变量6、举例说明离散型变量和连续型变量。
8.2 一种元件,要求其使用寿命不得低于700小时。
现从一批这种元件中随机抽取36件,测得其平均寿命为680小时。
已知该元件寿命服从正态分布,σ=60小时,试在显著性水平0.05下确定这批元件是否合格.解:H 0:μ≥700;H 1:μ<700已知:x =680 σ=60由于n=36>30,大样本,因此检验统计量:x z s n μ-==6807006036-=-2 当α=0.05,查表得z α=1.645.因为z <-z α,故拒绝原假设,接受备择假设,说明这批产品不合格。
8。
38.4 糖厂用自动打包机打包,每包标准重量是100千克。
每天开工后需要检验一次打包机工作是否正常。
某日开工后测得9包重量(单位:千克)如下:99.3 98.7 100.5 101.2 98.3 99.7 99.5 102.1 100.5已知包重服从正态分布,试检验该日打包机工作是否正常(a =0.05)?解:H 0:μ=100;H 1:μ≠100经计算得:x =99.9778 S =1.21221检验统计量:x t s n = 1.2122190.055 当α=0.05,自由度n -1=9时,查表得()29t α=2.262。
因为t <2t α,样本统计量落在接受区域,故接受原假设,拒绝备择假设,说明打包机工作正常.8.5 某种大量生产的袋装食品,按规定不得少于250克。
今从一批该食品中任意抽取50袋,发现有6袋低于250克。
若规定不符合标准的比例超过5%就不得出厂,问该批食品能否出厂(a =0.05)?解:解:H 0:π≤0。
05;H 1:π>0.05已知: p =6/50=0。
12检验统计量:()0001Z n ππ=-()0.0510.0550⨯-=2.271当α=0.05,查表得z α=1.645。
因为z >z α,样本统计量落在拒绝区域,故拒绝原假设,接受备择假设,说明该批食品不能出厂。
8.68.7 某种电子元件的寿命x (单位:小时)服从正态分布。
第1章导论一、思考题1.什么是统计学?答:统计学是关于数据的科学,它所提供的是一套有关数据收集、处理、分析、解释并从数据中得出结论的方法,统计研究的是来自各领域的数据。
数据收集也就是取得统计数据;数据处理是将数据用图表等形式展示出来;数据分析则是选择适当的统计方法研究数据,并从数据中提取有用信息进而得出结论。
2.解释描述统计和推断统计。
答:数据分析所用的方法可分为描述统计方法和推断统计方法。
(1)描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。
(2)推断统计是研究如何利用样本数据来推断总体特征的统计方法。
比如,对产品的质量进行检验,往往是破坏性的,不可能对每个产品进行测量。
这就需要抽取部分个体即样本进行测量,然后根据获得的样本数据对所研究的总体特征进行推断,这就是推断统计要解决的问题。
3.统计数据可分为哪几种类型?不同类型的数据各有什么特点?答:统计数据是对现象进行测量的结果,可以从不同角度对统计数据进行分类:(1)按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
①在分类数据中,各类别之间是平等的并列关系,无法区分优劣或大小,各类别之间的顺序是可以改变的;②顺序数据也表现为类别,但这些类别之间是可以比较顺序的;③数值型数据具有分类数据和顺序数据的特点,并且还可以进行加、减、乘、除运算。
(2)按照统计数据的收集方法,可以将其分为观测数据和实验数据。
①观测数据是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观测数据;②实验数据则是在实验中控制实验对象而收集到的数据,自然科学领域的大多数数据都为实验数据;(3)按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。
①截面数据是在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间上获得的,用于描述现象在某一时刻的变化情况;②时间序列数据是在不同时间上收集到的数据,这类数据是按时间顺序收集到的,用于所描述现象随时间变化的情况。
统计学课后答案第六章【篇一:统计学第五版课后练答案(4-6章)】txt>4.1 一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)排序后如下: 2 4 7 10 10 10 12 12 14 15 要求:(1)计算汽车销售量的众数、中位数和平均数。
(2)根据定义公式计算四分位数。
(3)计算销售量的标准差。
(4)说明汽车销售量分布的特征。
解:statisticsmean median mode std. deviation percentiles25 50 75 missing10 0 9.60 10.00 10 4.169 6.25 10.00单位:周岁19 15 29 25 24 23 21 38 22 18 30 20 19 19 16 23 27 22 34 24 4120 31 17 23要求;(1)计算众数、中位数:排序形成单变量分值的频数分布和累计频数分布:网络用户的年龄1(2)根据定义公式计算四分位数。
mean=24.00;std. deviation=6.652 (4)计算偏态系数和峰态系数:skewness=1.080;kurtosis=0.773(5)对网民年龄的分布特征进行综合分析:分布,均值=24、标准差=6.652、呈右偏分布。
如需看清楚分布形态,需要进行分组。
21、确定组数:lg?2?5?1?1k?1?lg(2)lg2lgn()1.398?5.64k=6 ,取0.30103网络用户的年龄 (binned)分组后的直方图:3客都进入一个等待队列:另—种是顾客在三千业务窗口处列队3排等待。
为比较哪种排队方式使顾客等待的时间更短.两种排队方式各随机抽取9名顾客。
得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟。
第二种排队方式的等待时间(单位:分钟)如下:5.5 6.6 6.7 6.8 7.1 7.3 7.47.8 7.8 要求:(1)画出第二种排队方式等待时间的茎叶图。
第一章导论1.1.1(1)数值型变量。
(2)分类变量.(3)离散型变量.(4)顺序变量。
(5)分类变量。
1。
2(1)总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。
(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。
1。
3(1)总体是所有IT从业者的集合。
(2)数值型变量。
(3)分类变量.(4)截面数据。
1.4(1)总体是所有在网上购物的消费者的集合。
(2)分类变量。
(3)参数是所有在网上购物者的月平均花费。
(4)参数(5)推断统计方法。
第二章数据的搜集1。
什么是二手资料?使用二手资料需要注意些什么?与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料"。
使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。
在引用二手资料时,要注明数据来源.2。
比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
概率抽样是指抽样时按一定概率以随机原则抽取样本。
每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。
如果调查的目的在于掌握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。
非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。
它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。
非概率抽样也适合市场调查中的概念测试.3.调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数据的方法?实验式、观察式等。
第一章导论1.1.1(1)数值型变量。
(2)分类变量。
(3)离散型变量。
(4)顺序变量。
(5)分类变量。
1.2(1)总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。
(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。
1.3(1)总体是所有IT从业者的集合。
(2)数值型变量。
(3)分类变量。
(4)截面数据。
1.4(1)总体是所有在网上购物的消费者的集合。
(2)分类变量。
(3)参数是所有在网上购物者的月平均花费。
(4)参数(5)推断统计方法。
第二章数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料”。
使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。
在引用二手资料时,要注明数据来源。
2.比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
概率抽样是指抽样时按一定概率以随机原则抽取样本。
每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。
如果调查的目的在于掌握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。
非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。
它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。
非概率抽样也适合市场调查中的概念测试。
3.调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数据的方法?实验式、观察式等。
第一章统计量是用来描述样本特征的概括性数字度量,它是根据样术数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。
研究者所关心的统计量主要有样本平均数、样本标准总、样本比例等。
3,变量(D变量,变量值①变量:说明现象某种特征的概念,其特点是从一-次观察到下一-次观察结果会呈现出差别成变化。
②变量值:变量的几体取值。
(2)变量的类型①分类变量是说明事物类别的一个名称,其取值是分类数据。
②顺序变量是说明事物有序类别的一一个名称,其取值足顺序数据。
③数值型变量是说明事物数字特征的一一个名称,其取值是数值型数据。
根据其取值的不同,又可以分为:..离散型变量:只能取可数值的变量,它只能取有限个值,而且其取值都以整位数断开,可以一一列举:b.连续型变量:可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能-列举。
(3)变量的其他分类①随机变量、非随机变量②经验变量,理论变量经验变量所措述的是周围环境中可以观察到的事物:理论变量是由统计学家用数学方法所构造出来的一些变什么是统计学?答: 统计学是关于数据的科学,它所提供的是一套有关数据收集、处理,分析。
解释并从数据中得出结论的方法,统计研究的是来自各领域的数据。
数据收集也就是取得统计数据:数据处理是将数据用图表等形式展示出来:数据分析则是选择适当的统计方法研究数据,井从数据中提取有用信息进而得出结论。
.解释描述统计和推断统计。
答:数据分析所用的方法可分为描述统计方法和推断统计方法。
(1)描述统计研究的是数据收集、处理、汇总、图表措述,概括与分析等统计方法。
(2)推断统计是研究如何利用样本数据来推断总体特征的统计方法。
比如,对产品的质量进行检验,往往是破坏性的,不可能对每个产品进行测量。
这就需要抽取部分个体即样本进行测量。
然后根据获得的样本数据对来:数据分析则是选择适当的统计方法研究数据,井从数据中提取有用信息进而得出结论。
3.统计数据可分为哪几种类型?不同类型的数据各有什么特点?答:统计数据是对现象进行测量的结果,可以从不同角度对统计数据进行分类:(1) 按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
统计学贾俊平课后习题答案HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】附录:教材各章习题答案第1章统计与统计数据1.1(1)数值型数据;(2)分类数据;(3)数值型数据;(4)顺序数据;(5)分类数据。
1.2(1)总体是“该城市所有的职工家庭”,样本是“抽取的2000个职工家庭”;(2)城市所有职工家庭的年人均收入,抽取的“2000个家庭计算出的年人均收入。
1.3(1)所有IT从业者;(2)数值型变量;(3)分类变量;(4)观察数据。
1.4(1)总体是“所有的网上购物者”;(2)分类变量;(3)所有的网上购物者的月平均花费;(4)统计量;(5)推断统计方法。
1.5(略)。
1.6(略)。
第2章数据的图表展示2.1(1)属于顺序数据。
(2)频数分布表如下(4)帕累托图(略)。
2.2(1)频数分布表如下2.3频数分布表如下2.5(1)排序略。
(2)频数分布表如下2.6(3)食品重量的分布基本上是对称的。
2.72.8(1)属于数值型数据。
2.9(1)直方图(略)。
(2)自学考试人员年龄的分布为右偏。
2.10A 班分散,且平均成绩较A 班低。
2.11 (略)。
2.12 (略)。
2.13 (略)。
2.14 (略)。
2.15 箱线图如下:(特征请读者自己分析) 第3章 数据的概括性度量3.1(1)100=M ;10=e M ;6.9=x 。
(2)5.5=L Q ;12=U Q 。
(3)2.4=s 。
(4)左偏分布。
3.2(1)190=M ;23=e M 。
(2)5.5=L Q ;12=U Q 。
(3)24=x ;65.6=s 。
(4)08.1=SK ;77.0=K 。
(5)略。
3.3 (1)略。
(2)7=x ;71.0=s 。
(3)102.01=v ;274.02=v 。
(4)选方法一,因为离散程度小。
3.4 (1)x =(万元);M e= 。
第1章统计与统计数据一、学习指导统计学是处理和分析数据的方法和技术,它几乎被应用到所有的学科检验领域。
本章首先介绍统计学的含义和应用领域,然后介绍统计数据的类型及其来源,最后介绍统计中常用的一些基本概念。
本章各节的主要内容和学习要点如下表所示。
章节主要内容学习要点1.1 统计及其应用领域什么是统计学④概念:统计学,描述统计,推断统计。
统计的应用领域④统计在工商管理中的应用。
④统计的其他应用领域。
1.2 数据的类型分类数据、顺序数据、数值型数据④概念:分类数据,顺序数据,数值型数据。
④不同数据的特点。
观测数据和实验数据④概念:观测数据,实验数据。
截面数据和时间序列数据④概念:截面数据,时间序列数据。
1.3 数据来源数据的间接来源④统计数据的间接来源。
④二手数据的特点。
数据的直接来源④概念:抽样调查,普查。
④数据的间接来源。
④数据的收集方法。
调查方案设计④调查方案的内容。
数据质量④概念。
抽样误差,非抽样误差。
④统计数据的质量。
1.4 统计中的几个基本概念总体和样本④概念:总体,样本。
参数和统计量④概念:参数,统计量。
变量④概念:变量,分类变量,顺序变量,数值型变量,连续型变量,离散型变量。
二、主要术语1. 统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。
2. 描述统计:研究数据收集、处理和描述的统计学分支。
3. 推断统计:研究如何利用样本数据来推断总体特征的统计学分支。
4. 分类数据:只能归于某一类别的非数字型数据。
5. 顺序数据:只能归于某一有序类别的非数字型数据。
6. 数值型数据:按数字尺度测量的观察值。
7. 观测数据:通过调查或观测而收集到的数据。
8. 实验数据:在实验中控制实验对象而收集到的数据。
9. 截面数据:在相同或近似相同的时间点上收集的数据。
10. 时间序列数据:在不同时间上收集到的数据。
11. 抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法。
第一章导论.1(1)数值型变量。
(2)分类变量。
(3)离散型变量。
(4)顺序变量。
(5)分类变量。
(1)总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。
(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。
(1)总体是所有IT从业者的集合。
(2)数值型变量。
(3)分类变量。
(4)截面数据。
(1)总体是所有在网上购物的消费者的集合。
(2)分类变量。
(3)参数是所有在网上购物者的月平均花费。
(4)参数(5)推断统计方法。
第二章数据的搜集1.什么是二手资料使用二手资料需要注意些什么与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料”。
使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。
在引用二手资料时,要注明数据来源。
2.比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
概率抽样是指抽样时按一定概率以随机原则抽取样本。
每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。
如果调查的目的在于掌握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。
非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。
它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。
非概率抽样也适合市场调查中的概念测试。
3.调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数据的方法实验式、观察式等。
4. 自填式、面方式、电话式调查个有什么利弊自填式优点:调查组织者管理容易,成本低,可以进行较大规模调查,对被调查者可以刻选择方便时间答卷,减少回答敏感问题的压力。
第一章统计量是用来描述样本特征的概括性数字度量,它是根据样术数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。
研究者所关心的统计量主要有样本平均数、样本标准总、样本比例等。
3,变量(D变量,变量值①变量:说明现象某种特征的概念,其特点是从一-次观察到下一-次观察结果会呈现出差别成变化。
②变量值:变量的几体取值。
(2)变量的类型①分类变量是说明事物类别的一个名称,其取值是分类数据。
②顺序变量是说明事物有序类别的一一个名称,其取值足顺序数据。
③数值型变量是说明事物数字特征的一一个名称,其取值是数值型数据。
根据其取值的不同,又可以分为:..离散型变量:只能取可数值的变量,它只能取有限个值,而且其取值都以整位数断开,可以一一列举:b.连续型变量:可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能-列举。
(3)变量的其他分类①随机变量、非随机变量②经验变量,理论变量经验变量所措述的是周围环境中可以观察到的事物:理论变量是由统计学家用数学方法所构造出来的一些变什么是统计学?答: 统计学是关于数据的科学,它所提供的是一套有关数据收集、处理,分析。
解释并从数据中得出结论的方法,统计研究的是来自各领域的数据。
数据收集也就是取得统计数据:数据处理是将数据用图表等形式展示出来:数据分析则是选择适当的统计方法研究数据,井从数据中提取有用信息进而得出结论。
.解释描述统计和推断统计。
答:数据分析所用的方法可分为描述统计方法和推断统计方法。
(1)描述统计研究的是数据收集、处理、汇总、图表措述,概括与分析等统计方法。
(2)推断统计是研究如何利用样本数据来推断总体特征的统计方法。
比如,对产品的质量进行检验,往往是破坏性的,不可能对每个产品进行测量。
这就需要抽取部分个体即样本进行测量。
然后根据获得的样本数据对来:数据分析则是选择适当的统计方法研究数据,井从数据中提取有用信息进而得出结论。
3.统计数据可分为哪几种类型?不同类型的数据各有什么特点?答:统计数据是对现象进行测量的结果,可以从不同角度对统计数据进行分类:(1) 按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
第一章导论1.1.1(1)数值型变量。
(2)分类变量。
(3)离散型变量。
(4)顺序变量。
(5)分类变量。
1.2(1)总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。
(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。
1.3(1)总体是所有IT从业者的集合。
(2)数值型变量。
(3)分类变量。
(4)截面数据。
1.4(1)总体是所有在网上购物的消费者的集合。
(2)分类变量。
(3)参数是所有在网上购物者的月平均花费。
(4)参数(5)推断统计方法。
第二章数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料”。
使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。
在引用二手资料时,要注明数据来源。
2.比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
概率抽样是指抽样时按一定概率以随机原则抽取样本。
每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。
如果调查的目的在于掌握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。
非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。
它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。
非概率抽样也适合市场调查中的概念测试。
3.调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数据的方法?实验式、观察式等。
4. 自填式、面方式、电话式调查个有什么利弊?自填式优点:调查组织者管理容易,成本低,可以进行较大规模调查,对被调查者可以刻选择方便时间答卷,减少回答敏感问题的压力。
缺点:返回率低,调查时间长,在数据搜集过程中遇到问题不能及时调整。
面谈式优点:回答率高,数据质量高,在数据搜集过程中遇到问题可以及时调整可以充分发挥调查员的作用。
缺点:成本比较高,对调查过程的质量控制有一定难度。
对于敏感问题,被访者会有压力。
电话式优点:速度快,对调查员比较安全,对访问过程的控制比较容易,缺点:实施地区有限,调查时间不宜过长,问卷要简单,被访者不愿回答时,不宜劝服。
5.请举出(或设计)几个实验数据的例子。
不同饲料对牲畜增重有无影响,新旧技术的机器对组装同一产品所需时间的影响。
6.你认为应当如何控制调查中的回答误差?对于理解误差,要注意表述中的措辞,学习一定的心里学知识。
对于记忆误差,尽量缩短所涉及问题的时间范围。
对于有意识误差,调查人员要想法打消被调查者得思想顾虑,调查人员要遵守职业道德,为被调查者保密,尽量避免敏感问题。
7.怎样减少无回答?请通过一个例子,说明你所考虑到的减少无回答的具体措施。
对于随机误差,可以通过增加样本容量来控制。
对于系统误差,做好预防,在调查前做好各方面的准备工作,尽量把无回答率降到最低程度。
无回答出现后,分析武回答产生的原因,采取补救措施。
比如要收回一百份,就要做好一百二十份或一百三十份问卷的准备,当被调查者不愿意回答时,可以通过一定的方法劝服被访者,还可以通过馈赠小礼品等的方式提高回收率。
第三章数据的图表搜集一、思考题3.1数据的预处理包括哪些内容?答:审核、筛选、排序等。
3.2分类数据和顺序数据的整理和显示方法各有哪些?答:分类数据在整理时候先列出所分的类别,计算各组的频数、频率,得到频数分布表,如果是两个或两个以上变量可以制作交叉表。
对于分类数据可以绘制条形图、帕累托图、饼图、环形图等。
根据不同的资料或者目的选择不同的图。
对于顺序数据,可以计算各种的频数、频率,以及累计频数、累计频率。
可根据需要绘制条形图、饼图、环形图等。
3.3数值型数据的分组方法有哪些?简述组距分组的步骤。
答:单变量值分组和组距分组。
其中组距分组:第一步,确定组数,组数多少由数据的多少和特点等决定,一般5~15组;第二步,确定各组组距,宜取5或10的倍数;第三步,根据分组整理出频数分布表,注意遵循“不重不漏”和“上限不在内”的原则。
3.4直方图和条形图有何区别?答:1,条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,高度与宽度都有意义;2直方图各矩形连续排列,条形图分开排列;3条形图主要展示分类数据,直方图主要展示数值型数据。
3.5绘制线图应注意问题?答:时间在横轴,观测值绘在纵轴。
一般是长宽比例10:7的长方形,纵轴下端一般从0开始,数据与0距离过大的话用折断符号折断。
3.6饼图和环形图的不同?答:饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一个环。
3.7茎叶图比直方图的优势,他们各自的应用场合?答:茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。
在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。
3.8鉴别图标优劣的准则?答:P65明确有答案,我就不写了。
3.9制作统计表应注意的问题?答:1,合理安排统计表结构;2表头一般包括表号,总标题和表中数据的单位等内容;3表中的上下两条横线一般用粗线,中间的其他用细线,两端开口,数字右对齐,不要有空白格;4在使用统计表时,必要时可在下方加注释,注明数据来源。
二、练习题3.1答:(1)表中数据属于顺序数据。
(2)用Excel制作一张频数分布表。
(3)绘制一张条形图,反映评价等级的分布。
(4)绘制评价等级的帕累托图。
3.2 某行业管理局所属40个企业2002年的产品销售收入数据如下:1521241291161001039295127104105119114115 87103118142135125117 1081051101071371201361171089788123115119138112146113126要求:(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。
1、确定组数:()lg 40lg() 1.60206111 6.32lg(2)lg 20.30103n K =+=+=+=,取k=6 2、确定组距:组距=( 最大值 - 最小值)÷ 组数=(152-87)÷6=10.83,取103、分组频数表(2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115 万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。
3.3 某百货公司连续40天的商品销售额如下:单位:万元412529 4738 34303843 404636 45 37 37 3645 43 33 44 3528463430374426384442363737493942323635要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。
答 :1、确定组数:()lg 40lg() 1.60206111 6.32lg(2)lg 20.30103n K =+=+=+=,取k=6 2、确定组距:组距=( 最大值 - 最小值)÷ 组数=(49-25)÷6=4,取53、分组频数表(根据实际资料,调整成分5个组)4、直方图3.4 利用下面的数据构建茎叶图和箱线图。
57 29 29 36 3123 47 23 28 2835 51 39 18 4618 26 50 29 3321 46 41 52 2821 43 19 42 20 答:茎叶图Frequency Stem & Leaf3.00 1 . 8895.00 2 . 011337.00 2 . 68889992.00 3 . 133.00 3 . 5693.00 4 . 1233.00 4 . 6673.00 5 . 0121.00 5 . 7箱线图3.5答 :频数分布表直方图从直方图看,数据的分布呈左偏分布。
3.6答 :频数分布表()lg 100lg()2111 6.64lg(2)lg 20.30103n K =+=+=+=,取k=72、确定组距:组距=( 最大值 - 最小值)÷组数=(61-40)÷7=3,取3 3、分组频数表(根据实际资料,调整成分5个组)从直方图看,数据的分布呈双峰分布。
3.7频数分布表从直方图看,数据的分布呈左偏分布3.8(1)数值型数据(2)频数分布表()lg 60lg() 1.77815111 6.91lg(2)lg 20.30103n K =+=+=+=,取k=72、确定组距:组距=( 最大值 - 最小值)÷ 组数=(9+25)÷7=4.86,取5从直方图看,数据的分布呈左偏分布。
3.9自学考试人员年龄分布集中在20-24之间,分布图呈右偏。
3.103.113.12 (1)复式条形图(2)甲班成绩分布图近似正态分布,分布较均衡;乙班成绩分布图右偏。
(3)根据雷达图,两班成绩分布不相似。
3.133.14第四章习题答案4.1数据排列:2,4,7,10,10,10,12,12,14,15(1)众数:10;中位数:10平均数:9.6(2)四分位数:QL 位置=410=2.5.所以QL=274+=5.5Q U 位置=430=7.5,所以QU=21412+=13(3)标准差:4.17(4)峰度—0.25,偏度—0.694.2(1)众数:19;23中位数:23平均数:24 (2)四分位数:Q L 位置=425=6.25.所以Q L =19+0.25^0=19 Q U 位置=475=18.75,所以Q U =25+2^0.75=26.5(3)标准差:6.65(4)峰度0.77,偏度1.084.3(1)茎叶图略(2) 平均数:7,标准差0.71(3)第一种方式的离散系数x s v s ==2.797.1=0.28 第二种方式的离散系数x s v s ==771.0=0.10 所以,第二种排队方式等待时间更集中。
(4)选择第二种,因为平均等待的时间短,而且等待时间的集中程度高4.4 (1)平均数:274.1,中位数:272.5(2)Q L 位置=430=7.5.所以Q L =258+0.25^3=258.75 Q U 位置=490=22.5,所以Q U =284+7^0.75=289.25(3)日销售额的标准差:21.174.5.甲企业总平均成本nf Mx ki ii∑==1=3406600=19.41(元)乙企业总平均成本nf Mx ki ii∑==1=(元)29.183426255= 所以甲企业的总平均成本比乙企业的高,原因是甲企业高成本的产品B 生产的产量比乙企业多,所以把总平均成本提高了。