当前位置:文档之家› 统计学整理讲解

统计学整理讲解

统计学整理讲解
统计学整理讲解

第1章

什么是统计学?

统计学是研究收集数据,整理数据,分析数据以及由数据分析得出结论的方法,简称为“数据的科学”。

统计滥用

——不好的样本

——过小的样本

——误导性图表

——局部描述

——故意曲解

统计应用上的两个极端

——不用或几乎不用统计

——简单问题复杂化

随机性和规律性

当我们不能预测一件事情的结果时,这件事就和随机性联系起来了。

通过对看起来随机的现象进行统计分析,统计知识能够帮助我们把随机性归纳于可能的规律性中。统计从我们如何观察事物和事物本身如何真正发生这两个方面帮助我们理解随机性和规律性的重要性。因此,统计可以看做是一项对随机性中的规律性的研究。

规律也表现出某种随机性。

在这种意义下来说,统计就成了对数据中的偏差问题的研究。根据作为统计基础的数学理论,我们可以确定一项调查中的某一比例有多大的随机性,以及在下一次的重复调查中,这个比例可能有多大的偏差。我们还可以指出,两个比例之间的差异是否大到了随机性本身所不能解释的地步。

概率

概率是一个0到1之间的数,它告诉我们某一事件发生的机会有多大。

?概率为统计学的第三个方面——如何从数据中得出结论——奠定了基石。

?我们可能永远不能确定两个数字的差异是否超出了随机性本身所预期的范围,但是我们可以确定,这种差异发生的概率是大还是小。根据这个基本思想,在很多情况下,我们可以得出关于我们所处的这个世界的重要结论。

变量(variable)

是指一个可以取两个或更多个可能值的特征、特质或属性。比如,性别是取两个值的变量,因为一个人只可能是男性或女性。还有其它变量的例子,如人的寿命,体重,以及汽车每升汽油所能行驶的距离,等等。

变量的值(value)

通常是对某一特定个体的度量,特定个体可能是指一个人,一个家庭,一个地区,或一个国家。表1.1列出了一些变量、变量的取值及其所测量的个体的例子。从表中可知,性别变量是以人为个体的观测,孩子的数目是以家庭为个体的观测。

变量,值和个体

变量变量的值个体性别男,女人

学历小学,中学,本科,

硕士,博士

失业有工作,无工作人孩子数0, 1, 2, 3,…家庭

贫困程度严重,一般,边缘,

没有

地区

?上面介绍的是经验变量,级处理的对像是我们周围可观测到的物质世界中的事物。

?用数学方法推导的变量称为理论变量——z,t,和F变量。

?与变量相对的概念是常数。在统计中经常使用的一种被称做参数的常数。

1.定量变量或数值变量

–可以用阿拉伯数据来记录其观察结果

–如“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”

–定量变量的观察结果称为定量数据或数值型数据

2.分类变量

–表现为不同的类别

–如“性别”、“企业所属的行业”、“学生所在的学院” 等

–分类变量的观察结果就是分类数据

3.顺序变量或有序分类变量

–具有一定顺序的类别变量

–如考试成绩按等级,一个人对事物的态度

–顺序变量的观察结果就是顺序数据或有序分类数据

分类变量和顺序变量统称为定性变量

数据的收集

数据收集的第一个准则是要清楚测量的是什么。换句话说,变量必须有一个明确的适合研究目的的定义。

观测数据

数据收集有两种主要方法,其中一种是当我们观测现实世界时收集到的数据,如在不同城市中的流动人口数量。观测数据是指仅通过对世界的观察(而没有操纵或控制它)所得到的数据。收集观测数据的研究者们尽量不干涉研究对象的行为模式。

数据的来源——观测研究

1.抽样调查(sample survey)

2.普查(census)

3.抽样的精髓:从检查一部分来得知全体。

4.抽样调查是一种很重要的观测研究,选中这些人是因为他们具有代表性局限性:time

and cost

总体和样本

?收集数据是为了从收集的个体中得出结论。

?所有我们感兴趣的个体就组成了总体。比如,你读本教材这一时刻,我国所有居民就构成了一个总体。

?有时我们能够收集到总体中所有个体的数据。在这种情况下,我们就是对总体做了普查(census)。我国进行的第六次全国人口普查就是希望确定我国所有居民数。

?然而,在苛刻的现实生活中,由于资金、时间有限以及不断变化的环境条件,普查通常是很困的。此时,我们需要把收集数据限制在总体的一个样本上,样本是总体的中的一个被选中的部分。

样本的选择

?我们希望基于样本得出的结论能够适用于该样本所属的总体,这依赖于获得一个"好"

的样本,否则这是不可能实现的。

?由于样本选择对于结果的可信度有重要作用,所以根据正确的统计原理选择样本是非常必要的。

概率抽样

1.根据一个已知的概率来抽取样本单位,也称随机抽样

2.特点

–按一定的概率以随机原则抽取样本

抽取样本时使每个单位都有一定的机会被抽中

–每个单位被抽中的概率是已知的,或是可以计算出来的

–当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率

随机样本

指一个合适的、能够被推广应用于更大的总体的统计样本。

当一个总体中的名字或代码被放进一个纸箱子里,搅拌均匀,并随机抽取,其结果就是一个简单随机样本

简单随机抽样

1.从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相

同的机会(概率)被抽中——帽子抽签法

2.抽取元素的具体方法有重复抽样和不重复抽样

可以使用随机数表或电脑产生的随机数字来实现

1.特点

–简单、直观。

–用样本统计量对目标量进行估计比较方便

2.局限性

–抽出的单位很分散,给实施调查增加了困难

–没有利用其他辅助信息以提高估计的效率

简单随机样本

1.由简单随机抽样形成的样本

2.从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n样本都有相同的

机会(概率)被抽中

3.参数估计和假设检验所依据的主要是简单随机样本

分层抽样

1.将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽

取样本

2.优点

–保证样本的结构与总体的结构比较相近,从而提高估计的精度

–组织实施调查方便

–既可以对总体参数进行估计,也可以对各层的目标量进行估计

系统抽样

1.将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位

作为初始单位,然后按事先规定好的规则确定其他样本单位

-先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位

2.优点:操作简便,可提高估计的精度

3.缺点:对估计量方差的估计比较困难

整群抽样

1.将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全

部实施调查

2.特点

–抽样时只需群的抽样框,可简化工作量

–调查的地点相对集中,节省调查费用,方便调查的实施

–缺点是估计的精度较差

普查

?又称“清点”。企图把整个总体纳入样本的抽样调查。

?即使有政府的强大后盾,普查也不是一定做得到的。

?但一个糟糕的普查往往比不上一个设计和实施都比较好的抽样调查。

方便样本:如何产生一个"坏的"样本

能够很容易、很经济地得到的样本称为方便样本

?从方便样本中得出的结果有时候很难推广到整个总体。

收集观测数据时的错误和误差

?随机抽样误差是样本统计量和总体参数之间的差距,是在选取样本时因机遇造成的。

?非抽样误差是和“从总体取样本”这个动作无关的误差。非抽样误差即使在人口普杳中也可能出现。

调查中的有些误差纯粹是统计上的,主要的统计误差即所谓的抽样误差。

抽样误差:并非错误的"误差"

未响应误差

未响应误差是指由于包含在样本中的一部分人未回答调查而造成的误差。

?一些经验表明,在大部分情况下,未响应者和响应者并无多大差别。如果我们开始时有一个高的响应率,那么可假定未响应者也依同样的比例作出回答。但是如果响应率很低,例如不超过50%,那么不响应的影响可能会很大。

响应误差

响应误差是在调查过程中,由于问题的提问方式、问题所处的位置或访员的影响而使得响应者在回答问题时产生的偏差。

实验数据:寻找造成结果的原因

?实验数据是指在实验中控制实验对象而收集到的变量的数据。实验是检验变量间因果关系的一种方法。在实验中,研究者试图控制某一情形的所有相关方面,操纵少数感兴趣

的变量,然后观察实验结果。

实验的特点是:实验者(调查者)存心要改变被实验者的行为。

在做实验时,我们不只是观察个体或问他们问题,而是刻意加上某些处理,以期能观察其反应。观测研究VS实验

?实验比观测研究更有优势,因为实验可以为“因果关系”提供良好的证据。

?如果我们适当的设计实验,例如使得两组对象的其他变量——年龄、教育程度等基本接近,所以两组之间只有一项系统性的差别,就是一组参加了工作培训,另外一组没有。

第2章分类数据的描述方法

数据分析的三个原则

2.2 频数表

2.3 统计图

2.4 列联表

数据分析包括三种形式:为数据画一个图,制作一个表或者计算一些我们感兴趣的东西。

?这可以帮助我们对数据进行简化。简化使得理解数据和从数据中提取信息变得容易了。

?但是数据简化有一个不足之处,就是难以从简化的形式中恢复原始数据,因此,当我们分析数据时,几乎总会丢失某些信息。

数据分析的三个原则

1、绘制一个图。图像可以帮助你看到从数据表里看不到的信息,有助于你选择分析的方法,帮你明确思考隐藏在数据背后的模式和关系。

2、绘制一个图。精心设计的图像在分析工作中很重要。它能够展现重要的特征和模式,有时候可以揭示出你意想不到的事情:值得注意的(可能是错误的)数据或意想不到的模式。

3、绘制一个图。使用一个精心挑选的图像是向其他人汇报你的数据分析结果的最佳方式。

频数表

1.频数:落在各类别中的数据个数

2.比例:某一类别数据个数占全部数据个数的比值

3.百分比:将对比的基数作为100而计算的比值

4.比率:不同类别数值个数的比值

频数表或频数分布表可以帮助了解变量取值的分布状况。

频数表是遵循既不重叠又不遗漏的原则,按变量(数据特征)的取值归类分组,把总体的所有单位按组归并排列,其各个组别所包含的数据数目(频数)的汇总表格。简而言之,频数表包括两个要素:总体按其标志所分的组和各组所分布的单位数量。

统计图

?如果想获得更生动的展示,我们可以使用统计图。

?统计图是用几何图形或具体事物的形象来表现统计数据的一种形式。

?统计图既可以节省大量文字叙述,又可便于数据的对比分析与积累。利用统计图表现统计数据,能更为鲜明醒目、一目了然、形象具体地显示现象之间的相互关系。

?按照图形的形式,统计图大体上可以分为几何图、象形图和统计地图三种。

(1)几何图。几何图是利用几何的形和线来表明统计数据的图形,包括条形图、饼图等。(2)象形图。象形图是以表示现象本身形象的长度、大小、多少来表示数值大小的一种图形。例如用油桶的大小表示的某地1990年、2000年和2005年三年的原油产量

(3)统计地图。统计地图是用不同的颜色或纹理表示变量或某种指标在地域上的分布特征及规律,用以显示不同地域事物数量的分布情况。例如可以利用颜色的深浅来表示某地区各县某种产品的生产情况。

面积原则

?在得到频数表之后,我们就可以按照数据分析的三个原则来对数据进行绘图。但是不能随便做图,因为一个糟糕的图像反而会歪曲我们对数据的认识。

?获得最佳数据展示的一个基础原则就是面积原则,即图像一部分所占的面积应该与数据的量级对应。

条形图和柱形图

?分类数据的一个常用统计图是条形图。

?条形图是用等宽直条的长短来表示各个相互独立的指标大小的图形,适用于相互独立的数据(数据有明确分组,不连续)。

?条形图可以描述那些已经用频数或频率汇总了的定性变量。一个坐标轴代表定性变量的各个取值,在每个变量位置的条的长度和其所代表的水平的频数或频率成比例。

?条形图分为单式和复式两种,单式适用于只有一组观察数据,复式适用于有若干组观察数据。

?条形图有很多变种。比如,纵轴和横轴可以互换,这决定条形是垂直放置(柱形图)还是水平放置。条形图还可以描述离散定量变量数据的频数、频率或概率分布。

帕累托图

帕累托图是根据“关键的少数和次要的多数”的原理而制做的。

饼图

?饼图(pie chart)又叫圆形图,是一个圆面积为100%,由许多扇形组成的圆,各个扇形的大小比例等于变量各个水平(或类别)的频率或比例,即表示了不同组成部分的相对重要性。饼图对描述定类尺度的数据特别有用。

饼图比条形图简单,描述比例较直观。但是当变量太多时,饼图就不那么好看了。但是,有时候我们不容易看出不同类别之间的差异。

列联表

?列联表是由两个或两个以上变量进行交叉分类得到的频数分布表。

?列联表中间的各个变量不同水平的交汇处,就是这种水平组合出现的频数或计数

?构成列联表的变量都是定性变量或定序变量。一个r 行c列的列联表称为r×c列联表,一般的把2×2的二维列联表又称为交叉表。

?列联表可以有很多维。维数多的叫做高维列联表

列联表中有三种百分数,用列联表中的数据除以最后一列的数据得到行百分数。

用列联表中的数据除以最后一行的数据得到列百分数。

而用列联表中的数据除以总数得到总的百分数。

?使用列联表更感兴趣的问题是了解变量之间有没有关联。

?在列联表里还有一种情况是,如果一个变量的分布对于另一个变量的所有取值保持不变,则我们可以说这个两个变量是独立的(independent),这表明这些变量之间没有关联

第3章定量数据的描述方法

3.1.1 统计数据的分组

数据分组是统计数据处理的第一步,它是按照统计研究的目的,将数据分别列入不同的组内。在分组时,如果按照性别、质量等级等定性指标分组,称为按品质标志分组,比如第二章频数表就是这种情况;如果按照数量或数值等定量指标分组,称为按数量标志分组。

本章主要是按数量标志分组。将数据按其分组标志进行分组的过程,就是次数分配形成的过程。次数分配就是观测值按其分组标志分配在各组内的次数。

第1步,确定组的个数。太多或太少的组都不能揭示数据集的基本形状,确定组数的一个有用法则是“2的k次方法则”,选择使2k 大于观测值个数(n)的最小值(k)作为组的个数。在本例中,合适组数是6。

第2步,确定组距。组距是每一组最大值与最小值之差。一般地,所有各组的组距或组宽都应该是相同的。所有组加起来必须至少覆盖从最小值到最大值的距离。确定组距的公式是,其中i是组距,Max是最大观测值,Min是最小观测值,k是组数。在实际中,组距大小通常四舍五入到某个简便的数,比如10或100的倍数。在这个案例中,将更乐于使用10元作为组距。第3步,确定各组的组限。每个观测值只归入一个组,必须避免重叠的或者不清楚的组限。由于我们把组距四舍五入以得到简便的组距大小,所以我们覆盖了比需要的范围要大的范围。当然,我们应该选择简便的10的倍数作为组限。

第4步,把股价变化值分配到相应的组内,数出每组中的项目个数。在-10元~0元这一组中有26个观测值,在10元~20元这一组中有1个观测值。于是得到下表3.2。

直方图(histogram)主要用以表示分组数据的频数分布特征,是分析总体数据分布特征最有用的工具之一。

在直方图中,把横轴分成若干通常是等距的区间(区间可以不等距,但是只有等距分组的直方图才能直观反映数据的分布特征,因此通常采用等距分组方法绘制直方图),然后计算数据在各个区间上的频数,并在各区间上画出高度与数据在相应区间的频数成比例的矩形条。这样,直方图利用一系列相邻的矩形描述频数分布。

频数折线图(frequency polygon)类似于直方图,它以各组标志值的中点位置作为该组标志的代表,然后用折线将各组次数(即每组频数)连接起来,形成了折线图。

直方图和频数折线图都便于我们对数据的主要特征(高点,低点,集中点等等)得到直观的印象。

尽管两种图形在用途上是相似的,但是直方图的优点是用矩形条描述每一组,矩形条的高度表示每组的频数或频率。然而,频数折线图也有优于直方图的地方,它使我们能直接比较两个或多个频数分布。

茎叶图(stem-and-leaf plot)是一种可以较简练的表现数据信息的图表,类似于直方图,但包含了更多的信息。

在茎叶图中,每一个数值被分成两部分,打头的数字作为茎,尾随的数字作为叶。茎沿竖直轴线放置,叶沿水平轴线堆放。它像一片带有长短不一的叶子的茎。

茎叶图在数据量不那么大时,既显示了完全的原始数据,又显示了数据分布的形状。因此,茎叶图非常适合描述少量数据(十几个到一百多个数据)的分布,但是,当数据量很大时,茎叶图就显然不方便了。

线图(line chart)经常用来描述时间序列数据,用以反映某些指标或变量随时间的变化趋势,有时候也称为时间序列图(time series plot)。

时间序列图事实上只不过是一个后面将要介绍的散点图,它以度量值为纵轴,以度量值发生的时间或者次序为横轴建立。时间序列图揭示了所监控的变化量(如销售额)的趋势和变化。

3.2.2 箱线图

3.3.1 众数

众数有一些优点。

从图表(如条形图)中很容易获得一个变量的众数。

对于分类变量,它是描述平均值的一个最好办法。

对于一个有二众数分布且中间值只有很少观测值的变量,取两个众数比取一个仅有几个观测值的中间值包含更多的信息。

另外,众数具有不受极端大值或者极端小值影响的优点。在某些情况下,众数是一个较好的代表值。比如,当要了解大多数家庭的收入状况时,我们可以用到众数。再比如,在编制物价指数时,农贸市场上某种商品的价格常以很多摊位报价的众数值为代表。

众数也存在着一些缺陷。

一个变量的众数值只能传递这个数据集中的信息的很少一部分。因此只用众数,数据集中的信息就不能被很好地使用。

另外众数可以告诉我们,这个值出现的次数比其它的值出现的次数多,但它并未告诉我们它较别的数值多的程度。一个由100人组成的群体,无论它有51个女人(和49个男人)或者99个女人(和1个男人),其性别变量的众数都是女人。这两种情况是非常不同的,但是众数并不能区分它们。

3.3.2 中位数

中位数的一些优点。

首先中位数只需要很少量的计算。

其次,中位数很好地代表了一组观测值的中点,特别是当直方图显示出这是一个偏斜分布时。另外,中位数对极端值不敏感,在某些情况下这将是一种优点。中位数不易受极端值影响的性质称为稳健性(robust)。

中位数具有唯一性,一组数据只有一个中位数。

中位数还有这样一个性质,就是数据值与中位数之差的绝对值之和最小,也就是说,如果用其他任何数值(比如均值、众数等)代替中位数,其绝对值之和都大于数据值与中位数之差绝对值的和。这个性质表明中位数与数据值的距离最短。例如,在若干个连锁店间选择仓库或商品配送中心就可以利用这一性质,因而在工程设计中有应用价值。

定性数据也可以计算中位数。

中位数也有一些缺点:

除了中间值,中位数并未利用其它观测值。这样它就没有利用数据中的所有信息。

中位数对极端值不敏感,这在某些情况下是一种缺点。

3.3.4 众数、中位数和均值间的关系

3.4 分布的离散程度

3.4.1极差和四分位差

极差是极大值和极小值之间的差。

前面两个高三男生身高数据的极差分别为50cm和32cm。

箱线图盒子的长度为两个四分位数之差,称为四分位数极差或四分位间距。它描述了中间半数观测值的散布情况。

极差和四分位极差实际上各自只依赖于两个值,信息量太少。

3.4.2标准差和方差

另一个常用的尺度统计量为(样本)标准差。度量样本中各数值到均值距离的一种平均。

标准差实际上是方差的平方根。

均值的标准误差比观测值的标准差小,这就是说,均值的变化比变量原始观测值的变化小。

3.4.4 变异系数

标准差与平均数的比值(相对值)。

如果数据具有以下特点之一,就可以使用变异系数。

数据具有不同的单位(比如工资和矿工的天数)

数据具有相同的单位,但是均值相差甚远(比如大象和老鼠的体重)

3.6数据的标准得分

虽然这种均值和标准差不同的数据不能够直接比较,但是可以把它们进行标准化,再比较标准化后的数据。一个标准化的方法是把某样本原始观测值(亦称得分,score)和该样本均值之差除以该样本的标准差;得到的度量称为标准得分(standard score,又称为z-score、

第四章、概率

4.1 什么是概率

概率与某事件发生的机会、可能性或确定程度有关。

概率就是一个数字。介于0和1之间,描述一个事件发生的经常性。

小概率(接近零)的事件很少发生,而大概率(接近1)的事件则经常发生。

试验是导致所有可能观测中有且仅有一个出现的过程。在统计学中一个试验有两个或两个以上的结果,发生哪一个都是不确定的。

结果(outcome)是指一个试验的特定结果。例如,抛硬币是一个试验,你可以观察抛硬币,但你不知道将会出现“正面”或是“反面”,因为一个结果是“正面”,另一个是“反面”。

一个试验的结果组成的集合称之为事件。

4.5.2 正态分布

正态分布的密度曲线是一个对称的钟型曲线(最高点在均值处)。正态分布也是一族分布,各种正态分布根据它们的均值和标准差不同而有区别。

一个正态分布用N(μ,σ2) 表示;其中μ为均值,而σ2为方差(标准差的平方)。也常用N(μ,σ)来表示,这里σ为标准差。

标准差为1的正态分布N(0, 1)称为标准正态分布

标准正态分布的密度函数用φ(x)表示。

任何具有正态分布N(μ,σ2)的随机变量X都可以用简单的变换(减去其均值μ,再除以标准差σ):Z=(X-μ)/σ,而成为标准正态随机变量。这种变换和标准得分的意义类似。

4.5.3 t-分布

用样本标准差来代替未知的总体标准差时,得到的结果分布就不再是标准正态分布了。它的密度曲线看上去有些象标准正态分布,但是中间瘦一些,而且尾巴长一些。这种分布称为t-分布(t-distribution,

不同的样本量通过标准化所产生的t分布也不同, 这样就形成一族分布。

t分布族中的成员是以自由度来区分的。这里的自由度等于样本量减去1(如果样本量为n,刚才定义的t分布的自由度为n-1)。

由于产生t分布的方式很多,简单说自由度就是样本量减1是不准确的。自由度甚至不一定是整数。

统计学答案整理

统计学答案整理 一,单项选择题 1、质量指标( D )。 A. 不能用数值来反映 B. 反映事物的本质联系 C. 必需用数值来反映 D. 有时能够用数量指标来反映 2、从认识的顺序上来讲,一项完整的统计工作可分为四个阶段,即( B )。 A.统计调查、统计整理、统计设计和统计分析 B.统计设计、统计调查、统计整理和统计分析 C.统计调查、统计设计、统计整理和统计分析 D.统计设计、统计整理、统计调查和统计分析 3、指出错误的命题( B )。 A.凡统计指标都可以表示为具体的量 B.凡统计标志都可以表示为具体的量 C.质量指标反映的是现象之间的数量关系 D.数量指标反映的是总体现象量的规模 4、统计认识对象是( A )。 A. 社会经济现象的数量方面 B. 社会经济现象的质量方面 C. 社会经济现象的数量方面和质量方面 D. 社会经济现象的所有方面 5、统计所研究的是( A )。 A. 社会经济的总体现象 B. 社会经济的个体现象 C. 社会经济的总体现象或个体现象 D. 非社会经济的总体现象 6、统计学的研究方法有很多,其特有的方法是( C )。 A. 统计推断法 B. 统计分组法 C. 大量观察法 D. 综合指标法 7、社会经济统计中最常用、最重要的分布是( C )。 A. 连续型变量分布 B. 离散型变量分布 C. 正态分布 D. 其他类型分布 8、按变量的性质和数据的多少划分,变量数列可以分为( B )。 A. 等距数列与异距数列 B. 单项数列和组距数列 C. 开口组数列和闭口组数列 D. 等差数列和等比数列 9、将总量指标按其反映总体总量的内容不同分为( A )。 A.总体标志总量指标和总体单位总量指标 B.时期指标和时点指标 C.实物总量指标和价值总量指标 D.动态指标和静态指标 10、若以我国工业企业为研究对象,则单位总量指标为( A )。 A. 工业企业总数 B. 工业职工总人数 C. 工业设备台数 D. 工业增加值 11、加权算术平均数的计算过程中,权数的加权作用表现在( B )。 A. 权数绝对数大小 B. 权数相对水平大小 C. 权数平均值大小 D. 权数总和大小 12、平均数指标反映了同质总体的(A)。 A. 集中趋势 B. 离中趋势 C. 变动趋势 D. 分布特征 13、由相对数指标计算平均数时,应采用( D )。 A. 算术平均法 B. 调和平均法 C. 几何平均法 D. 根据所掌握资料而定

统计学名词解释

统计学名词解释 第一章绪论 1.随机变量:在统计学上,把取值之间不能预料到什么值的变量。 2.总体:又称母全体、全域,指具有某种特征的一类事物的全体。 3.个体:构成总体的每个基本单元称为个体。 4.样本:从总体中抽取的一部分个体,称为总体的一个样本。 5.次数:指某一事件在某一类别中出现的数目,又称为频数。 6.频率:又称相对次数,即某一事件发生的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据总个数去除。 7.概率:某一事物或某一情在某一总体中出现的比率。 8.观测值:一旦确定了某个值。就称这个值为某一变量的观测值。 9.参数:又称为总体参数,是描述一个总体情况的统计指标。 10.统计量:样本的那些特征值叫做统计量,又称特征值。 第二章统计图表 1.统计表:是由纵横交叉的线条绘制,并将数据按照一定的要求整理、归类、排列、填写在内的一种表格形式。一般由表号、名称、标目、数字、表注组成。 2.统计图:一般采用直角坐标系,通常横轴表示事物的组别或自变量x,称为分类轴。纵轴表示事物出现的次数或因变量,称为数值轴。一般由图号及图题、图目、图尺、图形、图例、图组成。 3.简单次数分布表:依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表,适合数据个数和分布范围比较小的时候用。 4.分组次数分布表:数据量很大时,应该把所有的数据先划分在若干区间,然后将数据按其数值大小划归到相应区域的组别内,分别统计各个组别中包括的数据个数,再用列表的形式呈现出来,适合数据个数和分布范围比较大的时候用。 5.分组次数分布表的编制步骤: (1)求全距 (2)定组距和组数 (3)列出分组组距 (4)登记次数 (5)计算次数 6.分组次数分布的意义: (1)优点:A.可将杂乱无章数据排列成序,以发现各数据的出现次数及分布状况。B.可显示一组数据的集中情况和差异情况等。 (2)缺点:原始数据不见了,从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入,出现误差,即归组效应。 7.相对次数分布表:用频数比率或百分数来表示次数 8.累加次数分布表:把各组的次数由下而上,或由上而下加在一起。最后一组的累加次数等于总次数。 9.双列次数分布表:对有联系的两列变量用同一个表表示其次数分布。

统计学计算题整理

: 典型计算题一 1、某地区销售某种商品的价格和销售量资料如下: 根据资料计算三种规格商品的平均销售价格。 解: 36== ∑∑ f f x x (元) 点评: 第一,此题给出销售单价和销售量资料,即给出了计算平均指标的分母资料,所以需采用算术平均数计算平均价格。第二,所给资料是组距数列,因此需计算出组中值。采用加权算术平均数计算平均价格。第三,此题所给的是比重权数,因此需采用以比重形式

表示的加权算术平均数公式计算。 2、某企业1992年产值计划是1991年的105%,1992年实际产值是1991的的116%,问1992年产值计划完成程度是多少? 解: %110% 105% 116=== 计划相对数实际相对数计划完成程度。即1992年计划完成程度为 110%,超额完成计划10%。 点评:此题中的计划任务和实际完成都是“含基数”百分数,所以可以直接代入基本公式计算。 3、某企业1992年单位成本计划是1991年的95%,实际单位成本是1991年的90%,问1992年单位成本计划完成程度是多少? 解: 计划完成程度 %74.94% 95% 90==计划相对数实际相对数。即92年单位成本计划完成程度是 94.74%,超额完成计划5.26%。 点评:本题是“含基数”的相对数,直接套用公式计算计划完成程度。 4、某企业1992年产值计划比91年增长5%,实际增长16%,问1992年产值计划完成程度是多少? 解: 计划完成程度%110% 51% 161=++= 点评:这是“不含基数”的相对数计算计划完成程度,应先将“不含基数”的相对数还原成“含基数”的相对数,才能进行计算。 5、某企业1992年单位成本计划比1991年降低5%,实际降低10%,问1992年单位成

统计学答案

统计学课本课后作业题(全) 题目: 第1章:P11 6,7 第2章:P52 练习题3、9、10、11 第3章:P116思考题12、14 练习题16、25 第4章:P114 思考题6,练习题2、4、6、13 第5章:P179 思考题4、练习题3、4、6、11 第6章:P209 思考题4、练习题1、3、6 第7章:P246思考题1、练习题1、7 第8章:P287 思考题4、10 练习题2、3 第一章 6..一家大型油漆零售商收到了客户关于油漆罐分量不足的许多抱怨。因此,他们开始检查供货商的集装箱,有问题的将其退回。最近的一个集装箱装的是2 440加仑的油漆罐。这家零售商抽查了50罐油漆,每一罐的质量精确到4位小数。装满的油漆罐应为4.536 kg。要求: (1)描述总体;最近的一个集装箱内的全部油漆; (2)描述研究变量;装满的油漆罐的质量; (3)描述样本;最近的一个集装箱内的50罐油漆; (4)描述推断。50罐油漆的质量应为×50=226.8 kg。 7.“可乐战”是描述市场上“可口可乐”与“百事可乐”激烈竞争的一个流行术语。这场战役因影视明星、运动员的参与以及消费者对品尝试验优先权的抱怨而颇具特色。假定作为百事可乐营销战役的一部分,选择了1000名消费者进行匿名性质的品尝试验(即在品尝试验中,两个品牌不做外观标记),请每一名被测试者说出A品牌或B品牌中哪个口味更好。要求: 答:(1)总体:市场上的“可口可乐”与“百事可乐” (2)研究变量:更好口味的品牌名称; (3)样本:1000名消费者品尝的两个品牌 (4)推断:两个品牌中哪个口味更好。 第二章 3.某百货公司连续40天的商品销售额如下(单位:万元):

统计学名词解释

1、统计学 统计学是一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技术的科学,是一门独立的、实用性很强的通用方法论科学。 2、指标和标志 标志是说明总体单位属性或特征的名称。指标是说明总体综合数量特征和数量关系的数字资料。 3、总体、样本和单位 统计总体是统计所要研究的对象的全体,它是由客观存在的、具有某种共同性质的许多个体所构成的整体。简称总体。构成总体的个体则称为总体单位,简称单位。样本是从总体中抽取的一部分单位。 4、统计调查 统计调查是根据统计研究的目的和要求、采用科学的方法,有组织有计划的搜集统计资料的工作过程。它是取得统计数据的重要手段。 5、统计绝对数和统计相对数 反映总体规模的绝对数量值,在社会经济统计中称为总量指标。统计相对数是两个有联系的指标数值之比,用以反映现象间的联系和对比关系。 6、时期指标和时点指标 时期指标是反映总体在一段时期内累计总量的数字资料,是流量。时点指标是反映总体在某一时刻上具有的总量的数字资料,是存量。 7、抽样估计和假设检验 抽样估计是指根据所抽取的样本特征来估计总体特征的统计方法。假设检验是先对总体的某一数据提出假设,然后抽取样本,运用样本数据来检验假设成立与否。 8、变量和变异 标志的具体表现和指标的具体数值会有差别,这种差别就称为变异。数量标志和指标在统计中称为变量。 9、参数和统计量 参数是反映总体特征的一些变量,包括总体平均数、总体方差、总体标准差等。统计量是反映样本特征的一些变量,包括样本平均数、样本方差、样本标准差等。 10、抽样平均误差 样本平均数与总体平均数之间的平均离散程度称之为抽样平均误差,简称为抽样误差。重复抽样的抽样平均误差为总体标准差的1/n。 11、抽样极限误差 抽样极限误差是指样本统计量和总体参数之间抽样误差的可能范围。我们用样本统计量变动的上限或下限与总体参数的绝对值表示抽样误差的可能范围,称为极限误差或允许误差。 12、重复抽样和不重复抽样 重复抽样也称为回置抽样,是从总体中随机抽取一个样本时,每次抽取一个样本单位时都放回的抽样方式。不重复抽样也叫不回置抽样,它是在每次抽取样本单位时都不放回的抽样方式。13、点估计和区间估计 点估计也叫定值估计,就是直接用抽样平均数代替总体平均数,用抽样成数代替总体成数。区间估计是在一定概率保证下,用样本统计量和抽样平均误差去推断总体参数的可能范围的估计方法。 14、统计指数 广义上来说,它是表明社会经济现象的数量对比关系的相对指标。狭义上来说,它是反映不能直接相加对比的复杂总体综合变动的动态相对数。 15、综合法总指数 凡是一个总量指标可以分解为两个或两个以上的因素指标时,将其中一个或一个以上的因素指

[整理]东财《统计学》复习题及参考答案.

一、单项选择题 (只有一个正确答案) 【1】下列属于位置平均数的是()。 A: 算术平均数 B: 调和平均数 C: 几何平均数 D: 中位数 答案: D 【2】产业部门分类是按照主产品( )的原则对产业活动单位进行的部门分类。 A: 生产性 B: 多样性 C: 同质性 D: 先进性 答案: C 【3】国民经济核算可以提供对一个( )的全面观察。 A: 企业 B: 家庭 C: 单位 D: 经济体 答案: D 【4】根据同一资料计算的数值平均数通常是各不相同的,三者之间的关系是()。 A: 算术平均数≥几何平均数≥调和平均数 B: 几何平均数≥调和平均数≥算术平均数 C: 调和平均数≥算术平均数≥几何平均数 D: 没有确定的关系 A 答案: 【5】下列属于双边备择假设的有()。 A: B: C: D: 以上都不对 答案: C 【6】在假设检验中,我们都提出原假设,与原假设对立的假设称为()。 A: 备择假设 B: 单边检验 C: 双边检验 D: 以上都不对 答案: A 【7】可以用来显示定性数据的统计图是()。

B: 直方图 C: 条形图 D: 散点图 答案: C 【8】对水库中鱼的存量,往往采用()获得数据。 A: 重点调查 B: 抽样调查 C: 典型调查 D: 全面调查 答案: B 【9】当一个变量增加时,相应的另一个变量随之减少,我们称这两个变量之间为()。 A: 单相关 B: 复相关 C: 正相关 D: 负相关 答案: D 【10】平均增长量等于()。 A: 逐期增长量之和/逐期增长量的个数 B: 增长量/报告期水平 C: 各期水平与上一期水平之比 D: 以上都不对 答案: A 【11】两个相邻定基发展速度之比,等于相应时期的()。 A: 增长速度 B: 环比发展速度 C: 平均发展速度 D: 累计增长量 答案: B 【12】若销售量增长5%,零售价格增长2%,则商品销售额增长()。 A: 7% B: 10% C: 7.1% D: 15% 答案: C 【13】期初存量与本期流量之和,形成( )。 A: 期末存量 B: 期初流量 C: 期末流量 D: 本期存量 答案: A 【14】不变价国内生产总值核算的目的是剔除按现期市场价格衡量的国内生产总值中的( )变动因素,以反映一定时期内生产活动最终成果的实际变动。 A: 价格

统计学名词解释汇总

统计学名词解释汇总 WTD standardization office【WTD 5AB- WTDK 08- WTD 2C】

1什么是统计学?统计方法可分为哪两大类?统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。方法有描述统计和推断统计两类2统计数据可分为哪几种类型?不同类型数据各有什么特点?按采取计量尺度,分类、顺序、数值型数据;按统计数据收集方法,观测、实验数据;按被描述对象与时间关系,截面、时间序列数据 统计数据;按所采用的计量尺度不同分; (定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述; (定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。 (定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。 统计数据;按统计数据都收集方法分; 观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。 实验数据:在实验中控制实验对象而收集到的数据。 统计数据;按被描述的现象与实践的关系分;

截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。 3举例说明总体、样本、参数、统计量、变量这几个概念:对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。 4什么是有限总体和无限总体?举例说明 有限总体指总体的范围能够明确确定,而且元素的数目是有限可数的,如若干个企业构成的总体,一批待检查的灯泡。无限总体指总体包括的元素是无限不可数的,如科学实验中每个试验数据可看做是一个总体的一个元素,而试验可无限进行下去,因此由试验数据构成的总体是无限总体 5变量可分为哪几类? 变量可以分为分类变量,顺序变量,数值型变量。 变量也可以分为随机变量和非随机变量。经验变量和理论变量。 6举例说明离散型变量和连续型变量

统计学计算题汇总

第二章 六、计算题. 1.下面是某公司工人月收入水平分组情况和各组工人数情况: 月收入(元)工人数(人) 400-500 20 500-600 30 600-700 50 700-800 10 800-900 10 指出这是什么组距数列,并计算各组的组中值和频率分布状况。 答:闭口等距组距数列,属于连续变量数列,组限重叠。各组组中值及频率分布如下: 2.抽样调查某省20户城镇居民平均每人全年可支配收入(单位:百元)如下: 88 77 66 85 74 92 67 84 77 94 58 60 74 64 75 66 78 55 70 66 ⑴根据上述资料进行分组整理并编制频数分布数列 ⑵编制向上和向下累计频数、频率数列 答:⑴⑵ 某省20户城镇居民平均每人全年可支配收入分布表

第三章 六、计算题. ⒈某企业生产情况如下: 要求:⑴填满表内空格. ⑵对比全厂两年总产值计划完成程度的好坏。 解:⑴某企业生产情况如下:单位:(万元) ⑵该企业2005年的计划完成程度相对数为110.90%,而2006年只有102.22%,所以2005年完成任务程度比2006好。 ⒉某工厂2006年计划工业总产值为1080万吨,实际完成计划的110%,2006年计划总产值比2005年增长8%,试计算2006年实际总产值为2005年的百分比? 解:118.8% 3.某种工业产品单位成本,本期计划比上期下降5%,实际下降了9%,问该种产品成本

计划执行结果? 解:95.79% 4.我国“十五”计划中规定,到“十五”计划的最后一年,钢产量规定为7200万吨,假设“八五”期最后两年钢产量情况如下:(万吨) 根据上表资料计算: ⑴钢产量“十五”计划完成程度; ⑵钢产量“十五”计划提前完成的时间是多少? 解:⑴102.08%;⑵提前三个月 5.某城市2005年末和2006年末人口数和商业网点的有关资料如下: 计算:⑴平均每个商业网点服务人数; ⑵平均每个商业职工服务人数; ⑶指出是什么相对指标。 解: 某城市商业情况 ⑶上述两个指标是强度相对指标。 6.某市电子工业公司所属三个企业的有关资料如下:

统计学名词解释

一、名词解释 总体:指在同一组条件下所有成员的某种状态变量的集合;或者说是某一变数的全部可能值的集合;或性质相同的个体组成的整个集团. 样本:从总体中取出来用作分析、研究的个体称样本。 随机样本:总体中的每个总体单位都有同等的机会被抽取为样本单位,由这种方法抽得的样本叫随机样本.(用随机抽样的方法,从总体中抽出一个部分;等概率抽取的样本。)随机抽样:保证总体中的每一个体在每一次抽样中都有同等的机会被取为样本。 复置抽样:保证总体中的每个个体在每次抽样中都有同等的概率被取为样本。 样本容量:样本中包含的单位数称为样本容量。(样本中变量的个数.) 观察值:每一个体的某一性状测定值叫做观察值。 变数:若干有变异的观察值叫随机变数,简称变数。 连续性变数:指在任意两个变量之间都有可能存在只有微量差异的第三个变量存在,这样一类变数称为连续性变数. 间断性变数:只能取整数的一类变数。 参数:由总体获得的代表总体的特征数.(描述总体的特征数,如μσ .)统计数:由样本获得的代表样本的特征数。(描述样本的特征数。) 数量资料(数量性状资料):以测量或称重的方式获取的试验资料称为数量资料。 计量资料、质量性状资料 次数资料:凡是试验结果以次数表示的资料称为次数资料。 算术平均数、众数 几何平均数:变量对数的算术平均数的反对数, (lg) lg Y G n = ∑ 调和平均数:变量倒数的算术平均数的反倒数, 1 () n H Y = ∑ 中位数:将变量顺序排列,处在中间的变量称中位数,计作M d。极差:一组资料中最大值与最小值的差值为极差. 方差:变数变异程度的度量,对于总体 ()2 2i Y N μ σ - = ∑ ,对于样本 2 2 () 1 Y y s n - = - ∑ 。 (描述变量平均变异程度的统计量.定义为 2 1 2 () 1 n j j Y y s n = - = - ∑ 。) EMS:期望均方,是对均方MS的期望值。 标准差:变数变异程度的度量,总体标准差: () N Y ∑- = 2 μ σ ,样本标准 差: () 1 2 - - = ∑ n y Y s .(变数的平均变异量.) 标准误:统计数变异度的度量,12 y y y s s - == 。(统计数的标准差。)

统计学习题集及答案

统计学原理 习题集学院: 班级: 学号: 姓名:

目录

第1章导论 一、判断题 1. 在对全国工业设备进行普查中,全国工业企业设备是统计总体,每台工业设备是总体单位。() 2. 总体单位是标志的承担者,标志是依附于总体单位的。() 3. 品质标志表明单位属性方面的特征,其标志值只能用文字来表现,所以品质标志不能转化为统计指标。() 4. 数量指标的表现形式是绝对数,质量指标的表现形式是相对数和平均数。 5. 统计的研究对象是客观现象总体的各个方面。() 6. 统计具有信息、咨询和监督的整体功能,在上述三个职能中,以提供咨询为主。() 7. 某生产小组有5名工人,日产零件为68件、69件、70件、71件、72件,因此说这是5个数量标志或5个变量。() 8. 统计指标有的用文字表示,叫质量指标;有的用数字表示,叫数量指标。() 二、单选题 1.要了解某企业职工的文化水平情况,则总体单位是() A、该企业的全部职工 B、该企业每一个职工的文化程度 C、该企业的每一个职工 D、该企业每一个职工的平均文化程度 2.下列总体中,属于无限总体的是() A、全国的人口总数 B、大海里的鱼 C、城市流动人口数 D、某市工业企业设备数 3.统计工作的全过程各阶段的顺序是() A、统计设计、统计分析、统计调查、统计整理 B、统计调查、统计设计、统计分析、统计整理 C、统计设计、统计分析、统计调查、统计整理 D、统计设计、统计调查、统计整理、统计分析 4.由工人组成的总体所计算的工资总额是() A、数量标志 B、数量指标 C、标志值 D、质量指标

5.几位工人的月工资分别是500元、520元、550元、600元,这几个数字是() A、指标 B、变量 C、变量值 D、标志 6.统计标志用以说明() A、总体属性和特征 B、总体某一综合数量特征的社会经济范畴 C、单位具有的属性和特征 D、总体单位在一定时间、地点条件下动作的结果 7.变异性是指() A、在不同单位可以有不同的标志值 B、总体单位有许多不同的标志 C、现象总体可能存在各式各样的指标 D、品质标志的具体数值 8.下列各项中,属于统计指标的是() A、小王英语考试成绩为85分 B、广州至北京的机票价格为1360元 C、光华公司1999年4~6月份的利润为200万元 D、钢材20吨 9.总体和单位不是固定不变的,而是有() A、在某些场合是要互相变换的 B、只存在总体变换为总体单位的情况 C、只存在总体单位变换为总体的情况 D、所有的标志都能变换为单位 10.离散变量可以() A、被无限分割,无法一一列举 B、按一定次序一一列举,通常取整数 C、用相对数表示 D、用平均数表示 11.下列变量中,属于连续变量的是() A、企业个数 B、企业的职工人数 C、用相对数表示的数据 D、企业拥有的设备台数 12.统计指标体系是指() A、各种相互联系的指标所构成的整体

统计学名词解释超级大全

统计学名词解释超级大全第一章导论 统计学:一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技术的科学,是一门独立的、实用性很强的通用方法论科学。 教育统计学:专门研究如何搜集、整理、分析在心理和教育方面对实验或调查所获得的数字资料,如何根据这些资料所传递的信息,进行数学推论,找出客观规律的一门科学。 描述统计:对实验或调查所获得的数据加以整理(如制表、绘图),并计算其各种代表量数(如集中量数、差异量数、相关量数等),其基本思想是平均,如在集中量数中将原始数据进行平均,在差异量数中将离均差进行平均,在相关量数中将积差进行平均等等。 推断统计:又称抽样统计。它是根据对部分个体进行观测所得到的信息,通过概括性的分析、论证,在一定可靠程度上去推测相应团体。换言之,就是根据已知的情况推测未知情况。 实验设计:研究如何更加合理、有效地获得观测资料,如何更正确、更经济、更有效地达到实验目的,以揭示试验中各种变量关系的实验计划。 统计常态法则:从总体中随机抽取一部分个体所组成的样本,差不多可以保持总体的特征。这种样本特性保持着总体特性的现象叫做统计常态法则。 小数永存法则:第一个样本中所表现出的特性,在其他样本中也会存在,这就是小数永存法则。此处“小数”是指小数量的意思。 大量惰性原则:某一事物的某一性质或状态,在反复观察或试验中是保持不变的。

有效数字:指能影响测量准确性的数字。 变量:又称随机变量。具有变异性的数据。三个特性,离散型,变异性,规律性。 数据:某个数值一旦被取定了,则称这个数值为随机变量的一个观察值。即数据。 总体:性质相同的一类事物的全体。 个体:构成总体的每一基本单位或单元。 样本:总体抽出的部分个体。 参数:表示总体特征的量数。 统计量:直接从样本计算出的量数,代表样本的特征。 名称变量:指一事物与其他事物在属性、类别上不同。 顺序变量:事物的某一属性的多少或大小按顺序排列起来的变量。既无相等的单位又无绝对的零点的变量。 等距变量:只具有相等的单位,而没有绝对的零点的变量。 比率变量:既有相等的单位,又有绝对的零点的变量。 连续变量:指取值可以是某区间内任一数值的随机变量,它是指测量单位之间可以划分成无限多个细小单位,其数字形式多取小数。 离散变量:指测量单位之间不能再细分的数字资料,其数字形式常取整数。 计数数据:计算人或物的个数所获得的数据。 度量数据:用一定的测量工具或测量标准测量时所获得的数据。 指标:表明总体数量特征的概念和具体数值,又称统计指标,它是把各个个体的特征加总起来的综合结果。

统计学整理

总体:根据研究目的所确定的同质的观察单位的全体。具体到特征指标。 样本:从总体中随机抽取有代表性的一部分。抽样:从总体中抽取样本的过程(动 样本容量:指一个样本的必要抽样单位数目 同质:同一总体内,性质相同或相似。变异:同质观察单位之间的差异。 异质:不同总体间的差异。 定性变量:按某种属性,清点每一类的个数。分类变量:变量的取值无具体意义。 有序变量或等级变量:变量的取值表示各类别之间的等级(大小)关系; 定量变量:说明数量大小,记录指标值本身,一般有度量衡单位。 离散型变量:变量的取值只能为整数;连续型:变量取值可为实数轴上任何数值 参数:描述总体特征的统计指标; 统计量:描述样本特征的统计指标。 统计工作的步骤:①设计②收集③整理④统计分析 统计描述:统计表;统计图;统计指标。 统计推断:参数估计(点估计,区间估计)、假设检验。 1、描述定量资料的统计表与统计图(统计表同下) 直方图:①在频率表的基础上,绘制频率直方图。 ②图的标题位于图的下端居中;文字等要求同频率分布表。 ③纵轴为频率(%),横轴为组段值。要在横纵轴的端点处或轴的中 部写标目和单位。 ④矩形直条的起点无须从原点开始。 ⑤横纵轴长度适中,横七直五。 2、描述定量资料集中趋势的统计指标有哪些?各自的定义、计算及适用条件; a) 算术均数。样本均数记为 ,总体均数记为 。 直接法: 间接法(加权法)——针对频率表: 适用于正态资料。 b) 几何均数 直接法: 间接法(加权法)——针对频率表: 适用于呈倍数关系的资料。即成指数关系的数据资料。 c) 中位数。将原始观察值排序后(从小到大或从大到小均可),位次居中的 那个数。 直接法 间接法(百分位数percentile 法): 普适。偏峰分布资料有极值,或分布末端缺失。 X μn X n X X X X n i i n ∑==+++=1 21Λ∑∑∑=====K i i K i i i K i i i f f X n f X X 1 1 010n n X X X G Λ21=]log [log 1n X G ∑-=]*log [log ]*log [log 11n f X f f X G ∑∑∑ --==?????+=++.),(21.,*12*2*21为偶数为奇数n X X n X M n n n )%(L x f x n f i L P -?+=

统计学作业答案归纳

统计学作业答案归纳 1、据一次抽样调查表明居民每日平均读报时间的95%的置信区间为〔2.2,3.4〕小时,问该次抽样样本平均读报时间t 是多少?若样本量为100,则样本标准差 是多少?若我想将允许误差降为0.4小时,那么在相同的置信水平下,样本容量 应该为多少? 解:样本平均读报时间为:t = 24.32.2+=2.8 由()96 .121002.24.322.24.305.0?-=?-==s n s z E =3.06 2254.006.396.12 2 22205.02=?=?=E s z n 一家调查公司进行一项调查,其目的是为了了解某市电信营业厅大客户对该电信 的服务的满意情况。调查人员随机访问了30名去该电信营业厅办理业务的大客 户,发现受访的大客户中有9名认为营业厅现在的服务质量较两年前好。试在 95%的置信水平下对大客户中认为营业厅现在的服务质量较两年前好的比率进 行区间估计。 4.据某市场调查公司对某市80名随机受访的购房者的调查得到了该市购房 者中本地人购房比率p 的区间估计,在置信水平为10%下,其允许误差E = 0.08。则: (1)这80名受访者样本中为本地购房者的比率是多少? (2)若显著性水平为95%,则要保持同样的精度进行区间估计,需要调查 多少名购房者。 解:这是一个求某一属性所占比率的区间估计的问题。根据已知n =30,2 /αz =1.96,根据抽样结果计算出的样本比率为%3030 9?==p 。

总体比率置信区间的计算公式为: ()n p p z p ?1??2/-±α 计算得: ()n p p z p ?1??2/-±α=30%()30 %301%3096.1-??± =(13.60%,46.40%) 5、某大学生记录了他一个月31天所花的伙食费,经计算得出了这个月平均每天 花费10.2元,标准差为2.4元。显著性水平为在5%,试估计该学生每天平 均伙食费的置信区间。 解:由已知:=x 10.2,s =2.4,96.1025.0=z ,则其置信区间为: 314 .296.12.10025.0?±=±n s z x =〔9.36,11.04〕。 该学生每天平均伙食费的95%的置信区间为9.36元到11.04元。 7、某电子邮箱用户一周内共收到邮件56封,其中有若干封是属于广告邮件,并 且根据这一周数据估计广告邮件所占比率的95%的置信区间为〔8.9%, 16.1%〕。问这一周内收到了多少封广告邮件。若计算出了20周平均每周收 到48封邮件,标准差为9封,则其每周平均收到邮件数的95%的置信区间 是多少?(设每周收到的邮件数服从正态分布) 解:本周收到广告邮件比率为:p =2 161.0089.0+=0.125 收到广告邮件数为:n ×p =56×0.125=7封 根据已知:x =48,n =20,s =9,093.2)19(025.0=t

统计学整理笔记

例1:某企业计划规定劳动生产率比上年提高10%,实际提高15%。试计算劳动生产率计划完成百分数。 例2:某企业计划规定某产品单位成本降低5%,实际降低7%,试计算成本计划完成指标。 答案: 答案: 答案: 起重量(吨)X台数f起重总量(吨)xf 40140 25250 10330 5420 合计10140 起重量(吨)起重机台数构成(%)(吨) 40104 25205 10303 5402 合计10014 技术级别月工资(元)工资总额(元) 1146730 21522280 31601880 41701700 5185370 合计——7960

答案: 答案: 某地区国内生产总值的资料 单位:亿元 答案: 某企业2014年第三季度职工人数:6月30日435人,7月31日452人,8月31日462人,9月30日576人,要求计算第三季度平均职工人数. 答案如右图 计划完成程度(%) 组中值(%) 企业数 实际完成数(万元) 计划任务数(万元) 90—100 95 5 95 100 100—110 105 8 840 800 110—120 115 2 115 100 合计 — 15 1050 1000 日产量 (公斤) 工人数(人)f 组中值 (公斤)x xf 20—30 10 25 250 30—40 70 35 2450 40—50 90 45 4050 50—60 30 55 1650 合计 200 — 8400 2009年 2010年 2011年 2012年 2013年 2014年 . 57733

某工厂成品仓库中某产品在2009年库存量如下: 单位:台 答案 如右图: 某厂某年一月份的产品库存变动记录资料如下: 单位:台 答案 如右图: 某企业2014年计划产值和产值计划完成程度的资料如下表,试计算该企业年产值计划平均完成程度指标。 答案 如右图 我国1985—1990年社会劳动者(年底数)人数如下表,试计算“七五”时期第三产业人数在全部社会劳动者人数中的平均比重。 单位:万 年份 1985 1986 1987 1988 1989 1990 社会劳动者人数b 49873 51282 52783 54334 55329 56740 第三产业人数a 8350 8819 9407 9949 10147 10533 第三产业人数的比重(%)c 答案: 日期 库存量 38 42 24 11 60 0 日期 1日 4日 9日 15日 19日 26日 31日 库存量 38 42 39 23 2 16 0 季度 1 2 3 4 计划产值(万元)b 860 887 875 898 计划完成(%)c 130 135 138 125

统计学名词解释及简答题 .

名词解释 一、分类数据(categorical data )是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,使用文字来表述的。 二、顺序数据(ran k data )是只能归于某一有序类别的非数字型数据。 三、数值型数据(metric data )是按数字尺度测量的观察值,其结果表现为具体的数值。 四、系统抽样(systematic sampling )将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机的抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位,这种抽样方法被称为系统抽样。 五、非概率抽样(non-probability sampling )是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采取某种方式从总体中抽出部分单位对其实施调查。 六、抽样误差(sampling error )是由于抽样的随机性引起的样本结果与总体真值之间的误差。 七、四分位数(quartile)也称四分位点,他是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包括25%的数据。 八、离散系数也成为变异系数(coefficient of variation ),它是一组数据的标准差与其相应的平均数之比。其计算公式为: s s v x = 离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。 九、泊松分布(Poisson distribution )是用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的次数的分布。 十、中心极限定理(central limit theorem ):设从均值μ、2σ(有限)的任意一个总体中抽取样本量为n 的样本,当n 充分大时,样本均值X 的抽样分布近似服从均值为μ、方差2σ/n 的正态分布。 十一、置信区间(confidence interval )在区间估计中,有样本统计量所构造的总体参数的估计区间称为置信区间,其中区间的最小值称为置信上限。 十二、显著性水平(significant level)是一个统计专有名词,在假设检验中,它的含义是当原假设正确时却被拒绝的概率或风险,其实这就是前面所说假设检验中犯弃真错误的概率,它是由人们根据检验的要求确定的,通常取0.05α=或0.01α=,这表明,当做出接受原假设的决定时,其正确的概率为95%或99%。 十三、方差分析(analysis of variance, ANOV A )就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。 十四、相关系数(correlation coefficient )是根据样本数据计算的度量两个变量之间线性关系强度的统计量。 十五、回归模型(regression model )对于具有线性关系的两个变量,可以用一个线性方程来表示他们之间的关系。描述因变量y 如何依赖于自变量x 和误差项ε的方程称为回归模型。 十六、点估计 利用估计的回归方程,对于x 的一个特定值0x ,求出y 的一个估计值就是点估计。点估计可分为两种:一是平均值的点估计;二是个别值的点估计。 十七、时间序列(time series )是同一现象在不同时间上的相继观察值排列而成的序列。 十八、指数平滑法(exponential smoothing )是通过对过去的观察值加权平均进行预测的一种方法,该方法使t+1期的预测值等于t 期的实际观察值与t 期的预测值的加权平均值。 十九、指数,或称统计指数,是分析社会经济现象数量变化的一种重要统计方法。指数是测定多项内容数量综合变动的相对数。这个概念中包含两个重点:第一个要点是指数的实质是测定多项内容;指数概念的第二个要点是其表现形式为动态相对数,既然是动态相对

统计学_第三章_统计整理

第三章统计整理 (一)填空题 1、统计整理是统计工作的第三阶段。在这一阶段,通过对原始资料进行科学的加工,可以得出反映事物总体特征的资料。 2、统计整理在统计分析中起着承前启后的作用,它既是统计调查的必然继续,又是统计分析的基础和前提条件。 3、统计分组实质上是在统计总体内部进行的一种定性分类。 4、对原始资料审核的重点是真实性。 5、区分现象质的差别是统计分组的根本作用。 6、标志是统计分组的依据,是划分组别的标准。 7、根据分组标志的特征不同,统计总体可以按品质分组,也可以按数量分组。 8、对所研究的总体按两个或两个以上的标志结合进行的分组,称为复合分组。 9、次数分布数列根据分组标志特征的不同,可以分为品质分布数列和数量分布数列两种。 10、变量数列是单项变量分组、组距式分组所形成的次数分布数列。 11、按品质标志分组的结果,形成品质分布数列。 12、组限是组距变量数列中表示各组数量界限的变量值,其中下限是指最小值的变量值,上限是指最大值的变量值。 13、组距变量数列的组距大小与组数的多少成反比。与全距的大小成正比。 14、组距变量数列的分布可以用次数分布曲线图表示。 15、划分连续变量的组限时,相邻组的组限必须重叠;划分离散型变量的组限时,相邻组的组限可以重叠,也可以不重叠。 16、统计资料的整理方法主要有统计分组和统计汇总两种。 17、钟形分布、U形分布和J形分布是次数分布的三种主要类型。 18、统计分组体系有品质标志分组和数量标志分组两种。 19、统计表按主词是否分组和分组的程度可分为简单表、简单分组表和复合分组表三种。 20、统计表从内容结构上看,是由主词和宾词两部分构成。 (二)单项选择题(在每小题备选答案中,选出一个正确答案) 1、统计分组的结果表现为( A ) A. 组内同质性,组间差异性 B. 组内差异性,组间同质性 C. 组内同质性,组间同质性 D. 组内差异性,组间差异性 2、统计分组的依据是( A ) A、标志 B、指标 C、标志值 D、变量值 3、下面属于按品质标志分组的有( C ) A. 企业按职工人数分组 B. 企业按工业总产值分组 C. 企业按经济类型分组 D. 企业按资金占用额分组 4、统计分组的关键在于( A ) A、正确选择分组标志 B、正确划分各组界限 C、正确确定组数和组限 D、正确选择分布数列种类 5、下面属于按数量标志分组的有( B ) A. 工人按政治面貌分组 B. 工人按年龄分组 C. 工人按工种分组 D. 工人按民族分组

[整理版]统计学试题库及答案

[整理版]统计学试题库及答案 1、统计学和统计工作的研究对象是完全一致的。F 2、运用大量观察法,必须对研究对象的所有单位进行观察调查。T 3、统计学是对统计实践活动的经验总结和理论概括。T 4、一般而言,指标总是依附在总体上,而总体单位则是标志的直接承担者。T 5、数量指标是由数量标志汇总来的,质量指标是由品质标志汇总来的。F 6、某同学计算机考试成绩80分,这是统计指标值。F 7、统计资料就是统计调查中获得的各种数据。F 8、指标都是用数值表示的,而标志则不能用数值表示。F 9、质量指标是反映工作质量等内容的,所以一般不能用数值来表示F。 10、总体和总体单位可能随着研究目的的变化而相互转化。T11、女性是品质标志。T 12、以绝对数形式表示的指标都是数量指标以相对数或平均数表示的指标都是质量指标T 13、构成统计总体的条件是各单位的差异性。F 14、变异是指各种标志或各种指标之间的名称的差异。F 9、调查某校学生,学生“一天中用于学习的时间”是(A)A、标志 13、研究某企业职工文化程度时,职工总人数是(B) B数量指标 14、某银行的某年末的储蓄存款余额(C)C、可能是统计指标,也可能是数量标志 15、年龄是(B)B、离散型变量 四、多项选择题 1、全国第四次人口普查中(BCE)A、全国人口数是统计总体B、总体单位是每一个人

C、全部男性人口数是统计指标 D、男女性别比是总体的品质标志 E、人的年龄是变量 2、统计总体的特征表现为(ACD)A、大量性B、数量性C、同质D、差异性 E、客观性 3、下列指标中属于质量指标的有(ABCDE)A、劳动生产率 B、产品合格率C、人口密度 D、产品单位成本 E、经济增长速度 4、下列指标中属于数量指标的有(ABC) A、国民生产总值B、国内生产总值 C、固定资 产净值D、劳动生产率 E、平均工资 5、下列标志中属于数量标志的有(BD)A、性别 B、出勤人数C、产品等级D、产品产量 E文化程度 6、下列标志中属于品质标志的有(ABE)A、人口性别B、工资级别C、考试分数 D、商品使用寿命 E、企业所有制性质 7、下列变量中属于离散型变量的有(BE)A、粮食产量B、人口年龄C、职工工资 D、人体身高 E、设备台数 8、研究某企业职工的工资水平,“工资”对于各个职工而言是(ABE)A、标志 B、数量标志 C、指标 D、数量指标 E、变量 9、连续变量的数值(ACD)A、是连续不断的B、是以整数断开的C、用测量或计算方法取得 D、相邻两值之间可取无限数值 E、相邻两值之间不可能有小数 10、总体、总体单位、标志、指标间的相互关系表现为:(BCE) A、没有总体单位就没有总体,总体单位不能离开总体而存在B、总体单位是标志的承担者C、统计指标的数值来源

相关主题
文本预览
相关文档 最新文档