统计学名词解释与简答题答案

  • 格式:doc
  • 大小:202.50 KB
  • 文档页数:8

下载文档原格式

  / 17
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1. 分类数据是只能归于某一类别的非数字型数据,(1分)它是对事物进行分类的结果,

(1分)数据表现为类别,使用文字来表述的。(1分)

2. 四分位数(quartile)也称四分位点,他是一组数据排序后处于25%和75%位置上的值。(1分)四分位数是通过3个点将全部数据等分为4部分,(1分)其中每部分包括25%的数据。(1分)

3. 方差分析(analysis of variance, ANOVA)就是通过检验各总体的均值是否相等,

(1分)来判断分类型自变量对数值型因变量是否有显著影响。(2分)

4. 相关系数(correlation coefficient)是根据样本数据计算的,(1分)度量两个变

量之间线性关系强度的统计量。(2分)

5. 居民消费价格指数(consumer price index, CPI)是度量居民消费品和服务项目价格水平随时间变动的相对数,(1分)反映居民家庭购买的消费品和服务价格水平的变动情况。(2分)

五、简答题

6. 简述直方图和茎叶图的区别。

答:(1)直方图虽然能很好地显示数据的分布,但不能保留原始的数值;茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息。(3分)

(2)在应用方面,直方图通常用于大批量数据,茎叶图通常适用于小批量数据。(2分)

7. 回归分析主要解决那几个方面的问题?

答:(1)从一组样本数据出发,确定出变量之间的数学关系式;(1分)(2)对这些关系式的可信程度进行各种统计检验,并从中影响某一特定变量的诸多变量中找出哪些变量的影响是显著的,哪些是不显著的;(2分)

(3)利用这些所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。(2分

8. 简述概率抽样的定义及特点。

答:概率抽样(probability sampling)也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。(2分)

它具有以下几个特点:

首先,抽样时是按一定的概率以随机原则抽取样本。(1分)

其次,每个单位被抽中的概率是已知的,或是可以计算出来的。(1分)

最后,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。

(1分)

9. 简述评价估计量好坏的标准。

答:1 无偏性; (2分)

2 有效性; (2分)

3一致性. (1分)

1.顺序数据(ran k data)是只能归于某一有序类别的(1分)非数字型数据。(2分)

2.抽样误差(sampling error)是由于抽样的随机性引起的,(1分)样本结果与总体真值之间的误差。(2分)

3.离散系数也成为变异系数(coefficient of variation),它是一组数据的标准差与其相应的平均数之比。(1分)其计算公式为:(1分)

s s v x 离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。(1分)

4.置信区间(confidence interval )在区间估计中,有样本统计量所构造的总体参数的估计区间称为置信区间,(2分)其中区间的最小值称为置信下限。(1分)

5.点估计。利用估计的回归方程,对于x 的一个特定值

0x ,求出y 的一个估计值就是点 估计。(1分)点估计可分为两种:一是平均值的点估计;(1分)二是个别值的点估计。(1分)

五、简答题

6.简述直方图与条形图的不同点.

答:首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。(2分)

其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。(2分)

最后,条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。(1分)

7.简述一张好的图形应具有的基本特征。

答:(1)显示数据; (1分)

(2)让读者把注意力集中在图形的内容上,而不是制作图形的程序上; (1分)

(3)避免歪曲; (1分)

(4)强调数据之间的比较; (1分)

(5)服务于一个明确的目的, 有对图形的统计描述和文字说明。(1分)

8.简述众数、中位数和平均数的关系。

答:从分布的角度看,众数始终是一组数据分布的最高峰值,中位数是处于一组数据中间位置的值,而平均数则是全部数据算术平均。(2分)因此,对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:如果数据的分布式对称的,众数(0M )、中位数(e M )和平均数(x )必定相等,即0M =e M =x ;(1分)如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠,而众数和中位数由于是位置代表值,不受极值的影响,因此三者之间的关系表现为:x

说明数据存在极大值,必然拉动平均数向极大值一方靠,则0M

9.在多元线性回归中,选择自变量的方法有哪些?

答:变量选择的方法主要有:向前选择、(2分)向后剔除、(1分)逐步回归、(1分)最优子集等。(1分)

1. 系统抽样(systematic sampling )将总体中的所有单位(抽样单位)按一定顺序排列,(1分)在规定的范围内随机的抽取一个单位作为初始单位,(1分)然后按事先规定好的规则确定其他样本单位,这种抽样方法被称为系统抽样。(1分)