当前位置:文档之家› 统计学 第四章 推断统计概述

统计学 第四章 推断统计概述

统计学 第四章  推断统计概述
统计学 第四章  推断统计概述

第四章 推断统计概述

第一部分 概率论基本知识

← 一、概率的定义;二、概率的性质;三、概率的加法定理和乘法定理

← 四、概率分布类型

四、概率分布类型

← 概率分布(probability distribution )是指对随机变量取不同值时的概率的描述,一般

用概率分布函数进行描述。

← 依不同的标准,对概率分布可作不同的分类。

1、离散型分布与连续型分布

← 依随机变量的类型,可将概率分布分为离散型概率分布与连续型概率分布。

← 教育统计学中最常用的离散型分布是二项分布,最常用的连续型分布是正态分布。 2、经验分布与理论分布

← 依分布函数的来源,可将概率分布分为经验分布与理论分布。

← 经验分布(empirical distribution )是指根据观察或实验所获得的数据而编制的次数

分布或相对频率分布。

← 理论分布(theoretical distribution )是按某种数学模型计算出的概率分布。

3、基本随机变量分布与抽样分布

← 依所描述的数据的样本特性,可将概率分布分为基本随机变量分布与抽样分布

(sampling distribution )。

← 基本随机变量分布是随机变量各种不同取值情况的概率分布,

← 抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。

第二部分 几种常见的概率分布

← 一、二项分布

← 二项分布(binomial distribution )是一种具有广泛用途的离散型随机变量的概率分

布,它是由贝努里创始的,因此又称为贝努里分布。

← 2.二项分布函数

← 二项分布是一种离散型随机变量的概率分布。

← 用 n 次方的二项展开式来表达在 n 次二项试验中成功事件出现的不同次数(X =

0,1…,n )的概率分布,叫做二项分布函数。

← 二项展开式的通式(即二项分布函数):

← ←

← ← ←

← 成功概率 p ;样本容量 n

← 在成功概率为p 的总体中随机抽样,抽取样本容量为n 的样本中,有X 次为成()011111100q p C q p C q p C q p C q p n n n n n n n n n n n ++++=+---Λ()X

n X X n X q p C P -??=()X n X q p X n X n -?-=!!!

功的概率: ←

(X =0,1…,n ) ←

称X 服从参数为n ,p 的二项分布,记为: ←

X ~B(n ,p ) 其中,0

二项分布的性质 ←

二项分布有如下性质: ←

①当p=q 时,图形是对称的。 ←

②当p ≠q 时,直方图呈偏态。p >q 与p <q 时的偏斜方向相反。 ←

3.二项分布的平均数和标准差 ←

如果二项分布满足p >q 且 nq ≥5(或者p <q 且 np ≥5时,二项分布接近于正态分布。可用下面的方法计算二项分布的平均数和标准差。 ←

二项分布的平均数为 ←

二项分布的标准差为 ←

4.二项分布的应用 ←

二项分布函数除了用来求成功事件恰好出现X 次的概率之外,在教育中主要用来判断试验结果的机遇性与真实性的界限。 ←

一个学生凭猜测做10个是非题,平均可以猜对5题。什么情况下可以说他是真会而不是猜测呢? ←

解:猜对与猜错的概率:p=q=1/2。 ←

猜对8的概率为0.044 ←

猜对9题的概率为0.010 ←

猜对10题的概率为0.001 ←

猜对8题以上的概率为:0.044+0.010+0.001=0.055 ←

一个教师对8个学生的作业成绩进行猜测,如果教师猜对的可能性为1/3,问: ←

⑴平均能猜对几个学生的成绩? ←

⑵假如规定猜对95%,才算这个教师有一定的评判能力,那么这个教师至少要猜对几个学生? ←

← (1)

( 2)

npq =σnp =μ67.2318=?==np μX

n X X n X q p C P -??=)(0406.032888008)0(=??? ??==??=q q p C P 1616.03231!7!877118)1(=??? ????=??=q p C P 2816.03231!6!2!8626228)2(=??? ?????? ????=??=q p C P 2800.03231!5!3!8535338)3(=??? ?????? ????=??=q p C P 1550.03231!4!4!8444448)4(=??? ?????? ????=??=q p C P 21!83

5355????

这个教师至少要猜对5个学生,才有一定的评判能力

正态分布

← 正态分布(normal distribution )也称为常态分布,是连续型随机变量概率分布的一

种,是在数理统计的理论与实际应用中占有最重要地位的一种理论分布。

← 正态分布由棣·莫弗于1733年发现的。拉普拉斯、高斯对正态分布的研究也做出了

贡献,故有时称正态分布为高斯分布。

.1.正态分布曲线函数 正态分布曲线函数又称概率密度函数(即方程),其一般公式为 公式所描述的正态曲线,由σ和μ两个参数决定。

← 将N 改为频率,正态曲线形态不变。

正态曲线的特征

关于x=μ对称。

在x=μ处取得该概率密度函数的最大值,在 处有拐点,表现为钟形曲线。 决定曲线在横轴上的位置, 增大,曲线沿横轴向右移;反之, 减小,曲线沿横轴向左移。

决定曲线的形状,当 恒定时, 越大,数据越分散,曲线越“矮胖”’; 越小, 数据越集中,曲线越‘瘦高’。

曲线下面积为1。 0406.0)0(=P 2022

.0)1()0(=+P P 4838.0)2()1()0(=++P P P 9188.0)4()3()2()1()

0(=++++P P P P P 9805

.0)5()4()3()2()1()0(=+++++P P P P P P ()()2

2

22σμπσ--?==X e N X f Y ()222)(21)(σμπσ--=X e X f X ~N (μ,σ2

),

正态曲线下的面积规律

← 正态曲线关于均数对称;对称的区域内面积相等;

← 对任意正态曲线,按标准差为单位,对应的面积相等;

正态曲线下面积的含义

μ-1.64σ~ μ+1.64σ内面积为90%;

μ-1.96σ~ μ+1.96σ内面积为95%;

μ-2.58σ~ μ+2.58σ内面积为99%。

← 1.曲线下面积是全体数据落入某区间的概率;

← 2.曲线下面积是落入某区间的数据占全体数据的比例

标准正态分布曲线 将标准分数代入正态曲线函数,则公式变换为标准正态分布函数: ← 以Z为横坐标,以Y为纵坐标,可绘制标准正态分布曲线。

← 标准正态分布曲线的纵线高度Y为概率密度,曲线下的面积为概率。

3.标准正态分布曲线的特点

← ⑴曲线在Z=0处达到最高点

← ⑵曲线以Z=0处为中心,双侧对称

← ⑶曲线从最高点向左右缓慢下降,向两侧无限延伸,但永不与基线相交。

← ⑷标准正态分布曲线的平均数为0,标准差为1。

← 从Z=-3至Z=+3之间几乎分布着全部数据(99.73%)。

← ⑸曲线的拐点为正负一个标准差处。

4.正态曲线的面积与纵线

← 1)累积正态分布函数

← 正态曲线与基线之间某一区间的面积,相当于能在该区间找到个体的概率。曲线下的面积,即累积概率是用积分表示的。

← 累积正态分布函数是:

2)标准正态曲线下面积的求法

← 利用积分公式可求出正态曲线下任何区间的面积,但需要计算,非常麻烦。

← 统计学家已编制好了标准正态分布表,使用非常方便。

← 2)已知曲线下面积求Z 值

← ①求Z=0以上或以下某一面积相对应的Z 值 ())10(~2122,N Z e Z f Y Z ??==-π()()dx e P X a a X 22

221σμπσ--∞-∞-?

=<<

← ②求与正态曲线上端或下端某一面积相对应的Z 值

← ③求与正态曲线下中央部位某一面积相对应的Z 值

3)正态曲线的纵线

← 正态曲线的纵线高度Y 是横轴上某一Z 值的频率密度(即概率)

← (1)已知Z 值求纵线高度

← (2)已知面积求纵线高度

三、正态分布的应用

1.以标准分数表示考试成绩

← 比较学生的考试成绩时,使用原始分数不合理

← ⑴原始分制度没有提示考生成绩在考生团体成绩中的位置。

← ⑵由于各科命题难度不同,导致各科原始分之间不能直接比较,造成分数解释上的困难。

← ⑶各科原始分相加不合理。

2.确定等级评定的人数

← 例:若有100人某种能力呈正态分布,欲将其分成五个等距的等级,问各等级应有多少人?

← 解:6σ÷5=1.2σ。

← 每个等级应占1.2个标准差的距离。

3、确定录取分数线

← 例:某项职业录取考试,准备在参加的1600考生中录取200人,考试分

数分布接近正态分布,平均分数为74,标准差为11,问录取分数线是多少?

← 解:将200/1600=0.125作为正态分布上端的面积。

← P=0.5-0.125=0.375,则Z=1.15

← 录取分数线为 4.确定正态分布下特定分数段内的人数或某面积下(或人数)的分数段

← 例1:某地区某年高考物理科考生4.7万,平均分为57.08,标准差为18.04。

试问:

← ①成绩在90分以上有多少人?

← ②成绩在80分到90分之间有多少人?

← ③成绩在60分以下有多少人?

解:先算出90分、80分、60分的标准分数。

65

.86741115.1=+?=+=X Z X X σ16.004.1808.576027.104.1808.578082.104.1808.5790608090=-==-==-=分分分Z Z Z ()()()86.16154700003438.09003438.046562.05.082.105.082.190=?=-=≤-==分以上的人数为<>>Z P Z P X P ()()()()<<<<<<<<06766.039796.046562.027.1082.1082.127.19080=-=-==Z P Z P Z P X P

例2:某次测验分数为正态分布,其平均分为72分,标准差为6分,问:

①95%的学生分数落在平均数上下多少分中间?

②99%的学生分数落在平均数上下多少分中间

解:将95%和99%看作是正态曲线中央部分的面积。则,

第三部分 抽样分布的基本原理

一、抽样的基本概念

← 1.总体与抽样 2.抽样的基本方法

1) 简单随机抽样 2)等距抽样 3)分层随机抽样

二、抽样分布

区分三种不同性质的分布:

← 总体分布:总体内个体数值的频数分布

← 样本分布:样本内个体数值的频数分布

← 抽样分布:某一种统计量的概率分布

1. 抽样分布的概念

2.平均数抽样分布的几个定理(中心极限定理)

⑴从总体中随机抽出容量为n 的一切可能样本的平均数之平均数等于总体的平均数。 ⑵容量为n 的平均数在抽样分布上的标准差(即平均数的标准误),等于总体标准差除以n 的平方根。

⑶从正态总体中,随机抽取的容量为n 的一切可能样本平均数的分布也呈正态分布;虽然()()24.60696.17276

.83696.17296.1475.0095

.0000000=?-=?-==?+=?+====-X X Z X X Z X X Z Z Z P Z Z Z P σσ平均数以下的分数为

数为于是,平均数以上的分<<<<()()同理可得。<<<<58.2495.0099.01111===-Z Z Z P Z Z Z P μ

=)(X E n X σσ=()()()人。分以下的人数有:<<<<264874700056356.06056356.006356.05.016.005.016.060=?=+=+==Z P Z P X P

总体不呈正态分布,如果样本容量较大,也接近于正态分布

二、标准误

← 某种统计量在抽样分布上的标准差,称为标准误。如:平均数抽样分布的标准差称为

平均数的标准误;标准差抽样分布的标准差称为标准差的标准误。

← 标准误用来衡量抽样误差。

← 标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用

样本统计量推断总体参数的可靠度越大。

← 因此,标准误是统计推断可靠性的指标

平均数标准误的计算

1.总体正态,总体标准差σ已知(不管样本容量大小),

或总体非正态,总体标准差σ已知,大样本

平均数的标准误为: 平均数标准误的计算

2.总体正态,总体标准差σ未知(不管样本容量大小),或总体非正态,总体标准差σ未知,大样本。当总体标准差σ未知,需要用样本标准差来估计。

总体标准差的无偏估计量: 平均数标准误为: , 因为σ未知,用S 代替: 因此,平均数标准误的估计值为 三.平均数离差统计量的分布

由样本的平均数对总体平均数进行估计,首先要了解平均数离差统计量的分布,才能根据一定的概率,由样本的平均数对总体的平均数做出估计 1.总体正态,σ已知(不管样本容量大小), 或总体非正态,σ已知,大样本

平均数离差的抽样分布呈正态分布

2.总体正态,σ未知(不管样本容量大小),或总体非正态,σ未知,大样本

平均数离差的抽样分布呈t 分布

t 分布的特点

⑴形状与正态分布曲线相似

⑵t 分布曲线随自由度不同而有一簇曲线

⑶自由度的计算:

自由度是指能够独立变化的数据个数或总体参数估计中变量值能够独立变化的个数。 ⑷查t 分布表时,需根据自由度及相应的显著性水平,并要注意是单侧数据还是双侧。 有关自由度的其他说明

← 统计学中:在统计模型中,自由度指样本中可以自由变动的变量的个数,当有约束

条件时,自由度减少。

n X σσ=X n n S σ1-=n X σσ=1-==n n S S X X σ1--=-=-=n X n S X S X t X X σμ

μμ

← 自由度计算公式:自由度=样本个数-样本数据受约束条件的个数,即df = n - k (df

自由度,n 样本个数,k 约束条件个数)

t 分布表的查法

← 自由度df ,t 值和概率(面积或显著性水平)

← 3.总体σ未知,大样本时的近似处理

← 样本容量增大后,平均数的抽样分布接近于正态分布,可用正态分布近似处理。 ← (注意:此时的分布仍然是t 分布)

第四部分 参数估计的基本原理

← 根据样本统计量对相应总体参数所作的估计叫作总体参数估计。

← 总体参数估计分为点估计和区间估计。

← 由样本的标准差估计总体的标准差即为点估计;而由样本的平均数估计总体平均数

的取值范围则为区间估计

2.区间估计

← 以样本统计量的抽样分布(概率分布)为理论依据,按一定概率的要求,由样本统

计量的值估计总体参数值的所在范围,称为总体参数的区间估计。

← 对总体参数值进行区间估计,就是要在一定可靠度上求出总体参数的置信区间的上

下限

计算要求:

← ⑴要知道与所要估计的参数相对应的样本统计量的值,以及样本统计量的理论分

布;

← ⑵要求出该种统计量的标准误;

← ⑶要确定在多大的可靠度(或置信度)上对总体参数作估计,再通过某种理论概率

分布表,找出与某种可靠度相对应的该分布横轴上记分的临界值,才能计算出总体参数的置信区间的上下限。

置信区间(confidence interval)

← 置信度或可靠度,即置信概率,是作出某种推断时正确的可能性(概率),即1-α。 ← 显著性水平:α

← 置信区间,也称置信间距,是指在某一置信度时,总体参数所在的区域距离或区域

长度。

置信区间是带有置信概率的取值区间。

显著性水平(significance level

← 对总体平均数进行区间估计时,置信概率表示做出正确推断的可能性,但这种估计

还是会有犯错误的可能。

← 显著性水平就是指估计总体参数落在某一区间时,可能犯错误的概率,用符号α表

示。

3.平均数区间估计的基本原理

← 通过样本的平均数估计总体的平均数

← 首先假定该样本是随机取自一个正态分布的总体(或非正态总体中的n >30的样本),1--=-=-='n X n S X S X Z X X σμμμ

而计算出来的实际平均数是无数容量为n 的样本平均数中的一个。

← 根据样本平均数的分布理论,可以对总体平均数进行估计,并以概率说明其正确的

可能性

总体平均数的区间估计

1.总体平均数区间估计的基本步骤

①根据样本的数据,计算样本的平均数和标准差;

②计算平均数抽样分布的标准误;

③确定置信概率或显著性水平;

④根据样本平均数的抽样分布确定查何种统计表;

⑤计算置信区间;

⑥解释总体平均数的置信区间。

2.平均数区间估计的计算

①总体正态,σ已知(不管样本容量大小),或总体非正态,σ已知,大样本

2.平均数区间估计的计算

平均数离差的的抽样分布呈正态,平均数的置信区间为:

α=0.05时,总体平均数区间估计为

← α=0.01时,总体平均数区间估计为

()ασμα

αααα-=?????? ??---=-11Z n X Z P Z Z Z P <<<<ασμσασμσμασμσασμαααααααα-=??? ??+--=??? ??+--=??? ??---=?????

? ??--1111n Z X n Z X P n Z X n Z P n Z X n Z P Z n X Z P <<<<<<<<n Z X n Z X σμσαα?+<

?+-=??? ??+-n X n X P n Z X n Z X P σμσσμσ<<<<

例题:某小学10岁全体女童身高历年来标准差为6.25厘米,现从该校随机抽27名10岁女童,测得平均身高为134.2厘米,试估计该校10岁全体女童平均身高的95%和99%置信区间。

解:10岁女童的身高假定是从正态总体中抽出的随机样本,并已知总体标准差为σ

=6.25。无论样本容量大小,一切样本平均数的标准分数呈正态分布。于是可用正态分布来估计该校10岁女童身高总体平均数95%和99%的置信区间。

其标准误为

当P=0.95时,Z=±1.96

因此,该校10岁女童平均身高95%的置信区间为:

当P=0.99时,Z=±2.58

因此,该校10岁女童平均身高99%的置信区间为:

②总体正态,σ未知(不管样本容量大小),或总体非正态,σ未知,大样本

平均数离差的抽样分布为t 分布,平均数的置信区间为:

2028.12725.6===n X σσn Z X n Z X σμσ?+<

Z X n Z X σμσ?+<

25.658.22.1342725.658.22.134?+<

1-=-==n n n n n S S X X X σσ()

()/22-==

∑∑n X X S S X

例题2:

从某小学三年级随机抽取12名学生,其阅读能力得分为28,32,36,22,34,30,33,25,31,33,29,26。试估计该校三年级学生阅读能力总体平均数95%和99%的置信区间。

← 解:12名学生阅读能力的得分假定是从正态总体中抽出的随机样本,而总体标准差

σ未知,样本的容量较小(n=12<30),在此条件下,样本平均数与总体平均数离差统计量服从呈t 分布。

← 于是需用t 分布来估计该校三年级学生阅读能力总体平均数95%和99%的置信区

间。

由原始数据计算出样本统计量为

σX =3.926 当P=0.95时, 因此,该校三年级学生阅读能力得分95%的置信区间为:

当P=0.99时,

因此,该校三年级学生阅读能力得分99%的置信区间为:

③总体正态,σ未知,大样本

← 平均数的抽样分布接近于正态分布,用正态分布代替t 分布近似处理:

例题3:

从某年高考中随机抽取102份作文试卷,算得平均分数为26,标准差为1.5,试估计全部考生作文成绩95%和99%的置信区间。

← 解:学生高考分数假定是从正态总体中抽出的随机样本,而总体的标准差σ未知,917.29=X 100

.4=S ()201.205.011=t ()()n S t X n S t X ?+<

.4=S ()106.301.011=t ()()n S t X n S t X ?+<

1.4106.3917.29121.4106.3917.29?+<

1-?+<<-?-?+<

样本平均数与总体平均数离差统计量呈t 分布。但是由于样本容量较大(n=102>30),t 分布接近于正态分布,因此可用正态分布近似处理。

样本标准差: 当P=0.95时,Z=±1.96

因此,该年全部考生作文成绩95%的置信区间为:

当P=0.99时,Z=±2.58

因此,该年全部考生作文成绩99%的置信区间为:

④ 总体非正态,小样本

← 不能进行参数估计,即不能根据样本分布对总体平均数进行估计。

第五部分 假设检验的基本原理

利用样本信息,根据一定概率,对总体参数或分布的某一假设作出拒绝或保留的决断,称为假设检验。

1.假设

← 假设检验一般有两个互相对立的假设。

← H0:零假设,或称原假设、虚无假设(null hypothesis )、解消假设;是要检验的对

象之间没有差异的假设。

← H1:备择假设(alternative hypothesis ),或称研究假设、对立假设;是与零假设相

对立的假设,即存在差异的假设。

假设检验

← 进行假设检验时,一般是从零假设出发,以样本与总体无差异的条件计算统计量的

值,并分析计算结果在抽样分布上的概率,根据相应的概率判断应接受零假设、拒绝研究假设还是拒绝零假设、接受研究假设。

2.小概率事件

← 样本统计量的值在其抽样分布上出现的概率小于或等于事先规定的水平,这时就认

为小概率事件发生了。把出现概率很小的随机事件称为小概率事件。

当概率足够小时,可以作为从实际可能性上把零假设加以否定的理由。

因为根据这个原理认为:在随机抽样的条件下,一次实验竟然抽到与总体参数值有这么大差异的样本,可能性是极小的,实际中是罕见的,几乎是不可能的。

3.显著性水平

← 统计学中把拒绝零假设的概率称为显著性水平,用α表示。

5

.1=X σ()n m Lim P n A ∞→=102

5.19

6.1261025.196.126?+<

X σμσ?+<

5.158.2261025.158.226?+<

.26617.25<<μ

← 显著性水平也是进行统计推断时,可能犯错误的概率。 ← 常用的显著性水平有两个: α=0.05 和 α=0.01。 ( 或其他α=0.10、α=0.001等。 ) 在抽样分布曲线上,显著性水平既可以放在曲线的一端(单侧检验),也可以分在曲线的两端(双侧检验)。

正态抽样分布上α=0.05的三种不同位置

双侧检验和单侧检验

← 在确定检验形式时,凡是检验是否与假设的总体一致的假设检验,α被分散在概率

分布曲线的两端,因此称为双侧检验。

← 双侧检验的假设形式为:

H0:μ=μ0, H1:μ≠μ0

(样本平均数和总体平均数是否有显著差异)

← 凡是检验大于或小于某一特定条件的假设检验,α是在概率分布曲线的一端,因此

称为单侧检验。

← 单侧检验的假设形式为:

H0:μ≥μ0,H1:μ<μ0(样本平均数是否显著低于总体平均数)

或者

H0:μ≤μ0,H1:μ>μ0(样本平均数是否显著高于总体平均数)

4.假设检验中的两类错误及其控制

← 对于总体参数的假设检验,有可能犯两种类型的错误,即α错误和β错误。 假设检验中的两类错误

当H0为真 当H0为假 拒绝H0

α错误 正确 接受H0

正确 β错误

← 为了将两种错误同时控制在相对最小的程度,研究者往往通过选择适当的显著性水

平而对α错误进行控制,如α=0.05或α=0.01。

← 对β错误,则一方面使样本容量增大,另一方面采用合理的检验形式(即单侧检验

或双侧检验)来使β误差得到控制。

5.假设检验的基本步骤

一个完整的假设检验过程,一般经过四个主要步骤:

⑴提出假设

⑵选择检验统计量并计算统计量的值

⑶确定显著性水平

α 2α2

αα

⑷做出统计结论

第五章+统计学教案(假设检验)

第五章+统计学教案(假设检验)参数估计和假设检验是统计推断的两个组成部分,它们分别从不同的角度利用样本信息对总体参数 进行推断。前者讨论的是在一定的总体分布形式下,借助样本构造的统计量,对总体未知参数作出估计 的问题;后者讨论的是如何运用样本信息对总体未知参数的取值或总体行为所做的事先假定进行验证, 从而作出真假判断。通俗地、简单地说,前者是利用样本信息估计总体参数将落在什么范围里;而后者 则是利用样本信息回答总体参数是不是会落在事先假定的某一个范围里。 通过本章学习,要求学生在充分理解有关抽样分布理论的基础上,理解掌握假设检验的有关基本概 念;明确在假设检验中可能犯的两种错误,以及这两种错误之间的联系;熟练掌握总体均值和总体成数 的检验方法,主要是 Z 检验和 t 检验;对于非参数的检验,也应有所了解,包括符号检验、秩和检验与游程检验等。 2 一、假设检验概述与基本概念 1、假设检验概述 2、假设检验的有关基本概念 二、总体参数检验 1、总体平均数的检验 2、总体成数的检验

3、总体方差的检验 三、总体非参数检验 1、符号检验 2、秩和检验 3、游程检验 一、假设检验的有关基本概念; 二、总体平均数与总体成数的检验; 三、非参数检验; 一、假设检验的基本思路与有关概念; 二、两类错误的理解及其关系; 一、假设检验概述 假设检验:利用统计方法检验一个事先所作出的假设的真伪,这一假设称为统计假设,对这一假设 所作出的检验就是假设检验。 基本思路:首先,对总体参数作出某种假设,并假定它是成立的。然后,根据样本得到的信息(统 计量),考虑接受这个假设后是否会导致不合理的结果,如果合理就接受这个假设,不合理就拒绝这个 假设。 所谓合理性,就是看是否在一次的观察中出现了小概率事件。 小概率原理:就是指概率很小的事件,在一次试验中实际上是几乎不可能出现。这种事件可以称其 为“实际不可能事件”。 二、假设检验的基本概念

统计学概论

统计学概论
一、 单项选择题 共 60 题,完成 33 题1、 对于某总体按一种数量标志分组,则( )。
A . 只能编制一种变量数列 B . 可以进行复合分组 C . 可能编制多种变量数列 D . 可能编制品质数列 参考答案:C 2、 某组向下累计频率表示( )。 A . 大于该组上限的百分数有多少 B . 大于该组下限的百分数有多少 C . 小于该组上限的百分数有多少 D . 小于该组下限的百分数有多少 参考答案:B 3、 为了了解某地区商业企业的基本情况,下列标志中属于数量标志的是( )。 A . 经济类型 B . 经营方式 C . 销售收入 D . 年盈利额是否超过 100 万元 参考答案:C 4、 要反映我国工业企业的整体业绩水平,总体单位是( )。 A . 我国每一家工业企业 B . 我国所有工业企业 C . 我国工业企业总数 D . 我国工业企业的利润总额 参考答案:A 5、 在其它条件不变时,置信度(1-α )越大,则区间估计的( )。 A . 误差范围越大 B . 精确度越高 C . 置信区间越小 D . 可靠程度越低 参考答案:A 6、 用同期平均法测定季节变动,适合于( )。 A . 有增长趋势的季节数列 B . 有下降趋势的季节数列 C . 呈水平趋势的季节数列 D . 各种季节数列 参考答案:C 7、某企业某系列产品的总平均价格 10 月份比 9 月份提高 17%,由于产品结构的变动使总平均价格降低 10%,则产品实际的平均价格( )。 A . 上涨 30% B . 上涨 7% C . 下降 30% D . 降 7%。 参考答案:A 8、 如果用 p 表示商品价格,用 q 表示商品销售量,则公式∑q1p0/∑q0p0( )。 A . 综合反映多种商品销售量的变动程度 B . 综合反映商品价格和商品销售量的变动 C . 全面反映商品销售额的变动 D . 反映由于商品销售量的变动对价格变动的影响程度

《统计学概论》习题解答前七章

《统计学概论》习题解答 第三章 统计分布的数值特征 【7】某大型集团公司下属35个企业工人工资变量数列如下表所示: 试计算该企业平均工资。(注:比重——各组工人人数在工人总数中所占的比重) 【解】 该集团公司职工的平均工资为747.14元/人和755元/人。 【8】某地甲、乙两个农贸市场三种主要水果价格及销售额资料见下表 试计算比较该地区哪个农贸市场水果平均价格高?并说明原因。 解: ()千克元甲市场水果平均价格44.2000900000 2002== ()千克元乙市场水果平均价格55.20000001000 5502== 甲市场以较低价格销售的水果所占的比重比乙市场以相同价格销售的水果的比重大,反之,正好情况相反,故甲市场水果的平均价格较低。

【9】某石材厂2004年和2005年的工人工资资料如下表所示: 工人构成 2004年2005年 工人数(人)工资总额(元)工人数(人)工资总额(元) 熟练工人425 765000 250 475000 不熟练工人175 140000 350 315000 合计600 705000 600 790000 (1)计算各年各组工人平均工资和总平均工资。 (2)从两年的组平均工资与总平均工资的比较中可以看出什么问题?针对这些问题作出分析。 解:(1)组平均工资:2004年熟练工人:1800元/人;不熟练工人:800元/人; 2005年熟练工人:1900元/人;不熟练工人:900元/人; 总平均工资:2004年:1508.333元/人 2005年:1316.667元/人 (2)从两年的组平均工资中可以看出:无论是2004年还是2005年熟练工人工资都高于不熟练工人工资;2005年的各组平均工资都高于2004年,但总平均工资低于2004年。这种 现象的出现是由于2004年熟练工人的人数要高,而熟练工人的工资高于不熟练工人,因 此总平均工资高。 【10】根据某城市500户居民家计调查结果,将居民户按其食品开支占全部消费开支的比重(即恩格尔系数)分组后,得到如下的频数分布资料: 恩格尔系数( % ) 户数向上累计户数 x f(户%)分组 组中值( % ) (户)(户) x f f 20以下15 6 6 0.90 20—30 25 38 44 9.50 30—40 35 137 151 37.45 40—50 45 114 288(中)61.65 50—60 55 74 402 62.70 60—70 65 24 476 48.10

统计学抽样与抽样分布练习题

第6章 抽样与抽样分布 练习题 6.1 从均值为200、标准差为50的总体中,抽取100=n 的简单随机样本,用样本均值x 估计总体均值。 (1) x 的数学期望是多少? (2) x 的标准差是多少? (3) x 的抽样分布是什么? (4) 样本方差2 s 的抽样分布是什么? 6.2 假定总体共有1000个单位,均值32=μ,标准差5=σ。从中抽取一个样本量为30的简单随机样本用于获得总体信息。 (1)x 的数学期望是多少? (2)x 的标准差是多少? 6.3 从一个标准差为5的总体中抽出一个样本量为40的样本,样本均值为25。样本均值的抽样标准差x σ等于多少? 6.4 设总体均值17=μ,标准差10=σ。从该总体中抽取一个样本量为25的随机样本,其均值为25x ;同样,抽取一个样本量为100的随机样本,样本均值为100x 。 (1)描述25x 的抽样分布。 (2)描述100x 的抽样分布。 6.5 从10=σ的总体中抽取样本量为50的随机样本,求样本均值的抽样标准差: (1)重复抽样。 (2)不重复抽样,总体单位数分别为50000、5000、500。 6.6 从4.0=π的总体中,抽取一个样本量为100的简单随机样本。 (1)p 的数学期望是多少? (2)p 的标准差是多少? (3)p 的分布是什么? 6.7 假定总体比例为55.0=π,从该总体中分别抽取样本量为100、200、500和1000的样本。

(1) 分别计算样本比例的标准差p σ。 (2) 当样本量增大时,样本比例的标准差有何变化? 6.8 假定顾客在超市一次性购物的平均消费是85元,标准差是9元。从中随机抽取40个顾 客,每个顾客消费金额大于87元的概率是多少? 6.9 在校大学生每月的平均支出是448元,标准差是21元。随机抽取49名学生,样本均值 在441~446之间的概率是多少? 6.10 假设一个总体共有8个数值:54,55,59,63,64,68,69,70。从该总体中按重复 抽样方式抽取2=n 的随机样本。 (1) 计算出总体的均值和标准差。 (2) 一共有多少个可能的样本? (3) 抽出所有可能的样本,并计算出每个样本的均值。 (4) 画出样本均值的抽样分布的直方图,说明样本均值分布的特征。 (5) 计算所有样本均值的平均数和标准差,并与总体的均值和标准差进行比较,得 到的结论是什么? 6.11 从均值为5.4=μ,方差为25.82=σ的总体中,抽取50个由5=n 个观测值组成的 随机样本,结果见Book6.11。 (1) 计算每一个样本的均值。 (2) 构造50个样本均值的相对频数分布,以此代表样本均值x 的抽样分布。 (3) 计算50个样本均值的平均值和标准差x σ。 6.12 来自一个样本的50个观察值见Book6.12。 (1) 用组距为10构建频数分布表,并画出直方图。 (2) 这组数据大概是什么分布?

统计学概论名词解释

统计学概论名词解释 1.总体与样本-------总体是客观存在的具有相同性质的许多个体的集合, 具有同质性、大量性、变异性的特点。样本是从总体中抽取出来的部分个体的集合,样本是用来推断总体的,样本同样具有同质性、大量性和变异性的特点。 2.标志和指标-------标志是说明总体单位特征的名称,有可以用文字说明 的品质标志和用数值表示的数量标志。指标是说明总体特征的,有总量指标、相对指标、平均指标等区分,所有的指标都是或只能用数字来表示。 变量数列-----又称变量分布数列,是总体按数量标志分组所形成数列。 变量数列分为单项数列和组距数列。 4. 复合分组--------对同一总体选择两个或两个以上的标志进行的分组, 又分平行分组和交叉分组两种情况。复合分组便于对总体内部的差别和关系有更深入的分析。 5.中位数、众数----两者都是位置平均数。中位数是将总体各单位标志 值按一定的顺序进行排序后,处于中间位置的那个标志值。众数则是 在分组的情况下,出现次数最多的那个标志值。数列中可以没有众 数,也可以出现两个以上的众数。 6. 标准差-----是应用最广泛、最重要的一种变异指标。数值越小反应分布越 均匀或平均数的代表性越高。它是各变量值与其算术平均数的离差的平方的平均数(方差)的平方根。(也可以直接用公式表示) 7. 平均发展水平(序时平均数)----将不同时间的发展水平加以平均而得 到的平均数叫做平均发展水平,反映现象在一段时间内的平均水平,属于动态平均数。 8. 时点指标,时期指标-----两者是总量指标的不同形式。时点指标反映 现象在某一时点上所达到的水平;时期指标则反映现象在一段时期内累计达到的量。时期指标的数值大小与时间长短有关,不同时间的数值可以相加;时点指标正好相反;时点指标一般是不连续登记,而时期指标则是连续登记获取的。 9. 相关关系------变量之间客观存在的不严格的非确定性的数量依存关 系。当一个现象发生变动时,另一个现象也会发生相应的变化,但其

《统计学概论》计算题参考答案解析

《统计学概论》习题解答 第二章 统计数据的搜集、整理与显示 10. 某银行网点连续40天客户人数如下表,根据上表进行适当分组,编制频数分布数列并绘制直方图 470 250 290 470 380 340 300 380 430 400 460 360 450 370 370 360 450 440 350 420 350 290 460 340 300 370 440 260 380 440 420 360 370 440 420 360 370 370 490 390 (1)资料排序: 440 430 420 420 420 400 390 380 380 380 370 370 370 370 370 370 360 360 360 360 (2)分组类型—连续组距式分组; (3)组距: (4)组限: 250、290、330、370、410、450、490 某银行网点40天接待客户分布表 40322.31240lg d += () 户40602.1322.31240 ≈?+=()人240250490=-=R

2 4 6 8 10 12 250 290 330 370 410 450 490 530 某银行网点40天接待客户分布直方图 客户 天

第三章 统计分布的数值特征 【7】某大型集团公司下属35个企业工人工资变量数列如下表所示: 月 工 资(元) 企 业 数 比 重(%) ∑? f f x 分 组 组中值x (个) ∑f f 600以下 550 5 10 55.0 600—700 650 8 25 162.5 700—800 750 10 30 225.0 800—900 850 7 20 170.0 900以上 950 5 15 142.5 合 计 — 35 100 755.0 试计算该企业平均工资。(注:比重——各组工人人数在工人总数中所占的比重) 【解】 该集团公司职工的平均工资为755元/人。 【8】某地甲、乙两个农贸市场三种主要水果价格及销售额资料见下表 品 种 价 格 (元/千克) 甲 市 场 乙 市 场 销售额 (万元) 销量 比重 销售额 (万元) 销量 比重 (万千克) (%) (千克) (%) x m x m f = ∑f f m x m f = ∑f f 甲 2.0 80 40 44.5 60 300 000 30.0 乙 3.0 90 30 33.3 120 400 000 40.0 丙 2.5 50 20 22.2 75 300 000 30.0 合 计 — 220 90 100.0 255 1 000 000 100.0 试计算比较该地区哪个农贸市场水果平均价格高?并说明原因。 解: ()千克元甲市场水果平均价格44.2000900000 2002== ()千克元乙市场水果平均价格55.20000001000 5502== 甲市场以较低价格销售的水果所占的比重比乙市场以相同价格销售的水果的比重大,反之,正好情况相反,故甲市场水果的平均价格较低。 【10】根据某城市500户居民家计调查结果,将居民户按其食品开支占全部消费开支的比重(即恩格 尔系数)分组后,得到如下的频数分布资料: 恩格尔系数 ( % ) 户 数 向上累计户数 x f (户%) 分 组 组中值( % ) (户) (户) x f ∑f 20以下 15 6 6 0.90 20—30 25 38 44 9.50

统计学 第五章 抽样推断课后答案

第五章 抽样推断 一、单项选择题 1 2 3 4 5 6 7 8 9 10 C B A D B D C B A C 11 12 13 14 15 16 17 18 19 20 A D C A D C A C B D 二、多项选择题 1 2 3 4 5 ABCE ABDE BCE ABCE ABDE 6 7 8 9 10 ACE ADE ACD ABE CDE 11 12 13 14 15 BDE CD BC ABCD ABCDE 16 17 18 19 20 AD AC BCE ABDE ACE 三、判断题 1 2 3 4 5 6 7 8 9 10 × × × √ √ × √ √ × × 四、填空题 1、变量 属性 2、正 反 3、重复抽样 不重复抽样 4、抽样总体 样本 5、大于 N n - 1 N n 6、标准差 7、样本 总体 抽样平均误差 抽样平均误差 △x = Z x σ 8、合适的样本估计量 一定的概率保证程度 允许的极限误差范围 9、随机抽样 统计分组 10、增大 增大 降低 11、大数定律 中心极限定理 12、样本容量不小(不小于30个单位) 13、大 0.5

14、缩小 3 3 (即0.5774) 扩大 1.1180 15、估计量(或统计量) 参数 五、简答题(略) 六、计算题 1、已知条件:P = 0.5 ,n = 100 且重复抽样 求:p ≤0.45的概率 解: Z = 1100 ) 5.01(5.05.045.0)1(=-?-= --n P P P p 则F (Z = 1) = 0.6827 所以p ≤0.45的概率为: 2 6827 .01-= 0.15865 2、解 E (x 1) = E (0.5X 1 + 0.3X 2 + 0.2X 3) = 0.5 E (X ) + 0.3 E (X ) + 0.2E (X ) = E (X ) = X E (x 2) = E (0.5X 1 + 0.25X 2 + 0.25X 3) = 0.5 E (X ) + 0.25 E (X ) + 0.25E (X ) = E (X ) = X E (x 3) = E (0.4X 1 + 0.3X 2 + 0.3X 3) = 0.4 E (X ) + 0.3 E (X ) + 0.3E (X ) = E (X ) = X 所以x 1、x 2、x 3都是X 的无偏估计量。 D (x 1) = D (0.5X 1 + 0.3X 2 + 0.2X 3) = 0.25 D (X ) + 0.09 D (X ) + 0.04D (X ) = 0.38 D (x 2) = D (0.5X 1 + 0.25X 2 + 0.25X 3)

统计学第七章相关分析与回归分析

第七章 相关分析与回归分析 (3)当固定资产改变200万元时,总产值平均改变多少?(4)当固定资产为1300万元时,总产值为多少? (1)协方差——用以说明两指标之间的相关方向。 2 2))((n y x xy n n y y x x xy ∑∑∑∑-= --=σ 035.126400100 9801 6525765915610>=?-?= 计算得到的协方差为正数,说明固定资产和总产值之间存在正相关关系。 (2)相关系数用以说明两指标之间的相关方向和相关的密切程度。 ∑∑∑∑∑∑∑---= ] )(][)([2222y y n x x n y x xy n r

95.0) 98011086657710()6525566853910(9801 65257659156102 2 =-??-??-?= 计算得到的相关系数为,表示两指标为高度正相关。 (3) 2 226525 5668539109801 6525765915610)(-??-?=--= ∑∑∑∑∑x x n y x xy n b 90.014109765 12640035 42575625566853906395152576591560==--= 85.39210 6525 9.0109801=?-= -=x b y a 回归直线方程为: x y 9.085.392?+= (4)当固定资产改变200万元时,总产值平均改变多少? x y ?=?9.0,1802009.0|200=?=?=?x y 万元 当固定资产改变200万元时,总产值平均增加180万元。 (5)当固定资产为1300万元时,总产值为多少? 85.156213009.085.392|1300=?+==x y 万元 当固定资产为1300万元时,总产值为万元。 例2、试根据下列资产总值和平均每昼夜原料加工量资料计算相关系数。 解:【分析】本题中“企业数”应看成资产总值和平均每昼夜原料加工量两变量的次数,在计算相关系数的过程,要进行“加权”。

统计学习题答案 第4章 抽样与抽样分布

统计学习题答案第4章抽样与抽样分布

第4章抽样与抽样分布——练习题(全免) 1. 一个具有64 n个观察值的随机样本抽自于均 = 值等于20、标准差等于16的总体。 ⑴给出x的抽样分布(重复抽样)的均值和标 准差 ⑵描述x的抽样分布的形状。你的回答依赖于 样本容量吗? ⑶计算标准正态z统计量对应于5.15 = x的值。 ⑷计算标准正态z统计量对应于23 x的值。 = 解: 已知n=64,为大样本,μ=20,σ=16, ⑴在重复抽样情况下,x的抽样分布的均值为 a. 20, 2 b. 近似正态 c. -2.25 d. 1.50 2 . 参考练习4.1求概率。 ⑴x<16;⑵x>23;⑶x>25;⑷.x落在16和22之间;⑸x<14。 解: a. 0.0228 b. 0.0668 c. 0.0062 d. 0.8185 e. 0.0013 3. 一个具有100 n个观察值的随机样本选自于 = μ、16=σ的总体。试求下列概率的近似值:30 =

解: a. 0.8944 b. 0.0228 c. 0.1292 d. 0.9699 4. 一个具有900=n 个观察值的随机样本选自于100=μ和10=σ的总体。 ⑴ 你预计x 的最大值和最小值是什么? ⑵ 你认为x 至多偏离μ多么远? ⑶ 为了回答b 你必须要知道μ吗?请解释。 解:a. 101, 99 b. 1 c. 不必 5. 考虑一个包含x 的值等于0,1,2,…,97,98,99的总体。假设x 的取值的可能性是相同的。则运用计算机对下面的每一个n 值产生500个随机样本,并对于每一个样本计算x 。对于每一个样本容量,构造x 的500个值的相对频率直方图。当n 值增加时在直方图上会发生什么变化?存在什么相似性?这里30,10,5,2====n n n n 和50=n 。 解:趋向正态 6. 美国汽车联合会(AAA )是一个拥有90个俱 乐部的非营利联盟,它对其成员提供旅行、

统计学答案解析最新版本

统计学课本课后作业题(全) 题目: 第1章:P11 6,7 第2章:P52 练习题3、9、10、11 第3章:P116思考题12、14 练习题16、25 第4章:P114 思考题6,练习题2、4、6、13 第5章:P179 思考题4、练习题3、4、6、11 第6章:P209 思考题4、练习题1、3、6 第7章:P246思考题1、练习题1、7 第8章:P287 思考题4、10 练习题2、3 第一章 6..一家大型油漆零售商收到了客户关于油漆罐分量不足的许多抱怨。因此,他们开始检查供货商的集装箱,有问题的将其退回。最近的一个集装箱装的是2 440加仑的油漆罐。这家零售商抽查了50罐油漆,每一罐的质量精确到4位小数。装满的油漆罐应为4.536 kg。要求: (1)描述总体;最近的一个集装箱内的全部油漆; (2)描述研究变量;装满的油漆罐的质量; (3)描述样本;最近的一个集装箱内的50罐油漆; (4)描述推断。50罐油漆的质量应为4.536×50=226.8 kg。 7.“可乐战”是描述市场上“可口可乐”与“百事可乐”激烈竞争的一个流行术语。这场战役因影视明星、运动员的参与以及消费者对品尝试验优先权的抱怨而颇具特色。假定作为百事可乐营销战役的一部分,选择了1000名消费者进行匿名性质的品尝试验(即在品尝试验中,两个品牌不做外观标记),请每一名被测试者说出A品牌或B品牌中哪个口味更好。要求:答:(1)总体:市场上的“可口可乐”与“百事可乐” (2)研究变量:更好口味的品牌名称; (3)样本:1000名消费者品尝的两个品牌 (4)推断:两个品牌中哪个口味更好。 第二章 3.某百货公司连续40天的商品销售额如下(单位:万元):

统计学原理第九章(相关与回归)习题答案

第九章相关与回归 一.判断题部分 题目1:负相关指的是因素标志与结果标志的数量变动方向是下降的。() 答案:× 题目2:相关系数为+1时,说明两变量完全相关;相关系数为-1时,说明两个变量不相关。() 答案:√ 题目3:只有当相关系数接近+1时,才能说明两变量之间存在高度相关关系。() 答案:× 题目4:若变量x的值增加时,变量y的值也增加,说明x与y之间存在正相关关系;若变量x的值减少时,y变量的值也减少,说明x与y之间存在负相关关系。() 答案:× 题目5:回归系数和相关系数都可以用来判断现象之间相关的密切程度。() 答案:× 题目6:根据建立的直线回归方程,不能判断出两个变量之间相关的密切程度。() 答案:√ 题目7:回归系数既可以用来判断两个变量相关的方向,也可以用来说明两个变量相关的密切程度。() 答案:×

题目8:在任何相关条件下,都可以用相关系数说明变量之间相关的密切程度。() 答案:× 题目9:产品产量随生产用固定资产价值的减少而减少,说明两个变量之间存在正相关关系。() 答案:√ 题目10:计算相关系数的两个变量,要求一个是随机变量,另一个是可控制的量。() 答案:× 题目11:完全相关即是函数关系,其相关系数为±1。() 答案:√ 题目12:估计标准误是说明回归方程代表性大小的统计分析指标,指标数值越大,说明回归方程的代表性越高。() 答案× 二.单项选择题部分 题目1:当自变量的数值确定后,因变量的数值也随之完全确定,这种关系属于()。 A.相关关系 B.函数关系 C.回归关系 D.随机关系 答案:B 题目2:现象之间的相互关系可以归纳为两种类型,即()。 A.相关关系和函数关系 B.相关关系和因果关系

统计学基础 第一章 统计概述

第一章统计概述 【教学目的】 1.明确统计的含义、方法及职能 2.能够灵活运用统计资料反映社会经济现象的数量方面 3.重点理解统计的基本概念及各概念之间的区别与联系 【教学重点】 1.能够运用统计资料反映社会经济现象的数量方面 2.重点理解统计的基本概念及各概念之间的区别与联系 【教学难点】 难点为理解统计的基本概念及各概念之间的区别与联系 【教学时数】 教学学时为4课时 【教学内容参考】 第一节统计的研究对象 一、统计的含义 【引言】 当我们跨入新世纪的时候,人们已经对这个时代的特征作了概括性的描述,这就是信息时代。面对来自方方面面的各种信息,我们只有利用统计这一工具,才能理解世界的精彩,了解世界宏微观的经济运行状况。为了管理好国家,搞好企业的生产经营,政府和企业都设立了专门的统计机构,或专门成立企业营销组织、营销策划等机构,由专门的统计人员或营销策划人员负责国民经济各行各业的信息搜集、整理、分析工作,为国家和企业进行各项决策提供可靠、及时的统计信息。 【案例】 据统计,2008年国内生产总值300670亿元,比上年增长9.0%。分产业看,第一产业增加值34000亿元,增长5.5%;第二产业增加值146183亿元,增长9.3%;第三产业增加值120487亿元,增长9.5%。第一产业增加值占国内生产总值的比重为11.3%,比上年上升0.2个百分点;第二产业增加值比重为48.6%,上升0.1个百分点;第三产业增加值比重为40.1%,下降0.3个百分点。年末全国就业人员77480万人,比上年末增加490万人。其中城镇就业人员30210万人,净增加860万人,新增加1113万人。年末城镇登记失业率为4.2%,比上年末上升0.2个百分点。这些都是统计信息的基本表现形式。 因此,我们将统计的含义概括为统计资料、统计工作和统计学。 反映社会经济现象情况和特征的数字及文字材料,称为统计资料; 对统计资料的搜集、整理、分析的工作总称,称为统计工作(或统计活动)。 统计过程包括统计设计、统计调查、统计整理与统计分析; 系统论述统计工作的学科,称为统计学。 三者之间的关系比较密切。统计资料是统计工作的成果,统计学与统计工作是理论与实践的辩证关系。了解和掌握统计学的基本理论和方法,是做好统计工作、取得有效统计资料的基础。 二、统计的研究对象 社会经济统计的研究对象是社会经济现象的总体数量方面,即以统计资料为依据具体说明社会经济现象总体的数量特征、数量关系及数量界限。下面举例说明如何根据统计资料说明社会经济现象的数量特征、数量关系及数量界限。 【案例】

统计学概论课件讲义

授课目录第一章质量管理概说 第二章统计学概论 第三章机率概论及机率分配 第四章统计制程管制与管制图 第五章计量值管制图 第六章计数值管制图 第七章制程能力分析 第八章允收抽样的基本方法 第九章计数值抽样计划 第十章计量值抽样计划 第十一章量具之再现度与再生度第十二章质量管理之新七大手法

1. 导论 统计学是一探讨如何搜集数据与分析数据的科学研究方法。在不确定的状态下,藉由样本数据所提供的讯息,经归纳分析、推论检定、决策与预测等过程。『以事实(数字)作决策』。

2.1认识统计 ◎自古以来,人类从事各项研究活动均是为求真理,亦是社会文明进步的原动力。然而通往真理的路上充满混沌与挫折,如何厘清真相,统计学自然就成为一门极重要的科学研究工具。 ◎统计学是由搜集数据、整理数据、分析数据及解释意义等规则与程序所组成。 ◎统计学研究过程: 推论= 估计+ 假设检定 Inferential Statistics = Estimation + Testing Hypothesis

2.2 统计精神就是科学研究的精神 ◎ 著名统计学家费雪(R. A. Fisher, 1890-1962)曰:统计方法的目的是基于经验观察,去改进我们对系统的了解---即统计的基本精神。 ◎ 架构一系列有组织有系统且可分析的研究过程,以获得客观可靠的结论---即科学研究的精神。 系 统 理 论---线 性 系 统 “Ref: The Six Sigma Way , by Peter S. Pande, Robert P. Neuman, & Roland R. Cavanagh, McGraw-Hill.” 『系统三要素---输入、过程、输出』

统计学习题第五章_抽样与抽样估计答案

一、填空题 1、在实际工作中,人们通常把 n≥30 的样本称为大样本,而把 n<30 的样本称为小样本。 2、在抽样估计中,常见的样本统计量有样本均值、样本比例、样本标准差或样本方差以及它们的函数。 3、在研究目的一定的条件下,抽样总体是唯一确定的,而样本则有许多个。 4、在抽样调查中,登记性误差和系统性误差都可以尽量避免,而抽样误差则是不可避免的,但可以计算并加以控制。 5、在抽样估计中,抽样估计量是指用于估计总体参数的样本指标(统计量),评价估计量优劣的标准有无偏性、有效性和一致性。 二、选择题 单选题: 1、在其它条件不变的情况下,要使抽样平均误差为原来的1/3,则样本单位数必须 ((2)) (1)增加到原来的3倍(2)增加到原来的9倍 (3)增加到原来的6倍(4)也是原来的1/3 2、在总体内部情况复杂,且各单位之间差异程度大,单位数又多的情况下,宜采用 ((3)) (1)简单随机抽样(2)等距抽样(3)分层抽样(4)整群抽样 3、某厂产品质量检查,确定按5%的比率抽取,按连续生产时间顺序每20小时抽1 小时的全部产进行检验,这种方式是((4)) (1)简单随机抽样(2)等距抽样(3)分层抽样(4)整群抽样 4、其它条件一定,抽样推断的把握程度提高,抽样推断的准确性就会((2)) (1)提高(2)降低(3)不变(4)不一定降低 5、在城市电话网的100次通话中,通话持续平均时间为3分钟,均方差为分钟,则概率为时,通话平均持续时间的抽样极限误差为((2)) (1)(2)(3)(4)

6、假定11亿人口大国和100万人口小国的居民年龄变异程度相同,现在各自用重复抽样方法抽取本国人口的1%计算平均年龄,则平均年龄抽样平均误差((3))(1)两者相等(2)前者比后者大(3)前者比后者小(4)不能确定大小 多选题: 1、降低抽样误差,可以通过下列那些途径((2)(4)(5)) (1)降低总体方差(2)增加样本容量。 (3)减少样本容量(4)改重复抽样为不重复抽样 (5)改简单随机抽样为类型抽样 2、抽样推断中的抽样误差((1)(5)) (1)是不可避免要产生的 (2)是可以通过改进调查方法来消除的 (3)只有调查后才能计算 (4)即不能减少,也不能消除 (5)其大小是可以控制的 3、抽样极限误差((1)(2)(4)) (1)是所有可能的样本指标与总体指标之间的误差范围 (2)也叫允许误差(3)与所做估计的概率保证程度成反比 (4)通常用来表示抽样结果的精确度 4、影响样本容量的因素有((1)(2)(3)(4)(5)) (1)总体方差 (2)所要求的概率保证程度 (3)抽样方法 (4)抽样的组织形式 (5)允许误差法范围的大小 5、不重复抽样的抽样平均误差((2)(4)) (1)总是大于重复抽样的抽样平均误差

统计学第五章课后题及答案解析

第五章 练习题 一、单项选择题 1.抽样推断的目的在于() A.对样本进行全面调查B.了解样本的基本情况 C.了解总体的基本情况D.推断总体指标2.在重复抽样条件下纯随机抽样的平均误差取决于() A.样本单位数B.总体方差 C.抽样比例D.样本单位数和总体方差 3.根据重复抽样的资料,一年级优秀生比重为10%,二年级为20%,若抽样人数相等时,优秀生比重的抽样误差() A.一年级较大B.二年级较大 C.误差相同D.无法判断 4.用重复抽样的抽样平均误差公式计算不重复抽样的抽样平均误差结果将()A.高估误差B.低估误差 C.恰好相等D.高估或低估 5.在其他条件不变的情况下,如果允许误差缩小为原来的1/2 ,则样本容量() A.扩大到原来的2倍B.扩大到原来的4倍 C.缩小到原来的1/4D .缩小到原来的1/2 6.当总体单位不很多且差异较小时宜采用() A.整群抽样B.纯随机抽样 C.分层抽样D.等距抽样 7.在分层抽样中影响抽样平均误差的方差是() A.层间方差B.层内方差 C.总方差D.允许误差二、多项选择题 1.抽样推断的特点有() A .建立在随机抽样原则基础 上 B.深入研究复杂的专门问 题 C .用样本指标来推断总体指 标 D.抽样误差可以事先计算 E .抽样误差可以事先控制 2.影响抽样误差的因素有() A .样本容量的大小B.是有限总体还是无限总 体 C .总体单位的标志变动度D.抽样方法 E .抽样组织方式 3.抽样方法根据取样的方式不同分为() A .重复抽样 B .等距抽样 C .整群抽样 D .分层抽样 E .不重复抽样 4.抽样推断的优良标准是() A .无偏性 B .同质性 C .一致性 D .随机性 E .有效性 5.影响必要样本容量的主要因素有() A . 总体方差的大小B.抽样方法

统计学概论试题

浙江省2008年10月高等教育自学考试 统计学概论试题 课程代码:05087 一、单项选择题(本大题共10小题,每小题2分,共20分) 在每小题列出的四个备选项中只有一个是符合题目要求的,请将其代码填写在题后的括号内。错选、多选或未选均无分。 1.某城市进行工业企业未安装设备普查,总体单位是( ) A.工业企业全部未安装设备 B.工业企业每一台未安装设备 C.每个工业企业的未安装设备 D.每一个工业企业 2.统计调查按组织形式分为( ) A.全面调查与非全面调查 B.经常性调查与一次性调查 C.统计报表制度与专门调查 D.直接观察法 3.某连续变量数列,其第一组为开口组,上限为500,已知第二组的组中值为540,则第一组的组中值为( ) A.480 B.420 C.450 D.460 4.比较相对指标是( ) A.现象在时间上数值的对比 B.现象在空间上数值的对比 C.现象的部分数值与总体数值的对比 D.现象内部的部分与部分的对比 5.某校学生人数2005年比2004年增长了8%,2006年比2005年增长了15%,2007年比2006年增长了18%,则2004-2007年学生人数共增长了( ) A.8%+15%+18% B.8%×15%×18% C.(108%+115%+118%)-1 D.108%×115%×118%-1 6.统计指数按其所表明的经济指标性质不同,分为( ) A.数量指标指数和质量指标指数 B.个体指数和总指数 C.定基指数和环比指数 D.平均指数和总指数 7.在同等条件下,重复抽样与不重复抽样相比较,其抽样平均误差( ) A.前者小于后者 B.前者大于后者 C.两者相等 D.无法确定哪一个大 8.相关系数R的数值( ) 05087# 统计学概论试题第 1 页共4 页

《统计学》相关与回归分析

第九章 相关与回归分析 1.从某一行业中随机抽取12家企业,所得产量与其单位成本数据如下: 企业编号 产量(台) 单位成本(台/元) 企业编号 产量(台) 单位成本(台/元) 1 40 185 7 84 156 2 42 175 8 100 142 3 50 172 9 116 140 4 5 5 170 10 125 135 5 65 169 11 130 130 6 78 164 12 140 124 (1)绘制产量与单位成本的散点图,判断二者之间的关系形态。 关系形态:线性负相关 (2)计算产量与单位成本之间的线性相关系数,并对相关系数的显著性进行检验(05.0=α),说明二者之间的关系强度。 设产量为x 台,单位成本y 台/元,由Excel 的回归分析工具计算得 线性相关系数R=0.987244 检验统计量t=19.608669 t α/2(n-2)= 2.228138852 t> t α/2(n-2),说明相关系数是显著的。关系强度为高度线性相关。 (3)以产量为自变量,单位成本为因变量,拟合直线回归方程,并对方程和系数进行显著性检验。 由Excel 的回归分析工具计算得 y = -0.5524x + 202.35 R2 = 0.9747 检验统计量t=19.608669 t α/2(n-2)= 2.228138852 t> t α/2(n-2),说明回归方程和相关系数是显著的。

2.下面是某年7个地区的人均GDP 和人均消费水平的统计数据: 地区 人均GDP (元)X 人均消费水平(元) Y 1 22460 7326 2 11226 4490 3 34547 11546 4 4851 2396 5 5444 2208 6 2662 1608 7 4549 2035 (1)画出相关图,并判断人均GDP 与人均消费水平之间对相关方向; 线性正相关 (2)计算相关系数,指出人均GDP 与人均消费水平之间的相关方向和相关程度; (3)以人均GDP 为自变量,人均消费水平作因变量,拟合直线回归方程; (4)计算估计标准误差 yx S ; (5)对回归系数进行检验(显著性水平取0.05); (6)在95%的概率保证下,求当人均GDP 为5000元时,人均消费水平的置信区间。

统计学答案 第八章 抽样与抽样分布

第八章抽样与抽样分布 一、名词解释 1、统计抽样:按照随机原则从被研究现象的总体中,抽取一部分单位进行观察,然后根据 观察的结果运用数理统计的原理,来估计总体综合指标或者对总体综合指标的某种假设进行 检验。 2、重复抽样:是从总体中每抽出一个样本单位后,把结果记录下来,随即将该单位放回到 总体中去,使它和其余的单位在下一次抽选中具有同等被抽中的机会,再抽取第二个单位,直至抽取n个单位为止。 3、不重复抽样:一个单位被抽中后不再放回总体,然后再从所剩下的单位中抽取第二个单位,直到抽出n个单位为止,这样的抽样方法不可能使一个总体单位被重复抽中,所以称为 不重复抽样。 4、简单随机抽样:在从总体中随机抽取n个单位作为样本时,要使得每一个总体的单位都 有相同的机会(概率)被抽中。 5、分层抽样:在抽样之前先将总体的单位划分为若干层(类),然后从各个层中抽取一定数 量的单位组成一个样本,这样的抽样方式称为分层抽样,也称为分类抽样。 6、系统抽样:在抽样中先将总体各单位按某种顺序排列,并按某种规则确定一个随机起点, 然后,每隔一定的间隔抽取一个单位,直至抽取n个单位形成一个样本。这样的抽样方式称 为系统抽样,也称等距抽样或机械抽样。 7、整群抽样:调查时,先将总体划分成若干群,然后再以群作为调查单位从中抽取部分群, 进而对抽中的各个群中所包含的所有个体单位进行调查或观察,这样的抽样方式称为整群抽样。 8、总体分布:总体是我们关心的若干个元素的集合,总体中每个元素的取值是不同的,这些 观察值所形成的相对频数分布就是总体分布。 9、样本分布:是指一个样本中各观察值所形成的相对频数分布。 10.抽样分布:某个样本统计量的抽样分布,从理论上说就是在重复选取容量为n的样本时, 由该统计量的所有可能取值形成的相对频数分布。 11、比率:是指总体(或样本)中具有某种属性的单位与全部单位总数之比。 12、样本比率的抽样分布:在重复选取容量为n的样本时,由样本比率的所有可能取值形成 的相对频数分布称为样本比率的抽样分布。 二、判断题 1、× 2、√ 3、× 4、× 5、√ 6、× 7、√ 8、√ 9、× 10、√ 三、选择题 1、A 2、A 3、B 4、B 5、C 6、D 7、D 8、D 9、C 10、D 11、C 12、B 13、C 14、C 15、A 16、D 17、A 18、B 19、C 20、B 21、B 22、B 23、B 24、A 25、A 四、简答题 1、简述统计抽样的基本特点。

统计学概论练习题及参考答案

统计学概论练习题及参考答案 20XX年《统计学概论》练习题 一、单项选择题 1.统计学的两大基本) A.统计资料的收集和分析B.理论统计和运用统计C.统计预测和决策D.描述统计和推断统计2.下面的变量中哪一个属于分类变量() A.年龄B.工资C.汽车产量D.付款方式(现金、信用卡、支票)3.下面哪一个图形最适合描述结构性问题() A.条形图B.饼图C.直方图D.折线图4.统计分组后,应使()A.组B.组D.组) A.众数B.中位数C.四分位数D.平均数 6.根据经验,当算术平均数小于中位数且小于众数时,次数分布为() A.对称分布B.右偏分布C.左偏分布D.右偏或左偏分布 7.对两个总体分布进行变异性比较,当它们的平均数不等,计量单位不同时,需要计算()比较。 A.标准差系数B.标准差C.平均差D.方差8.当原假设正确,按检验规则却拒绝了原假设,则犯了() A.取伪错误B.检验错误C.第Ⅰ类错误D.第Ⅱ类错误 9.每一吨铸铁成本yc(万元)和铸件废品率x(%)变动的回归方程为:,这意味着() A.废品率每增加1%,成本每吨增加64万元B.废品率每增加1%,成本每吨增加8% C.废品率每增加1%,成本每吨增加8万元D.废品率每增加1%,则每吨成本为56万元10.将总体全部单位按照某个标志分组,再从各类型组中随机抽取一定单位组成样本,这种抽样是() A.随机抽样B.等距抽样C.分层抽样D.整群抽样11.根据经验,当算术平均数大于中位数且大于众数时,钟形分布为() A.对称分布B.右偏分布C.左偏分布D.负偏分布12.正态总体,总体方差σ2未知,小样本(n<30)的情况下,总体均值μ的置信度为1-α的置信区间为() A. 2 2 ) B. 2 2 Sn )

统计学 第五章习题

第五章思考与练习 1. 要求: (1)计算样本平均数和样本标准差,并推算抽样平均误差; (2)以95.45%的概率保证,估计该厂工人的月平均工资和工资总额的区间。 2.从某餐厅连续三个星期抽查49名顾客,调查顾客的平均消费额,得样本平均消费额为 25.5元。要求: (1)假设总体标准差为10.5元,求抽样平均误差。 (2)以95%的概率保证,抽样极限误差是多少? (3)估计总体消费额的置信区间。 3.某加油站想了解司机在该加油站加油的习惯,一周内随机抽取了100名司机,得出如下 结果:平均加油量等于13.5升,样本标准差为3.2升,有19人购买无铅汽油,试问:(1)以0.05的显著性水平,是否有证据说明平均加油量为12升。 (2)以0.05的显著性水平,是否有证据说明购买无铅汽油的司机少于20。 4 设干燥时间总体服从正态分布,现在要求置信度为95%时估计这种漆的平均干燥时间。 (1)根据经验知总体标准差为0.6小时: (2)总体标准差未知。 5.采用简单随机重置抽样从2000件产品中抽查200件产品,其中合格产品190件,要求: (1)计算该产品的合格率及其抽样平均误差; (2)以95.45%的概率,对产品合格率和产品合格数量进行区间估计; (3)如果合格品率的极限误差为2.31%,其概率保证程度是多少?

6.某电子产品的使用寿命在3000小时以下为次品,现在从5000件产品中抽取100件测得 要求: (1)分别按重置抽样和不重置抽样计算该产品平均寿命的抽样平均误差; (2)分别按重置抽样和不重置抽样计算该产品次品率的抽样平均误差; (3)以90%的概率保证,对该产品的平均使用寿命进行区间估计; (4)以90%的概率保证,对该产品的次品率进行区间估计。 7.某医院欲估计一名医生花在每个病人身上的平均时间,根据以往经验看病时间的标准差 为6分钟。若要求置信度为95%,允许误差范围为2分钟。试问随机抽样中需要多大的样本? 8.某公司新推出一种营养型豆奶,为了解该豆奶的受欢迎程度,并使置信度为95%,估计 误差不超过5%,下列情况下,你建议样本容量为多少? (1)初步估计60%的顾客喜欢此豆奶 (2)没有任何顾客资料 9.为调查某地区人口综合素质,在该地区150 000户家庭中以不重置抽样方式随机抽取30 要求: (1)试以95.45%的概率保证程度,推断该地区的人口总数 (2)若要求人口总数的极限误差不超过3300人,应至少抽取多少户作为样本? 10.某电视台为了了解某电视节目的收视率,随机抽取500户居民作为样本。从调查结果来 看,有160户收看该节目。以95%的概率保证推断: (1)该电视节目的收视率 (2)如果收视率的极限误差缩小为原来的1/2,则样本容量应为原来的多少户? 11.从某县的100个村中,抽取10个村进行各村的全面调查,算得每户平均饲养家畜35头, 各村平均的方差为16,要求: (1)以90%的概率估计全县平均每户饲养家畜的头数 (2)若极限误差为2412头,则计算其概率保证程度。

相关主题
文本预览
相关文档 最新文档