当前位置:文档之家› 统计学第五版总复习

统计学第五版总复习

统计学第五版总复习
统计学第五版总复习

第4章 数据的概括性度量 4.1 集中趋势的度量

● 集中趋势(central tendency)

1、一组数据向其中心值靠拢的倾向和程度

2、测度集中趋势就是寻找数据水平的代表值或中心值

3、不同类型的数据用不同的集中趋势测度值

4、低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据

● 分类数据:众数(mode)

1、一组数据中出现次数最多的变量值

2、适合于数据量较多时使用

3、不受极端值的影响

4、一组数据可能没有众数或有几个众数

5、主要用于分类数据,也可用于顺序数据和数值型数据

6、(不惟一性):无众数、一个众数、多于一个众数 ● 顺序数据:中位数和分位数 a 中位数(median)

1、排序后处于中间位置上的值

2、不受极端值的影响

3、主要用于顺序数据,也可用数值型数据,但不能用于分类数据

4、各变量值与中位数的离差绝对值之和最小

b 四分位数(quartile)

1、排序后处于25%和75%位置上的值

2、不受极端值的影响

3、计算公式:Q L =n/4 Q U =3n/4 ● 数值型数据:平均数(mean) 1.、集中趋势的最常用测度值 2、一组数据的均衡点所在 3、体现了数据的必然性特征

4、易受极端值的影响

5、有简单平均数和加权平均数之分

6、根据总体数据计算的,称为平均数,记为μ;根据样本数据计算的,称为样本平均数,记为x

分类:简单平均数、加权平均数、几何平均数 a 几何平均数(geometric mean) 1、n 个变量值乘积的 n 次方根 2、适用于对比率数据的平均 3、主要用于计算平均增长率 4、计算公式:

5、可看做为平均数的一种变形:

(中位数)

位置确定:中位数位置=(n+1)/2

数值确定: M e = X(n+1/2) n 为奇数

M e =1/2X(n/2)+1/2X(n/2+1) n 为偶数

n x x x x n G n

i i

n m ∑

==+++=121lg )lg lg (lg 1lg n n

i i n n m x x x x G ∏

==???=121

● 众数、中位数、平均数的特点和应用 众数

?不受极端值影响 ?具有不惟一性

?数据分布偏斜程度较大且有明显峰值时应用

中位数

?不受极端值影响

?数据分布偏斜程度较大时应用

平均数

?易受极端值影响 ?数学性质优良

?数据对称分布或接近对称分布时应用

4.2 离散程度的度量

● 分类数据:异众比率(variation ratio) 1、对分类数据离散程度的测度 2、非众数组的频数占总频数的比例 3、计算公式为

4、用于衡量众数的代表性

● 顺序数据:四分位差(quartile deviation) 1、对顺序数据离散程度的测度 2、也称为内距或四分间距

3、上四分位数与下四分位数之差 Qd = Q U – Q L

4、反映了中间50%数据的离散程度

5、不受极端值的影响

6、用于衡量中位数的代表性 ● 数值型数据:方差和标准差 a 极差(range)

1、一组数据的最大值与最小值之差

2、离散程度的最简单测度值

3、易受极端值影响

4、未考虑数据的分布

5、计算公式: R= max(Xi) - min(Xi) b 平均差(mean deviation)

1、各变量值与其平均数离差绝对值的平均数

2、能全面反映一组数据的离散程度

3、数学性质较差,实际中应用较少

4、计算公式:

未分组数据

组距分组数据

-=-=i

m i m i r f f

f f f v 1n

x

x M n

i i ∑

=-=1

d n

f x M

M k i i

i

∑=-=

1

d

c 方差和标准差(variancean

d standard deviation) 1、数据离散程度的最常用测度值 2、反映了各变量值与均值的平均差异

3、根据总体数据计算的,称为总体方差(标准差),记为σ2(σ);根据样本数据计算的,称为样本方差(标准差),记为s 2(s)

d 样本方差和标准差 (sampl

e varianceand standard deviation)

方差的计算公式

标准差的计算公式

未分组数据

1

)

(1

2

2--=

∑=n x x s n

i i

1

)

(1

2

--=

∑=n x x s n

i i

组距分组数据

1

)(1

2

2--=

∑=n f x M

s k

i i

i

1

)(1

2--=

∑=n f x M

s k

i i

i

e 自由度 (degree o

f freedom)

1、自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差

2、从字面涵义来看,自由度是指一组数据中可以自由取值的个数

3、当样本数据的个数为n 时,若样本平均数确定后,则附加给n 个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值

4、按着这一逻辑,如果对n 个观测值附加的约束个数为k 个,自由度则为n-k

1.样本有3个数值,即x 1=2,x 2=4,x 3=9,则 `x (平均)= 5。当 `x = 5 确定后,x 1,x 2

和x 3有两个数据可以自由取值,另一个则不能自由取值,比如x 1=6,x 2=7,那么x 3则必然取2,而不能取其他值

2.为什么样本方差的自由度为什么是n-1呢?因为在计算离差平方和时,必须先求出样

本均值`x ,而`x 则是附件给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n 个 3.样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,

当用样本方差s 2去估计总体方差σ2时,它是σ2的无偏估计量 f 总体方差和标准差 (Population varianceand Standard deviation)

方差的计算公式

标准差的计算公式

未分组数据

N

x N

i i

∑=-=

1

2

2)

(μσ

N

x N

i i

∑=-=

1

2

)

(μσ

组距分组数据

N

f M

K

i i

i

∑=-=

1

2

2)(μσ

N

f M

K

i i i

∑=-=

1

2

)(μσ

● 相对位置的度量:标准分数(standard score)

样本方差用自由度n -1去除

1、也称标准化值

2、对某一个值在一组数据中相对位置的度量

3、可用于判断一组数据是否有离群点(outlier)

4、用于对变量的标准化处理

5、计算公式为 性质:z 分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是使该组数据均值为0,标准差为1

经验法则:当一组数据对称分布时

?约有68%的数据在平均数加减1个标准差的范围之内 ?约有95%的数据在平均数加减2个标准差的范围之内 ?约有99%的数据在平均数加减3个标准差的范围之内 ● 切比雪夫不等式(Chebyshev’sinequality)

1、如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用

2、切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”

3、对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k 个标准差之内。其中k 是大于1的任意值,但不一定是整数 ● 相对离散程度:离散系数(coefficient of variation) 1、标准差与其相应的均值之比 2、对数据相对离散程度的测度

3、消除了数据水平高低和计量单位的影响

4、用于对不同组别数据离散程度的比较

5、计算公式为: 4.3 偏态与峰态的度量 ● 偏态(skewness)

1、统计学家Pearson 于1895年首次提出

2、数据分布偏斜程度的测度 2、偏态系数=0为对称分布

3、偏态系数> 0为右偏分布

4、偏态系数< 0为左偏分布

5、偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低

6、计算公式为:

根据原始数据计算

.根据分组数据计算

● 峰态(kurtosis)

1、统计学家Pearson 于1905年首次提出

2、数据分布扁平程度的测度

s

x

x z i i -

=x s v s =

()

3

3)2)(1(s n n x x n SK i ---=∑

31

3)(ns f x M

SK k

i i

i

∑=-=

3、峰态系数=0扁平峰度适中

4、峰态系数<0为扁平分布

5、峰态系数>0为尖峰分布

6、计算公式为:

根据原始数据计算

根据分组数据计算

第五章 概率与概率分布 5.1 随机事件及其概率 a 试验(experiment)

1、在相同条件下,对事物或现象所进行的观察 ? 例如:掷一枚骰子,观察其出现的点数

2、试验的特点

? 可以在相同的条件下重复进行

? 每次试验的可能结果可能不止一个,但试验的所有可能结果在试验之前是确切知道的 ? 在试验结束之前,不能确定该次试验的确切结果 b 事件

1、事件(event):随机试验的每一个可能结果(任何样本点集合)

2、随机事件(random event):每次试验可能出现也可能不出现的事件

3、必然事件(certain event):每次试验一定出现的事件,用Ω表示

4、.不可能事件(impossible event):每次试验一定不出现的事件,用Ф表示 c 事件与样本空间

1、基本事件(elementary event) ? 一个不可能再分的随机事件 ? 例如:掷一枚骰子出现的点数

2、样本空间(sample space)

? 一个试验中所有基本事件的集合,用Ω表示 ? 例如:在掷枚骰子的试验中,Ω={1,2,3,4,5,6} 5.2 概率的性质与运算法则 ● 概率的古典定义

如果某一随机试验的结果有限,而且各个结果在每次试验中出现的可能性相同,则事件A 发生的概率为该事件所包含的基本事件个数 m 与样本空间中所包含的基本事件个数 n 的比值,记为:

● 概率的统计定义

在相同条件下进行n 次随机试验,事件A 出现 m 次,则比值 m/n 称为事件A 发生的频率。随着n 的增大,该频率围绕某一常数P 上下摆动,且波动的幅度逐渐减小,取向于稳定,这个频率的稳定值即为事件A 的概率,记为:

● 主观概率定义

[]

4

2

24)3)(2)(1()1()(3)()1(s n n n n x x x x n n K i i -------+=

3)(414--=∑

=ns

f x M K k i i

i n

m

A A P =事件个数样本空间所包含的基本所包含的基本事件个数事件=)(p n

m

A P ==)(

1、对一些无法重复的试验,确定其结果的概率只能根据以往的经验人为确定

2、概率是一个决策者对某事件是否发生,根据个人掌握的信息对该事件发生可能性的判断

3、例如,我认为2003年的中国股市是一个盘整年 ● 概率的性质与运算法则 1、非负性

? 对任意事件A ,有 0 ≤ P(A) ≤ 1 2、规范性

? 必然事件的概率为1;不可能事件的概率为0。即P ( Ω ) = 1; P ( Ф ) = 0 3、可加性

? 若A 与B 互斥,则P ( A∪B ) = P ( A ) + P ( B )

? 推广到多个两两互斥事件A 1,A 2,…,A n ,有 P ( A 1∪A 2 ∪… ∪A n ) = P ( A 1 ) + P (A 2 )

+ … + P (A n )

4、概率的加法法则 (additive rule) a 法则一

? 1.两个互斥事件之和的概率,等于两个事件概率之和。设A 和B 为两个互斥事件,则 P ( A∪B ) = P ( A ) + P ( B ) ? 2.事件A1,A2,…,An 两两互斥,则有

P ( A 1∪A 2 ∪… ∪A n ) = P ( A 1 ) + P (A 2 ) + … + P (A n ) b 法则二

? 对任意两个随机事件A 和B ,它们和的概率为两个事件分别概率的和减去两个事件交的

概率,即

P ( A∪B ) = P ( A ) + P ( B ) - P ( A∩B ) ● 条件概率(conditional probability)

在事件B 已经发生的条件下,求事件A 发生的概率,称这种概率为事件B 发生条件下事件A 发生的条件概率,记为:

● 概率的乘法公式(multiplicative rule) 1、用来计算两事件交的概率 2、以条件概率的定义为基础

3、设A 、B 为两个事件,若P (B )>0,则P (AB )=P (B )P (A |B ),或P (AB )=P (A )P (B |A ) ● 事件的独立性(independence)

1、一个事件的发生与否并不影响另一个事件发生的概率,则称两个事件独立

2、若事件A 与B 独立,则P(B|A)=P(B), P(A|B)=P(A)

3、此时概率的乘法公式可简化为

P(AB)=P(A)·P(B) 4、推广到n 个独立事件,有

P (A 1 A 2…A n )=P (A 1)P (A 2) … P (A n ) ● 全概公式

设事件A1,A2,…,An 两两互斥, A1+A2+…+ An =Ω(满足这两个条件的事件组称为一个完备事件组),且P(Ai)>0(i=1,2, …,n),则对任意事件B ,有

我们把事件A 1,A 2,…,A n 看作是引起事件B 发生的所有可能原因,事件B 能且只能在

==n

i i i A B P A p B P 1

)

|()()(

原有A 1,A 2,…,A n 之一发生的条件下发生,求事件B 的概率就是上面的全概公式 ● 贝叶斯公式(逆概公式)

1、与全概公式解决的问题相反,贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因 2/设n 个事件A1,A2,…,An 两两互斥, A1+A2+…+ An=Ω (满足这两个条件的事件组称为一个完备事件组),且P(Ai)>0(i=1,2, …,n),则

5.3 离散型随机变量及其分布 ● 随机变量(random variables) 1.一次试验的结果的数值性描述 2.一般用 X 、Y 、Z 来表示

3.例如: 投掷两枚硬币出现正面的数量

4.根据取值情况的不同分为离散型随机变量和连续型随机变量 A 离散型随机变量(discrete random variables)

1.随机变量 X 取有限个值或所有取值都可以逐个列举出来 X1 , X2,…

2.以确定的概率取这些不同的值

3.离散型随机变量的一些例子

B 连续型随机变量(continuous random variables) 1.随机变量 X 取无限个值

2.所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点 c 离散型随机变量的数学期望

1.在离散型随机变量X 的一切可能取值的完备组中,各可能取值xi 与其取相对应的概率pi 乘积之和

2.描述离散型随机变量取值的集中程度

3.计算公式为

d 离散型随机变量的方差

1.随机变量X 的每一个取值与期望值的离差平方和的数学期望,记为D(X)

2.描述离散型随机变量取值的分散程度

3.计算公式为

试验

随机变量 可能的取值 抽查100个产品 一家餐馆营业一天 电脑公司一个月的销售 销售一辆汽车

取到次品的个数 顾客数 销售量 顾客性别

0,1,2, …,100 0,1,2, … 0,1, 2,… 男性为0,女性为1

==n

j j j i i i A B P A p A B P A P B A P 1

)

|()()|()()|(取无穷个值)取有限个值)

X p x X E X p x X E i i i n

i i i ()(()(1

1

∑∞====[]∑∞

=?-=-=1

2

2

)()()]

([)(i i

i p X E x X D X X E X E X D 是离散型随机变量,则

? 二项分布与贝努里试验有关 e 二项分布(Binomial distribution)

1.进行 n 次重复试验,出现“成功”的次数的概率分布称为二项分布

2.设X 为 n 次重复试验中事件A 出现的次数,X 取 x 的概率为

? 1.显然, 对于P {X =x }≥ 0, x =1,2,…,n ,有 ? 2.同样有

? 3.当 n = 1 时,二项分布化简为 ? 4.二项分布的数学期望为 E ( X ) = np

二项分布的方差为 D ( X ) = npq f 泊松分布(Poisson distribution)

1.用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布

2.泊松分布的例子

? 一个城市在一个月内发生的交通事故次数 ? 消费者协会一个星期内收到的消费者投诉次数 ? 人寿保险公司每天收到的死亡声明的人数 3.泊松概率分布函数

{}),,2,1,0(!

e n x x x X P ==

=-λ

λ

4.泊松分布的数学期望为 E ( X ) = λ

方差为 D ( X ) = λ

5.泊松分布(作为二项分布的近似)

5.1当试验的次数 n 很大,成功的概率 p 很小时,可用泊松分布来近似地计算二项分布的概率,即

5.2实际应用中,当 P ≤ 0.25,n > 20,np ≤ 5 时,近似效果良好。

5.4连续型随机变量的概率分布 ● 连续型随机变量的概率分布

1.连续型随机变量可以取某一区间或整个实数轴上的任意一个值

2.它取任何一个特定的值的概率都等于0

3.不能列出每一个值及其相应的概率

4.通常研究它取某一区间值的概率

5.用数学函数的形式和分布函数的形式来描述 ● 概率密度函数

{})!(!!)

,,2,1,0(x n x n x n C n x q p C x X P x n x x n -=

===-式中: 1

)(0

=+=∑=-n n

x x n x x n

q p q p C

{}{}∑∑=-=-=≤≤=≤≤n m

x x

n x x n m

x x

n x x n

q p C n X m P q

p C

m X P 00{}1

,01===-x q

p x X P x

x λ— 给定的时间间隔、长度、面积、体积内“成功”的平均数

e = 2.71828

x —给定的时间间隔、长度、面积、体积内“成功”的次数

!e x q

p C x

n x x n λλ--≈

1.设X 为一连续型随机变量,x 为任意实数,X 的概率密度函数记为f(x),它满足条件

2. f(x)不是概率

3.在平面直角坐标系中画出f(x)的图形,则对于任何实数 x1 < x2,P(x1< X ≤ x2)是该

曲线下从x1 到 x2的面积 ● 分布函数

1.连续型随机变量的概率也可以用分布函数F(x)来表示

2.分布函数定义为

3.根据分布函数,P(a

4.分布函数与密度函数的图示 4.1.密度函数曲线下的面积等于1

4.2.分布函数是曲线下小于 X 0 的面积

5.连续型随机变量的数学期望:

方差: ● 均匀分布(uniform distribution) 1.若随机变量X 的概率密度函数为

称X 在区间[a ,b]上均匀分布 2.数学期望和方差分别为 ● 正态分布 1.描述连续型随机变量的最重要的分布

2.可用于近似离散型随机变量的分布

ex 二项分布

3.经典统计推断的基础

? 概率是曲线下的面积 ? 正态分布函数的性质

1.概率密度函数在x 的上方,即f (x)>0

2.正态曲线的最高点在均值μ,它也是分布的中位数和众数

3.正态分布是一个分布族,每一特定正态分布通过均值 μ 和标准差 σ 来区分。 μ 决定了图形的中心位置, σ 决定曲线的平缓程度,即宽度

4.曲线f(x)相对于均值m 对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交

5.正态曲线下的总面积等于1

6.随机变量的概率由曲线下的面积给出 ? 标准正态分布函数

1

d )()2(0

)()1(=≥?

∞+∞-x x f x f ?

=≤

a

x

x f b X a P d )()()

(d )()()(+∞<<-∞?∞

-=≤=x x

t

t f x X P x F )

()(d )()(a F b F x x f b X a P b

a

-==<

μ

==?+∞

-x x xf X E d )()([]2

d )()()(σ=-=?+∞

∞-x x f X E x X D ?????≤≤-=其他

1)(b X a a

b x f 12)()(;2)(2

a b X D b a X E -=

+=()+∞<<∞-=--x x f x ,e 21

)(2221

μσπσf (x ) = 随机变量 X 的频数

σ2 = 总体方差 π =3.14159; e = 2.71828 x = 随机变量的取值 (-∝ < x < +∝)

μ = 总体均值

1.任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布

)1,0(~N X Z σμ

-=

2.标准正态分布的概率密度函数

+∞<<∞-=

-

x x x ,e 21)(22

π

?

3.标准正态分布的分布函数

?

?∞

-∞

-==Φx

t x t t t x d e 21d )()(2

-2

π

? ? 标准正态分布表的使用

1.对于负的 x ,可由Ф (-x)=1-Ф (x)得到

2.对于标准正态分布,即X~N(0,1),有 ? P (a ≤ X ≤ b)= Ф (b) -Ф (a) ? P (|X| ≤ a)= 2Ф (a) -1

3.对于一般正态分布,即X~N(μ , σ),有 ? 二项分布的正态近似

1.当n 很大时,二项随机变量X 近似服从正态分布N {np , np (1-p )}

2.对于一个二项随机变量X ,当n 很大时,求 P (x 1≤X ≤x 2)时可用正态分布近似为

{}p

q npq

np x b npq

np

x a a b t

q p C x X x P b

a

t x x x x n x x n -=-=-=Φ-Φ===≤≤?

∑-

=-1,

2

,

1

)

()(d e 212

212

2

1

式中:π

第6章 统计量及其抽样分布 6.1 统计量 ● 统计量

1、 设X1,X2,…,Xn 是从总体X 中抽取的容量为n 的一个样本,如果由此样本构造一个函数T(X1,X2,…,Xn),不依赖于任何未知参数,则称函数T(X1,X2,…,Xn)是一个统计量

? 样本均值、样本比例、样本方差等都是统计量 2、统计量是样本的一个函数 3、统计量是统计推断的基础 ? 次序统计量

1、一组样本观测值X1,X2,…,Xn 由小到大的排序X (1)≤X (2)≤…≤ X (i )≤…≤ X (n )后,称X (1),X (2),…,X (n )为次序统计量

2、中位数、分位数、四分位数等都是次序统计量 6.2 关于分布的几个概念 ● 抽样分布

1、样本统计量的概率分布,是一种理论分布

?

?

? ??-Φ-??? ??-Φ=≤≤σμσμa b b X a P )(

? 在重复选取容量为n 的样本时,由该统计量的所有可能取值

形成的相对频数分布 2、随机变量是 样本统计量

? 样本均值, 样本比例,样本方差等 3、结果来自容量相同的所有可能样本

4、提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 6.3 由正态分布导出的几个重要分布 ● 卡方分布

1、 由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert) 和卡·皮尔逊(K ·Pearson) 分别于1875年和1900年推导出来

2、设,则

)

1,0(~N X Z σ

μ

-=

3、令,则 Y 服从自由度为1的 分布,即

4、当总体

,从中抽取容量为n 的样本,则

5、卡方分布的性质和特点: (1)分布的变量值始终为正

(2)分布的形状取决于其自由度n 的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称

(3)期望为:E( )=n ,方差为:D( )=2n(n 为自由度)

(4)可加性:若U 和V 为两个独立的 分布随机变量,U~X 2(n1),V~X 2(n2),则U+V 这一随机变量服从自由度为n1+n2的X 2分布 ● t 分布

1、高塞特(W.S.Gosset)于1908年在一篇以“Student ”(学生)为笔名的论文中首次提出

2、t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散

3、一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布

● F 分布

1、 由统计学家费希尔(R.A.Fisher) 提出的,以其姓氏的第一个字母来命名

2、 设若U 为服从自由度为n1的X 2分布,即U~X 2 (n1),

V 为服从自由度为n2的X 2分布,即V~ X 2 (n2),且 U 和V 相互独立,则称F 为服从自由度n1和n2的 F 分布,记为

,

6.4 样本均值的分布与中心极限定理

●样本均值的抽样分布

1.在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布

2.一种理论概率分布

3.推断总体均值μ的理论基础

●样本均值的抽样分布与中心极限定理

当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)

●中心极限定理

从均值为μ,方差为σ2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布

第7章参数估计

7.1 参数估计的一般问题

●估计量与估计值

1.估计量:用于估计总体参数的随机变量

?如样本均值,样本比例, 样本方差等

?例如: 样本均值就是总体均值μ的一个估计量

2.参数用θ表示,估计量用 ^θ表示

3.估计值:估计参数时计算出来的统计量的具体值

?如果样本均值 `x =80,则80就是μ的估计值

●点估计与区间估计

?点估计

1.用样本的估计量的某个取值直接作为总体参数的估计值

?例如:用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之

差的估计

2.无法给出估计值接近总体参数程度的信息

?虽然在重复抽样条件下,点估计的均值可望等于总体真值,但由于样本是随机的,抽出

一个具体的样本得到的估计值很可能不同于总体真值

?一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无

法给出估计的可靠性的度量

?区间估计

1.在点估计的基础上,给出总体参数估计的一个区间范围,该

区间由样本统计量加减估计误差而得到

2.根据样本统计量的抽样分布能够对样本统计量与总体参数的

接近程度给出一个概率度量

?置信水平

1.将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平

2.表示为(1 - α) %

?α为是总体参数未在区间内的比例

3.常用的置信水平值有99%, 95%, 90%

?相应的α 为0.01,0.05,0.10;相应的2.58,1.96,1.65。

x

z

xσμ

α2

±

=

? 置信区间

1.由样本统计量所构造的总体参数的估计区间称为置信区间

2.统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间

3.用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值

? 我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数

几个不包含参数真值的区间中的一个

? 总体参数以一定的概率落在这一区间的表述是错误的 ● 评价估计量的标准 无偏性

有效性

一致性

估计量抽样分布的数学期望等于被估计的总体参数

对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效

随着样本量的增大,估计量的值越来越接近被估计的总体参数

7.2一个总体参数的区间估计 ● 一个总体参数的区间估计

总体参数 符号表示

样本统计量

均值 μ

x 比例 π

p

方差

2s

● 总体均值的区间估计 (正态总体、σ2

已知,或非正态总体、大样本) ? 总体均值的区间估计(大样本) 1. 假定条件

(1)总体服从正态分布,且方差(σ2

) 已知

(2)如果不是正态分布,可由正态分布来近似 (n ≥ 30) 2.使用正态分布统计量 z 3.总体均值μ 在1-α 置信水平下的置信区间为 ● 总体均值的区间估计 (正态总体、σ2

未知、小样本) 1. 假定条件

(1)总体服从正态分布,但方差(σ2

) 未知

)1,0(~N n

x z σμ

-=)(22未知或σσααn

s

z x n z x ±±

(2)小样本 (n < 30) 2.使用 t 分布统计量

3.总体均值μ 在1-α 置信水平下的置信区间为 t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的

分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布 ● 总体比例的区间估计 1. 假定条件

(1)总体服从二项分布 (2)可以由正态分布来近似 2.使用正态分布统计量 z

3.总体比例π在1-α置信水平下的置信区间为 ● 总体方差的区间估计

1. 估计一个总体的方差或标准差

2. 假设总体服从正态分布

3. 总体方差 σ2 的点估计量为s 2,

且 4.总体方差在1-α 置信水平下的置信区间为

()()

()()111122122222--≤≤---n s n n s n ααχσχ

● 一个总体参数的区间估计(小结)

7.3 两个总体参数的区间估计 ● 两个总体参数的区间估计

)1(~--=n t n

s x t μn

s

t x 2α±)1,0(~)1(N n

p z πππ--=n

p p z p )

-1(2

α±()()1~12

22

--n s n χσ

总体参数 符号表示 样本统计量

均值差

21μμ- 21x x - 比例差

21ππ-

21p p -

方差比

22

21σσ 2

2

21s s ● 两个总体均值之差的区间估计(独立大样本)

1. 假定条件

(1)两个总体都服从正态分布, σ12、 σ22

已知

(2)若不是正态分布, 可以用正态分布来近似(n 1≥30和n 2≥30) (3)两个样本是独立的随机样本 2.使用正态分布统计量 z

3.1 σ12、 σ22

已知时,两个总体均值之差μ1-μ2在1-α 置信水平下的置信区间为

3.2 σ12、 σ22

未知时,两个总体均值之差μ1-μ2在1-α 置信水平下的置信区间为

● 两个总体均值之差的区间估计(独立小样本)

? 两个总体均值之差的估计(小样本: σ12=σ22

) 1. 假定条件

(1)两个总体都服从正态分布

(2)两个总体方差未知但相等: σ12=σ22

) (3)两个独立的小样本(n 1<30和n 2<30) 2.总体方差的合并估计量

3.估计量?x 1-?x 2的抽样标准差

4.1两个样本均值之差的标准化

)

1,0(~)()(2

2

2

1212121N n n x x z σσμμ+

---=2

2

2

121221)(n n z x x σσα+

±-2

22

121221)(n s n s z x x +±-α2)1()1(212222112

-+-+-=n n s n s n s p 2

1221211n n s n s n s p p

p +=+

)2(~11)

()(212

12121-++

---=

n n t n n s x x t p μμ

4.2.两个总体均值之差μ1-μ2在1-α 置信水平下的置信区间为

? 两个总体均值之差的估计(小样本:σ12≠σ22

) 1. 假定条件

(1)两个总体都服从正态分布

(2)两个总体方差未知且不相等: σ12≠σ22

) (3)两个独立的小样本(n 1<30和n 2<30) 2.使用统计量

3.两个总体均值之差μ1-μ2在1-α 置信水平下的置信区间为

● 两个总体均值之差的区间估计(匹配样本) ? 两个总体均值之差的估计(匹配大样本) 1. 假定条件

(1)两个匹配的大样本(n1 ≥ 30和n2 ≥ 30) (2)两个总体各观察值的配对差服从正态分布

2.两个总体均值之差μd =μ1-μ2在1-α置信水平下的置信区间为

(d —为对应差值的均值,σd 为对应差值的标准差) ? 两个总体均值之差的估计(匹配小样本) 1. 假定条件

(1)两个匹配的小样本(n1< 30和n2 < 30)

(2)两个总体各观察值的配对差服从正态分布

2.两个总体均值之差μd =μ1-μ2在1-α置信水平下的置信区间为

● 两个总体比例之差区间的估计 1. 假定条件

(1)两个总体服从二项分布 (2)可以用正态分布来近似 (3)两个样本是独立的

2. 两个总体比例之差π1-π 2在1-α置信水平下的置信区间为

()()????

??+-+±-21221221112n n s n n t x x p α)(~)()(22

2

1212121v t n s n s x x t +---=μμ()2

22121221)(n s n s v t x x +

±-α自由度:()()

1222221121212222121-+

-+=???? ??n n s n n s n s n s v n z d d

σα2±n s n t d d )1(2-±α()2

22111221)

1()1(n p p n p p z p p -+-±-α

● 两个总体方差比的区间估计 1.比较两个总体的方差比 2.用两个样本的方差比来判断

?如果S 12/ S 22接近于1,说明两个总体方差很接近 ?如果S 12/ S 22远离1,说明两个总体方差之间存在差异 3.总体方差比在1-α置信水平下的置信区间为

2

12

2

21222122221αασσ-≤

≤F s s F s s ,

)

,(1

),(1222121n n F n n F αα=

-

● 两个总体参数的区间估计(小结)

7.4 样本量的确定

● 估计总体均值时样本量的确定 1.估计总体均值时样本量n 为

2

2

22)(E z n σα=

,其中n

z E σ

α

2

=

2.样本量n 与总体方差σ 2、估计误差E 、可靠性系数Z 或t 之间的关系为 (1)与总体方差成正比

(2)与估计误差的平方成反比 (3)与可靠性系数成正比 3.样本量的圆整法则:当计算出的样本量不是整数时,将小数点后面的数值一律进位成整数,如24.68取25,24.32也取25等等 ● 估计总体比例时样本量的确定

1.根据比例区间估计公式可得样本量n 为

2

22)

1()(E

z n ππα-?=

其中n

z E )

1(2

ππα

-=

2.E 的取值一般小于0.1

3. π未知时,可取使方差达到最大的值

0.5

第八章假设检验

8.1 假设检验的基本问题

一、假设问题的提出

(一)什么是假设?

对总体参数的的数值所作的一种陈述

?总体参数包括总体均值、比例、方差等

?分析之前必需陈述

(二)什么是假设检验?

1.事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立

2.有参数假设检验和非参数假设检验

3.采用逻辑上的反证法,依据统计上的小概率原理

(三)提出原假设和备择假设

A什么是原假设?

1.待检验的假设,又称“0假设”

2.研究者想收集证据予以反对的假设

3. 总是有等号=, ≤或≥

4. 表示为H0

?H0:μ = 某一数值

?指定为= 号,即≤或≥

?例如, H0:μ = 3190(克)

B什么是备择假设?

1.与原假设对立的假设,也称“研究假设”

2.研究者想收集证据予以支持的假设,总是有不等号: ≠, < 或>

3.表示为H1

?H1:μ <某一数值,或μ >某一数值

?例如, H1:μ < 3910(克),或μ >3910(克)

二、假设检验中的两类错误(决策风险)

1. 第一类错误(弃真错误)

?原假设为真时拒绝原假设

?会产生一系列后果

?第一类错误的概率为α

被称为显著性水平

2. 第二类错误(取伪错误)

?原假设为假时接受原假设

?第二类错误的概率为β

三、假设检验的流程

提出假设→确定适当的检验统计量→规定显著性水平α→计算检验统计量的值→作出统计决策

(一)什么是检验统计量?

1. 用于假设检验决策的统计量

2. 选择统计量的方法与参数估计相同,需考虑

?是大样本还是小样本

?总体方差已知还是未知

3.检验统计量的基本形式为n

X Z σμ0

-=

(二)规定显著性水平α 1.是一个概率值

2.原假设为真时,拒绝原假设的概率 ? 被称为抽样分布的拒绝域

3.表示为 α

? 常用的 α 值有0.01, 0.05, 0.10 4.由研究者事先确定 (三)做出统计决策 1.计算检验的统计量

2.根据给定的显著性水平α,查表得出相应的临界值Z α或Z α/2, t α或t α/2

3.将检验统计量的值与 α 水平的临界值进行比较

4.得出拒绝或不拒绝原假设的结论 (四)利用P 值进行决策 1.是一个概率值

2.如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率 ? 左侧检验时,P-值为曲线上方小于等于检验统计量部分的面积 ? 右侧检验时,P-值为曲线上方大于等于检验统计量部分的面积

3.被称为观察到的(或实测的)显著性水平 ? H 0 能被拒绝的最小值 双侧检验的p 值

左侧检验的p 值

右侧检验的p 值

4.利用 P 值进行检验(决策准则) 4.1单侧检验

? 若p-值 > α,不拒绝 H 0 ? 若p-值 < α, 拒绝 H 0 4.2双侧检验

? 若p-值 > α/2, 不拒绝 H 0 ? 若p-值 <α/2, 拒绝 H 0

(四)双侧检验和单侧检验 ● 假设的形式

● 双侧检验(原假设与备择假设的

确定)

1.属于决策中的假设检验

假设

研究的问题

双侧检验

左侧检验

右侧检验

H 0 μ = μ0 μ ≥ μ0 μ ≤ μ0

H 1 μ ≠μ0 μ < μ0 μ > μ0

2.不论是拒绝H 0还是不拒绝H 0,都必需采取相应的行动措施

3.例如,某种零件的尺寸,要求其平均长度为10cm ,大于或小于10cm 均属于不合格 ? 我们想要证明(检验)大于或小于这两种可能性中的任何一种是否成立

4.建立的原假设与备择假设应为

H 0: μ = 10 H 1: μ≠ 10 8.2 一个总体参数的检验 ● 一个总体参数的检验

一、总体均值检验

(一)总体均值的检验 (σ2 已知或σ2

未知大样本) 1. 假定条件

? 总体服从正态分布

? 不服从正态分布, 可用正态分布来近似(n 30) 2.使用Z 统计量 ? σ2 已知:)1,0(~0

N n

X Z σμ-=

? σ2 未知: )1,0(~0

N n

S X Z μ-=

(二)总体均值的检验(σ2 未知小样本) 1. 假定条件

? 总体为正态分布 ? σ2未知,且小样本 2. 使用t 统计量

统计学总复习

《统计学》综合复习资料一、单选题 1.统计一词的三种涵义是()。 A.统计工作.统计资料.统计学 B.统计调查.统计整理.统计分析C.统计设计.统计分组.统计预测 D.统计方法.统计分析.统计预测2.要研究某地区570家工业企业的产品生产情况,总体是()。 A.每个工业企业 B.570家工业企业 C.570家工业企业每一件产品 D.570家工业企业全部工业产品3.为了解全国钢铁生产的基本情况,对鞍钢、武钢、宝钢等特大型钢铁企业的产量进行调查,属于() A.重点调查 B.典型调查 C.简单随机抽样调查 D.整群抽样调查 4.某商品销售量的前三个季度的季节指数分别为:112%,88%,90%,则第四个季度的季节指数为()。 A.102% B.110% C.98% D.100% 5.某厂2009年完成产值2千万,2010年计划增长10%,实际完成2310万元,则计划完成程度为()。

A.105% B.5% C.115.5% D.15.5% 6.两个性质不同的指标相对比而形成的相对指标是()。 A.比较相对指标 B.结构相对指标 C.比例相对指标 D.强度相对指标 7.当相关系数接近于()时,说明两变量间线性相关程度是很低的。 A.1 B.0 C.0.5 D.-1 8.统计调查按其组织形式分类,可分为() A.普查和典型调查 B.重点调查和抽样调查 C.统计报表和专门调查 D.经常性调查和一次性调查 9.现有一数列:3,9,27,81,243,729,2187,反映其平均水平最好用()。 A.算术平均数 B.调和平均数 C.几何平均数 D.众数10.第一组工人的平均工龄为6年,第二组为8年,第三组为10年,第一组工人数占总数的30%,第二组占50%,则三组工人的平均工龄为()。 A.8年 11.直接反映总体规模大小的指标是()。 A.总量指标 B.相对指标 C.平均指标 D.变异指标

应用统计学期末复习

应用统计学期末复习重点(按题型整理) 一、填空题(10分) 1.统计学的三种含义:统计工作;统计数据或统计信息;统计学 2.统计学的研究对象是群体现象 3.根据统计方法的构成不同,可将统计学分为描述统计学和推断统计学,根据统计方法研究和应用的侧重不同,可将统计学分为理论统计学和应用统计学。 4.统计研究的基本方法:大量观察法,实验设计法,统计描述法和统计推断法 5.标志是说明总体单位特征的,而指标是说明总体特征的, 6.标志按其性质不同分为数量标志和品质标志两种。按其变异情况可以分为不变标志和可变标志,可变标志称为变量。 7.统计总体具有三个基本特征,即同质性、大量性和变异性。 8.统计指标按其作用可分为总量指标、相对指标、平均指标,按所反映总体的内容不同,可以分为数量指标和质量指标。 9.总量指标指在一定时间、地点条件下说明现象总体的规模和水平的指标,其表现形式为绝对数。 10.总量指标按其反映时间状况不同,可以分为时点指标和时期指标,按指标数值采用的计量单位不同可以分为实物指标,价值指标,劳动量指标。总量指标按其说明总体内容不同,可分为总体标志总量和总体单位总量 11.平均指标说明分配数列中各变量值分布的集中趋势,变异指标说明

各变量值分布的离中趋势 12.计量尺度的类型有定类尺度,定序尺度,定距尺度,定比尺度,根据四种计量尺度计量结果,可将统计数据分为三种类型:名义级数据,顺序级数据,刻度级数据。 13.对名义级数据通常是计算众数,对顺序级数据,通常可以计算众数、中位数;对刻度级数据,同样可以计算众数和中位数,还可以计算平均数。 14.全面调查方式有统计报表制度,普查;非全面调查有重点调查、典型调查、抽样调查。 15.常用的抽样调查组织形式有简单随机抽样,类型随机抽样,机械随机抽样,整群随机抽样,阶段随机抽样。 16.统计分组的关键在于正确选择分组标志和合理划分各组界限 17.按分组标志的多少,统计分组可以分为简单分组和复合分组;按分组标志性质不同,统计分组可以分为品质分组和数量分组;按分组作用和任务不同,有类型分组、结构分组和分析分组。 18.离散变量可作单项式分组或组距式分组,连续变量只能做组距式分组。 19.从统计表的内容看:统计表由主词和宾词两部分构成,从统计表的形式看:统计表包括总标题、横行和纵栏标题、数字资料 20.平均指标可分为两类:计算均值和位置均值。 21.根据算术平均数、众数和中位数的关系,次数分布可以分为对称分布,左偏分布,右偏分布。

统计学原理期末复习

一、单项选择题 1.某机床厂要统计该企业的自动机床的产量和产值,上述两个变量是()。 A.二者均为离散变量 B.二者均为连续变量 C.前者为连续变量,后者为离散变量 D. 前者为离散变量,后者为连续变量 2.社会经济统计的研究对象是()。 A.抽象的数量特征和数量关系 B.社会经济现象的规律性 C.社会经济现象的数量特征和数量关系 D.社会经济统计认识过程的规律和方法 3.统计标志用以说明()。 A.总体的属性和特征 B.总体某一综合数量特征的社会经济范畴 C.总体中各个单位共同具有的属性和特征 D.总体单位在一定时间、地点条件下运作的结果 4.某市进行一次零售食品质量与价格调查,其调查单位是()。 A.该市所有食品商店 B.每一个食品商店 C.每一种零售食品 D.全部零售食品 5.调查对象与调查单位具有一定的对应关系。如果调查对象是全部工业企业,则调查单位是()。 A.工业企业中的职工 B.每一个企业的厂长 C.每一个工业企业 D.企业中的每一个车间 6、调查某市全部工业企业设备的状况,则调查单位是()。 A.全部工业企业B.每一个工业企业 C.每一台设备D.设备台数

7.某机床厂要统计该企业的自动机床的产量和产值,上述两个变量()。 A.两者均为离散变量 B.两者均为连续变量 C.前者为连续变量,后者为离散变量 D.前者为离散变量,后者为连续变量 8.某市工业企业2007年生产经营成果年报呈报时间规定在2008年1月31日,则调查期限为()。 A.一日B.一个月 C.一年D.一年零一个月 9.已知某地区有300家工业企业,要调查研究这些企业生产那设备的完好状况,调查单位是()。 A.300家工业企业 B.每个工业企业 C.全部生产设备 D.每一件生产设备 10.统计调查是进行资料整理和分析的()。 A.基础环节 B.中间环节 C.最终环节 D.必要补充 11.对某城市工业企业未安装设备进行普查,总体单位是()。 A.工业企业全部未安装设备 B.工业企业每一台未安装设备 C.每一个工业企业的未安装设备 D.每一个工业企业 12.对全国各铁路交通枢纽的货运量.货物种类等进行调查,以了解全国铁路货运概况,这种调查属于()。 A.不连续性典型调查 B.连续性全面调查 C.连续性重点调查 D.抽样调查 13.对某企业职工按日生产的产品数多少分为四组:100件以下、100-140件、140-180件、180件以上。第一组和第四组的组中值分别是()。 A.80和200 B.90和210 C.100和180 D.60和120

统计学总复习

《统计学》综合复习资料 一、单选题 1.统计一词的三种涵义是()。 A.统计工作.统计资料.统计学 B .统计调查.统计整理.统计分析 C.统计设计.统计分组.统计预测 D .统计方法.统计分析.统计预测 2.要研究某地区570 家工业企业的产品生产情况,总体是()。 A.每个工业企业 B .570 家工业企业 C.570家工业企业每一件产品 D .570 家工业企业全部工业产品 3.为了解全国钢铁生产的基本情况,对鞍钢、武钢、宝钢等特大型钢铁企业的产量进 行调查,属于() A.重点调查 B .典型调查 C .简单随机抽样调查 D .整群抽样调查4.某商品销售量的前三个季度的季节指数分别为:112%,88%,90%,则第四个季度的季节指数为()。 A.102% B .110% C .98% D .100% 5.某厂2009 年完成产值 2 千万,2010 年计划增长10%,实际完成2310 万元,则计划完成程度为()。 A.105% B .5% C .115.5% D .15.5% 6.两个性质不同的指标相对比而形成的相对指标是()。 A.比较相对指标 B .结构相对指标 C .比例相对指标 D .强度相对指标7.当相关系数接近于()时,说明两变量间线性相关程度是很低的。 A.1 B.0 C.0.5 D .-1 8.统计调查按其组织形式分类,可分为() A.普查和典型调查 B .重点调查和抽样调查 C.统计报表和专门调查 D .经常性调查和一次性调查 9.现有一数列:3,9,27,81,243,729,2187,反映其平均水平最好用()。 A.算术平均数 B .调和平均数 C .几何平均数 D .众数10.第一组工人的平均工龄为 6 年,第二组为8 年,第三组为10 年,第一组工人数占总数的30%,第二组占50%,则三组工人的平均工龄为()。 A.8 年 B.7.55 年 C.32.5 年 D.7.8 年11.直接反映总体规模大小的指标是()。

统计学总复习 (完整版)

统计学原理总复习(完整版) 一、单选题(每题2分,共20分) 1.下面属于品质标志的是( B )。 A、工人年龄 B、工人性别 C、工人月工资 D、工人体重 解析标志表现有品质标志表现和数量标志表现之分。品质标志表现只能用文字表述,因此不能转化为统计指标,但对其对应的单位进行总计时就形成统计指标。数量标志表现是一具体数值,也称标志值。 2.构成统计总体的个别事物称为( B ) A、调查单位 B、总体单位 C、调查对象 D、填报单位 解析:总体单位是指构成统计总体的每一个个别事物 3.2010年11月1日零点的第六次全国人口普查是( C ) A、典型调查 B、重点调查 C、一次性调查 D、经常性调查 解析:典型调查是根据调查目的和要求,在对调查对象进行初步分析的基础上,有意识的选取少数具有代表性的典型单位进行深入细致的调查研究,借以认识同类事物的发展变化规律及本质的一种非全面调查。典型调查要求搜集大量的第一手资料,搞清所调查的典型中各方面的情况,作系统、细致的解剖,从中得出用以指导工作的结论和办法。重点调查是指在全体调查对象中选择一部分重点单位进行调查,以取得统计数据的一种非全面调查方法。由于重点单位在全体调查对象中只占一小部分,调查的标志量在总体中却占较大的比重,因而对这部分重点单位进行调查所取得的统计数据能够反映社会经济现象发展变化的基本趋势.一次性调查是间隔一定时间而进行的调查,一般间隔时间相当长,如一年以上,它是对事物在一定时点上的状态进行的登记,如工业普查、设备普查等。一次性调查的主要目的在于获得事物在某一时间点上的水平、状态的资料,例如人口普查。经常性调查是指结合日常登记和核实资料,通过定期报表而进行的一种经常的,连续不断地调查.这种调查不必专门组织调查机构,而是利用原有的机构和力量,通过层层上报和汇总资料取得全面资料 4.单项式分组适合运用于( C ) A、连续性数量标志 B、品质标志 C、离散性数量标志中标志值变动范围比较小 D、离散型数量标志中标志值变动范围很大 解析:用一个变量值作为一组,形成单项式变量数列,称为单项式分组(Monomial subgroup)。一般适用于离散型变量且变量变动不大的场合。单项式分组在离散性变量范围较小下用,组距式分组离散性变量范围较大下用和连续性变量下用 5.计算向上累计次数及比率时,各累计数的意义是各组( A ) A、上限以下的累计次数或比率 B、上限以上的累计次数或比率 C、下限以上的累计次数或比率 D、下限以下的累计次数或比率 解析:向上累计,又称以下累计,是将各组次数和比率,由变量值低的组向变量值高的组逐组累计。祖距数列的向上累计,表明各组上限以下(小于等于上限)总共所包含的总体次数。

《统计学原理》期末复习资料(1)

2015秋季学期《统计学原理》复习资料 一、单选题 1. 某厂4月份产量与1月份产量相比增长了10%,若已知4月份产量为1000,那么1月份的产量为(A )。 A.909.09 B.976.45 C.968.73 D.1032.28 2.以下各项属于品质标志的有(B )。 A.工龄 B.健康状况 C.工资水平 D.劳动时间利用率 3.连续变量( C)。 A.表现形式为整数 B.取值可一一列举 C.取值连续不断,不能一一列举 D.一般都四舍五入取整数 4.了解某公司职工文化程度情况,总体单位是( B)。 A.该公司全体职工 B.该公司每一位职工 C.该公司全体职工文化程度 D.该公司每一位职工文化程度 5.在某市工业设备普查中,调查单位是(D )。 A. 该市每一家工业企业 B. 该市全部工业设备 C. 该市全部工业企业 D. 某公司新推出了一种饮料产品,欲了解该产品在市场上的受欢迎程度,公司派人到各商 场、超市随机调查了200 名顾客。该公司采用的调查方法是(C )。 A. 直接观察法 B. 报告法 C. 访问调查法 D.很难判断 7.企业要对流水生产线上的产品质量实行严格把关,那么,在质量检验时最合适采用的调 查组织方式是( D)。 A. 普查 B. 重点调查 C.典型调查 D. 抽样调查 8. 统计资料按数量标志分组后,处于每组两端的数值叫(C )。 A. 组距

C. 组限 D. 组中值 9.统计分组的核心问题是(A )。 A.选择分组的标志 B.划分各组界限 C.区分事物的性质 D.对分组资料再分组 10. 在分组的情况下,总体平均指标数值的大小(C )。 A. 只受各组变量值水平的影响,与各组单位数无关 B. 只受各组单位数的影响,与各组变量值水平无关 C. 既受各组变量值水平的影响,又与各组次数有关 D. 既不受各组变量值水平的影响,也部受各组次数的影响 11. 在组距数列中,用组中值作为计算算术平均数直接依据的假定条件是(D )。 A. 各组次数必须相等 B. 各组必须是闭口组 C. 总体各单位变量值水平相等 D. 总体各单位变量值水平在各组内呈均匀分布 12. 标志变异指标反映了总体各单位变量值分布的(B )。 A. 集中趋势 B. 离散趋势 C. 变动趋势 D. 长期趋势 13. 抽样误差( D)。 A.既可以避免,也可以控制 B. 既不可以避免,也不可以控制 C. 可以避免, 但不可以控制 D. 不能避免, 但可以控制 14. 抽样平均误差反映了样本估计量与总体参数之间的(C )。 A. 实际误差 B. 可能误差范围 C. 平均差异程度 D. 实际误差的绝对值 15.凡是用来反映现象数量对比关系的相对数被称为( C)。 A. 增(减)量 B. 增加速度 C. 广义指数 D. 狭义指数 16.用来反映个别事物数量对比的相对数称为( C)。 A. 总指数 B. 类指数 C. 个体指数 D. 平均指数 17.在综合指数的变形中,加权算术平均指数所用权数是(D )。

统计学总复习题

1、某企业某种产品单位成本1998年计划规定比1997年下降8%,实际下降6%;1998年产品销售量计划完成105%,比去年增长6%。 试确定:(1)1998年单位产品成本计划完成程度 (2)1998年产品销售计划规定比去年增长多少? 2、有甲、乙两个品种的粮食作物,经播种实验后得知甲品种的平均亩产量为998斤,标准差为162.7斤,乙品种实验资料如下: 要求计算乙品种的平均亩产量和标准差,比较哪一品种更具有代表性。 3、某商店1990年各月末商品库存额资料如下: 又知1月1日商品库存额为63万元。试计算上半年、下半年和全年的平均商品库存额。

4、根据我国2000~2005年能源生产量数据填齐下表空栏数据,计算2000~2005年的平均增长量。 5、某商品在两个市场出售资料如下表: 要求:(1)试分析该商品总平均价格指数 (2)对总平均价格变动进行因素分析。(包括相对数和绝对数分析)

6、某企业生产甲、乙两种产品,2000年和2001年其产量和单价如下: 试计算:(1)两种产品的单价指数以及由于单价变动使总产值变动的绝对额; (2)两种产品产量总指数以及由于产量变动而使总产值变动的绝对额; (3)利用指数体系分析说明总产值(相对程度和绝对额)变动的情况. 7、某厂对产品使用寿命进行检测,抽取100个产品进行寿命调查,测得样本平均寿命为4000小时,样本标准差为730小时; 试:(1)试以68.27%(t=1)的概率保证程度对该批产品的平均使用寿命进行区间估计; (2)若概率保证程度不变,极限误差不超过70小时,则至少要抽取多少件产品为样本?

8、调查五位学生《统计学原理》的学习时间与成绩(5分制)情况,调查资料如下表所示: 根据资料:(1)计算学习时间与学习成绩之间的相关系数。 (2)建立学习成绩(y )倚学习时间(x )的直线回归方 程。 (3)若某同学学习时间为3小时,试估计其成绩。 ∑∑=== ++++++=n i i n i i i n n n f f x f f f f x f x f x x 1 1212211 ∑∑==-= n i i n i i i f f x x 1 1 2 )(σ d X M L ??+??+=211 0 d f S f X M m m L e ?-+=-∑12

统计学原理复习1

统计学原理计算题(考试复习必备) 1 某车间有30个工人看管机器数量的资料如下: 5 4 2 4 3 4 3 4 4 5 4 3 4 2 6 4 4 2 5 3 4 5 3 2 4 3 6 3 5 4 以上资料编制变量分配数列。 答案: 2 某班40名学生统计学考试成绩分别为: 68 89 88 84 86 87 75 73 72 68 75 82 97 58 81 54 79 76 95 76 71 60 90 65 76 72 76 85 89 92 64 57 83 81 78 77 72 61 70 81 学校规定:60分以下为不及格,60─70分为及格,70─80分为中,80─90分为良,90─100分为优。要求: (1)将该班学生分为不及格 及格 中 良 优五组,编制一张次数分配表。 (2)指出分组标志及类型;分组方法的类型;分析本班学生考试情况。 答案:(1) (2) 分组方法为:变量分组中的组距式分组,而且是开口式分组; 本班学生的考试成绩的分布呈两头小,中间大的“正态分布”的形态。 3 某企业10 4 计算表如下: 元620=∑? ∑=f x x 该工业集团公司工人平均工资620元。 5 某厂三个车间一季度生产情况如下: 第一车间实际产量为190件,完成计划95%;第二车间实际产量250件,完成计划100%;第三车间实际产量609件,完成计划105%,三个车间产品产量的平均计划完成程度为: %1003 % 105%100%95=++ 另外,一车间产品单位成本为18元/件,二车间产品单位成本12元/件,三车间产品单位成本15元/件,则三个车间平均单位成本为: 153 15 1218=++元/件 以上平均指标的计算是否正确?如不正确请说明理由并改正。 解:两种计算均不正确。 平均计划完成程度的计算,因各车间计划产值不同,不能对其进行简单平均,这样也不符合计划完成程度 指标的特定涵义。正确的计算方法是:平均计划完成程度 () % 84.1011030 104905.160900.125095.0190609250190/== ++++=∑∑= x m m X 平均单位成本的计算也因各车间的产量不同,不能简单相加,产量的多少对平均单位成本有直接影响。故 正确的计算为: 平均单位成本件元/83.141049 15555 609250190609152501219018==++?+?+?=∑∑= f xf X 6

大学统计学简答题复习及答案

习题一总论 1?简述统计总体和总体单位的含义及其关系。 统计总体(简称总体)是指统计所研究的事物的全体,它是由客观存在的具有某种共同性质的许多个别事物组成的集合体。总体单位是指构成统计总体的个别事物,是组成总体的基本单位,简称个体。统计总体和总体单位所指的具体内容不是固定不变的,而是随着研究的目的不同而变化的。总体可以变为总体单位,总体单位可以变为总体。 2 ?什么是指标和标志?指标与标志的关系如何? 指标即统计指标,指反映统计总体综合数量特征的概念和数值。标志指说明总体单位特征的名称。指标与标志的区别:①指标是说明总体特征的,而标志是说明总体单位特征的;②所有指标都能用数值表示,而标志中的数量标志能用数值表示,品质标志却通常不能用数值表示。指标与标志的联系:①指标是对总体中各单位标志表现进行综合的结果,有许多统计指标其数值是由数量标志值汇总而来的,品质标志本身虽无数值,但许多指标却是按品质标志分组计算出来的。②指标和数量标志之间存在着变换关系,由于研究目的的变化,原来的总体变成总体单位,则相对应的统计指标就变成数量标志;反之,则相对应的数量标志就变成了统计指标。 习题二统计调查 1.完整的统计调查方案应包括哪些主要内容? 应包括:①确定调查目的;②确定调查对象和调查单位;③确定调查内容,拟订调查表;④ 确定调查时间和调查期限;⑤确定调查的组织和实施计划。 2.调查对象、调查单位和填报单位有何区别? 调查对象是指根据调查目的确定的需要进行调查研究的现象总体,它是由性质相同的许多个别单位组成的。调查单位是指调查对象中所要调查的具体单位,它是进行登记的标志的承担者;报告单位也叫填报单位,它是提交调查资料的单位,它与调查单位有时一致,有时不一致。 3?重点调查与典型调查的区别是什么? 主要区别表现在两个方面: ①典型单位和重点单位性质不同。典型调查强调被选单位在同类社会经济现象中所具有的代表性、典型性,是有 意识地选取的;而重点调查则强调被选单位某标志值在总体标志值总和中所占的比重较大,是客观存在的。 ②侧重点不同。典型调查的主要目的是认识事物本质特征及其发展规律,调查深入细致,同时也注重定性调查; 而重点调查的目的主要是掌握总体的数量状况,着眼于普遍情况,注重量的调查。

2018统计学-18总复习资料

《统计学》综合复习资料 一、单项选择题 1.统计一词的三种涵义是()。 A.统计工作.统计资料.统计学B.统计调查.统计整理.统计分析 C.统计设计.统计分组.统计预测D.统计方法.统计分析.统计预测 2.要研究某地区570家工业企业的产品生产情况,总体是()。 A.每个工业企业 B.570家工业企业 C.570家工业企业每一件产品 D.570家工业企业全部工业产品 3.为了解全国钢铁生产的基本情况,对鞍钢、武钢、宝钢等特大型钢铁企业的产量进行调查,属于 ()。 A.重点调查 B.典型调查 C.简单随机抽样调查 D.整群抽样调查 4.某商品销售量的前三个季度的季节指数分别为:112%,88%,90%,则第四个季度的季节指数为()。 A.102% B.110% C.98% D.100% 5.某厂2009年完成产值2千万,2010年计划增长10%,实际完成2310万元,则计划完成程度为()。 A.105% B.5% C.115.5% D.15.5% 6.统计调查按其组织形式分类,可分为()。 A.普查和典型调查 B.重点调查和抽样调查 C.统计报表和专门调查 D.经常性调查和一次性调查 7.现有一数列:3,9,27,81,243,729,2187,反映其平均水平最好用()。 A.算术平均数 B.调和平均数 C.几何平均数 D.众数 8.第一组工人的平均工龄为6年,第二组为8年,第三组为10年,第一组工人数占总数的30%,第二组占50%,则三组工人的平均工龄为()。 A.8年 B.7.55年 C.32.5年 D.7.8年 9.直接反映总体规模大小的指标是()。 A.总量指标 B.相对指标 C.平均指标 D.变异指标 10.某商品价格比原先降低5%,销售量增长了5%,则销售额()。 A.上升 B.下降 C.不变 D.无法确定

统计学原理复习1

一、判断题() 1. 标志和指标是两个根本不同的概念,两者没有任何联系。 2. 典型调查的误差可以控制。 ( ) 3. 按数量标志分组所形成的次数分布数列叫做变量分布数列。 4. 直接用物量乘以其相应的不变价格所求得的价值指标仅包括数量因素变动, 映物量的变化。 ( ) 5. 平均数与次数和的乘积等于变量值与次数乘积的总和。 6. 平均差是各标志值对其算术平均数的离差的平均数。 7. 利用指数体系理论,可以反映被研究现象的变动趋势。 8. 使用全面资料条件下,平均指数法可以理解为是综合指数法的一种变形形式。 9. 由于抽样调查中既有登记误差又有抽样误差,所以只有登记误差的全面调查准确性高。 ( ) 10. 定量预测必须以定性预测为基础,定性预测是定量预测的前提。 二、单项选择题() 统计学原理》 1.“统计”一词的基本含义是 ( ) A. 统计调查、统计整理、统计分析 B. 统计方法、统计分组、统计计算 C. 统计方法、统计分析、统计预测 D. 统计科学、统计工作、统计资料 2.数量指标一般表现为 ( ) A. 平均数 B. 相对数 C. 绝对数 D. 指数 3.要了解我国农村经济的具体情况,最适合的调查方式是 A. 普查 B. 典型调查 C. 重点调查 D. 抽样调查 4.下 面属于按品质标志分组的是 ( ) A. 企业按职工人数分组 B. 企业按工业总产值分组 C. 企业按经济类型分组 D. 企业按资金占用额分组 5.按连续型变量分组、其末组为开口组, 下限为 2 000 。 组组中值为 ( ) A. 2 500 B. 2 250 C. 2 100 D. 2 200 ( 已知相邻组的组中值为 1 750,则末 则商品销售额计划完成情况相对指标 可以确切地反

统计学期末复习-公式汇总

统计报表 专门调查 普查 抽样调查 典型调查 重点调查 按调查的组织方式不同分为 按调查时间是否连续分为 按调查单位的范围大小分为 全面调查 非 全面调查 一次性调查 经 常性调查 统计学复习 第一章 1.“统计”的三个涵义:统计工作、统计资料、统计学 2.三者之间的关系:统计工作和统计资料是工作与工作成果的关系; 统计资料和统计学是实践与理论的关系 3.统计学的特点:数量性,总体性,具体性,社会性(广泛性) 4.统计工作的过程一般分为统计调查、统计整理和统计分析三个阶段 5.总体与总体单位的区分:统计总体是客观存在的,在同一性质基础上结合起来的许多个别单位的整体,构成总体的这些个别单位称为总体单位。(总体或总体单位的区分不是固定的:同一个研究对象,在一种情况下是总体,在另一种情况下可能成了总体单位。) 6.标志:总体单位所具有的属性或特征。 A 品质标志—说明总体单位质的特征,不能用数值来表示。如:性别、职业、血型色彩 B 数量标志—标志总体单位量的特征,可以用数值来表示。如:年龄、工资额、身高 指标:反映社会经济现象总体数量特征的概念及其数值。 指标名称体现事物质的规定性,指标数值体现事物量的规定性 第二章 1.统计调查种类 2.统计调查方案包括六项基本内容: 1)确定调查目的;(为什么调查) 2)确定调查对象与调查单位;(向谁调查) 调查对象——社会现象的总体 调查单位——调查标志的承担者(总体单位) 填报单位——报告调查内容,提交统计资料 3)确定调查项目、拟定调查表格;(调查什么) 4)确定调查时间和调查期限 5)制定调查的组织实施计划; 6)选择调查方法。

《应用统计学》复习题库48832

第一章思考题及练习题 (一)填空题 1.统计工作与统计资料的关系是和的关系。 2.统计工作与统计学的关系是和的关系。 3.统计活动具有. . .和的职能。 4.统计指标反映的是的数量特征,数量标志反映的是的数量特征。5.在人口总体中,个体是“”,“文化程度”是标志。 6.统计研究过程的各个阶段,运用着各种专门的方法,如大量观察法. .综合指标法.和统计推断法等。 7.统计标志是总体中各个体所共同具有的属性或特征的名称。它分为和两种。 8.要了解一个企业的产品质量情况,总体是.个体是。9.性别是标志,标志表现则具体为或两种结果。 10.一件商品的价格在标志分类上属于。 11.一项完整的统计指标应该由. .. . 和等构成。 12.统计指标按所反映的数量特点不同,可以分为和。 13.反映社会经济现象相对水平或工作质量的指标称为指标。 14.统计活动过程通常被划分为. 和三个阶段。 15.经过余年的发展,形成了今天的统计学。 16.古典统计学时期有两大学派,它们分别是和。 17.《关于死之表的自然和政治观察》一书的作者是,他第一次编制了“生命表”。 18. 提出了著名的误差理论和“平均人”思想。 19.统计研究的数量性是指通过数来反映事物的量的.量的.量的和量的。 20.统计学包括和两部分内容。 21.总体中所包含的个体数量的多少称为;样本中所包含的个体数量的多少称为。 22.总体中的一个组或类,可被称为一个研究域或。 23.从总体中随机抽取的一部分个体所组成的集合称为。 24.统计理论与方法,事实上就是关于的理论和方法。 25.总体的三大特征是. 和。 26.总体的差异性要求体现在至少具有一个用以说明个体特征的。 27.企业性质标志适用的测定尺度是,产品质量等级标志适用的测定尺度是,企业利润标志适用的测定尺度是,企业产量标志适用的测定尺度是。 28.可变的数量标志的抽象化称为。它按其所受影响因素不同,可分为和两种,按其数值的变化是否连续出现,可分为和两种。 29.个体是的承担者。 30.统计指标按其反映现象的时间状态不同,可以分为和两种。 31.若干互有联系的统计指标组成的有机整体称为,其中一个很重要的反映国民经济和社会发展状况的基本统计指标体系是。 32. 统计研究的一大任务就是要用的样本指标值去推断 的总体指标值。 (二)单项选择题 1.社会经济统计的研究对象是()。 A.抽象的数量关系 B.社会经济现象的规律性 C.社会经济现象的数量方面 D.社会经济统计认识过程的规律和方法 2.某城市进行工业企业未安装设备普查,个体是()。

统计学原理复习

统计学原理计算题练习第 1 页 共 6 页 统计学原理计算题练习 1.某生产车间30名工人日加工零件数(件)如下:(学习指导P300—1,下同) 30 26 42 41 36 44 40 37 37 25 45 29 43 31 36 36 49 34 47 33 43 38 42 32 34 38 46 43 39 35 要求:(1)根据以上资料分成如下向组:25—30,30—35,35—40,40—45,45—50,计算出各组频数和频率,编制次数分布表。(2)根据整理表计算工人平均日产零件数。 2.某公司下属50个企业,生产同种产品,某月对产品质量进行调查,得资料;要求计算该产品的平均合格率。(P279—1) 34、某企业产品的有关资料如下:试分别计算企业该企业产品98年99年的平均单位产品成本。 5. 1990 试问哪一个市场农产品的平均价格较高?并说明原因。 6. 7 (P168— (P166—18(P165—13(P164—10

8.某企业甲、乙两个车间,甲车间平均每个工人日加工零件数65件,标准差11件;乙车间工人日加工零件数资料:计算乙车间工人加工零件的平均数和标准差,并比较甲、乙两车间哪个车间的平均日加工零 9.某工厂有2000个工人,用简单随机不重复方法抽出100个工人作为样本,计算出平均工资560元,标准差32.45元。要求:(1)计算抽样平均误差; (2)以95.45%(t=2)的可靠性估计该厂工人的月平均工资区间。(P295—5) 10.某乡有5000农户,按随机原则重复抽取100户调查,得平均每户年纯收入12000元,标准差2000元。要求:(1)以95%的概率(t=1.96)估计全乡平均每户年纯收入的区间。 (2)以同样概率估计全乡农户所纯收入总额的区间范围(P179—14) 11.为了解某城市分体式空调的零售价格,随机抽取若干个商场中的40台空调,平均价格为3800元,样本标准差400元。要求:(1)计算抽样平均误差;(2)以99.73%(t=3)的可靠性估计该城市分体式空调的价格区间。(P179—10) 12.从某年级字生中按简单随机抽样方式抽取100名学生,对某公共课的考试成绩进行检查,及格的有82人,试以95.45%的概率保证程度推断全年级学生的及格率区间范围。如果其它条件不变,将允许误差 缩小一半,应抽取多少名学生检查?(P181—19) 13.某企业生产一批日光灯管,随机重复抽取400只作使用寿命试验。测试结果,平均寿命为5000小时,样本标准差为300小时,400只中发现10只不合格。求平均数的抽样平均误差和成数的抽样平均误差。(P177—2) 14.某洗衣机厂随机抽选100台洗衣机进行质量检验,发现有5台不合格。试计算:(1)以68.27%的概率保证程度推断这批洗衣机的合格率。(2)若概率保证程度提高到95.45%,则这批洗衣机的合格率将怎样变化?(3)由此例说明误差范围与概率度之间的关系。 15.采用简单重复抽样的方法,抽取一批零件中的200件作为样本,其中合格品为188件。要求: (1)计算该批零件合格率的抽样平均误差(2)以95.45%的概率保证程度对该零件的合格率进行区间估计16.从某年级字生中按简单随机抽样方式抽取50名学生,对某公共课的考试成绩进行检查,得知其平均分数为75.6分,样本标准差10分,试以95.45%的概率保证程度推断全年级学生的考试成绩的区间范围。 如果其它条件不变,将允许误差缩小一半,应抽取多少名学生检查?(P180—18) P287—3) 17.某企业第二季度产品产量与单位成本资料如下:( 统计学原理计算题练习第 2 页共 6 页

统计学总复习(详细)

《统计学原理》总复习 2011年6月制作人:暨南大学统计学系 王艳丽 1

第一章 绪论 第二章 统计调查 第三章 统计整理 第四章 总量指标和相对指标 第五章 数据分布特征的描述 第六章 抽样调查和参数估计 第七章 假设检验 第八章 相关与回归 第九章 时间数列分析与预测 第十章 统计指数 第十一章 统计分析和统计新闻写作(不考) 制作人:暨南大学统计学系 王艳丽 2

第一章 绪论 £统计的含义 £统计学的概念与研究对象 £数据的类型 £统计学的一些基本概念 制作人:暨南大学统计学系 王艳丽 3

制作人:暨南大学统计学系 王艳丽 4 £统计的三种含义 ? 1.统计工作:是指搜集、整理、分析和显示统计数据的活动。 ? 2.统计资料:是指统计活动的结果,即统计数据。 ? 3.统计学:是一门关于搜集、整理、分析、解释统计数据的方法 论科学和艺术。 £统计的特点: ? 数量性 ? 具体性 ? 综合性 £统计的作用 ? 统计是认识世界的有力武器 ? 统计是治国和管理的重要手段 ? 统计是科学研究 的有效工具 £统计的研究对象:客观现象的数量表现、数量关系和数量 变化 第一章 绪论

统计学和统计数据 £统计学的研究对象:统计工作的规律性 £统计学的分类: ?从统计学方法构成方面分类:1、描述统计学;2、推 断统计学。 ?从统计方法研究和统计方法的应用角度来看:1、理论 统计学;2、应用统计学。 £数据的类型 ?分类数据、顺序数据、数值型数据 ?观测数据和实验数据 ?截面数据和时间序列数据 制作人:暨南大学统计学系 王艳丽 5

统计学的一些基本概念 £1、统计总体、总体单位、样本、样本容量 ?二者的关系:没有总体单位,总体就不存在;没有总 体,也就无法确定总体单位。 ?总体的特点:同质性、差异性、大量性 £2、标志与指标、变量、变量值 ?标志;描述总体单位特征的名称 ?统计指标:描述总体数量特征的名称 l数量指标:是指反映事物的规模或总量的指标。 l质量指标:是指反映事物的性质、质量和管理水平的指标。 l两者的关系:指标数值由数量标志汇总而来,两者随总体单位 的相互转化而转化。但两者说明的对象不同,表现形式也不 同。 ?变量:说明现象某种特征的名称,包括可变标志和指 标 ?变量值:变量的取值,称变量值。 制作人:暨南大学统计学系 王艳丽 6

大学统计学复习

大学统计学复习 Pleasure Group Office【T985AB-B866SYT-B182C-BS682T-STT18】

统计学 1.什么是定性数据:分类数据和顺序数据说明的是事物的品质特征,通常用文字来表述,其结果均表现为类别,因而也可统称为定性数据或品质数据。【1.分类数据:是只能归于某一类别的非数值型数据,它是对事物进行分类的结果,数据表现为类别,只是用文字来表述。顺序数据:是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的。】 什么是定量数据:数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此;也可称为定量数据或数量数据。【数值型数据:是按数字尺度测量的观测值,其结果表现为具体的数值。】P5 2.抽样误差的大小与哪些因素有关:P30 样本量的大小,样本量越大,抽样误差越小。 总体的变异性,总体的变异性越大,抽样误差越大。 3.品质数据有哪些图形表示方式():P43 条形图、帕累托图、饼图、环形图、累积频数分布图。 4.什么是中位数:是一组数据排序后处于中间位置上的变量值,用Me 表示。中位数将全部数据等分成两部分,每部分包含50%的数据,一部分数据比中位数大,另一部分则比中位数小。中位数主要用于测度顺序数据的集中趋势,也适用于测度数值型数据的集中趋势。中位数位置的确定公式:n+1/2(n为数据个数).P75 什么是四分位数:也称四分位点,它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部

分包含25%的数据。中间的四分位数就是中位数,处在25%位置上的数值称为下四分位数,处在75%位置上的数值称为上四分位数。P77 平均数的各种计算方式:P78 5.众数、中位数和平均数的特点与应用场合P82: (1)众数是一组数据分布的峰值,不受极端值的影响。其缺点是具有不唯一性,一组数据可能是一个众数,也可能有两个或多个众数,也可能是没有众数。众数只有在数据量较多时才有有意义,当数据量较少时,不宜使用众数。众数主要适合作为分类数据的集中趋势测度值。 (2)中位数是一组数据中间位置上的代表值,不受数据极端值的影响。当一组数据的分布偏斜程度较大时,使用中位数也许是一个好的选择。中位数主要适合作为集中趋势测度值。 (3)平均数是针对数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中测度值。当数据呈对称分布或接近对称分布时,3个代表值相等或接近相等,这时则应选择平均数作为集中趋势的代表值。缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。 6.什么是离群点P88:在平均数+-3个标准差的范围内几乎包含了全部数据,而在+-3个标准差之外的数据,在统计上称为离群点 什么是离散系数P89:也称为变异系数,它是一组数据的标准差与其相应的平均数之比。计算公式:,,,离散系数是测度数据离散程度的相对统计量,主要用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。

统计学期末复习重点

统计总体:统计总体是根据一定目的确定的所要研究事物的全体,它是客观存在,并在某一相同性质基础上结合起来的由许多个别事物组成的整体,简称总体。 样本:是指在全及总体中按随机原则抽取的那部分单位所构成的集合体。 算术平均数:算术平均数是统计中最基本、最常用的一种平均数,它的基本计算形式是用总体的单位总数去除总体的标志总量。 调和平均数:是根据变量值的倒数计算的,是变量值倒数的算术平均数的倒数,也叫倒数平均数。 简单分组:是指对所研究的总体按一个标志进行分组。 复合分组:复合分组是指对所研究的总体按两个或两个以上的标志进行的多层次分组。 结构相对指标:结构相对指标是表明总体内部的各个组成部分在总体中所占比重的相对指标,也叫比重指标。 强度相对指标:是指两个性质不同,但有一定联系的总量指标数值之比。 类型抽样:又称分类抽样或分层抽样,它是先将总体按某个主要标志进行分组(或分类),再按随机原则从各组(类)中抽取样本单位的一种抽样方式。 机械抽样:它是将总体各单位按某一标志顺序排列,然后按固定顺序和相等距离或间隔抽取样本单位的抽样组织方式。 综合指数:凡是一个总量指标可以分解为两个或两个以上的因素指标时,为观察某个因素指标的变动情况,将其他因素指标固定下来计算出的指数称为综合指数。 平均指数:平均指数法是以个体指数为基础来计算总指数,根据选用的权数不同,平均指数法可以进一步分为加权算术平均法,加权调和平均法,固定权数加权平均法。 相关关系:是指现象之间客观存在的,在数量变化上受随机因素的影响,非确定性的相互依存关系。 回归分析:现象之间的相关关系,虽然不是严格的函数关系,但现象之间的一般关系值,可以通过函数关系的近似表达式来反映,这种表达式根据相关现象的实际对应资料,运用数学的方法来建立,这类数学方法称为回归分析。 统计调查:就是根据统计研究的目的、要求和任务,运用各种科学的调查方法,有计划、有组织的搜集有关现象的各个单位的资料,对客观事实进行登记,取得真实可靠的调查资料的活动过程。 统计指数:广义指数泛指社会经济现象数量变动的比较指标,及用来表明同类现象在不同空间、不同时间,实际与计划对比变动情况的相对数。狭义指数仅指反应不能直接想家的复杂社会经济现象在数量上综合变动情况的相对数。 简单随机抽样:简单随机抽样也叫纯随机抽样,它对总体单位不做任何分类排队,而是直接从总体中随机抽取一部分单位来组成样本的抽样组织方式。 季节分析的含义:是指某些现象由于自然因素和社会条件的影响在一年之内比较有规律的变动。 总量指标:是指反映一定时间、地点和条件下某种现象总体规模或水平的统计指标。 相对指标:是指说明现象之间数量对比关系的指标,用两个或两个以上有联系的指标数值对比来求得,其结果表现为相对数,故也将相对指标称为相对数。 平均指标:是同类社会经济现象总体内,各单位某一数量标志在一定时间、地点和条件下,数量差异抽象化的代表性水平指标,其数值表现为平均数。 1计算运用总量指标的原则。 (1)在计算实物指标时,应注意现象的同类性 (2)统计总量指标时要有明确的统计含义和合理的统计方法

应用统计学复习试题

应用统计学复习题 一简述 1.统计调查的方法有那几种 答:三种主要调查方式:普查,抽样调查,统计报表。实际中有时也用到重点调查和典型调查。 2.表示数据分散程度的特征数有那几种 答:全距(又称极差),方差和标准差,交替标志的平均数和标准差,变异系数,标准分数3为什么对总体均值进行估计时,样本容量越大,估计越精确 答:因为总体是所要认识的研究对象的全体,它是具有某种共同性质或特征的许多单位的集合体.总体的单位数通常用N来表示,N总是很大的数.样本是总体的一部分,它是从总体中随机抽取出来、代表总体的那部分单位的集合体.样本的单位数称为样本容量,通常用n表示。样本容量n越大,就越接近总体单位数N,样本均值就越接近总体均值,对总体均值进行估计时,估计越精确。 4.区间估计与点估计的结果有何不同 答:点估计是使用估计量的单一值作为总体参数的估计值;区间估计是指定估计量的一个取值范围都为总体参数的估计。 5.在统计假设检验中,如果轻易拒绝了原假设会造成严重后果时,应取显著性水平较大还是较小,为什么 答:取显著性水平较小,因为如果轻易拒绝了原假设会造成严重后果,那就说明在统计假设检验中,拒绝原假设的概率要小,而假设检验中拒绝原假设的概率正是事先选定的显著性水平α 6.简述算术平均数、几何平均数、调和平均数的适用范围。 答:几何平均数主要适用于比率的平均。一般地说,如果待平均的变量x与另外两个变量f 和m 有fx=m 的关系时,若取f为权数,应当采用算术平均方法;若取m 为权数,应当采用调和平均方法。 7.对总体均值的假设检验中,如何通过确定样本容量大小以控制两类错误 答:要控制两类错误就要减小误差,也就是提高精确性,决定样本大小的影响因素主要有:(1)总体方差σ2的大小.总体方差大,抽样误差大,则应多抽一些样本容量.问题是实际工作中我们往往不知道总体方差,因而必须作试验性调查,或以过去的历史资料作参考.(2)可靠性程度的高低.要求可靠性越高,所必需的样本容量就越大.(3)允许误差的范围.这主要由研究目的而定.若要求推断比较精确,允许误差范围应该小一些,随之抽取的样本单位数就要多一些. 可用最大允许抽样误差e 来表示区间估计的准确程度,其中 /2 e Z α = 对于无限总体, 22 /2 2 Z n e α σ = ;对于有限总体, 2 22 2 /2 n e Z N α σ σ = + ,

相关主题
文本预览
相关文档 最新文档