统计学第10章方差分析教材
- 格式:doc
- 大小:793.00 KB
- 文档页数:24
第10章方差分析
适用:多个均值是否相等的检验(分类数据与数值型数据)
10.1 方差分析引论
例消费者与产品生产者、销售者或服务的提供者之间经常发生纠纷。当纠纷发生后,消费者通常会向消费者协会投诉。为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了一些企业作为样本。其中零售业7家、旅游业6家、航空公司5家、家电制造业5家。每个行业所抽取的这些企业,假定他们在服务对象、服务内容、企业规模等方面基本相同。然后统计最近一年中消费者对这23家企业的投诉次数,结果如下表:
消费者协会想了解这几个行业之间的服务质量是否有显著性差异。
10.1.1 分析
服务质量 显著性差异 ↓ ↓ 投诉次数 均值不相等
转化为数学表达:
01234:H μμμμ=== 没有显著性差异 1:H 上面的等式不全相等 有显著性差异
一般假设检验的解决方法:
121314232434
,,,,,μμμμμμμμμμμμ====== 更好的方法:方差分析
没有显著性差异↔不同的行业服务质量一样,行业对服务质量没有显著影响
有显著性差异 不同的行业服务质量不一样,行业对服务质量有显著影响
从行业对服务质量影响的角度来分析平均服务质量的差异问题
术语:
因素:一个独立的随机变量,是方差分析研究的对象————企业所属行业类型
水平:因素的内容————各个行业: 零售业、旅游业、航空公司、家电制造
10.1.3 方差分析的原理:
1 观察值之间差异的原因
A 由于选取样本的随机性引起的差异
B 由于因素中的不同水平形成的差异——系统性差异(行业不同,服务质量不同)
2 水平内部与水平之间差异的类型
A 水平内部的差异只包含随机性差异
(同行业企业服务质量的差异)
B 水平之间的差异既包含随机性差异又包含系统性差异
(不同行业企业服务质量的差异)
3 原理
如不同的水平对结果没有影响
则水平之间的差异应只包含随机性差异
与水平内部的差异应该非常接近
反之
如不同的水平对结果产生影响
则水平之间的差异应既包含随机性差异又包含系统性差异
应该大于水平内部的差异
所以,可以通过比较这两个差异的大小
当比较的结果大于某个临界值时,就可以判定水平之间包含系统性差异,
即水平对结果有显著影响——均值不全相等
10.1.4 技术问题
选择什么样的指标来衡量这两个差异与比较的结果
差异:离散——离差平方和
差异的比较:差、商——考虑统计量的分布与临界值
方差分析的基本假定
① 每个总体都服从正态分布,即对于因素的每一个水平,其观测值都是来自正态总体的简单随机样本; ② 各个总体的方差相等 ③ 观测值是独立的
——独立等方差的正态总体
实际应用中近似满足即可
10.2 单因素方差分析
单因素方差分析:分析只针对一个因素进行 企业类型 双因素方差分析:分析针对两个因素进行
企业类型 企业文化
10.2.1分析步骤
1 提出假设
012:k H μμμ==
= 因素(自变量)对结果(因变量)没有显著性差
异
1:(1,2
)i
H i k μ=不全相等 自变量对因变量有显著性差异
上例:
01234:H μμμμ=== 不同行业对服务质量没有显著性差异 1:H 上面的等式不全相等 不同行业对服务质量有显著性差异
2 计算均值
① 计算各样本的均值
设从第i 个总体中抽取一个样本容量为i n 的简单随机样本, 令i x 为其均值,则
1
1(1,2,
)i
n i ij
j i
x x
i k n ==
=∑
其中,ij x 为第i 个总体的第j 个观察值
k 为因素水平的个数(总体的个数)
上例:11111576644
497
n ij j x x n =++
+==
=∑,
248x =,335x =,459x =
②计算全部观测值的总均值
11
1
12,
i
n k k
ij
i i
i j i k x
n x
x n n n n n
n
====
=
=++
+∑∑∑
上例:5766497758
47.86956523
x +++
+==
3计算各误差平方和 A 组内平方和SSE
是每个水平或组的各样本数据与其组均值误差的平方和 反映了各个样本观测值的离散状况
11()i
n k
ij i i j SSE x x ===-∑∑2
上例:
11()()()()()()()()()()()()()i
n k
ij i i j SSE x x ===-=-+-+-=-+-+-=-+-+-=-+-+-=∑∑2
222222222222
5749664944496848394851483135493540354459515958592708
B 组间平方和SSA
是各组均值与总平均的误差平方和 反映各组的差异
()2
1k
i i i SSA n x x ==-∑
上例:
()
2
1(.)(.)(.)(.).k
i i i SSA n x x ==-=⨯-+⨯-+⨯-+⨯-=∑2222749478695656484786956553547869565559478695651456608696
C 总平方和SST
是全部观测值与总平均的误差平方和