统计学第10章方差分析教材

  • 格式:doc
  • 大小:793.00 KB
  • 文档页数:24

下载文档原格式

  / 24
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第10章方差分析

适用:多个均值是否相等的检验(分类数据与数值型数据)

10.1 方差分析引论

例消费者与产品生产者、销售者或服务的提供者之间经常发生纠纷。当纠纷发生后,消费者通常会向消费者协会投诉。为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了一些企业作为样本。其中零售业7家、旅游业6家、航空公司5家、家电制造业5家。每个行业所抽取的这些企业,假定他们在服务对象、服务内容、企业规模等方面基本相同。然后统计最近一年中消费者对这23家企业的投诉次数,结果如下表:

消费者协会想了解这几个行业之间的服务质量是否有显著性差异。

10.1.1 分析

服务质量 显著性差异 ↓ ↓ 投诉次数 均值不相等

转化为数学表达:

01234:H μμμμ=== 没有显著性差异 1:H 上面的等式不全相等 有显著性差异

一般假设检验的解决方法:

121314232434

,,,,,μμμμμμμμμμμμ====== 更好的方法:方差分析

没有显著性差异↔不同的行业服务质量一样,行业对服务质量没有显著影响

有显著性差异 不同的行业服务质量不一样,行业对服务质量有显著影响

从行业对服务质量影响的角度来分析平均服务质量的差异问题

术语:

因素:一个独立的随机变量,是方差分析研究的对象————企业所属行业类型

水平:因素的内容————各个行业: 零售业、旅游业、航空公司、家电制造

10.1.3 方差分析的原理:

1 观察值之间差异的原因

A 由于选取样本的随机性引起的差异

B 由于因素中的不同水平形成的差异——系统性差异(行业不同,服务质量不同)

2 水平内部与水平之间差异的类型

A 水平内部的差异只包含随机性差异

(同行业企业服务质量的差异)

B 水平之间的差异既包含随机性差异又包含系统性差异

(不同行业企业服务质量的差异)

3 原理

如不同的水平对结果没有影响

则水平之间的差异应只包含随机性差异

与水平内部的差异应该非常接近

反之

如不同的水平对结果产生影响

则水平之间的差异应既包含随机性差异又包含系统性差异

应该大于水平内部的差异

所以,可以通过比较这两个差异的大小

当比较的结果大于某个临界值时,就可以判定水平之间包含系统性差异,

即水平对结果有显著影响——均值不全相等

10.1.4 技术问题

选择什么样的指标来衡量这两个差异与比较的结果

差异:离散——离差平方和

差异的比较:差、商——考虑统计量的分布与临界值

方差分析的基本假定

① 每个总体都服从正态分布,即对于因素的每一个水平,其观测值都是来自正态总体的简单随机样本; ② 各个总体的方差相等 ③ 观测值是独立的

——独立等方差的正态总体

实际应用中近似满足即可

10.2 单因素方差分析

单因素方差分析:分析只针对一个因素进行 企业类型 双因素方差分析:分析针对两个因素进行

企业类型 企业文化

10.2.1分析步骤

1 提出假设

012:k H μμμ==

= 因素(自变量)对结果(因变量)没有显著性差

1:(1,2

)i

H i k μ=不全相等 自变量对因变量有显著性差异

上例:

01234:H μμμμ=== 不同行业对服务质量没有显著性差异 1:H 上面的等式不全相等 不同行业对服务质量有显著性差异

2 计算均值

① 计算各样本的均值

设从第i 个总体中抽取一个样本容量为i n 的简单随机样本, 令i x 为其均值,则

1

1(1,2,

)i

n i ij

j i

x x

i k n ==

=∑

其中,ij x 为第i 个总体的第j 个观察值

k 为因素水平的个数(总体的个数)

上例:11111576644

497

n ij j x x n =++

+==

=∑,

248x =,335x =,459x =

②计算全部观测值的总均值

11

1

12,

i

n k k

ij

i i

i j i k x

n x

x n n n n n

n

====

=

=++

+∑∑∑

上例:5766497758

47.86956523

x +++

+==

3计算各误差平方和 A 组内平方和SSE

是每个水平或组的各样本数据与其组均值误差的平方和 反映了各个样本观测值的离散状况

11()i

n k

ij i i j SSE x x ===-∑∑2

上例:

11()()()()()()()()()()()()()i

n k

ij i i j SSE x x ===-=-+-+-=-+-+-=-+-+-=-+-+-=∑∑2

222222222222

5749664944496848394851483135493540354459515958592708

B 组间平方和SSA

是各组均值与总平均的误差平方和 反映各组的差异

()2

1k

i i i SSA n x x ==-∑

上例:

()

2

1(.)(.)(.)(.).k

i i i SSA n x x ==-=⨯-+⨯-+⨯-+⨯-=∑2222749478695656484786956553547869565559478695651456608696

C 总平方和SST

是全部观测值与总平均的误差平方和