第八章 方差分析与正交试验设计
- 格式:ppt
- 大小:1.51 MB
- 文档页数:52
实验设计的方差分析与正交试验一、实验设计中的方差分析方差分析(analysis of variance,ANOVA)是一种统计方法,用于比较不同组之间的均值差异是否具有统计学上的显著性。
在实验设计中,方差分析主要被用来分析因变量(dependent variable)在不同水平的自变量(independent variable)中的变化情况。
通过比较不同组之间的方差,判断是否存在显著差异,并进一步分析差异的原因。
1. 单因素方差分析单因素方差分析是最简单的方差分析方法,适用于只有一个自变量的实验设计。
该方法通过比较不同组之间的方差来判断各组均值是否有差异。
步骤如下:(1)确定研究目的,选择合适的因变量和自变量。
(2)设计实验,确定各组的样本个数。
(3)进行实验,并收集数据。
(4)计算各组的平均值和总平均值。
(5)计算组内方差和组间方差。
(6)计算F值,通过计算F值来判断各组均值是否有显著差异。
2. 多因素方差分析多因素方差分析是在单因素方差分析的基础上,增加了一个或多个自变量的情况下进行的。
这种方法可以用来分析多个因素对因变量的影响,并判断各因素的主效应和交互效应。
步骤如下:(1)确定研究目的,选择合适的因变量和多个自变量。
(2)设计实验,确定各组的样本个数。
(3)进行实验,并收集数据。
(4)计算各组的平均值和总平均值。
(5)计算组内方差、组间方差和交互方差。
(6)计算F值,通过计算F值来判断各组均值是否有显著差异。
二、正交试验设计正交试验设计是一种设计高效实验的方法,可以同时考虑多个因素和各个因素之间的交互作用,并通过较少的试验次数得到较准确的结果。
1. 正交表的基本原理正交表的设计是基于正交原理,即每个因素和其他所有因素的交互效应都是独立的。
通过正交表设计实验,可以确保各因素和交互作用在样本中能够均匀地出现,从而减少误差来源,提高实验结果的可靠性。
2. 正交试验设计的步骤(1)确定要研究的因素和水平。
第8章正交试验设计的方差分析前面我们讨论了如何安排正交试验以及用极差分析法(即直观分析法)对试验结果进行计算分析.极差分析法简单明了,通俗易懂,计算工作量少,便于普及推广.但这种方法不能把试验中由于试验条件的改变引起的数据波动,同试验误差引起的数据波动区分开来.也就是说,不能区分因素各水平对应的试验结果间的差异,究竟是由于因素水平不同引起的,还是由于试验误差引起的,即不知道试验的精度.同时,对影响试验结果的各个因素的重要程度,既不能给出精确的定量估计,也不能提供一个标准,用来判断所考察的因素的作用是否显著.为了弥补极差分析法的不足,对试验结果的分析可采用方差分析法.8.1 正交试验方差分析的基本步骤在第2章中我们已经介绍过,方差分析的基本思想是将数据的总偏差平方和(S T)分解为因素的偏差平方和(S A、S B)和误差的偏差平方和(S e),然后将偏差平方和除以相对应的自由度(f)得到方差(V A、V B),最后利用因素方差与误差方差之比(V A/V e,V B/V e),作F检验,即可判断因素的作用是否显著.正交试验设计的方差分析也是按这样的步骤进行的,所不同的是这是考虑的是多因素试验的方差分析,而第2章中只考虑单因素和双因素试验的方差分析.一、计算1.偏差平方和与自由度的计算方差分析的关键是偏差平方和的分解,现在以最简单的L 4(23)正交表上安排的试验为例来说明(见表8-1,板书).不考虑哪些因素安排在哪些列上(即表头设计时),设试验结果为x 1、x 2、x 3和x 4. 总的偏差平方和:4)(241221212_T x n T x x x S i i ni ini i T -=-=-=∑∑∑=== T=∑=ni i x 1=(x 21+x 22+x 23+x 24)-41(x 4321x x x +++)2 整理后可得 43=(24232221x x x x +++) 21- (434232413121x x x x x x x x x x x x +++++) 第1列各水平偏差平方和为S 1=22_21_2_11_)(2)(x K x K -+-=2[221211)42()42(TK T K -+-] =2[T K T K T K T K 2111222122114141164164--+++] =222121141)(21T K K -+ )(211141K K x T i i +==∑= =24321243221)(41])()[(21x x x x x x x x +++-+++=)(21)(4143214232413124232221x x x x x x x x x x x x x x x x --+++-+++表8-1 L 4(23)正交表及计算表注: K ij 表示第j 列第i 水平的指标值之和;ij K __表示第j 列第i 水平的平均指标值;T 表示指标值总和;__x 表示平均指标值. 同理,第2、3列各水平的偏差平方和S 2、S 3为)(21)(4141)(21)()(23241434231212423222122232132__23__2__13__3x x x x x x x x x x x x x x x x T K K x K x K S --+++-+++=-+=-+-= 由此可得S T =S 1+S 2+S 3 (8-1)式(8-1)是正交表L 4(23)的总偏差平方和的分解公式,即L 4(23)的总偏差平方和等于各列偏差平方和之和.若在L 4(23)正交表的第1列和第2列分别安排二水平因素A 、B ,在不考虑A 、B 因素间交互作用的情况下,则第3列(空列)是误差列.)(21)(4141)(21)(2)(24231433241212423222122222122__22__2__12__2x x x x x x x x x x x x x x x x T K K x K x K S --+++-+++=-+=-+-=同样也可以证明S T =S A +S B +S e (8-2)上式也是总偏差平方和的分解公式,即总偏差平方和等于各列因素的偏差平方和与误差的偏差平方和之和.我们可以把上例推广到一般情况:用饱和正交表L n (m k )安排试验(见表8-2,p160),总的试验次数为n ,每个因素的水平数为m ,则每个水平作r 次试验,r=mn. 试验结果为x 1,x 2,x 3,…,x n .令∑∑∑=======ni i T ni i ni i x Q x n x nT CT x T 121__21,1,,则总偏差平方和为CT Q n T x x x S T ni ini i T -=-=-=∑∑==21212__)( (8-3)列偏差平方和为),,2,1(1)(21212__k i CT Q n T K r x K r S j m i ij mi ij j =-=-=-=∑∑== (8-4) 其中∑==m i ij j K r Q 121特别地, 当m=2(即二水平)时, 式(8-4)可表示成:2212212221221222122221)(1)(1)(2)(1)()(1j j j j j j j j jj j j j K K nK K n K K n K K n K K n m n T K K r S -=+-+=+-+=-+= (8-5) 列偏差平方和S j 是第j 列中各水平对应的试验数据平均值与总平均值的偏差平方和,它反映了该列水平变动所引起的试验数据的波动.若该列安排的是因素,就称S j 为该因素的偏差平方和;若该列安排的是交互作用,就称S j 为该交互作用的偏差平方和;若该列为空列,则S j 表示由于试验误差和未被考察的某些交互作用或某些条件因素所引起的波动.在正交试验设计中,通常把空列的偏差平方和作为试验误差的偏差平方和,虽然它属于模型误差,一般比试验误差大(当作安全系数考虑),但用它作为试验误差进行显著性检验,可使检验结果更可靠些。
第三节正交试验设计及其方差分析在工农业生产和科学实验中,为改革旧工艺,寻求最优生产条件等,经常要做许多试验,而影响这些试验结果的因素很多,我们把含有两个以上因素的试验称为多因素试验.前两节讨论的单因素试验和双因素试验均属于全面试验(即每一个因素的各种水平的相互搭配都要进行试验),多因素试验由于要考虑的因素较多,当每个因素的水平数较大时,若进行全面试验,则试验次数将会更大.因此,对于多因素试验,存在一个如何安排好试验的问题.正交试验设计是研究和处理多因素试验的一种科学方法,它利用一套现存规格化的表——正交表,来安排试验,通过少量的试验,获得满意的试验结果.1.正交试验设计的基本方法正交试验设计包含两个内容:(1)怎样安排试验方案;(2)如何分析试验结果.先介绍正交表.正交表是预先编制好的一种表格.比如表9-17即为正交表L4(23),其中字母L表示正交,它的3个数字有3种不同的含义:(1) L4(23)表的结构:有4行、3列,表中出现2个反映水平的数码1,2.列数↓L4 (23)↑↑行数水平数(2)L4(23)表的用法:做4次试验,最多可安排2水平的因素3个.最多能安排的因素数↓L4 (23)↑↑试验次数水平数(3) L4(23)表的效率:3个2水平的因素.它的全面试验数为23=8次,使用正交表只需从8次试验中选出4次来做试验,效率是高的.L4 (23)↑↑实际试验数理论上的试验数正交表的特点:(1)表中任一列,不同数字出现的次数相同.如正交表L4(23)中,数字1,2在每列中均出现2次.(2)表中任两列,其横向形成的有序数对出现的次数相同.如表L4(23)中任意两列,数字1,2间的搭配是均衡的.凡满足上述两性质的表都称为正交表(Orthogonal table).常用的正交表有L9(34),L8(27),L16(45)等,见附表.用正交表来安排试验的方法,就叫正交试验设计.一般正交表L p(n m)中,p=m(n-1)+1.下面通过实例来说明如何用正交表来安排试验.例9.7 提高某化工产品转化率的试验.某种化工产品的转化率可能与反应温度A,反应时间B,某两种原料之配比C和真空度D有关.为了寻找最优的生产条件,因此考虑对A,B,C,D这4个因素进行试验.根据以往的经验,确定各个因素的3个不同水平,如表9-18所示.表9-18解本题是4因素3水平,选用正交表L9(34).把表头上各因素相应的水平任意给一个水平号.本例的水平编号就采用表9-18的形式;将各因素的诸水平所表示的实际状态或条件代入正交表中,得到9个试验方案,如表9-20所示.从表9-20看出,第一行是1号试验,其试验条件是:反应温度为60℃,反应时间为2.5小时,原料配比为 1.1∶1,真空度为500毫米汞柱,记作A1B1C1D1.依此类推,第9号试验条件是A3B3C2D1.由此可见,因素和水平可以任意排,但一经排定,试验条件也就完全确定.按正交试验表9-20安排试验,试验的结果依次记于试验方案右侧,见表9-21.2.试验结果的直观分析正交试验设计的直观分析就是要通过计算,将各因素、水平对试验结果指标的影响大小,通过极差分析,综合比较,以确定最优化试验方案的方法.有时也称为极差分析法.例9.7中试验结果转化率列在表9-21中,在9次试验中,以第9次试验的指标86为最高,其生产条件是A 3B 3C 2D 1.由于全面搭配试验有81种,现只做了9次.9次试验中最好的结果是否一定是全面搭配试验中最好的结果呢?还需进一步分析. (1) 极差计算在代表因素A 的表9-21的第1列中,将与水平“1”相对应的第1,2,3号3个试验结果相加,记作T 11,求得T 11=151.同样,将第1列中与水平“2”对应的第4,5,6号试验结果相加,记作T 21,求得T 21=183.一般地,定义T ij 为表9-21的第j 列中,与水平i 对应的各次试验结果之和(i =1,2,3; j =1,2,3,4).记T 为9次试验结果的总和,R j 为第j 列的3个T ij 中最大值与最小值之差,称为极差.显然T =31iji T=∑,j =1,2,3,4.此处T 11大致反映了A 1对试验结果的影响,T 21大致反映了A 2对试验结果的影响, T 31大致反映了A 3对试验结果的影响,T 12,T 22和T 32分别反映了B 1,B 2,B 3对试验结果的影响, T 13,T 23和T 33分别反映了C 1,C 2,C 3对试验结果的影响, T 14,T 24和T 34分别反映了D 1,D 2,D 3对试验结果的影响.R j 反映了第j 列因素的水平改变对试验结果的影响大小,R j 越大反映第j 列因素影响越大.上述结果列表9-22. 表9-22由极差大小顺序排出因素的主次顺序: 主→次B ;A 、D ;C这里,R j 值相近的两因素间用“、”号隔开,而R j 值相差较大的两因素间用“;”号隔开.由此看出,特别要求在生产过程中控制好因素B ,即反应时间.其次是要考虑因素A 和D ,即要控制好反应温度和真空度.至于原料配比就不那么重要了.选择较好的因素水平搭配与所要求的指标有关.若要求指标越大越好,则应选取指标大的水平.反之,若希望指标越小越好,应选取指标小的水平.例9.7中,希望转化率越高越好,所以应在第1列选最大的T 31=185;即取水平A 3,同理可选B 3C 1D 3.故例9.7中较好的因素水平搭配是A 3B 3C 1D 3.例9.8 某试验被考察的因素有5个:A ,B ,C ,D ,E .每个因素有两个水平.选用正交表L 8(27),现分别把A ,B ,C ,D ,E 安排在表L 8(27)的第1,2,4,5,7列上,空出第3,6列仿例9.7做法,按方案试验.记下试验结果,进行极差计算,得表9-23. 表9-23试验目的要找出试验结果最小的工艺条件及因素影响的主次顺序.从表9-23的极差R j的大小顺序排出因素的主次顺序为 主 → 次A 、B ;D ;C 、E最优工艺条件为A 2B 1C 1D 2E 1.表9-23中因没有安排因素而空出了第3,6列.从理论上说,这两列的极差R j 应为0,但因存有随机误差,这两个空列的极差值实际上是相当小的.3.方差分析正交试验设计的极差分析简便易行,计算量小,也较直观,但极差分析精度较差,判断因素的作用时缺乏一个定量的标准.这些问题要用方差分析解决.设有一试验,使用正交表L p (n m ),试验的p 个结果为y 1,y 2,…,y p ,记T =1pi i y =∑, y =11p i i Ty p p ==∑,S T =21()pii yy =-∑为试验的p 个结果的总变差;S j =222111nn ij ij i i T T T r T r p r p ==⎛⎫-=- ⎪⎝⎭∑∑ 为第j 列上安排因素的变差平方和,其中r =p/n .可证明S T =1mij S=∑即总变差为各列变差平方和之和,且S T 的自由度为p -1,S j 的自由度为n -1.当正交表的所有列没被排满因素时,即有空列时,所有空列的S j 之和就是误差的变差平方和S e ,这时S e 的自由度f e 也为这些空列自由度之和.当正交表的所有列都排有因素时,即无空列时,取S j 中的最小值作为误差的变差平方和S e .从以上分析知,在使用正交表L p (n m )的正交试验方差分析中,对正交表所安排的因素选用的统计量为: F =1jeeS S n f -.当因素作用不显著时, F ~F (n -1,f e ),其中第j 列安排的是被检因素.在实际应用时,先求出各列的S j /(n -1)及S e /f e ,若某个S j /(n -1)比S e /f e 还小时,则这第j 列就可当作误差列并入S e 中去,这样使误差S e 的自由度增大,在作F 检验时会更灵敏,将所有可当作误差列的S j 全并入S e 后得新的误差变差平方和,记为S e Δ,其相应的自由度为f e Δ,这时选用统计量 F =1je eS S n f - ~F (n -1,f e Δ).例9.9 对例9.8的表9-23作方差分析.解 由表9-23的最后一行的极差值R j ,利用公式S j =2211n ij i T T r p=-∑,得表9-24.表9-24中第3,6列为空列,因此S e =S 3+S 6=1.250,其中f e =1+1=2,所以S e /f e =0.625,而第7列的S 7=0.125,S 7/f 7=0.1251=0.125比S e /f e 小,故将它并入误差. S e Δ=S e +S 7=1.375,f e Δ=3.整理成方差分析表9-25. ee由于F 0.05(1,3)=10.13, F 0.01(1,3)=34.12,故因素A ,B 作用高度显著,因素C 作用不显著,因素D作用显著,这与前面极差分析的结果是一致的.F检验法要求选取S e,且希望f e 要大,故在安排试验时,适当留出些空列会有好处的.前面的方差分析中,讨论因素A和B 的交互作用A×B.这类交互作用在正交试验设计中同样有表现,即一个因素A的水平对试验结果指标的影响同另一个因素B的水平选取有关.当试验考虑交互作用时,也可用前面讲的基本方法来处理.本章就不再介绍了.。
第八章.正交试验设计第8章正交试验设计本章要求(1)掌握试验设计的基本概念;(2)掌握正交表的形式与特征;(3)掌握正交设计的试验步骤;(4)熟悉无交互作用的正交设计的数据直观分析方法;(5)熟悉正交设计的统计模型与方差分析;(6)了解正交设计的最佳条件选择。
正交试验设计法是研究与处理多因素实验的一种科学方法。
利用规格化的表格―正交表,科学地挑选试验条件,合理安排实验。
正交试验设计法最早由日本质量管量专家田口玄一提出,称为国际标准型正交试验法。
认为:“一个工程技术人员若不掌握正交试验设计法, 只能算半个工程师”。
我国工业企业特别是化工、纺织、医药、电子、机械行业,正交试验设计法的应用也取得相当的成就,中国数学家张里千教授发明了中国型正交试验设计法。
无交互作用单一指标的正交设计及其基本概念试验设计例为提高某化工产品的转化率,选择了三个有关因素进行条件试验,反应温度(A),反应时间(B),用碱量(C),并确定了它们的试验范围:A:80-90℃ B:90-150分钟C:5-7% 试验目的是搞清楚因素A、B、C对转化率有什么影响,哪些是主要的,哪些是次要的,从而确定最适生产条件,即温度、时间及用碱量各为多少才能使转化率高。
试制定试验方案。
这里,对因素A,在试验范围内选了三种状态;因子B和C也都取三种状态:A:A1=80℃,A2=85℃,A3=90℃ B:B1=90分,B2=120分,B3=150分C:C1=5%,C2=6%,C3=7% 当然,在正交试验设计中,因素可以是定量的,也可以是定性的。
而定量因素各水平间的距离可以相等,也可以不相等。
这个三因子三水平的条件试验,通常有两种试验进行方法:(Ⅰ)取三因素所有状态之间的组合,即AlBlC1,A1BlC2,A1B2C1, ……, A3B3C3,共有33=27次试验。
用图表示就是图1 立方体的27个节点。
这种试验法叫做全面试验法。
全面试验对各因素与指标间的关系剖析得比较清楚。
正交试验结果的方差分析方法计算公式和项目试验指标的加和值=,试验指标的平均值与表4-13一样,第j列的(1) I j”水平所对应的试验指标的数值之和(2) II j——“ 2”水平所对应的试验指标的数值之和(3)……(4) k j——同一水平出现的次数。
等于试验的次数除以第j列的水平数.(5)I j/k j——“水平所对应的试验指标的平均”(6)II j/k j——“2”水平所对应的试验指标的平均值(7)……以上各项的计算方法,与“极差法”同,见4.1.7节(8)偏差平方和(4-1)(9) fj ——自由度.fj第j列的水平数-1.(10)Vj——方差.Vj =Sj/fj(4-2)(11)Ve——误差列的方差。
(4-3)(12)Fj——方差之比(4-4)(13)查F分布数值表(见附录6),做显著性检验。
显著性检验结果的具体表示方法与第3章相同。
(14)总的偏差平方和(4-5) (15)总的偏差平方和等于各列的偏差平方和之和。
即(4-6) 式中,m为正交表的列数。
若误差列由5个单列组成,则误差列的偏差平方和S e等于5个单列的偏差平方和之和,即:S e=S e1+S e2+S e3+S e4+S e5;也可用S e= S总-S’来计算,其中:S’为安排有因素或交互作用的各列的偏差平方和之和应引出的结论。
与极差法相比,方差分析方法可以多引出一个结论:各列对试验指标的影响是否显著,在什么水平上显著。
在数理统计上,这是一个很重要的问题。
显著性检验强调试验误差在分析每列对指标影响中所起的作用。
如果某列对指标的影响不显著,那么,讨论试验指标随它的变化趋势是毫无意义的。
因为在某列对指标的影响不显著时,即使从表中的数据可以看出该列水平变化时,对应的试验指标的数值也在以某种“规律”发生变化,但那很可能是由于实验误差所致,将它作为客观规律是不可靠的。
有了各列的显著性检验之后,最后应将影响不显著的交互作用列与原来的“误差列”合并起来,组成新的“误差列”,重新检验各列的显著性。