第六章--方差分析与正交试验设计
- 格式:doc
- 大小:1017.12 KB
- 文档页数:20
实验设计的方差分析与正交试验一、实验设计中的方差分析方差分析(analysis of variance,ANOVA)是一种统计方法,用于比较不同组之间的均值差异是否具有统计学上的显著性。
在实验设计中,方差分析主要被用来分析因变量(dependent variable)在不同水平的自变量(independent variable)中的变化情况。
通过比较不同组之间的方差,判断是否存在显著差异,并进一步分析差异的原因。
1. 单因素方差分析单因素方差分析是最简单的方差分析方法,适用于只有一个自变量的实验设计。
该方法通过比较不同组之间的方差来判断各组均值是否有差异。
步骤如下:(1)确定研究目的,选择合适的因变量和自变量。
(2)设计实验,确定各组的样本个数。
(3)进行实验,并收集数据。
(4)计算各组的平均值和总平均值。
(5)计算组内方差和组间方差。
(6)计算F值,通过计算F值来判断各组均值是否有显著差异。
2. 多因素方差分析多因素方差分析是在单因素方差分析的基础上,增加了一个或多个自变量的情况下进行的。
这种方法可以用来分析多个因素对因变量的影响,并判断各因素的主效应和交互效应。
步骤如下:(1)确定研究目的,选择合适的因变量和多个自变量。
(2)设计实验,确定各组的样本个数。
(3)进行实验,并收集数据。
(4)计算各组的平均值和总平均值。
(5)计算组内方差、组间方差和交互方差。
(6)计算F值,通过计算F值来判断各组均值是否有显著差异。
二、正交试验设计正交试验设计是一种设计高效实验的方法,可以同时考虑多个因素和各个因素之间的交互作用,并通过较少的试验次数得到较准确的结果。
1. 正交表的基本原理正交表的设计是基于正交原理,即每个因素和其他所有因素的交互效应都是独立的。
通过正交表设计实验,可以确保各因素和交互作用在样本中能够均匀地出现,从而减少误差来源,提高实验结果的可靠性。
2. 正交试验设计的步骤(1)确定要研究的因素和水平。
第六章正交试验设计(I)教学内容与要求(1)了解正交试验设计的优点,掌握正交表的表示符号、基本结构和特点,掌握正交试验设计的基本步骤。
(2)掌握单指标正交试验、多指标正交试验、有交互作用正交试验、混合水平的正交试验的直观分析法;(3)理解单指标正交试验、多指标正交试验、有交互作用正交试验、混合水平的正交试验的方差分析法。
(4)了解Ecxel在正交试验设计中应用。
(II)教学重点正交试验的直观分析法。
(III)教学难点正交试验的方差分析。
6.1 概述6.1.1 正交试验设计方法的优点和特点用正交表安排多因素试验的方法,称为正交试验设计法。
我国60年代开始使用,70年代得到推广。
这一方法具有这样的特点:①完成试验要求所需的实验次数少。
②数据点的分布很均匀。
③可用相应的极差分析方法、方差分析方法、回归分析方法等对试验结果进行分析,引出许多有价值的结论。
因此日益受到科学工作者的重视,在实践中获得了广泛的应用。
例6-1:某化工厂想提高某化工产品的质量和产量,对工艺中三个主要因素各按三个水平进行试验(见表6-1)。
试验的目的是为提高合格产品的产量,寻找最适宜的操作条件。
表6-1 因素水平表对此实例该如何进行试验方案的设计呢?很容易想到的是第一方案:(全面搭配法方案)A2——…A3——…此方案数据点分布的均匀性极好,因素和水平的搭配十分全面,唯一的缺点是实验次数多达33=27次。
(指数3代表3个因素,底数3代表每因素有3个水平)想节省费用而又快出成果的人提出了第二方案:(简单比较法方案)。
先固定A和B,只改变C,观察因素C不同水平的影响。
作了如下的三次实验:发现C=C2的那次实验的效果最好,合格产品的产量最高,因此认为在后面的实验中因素C应取C2水平。
固定A和C,改变B的三次实验为:发现B=B3的那次实验效果最好,因此认为因素B宜取B3水平。
固定B和C,改变A 的三次实验为:发现因素A宜取A2水平。
因此可以引出结论:为提高合格产品的产量,最适宜的操作条件为A2B3C2。
第三节正交试验设计及其方差分析在工农业生产和科学实验中,为改革旧工艺,寻求最优生产条件等,经常要做许多试验,而影响这些试验结果的因素很多,我们把含有两个以上因素的试验称为多因素试验.前两节讨论的单因素试验和双因素试验均属于全面试验(即每一个因素的各种水平的相互搭配都要进行试验),多因素试验由于要考虑的因素较多,当每个因素的水平数较大时,若进行全面试验,则试验次数将会更大.因此,对于多因素试验,存在一个如何安排好试验的问题.正交试验设计是研究和处理多因素试验的一种科学方法,它利用一套现存规格化的表——正交表,来安排试验,通过少量的试验,获得满意的试验结果.1.正交试验设计的基本方法正交试验设计包含两个内容:(1)怎样安排试验方案;(2)如何分析试验结果.先介绍正交表.正交表是预先编制好的一种表格.比如表9-17即为正交表L4(23),其中字母L表示正交,它的3个数字有3种不同的含义:(1) L4(23)表的结构:有4行、3列,表中出现2个反映水平的数码1,2.列数↓L4 (23)↑↑行数水平数(2)L4(23)表的用法:做4次试验,最多可安排2水平的因素3个.最多能安排的因素数↓L4 (23)↑↑试验次数水平数(3) L4(23)表的效率:3个2水平的因素.它的全面试验数为23=8次,使用正交表只需从8次试验中选出4次来做试验,效率是高的.L4 (23)↑↑实际试验数理论上的试验数正交表的特点:(1)表中任一列,不同数字出现的次数相同.如正交表L4(23)中,数字1,2在每列中均出现2次.(2)表中任两列,其横向形成的有序数对出现的次数相同.如表L4(23)中任意两列,数字1,2间的搭配是均衡的.凡满足上述两性质的表都称为正交表(Orthogonal table).常用的正交表有L9(34),L8(27),L16(45)等,见附表.用正交表来安排试验的方法,就叫正交试验设计.一般正交表L p(n m)中,p=m(n-1)+1.下面通过实例来说明如何用正交表来安排试验.例9.7 提高某化工产品转化率的试验.某种化工产品的转化率可能与反应温度A,反应时间B,某两种原料之配比C和真空度D有关.为了寻找最优的生产条件,因此考虑对A,B,C,D这4个因素进行试验.根据以往的经验,确定各个因素的3个不同水平,如表9-18所示.表9-18解本题是4因素3水平,选用正交表L9(34).把表头上各因素相应的水平任意给一个水平号.本例的水平编号就采用表9-18的形式;将各因素的诸水平所表示的实际状态或条件代入正交表中,得到9个试验方案,如表9-20所示.从表9-20看出,第一行是1号试验,其试验条件是:反应温度为60℃,反应时间为2.5小时,原料配比为 1.1∶1,真空度为500毫米汞柱,记作A1B1C1D1.依此类推,第9号试验条件是A3B3C2D1.由此可见,因素和水平可以任意排,但一经排定,试验条件也就完全确定.按正交试验表9-20安排试验,试验的结果依次记于试验方案右侧,见表9-21.2.试验结果的直观分析正交试验设计的直观分析就是要通过计算,将各因素、水平对试验结果指标的影响大小,通过极差分析,综合比较,以确定最优化试验方案的方法.有时也称为极差分析法.例9.7中试验结果转化率列在表9-21中,在9次试验中,以第9次试验的指标86为最高,其生产条件是A 3B 3C 2D 1.由于全面搭配试验有81种,现只做了9次.9次试验中最好的结果是否一定是全面搭配试验中最好的结果呢?还需进一步分析. (1) 极差计算在代表因素A 的表9-21的第1列中,将与水平“1”相对应的第1,2,3号3个试验结果相加,记作T 11,求得T 11=151.同样,将第1列中与水平“2”对应的第4,5,6号试验结果相加,记作T 21,求得T 21=183.一般地,定义T ij 为表9-21的第j 列中,与水平i 对应的各次试验结果之和(i =1,2,3; j =1,2,3,4).记T 为9次试验结果的总和,R j 为第j 列的3个T ij 中最大值与最小值之差,称为极差.显然T =31iji T=∑,j =1,2,3,4.此处T 11大致反映了A 1对试验结果的影响,T 21大致反映了A 2对试验结果的影响, T 31大致反映了A 3对试验结果的影响,T 12,T 22和T 32分别反映了B 1,B 2,B 3对试验结果的影响, T 13,T 23和T 33分别反映了C 1,C 2,C 3对试验结果的影响, T 14,T 24和T 34分别反映了D 1,D 2,D 3对试验结果的影响.R j 反映了第j 列因素的水平改变对试验结果的影响大小,R j 越大反映第j 列因素影响越大.上述结果列表9-22. 表9-22由极差大小顺序排出因素的主次顺序: 主→次B ;A 、D ;C这里,R j 值相近的两因素间用“、”号隔开,而R j 值相差较大的两因素间用“;”号隔开.由此看出,特别要求在生产过程中控制好因素B ,即反应时间.其次是要考虑因素A 和D ,即要控制好反应温度和真空度.至于原料配比就不那么重要了.选择较好的因素水平搭配与所要求的指标有关.若要求指标越大越好,则应选取指标大的水平.反之,若希望指标越小越好,应选取指标小的水平.例9.7中,希望转化率越高越好,所以应在第1列选最大的T 31=185;即取水平A 3,同理可选B 3C 1D 3.故例9.7中较好的因素水平搭配是A 3B 3C 1D 3.例9.8 某试验被考察的因素有5个:A ,B ,C ,D ,E .每个因素有两个水平.选用正交表L 8(27),现分别把A ,B ,C ,D ,E 安排在表L 8(27)的第1,2,4,5,7列上,空出第3,6列仿例9.7做法,按方案试验.记下试验结果,进行极差计算,得表9-23. 表9-23试验目的要找出试验结果最小的工艺条件及因素影响的主次顺序.从表9-23的极差R j的大小顺序排出因素的主次顺序为 主 → 次A 、B ;D ;C 、E最优工艺条件为A 2B 1C 1D 2E 1.表9-23中因没有安排因素而空出了第3,6列.从理论上说,这两列的极差R j 应为0,但因存有随机误差,这两个空列的极差值实际上是相当小的.3.方差分析正交试验设计的极差分析简便易行,计算量小,也较直观,但极差分析精度较差,判断因素的作用时缺乏一个定量的标准.这些问题要用方差分析解决.设有一试验,使用正交表L p (n m ),试验的p 个结果为y 1,y 2,…,y p ,记T =1pi i y =∑, y =11p i i Ty p p ==∑,S T =21()pii yy =-∑为试验的p 个结果的总变差;S j =222111nn ij ij i i T T T r T r p r p ==⎛⎫-=- ⎪⎝⎭∑∑ 为第j 列上安排因素的变差平方和,其中r =p/n .可证明S T =1mij S=∑即总变差为各列变差平方和之和,且S T 的自由度为p -1,S j 的自由度为n -1.当正交表的所有列没被排满因素时,即有空列时,所有空列的S j 之和就是误差的变差平方和S e ,这时S e 的自由度f e 也为这些空列自由度之和.当正交表的所有列都排有因素时,即无空列时,取S j 中的最小值作为误差的变差平方和S e .从以上分析知,在使用正交表L p (n m )的正交试验方差分析中,对正交表所安排的因素选用的统计量为: F =1jeeS S n f -.当因素作用不显著时, F ~F (n -1,f e ),其中第j 列安排的是被检因素.在实际应用时,先求出各列的S j /(n -1)及S e /f e ,若某个S j /(n -1)比S e /f e 还小时,则这第j 列就可当作误差列并入S e 中去,这样使误差S e 的自由度增大,在作F 检验时会更灵敏,将所有可当作误差列的S j 全并入S e 后得新的误差变差平方和,记为S e Δ,其相应的自由度为f e Δ,这时选用统计量 F =1je eS S n f - ~F (n -1,f e Δ).例9.9 对例9.8的表9-23作方差分析.解 由表9-23的最后一行的极差值R j ,利用公式S j =2211n ij i T T r p=-∑,得表9-24.表9-24中第3,6列为空列,因此S e =S 3+S 6=1.250,其中f e =1+1=2,所以S e /f e =0.625,而第7列的S 7=0.125,S 7/f 7=0.1251=0.125比S e /f e 小,故将它并入误差. S e Δ=S e +S 7=1.375,f e Δ=3.整理成方差分析表9-25. ee由于F 0.05(1,3)=10.13, F 0.01(1,3)=34.12,故因素A ,B 作用高度显著,因素C 作用不显著,因素D作用显著,这与前面极差分析的结果是一致的.F检验法要求选取S e,且希望f e 要大,故在安排试验时,适当留出些空列会有好处的.前面的方差分析中,讨论因素A和B 的交互作用A×B.这类交互作用在正交试验设计中同样有表现,即一个因素A的水平对试验结果指标的影响同另一个因素B的水平选取有关.当试验考虑交互作用时,也可用前面讲的基本方法来处理.本章就不再介绍了.。
第6章正交试验设计正交试验设计是一种科学的方法,用于研究多个因素和水平对一个特定实验结果的影响。
这种方法在很多领域都有广泛的应用,包括工程、医学、社会科学和生物科学等。
下面将详细介绍正交试验设计的基本概念、方法和应用。
一、基本概念正交试验设计是一种基于正交性原理的试验设计方法。
正交性原理是指在一组因素中,任意两个因素的不同水平之间都没有相关性。
这意味着每个因素的不同水平都可以独立地影响实验结果,而不会与其他因素的水平产生交互作用。
在正交试验设计中,通常将实验条件或因素设定为不同的水平,并将这些水平组合成一个正交表。
正交表是一种表格,其中每一行代表一个因素的不同水平组合,每一列代表一个因素的独立水平。
通过使用正交表,可以方便地安排多个因素的试验,并有效地分析实验结果。
二、方法1.确定因素和水平在正交试验设计中,首先需要确定要研究的因素和每个因素的水平。
因素是指可能影响实验结果的变量,而水平是指每个因素的不同取值。
在确定因素和水平时,需要考虑实验的目的、现有条件和实际应用等因素。
2.制定正交表根据确定的因素和水平,可以制定一个正交表。
正交表的行数代表实验次数,列数代表因素的数量,而每个单元格则代表一个具体的实验条件或结果。
通常,正交表可以分为标准型和非标准型两大类。
标准型正交表适用于均匀分布在各个因素的水平上,而非标准型正交表则适用于不均匀分布或某些特定条件下的实验设计。
3.实施试验按照正交表中的安排进行试验,记录每次实验的条件和结果。
在实施试验时,需要注意控制实验条件的一致性,以避免误差和干扰因素的影响。
4.分析结果通过对实验结果进行分析,可以得出每个因素对实验结果的影响程度和各因素之间的交互作用。
常用的分析方法包括极差分析、方差分析、回归分析和主成分分析等。
通过分析结果,可以得出最佳的实验条件组合,为实际应用提供指导。
三、应用正交试验设计在许多领域都有广泛的应用,例如:1.工程领域:在机械制造、电子产品制造和化工生产等领域中,经常需要研究多个因素对产品性能的影响。
第六章 方差分析与正交试验设计在生产实践和科学研究中,经常要分析各种因素对试验指标是否有显著的影响。
例如,工业生产中,需要研究各种不同的配料方案对生产出的产品的质量有无显著差异,从中筛选出较好的原料配方;农业生产中,为了提高农作物的产量,需要考察不同的种子、不同数量的肥料对农作物产量的影响,并从中确定最适宜该地区种植的农作物品种和施肥数量。
要解决诸如上述问题,一方面需要设计一个试验,使其充分反映各因素的作用,并力求试验次数尽可能少,以便节省各种资源和成本;另一方面就是要对试验结果数据进行合理的分析,以便确定各因素对试验指标的影响程度。
§6.1 单因素方差分析仅考虑一个因素A 对试验指标有无显著影响,可以让A 取r 个水平:r A A A ,,,21 ,在水平i A 下进行i n 次试验,称为单因素试验,试验结果观测数据ij x 列于下表:并设在水平i A 下的数据i in i i x x x ,,21来自总体),(~2i i N X ,),,2,1(r i 。
检验如下假设:r H 210:, r H ,,,:211 不全相等 检验统计量为),1(~)/()1/(r n r F r n S r S F e A其中21211)()(x x n x x S iri i ri n j i A i,称为组间差平方和。
211)(i ri n j ije x xS i,称为组内差平方和。
这里 ri i n n 1,in j ij i i x n x 11, r i n j ij ix n x 111。
对于给定的显著性水平)05.001.0(或 ,如果),1(r n r F F ,则拒绝0H ,即认为因素A 对试验指标有显著影响。
实际计算时,可事先对原始数据作如下处理:ba x x ij ij再进行计算,不会影响F 值的大小。
例1试分析三种不同的菌型对小白鼠的平均存活日数影响是否显著? 解:30,11,9,10,3321 n n n n r 16.6,27.7,22.7,4321 x x x x 43.70)()(21211x x n x xS i ri i r i n j iA i,74.137)(211i ri n j ije x xS i49.5)27,2(90.601.0 F F ,说明三种不同菌型的伤寒病菌对小白鼠的平均存活日数的影响高度显著。
§6.2 双因素方差分析同时考察两个因素A 和B 对试验指标有无显著影响,可以让A 取r 个水平:r A A A ,,,21 ,让B 取s 个水平:s B B B ,,,21 ,在各种水平配合),(j i B A 下进行试验,称为双因素试验。
一、无交互作用的双因素方差分析在每一种水平配合),(j i B A 下作一次试验,称为无交互作用的双因素试验,试验结果观测数据ij x 列于下表:并设在水平配合),(j i B A 下的数据ij x 来自总体),(~2 ij ij N X ,),,2,1;,,2,1(s j r i 。
检验如下假设:••• r A H 210:, •••r A H ,,,:211 不全相等 r B H ••• 210:, r B H ••• ,,,:211 不全相等 分别用如下检验统计量))1)(1(,1(~)1)(1/()1/(s r r F s r S r S F e A A))1)(1(,1(~)1)(1/()1/(s r s F s r S s S F e B B其中21211)()(x x s x xS i ri r i sj i A• •,称为A 的组间差平方和。
21211)()(x x r x xS j sj ri s j jB• • ,称为B 的组间差平方和。
211)(x x x xS j i ri sj ije•• ,称为组内差平方和。
这里 • s j ij i x s x 11, • ri ij j x r x 11, r i s j ij x rs x 111。
对于给定的显著性水平)05.001.0(或 ,如果))1)(1(,1( s r r F F A ,则拒绝A H 0,即认为因素A 对试验指标有显著影响;如果))1)(1(,1( s r s F F B ,则拒绝B H 0,即认为因素B 对试验指标有显著影响。
实际计算时,可事先对原始数据作如下处理:ba x x ij ij再进行计算,不会影响B A F F ,值的大小。
例1 为了解三种不同配比的饲料对仔猪生长影响的差异,对3种不同品种的仔猪各选3头进行试验,分别测得其一段时间体重增加量,如下表所示(A 代表饲料,B 代表品种):解:所有数据减去50后计算结果如下:3,3 s r33.2,3,66.0321 •••x x x 2,3,7,2321 •••x x x x 33.3,150,66.8 e B A S S S94.6)4,2(20.505.0 F F A ,说明不同饲料对仔猪的生长无显著影响。
0.18)4,2(0.9001.0 F F B ,说明品种的差异对仔猪生长的影响高度显著。
二、有交互作用的双因素方差分析在每一种水平配合),(j i B A 下重复作)2( m m 次试验,称为有交互作用的双因素试验,试验结果观测数据ijk x 列于下表:并设在水平配合),(j i B A 下的数据ijm ij ij x x x ,,,21 来自总体),(~2 ij ij N X ,),,2,1;,,2,1(s j r i 。
检验如下假设:••• r A H 210:, •••r A H ,,,:211 不全相等 r B H ••• 210:, r B H ••• ,,,:211 不全相等 ij AB H :0全相等, ij AB H :1不全相等 分别用如下检验统计量))1(,1(~)1(/)1/(m rs r F m rs S r S F e A A))1(,1(~)1(/)1/(m rs s F m rs S s S F e B B))1(),1)(1((~)1(/)1)(1/(m rs s r F m rs S s r S F e AB AB其中212111)()(x x m s x x S i ri r i s j i mk A• •,称为A 的组间差平方和。
212111)()(x x rm x x S j sj ri sj j mk B• •,称为B 的组间差平方和。
2111)(x x x x S j i ri sj ij mk AB••211)(x x x x m j i r i sj ij •• ,称为B A 的组间差平方和。
2111)(ij ri sj ijk mk e x x S ,称为组内差平方和。
这里 • s j ijk m k i x sm x 111, • r i ijk m k j x rm x 111, mk ijk ij x m x 11, r i s j ijk mk x rsm x 1111。
对于给定的显著性水平)05.001.0(或 ,如果))1(,1( m rs r F F A ,则拒绝A H 0,即认为因素A 对试验指标有显著影响;如果))1(,1( m rs s F F B ,则拒绝B H 0,即认为因素B 对试验指标有显著影响;如果))1(),1)(1(( m rs s r F F AB ,则拒绝AB H 0,即认为因素A 与因素B 之间的交互效应对试验指标有显著影响。
实际计算时,可事先对原始数据作如下处理:ba x x ijk ijk再进行计算,不会影响AB B A F F F ,,值的大小。
例2 考察合成纤维弹性影响因素为拉伸倍数A 与收缩率B 。
A 与B 各取4个水平,每个水平配合下做2次试验,结果数据见下表:试分析因素、因素对合成纤维弹性的影响是否显著?以及因素与因素之间的交互效应对合成纤维弹性的影响是否显著? 解: 2,4,4 m s r50.21,20.80,66.69,86.8 e AB B A S S S S24.3)16,3(95.205.0 F F A ,说明拉伸倍数A 对合成纤维弹性无显著影响。
29.5)16,3(22.2301.0 F F B ,说明收缩率B 对合成纤维弹性的影响高度显著。
78.3)16,9(91.801.0 F F AB ,说明因素A 与因素B 之间的交互效应对合成纤维弹性的影响高度显著。
§6.3 正交试验设计前面介绍了单因素与双因素试验的方差分析,但是在实际问题中遇到的因素往往超过两个,需要考察各个因素对试验结果是否有显著影响。
从理论上讲可以导出多因素的方差分析法,但是一来公式会变得很复杂,二来总试验次数也要明显增多。
例如,考虑7个因素的试验,每个因素有6个水平,若在每一种组合水平上都做一次试验,需要做27993667次试验,这是根本不可能的! 为了减少试验次数,希望在所有组合水平中挑选一部分出来,在这些组合水平上做试验,即局部地进行试验。
正交试验设计是利用一套现成的规格化的表—正交表,科学地安排试验和分析试验结果的一种数理统计方法,该方法的主要优点是能在很多试验条件中选出代表性强的少数试验方案,同时通过对这少数试验方案的结果进行分析,从中找出最优方案。
正交表1944年起源于美国。
第二次世界大战后在日本开发了使用正交表进行试验设计的技术体系,并在日本全国进行大力普及推广、应用,取得了显著的经济效益。
实践证明,正交设计是促进生产率提高的一种有效手段,目前已经广泛应用于科学研究、产品设计、工艺改革等技术领域以及经营、计划等管理领域。
一、正交表正交表记为)(mn r L ,表示至多安排m 个因素,每个因素有r 种水平,共作n 次试验的正交表。
下面就是两个常用的正交表)3(49L ,)2(78L 。
)3(49L )2(78LL —正交表符号;n —试验次数(正交表的行数); r —水平数;m —因素个数(正交表的列数)。
从上面两个正交表容易看出它们具有如下性质:(1)表中任何一列所含不同的数字出现的次数相同。
如表)3(49L 每一列有三个不同的数字“1”、“2”、“3”,它们各出现3次。
(2)将表中任意两列同一行的两个数字看成有序数对,每种数对出现的次数相同。
如表)3(49L 的有序数对为(1,1),(1,2),(1,3),(2,1),(2,2),(2,3),(3,1),(3,2),(3,3)共9个,它们各出现一次。
以上性质说明正交表中各因素的水平搭配均衡,并可大大减少试验次数。
二、无交互作用的正交设计及其结果的直观分析 1、如何用正交表安排试验 下面用一个实例来说明。
例1 某化工厂进行合成氨试验,需要设计寻找最优生产条件的试验方案。