第六讲方差分析
- 格式:doc
- 大小:281.50 KB
- 文档页数:15
第六讲⽅差分析第五章⽅差分析第⼀节概述前⾯介绍了两样本均数⽐较的t 检验,但在实际研究中经常需要多组均数的⽐较。
如:例5.1 患有某种肿瘤的⼤⽩⿏接受不同实验处理后(对照未服药;服抗癌A 药;服抗癌B 药;服抗癌C 药),2周后体内存活的肿瘤细胞数如表5.1所⽰,⽐较不同实验处理后的平均存活肿瘤细胞数是否有差异。
表5.1 不同实验处理后存活肿瘤细胞数(有丝分裂细胞/10个⾼倍镜视野)对照服抗癌A 药服抗癌B 药服抗癌C 药合计48 45 23 5 50 51 20 6 46 47 22 0 52 48 19 2 48 47 21 250 4 N5 6 5 6 22 x48.80 48.00 21.00 3.17 33.45 s2.282.191.582.2320.14本例中共有4种实验处理,在实验设计中称为⼀个因素中的4个⽔平:第⼀个⽔平为对照处理;第⼆个⽔平为服⽤A 药处理;第三个⽔平为服⽤B 药处理;第四个⽔平为服⽤C 药处理。
根据本例的研究问题,相应的假设检验为H 0:µ1=µ2=µ3=µ4 vs H 1:µ1,µ2,µ3,µ4不全相同●不能⽤t 检验进⾏两两⽐较,第⼀类错误会增⼤。
由于本例共有4组的均数需要⽐较。
如果⽤t 检验进⾏两两⽐较,共要进⾏246C =次t 检验。
如果每次t 检验犯第⼀类错误的概率为0.05,则不犯第⼀类错误的概率为0.95,6次都不犯第⼀类错误的概率为60.950.7351=,因此在6次t 检验中⾄少有⼀次犯第⼀类错误的概率为610.950.26490.05-=>>。
由此可见⽤t 检验进⾏多组均数的⽐较会增⼤犯第⼀类错误的概率。
●要⽤⽅差分析或多组的秩和检验(Kruskal Wallis test)的⽅法进⾏多组⽐较:⽅差分析的英⽂全称为Analysis of Variance ,缩写简称为ANOVA 。
第六章方差分析第一节方差分析概述一.方差分析的定义[用途]定义:用途方差分析也称为变异数分析,是在教育与心理研究中最常用的变量分析方法,其主要功能在于分析测量或实验数据中不同来源的变异对总变异的贡献大小,从而确定测量或实验中因素对反应变量是否存在显著影响。
即用于置信度不变情况下的多组平均数之间的差异检验。
它既可以比较两个以上的样本平均数的差异检验,也可以应用于一个因素多种水平以及多个因素有多种水平的数据分析。
二.方差分析的作用方差分析主要应用于两种以上实验处理的数据分析,同时匕徽两个以上的样本平均数,推断多组资料的总体均数是否相同,也即检验多组数据之间的均数差异是否有统计意义。
在这个意义,也可以将其理解为平均数差异显著性检验的扩展。
当我们用多个t检验来完成这一过程时,相当于从t分布中随机抽取多个t值,这样落在临界范围之外的可能大大增加,从而增加了I型错误的概率,我们可以把方差分析看作t检验的增强版。
方差分析一次检验多组平均数的差异,降低了多次进行两组平均数检验所带来的误差。
在进行方差分析时,设定的假设是综合虚无假设,即假设样本所归属的所有总体的平均数都相等。
如果检验的结果是存在显著性差异,只能说明多组平均数之间存在显著性差异,但是无法确定究竟哪些组之间存在显著性差异,此时需要运用事后检验的方法来确定。
三.方差分析的相关概念一(一)数据的变异(1)变异:统计中的变异是普遍存在的7一般意义上的变异是指标志(包括品质标志和数量标志)在总体单位之间的不同表现。
可变标志的属性或数值表现在总体各单位之间存在的差异,统计上称之为变异,这是广义上的变异,即包括了品质标志和数量标志,有时仅指品质标志和在总体单位之间的不同表现。
注:随机性,即变异性。
(2)组间变异[组间差异]:组间变异表示处理间变异,主要指由于接受不同的实验处理(实验处理效应)而造成的各组之间的变异,可以用两个平均数之间的离差来表示,可将组间离差平方和记为SS AO组间差异可用组间方差来表征,用符号MS B表示。
第五章 方差分析第一节 概述前面介绍了两样本均数比较的t 检验,但在实际研究中经常需要多组均数的比较。
如:例5.1 患有某种肿瘤的大白鼠接受不同实验处理后(对照未服药;服抗癌A 药;服抗癌B 药;服抗癌C 药),2周后体内存活的肿瘤细胞数如表5.1所示,比较不同实验处理后的平均存活肿瘤细胞数是否有差异。
表5.1 不同实验处理后存活肿瘤细胞数(有丝分裂细胞/10个高倍镜视野) 对照 服抗癌A 药服抗癌B 药服抗癌C 药合计48 45 23 5 50 51 20 6 46 47 22 0 52 48 19 2 48 47 21 250 4 N5 6 5 6 22 x48.80 48.00 21.00 3.17 33.45 s2.282.191.582.2320.14本例中共有4种实验处理,在实验设计中称为一个因素中的4个水平:第一个水平为对照处理;第二个水平为服用A 药处理;第三个水平为服用B 药处理;第四个水平为服用C 药处理。
根据本例的研究问题,相应的假设检验为H 0:μ1=μ2=μ3=μ4 vs H 1:μ1,μ2,μ3,μ4不全相同 ● 不能用t 检验进行两两比较,第一类错误会增大。
由于本例共有4组的均数需要比较。
如果用t 检验进行两两比较,共要进行246C =次t 检验。
如果每次t 检验犯第一类错误的概率为0.05,则不犯第一类错误的概率为0.95,6次都不犯第一类错误的概率为60.950.7351=,因此在6次t 检验中至少有一次犯第一类错误的概率为610.950.26490.05-=>>。
由此可见用t 检验进行多组均数的比较会增大犯第一类错误的概率。
● 要用方差分析或多组的秩和检验(Kruskal Wallis test)的方法进行多组比较:方差分析的英文全称为Analysis of Variance ,缩写简称为ANOVA 。
● 统计分析策略⏹ 如果每一组资料服从正态分布(或大样本),并且方差齐性,则可以用方差分析的方法进行比较。
⏹ 如果方差不齐或小样本而非正态分布,则用Kruskal Wallis 进行检验。
第二节 完全随机设计资料的方差分析一、完全随机设计表5.1 不同实验处理后存活肿瘤细胞数(有丝分裂细胞/10个高倍镜视野) 对照(i=1) 服抗癌A 药(I=2) 服抗癌B 药(I=3) 服抗癌C 药(I=4) 合计48 45 23 550 51 20 6 46 47 22 0 52 48 19 2 48 47 21 2 50 4 n 5 6 5 6 22x 48.8048.00 21.00 3.17 33.45 s 2.28 2.19 1.58 2.23 20.14例5.1就是完全随机设计的资料。
该例中的处理因素是不同的实验处理(即服用不同药物情况),共有4个水平,对照未服药、服抗癌A 药、服抗癌B 药和服抗癌C 药,观察指标是大白鼠体内存活肿瘤细胞数,观察结果及部分描述统计量见表5.1。
二、变异的分解(以本例为例)组间变异11223344()()()()SS n X X n X X n X X n X X =-+-+-+-组间其中1234,,,X X X X 为第1组,第2组,第3组和第4组的样本均数,X 为所有数据的平均数。
自由度v=4-1=3组内变异222211223344(1)(1)(1)(1)SS n S n S n S n S =-+-+-+-组内1234,,,S S S S 为各组的样本标准差。
自由度v=22-4=18 可以证明:⏹ H 0:μ1=μ2=μ3=μ4成立时,SS 组间较小 ⏹ H 0:μ1=μ2=μ3=μ4不成立时,SS 组间较大⏹ H 0:μ1=μ2=μ3=μ4是否成立与组内变异SS 组内无关。
⏹ SS 总=SS 组间+SS 组内,其中()()()()()()ij j i SS x X x X x X x X x X x X ==-+-++-+-++-=-∑∑222221121511264421总其中X 表示所有资料的平均数,用N 表示总样本量(本例N=5+6+5+6=22)。
资料X i j 越离散,SS 越大,反之亦然。
SS 还与样本的自由度(degree of freedom )=N -1有关(N 为总样本量),自由度增大,SS 增大。
组内变异自由度为k N -=组内ν由于组间变异和组内变异与自由度有关,所以不能直接比较离均差平方和。
将各部分的离均差平方和除以各自的自由度,得到相应的平均变异指标:均方(mean square ,记为MS )。
组间变异和组内变异的均方可通过公式5.7和公式5.8计算得到。
组间组间组间νSS MS =(5.7)组内组内组内νSS MS =(5.8)均方消除了自由度的影响,因而可以进行比较。
将组间均方除以组内均方,就得到方差分析的检验统计量F 。
组内组间MS MS F =(5.9)可以证明,当H 0成立时,则 F 服从自由度为k -1和N -k 的F 分布;若H 0不成立,则F 不服从F 分布,且大多数情况下,F 远大于1。
因此,可通过F 的大小判断H 0的成立与否。
三、方差分析的步骤1.建立假设并确定检验水准 根据例5.1的题意,可作如下假设:H 0:不同实验组大白鼠体内存活的肿瘤细胞数的总体均数相同,即4321μμμμ===; H 1:不同实验组大白鼠体内存活的肿瘤细胞数的总体均数不全相同。
检验水准:05.0=α2、计算检验统计量 根据表5.3的计算公式,可计算各变异部分的离均差平方和、自由度、均方和检验统计量F 值。
表5.3 完全随机设计资料方差分析的计算公式(k 个样本)变异来源 离均差平方和(SS ) 自由度(υ) 均方(MS ) F 值组间变异 .()j jj n xX -∑2 1-k组间组间νSS 组内组间MS MS组内变异 .()ijj jixx -∑∑2k N - 组内组内νSS总变异()ij ijx X -∑∑21-N本例计算为用Stata 软件计算如下由于本例样本量较少,正态性检验有些困难。
可以采用各组资料减去相应的样本均数,然后再检验。
因此先计算各组的样本均数,Stata 命令 tab group,su(x)gen d=0replace d=x-48.8 if group==1replace d=x-48 if group==2replace d=x-21 if group==3replace d=x-3.166667 if group==4d称为残差。
进行正态性检验sktest dSkewness/Kurtosis tests for Normality------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- d | 0.853 0.181 2.03 0.3633 没有证据认为资料偏态分布。
Stata命令:oneway 观察变量分组变量,t本例命令: oneway x group,t蓝色处为方差齐性检验。
P =0.898>0.1,所以不能认为方差不齐。
均数的比较的P 值<0.0001,因此拒绝H 0:4321μμμμ===,并可以认为各组均数不全相等。
因此需用进一步组间两两比较,以确定那些组之间确有差异。
两两比较有许多方法,此处近介绍两种方法:lsd 方法和Bonferroni 方法 lsd 称为最小差异检验,适用于探索性研究。
命令如下:. lsd x groupLSD 方法进行 两两均数比较输入效应变量分组变量mean1-mean2= 0.800000 P-value=0.537814mean1-mean3= 27.800000 P-value=0.000000mean1-mean4= 45.633333 P-value=0.000000mean2-mean3= 27.000000 P-value=0.000000mean2-mean4= 44.833333 P-value=0.000000mean3-mean4= 17.833333 P-value=0.000000因此第1组和第2组之间的差异没有统计学意义(no significant),第1组和第2组的平均存活肿瘤细胞数分别高于第3组和第4组,第3组的平均存活肿瘤细胞数也高于第4组,差别有统计学意义。
(the differences are statistically significant)。
Bonferroni 是一种比较保守的两两比较方法,通常用于比较慎重的研究结果。
命令如下:红色处为P值。
本例结果与LSD相同。
Bonferroni方法计算的P值=min(LSD的P值×比较次数,1)本例的比较次数为3,所以Bonferroni方法计算的P值=LSD的P值×3但是,第一组与第二组比较的LSD的P值×3>1,所以Bonferroni方法计算的P值=1。
单因素多组资料的秩和检验成组设计多组计量资料的处理效应的比较,如果资料不满足完全随机设计的方差分析的应用条件,可用Kruskal-Wallis H检验(Kruskal-Wallis H test)。
Kruskal-Wallis H检验用于推断计量资料或等级资料的多个独立样本所来自的多个总体的分布是否相同。
统计检验方法、步骤和基本思想见例8.4。
(一)计量资料的多个样本比较例8.4 研究单味中药对小鼠细胞免疫机能的影响,把40只小鼠随机分为4组,每组10只,雌雄各半,用药15天后,测定E-玫瑰结形成率(X:%),结果见表8.4第(1)、(3)、(5)、(7)栏。
问:单味中药对E-玫瑰结形成率有无影响?表8.4 四组E-玫瑰结形成率(X:%)比较对照组党参组黄芪组淫羊霍组X X X X(1) (2) (3) (4)14 21 24 3510 24 20 2712 18 22 3316 17 18 2913 22 17 3114 19 21 40 12 18 18 35 10 23 22 30 13 20 19 28 i本例为百分率资料,不符合正态分布,现用Kruskal-Wallis H 检验。
统计分析步骤如下:(1)检验假设:0H :四组E-玫瑰结形成率的总体分布相同1H :四组E-玫瑰结形成率的总体分布不全相同0.05α=(2)编秩:把四个样本数据混合从小到大编秩次, (3)求秩和并确定检验统计量:分组求秩和,按下式求检验统计量H 值。