方差分析II
- 格式:ppt
- 大小:660.50 KB
- 文档页数:64
⽅差分析2(双因素⽅差分析、多元⽅差分析、可视化)1 双因素⽅差分析1.1 双因素⽅差分析的实战dat<-ToothGrowthdatattach(dat)table(dat$supp,dat$dose)aggregate(len,by=list(dat$supp,dat$dose),FUN=mean)解释:根据投⽅式(橙汁OJ,维C素VC)supp和剂量dose来对⽛齿的长度len进⾏求均值dose<-factor(dose)解释:为了避免把dose变量认为是数值变量,⽽是把dose认为成分组变量,所以设置成因⼦类型factorfit<-aov(dat$len~dat$supp*dat$dose)解释:aov()做⽅差分析,把 + 换成了 * ,这两项dat$supp和dat$dosee就变成了交互项summary(fit)结果分析:可以看出P值很⼩,三个P值都⼩于0.05,说明不同的投喂⽅式supp对⽛齿的⽣长长度len是有显著影响的;说明不同的剂量dose对⽛齿的⽣长长度len是有显著影响的;说明在两种投喂⽅式下,不同的投喂⽅式supp和剂量dose的交互效应对⽛齿的⽣长长度len是有显著影响的1.2 可视化⽅法1interaction.plot(dat$dose,dat$supp,dat$len,type = "b",col=c("red","blue"),pch=c(16,18),main="XX")1.3 可视化⽅法2library(gplots)plotmeans(dat$len~interaction(dat$supp,dat$dose,sep=" "),connect=list(c(1,3,5),c(2,4,6)),col=c("red","blue"),main="XX",xlab="xlab")1.4 可视化⽅法3library(HH)interaction2wt(dat$len~dat$supp*dat$dose)2 重复测量⽅差分析dat<-CO2CO2$conc<-factor(CO2$conc)w1b1<-subset(CO2,Treatment=="chilled")uptake是植物光合作⽤对⼆氧化碳的吸收量,是因变量y,type是组间因⼦,是互斥的,表⽰的是两个不同地区的植物类型,要么是加拿⼤的植物,要么是美国的植物,不可能两个地⽅都是,conc是不同的⼆氧化碳的浓度,每⼀种植物都在所有的⼆氧化碳浓度下,所以conc是组内因⼦研究不同地区的植物作⽤,在某种⼆氧化碳的浓度作⽤下,对植物的光合作⽤效果有没有影响2.1 含有单个组内因⼦w和单个组间因⼦B的重复测量ANOVAfit<-aov(uptake~conc*Type+Error(Plant/(conc)),w1b1)summary(fit)结果分析:⼆氧化碳浓度和类型对植物光合作⽤都有显著影响2.2 可视化图形呈现(1)⽅式⼀par(las=2)par(mar=c(10,4,4,2))with(w1b1,interaction.plot(conc,Type,uptake,type = "b",col=c("red","blue"),pch=c(16,18)))(2)⽅式⼆boxplot(uptake~Type*conc,data=w1b1,col=c("red","blue"))3 多元⽅差分析library(MASS)attach(UScereal)dat<-UScerealshelf<-factor(shelf)y<-cbind(calories,fat,sugars)fit<-manova(y~shelf)summary(fit)结果分析:不同的货架shelf上,⾷物的热量calories,脂肪含量fat和含糖量sugars是⾮常显著不同的3.1 多元正态性center<-colMeans(y)n<-nrow(y) #⾏数p<-ncol(y) #列数cov<-cov(y) #计算⽅差d<-mahalanobis(y,center,cov)coord<-qqplot(qchisq(ppoints(n),df=p),d) #画图abline(a=0,b=1) #画参考线identify(coord$x,coord$y,labels = s(UScereal)) #给出交互式标出离群点3.2 稳健多元⽅差分析install.packages("rrcov")library(rrcov)wilks.test(y,shelf,method="mcd")结果分析:P值⼩于0.05,说明结果是显著性的,即不同货架上⾷物的热量calories,脂肪含量fat和含糖量sugars是⾮常显著不同的4 ⽤回归来做ANOVAlibrary(multcomp)dat<-cholesterollevels(dat$trt)fit.aov<-aov(response~trt,data=dat)summary(fit.aov)结果分析:aov⽅差分析,trt对response的影响⾮常显著fit.lm<-lm(response~trt,data=dat)summary(fit.lm)结果分析:lm回归分析,trt对response的影响⾮常显著,并且trt的每⼀项都显⽰出来了。
R语言学习系列27-方差分析(总21页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--22. 方差分析一、方差分析原理1. 方差分析概述方差分析可用来研究多个分组的均值有无差异,其中分组是按影响因素的不同水平值组合进行划分的。
方差分析是对总变异进行分析。
看总变异是由哪些部分组成的,这些部分间的关系如何。
方差分析,是用来检验两个或两个以上均值间差别显著性(影响观察结果的因素:原因变量(列变量)的个数大于2,或分组变量(行变量)的个数大于1)。
一元时常用F检验(也称一元方差分析),多元时用多元方差分析(最常用Wilks’∧检验)。
方差分析可用于:(1)完全随机设计(单因素)、随机区组设计(双因素)、析因设计、拉丁方设计和正交设计等资料;(2)可对两因素间交互作用差异进行显著性检验;(3)进行方差齐性检验。
要比较几组均值时,理论上抽得的几个样本,都假定来自正态总体,且有一个相同的方差,仅仅均值可以不相同。
还需假定每一个观察值都由若干部分累加而成,也即总的效果可分成若干部分,而每一部分都有一个特定的含义,称之谓效应的可加性。
所谓的方差是离均差平方和除以自由度,在方差分析中常简称为均方(Mean Square)。
2. 基本思想基本思想是,将所有测量值上的总变异按照其变异的来源分解为多个部份,然后进行比较,评价由某种因素所引起的变异是否具有统计学意义。
根据效应的可加性,将总的离均差平方和分解成若干部分,每一部分都与某一种效应相对应,总自由度也被分成相应的各个部分,各部分的离均差平方除以各自的自由度得出各部分的均方,然后列出方差分析表算出F检验值,作出统计推断。
方差分析的关键是总离均差平方和的分解,分解越细致,各部分的含义就越明确,对各种效应的作用就越了解,统计推断就越准确。
效应项与试验设计或统计分析的目的有关,一般有:主效应(包括各种因素),交互影响项(因素间的多级交互影响),协变量(来自回归的变异项),等等。
⽅差分析2⽅差分析是⽤于两个及两个以上样本均数差别的显著性检验。
由于各种因素的影响,研究所得的数据呈现波动状,造成波动的原因可分成两类,⼀是不可控的随机因素,另⼀是研究中施加的对结果形成影响的可控因素。
⽅差分析的基本思想是:通过分析研究不同来源的变异对总变异的贡献⼤⼩,从⽽确定可控因素对研究结果影响⼒的⼤⼩。
⽅差分析主要⽤途:①均数差别的显著性检验,②分离各有关因素并估计其对总变异的作⽤,③分析因素间的交互作⽤,④⽅差齐性检验。
在科学实验中常常要探讨不同实验条件或处理⽅法对实验结果的影响。
通常是⽐较不同实验条件下样本均值间的差异。
例如医学界研究⼏种药物对某种疾病的疗效;农业研究⼟壤、肥料、⽇照时间等因素对某种农作物产量的影响;不同化学药剂对作物害⾍的杀⾍效果等,都可以使⽤⽅差分析⽅法去解决。
⽅差分析原理⽅差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个:(1) 随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,⽤变量在各组的均值与该组内变量值之偏差平⽅和的总和表⽰,记作SS w,组内⾃由度df w。
(2) 实验条件,实验条件,即不同的处理造成的差异,称为组间差异。
⽤变量在各组的均值与总均值之偏差平⽅和表⽰,记作SS b,组间⾃由度df b。
总偏差平⽅和 SS t = SS b + SS w。
组内SS t、组间SS w除以各⾃的⾃由度(组内dfw =n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均⽅MS w和MS b,⼀种情况是处理没有作⽤,即各组样本均来⾃同⼀总体,MS b/MS w≈1。
另⼀种情况是处理确实有作⽤,组间均⽅是由于误差与不同处理共同导致的结果,即各样本来⾃不同总体。
那么,MS b>>MS w(远远⼤于)。
MS b/MS w⽐值构成F分布。
⽤F值与其临界值⽐较,推断各样本是否来⾃相同的总体。
⽅差分析的假设检验假设有m个样本,如果原假设H0:样本均数都相同即µ1=µ2=µ3=…=µm=µ,m个样本有共同的⽅差。
⽅差分析中IIIIIIIV型平⽅和I II III IV只在⾮平衡实验设计中才有区别,平衡实验设计中完全⼀致。
类别⾮均衡性对数据混淆度影响的研究。
感兴趣可以搜论⽂看。
不等样本量引起组间频数分布不同,导致的⾏变量和列变量之间产⽣了相关性——进⽽⽆法区分⼀部分或全部效应来⾃⾏变量还是列变量SS(A,B,AB)是表⽰A和B的主效应以及AB的交互作⽤。
竖杠|表⽰效应是在某个效应后进来的。
⽐如SS(AB | A, B)交互作⽤是主效应之后。
SS(A | B):A的主效应在B的主效应之后。
1. Type I2. Type II3. Type IIII型中后进⼊的变量是被扣除掉前⾯变量的影响,也就是I型后进⼊的变量是本⾝的影响。
Ⅰ型平⽅和与研究因素进⼊模型的顺序有关,先进⼊模型的研究因素,会将该研究因素与后续研究因素之间混淆的平⽅和分配给⾃⼰(使⽤加权均值),最后进⼊模型的研究因素只分配到“净平⽅和”(使⽤未加权均值计算⽽来),因此Ⅰ型平⽅和称为顺序平⽅和II型中没有先后顺序,都是⾃⾝的影响。
三型的都是净作⽤。
四型和三型⼀致,只在cell有0个观测时,使⽤IV型。
2. 使⽤⽅法:I型:研究设计是⼀个裂区设计,研究因素之间存在主次之分。
或,不等样本量确实是随机抽样造成的,或者说总体中的分布确实如此。
II型:Ⅱ型平⽅和由于将研究因素与交互项之间混淆的平⽅和分配给了⾃⼰,因此常⽤在⽆交互作⽤的⽅差分析模型中。
III型:有交互作⽤。
IV型:某个cell样本量为0;下述部分暂时没想明⽩。
1. 下述⼏步都是在说当我们⽐较AB间均值时,SAS如何处理每⼀个⼩的cell,也就是 TYPE I II III IV..2. Type IThe treatment means are the weighted averages of the cell means for that treatment, weighted by the cell sample sizes通过每个cell样本量的⼤⼩加权重。
概率论与数理统计(浙大四版)习题解 第9章 方差分析约定:以下各个习题所涉及的方差分析问题均满足方差分析模型所要求的条件。
【习题9.1】今有某种型号的电池三批,它们分别是C B A ,,三个工厂所生产的。
为评比其质量,各随机抽取5只电池为样品,经试验得其寿命(小时)如下表。
三批电池样品的寿命检测结果 A B C 40 42 26 28 39 50 48 45 34 32 40 50 383043(1)试在显著性水平0.05下检验电池的平均寿命有无显著的差异。
(2)若差异显著,试求B A μμ-、C A μμ-及C B μμ-的置信水平为0.95的置信区间。
〖解(1)〗设,,A B C μμμ分别表C B A ,,三厂所产电池的寿命均值,则问题(1)归结为检验下面的假设(单因素方差分析)01::,,不全相等A B CA B C H H μμμμμμ==设A 表因素(工厂),设,,,T R A CR 分别表样本和、样本平方和、因素A 计算数、矫正数,其值的计算过程和结果如下表。
样本数据预处理表A B C 预处理结果40 42 26 28 39 50 n=15 48 45 34 32 40 50 a=338 30 43 CR=22815 j T 213 150 222 T=585 2j j T n9073.8 4500 9856.8 A=23430.6 2ijx∑913745409970R=23647112221121158558522815152364723430.6jjj n aij j i n aijj i n a ij j j i T x T CR n R x A x n =============⎛⎫== ⎪ ⎪⎝⎭∑∑∑∑∑∑计算平方和及自由度如下23647228158321151142364723430.6216.41531223430.622815615.61312T E A SST R CR df n SSE R A df n a SSA A CR df a =-=-==-=-==-=-==-=-==-=-==-=-= 方差分析表方差来源 平方和 自由度 均方 F 值()0.052,12F因素A 615.6 2 307.8 17.07 3.89 误差 216.4 12 18.0333总和83214因17.07 3.89值F =>在拒绝域内,故在0.05水平上拒绝0H ,即认定各厂生产的电池寿命有显著的差异。