方差分析简介
- 格式:pdf
- 大小:821.48 KB
- 文档页数:30
方差分析(ANOVA)简介方差分析(Analysis of Variance,简称ANOVA)是一种统计方法,用于比较两个或多个样本均值之间的差异是否显著。
它是通过分析样本之间的方差来判断均值是否存在差异。
ANOVA广泛应用于实验设计、医学研究、社会科学等领域,是一种重要的统计工具。
一、方差分析的基本原理方差分析的基本原理是通过比较组内变异和组间变异的大小来判断样本均值之间的差异是否显著。
组内变异是指同一组内个体之间的差异,组间变异是指不同组之间的差异。
如果组间变异显著大于组内变异,就可以认为样本均值之间存在显著差异。
二、方差分析的假设方差分析的假设包括以下几个方面:1. 观测值是独立的。
2. 观测值是正态分布的。
3. 各组的方差是相等的。
三、方差分析的步骤方差分析的步骤主要包括以下几个方面:1. 确定研究问题和目标。
2. 收集数据并进行数据清洗。
3. 计算组内平方和、组间平方和和总平方和。
4. 计算均方和。
5. 计算F值。
6. 进行显著性检验。
四、方差分析的类型根据研究设计的不同,方差分析可以分为单因素方差分析和多因素方差分析。
1. 单因素方差分析:适用于只有一个自变量的情况,用于比较不同水平下的均值差异。
2. 多因素方差分析:适用于有两个或两个以上自变量的情况,用于比较不同因素和不同水平下的均值差异。
五、方差分析的应用方差分析广泛应用于各个领域,包括实验设计、医学研究、社会科学等。
它可以用于比较不同治疗方法的疗效、不同教学方法的效果、不同产品的质量等。
六、方差分析的优缺点方差分析的优点包括:1. 可以同时比较多个样本均值之间的差异。
2. 可以通过显著性检验来判断差异是否显著。
3. 可以通过计算效应量来评估差异的大小。
方差分析的缺点包括:1. 对数据的正态性和方差齐性有一定要求。
2. 只能用于比较均值差异,不能用于比较其他统计指标的差异。
七、总结方差分析是一种重要的统计方法,通过比较组内变异和组间变异的大小来判断样本均值之间的差异是否显著。
方差分析(ANOVA)简介方差分析(ANOVA)是一种统计分析方法,用于比较两个或多个组之间的均值是否存在显著差异。
它是一种实用而广泛应用的工具,常用于研究实验设计、质量控制、医学研究和社会科学等领域。
在本文中,我们将简要介绍方差分析的基本原理和应用,帮助你了解如何使用这一方法进行数据分析。
什么是方差分析?方差分析是一种通过比较组内差异和组间差异来确定不同组均值之间是否显著不同的统计分析方法。
它基于方差的概念,将总体方差分解为组内变异和组间变异,通过计算F值来判断各组均值是否存在显著差异。
方差分析最常见的形式是单因素方差分析,也就是比较一个因素(自变量)对一个因变量的影响。
然而,方差分析也可以应用于多因素实验设计,比较不同因素及其交互作用对因变量的影响。
方差分析的基本原理方差分析的基本原理是比较组内差异和组间差异,确定组间差异是否由于随机因素引起还是真实存在的。
组内差异是指同一组内个体之间的差异,组间差异是指不同组之间个体均值的差异。
方差分析使用方差比的概念来判断组间差异是否显著。
该概念定义为组间方差与组内方差的比值,当组间方差较大且组内方差较小时,该比值较大,表明组间差异显著;反之,该比值较小,表明组间差异不显著。
方差分析通过计算F值来判断组内差异和组间差异的相对大小。
F值是组间均方与组内均方的比值,如果F值大于给定的临界值,则可以推断组间差异显著,否则差异不显著。
方差分析的应用方差分析广泛应用于实验设计和数据分析中。
它可以用于比较不同处理组的均值是否存在显著差异,评估实验结果的有效性和可靠性。
在科学研究中,方差分析可以用于比较不同实验组的平均值是否存在显著差异,例如测试新药物的疗效、评估肥料对作物产量的影响等。
在质量管理中,方差分析可以用于比较不同生产线、不同供应商或不同工艺参数对产品质量的影响,帮助确定最优的质量控制策略。
在社会科学研究中,方差分析可以用于比较不同人群、不同地区或不同时间点的数据,例如比较不同教育水平对收入的影响、比较不同性别对心理健康的影响等。
方差分析(ANOVA)简介方差分析(Analysis of Variance,简称ANOVA)是一种统计方法,用于比较两个或多个样本均值之间的差异是否显著。
它是通过分析样本之间的方差来判断均值是否存在显著差异的一种方法。
方差分析广泛应用于实验设计、社会科学、医学研究等领域。
单因素方差分析单因素方差分析是最简单的一种方差分析方法,适用于只有一个自变量(因素)的情况。
在单因素方差分析中,我们将样本数据按照因素的不同水平进行分类,然后比较各个水平之间的均值是否存在显著差异。
假设检验在进行单因素方差分析时,我们需要建立以下假设: - 零假设(H0):各个水平之间的均值没有显著差异。
- 备择假设(H1):各个水平之间的均值存在显著差异。
方差分解方差分析的核心思想是将总体方差分解为组内方差和组间方差。
组内方差反映了同一水平内个体之间的差异,而组间方差则反映了不同水平之间的差异。
通过比较组内方差和组间方差的大小,我们可以判断均值是否存在显著差异。
统计检验在单因素方差分析中,我们使用F检验来判断均值是否存在显著差异。
F检验是通过计算组间均方与组内均方的比值来进行的。
如果计算得到的F值大于临界值,则拒绝零假设,认为各个水平之间的均值存在显著差异。
多因素方差分析多因素方差分析是在单因素方差分析的基础上引入了多个自变量(因素)的一种方法。
它可以同时考虑多个因素对样本均值的影响,并判断这些因素是否存在交互作用。
交互作用交互作用是指两个或多个因素同时对样本均值产生影响时所产生的效应。
在多因素方差分析中,我们需要考虑各个因素之间是否存在交互作用,以更准确地判断均值之间的差异。
二元因子设计二元因子设计是多因素方差分析中常用的一种设计方法。
它将两个因素进行组合,得到不同水平的组合,然后比较各个组合之间的均值是否存在显著差异。
统计检验在多因素方差分析中,我们同样使用F检验来判断均值是否存在显著差异。
不同的是,多因素方差分析需要考虑组间方差的来源,包括主效应和交互效应。
方差分析简介1. 引言方差分析(analysis of variance,简称ANOV A)是一种假设检验方法,即基本思想可概述为:把全部数据的总方差分解成几部分,每一部分表示某一影响因素或各影响因素之间的交互作用所产生的效应,将各部分方差与随机误差的方差相比较,依据F分布作出统计推断,从而确定各因素或交互作用的效应是否显著。
因为分析是通过计算方差的估计值进行的,所以称为方差分析。
方差分析的主要目标是检验均值间的差别是否在统计意义上显著。
如果只比较两个均值,事实上方差分析的结果和t检验完全相同。
只所以很多情况下采用方差分析,是因为它具有如下两个优点:(1)方差分析可以在一次分析中同时考察多个因素的显著性,比t检验所需的观测值少;(2)方差分析可以考察多个因素的交互作用。
方差分析的缺点是条件有些苛刻,需要满足如下条件:(1)各样本是相互独立的;(2)各样本数据来自正态总体(正态性:normality);(3)各处理组总体方差相等(方差齐性:homogeneity of variance)。
因此在作方差分析之前,要作正态性检验和方差齐性检验,如不满足上述要求,可考虑作变量变换。
常用的变量变换方法有平方根变换,平方根反正弦变换、对数变换及倒数变换等。
方差分析在医药、制造业、农业等领域有重要应用,多用于试验优化和效果分析中。
2. 单因素方差分析2.1 基本概念(1)试验指标:在一项试验中,用来衡量试验效果的特征量称为试验指标,有时简称指标,也称试验结果,通常用y表示。
它类似于数学中的因变量或目标函数。
试验指标用数量表示称为定量指标,如速度、温度、压力、重量、尺寸、寿命、硬度、强度、产量和成本等。
不能直接用数量表示的指标称为定性指标。
如颜色,人的性别等。
定性指标也可以转化为定量指标,方法是用不同的数表示不同的指标值。
(2)试验因素:试验中,凡对试验指标可能产生影响的原因都称为因素(factor),也称因子或元,类似于数学中的自变量。
anova方差分析ANOVA(方差分析)概述:方差分析(Analysis of Variance,简称ANOVA)是一种统计方法,用于比较两个或多个组之间的均值差异是否具有统计显著性。
ANOVA 是一种多元统计分析方法,可以帮助我们理解因素对于观测变量的影响程度。
原理:在进行方差分析时,我们将总体均值之间的差异分为两部分,一部分是不同组内个体之间的差异(称为组内方差),另一部分是不同组之间的差异(称为组间方差)。
通过计算组内和组间方差的比值,我们可以得到方差比(F-ratio),从而判断不同组的均值之间是否存在显著差异。
步骤:1. 建立假设:* 零假设(H0):不同组的均值没有显著差异。
* 备择假设(H1):不同组的均值存在显著差异。
2. 计算方差:* 组间方差(SSB):用于衡量不同组之间的差异。
* 组内方差(SSW):用于衡量同一组内个体之间的差异。
3. 计算F值:* F值 = 组间方差 / 组内方差。
4. 判断显著性:* 根据F分布表,在给定显著性水平(一般取0.05)下,查找对应的临界值。
* 如果计算得到的F值大于临界值,则可以拒绝零假设,认为不同组的均值存在显著差异。
注意事项:1. 样本独立性:ANOVA要求不同组之间的样本必须相互独立,即每个个体只属于一个组,各组之间没有重叠。
2. 方差齐性:ANOVA要求不同组之间的方差相等,即组间方差与组内方差应该接近相等。
3. 正态分布:ANOVA要求不同组之间的观测值满足正态分布,以保证计算的结果准确性。
应用领域:ANOVA常用于实验研究、质量控制以及一些行业调查中,例如以下场景:- 新药疗效比较:比较不同药物在治疗同一疾病上的效果。
- 客户满意度调查:比较不同年龄、不同性别、不同教育程度等因素对客户满意度的影响。
- 厂商竞争力分析:比较不同厂商在市场份额、销售额等指标上的差异。
总结:ANOVA作为一种常用的统计方法,可以帮助我们确定不同组之间的均值差异是否具有统计意义。
统计学中的方差分析算法简介统计学是一门研究数据收集、分析和解释的学科,方差分析是其中一种常用的统计方法。
方差分析算法是通过比较不同组之间的差异来判断它们是否具有统计显著性。
本文将简要介绍方差分析算法的基本原理和应用。
一、方差分析的基本原理方差分析的基本原理是通过计算和比较组内变异和组间变异的大小来判断不同组之间的差异是否显著。
组内变异是指同一组内个体之间的差异,而组间变异是指不同组之间的差异。
方差分析算法基于假设,即组内变异是随机的,而组间变异是由于不同组之间的差异所导致的。
二、单因素方差分析算法单因素方差分析算法是最简单的一种方差分析方法,适用于只有一个自变量(因素)的情况。
该算法基于以下假设:各组之间的观测值服从正态分布,且具有相同的方差。
算法的步骤如下:1. 计算各组的平均值和总体平均值;2. 计算各组的平方和;3. 计算组内平方和;4. 计算组间平方和;5. 计算均方(平方和除以自由度);6. 计算F值(组间均方除以组内均方);7. 根据F分布表确定显著性水平。
三、多因素方差分析算法多因素方差分析算法适用于有多个自变量(因素)的情况。
该算法可以分为两种类型:二因素方差分析和多因素方差分析。
在二因素方差分析中,我们可以研究两个自变量对因变量的影响;而在多因素方差分析中,我们可以同时研究多个自变量对因变量的影响。
多因素方差分析算法的步骤和单因素方差分析类似,但需要进行更多的计算和比较。
首先,需要计算各组的平均值和总体平均值,然后计算各组的平方和、组内平方和和组间平方和。
接下来,需要计算均方和F值,并根据F分布表确定显著性水平。
此外,还需要进行多重比较来确定不同组之间的具体差异。
四、方差分析的应用方差分析在实际应用中有广泛的应用。
它可以用于比较不同组之间的平均值差异,例如比较不同教育水平的人群在某项指标上的差异。
此外,方差分析还可以用于研究不同因素对某一现象的影响,例如研究不同药物对疾病治疗效果的影响。
方差分析与实验设计方差分析(Analysis of Variance,简称ANOVA)是一种统计方法,用于比较两个或多个样本均值之间的差异是否显著。
它是实验设计中常用的一种方法,可以帮助研究者确定实验结果是否受到不同因素的影响,并进一步分析这些因素对实验结果的贡献程度。
实验设计是科学研究中的重要环节,它涉及到如何选择实验对象、确定实验因素、设计实验方案等问题。
合理的实验设计可以提高实验的可靠性和有效性,减少误差的影响,从而得到更准确的结论。
一、方差分析的基本原理方差分析的基本原理是通过比较组间变异与组内变异的大小来判断不同因素对实验结果的影响是否显著。
组间变异是指不同组之间的差异,组内变异是指同一组内部的差异。
如果组间变异显著大于组内变异,说明不同组之间的差异是由于实验因素的影响,而不是由于随机误差的影响。
二、方差分析的步骤方差分析的步骤主要包括:确定实验因素、选择实验对象、设计实验方案、收集数据、计算方差、进行假设检验和结果解释等。
1. 确定实验因素:首先需要明确研究的目的和问题,确定需要研究的实验因素。
实验因素是指可能对实验结果产生影响的变量,比如不同处理、不同时间、不同地点等。
2. 选择实验对象:根据实验因素的不同水平,选择适当的实验对象。
实验对象应该具有代表性,能够反映出实验因素对实验结果的影响。
3. 设计实验方案:根据实验因素的不同水平,设计实验方案。
常用的实验设计方法有完全随机设计、随机区组设计、因子设计等。
4. 收集数据:按照实验方案进行实验,收集实验数据。
数据的收集应该准确、全面、可靠。
5. 计算方差:根据收集到的数据,计算组间变异和组内变异的大小。
常用的方差计算方法有单因素方差分析、双因素方差分析等。
6. 进行假设检验:根据计算得到的方差值,进行假设检验。
常用的假设检验方法有F检验、t检验等。
7. 结果解释:根据假设检验的结果,解释实验结果。
如果差异显著,则说明实验因素对实验结果有显著影响;如果差异不显著,则说明实验因素对实验结果没有显著影响。
anova方差分析方差分析(Analysis of Variance,简称ANOVA)是一种常用于比较多个样本均值差异的统计方法。
它通过分析样本之间的方差差异来推断总体均值是否存在显著差异。
在实际应用中,ANOVA有多种不同的形式,其中之一就是ANOVA方差分析。
本文将详细介绍ANOVA方差分析的原理、步骤以及应用。
一、ANOVA方差分析的原理ANOVA方差分析是一种通过将总体方差进行分解,来比较多个样本均值差异的统计方法。
其基本原理是将总体方差分解为两部分:组内方差和组间方差。
组内方差是指同一组内个体之间的方差,反映了个体之间的差异程度。
组间方差是指不同组之间个体均值的差异,反映了组间的差异程度。
ANOVA方差分析的核心思想就是通过比较组间方差与组内方差的大小,来判断各组均值是否存在显著差异。
二、ANOVA方差分析的步骤1. 确定假设在进行ANOVA方差分析前,首先需要明确研究的目的,并相应地提出原假设(H0)和备择假设(H1)。
通常情况下,原假设是各组均值相等,备择假设是各组均值存在显著差异。
2. 收集数据收集与研究问题相关的数据,包括各组的观测值。
3. 计算统计量利用收集到的数据,计算ANOVA方差分析所需的统计量。
主要包括组间均方(mean square between groups)、组内均方(mean square within groups)、F值等。
4. 假设检验利用计算得到的统计量,进行假设检验。
通常情况下,采用F检验进行判断,根据F值与临界值的比较结果,判断各组均值是否存在显著差异。
5. 结果解释根据假设检验的结果,给出对各组均值差异的解释。
如果拒绝原假设,则可以认为各组均值存在显著差异。
三、ANOVA方差分析的应用ANOVA方差分析在实际应用中有广泛的应用场景。
以下列举几个常见的实际应用案例:1. 教育领域研究研究不同学习方法对学生考试成绩的影响。
将学生分为几组,分别采用不同的学习方法进行学习,然后通过ANOVA方差分析比较各组学生的考试成绩是否存在显著差异。
方差分析的概念与应用方差分析(Analysis of Variance,简称ANOVA)是一种统计分析方法,用于比较两个或两个以上样本均值是否存在显著差异。
通过对不同组之间的方差进行比较,判断样本均值之间是否存在显著性差异。
方差分析广泛应用于实验设计和数据分析中,是一种重要的统计工具。
一、方差分析的基本概念方差分析是一种用于比较多个总体均值是否相等的统计方法。
在进行方差分析时,我们通常将数据分为不同的组别,然后比较这些组别之间的均值差异是否显著。
方差分析的基本思想是通过比较组间变异与组内变异的大小,来判断总体均值是否存在显著差异。
在方差分析中,有三种不同的方差:1. 总体方差(Total Variance):所有数据点与总体均值之间的离差平方和。
2. 组间方差(Between-group Variance):各组均值与总体均值之间的离差平方和,反映了不同组别之间的差异。
3. 组内方差(Within-group Variance):各组内部数据点与各自组均值之间的离差平方和,反映了组内数据的离散程度。
二、方差分析的应用领域1. 实验设计:方差分析广泛应用于实验设计中,用于比较不同处理组之间的均值差异,判断实验处理是否显著。
2. 医学研究:在医学研究中,方差分析常用于比较不同药物治疗组的疗效差异,评估治疗效果的显著性。
3. 市场调研:在市场调研中,方差分析可用于比较不同产品或广告策略对消费者行为的影响,帮助企业制定营销策略。
4. 教育评估:在教育领域,方差分析可用于比较不同教学方法或教育政策对学生成绩的影响,评估教育改革效果。
三、方差分析的步骤进行方差分析时,通常需要按照以下步骤进行:1. 提出假设:明确研究问题,提出原假设(各组均值相等)和备择假设(至少有一组均值不相等)。
2. 收集数据:根据研究设计,收集各组数据。
3. 方差分析:计算总体方差、组间方差和组内方差,进行方差分析。
4. 判断显著性:通过计算F值,比较P值与显著性水平,判断各组均值是否存在显著差异。
方差分析简介(一)方差分析是我们从心理统计这门课就提到一个基本的统计方法。
但或许很多人到做研究生毕业论文的时候,还没搞清楚到底方差分析是怎么一回事。
我们的老师对很多基本的地方也是含糊不清。
我就我几年学习和应用的理解,粗略讲一下方差分析是怎么回事。
什么是方差分析?就是对方差的分析。
有人说你这不废话么?这还真不是废话。
t检验就不是对方差的分析。
独立样本t检验是对两个样本均值的差异进行检验,而相关样本t检验是对两个样本差异的均值进行检验。
而方差分析就是对引起样本数据出现差异的若干因素影响孰强孰弱的分析。
换句话说,当样本数据差异较小的时候,t检验会认为不存在差异,但方差分析可以从这较小的差异中分析出实验处理和随机误差谁对这个差异贡献更大。
所以说在控制水平一定的情况下,方差分析更容易得到显著性水平高,但power较低的结果。
(因为虽然差异贡献大,但本身差异不大。
翻译为人话就是这个研究结果虽然显著但没什么意义。
)既然是对方差的分析,那么研究者对数据就有一定的要求。
不是什么样的数据都适合做方差分析。
这其中最重要最重要的,违反了就无从可谈的就是至少要等距数据(interval data)。
因为至少等距数据才能做参数检验。
称名数据(nominal data)和顺序数据(ordinal data)只能做非参数检验。
既然要分析方差,就得有均值,有方差。
第二重要的是要正态分布的数据。
为什么要强调数据正态分布呢?这要从平均数说起,平均数,从定义上来说,是一组数据中唯一对其离均差之和为0的数值。
如果数据呈正态分布,平均数就是一组数据中最具有代表性的那个值。
好比说一次考试全班的平均分为81.6分,我们大概可以知道有两个事实:1)多数同学考试分数是七八十分,2)如果你高于82分说明你考的还算不错,低于81分就说明考得不够理想。
这个高低差距越大,这个结论的信心就越强。
这两个结论是基于考试分数是基本上的正态分布推断出来的。
如果不是正态分布怎么样呢?拿工资说话,以我所在的圣安东尼奥市为例,这个城市适合工作年龄的人,大约有55%的“蓝领”,30%的“白领”,14%学生或自由职业者,和1%的绝对高收入者。
这个差别有多大呢?“蓝领”的税后工资大约是年收入25,000~45,000,白领大约是50,000~80,000,而超高收入者,例如蒂姆邓肯同学,他的税后收入大约是20,000,000。
如果算个平均数,统计局说圣安东尼奥市人民平均收入高达50,000,大家过着幸福美满的生活。
那55%的蓝领和14%的学生肯定想抽这个发言人。
因为马刺队拿小头的球员收入恐怕就要把这个数字往上提5,000。
更不要说后面赚大头的各种大老板了。
所以50,000这个平均数代表性不够强。
既然在方差的计算中要计算每个数据与平均数的差异,因此平均数给力不给力也就会很大影响方差分析的结论。
当然如果是稍微有点偏态分布,统计学家也找到了校正的方法。
这个因素虽然重要,但没有等距数据这个条件那么critical。
第三叫方差齐性(homogeneity of variance)。
意思就是所有需要进行比较的组的数据方差要在统计上没有显著差别。
而其实这个差别主要体现在误差上。
HOV想保证的就是误差等分散性。
不同组虽然进行了不同的实验处理,可由于随机误差引起的变异在各组之间并没有太大差别。
当然这个因素如果不满足也有很多校正的办法。
第一部分最后要提到的是误差(Error)。
在方差分析的模型中,凡是无法解释的变异都被统归为误差。
我之所以说误差,而不是随机误差,是因为这些变异仅仅是Undetermined,绝不等于Random。
换句话说,你不知道一件事情发生的原因,只是因为它没有纳入解释系统,或是没有被很好的测量,那是“待定”解决,而不是“天知道怎么回事”。
在心理学以及很多行为科学中,不同的实验设计,就有不同的误差系数。
而改进实验设计的目的,就是在保证实验可行性的情况下,尽可能多的把一些可以解释的变异从误差变异中剥离出来,以提高Power。
再一次提到Power,也就是结果的意义。
方差分析本身是一个power基准相对较低的统计方法,改良实验设计以及事后检验的方法,会有效提高Power,而让结论更加有意义。
这会在后文慢慢提到。
方差分析简介(二)自由度(degree of freedom)是统计中玩的比较多的一个概念。
什么是自由度呢?有的老师会这么讲,当n个数据的均值确定的时候,那么有且仅有n-1的数据是不确定的,最后一个数据是被钉死的。
那么自由度就是n-1。
那么自由度就是该条件下可以活动的数据个数。
通过这个解释我们知道自由度是怎么算出来的,却不能理解自由度的本质。
所以我们会计算,但是不会设计。
在Stevens的《Handbook of Experimental Psychology》中用了一个巧妙的比喻告诉我们什么是自由度,而且帮助我们学会在设计中确定自由度。
想象桌子上有一杯水,你要拿起这一杯水,最基本的动作是什么?——用手拿。
那么从你开始启动动作到你手碰到杯子的全过程,你身体的哪些部位在动?(先忽略手指的动作)大家可以试着做一下。
最简单,最基础,也再也无法省略的动作包括:抬动大臂、弯曲小臂、活动手腕。
在这个基本动作中,我们至少使用了四个肌肉群,肩部肌肉群、大臂肌肉群、小臂肌肉群、掌部肌肉群。
肌肉群本身只能收缩或被迫拉伸,让我们手真正碰到杯子的原因,是因为关节的作用。
关节,使肌肉群能够灵活移动。
那么在这个动作中我们使用了:肩关节、肘关节、腕关节。
启用关节的数量,就决定了肌肉能够活动范围的程度,如果我们想做更复杂的活动,就需要启用更多的关节。
这关节,就是自由度。
那自由度大是好还是小是好呢?刚刚够用不浪费最好,这取决于实验需要。
好比有人拿杯子还要转个腰,但转腰这个动作可能会带来更多的误差。
有人拿杯子要用两只手,因为是给领导递茶。
在后面的分析中会提到通过实验设计减少自由度的利弊,总的来说在保证实验可行性的情况下,通过将一部分效应从误差中分离出来以减少误差平方和和自由度可以提高Power。
比较(Comparison)是方差分析的核心。
有人统归那叫事后检验,这是国内一些心理教育统计书的一个很大的缺陷。
事后检验(Post Hoc)只是比较的一类,而且是在实际研究中最不想用到的一类。
国内书重在分析方差分析的模型,以及前期的计算。
但对Comparison讲的很少。
我们在这里放一个例1。
说研究者想知道睡眠剥夺对人数学计算及推理能力的影响。
于是他找了160个修普通心理学课程的大二学生(永远悲催的被试银行),随机排到4组,每组40人。
第一组不剥夺睡眠,第二组剥夺6小时睡眠,第三组剥夺12小时睡眠,第四组剥夺18小时睡眠。
之后让他们限时半小时完成一份GRE数学题(哎我很BT我很BT)。
结果发现各组平均分如下:第一组750分,第二组730分,第三组720分,第四组640分。
所有被试总平均分为715分。
并且给出各组标准差和全部被试标准差。
问研究者如何评估研究结果。
拿到这个例子,如果它出现在大二心理统计考试题中,我想所有人都会毫不犹豫的写:其中至少有两个不相等。
∑∑(∑∑),(为了怕忘嘴里会念念有词:“所有数据的平方和减去所有数据和的平方除以数据个数。
”)∑̅̅̅̅,(嘴里还得念叨:“各组平均数减去总平均数的平方求和再乘以组数据个数。
”)⁄⁄⁄ ~然后再查表,发现这个F比要大,然后就说:推翻虚无假设。
剥夺睡眠对GRE数学成绩有显著影响,p<0.05。
看上去很Happy的结果,如果计算都没问题的话这道题貌似满分了。
现在的问题是:睡眠剥夺对GRE数学成绩究竟有什么影响?有人说这不是很明显么?剥夺睡眠时间越长,成绩越差嘛。
直观上是这样,统计上呢?似乎我们之前的方差分析并没有给出确定的结果。
我们回到这个F 检验的模型,⁄。
假如F比临界值要大,仅仅是告诉我们各组GRE成绩受到睡眠剥夺的影响要大于受到误差的影响。
起码有两个问题没有解决:一,这个影响到底有多大?二,它是如何影响的?从直观上看画个图就可以了。
我们再次想到了t检验。
因为t检验是比较两组数据差异最好的方式之一。
在这里我们能不能用t检验?要用多少次t检验才能把这个问题弄明白?有人说:不能做多重t检验,因为那样会增大。
一点儿都没错,三组及以上数据的差异比较要用方差分析的原因也就是在此。
但确保不增大的情况下推断出多组数据差异的精髓,就在于比较(Comparison)。
但比较与多重t检验没有本质上的差别,只要对比两组数据差异,就要冒风险。
总体的。
c是进行多重比较的次数。
于是很容易可以看出,在能够回答问题的情况下,比较的次数越少越好。
括号里的数字为比较的权重,左侧说明为比较的意义,我们来看看下面哪种比较为最优。
1.Helmert2. Polynomial3. Simple4. Repeated5. Deviation这五种比较方式各有千秋。
需要强调的是,这些都是所谓的事前比较(Contrast)。
事前比较是优于事后比较的(Post Hoc)。
我们在SPSS里学的无论是Bonferroni还是LSD都是Power 很低很低的比较。
即便一定要用事后比较,也要选择Scheffe。
Scheffe是比较所有必要的配对,而Bonferroni和LSD是比较所有可能的配对,是最白痴最没有办法的比较方法,以后不到万不得已千万不要用。
而这五种比较方法对应了五种不同的设计理念。
在后面还会提到。
方差分析简介(三)今天重点讲几种比较(Comparison)。
我花了很大精力理解了实验设计和比较的关系,但因为我线性代数的基础不是很好,比较和实验设计各自与矩阵的关系只是理解了一个大概,在这里不误人子弟。
虽然说离开矩阵模型也能基本掌握比较,但我还是强烈建议大家去看有关比较和矩阵已经实验设计与矩阵的关系的教材。
比较(Comparison or Contrast),从定义上讲,就是各组均值赋予不同权重后的线性组合。
(有人打断:尼玛能说人话么!!!!!!!!!额,先等我把这句话说完。
)这个线性组合满足条件:1)至少一个权重系数不为0;2)权重系数总和为0。
用公式来表达就是,对于p个组的设计:这个公式还稍微有点抽象,为了更加明白的解释,我们这里以p=4,即4个组的设计举个简单例子。
假如说我们四组的均值分别为a1,a2,a3,a4。
在公式中,令c1=1,c2=-1,c3=0,c4=0,则有=。
不错,在这里我们设计的比较,其实就是比较a1和a2的大小了。
如果用表格表示就是:看完这个例子我们再用通俗的话来讲比较,那就是计算很多均值之间的差异(尼玛这就是人话了么!!!!!!!!好吧,你就当人话听吧。
)我们操纵c1,c2,c3,c4的值,或是说设定线性组合的权重系数,就可以以特定的方式来分析:自变量x在四种不同水平下,因变量y所呈现的a1,a2,a3,a4水平究竟反映了怎样的结果和意义。