当前位置:文档之家› 交互效应检验

交互效应检验

交互效应检验
交互效应检验

庄主您好:我是一名博士生,怀着非常忐忑的心情给您写这篇文章。我经常拜读您

竹家庄上的文章,受益很深。您在2009年4月11日文章“如何绘制调节效应的图形?”,我能够看懂,但是用您的绘制调节变量的图形的方法于下面这篇文章得出的

回归系数,和该文章得出的回归系数,为何不同?

这是发表于《管理世界》2009年第一期的一篇文章(下面复制了它的两个图和一段文字)。

首先,根据您的绘制调节变量图形的方法,

Y = 0.405X + 0.360Z - 0.186XZ + 常数=(0.405 - 0.186Z)x + 0.360Z+常数

(1)低中国人传统性,取Z为均值减一个标准差,为-0.647,此时Y = [0.405 - 0.186 ×(-0.647)]X + 0.360 ×(-0.647) + 常数= 0.525X+常数

(2)高中国人传统性,取Z为均值加一个标准差,为0.647,此时Y = [0.405 - 0.186 ×(+0.647)]X + 0.360 ×(+0.647) + 常数= 0.525X + 常数= -0.285X + 常数但是,为什么这篇文章得出的结果不同呢?

(1)低中国人传统性,Y = 0.503X + 常数(p<0.01)

(2)高中国人传统性,Y = 0.018X + 常数(p>0.01)

这篇文章的结果正确吗,它是如何计算出来的,特别是它的p值是如何计算出来的?是不是我没有正确领会您的“如何绘制调节效应的图形?”的内涵?

(庄主注:yxf的信中附有原文的部分页面,因涉及版权,这里删去。有兴趣者请

参阅:汪林、储小平、倪婧:“领导—部属交换、内部人身份认知与组织公民行为”,《管理世界》2009年第1期,97-108页。)

庄主@ 2009-12-30:

你提了两个问题。一是如何计算“低传统”组和“高传统”组各自的回归斜率;二

是如何检验这些斜率的统计显著水平?以下分别简答之。

一、如何计算分组回归斜率(也叫“简单斜率”)?我在多个前贴(包括你提到的“如何绘制调节效应的图形”一文)中已介绍过,简单斜率是根据总样本回归模型Y = b0 + b1X + b2Z + b3XZ (1)

而计算出来的。即先选定若干个Z的值(如本例中小于和大于“传统性”均值的一

个标准差,分别记为Z1和Z2),然后代入公式1,就有

Y = b0 + b1X + b2Z1 + b3XZ1 = (b0 + b2Z1) + (b1 + b3Z1)X (2)

Y = b0 + b1X + b2Z2 + b3XZ2 = (b0 + b2Z2) + (b1 + b3Z2)X (3)

其中b1+b3Z1是低传统组的简单斜率、b1+b3Z2是高传统组的简单斜率。这种方法,与论文作者所参照的Aiken and West (1991)的方法是完全一样的。

至于具体计算,只是做简单的加减乘,没有特别深奥的地方。当然,先要弄清Z1

和Z2是原始数据还是取中值(centered score)。在本例中,前者为3.52±0.647而后者为±0.647(因为取中值的均值为0)。你是用后者来计算的,你的结果中低组的斜率是对的(0.525),但高组的斜率错了,应该也是正数(0.285)而不是负数(-0.285)。我估计你算对但写错了。

作者为什么算出来分别是0.503和0.018?我看了原文,他们没有交代用的是原始数据还是取中值。如果用的是原始数据,结果应该分别是-0.129和-0.370,与其上下文不合。估计他们用的是取中值,但手算时出错了。你不妨直接写信问他们一下?

二、如果检验简单斜率的显著性?我在有关前贴中也应该讲过,但一下子查不出来,所以再讲一下。我们知道,一个回归方程的斜率(如b1),可以用t = b1/seb1 来检验。

同样,简单斜率b1+b3Z的显著性也是用一个类似的t-检验来完成的(注意,要将这里的b1+b3Z当做一个常数来看),即

(4)

其中的分母就是简单斜率的标准误差,SPSS或其它统计软件不会直接报告这个参数,但可以根据以下公式

(5)手工算出,其中的se2b1和se2b3分别是b1和b3的方差(variance)、covb13是b1

和b3的协方差(covariance)(注意:这里提到的是b1和b3的方程-协方差而不是X和Z

的方差-协方差),在SPSS中在Statistics的选项中选择“BCC”可以获得这些参数,而

这里的Z则用上述的Z1或Z2值来代入。

算出公式4的t-值后,就可以查表得出其相对应的p-值了。估计原文作者就是这么

做的。当然,他们如果报告一下两个t-值和对应的两个p-值各为多少,就更令人信服了。

yxf @ 2010-01-07

庄主,您好:非常感谢您的回复。我非常仔细地学习了您的“如何检验交互效应的

显著性?”,感觉帮助非常大。在您的回复中,“二、如果检验简单斜率的显著性?”有一段话

“简单斜率b1+b3Z的显著性也是用一个类似的t-检验来完成的(注意,要将这里

的b1+b3Z当做一个常数来看),即公式4(省略),其中的分母就是简单斜率的标准

误差,SPSS或其它统计软件不会直接报告这个参数,但可以根据以下公式5(省略)手工算出,其中的se2b1和se2b3分别是b1和b3的方差(variance)、covb13是b1和b3

的协方差(covariance)(注意:这里提到的是b1和b3的方程-协方差而不是X和Z的方

差-协方差),在SPSS中在Statistics的选项中选择“BCC”可以获得这些参数,而这里

的Z则用上述的Z1或Z2值来代入。”

这里,se2b1、se2b3、covb13在SPSS中的计算方法我不太确定如何操作,因为不知道BCC是如何操作的?我找到两种方法,您认为哪一种方法算出的协方差是适合本文

这里使用的,因为这两种方法算出的协方差不一致:

Analyze—>Regression—>Linear—>Statistics—>Regression Coefficients中"Covariance Matrix”打钩,然后算出协方差矩阵;

Analyze—>Correlate—>Biraviate—>Options中"Cross-Product Deviations and Covariances”打钩,然后算出协方差矩阵。

您认为哪一种方法是正确的,还是都不正确?正确的方法应该如何操作?

另外,“covb13是b1和b3的方差-协方差而不是X和Z的方程-协方差”,这两个

协方差有何区别?

万分感谢!

庄主@ 2010-01-16:

用方法1而不是方法2。如我原文中所说,前者是回归系数(b1, b2, b3)之间的方差-协方差、而后者是自变量(X, Z)之间的方差-协方差,是风马牛不相及的完全两回事。

大家应该对后者很熟悉,即使不那么熟悉、但在学习初级统计的相关系数部分时、多半也看到过相关系数与协方差之间的转换关系(Covxz = rxzsdxsdz,即X和Z的相关关系rxz乘上X和Z各自的标准差sdx和sdz就是X和Z的协方差Covxz)。很多学生对我说,他们的老师没有讲过这个公式。我的回答一般是“这还需要讲吗?”。比较一下相关系数的公式和协方差的公式,前者不就是少了sdx和sdz吗?甚至记不得公式,但一定知道相关系数是标准化的协方差、而协方差是非标准化的相关系数吧?将一个标准化的指标乘上其标准差不就是其非标准化的指标了吗?反之,将一个非标准化指标除以去标准差不就是标准化了吗?当然,如果只是通过老师的PPT讲义和点击SPSS菜单而学习统计的话(很可惜,现在的社会科学学生中大概99%是这么过来的),这些ABC原理都好像很陌生。青年朋友们:不要做PPT和SPSS的奴隶,多看书、并且经常手工演算各种公式吧。

那么前者呢?很可能你们老师们没有讲过。其实我的老师们(当中不乏顶尖学者)也都没有讲到,因为回归系数的协方差一般用不到。曾有一位美国名校名导师培养出来的博士朋友问我,b1和b3是两个常数、它们之间怎么可能有相关系数呢?是的,回归系数是常数,但任何统计量(常数)都有一个抽样分布(即假定从同一总体中抽取无数个相同大小的样本,做同一回归而得到的无数个回归系数就构成了一个服从t的抽样分布),在这个抽样分布中的每个回归系数都是一个变量(而不是常数),所以各自都有自己的方差、而相互之间就有相关系数或协方差。

随机对照试验的meta分析方法之一:合并效应量计算

随机对照试验的meta分析方法之一:合并效应量计算 介绍metan命令的用法 数据来源: Example1: The following table gives data from 22 randomised controlled trials of streptokinase(链激酶) in the prevention of death following myocardial infarction.(心肌梗塞) 命令:describe 命令:generate alive1=pop1-deaths1

generate alive0=pop0-deaths0 metan deaths1 alive1 deaths0 alive0, rr xlab(.1,1,10) label(namevar=trialnam) 注意: generate用于产生新变量,Stata和RevMan不一样,需要的是治疗组有效数和无效数,以及对照组的有效数和无效数,而不是有效数和治疗总数或对照总数。metan就是Stata中Meta分析的命令。 deaths1 alive1 deaths0 alive0 就是四格表资料。 rr表示使用RR统计量。 xlab(.1,1,10)就是制定森林图中X轴的坐标,0.1~10,其中1是无效线。label(namevar=trialnam) 在森林图中用实验名称标识试验。

介绍meta命令的用法 The meta command uses inverse-variance weighting to calculate ?xed and random effects summary estimates, and, optionally, to produce a forest plot. The main difference in using the meta command (compared to the metan command) is that we require variables containing the effect estimate and its corresponding standard error for each study. meta是Stata进行Meta分析的另一个命令,meta命令和metan命令的区别在于meta使用的是一般倒方差法,需要输入效应量和效应量的标准误。 命令如下:generate alive1=pop1-deaths1 generate alive0=pop0-deaths0 generate logor=log((deaths1/alive1)/(deaths0/alive0)) generate selogor=sqrt((1/deaths1)+(1/alive1)+(1/deaths0)+(1/alive0)) meta logor selogor, eform graph(f) cline xline(1) xlab(.1,1,10) id(trialnam)

10第十章效应量和统计检验力-刘红云版心理统计教材课后习题

练习题 1.什么叫效应值?它在实际研究中有何作用? 2.Cohen d值是如何表达的?在单样本t检验、独立样本t检验和相关样本t检验中,d值的公式是如何变化的? 3.统计量r2描述了什么?它在实际研究中有何作用? 4.从一个均值为40的正态总体中选择一个n=16的样本。对样本施测,处理后,评价处理效应的大小。 a.假设总体的标准差为8,计算Cohen d系数来评价一个样本均值为?x=42的样本的效应大小; b.假设总体的标准差为2,计算Cohen d系数来评价一个样本均值为?x=42的样本的效应大小; c.假设总体的标准差为8,计算Cohen d系数来评价一个样本均值为?x=48的样本的效应大小; d.假设总体的标准差为2,计算Cohen d系数来评价一个样本均值为?x=48的样本的效应大小; 5.五年级学生的阅读成绩测验形成了一个均值为60,标准差为10的正态分布。一个研究者想要评价一个新的阅读项目。他对五年级学生的样本进行这个项目的培训,然后测量他们的阅读成绩。 a.假设研究者使用了一个n=16的样本,得到的测验分数均值为?x=62。使用α=0.05的假设检验来确定项目是否有显著的作用。用Cohen d系数来测量效应大小; b.现在假设研究者使用了一个n=100的样本,得到的测验分数均值为?x=62。再使用假设检验来评价项目效果的显著性,计算Cohen d系数来测量效应大小; c.比较a和b得到的结果,解释样本大小怎样随机影响假设检验和Cohen d系数的。 6.从一个均值为100的总体中得到一个随机样本,对样本施测。处理后,样本均值为?x=104,样本方差为S2=400。 a.假定样本包括n=16名被试,计算Cohen d系数和r2测量处理效应大小; b.假定样本包括n=25名被试,计算Cohen d系数和r2测量处理效应大小; c.比较在a和b部分得到的结果,样本量是如何影响效应大小的? 7.下图是垂直一水平错觉的一个例子。尽管两条线是一样长的,垂直的线看起来更长。为了考察这个错觉,一个研究者准备了一个例子,这个例子中两条线都是10英尺长。给每个被试展示这个例子,告诉他们水平线有10英尺长,然后让他们估计垂直线的长度。一个n=25的样本,估计的平均值为?x=12.2英尺,标准差为S=1.00。 a.使用0.01水平的单侧假设检验证明样本中的个体显著高估了线段的真实长度。(注

利用SPSS进行统计检验

第四节利用SPSS进行统计检验 在教育技术研究中,经常需要利用不同的教学媒体或教学资源对不同的对象进行教学改革 试验,但教学试验的总体往往都有较大数量,限于人力、物力与时间,通常都采用抽取一定的 样本作为研究对象,这样,就存在样本的特征数量能否反映总体特征的问题,也存在着两种不 同的样本的数量标志的参数是否存在差异的问题,这就必需对样本量数进行定量分析与推断, 在教育统计学中称为“统计检验”。 一、统计检验的基本原理 统计检验是先对总体的分布规律作出某种假说,然后根据样本提供的数据,通过统计运算,根据运算结果,对假说作出肯定或否定的决策。如果现要检验实验组和对照组的平均数(μ1和μ2)有没有差异,其步骤为: 1.建立虚无假设,即先认为两者没有差异,用表示; 2.通过统计运算,确定假设成立的概率P。 ⒊根据P 的大小,判断假设是否成立。如表6-12所示。 二、大样本平均数差异的显著性检验——Z检验 Z检验法适用于大样本(样本容量小于30)的两平均数之间差异显著性检验的方法。它是 通过计算两个平均数之间差的Z分数来与规定的理论Z值相比较,看是否大于规定的理论Z值,从而判定两平均数的差异是否显著的一种差异显著性检验方法。其一般步骤: 第一步,建立虚无假设,即先假定两个平均数之间没有显著差异。 第二步,计算统计量Z值,对于不同类型的问题选用不同的统计量计算方法。 (1)如果检验一个样本平均数()与一个已知的总体平均数()的差异是否显著。其 Z值计算公式为:

其中是检验样本的平均数; 是已知总体的平均数; S是样本的方差; n是样本容量。 (2)如果检验来自两个的两组样本平均数的差异性,从而判断它们各自代表的总体的差异 是否显著。其Z值计算公式为: 其中,1、2是样本1,样本2的平均数; 是样本1,样本2的标准差; 是样本1,样本2的容量。 第三步,比较计算所得Z值与理论Z值,推断发生的概率,依据Z值与差异显著性关系表 作出判断。如表6-13所示。 第四步,根据是以上分析,结合具体情况,作出结论。 【例6-5】某项教育技术实验,对实验组和控制组的前测和后测的数据分别如表6-14所示,比较两组前测和后测是否存在差异。

统计检验的基本思想是什么

统计检验的基本思想是什么? 先从一个例子谈起. 某公社种植的小麦,根据往年生产情况,平均每亩产量为μ0=350斤,标准差为σ0=75斤.今年,该公社引进新的小麦品种,试种了100亩,在田间管理大致相同的情况下,其平均亩产量为x=368斤,能否认为该品种可以推广呢? 显然,新品种的亩产量比原品种的亩产量高.就是说,新品种与原品种存在差异,但如果不引进新品种,还用原品种种植,这100亩的小麦平均亩产量不一定仍旧还是350斤,而可能会增加或减少.因此,新品种与原品种的差异,可能是由于品种不同引起,也可能是由于其它因素引起的.前者称为条件差异,后者称为随机差异,这两种差异经常纠缠在一起,要解决上述问题,关键在于正确区分这两种差异.统计检验就是帮助我们处理这类问题的一种科学方法. 首先,我们假定新品种对亩产量没有影响(称为统计假设,简称假设),就是说不存在条件差异,x 与0μ的差异纯粹是随机差异,样本仍可认为是从原总体抽出来的。 根据统计理论指导,x 应该遵从正态分布( 0μ,20n σ),因而x 落在区间(0μ-1.962σ, 0μ-1.962σ=(335,364)的概率为95%,现x =368在区间之外,样本落在上述区间外的概率只有5%,极难由偶然因素造成.因为概率5%相当于二十次才能出现一次,这种事件称为小概率,小概率事件在一次试验中是很难发现的,因此我们认为x 来自正态分布 (0μ,20n σ)的可能性小,不能相信开始提出的统计假设是正确的,从而否定原假设. 我们否定假设的根据是因为样本均值x 与总体均值相差较大,这时我们说,新品种与原品种有显著性差异.其标准是在区间(335,364)外的概率只有5%,数值5%叫做显著性水平,通常用α表示,上述判断就是在α=5%下作出的.显著性水平变了,判断也可能随着改变,例如,取α=1%,u 0.01=2.58,因而将上述区间的1.96换成2.53.这时,区间变为 否定原假设,现在算得:

方差分析的统计检验力和效果大小的常用方法比较.

心理学探新2011,Vol.31,No.3,254-259 PSYCHOLOGICAL EXPLORATION 方差分析的统计检验力和效果大小的常用方法比较* 胡竹菁戴海琦 (江西师范大学心理学院,南昌330022 摘要:本文对用方差分析统计检验力和效果大小进行估计的几种不同方法作了简要的介绍和比较。 关键词:方差分析的效果大小;方差分析的统计检验力 中图分类号:B841.2文献标识码:A文章编号:1003-5184(201103-0254-06 1方差分析的统计检验力和效果大小的含义 关于统计检验力(The power of a statistical test 的含义,美国著名心理统计学家J.Cohen曾指出: “当虚无假设为假时…,关于虚无假设的统计检验 力是指导致拒绝虚无假设的概率。”[1] 关于效果大小(effect size,ES的含义,J.Cohen 在同一本专著中指出:“当虚无假设为假时…,它总 是在一定程度上的虚假。效果大小(effect size,ES 是指某个特定总体中的某种特殊的非零的数值。这 个数值越大,就表明由研究者所处理的研究现象所

造成的效果越大…效果大小本身可以被视为是一 种参数:当虚无假设为真时,效果大小的值为零;当 虚无假设为假时,效果大小为某种非零的值。因此, 可以把效果大小视为某种与虚无假设分离程度的指标。”[1] 最近几年,我国心理学界也有越来越多的学者 注意到这一领域研究成果的重要性并加以介绍和评述:如权朝鲁对“效果量的意义及测定方法”作了简 要述评[2];胡竹菁曾以平均数差异显著性检验为例,对实验数据进行假设检验后继续对其统计检验 力和效果大小进行估计的基本原理和方法作了简要介绍[3]。甘怡群[4]、舒华[5]等也在各自主编的教科书中有专门论述统计检验力的章节。本文拟以单因素和两因素完全随机实验设计的方差分析为例,对 方差分析后的统计检验力进行估计的几种不同方法作一简要介绍和比较。 在心理统计学中,方差分析(即F检验中的虚 无假设一般是H 0:μ

显著性分析用SPSS进行统计检验

显著性分析用S P S S进 行统计检验 文档编制序号:[KKIDT-LLE0828-LLETD298-POI08]

用SPSS进行统计检验 在教育技术研究中,经常需要利用不同的教学媒体或教学资源对不同的对象进行教学改革试验,但教学试验的总体往往都有较大数量,限于人力、物力与时间,通常都采用抽取一定的样本作为研究对象,这样,就存在样本的特征数量能否反映总体特征的问题,也存在着两种不同的样本的数量标志的参数是否存在差异的问题,这就必需对样本量数进行定量分析与推断,在教育统计学中称为“统计检验”。 一、统计检验的基本原理 统计检验是先对总体的分布规律作出某种假说,然后根据样本提供的数据,通过统计运算,根据运算结果,对假说作出肯定或否定的决策。如果现要检验实验组和对照组的平均数(μ1和μ2)有没有差异,其步骤为: 1.建立虚无假设,即先认为两者没有差异,用表示; 2.通过统计运算,确定假设成立的概率P。 ⒊根据P 的大小,判断假设是否成立。如表6-12所示。 二、大样本平均数差异的显着性检验——Z检验 Z检验法适用于大样本(样本容量小于30)的两平均数之间差异显着性检验的方法。它是通过计算两个平均数之间差的Z分数来与规定的理论Z值相比较,看是否大于规定的理论Z值,从而判定两平均数的差异是否显着的一种差异显着性检验方法。其一般步骤: 第一步,建立虚无假设,即先假定两个平均数之间没有显着差异。 第二步,计算统计量Z值,对于不同类型的问题选用不同的统计量计算方法。

(1)如果检验一个样本平均数()与一个已知的总体平均数()的差异是否显着。其Z值计算公式为: 其中是检验样本的平均数; 是已知总体的平均数; S是样本的方差; n是样本容量。 (2)如果检验来自两个的两组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显着。其Z值计算公式为: 其中,1、2是样本1,样本2的平均数; 是样本1,样本2的标准差; 是样本1,样本2的容量。 第三步,比较计算所得Z值与理论Z值,推断发生的概率,依据Z值与差异显着性关系表作出判断。如表6-13所示。 第四步,根据是以上分析,结合具体情况,作出结论。 【例6-5】某项教育技术实验,对实验组和控制组的前测和后测的数据分别如表6-14所示,比较两组前测和后测是否存在差异。 由于n>30,属于大样本,应采用Z检验。由于这是检验来自两个不同总体的两个样本平均数,看它们各自代表的总体的差异是否显着,所以采用双总体的Z 检验方法。 计算前测Z的值 = ∵=<

统计功效和效应值(讲稿1)

统计功效与效应量 华中师范大学心理学院刘华山 一、统计功效(检验功效,效力,Power) 统计功效指某检验能够正确地拒绝一个错误的虚无假设的能力。用1-β表示。 或说:当总体实际上存在差异(备择假设H1为真),应该拒绝虚无假设时,正确地拒绝虚无假设的概率,或不犯β错误的概率。它表示某个检验探查出实际存在的差异,正确拒绝虚无假设的能力。在实验设计中,统计功效反映了假设检验能够正确侦查到真实的处理效应的能力。 ◆单总体检验 ◆α错误的解释 ◆β错误的解释 ◆统计功效1-β ◆决定统计功效的条件 统计功效的大小取决于四个条件: 1.两总体差异。当两总体实有差异越大,或处理效应越大,则假设检验的统计功效越大;(在α错误概率不变的情况下,1-β变大) 2.显著性标准α:也称显著性水平,是一个特定的值,一个决策标准。通过p与α的决策比较,作出统计决策。 而当假设H0是真实的时候,观察到的差异完全是由随机误差所致的概率称为观察概率p。 显著性标准α越大,则β错误越小,从而统计功效1-β越大;反之,α变小,1-β变小 3.检验的方向:当两总体差异一定,对于同样的显著性标准α,单侧检验比双侧检验的统计功效要大。 4.样本容量。样本容量越大,样本平均数分布的标准误越小,分布曲线越瘦削,统计功效越大。

二、效应量 (效应大小,Effect Size,ES ) 效应量,反映处理效应大小的度量。效应量表示两个总体分布的重叠程度。ES越大,表示两总体重叠的程度越小,效应越明显。其实,两样本平均数的差异本身就是一个效应量。由计算出的ES大小,可由专门的表格中查出两样本分布的重叠的百分比。故效应量经常用两总体重叠的程度为指标,重叠的部分百分比越大,效应量越小。或以两个样本不重叠的程度为指标,不重叠的部分百分比越大,效应量越大。 三、效应量检验的功能 1.效应量有助于我们判断统计上显著差异是否有实际的意义 已有统计显著性检验的条件下,检验效应大小的必要性: 统计显著性与实际显著性的区别:差异的统计显著性、相关的统计显著性只是告诉你在特定的条件下,这差异、这相关系数是存在的、并不是完全由抽样误差造成的,但并不意味着这差异有实际意义。统计量是否显著,是在一定条件下取得的,这条件与与上述统计功效的条件是一致的。也就是说差异是否显著受几个条件影响:一是实际差异的大小,或处理效应的大小(从t检验的待检验的统计量t的计算公式上可看出);二是要求的置信度1-α的大小(或说是指定的显著性水平);三是样本规模的大小,四是检验的方向。在降低对做结论的把握的要求、增大样本规模的条件下,一个完全没有实际意义的差异或处理效应可以取得统计显著的结果。 大样本比较容易获得统计显著性的结果,但这并不意味着差异是有意义的。例如如果有两个省的平均收入相差0.001元,由于样本规模达到几千万,这一微小差异在统计上一定是显著的。一个很容易的检测方法是在SPSS有关窗口下,将一套数据复制下来,再贴到原来的数据之后。这样以来,样本规模扩大了一倍。统计结果仍然保持原来的水平不变(数据的实际意义不变),但显著性水平得到了明显的提高。 由于样本容量影响显著性水平,故即使统计检验显著,仍然应检查有实际意义的有关指标,如典型相关系数的平方所代表的典型变量之间的共享方差比例到底有多大,以判断其有无实际意义。反过来,统计不显著时,也许是因为样本容量太小。此时典型相关系数的平方仍然可以提供信息,以判断是否值得收集更多

统计功效和效应值(讲稿1)

统计功效与效应量 华中师范大学心理学院 刘华山 一、统计功效(检验功效,效力,Power ) 统计功效指某检验能够正确地拒绝一个错误的虚无假设的能力。用1-β表示。 或说:当总体实际上存在差异(备择假设H 1为真),应该拒绝虚无假设时,正确地拒绝虚无假设的概率,或不犯β错误的概率 。它表示某个检验探查出实际存在的差异,正确拒绝虚无假设的能力。在实验设计中,统计功效反映了假设检验能够正确侦查到真实的处理效应的能力。 统计功效的大小取决于四个条件: 1.两总体差异。当两总体实有差异越大,或处理效应越大,则假设检验的统计功效越大;(在α错误概率不变的情况下,1-β变大) 2.显著性标准α:也称显著性水平,是一个特定的值,一个决策标准。通过p 与α的决策比较,作出统计决策。 而当假设H 0是真实的时候,观察到的差异完全是由随机误差所致的概率称为观察概率p 。 显著性标准α越大,则β错误越小,从而统计功效1-β越大;反之,α变小,1-β变小 3.检验的方向:当两总体差异一定,对于同样的显著性标准α,单侧检验比双侧检验的统计功效要大。 4.样本容量。样本容量越大,样本平均数分布的标准误越小,分布曲线越瘦削,统计功效越大。 ◆ 单总体检验 ◆ α错误的解释 ◆ β错误的解释 ◆ 统计功效1-β ◆ 决定统计功效的条件

二、效应量 (效应大小,Effect Size,ES ) 效应量,反映处理效应大小的度量。效应量表示两个总体分布的重叠程度。ES越大,表示两总体重叠的程度越小,效应越明显。其实,两样本平均数的差异本身就是一个效应量。由计算出的ES大小,可由专门的表格中查出两样本分布的重叠的百分比。故效应量经常用两总体重叠的程度为指标,重叠的部分百分比越大,效应量越小。或以两个样本不重叠的程度为指标,不重叠的部分百分比越大,效应量越大。 三、效应量检验的功能 1.效应量有助于我们判断统计上显著差异是否有实际的意义 已有统计显著性检验的条件下,检验效应大小的必要性: 统计显著性与实际显著性的区别:差异的统计显著性、相关的统计显著性只是告诉你在特定的条件下,这差异、这相关系数是存在的、并不是完全由抽样误差造成的,但并不意味着这差异有实际意义。统计量是否显著,是在一定条件下取得的,这条件与与上述统计功效的条件是一致的。也就是说差异是否显著受几个条件影响:一是实际差异的大小,或处理效应的大小(从t检验的待检验的统计量t的计算公式上可看出);二是要求的置信度1-α的大小(或说是指定的显著性水平);三是样本规模的大小,四是检验的方向。在降低对做结论的把握的要求、增大样本规模的条件下,一个完全没有实际意义的差异或处理效应可以取得统计显著的结果。 大样本比较容易获得统计显著性的结果,但这并不意味着差异是有意义的。例如如果有两个省的平均收入相差0.001元,由于样本规模达到几千万,这一微小差异在统计上一定是显著的。一个很容易的检测方法是在SPSS有关窗口下,将一套数据复制下来,再贴到原来的数据之后。这样以来,样本规模扩大了一倍。统计结果仍然保持原来的水平不变(数据的实际意义不变),但显著性水平得到了明显的提高。 由于样本容量影响显著性水平,故即使统计检验显著,仍然应检查有实际意义的有关指标,如典型相关系数的平方所代表的典型变量之间的共享方差比例到底有多大,以判断其有无实际意义。反过来,统计不显著时,也许是因为样本容量太小。此时典型相关系数的平方仍然可以提供信息,以判断是否值得收集更多

如何计算F检验中效应量的置信区间

如何计算F检验中效应量的置信区间?Leave a reply 在心理学的论文中,p值似乎已经越来越不受待见,而比较推荐的方法是报告效应量以及其置信区间(Confidence Intervals, CI)。 说起来容易,但真要推广起来,效应却不太好,因为置信区间在心理学界长期受到忽视,并没有太多现成的方法可供选择。但毕竟还有一两位可以称为业界良心的研究者,已经做出一些相对来说可以使用的工具。其中简单粗暴的一款是由Smithson (2001)年提供的脚本程序。 不说原理,只说如何操作。 首先,下载到适合自己的脚本文件。点击这里,到Smithson的个人网站上寻找自己合适的文件下载。如果是心理学专业背景的,那么SPSS脚本是比较适合的。可以选择下载如下三个文件: NoncF.sav ——输入数据的文件 NoncF3.SPS ——计算CI的语法脚本 F2R2.SPS ——进行转换的语法脚本 然后,打开NoncF.sav,出现输入数据的界面: 其中,需要输入的变量有四个: fval —— F检验中的F值; df1 —— F检验中第一个自由度; df2 —— F检验中的第二个自由度; conf ——将置信区间设定为多少,通常是90%; 输入这四个变量之后,将NoncF3.SPS打开,在语法栏里将所有的代码选中,然后点击“run”,结果会址接出现在NoncF.sav文件中(即数据文件),如下图: 结果数据为:

R2 ——效应量,在ANOVA中相当于partial eta square; LR2 ——效应量90%CI的下限 UR2 ——效应量90%CI的上限; 报告R2的90%CI为[LR2 UR2]即可,至少在Lakens (2013)中是这样说的。 当然,其实t检验的效应量(Cohen’s d)也是要报告置信区间的,据说Geoff Cumming的ESCI 是一个不错的选择,待我学习一番之后,再来做个笔记。 参考文献: Lakens, D. (2013). Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs. Front Psychol., 4, 863. doi: 10.3389/fpsyg.2013.00863 Smithson, M. (2001). Correct Confidence Intervals for Various Regression Effect Sizes and Parameters: The Importance of Noncentral Distributions in Computing Intervals. Educational and Psychological Measurement, 61(4), 605-632. doi: 10.1177/00131640121971392

统计功效和效应值(学生用)

统计功效与效应大小 华中师范大学心理学院刘华山 一、统计功效(检验功效,效力,Power) 统计功效指某检验能够正确地拒绝一个错误的虚无假设的能力。用1-β表示。 或说:当总体实际上存在差异,应该拒绝虚无假设时,正确地拒绝虚无假设的概率,或不犯β错误的概率。它表示某个检验探查出实际存在的差异,正确拒绝虚无假设的能力。在实验设计中,统计功效反映了假设检验能够正确侦查到真实的处理效应的能力。 统计功效的大小取决于四个条件: 1.两总体差异。当两总体实有差异越大,或处理效应越大,则假设检验的统计功效越大; 2.显著性标准α。显著性标准α越大,则β错误越小,从而统计功效1-β越大;反之,α变小,1-β变小 3.检验的方向:当两总体差异一定,对于同样的显著性标准α,单侧检验比双侧检验的统计功效要大。 4.样本容量。样本容量越大,样本平均数分布的标准误越小,分布曲线越瘦削,统计功效越大。 二、效应量 (效应大小,Effect Size,ES ) 效应量,反映处理效应大小的度量。其实,两样本平均数的差异就是一个效应量。效应量表示两个总体分布的重叠程度。ES越大,表示两总体重叠的程度越小,效应越明显。由计算出的ES大小,可由专门的表格中查出两样本分布的

重叠的百分比。故效应量经常用两总体重叠的程度为指标,重叠的部分百分比越大,效应量越小。或以两个样本不重叠的程度为指标,不重叠的部分百分比越大,效应量越大。 三、效应量检验的功能 1.效应量有助于我们判断统计上显著差异是否有实际的意义 效应量检验,也就是要检验自变量作用的大小。它不同于差异显著性的检验。 统计显著性与实际显著性的区别:差异的统计显著性、相关的统计显著性只是告诉你在特定的条件下,这差异、这相关系数是存在的、并不是完全由抽样误差造成的,但并不意味着这差异有实际意义。大样本比较容易获得统计显著性的结果,但这并不意味着差异是有意义的。 2.有些效应量,主要是有相关意义的效应量,如相关系数,点二列相关系数的平方,,可以反映自变量解释因变量变异的百分比。 3.在同一个实验中,如果有几个自变量,可以根据效应量大小把自变量的重要性排序。 4.在元分析中,将各个不同的相关研究进行概括分析的基础便是各个不同研究的效应量(的合成)。 5.效果量的计算还为改进研究设计、提高检验能力提供了根据。 APA出版手册第五版要求报告差异检验结果时一般要报告ES值。 美国心理学会1994 年发出通知,要求公开发表的研究报告包含效应量的测定结果。当具有统计上的显著性后,一定要计算效应量, 看你进行的研究是否有价值。 四、效应量和统计功效 前述检验功效与两总体差异(或说处理效应大小)、样本容量、显著性水平、检验的方向性四个因素有关。可见,统计功效和效应量有关。统计功效受效应量的制约。在检验方向、样本容量、显著性水平固定的条件下,效应量与检验功效有对应关系。见下表。【独立样本】 表在0.05水平下假设检验的功效 样本容量效应大小

相关主题
文本预览
相关文档 最新文档