当前位置:文档之家› 统计功效和效应值(讲稿1)

统计功效和效应值(讲稿1)

统计功效和效应值(讲稿1)
统计功效和效应值(讲稿1)

统计功效与效应量

华中师范大学心理学院 刘华山

一、统计功效(检验功效,效力,Power )

统计功效指某检验能够正确地拒绝一个错误的虚无假设的能力。用1-β表示。 或说:当总体实际上存在差异(备择假设H 1为真),应该拒绝虚无假设时,正确地拒绝虚无假设的概率,或不犯β错误的概率 。它表示某个检验探查出实际存在的差异,正确拒绝虚无假设的能力。在实验设计中,统计功效反映了假设检验能够正确侦查到真实的处理效应的能力。

统计功效的大小取决于四个条件:

1.两总体差异。当两总体实有差异越大,或处理效应越大,则假设检验的统计功效越大;(在α错误概率不变的情况下,1-β变大)

2.显著性标准α:也称显著性水平,是一个特定的值,一个决策标准。通过p 与α的决策比较,作出统计决策。

而当假设H 0是真实的时候,观察到的差异完全是由随机误差所致的概率称为观察概率p 。

显著性标准α越大,则β错误越小,从而统计功效1-β越大;反之,α变小,1-β变小

3.检验的方向:当两总体差异一定,对于同样的显著性标准α,单侧检验比双侧检验的统计功效要大。

4.样本容量。样本容量越大,样本平均数分布的标准误越小,分布曲线越瘦削,统计功效越大。

◆ 单总体检验

◆ α错误的解释 ◆ β错误的解释 ◆ 统计功效1-β

◆ 决定统计功效的条件

二、效应量 (效应大小,Effect Size,ES )

效应量,反映处理效应大小的度量。效应量表示两个总体分布的重叠程度。ES越大,表示两总体重叠的程度越小,效应越明显。其实,两样本平均数的差异本身就是一个效应量。由计算出的ES大小,可由专门的表格中查出两样本分布的重叠的百分比。故效应量经常用两总体重叠的程度为指标,重叠的部分百分比越大,效应量越小。或以两个样本不重叠的程度为指标,不重叠的部分百分比越大,效应量越大。

三、效应量检验的功能

1.效应量有助于我们判断统计上显著差异是否有实际的意义

已有统计显著性检验的条件下,检验效应大小的必要性:

统计显著性与实际显著性的区别:差异的统计显著性、相关的统计显著性只是告诉你在特定的条件下,这差异、这相关系数是存在的、并不是完全由抽样误差造成的,但并不意味着这差异有实际意义。统计量是否显著,是在一定条件下取得的,这条件与与上述统计功效的条件是一致的。也就是说差异是否显著受几个条件影响:一是实际差异的大小,或处理效应的大小(从t检验的待检验的统计量t的计算公式上可看出);二是要求的置信度1-α的大小(或说是指定的显著性水平);三是样本规模的大小,四是检验的方向。在降低对做结论的把握的要求、增大样本规模的条件下,一个完全没有实际意义的差异或处理效应可以取得统计显著的结果。

大样本比较容易获得统计显著性的结果,但这并不意味着差异是有意义的。例如如果有两个省的平均收入相差0.001元,由于样本规模达到几千万,这一微小差异在统计上一定是显著的。一个很容易的检测方法是在SPSS有关窗口下,将一套数据复制下来,再贴到原来的数据之后。这样以来,样本规模扩大了一倍。统计结果仍然保持原来的水平不变(数据的实际意义不变),但显著性水平得到了明显的提高。

由于样本容量影响显著性水平,故即使统计检验显著,仍然应检查有实际意义的有关指标,如典型相关系数的平方所代表的典型变量之间的共享方差比例到底有多大,以判断其有无实际意义。反过来,统计不显著时,也许是因为样本容量太小。此时典型相关系数的平方仍然可以提供信息,以判断是否值得收集更多

案例来重新进行分析。

2.在元分析中,将各个不同的相关研究进行概括分析的基础便是各个不同研究的效应量(的合成)。由于同类研究的各个具体研究的设计、因变量、数据收集方法、所用工具、样本容量很不相同,如何加以整合,以作出一个概化的结论呢?格拉斯(Glass,1976)提出以效应量作为估计值。

APA出版手册第五版要求报告差异检验结果时一般要报告SE值。

四、效应量和统计功效

前述统计功效与两总体差异(或说处理效应大小)、样本容量、显著性水平、检验的方向性四个因素有关。而两总体差异大小与两样本分布的重叠有关。效应量恰恰表示两个总体分布的重叠程度。可见,效应量和统计功效有关。统计功效受效应量的制约。在检验方向、样本容量、显著性水平固定的条件下,效应量与统计功效有对应关系。见下表。【独立样本】

表1 在0.05水平下假设检验的统计功效

样本容量

效应大小

0.2 0.5 0.8

单尾10 0.11 0.29 0.53

20 0.15 0.46 0.80

30 0.19 0.61 0.92

40 0.22 0.72 0.97

50 0.26 0.80 0.99

100 0.41 0.97 1.00

双尾10 0.07 0.18 0.39

20 0.09 0.33 0.69

30 0.12 0.47 0.86

40 0.14 0.60 0.94

50 0.17 0.70 0.94

100 0.29 0.94 1.00

【此表反映了决定统计功效的几个因素:检验方向、样本规模、显著性水平、

差异大小(效应量)。】表中上栏中的3个数字为效应量,下栏对应的3列各数字为统计功效。从中可看出,在相同情况下(相同的检验方向、相同的样本容量,显著性水平),效应量越大,统计功效越高。其他项相同的条件下,样本容量越大,检验功效越高;其他项相同的条件下,单尾检验比双尾检验统计功效高。实际上当效应量较小时,而计算出的1-β越大,说明统计功效很高,即较小的效应量是对统计功效的严格检验。

五、独立样本t 检验的效应大小

中,E .11除121-22112

12

122

1而是标准误公式本分布的标准误不是两平均数之差的样注意:是一限制。

因为平均数对样本数据——,其中即

以两样本自由度之和,本离差平方和之和即两样算术平方根,合成方差是两个样本合成方差的,而—X X p p p P

S S n df ,n df df df ss ss S S S X X ES .==++=

=

的一部分。即公式

部分的平方根。

———中的

————2

)1()1(2

)11(2)1()1(2122

2211212

1212

22211n n s

n s n n n df n n n n s n s n SE DX +++=+++=

即2

)1()1(212

2

2211———n n s n s n ++

上述效应量公式等价于

2

n n ss ss X X SE 21212

1-++-=

此公式的含义是以两样本平均数的差异用两样本的联合方差的平方根(联合标准差)去度量所得的量数,作为效应量的指标。【也应是Cohen ’s d 的一种?】

从本公式中可看出:t 检验公式中的),n ,n (n n n n )n n (

时2当11

1212

12121≥≤+=+其作用是:当样本容量越大时,)n n (

2

11

1+越小,t 越大,差异越显著。现在求S p

公式中去掉了)n n (

2

11

1+因子,

等于是惩罚了大样本,消除了在效应量小的条件下,仅仅由于样本容量大而造成差异显著性高的情况。

例:在大学一年级新生中选取10名双性化学生和20名非双性化学生,对他们施测自尊量表。10名双性化学生得分的平均数为,251=X 离差平方和SS 1=670;20名非双性化学生得分的平均数为,182=X 离差平方和SS 2=1010。问两组平均数有无差异?(设α=0.01)

已知,251=X SS 1=670; ,182=X SS 2=1010,则

60

19

91010

670,240.116

.5344

.7416.531

201010

4474110670212122

1

22221121=++=df +df SS +SS =

S <==

S S =

==df SS =S ,.==df SS =

S p 成方差为方差齐性,可以求合根据拇指原则,可以认进行方差齐性检验,得——22

平均数差异的样本分布的标准误为

所以无显著差异。--763.233.23

18253)20

1

101(60)11()28(201.021212=t <==SE X X =

t =+×=n +n S =SE p X D

求效应量

%8.44,90.060

18

2521叠部分只有查表可知两样本分布重--===

p S X X ES 这说明由双性化与非双性化造成的差异还是较大的。 2.Cohen's d ⑴指标1

2

S S X X d 22

2

1

2

1+-=

的方差

21样本、S S 的平均数

21样本、X

X 22

212

1,,--

即求效应量不用两样本的合成方差的算术平方根,而是用两样本方差的平均数的算术平方根。

(2)指标2

t-t 检验值 df-检验自由度 当21n n =时,变为

2 221-,n n df df

t d +==

此公式适用于提供了统计量t 的情况。 此式可以变形为

2

1212

1n n ss ss X X d ++-=

这与前述第一公式只有小的差异。(本公式分母中少了“减2”)

Cohen(1988)定义d 效应大小标准(解释) 解释一 d=0.2 小 d=0.5 中 d=0.8 大

解释二:用两个总体分布的重叠程度来解释

附表 Cohen ’s d 与两个样本分布的不重叠部分百分比

Cohen 的标准

效应量 Percentile Standing 不重叠部分百分比(%)

2.0 97.7 81.1 1.9 97.1 79.4 1.8 96.4 77.4 1.7 95.5 75.4 1.6 94.5 7

3.1 1.5 93.3 70.7

1.4

91.9

68.1

()2

121n n df n n t d +=

1.3 90.0 65.3

1.2 88 6

2.2

1.1 86 58.9

1.0 84 55.4

0.9 82 51.6

大0.8 79 47.4

0.7 76 43.0

0.6 73 38.2

中等0.5 69 33.0

0.4 66 27.4

0.3 62 21.3

小0.2 58 14.7

0.1 54 7.7

0.0 50 0.0

【尝试解释:0.7为效应量,其含义是两个分布的对称轴【均数】相差0.7个标准分数,计算这个标准分数的标准差是联合方差的平方根。或说是处理组的平均数在控制组中的位置。0.76指上表中的百分位(Percentile Standing)(Whai is the magnitude of d? The mean of treatment group is the___ percentile of the control group.),意为平均数大的样本的平均数在平均数小的样本分布中的百分位。含义

是,大的平均数压倒另一样本的76%个体的分数。图题OL%可能是重叠百分比,OL=Overlap.上表中最后一列为不重叠百分比(percent of overlap )】

3.Glass ’ estimator g ˊ

2

2

1S X X g -=

' 1X 为处理组的平均数,2X 为对照组平均数,2S 为对照组标准差。 本指标的使用范围同Cohen ′s d 指标。

Glass 认为:在几个不同处理均与控制组比较时,最好用控制组的标准差,这样就不会出现相同的均值因不同的标准差而出现不同的效应量.

(1)实验组与控制组的标准差相差不大时,可以用本公式。

(2)如果实验组与控制组的标准差相差较大,分母就要用实验组与控制组的联合方差的平方根来代换。

4.Hedges' ?

(1)指标1 ?

???

? ??-+-?-+-+--=

9n n 43

12

n n S 1n S 1n X X g 21212

222112

1)()()(? (2)指标2 g

within

MS X X g 2

1-=

分母根号内为两独立样本方差分析中的误差均方。见下例。

Cohen's =+-=

+-=

2

628

64558900412

S S X X d 2

2

22

21

2

1.....65 6541

589

0041MS X X within 21....g Hedges'=-=-=

六、相关样本t 检验的效应量

1.差。

是成对数据差值的标准均数,是成对数据的差值的平D D

S D S D

ES ,=

对照相关样本之差的检验的统计量,就知道S D 的含义。

n

S D t D =

同样,在检验方向、样本容量、显著性水平固定的条件下,效应量与统计功效有对应关系。一般说,统计功效、效应量、样本容量、显著性水平四个因素总是紧密关联的。它们还与检验方向有关。下表表明,当显著性水平一定时,效应量、统计功效、样本容量的变化方向是相同的。【相关样本,与前述表1不同】

表 统计效力、效应大小、样本容量的关系(α=0.05)

样本容量 效应大小

0.2 0.5 0.8 单尾 10 0.09 0.32 0.66 20 0.14 0.59 0.93 30 0.19 0.77 0.99 40 0.24 0.88 1.00 50 0.29 0.94 1.00 100 0.55 1.00 1.00 双尾 10 0.15 0.46 0.78 20 0.22 0.71 0.96 30 0.29 0.86 1.00 40 0.35 0.93 1.00 50 0.40 0.97 1.00

100

0.63

1.00

1.00

表中数字为统计功效。本表与上表格式完全相同,本表是适于相关样本的,前表是适于独立样本的。相关样本设计有更高的统计功效是可以理解的。本表中对应的统计功效都高于上表,只有单尾、效应量为0.2、样本容量10、20时,本表中的统计功效小于上表。

【2.指标公式

本公式与前述两独立样本t 检验的效应量公式相同。即Cohen's d 指标1

()

2

d S S X X 2

C 2E C

E +-=

本公式适用于实验组与控制组的标准差相差不大的时候;如果实验组与控制组的标准差相差较大,分母就要用实验组与控制组的联合方差代换。】

七、2χ检验的效应量 (一)2χ检验的效应量

1. Φ系数

类别变量的相关系数Φ系数也代表了效应大小。Φ系数(Φ相关系数)的计算公式是(适用于两列二分变量间的相关):

N

=Φ2

χ

2.d :适合结果变量为二分变量的两独立组比较。

3.Cramer ’s φ(适用于两列多分类变量) Cramer ’s ]11min[min min

2

--其中,C R =df df ×N =

Φ, χ

显然Φ系数是Cramer ’s φ的特例。后者就是Cramer 系数,或称克拉默系数V .是一种两个多分类变相关系数。

(二)效应大小的判定标准

当df min =1时,Φ=0.10表示低的效应;Φ=0.30表示中等的效应;Φ=0.50表示高的效应;

当df min =2时,Φ=0.07表示低的效应;Φ=0.21表示中等的效应;Φ=0.35表示高的效应;

当df min =3时,Φ=0.06表示低的效应;Φ=0.17表示中等的效应;Φ=0.29表示高的效应.。

八、回归或单因素方差中的效应值

1.Cohen's 2f

2R 为确定系数。根据总平方和等于回归平方和加误差平方和,得知:2f

R

R f 22

2

1-=2

2d φ-φ=

1

等于回归平方和与误差平方和之比。即

ESS

RSS y y y y f 22

=--=∑)?()( 适用领域为多元回归与单因素方差分析。Cohen's 2f is the appropriate effect size measure to use in the context of an F-test for ANOV A or multiple regression.

Cohen, 1988提出效应量大小标准。2f ≤0.02,小,0.02<2f <0.15中,2f >0.3,大。

九、逻辑斯蒂回归的效应量

Odds ratio (比值比,发生比之比,简写OR )

)

p (p )p (p OR 221111--=

在逻辑斯蒂回归中,Ω=)P (p -1称为发生比(odd )。比值比是两个组中某事件发生比之比,是自变量对因变量预测效应的效应量。

适于自变量、因变量两个变量均是二分变量的情况,它也是逻辑斯蒂回归的效应量。

比值比的单位与Cohen ’d 不一样,因此同样的取值不是等价的。(见“六”中“二分变量的两独立组比较”)

[example] suppose that in a sample of 100 men, 90 have drunk wine in the previous week, while in a sample of 100 women only 20 have drunk wine in the same period. The odds of a man drinking wine are 90 to 10, or 9:1, while the odds of a woman drinking wine are only 20 to 80, or 1:4 = 0.25:1. The odds ratio is thus 9/0.25, or 36, showing that men are much more likely to drink wine than women. Using the above formula for the calculation yields the same result:

而 前者比后者敏感。

362012

09019

0=--=....OR 5

.42.09

.0=

十、单因素方差分析的效应量与统计功效 (一)效应量的计算

1. Cohen ’s f=

n

F 其中F 为样本F 统计量的观测值,n 为每组样本容量。这个f 称为Cohen ’s f

2. Cohen's 2f

(已如前述)

【上二式中的f 有小的差异。对于单因素方差分析,在1式中

)

()

()()(k kn SS n kn SS 1n k SS n 1k SS n F f w B w B 2--=

--=

=】 (二)效应大小的判断

根据Cohen 的建议,f 小于0.1为小的效应;f 在0.25左右为中等效应;f 大于0.4属于大的效应。

例:一项实验欲研究阅读时间长短对儿童阅读能力的影响。将儿童随机分配到3种阅读条件下,第一组阅读时间为5分钟,第二组为15分钟,第3组为30分钟。两周后测量儿童的阅读能力,得分如下。

表 阅读测试得分表

第一组 第二组 第三组 (K=3)

10 15 10 14 20 12 (n=5)

12 17 6 8

8

12

11 15 10

i X 11

15

10

12=X t

方差分析结果为88.344.3)12,2(05.0=F <=F ,所以三组阅读测验平均分数无显著差异。

R

R f 22

2

1-=

计算效应量:f=

40.083.05

44.3>==n F , 可见,尽管方差分析的F 值不显著,效应分析却显示大的效应。【F 不显著是由于样本容量过小所致。】

(三)方差分析的统计功效

统计功效受效应量的制约,同时也受样本容量的影响。例如单因素方差分析中,有3组被试,每组10人时,当效应大小是0.25时,统计功效为0.20;而当每组为100人时,若效应大小不变(仍为0.25),则统计功效上升为0.98。可见当效应量不变时,每组人数增多时,统计功效增加。故已知效应大小和每组的人数,可以计算出统计功效值。不过计算公式非常复杂。以下是ANOV A 的效应量和统计功效的换算表。

换算表显示:对于相同的效应值,每组人数越多时,统计功效越高;当效应量、每组人数一定时,比较的组数越多,统计功效越高。【不过组数对统计功效影响好像不太大】

表 ANOV A 的效应量与统计功效换算表(1)(3组被试)

表 ANOV A 的效应量与统计功效换算表(2)(4组被试)

表 ANOV A 的效应量与统计功效换算表(3)(5组被试)

上三表中除标目栏的数字均为统计功效的值。

十一、方差分析中的效应量

【本点包括多因素方差分析的效应量】 (一)含义

方差分析中的效应量用以测量方差分析中处理效应(主效应、交互效应、线性比较等)的大小,它们可以被看作是自变量与处理效应之间的相关系数,它的平方可以解释为因变量总变异中各种效应的解释比例。

(二)方差分析常用的四种效应量 ①Eta squared ②partial Eta squared

③omega squared ④the Intraclass correlation ρΙ

2η、2p

η是样本关联程度的估计;,2

ω跨级相关(intraclass 2

η

2

p

η2

ω

correlation)

ρ是总体关联程度的估计。2pη可以在SPSS的GLM

I

-Options- display-Estimate of effect size.也可以用手工计算。

(三)四种效应量的计算

[Example] The measures of association will be calculated for the study of the effects of drive and reward on performance in an oddity task that was used as the example in the notes for a 2-way ANOVA.The analysis of variance table with the corresponding Eta squared scores for each effect is shown in Table 1.

从方差分析表中可看到

1.2η的计算 corrected

定义:2η等于某因素效应(平方和)在总平方和中所占比例。

2.2p η的计算

定义:2p η的等于某因素的效应(平方和)除以该平方和与误差平方和的和所得的商。

error

effect effect

2P SS SS SS +=

η

注:The reward by drive interaction was significant in this analysis, F (2,18)=3.927,p =.038。Using as the measure of effect size,the interaction between drive and reward

accounted

2

effect total

SS SS

η

=

2

p

η

for 24% 【0.236】of the total variability in the performance https://www.doczj.com/doc/853745833.html,ing 2

η as the measure of association, the interaction

p

between drive and reward accounted for 30% 【0.304】of the total variability in the performance score.

下图表示的是各部分效应的效应量2η。

【上图表示各种处理效应的2η的含义。2η不是多元回归的确定系数,因为一个多元回归方程只有一个确定系数。2η相当于假设只有该一个自变量时的一元回归方程的回归系数。不过这里的2η是方差分析中效应量的指标,而不是回归方程的问题。】

说明:某一效应的偏2η等于该效应的平方和除以该效应平方和与误差平方和的和所得的商。偏2η的含义,表明它好像就是偏确定系数。但实际与偏确定系数的含义有差别。计算某一效应的偏2η与计算偏确定系数时,对“误差”平方和的定义是一样的(下例中的300)。但对效应的平方和的计算是不一样的。在计算偏2η时,“(处理)效应的平方和”是真正的效应的平方和;计算处理效应的平方和时,如同其他效应不存在(或说忽略其他效应);而在计算偏确定系数时,某效应的平方和,实际是某效应的平方和减去它与其他效应的共同部分,或是1减去所有其他效应的平方和,这就是“偏”的含义。是某效应对因变量的

独特贡献。

3. ω2 的计算

4.跨级相关(Intraclass correlation )I ρ的计算

跨级相关是随机效应模型中总体自变量与因变量间相关程度的估计。 计算公式为:

十二、相关系数的效应量和统计功效 (一)相关系数的效应量

相关系数的效应量指标,就是相关系数本身。皮尔逊积差相关系数r 及点二列相关系数都是用得应用最为广泛的效应量之一。

根据Cohen 的规定(1988,1992),0.10~0.29是小的效应;0.30~0.49是中等效应;等于或大于0.50是大的效应量。

另一个刻划两变量间关系强度大小的是确定系数。

(二)相关系数的效应量与统计功效的换算

下表为积差相关系数的效应量与统计功效的换算表(双尾)

,当效应量很低

SS

MS MS df SS

error Total

error

effect

effect

+ω?-=

2

MS

df MS MS MS error

effect

effect

error

effect I

?ρ+-=

时(如r=0.10),即使被试达到100,统计功效也很低。可见相同的效应量对应的统计功效与样本容量有关。

表 积差相关系数的效应量与统计功效的换算表(双尾)

表中除标目栏外的数字都是统计功效的值。

十三、效应量的种类及其他 (一)标准化的和非标准化的

⑴标准化效应测量(一般文献效应量常指此)

标准化的效应量例如,相关系数r 、Cohen ’s d 、odds ratio 等。

标准化效应量用于研究变量单位对于读者没有内在涵义时;或者多个研究被进行合并研究以期作出普遍结论的时候,而这些研究中全部或部分用的是不同的测度或量表;

⑵非标准化效应测量

例如:组间均值原始数值之差;非标准化回归系数等。

如果测量单位在实际水平上具有意义时,则我们常偏于用非标准化的效应测量。

(二)利用样本统计量计算的,和不利用样本统计量计算出的

1.如果研究报告中没有报告统计量

例如当实验组与控制组的标准差相差不大时,有公式

对照组的标准差对照组因变量的平均值

—实验组因变量的平均值效应量=

当如果实验组与控制组的标准差相差较大,分母就要用实验组与控制组的联合方差代换。

10第十章效应量和统计检验力-刘红云版心理统计教材课后习题

练习题 1.什么叫效应值?它在实际研究中有何作用? 2.Cohen d值是如何表达的?在单样本t检验、独立样本t检验和相关样本t检验中,d值的公式是如何变化的? 3.统计量r2描述了什么?它在实际研究中有何作用? 4.从一个均值为40的正态总体中选择一个n=16的样本。对样本施测,处理后,评价处理效应的大小。 a.假设总体的标准差为8,计算Cohen d系数来评价一个样本均值为?x=42的样本的效应大小; b.假设总体的标准差为2,计算Cohen d系数来评价一个样本均值为?x=42的样本的效应大小; c.假设总体的标准差为8,计算Cohen d系数来评价一个样本均值为?x=48的样本的效应大小; d.假设总体的标准差为2,计算Cohen d系数来评价一个样本均值为?x=48的样本的效应大小; 5.五年级学生的阅读成绩测验形成了一个均值为60,标准差为10的正态分布。一个研究者想要评价一个新的阅读项目。他对五年级学生的样本进行这个项目的培训,然后测量他们的阅读成绩。 a.假设研究者使用了一个n=16的样本,得到的测验分数均值为?x=62。使用α=0.05的假设检验来确定项目是否有显著的作用。用Cohen d系数来测量效应大小; b.现在假设研究者使用了一个n=100的样本,得到的测验分数均值为?x=62。再使用假设检验来评价项目效果的显著性,计算Cohen d系数来测量效应大小; c.比较a和b得到的结果,解释样本大小怎样随机影响假设检验和Cohen d系数的。 6.从一个均值为100的总体中得到一个随机样本,对样本施测。处理后,样本均值为?x=104,样本方差为S2=400。 a.假定样本包括n=16名被试,计算Cohen d系数和r2测量处理效应大小; b.假定样本包括n=25名被试,计算Cohen d系数和r2测量处理效应大小; c.比较在a和b部分得到的结果,样本量是如何影响效应大小的? 7.下图是垂直一水平错觉的一个例子。尽管两条线是一样长的,垂直的线看起来更长。为了考察这个错觉,一个研究者准备了一个例子,这个例子中两条线都是10英尺长。给每个被试展示这个例子,告诉他们水平线有10英尺长,然后让他们估计垂直线的长度。一个n=25的样本,估计的平均值为?x=12.2英尺,标准差为S=1.00。 a.使用0.01水平的单侧假设检验证明样本中的个体显著高估了线段的真实长度。(注

统计功效和效应值(讲稿子1)

统计功效与效应量 华中师范大学心理学院 刘华山 一、统计功效(检验功效,效力,Power ) 统计功效指某检验能够正确地拒绝一个错误的虚无假设的能力。用1-β表示。 或说:当总体实际上存在差异(备择假设H 1为真),应该拒绝虚无假设时,正确地拒绝虚无假设的概率,或不犯β错误的概率 。它表示某个检验探查出实际存在的差异,正确拒绝虚无假设的能力。在实验设计中,统计功效反映了假设检验能够正确侦查到真实的处理效应的能力。 统计功效的大小取决于四个条件: 1.两总体差异。当两总体实有差异越大,或处理效应越大,则假设检验的统计功效越大;(在α错误概率不变的情况下,1-β变大) 2.显著性标准α:也称显著性水平,是一个特定的值,一个决策标准。通过p 与α的决策比较,作出统计决策。 而当假设H 0是真实的时候,观察到的差异完全是由随机误差所致的概率称为观察概率p 。 显著性标准α越大,则β错误越小,从而统计功效1-β越大;反之,α变小,1-β变小 3.检验的方向:当两总体差异一定,对于同样的显著性标准α,单侧检验比双侧检验的统计功效要大。 4.样本容量。样本容量越大,样本平均数分布的标准误越小,分布曲线越瘦 ◆ 单总体检验 ◆ α错误的解释 ◆ β错误的解释 ◆ 统计功效1-β ◆ 决定统计功效的条件

削,统计功效越大。 二、效应量 (效应大小,Effect Size,ES ) 效应量,反映处理效应大小的度量。效应量表示两个总体分布的重叠程度。ES越大,表示两总体重叠的程度越小,效应越明显。其实,两样本平均数的差异本身就是一个效应量。由计算出的ES大小,可由专门的表格中查出两样本分布的重叠的百分比。故效应量经常用两总体重叠的程度为指标,重叠的部分百分比越大,效应量越小。或以两个样本不重叠的程度为指标,不重叠的部分百分比越大,效应量越大。 三、效应量检验的功能 1.效应量有助于我们判断统计上显著差异是否有实际的意义 已有统计显著性检验的条件下,检验效应大小的必要性: 统计显著性与实际显著性的区别:差异的统计显著性、相关的统计显著性只是告诉你在特定的条件下,这差异、这相关系数是存在的、并不是完全由抽样误差造成的,但并不意味着这差异有实际意义。统计量是否显著,是在一定条件下取得的,这条件与与上述统计功效的条件是一致的。也就是说差异是否显著受几个条件影响:一是实际差异的大小,或处理效应的大小(从t检验的待检验的统计量t的计算公式上可看出);二是要求的置信度1-α的大小(或说是指定的显著性水平);三是样本规模的大小,四是检验的方向。在降低对做结论的把握的要求、增大样本规模的条件下,一个完全没有实际意义的差异或处理效应可以取得统计显著的结果。 大样本比较容易获得统计显著性的结果,但这并不意味着差异是有意义的。例如如果有两个省的平均收入相差0.001元,由于样本规模达到几千万,这一微小差异在统计上一定是显著的。一个很容易的检测方法是在SPSS有关窗口下,将一套数据复制下来,再贴到原来的数据之后。这样以来,样本规模扩大了一倍。统计结果仍然保持原来的水平不变(数据的实际意义不变),但显著性水平得到了明显的提高。 由于样本容量影响显著性水平,故即使统计检验显著,仍然应检查有实际意义的有关指标,如典型相关系数的平方所代表的典型变量之间的共享方差比例到底有多大,以判断其有无实际意义。反过来,统计不显著时,也许是因为样本容

功效和样本量

功效和样本量 一、概述: 使用Mini tab 的功效和样本数量功能在设计和运行试验之前(预期)或执行试验之后(回顾)评估功效和样本数量。 预期研究在收集数据之前使用以考虑设计敏感度。您要确保功效足够大,以检测出您确定为重要的差值(效应)。例如,您可以通过增大样本数量或采取措施降低错误方差来提高设计敏感度。 回顾研究在收集数据之后使用以帮助了解已执行的检验的功效。例如,假设您进行一项试验,但数据分析并未显示任何在统计意义上显著的结果。然后可以根据所希望检测到的最小差异(效应)计算功效。如果检测此差值的功效较低,则您可能要修改试验设计以提高功效并继续评估相同问题。但是,如果功效值较高,则您可能要断定不存在有意义的差值(效应),并停止试验。 什么是功效? 功效是当确实存在显著差值(效应)时能够将其认定的可能性。假设检验有四种可能的结果。结果取决于原假设(H。)为真还是假,以及您决定“否定”还是 “不能否定” H。。检验的功效就是当H。为假时正确地将其否定的概率。 这四种可能的结果总结如下: 原假设 决策直 /、假 不能否定H o正确决策类型II错误 p = 1p = 否定H o类型1错昔误正确决策 p =p = 1 当H。为真而却否定它时,就发生了类型I错误。发生类型I错误的概率(p)称为alpha (),有时称为检验的显著性水平。 当H。为假却没有否定它时,就发生了类型II错误。发生类型II错误的概率称为beta ()。 选择概率水平 当确定检验的和值的时候,应该考虑

发生错误的严重程度错误越严重,越希望少发生这种情况。因此, 应该向更严重的错误指定更小的概率值。 要检测的效应的量值功效是当H。为假时正确否定它的概率(p = 1 -)。理想状态下,您检测所关注的差值时要有高功效,检测没有意义的差值时要有低功效。 例如,假设您制造储存容器,并要评估一种潜在更耐高温的新型塑料。如果新型塑料将产品的平均熔点提高20°或更多,则这项支出就值得考虑。检验更多的样本可以增大检测出此类差异的机会,但是检验过多的样本会增加时间和费用,还可能检测到不重要的差异。您可以使用双样本t的功效和样本数量来估计检测具有足够功效的差值20。需要多少样本。 影响功效的因子 许多因子都影响功效: ,发生类型I错误的概率(也称为显著性水平)。当增大时,发生类型II错误()的概率减小。因此,当增大时,功效(等于1 ) 也随之增大。 ,总体的变异性(或试验变异性)。当减小时,功效也随之 减小。 效应的大小。当效应大小增大时,功效也随之增大。 样本数量。当样本数量增大时,功效也随之增大。 补充内容:估计标准误 对于“功效和样本数量”的计算,(总体标准差或试验变异性)的估计值取决 于您是否已经收集了数据。 预期研究在收集数据前进行,因此必须估计。您可以使用相关研究、初步研究或学科知识来估计。 回顾研究在数据收集后进行,因此可以使用数据估计。 对于单样本Z或单样本t,使用样本的标准差。

统计功效和效应值(讲稿1)

统计功效与效应量 华中师范大学心理学院刘华山 一、统计功效(检验功效,效力,Power) 统计功效指某检验能够正确地拒绝一个错误的虚无假设的能力。用1-β表示。 或说:当总体实际上存在差异(备择假设H1为真),应该拒绝虚无假设时,正确地拒绝虚无假设的概率,或不犯β错误的概率。它表示某个检验探查出实际存在的差异,正确拒绝虚无假设的能力。在实验设计中,统计功效反映了假设检验能够正确侦查到真实的处理效应的能力。 ◆单总体检验 ◆α错误的解释 ◆β错误的解释 ◆统计功效1-β ◆决定统计功效的条件 统计功效的大小取决于四个条件: 1.两总体差异。当两总体实有差异越大,或处理效应越大,则假设检验的统计功效越大;(在α错误概率不变的情况下,1-β变大) 2.显著性标准α:也称显著性水平,是一个特定的值,一个决策标准。通过p与α的决策比较,作出统计决策。 而当假设H0是真实的时候,观察到的差异完全是由随机误差所致的概率称为观察概率p。 显著性标准α越大,则β错误越小,从而统计功效1-β越大;反之,α变小,1-β变小 3.检验的方向:当两总体差异一定,对于同样的显著性标准α,单侧检验比双侧检验的统计功效要大。 4.样本容量。样本容量越大,样本平均数分布的标准误越小,分布曲线越瘦削,统计功效越大。

二、效应量 (效应大小,Effect Size,ES ) 效应量,反映处理效应大小的度量。效应量表示两个总体分布的重叠程度。ES越大,表示两总体重叠的程度越小,效应越明显。其实,两样本平均数的差异本身就是一个效应量。由计算出的ES大小,可由专门的表格中查出两样本分布的重叠的百分比。故效应量经常用两总体重叠的程度为指标,重叠的部分百分比越大,效应量越小。或以两个样本不重叠的程度为指标,不重叠的部分百分比越大,效应量越大。 三、效应量检验的功能 1.效应量有助于我们判断统计上显著差异是否有实际的意义 已有统计显著性检验的条件下,检验效应大小的必要性: 统计显著性与实际显著性的区别:差异的统计显著性、相关的统计显著性只是告诉你在特定的条件下,这差异、这相关系数是存在的、并不是完全由抽样误差造成的,但并不意味着这差异有实际意义。统计量是否显著,是在一定条件下取得的,这条件与与上述统计功效的条件是一致的。也就是说差异是否显著受几个条件影响:一是实际差异的大小,或处理效应的大小(从t检验的待检验的统计量t的计算公式上可看出);二是要求的置信度1-α的大小(或说是指定的显著性水平);三是样本规模的大小,四是检验的方向。在降低对做结论的把握的要求、增大样本规模的条件下,一个完全没有实际意义的差异或处理效应可以取得统计显著的结果。 大样本比较容易获得统计显著性的结果,但这并不意味着差异是有意义的。例如如果有两个省的平均收入相差0.001元,由于样本规模达到几千万,这一微小差异在统计上一定是显著的。一个很容易的检测方法是在SPSS有关窗口下,将一套数据复制下来,再贴到原来的数据之后。这样以来,样本规模扩大了一倍。统计结果仍然保持原来的水平不变(数据的实际意义不变),但显著性水平得到了明显的提高。 由于样本容量影响显著性水平,故即使统计检验显著,仍然应检查有实际意义的有关指标,如典型相关系数的平方所代表的典型变量之间的共享方差比例到底有多大,以判断其有无实际意义。反过来,统计不显著时,也许是因为样本容量太小。此时典型相关系数的平方仍然可以提供信息,以判断是否值得收集更多

第一讲 作用与作用效应

前言 一、本课程内容简介 结构的功能就是满足安全、适用和耐久,概括起来称为结构的可靠性。 结构的设计就是通过一定的设计方法确保结构在各种作用(荷载)作用下的可靠性。 本课程全面系统 地介绍了各种荷 载(作用)的概念 、原理和确定方 法;极限状态设 计法。 土木工程系黄林

二、教学内容与要求 本课程将讲授5章,其中第1到4章讲“作用”,第5章讲“设计方法”。 第1章作用与作用效应(了解)2节 第2章重力作用(熟悉)8节 第3章风荷载(熟悉)8节 第4章地震作用(熟悉)6节 第5章概率极限状态设计法(熟悉)6节 前言 土木工程系黄林 三、课程性质选修、考查 四、教学安排 第9到17周,共32学时 五、考试 本课程结束时进行 前言 六、参考资料 1.赵阳《荷载与结构设计方法》重庆大学出版社,2001 2.柳炳康《荷载与结构设计方法》武汉理工大学出版社,2003 3.建筑结构荷载规范GB50009-2012 4.公路桥涵设计通用规范JTG D60-2004 5.公路工程抗震规范JTG B02-2013 6.建筑抗震设计规范GB50011-2010 土木工程系黄林

第1讲作用与作用效应 本讲要点 1、作用与作用效应的概念 2、名词术语: 作用、作用效应、设计基准期、荷载(作用)标准值、荷载(作用)准永久值、荷载(作用)频遇值 为了您的美好前途,请认真听讲,谢谢!土木工程系黄林

1.1结构上的作用 结构:能承受作用并具有适当刚度 的由各连接部件有机结合而成的系 统,如桥梁结构、房屋建筑。 第1讲作用与作用效应 作用:施加在结构上的集中力或分布力和引起结构外加变形或约束变形的原因。 土木工程系黄林 第1讲作用与作用效应 1.1结构上的作用 1.按形式分类 直接作用:力;结构自重、车辆、人群、家具、设备等 间接作用:变形;砼收缩徐变、基础沉降、温度作用、地震等 2.按时间的变化分类 永久作用:不变或变化缓慢;结构自重、基础沉降可变作用:变化值不能忽略;车辆、人群、风荷载 偶然作用:出现时间不定,持续时间短但值很大;地震、船撞 3.按空间的变化分类 固定作用:空间位置固定;结构自重、固定设备荷载自由作用:空间位置不固定;车辆、人群4.按结构反应分类静态作用:结构加速度可忽略;结构自重、人群动态作用:结构加速度不能忽略;地震、车辆、风荷载(柔)土木工程系黄林士兵过桥 1849 法国 1906 沙皇俄国1831 英国

(完整版)统计功效和效应值(重要内容)

统计功效与效应大小 华中师范大学心理学院刘华山 一、统计功效(检验功效,效力,Power) 统计功效指某检验能够正确地拒绝一个错误的虚无假设的能力。用1-β表示。 或说:当总体实际上存在差异,应该拒绝虚无假设时,正确地拒绝虚无假设的概率,或不犯β错误的概率。在实验设计中,统计功效反映了假设检验能够正确侦查到真实的处理效应的能力。 统计功效的大小取决于四个条件: 1.两总体差异。 2.显著性标准α。 显著性标准α越大,则β错误越小,从而统计功效1-β越大。 3.检验的方向:当两总体差异一定,对于同样的显著性标准α,单侧检验比双侧检验的统计功效要大。 4.样本容量。样本容量越大,样本平均数分布的标准误越小,分布曲线越瘦削,统计功效越大。 二、效应量 (Effect Size,ES ) 效应量,反映处理效应大小的度量。其实,两样本平均数的差异就是一个效应量。效应量表示两个总体分布的重叠程度。ES越大,表示两总体重叠的程度越小,效应越明显。 三、效应量检验的功能 1.效应量有助于我们判断统计上显著差异是否有实际的意义。 2.有些效应量,如相关系数,点二列相关系数的平方r pb2,η2,可以反映自变量解释因变量变异的百分比。 3.在同一个实验中,如果有几个自变量,可以根据效应量大小对自变量的重 要性排序。 4.原分析的基础。在元分析中,将各个不同的相关研究进行概括分析的基础便是各个不同研究的效应量。

5. 效果量的计算还为改进研究设计、 提高检验能力提供了根据。 APA 出版手册第五版要求报告差异检验结果时一般要报告SE 值。 四、效应量和统计功效 前述检验功效与两总体差异(或说处理效应大小)、样本容量、显著性水平、检验的方向性四个因素有关。而两总体差异大小、两样本分布的重叠恰恰是与效应量有关的概念。可见,效应量和统计功效有关。统计功效受效应量的制约。在检验方向、样本容量、显著性水平固定的条件下,效应量与检验功效有对应关系。见下表。【独立样本】 表 在0.05水平下假设检验的功效 样本容量 效应大小 0.2 0.5 0.8 单尾 10 0.11 0.29 0.53 20 0.15 0.46 0.80 30 0.19 0.61 0.92 40 0.22 0.72 0.97 50 0.26 0.80 0.99 100 0.41 0.97 1.00 双尾 10 0.07 0.18 0.39 20 0.09 0.33 0.69 30 0.12 0.47 0.86 40 0.14 0.60 0.94 50 0.17 0.70 0.94 100 0.29 0.94 1.00 五、独立样本t 检验的效应大小 . 1,1除d s Cohen'.122112 12 122 1——,其中以两样本自由度之和 本离差平方和之和即两样算术平方根,合成方差是两个样本合成方差的,而—n df n df df df ss ss S S S X X p p P ==++= =

行业指南:暴露量-效应关系--研究设计、数据分析和注册申请(I)

发布日期20070620 栏目化药药物评价>>非临床安全性和有效性评价 标题行业指南:暴露量-效应关系--研究设计、数据分析和注册申请(I)作者王庆利审校 部门 正文内容 审评四部王庆利审校 行业指南 暴露量-效应关系——研究设计、数据分析和注册申请(I) 美国卫生与人类服务部 食品药品监督管理局 药品评审和研究中心(CDER) 生物制品评审和研究中心(CBER) 2003年4月 CP

目录 I.前言 II.背景 III.药物开发和注册申请 A.支持药物发现和开发过程的资料 B.支持确定安全性和疗效的资料 IV.剂量-浓度-效应关系和效应时间关系 A.剂量-时间关系和浓度-时间关系 B.浓度-效应关系:2种方法 V.暴露量-效应研究的设计 A.群体暴露量-效应关系与个体暴露量-效应关系的比较 B.暴露量-效应研究设计 C.测定全身暴露量 D.测量效应 VI.建立暴露量-效应关系模型 A.一般考虑 B.建立模型的策略 VII.申报资料:暴露量-效应研究报告 参考文献

附录A:相关指南 附录B:综合考虑了PK-PD的儿科研究决策树 I.前言 本文件向研究性新药(IND)申办者和新药申请(NDA)的申请者或生物制品许可证申请(BLA)的申请者,提供了暴露量-效应资料在药物(包括治疗性生物制品在内)开发中的应用方面的建议。可以将它和国际协调会议(ICH)E4关于“支持药物注册的剂量-效应资料”的指南和其他相关指南一起考虑(见附录A)。 本指南描述了(1)暴露量-效应研究在审批决定中的应用,(2)在暴露量-效应研究设计中为了保证资料有效需要考虑的重要问题,(3)在建立暴露量-效应模型的过程中进行前瞻性计划和数据分析的策略,(4)将暴露量-效应关系评价整合进药物开发的全部阶段,以及(5)暴露量-效应研究报告的格式和内容。 虽然本指南的目的不是要全面列出暴露量-效应关系可起到重要作用的所

相关主题
文本预览
相关文档 最新文档