测验效度概念的新发展201305

格式：doc
大小：145.00 KB
文档页数：9

下载文档原格式

测验效度

理论建构概念或特质编制测验并实施效度高结果证明特性
3.适用范围：主要用于智力测验、人格测验等。 4.结构效度的确定方法： ①因素分析法：是确定心理特质的一种方法。通过对测验结果进行因素分析，寻找影响测验分数的公共因素。主因素分析法或方差极大法得到的因素负荷正好是各项目与公共因素的相关系数，有时也称因素负荷为因素效度。因素分析法的目的是把一些具有错综复杂关系的因素归结为数量较少的几个综合因素或称共同因素，并以此测验所测之特质对测验分数作出解释。
•0.13 •0.22
•第2 •因素
•0.54 •0.55
•3.你觉得现在的工作能充分体现你的价值。
•4.你做现在的工作时感到很高兴。 •5.你在现在的工作中能充分发挥你的创造力。 •6.你所在的单位团队精神很强。 •7.你在单位中能够畅所欲言。 •8.你在单位中和同事们一起工作时心情舒畅。 •9.你在单位中遇到难题时能无顾虑地请教别人。 •10单位里的同事们能重视自己的意见。
2
4
4
10
8假设检验
2
4
4
10
9方差分析 10非参数法项目数总计
4 3 25
3 3 30
1 3 25
2 1 30
10 10 100

表6-2 台湾地区某初中的统考内容
章节单元名称 1-1 因子与倍数 1-2 质因子分解 1-3 最大公因子与最小公倍数 2-1 2-2
分数的加法，分数的除法减法与乘法

第三节结构效度

1.结构效度（construct validity，也称建构效度) ：是指一个测验实际测到所要测量的理论结构和特质的程度。或测验分数能够说明教育与心理理论的某种结构或特质的程度。

测验的效度(新教材)

要求内容效度的测验，不一定要求测验为同质的。
• 测量单一心理特质的测验要求测验条目有高度的同质性 • 测量一组不同心理特质的成套量表，不要求各分测验之间具有同质性。
2018/11/27
6

（二）内容效度的评估方法
• 1、专家判断法
• 请有关专家对条目进行审定（逻辑效度） • 审定步骤
①定义测验总体范围，描述相关知识与技能及所用材料的来源。 ②编制双向细目表，确定各种内容所占比例，标出每个条目设计所测内容。（见表） ③制定一个相应的评定量表来评价效度，如测验包括的内容、技能、材料的重要程度、条目对内容的实用性等。请每位评定者对各方面进行评价，然后总合所有评定者的评价。
2
2018/11/27
测量的效度受随机误差和系统误差的影响

测验分数的总方差（SX2） =真实方差（ST2） +误差方差（ SE2 ）真实方差（ST2）=有关的方差（SV2有效方差） +无关但稳定方差（SI2系统误差） SX2 = SV2+ SI2+SE2 信度rxy2=有效方差SV2 /总方差SX22018/1 Nhomakorabea/27 9
（三）内容效度的特性

1、不是普遍适用，根据具体情况分析； 2、有时间上的特定性，适合过去总体的代表性测验，未必符合现在的总体。 3、不同类型的测验对表面效度的要求是不同的表面效度是由外行对测验做表面上的检查，不反映测验实际测量的东西，只是指测验表面上看来好象是测量所要测的东西。考虑题目与测量目的之间明显的、直接的关系。编制测验，表面效度是一个必须考虑的特性。
• 需要被试者在测验中尽最大努力的测验要求较高的表面效度 • 需要被试这尽可能按自己实际情况回答的测验要求较低的表面效度

测验的效度(新教材)课件

综合多种方法进行评估
结构效度的评估需要综合考虑多种方法，包括内容效度、校标关联效度和因子分析等，以获得全面的评估结果。
04
验证效度
验证效度的定义
验证效度
指测验在特定目的下对测量目标的代表性和准确性进行的评估。它反映了测验结果与实际目标之间的关联程度。
定义解释
效度评估旨在确保测验真正测量了所需测量的内容，并且所得结果与实际情境相符合。
性和可靠性。
因子分析
通过因子分析等方法，对测验的结构进行统计检验，判断测验是
否符合预期的结构模型。
结构效度的注意事项
明确测量目标和概念定义
在评估结构效度之前，需要清晰地定义测量目标和所测量的概念，以确保测验内容与测量目标的一致性。
考虑测验的适用性
评估结构效度时，需要考虑测验的适用范围和适用人群，以确定测验是否适用于特定的测量目的。
测验的效度(新教材)课件
contents
目录
• 测验效度的基本概念 • 内容效度 • 结构效度 • 验证效度 • 应用与实例
01
测验效度的基本概念
定义与意义
定义
测验效度指的是测验在多大程度上准确地测量了所要测量的特性与功能。
意义
测验效度是衡量测验质量的重要指标，对于评估个体的能力、选拔人才、诊断问题等具有重要意义。
的一致性。
在编制测验时，应尽量选择具有代表性的题目，并确保题目难度适中，以提高测验的内容效度。
在评估内容效度时，应综合考虑专家的意见和统计分析的结果，以确保评估的准确性和可靠性。
03
结构效度
结构效度的定义
结构效度是指测验在多大程度上能够测量出所要测量的理论结构和特质的程度。它关注的是测验内容与测量目标之间的对应关系。

测验的效度

測驗的效度
林陳涌國立台灣師範大學生物學系
信度…...

信度所關心的是測驗分數的一致性或穩定性。一個具有良好信度的測驗，使用在不同的主試者評分者時間情境或使用類似的問題，其所得的分數應該接近相同或一致。一般而言分數愈一致，受誤差的影響愈小。所以信度主要在說明測驗分數中測量誤差所佔的成分。
• 新編職業測驗目前工作成績 • 新編生物成就測驗在校生物月考成績

易於取得，故較易於考驗。此種效度可用來取代收集資料的複雜方法。
預測效度

指測驗分數與實施測驗後一段時間所取得的效標之間的相關，旨在使用測驗分數預測個人在效標方面的未來表現。
• 新編職業測驗 • 錄取後一段時間後的工作成績
效標關聯效度

以經驗性的方法，研究測驗分數與一些外在效標間的關係，故又可稱為經驗效度或統計效度。如果測驗分數和外在效標的相關愈高，表示測驗愈能有效預測外在效標。外在效標指測驗所要預測的某些行為或量數。學業性向測驗以學校的學業成績作為效標。同時效度與預測效度
同時效度

指測驗分數與實施測驗同一個時間所取得的效標之間的相關，旨在使用測驗分數估計個人在效標方面的目前實際表現。
多項特質--多項方法分析--獲得構
念效度證據的方法六

採用多項特質--多項方法分析的基本條件
• 必須有兩種以上的測量方法測量兩種以上的特質，其所測量的特質均一樣。

方法：M1. 人格量表 M2. 教師評定特質：A. 成就性 B. 社會性 C. 獨立性
多項特質—多項方法分析矩陣特質方法 1 方法 2 A1 B1 C1 A2 B2 C2 A1 (.77) M1 B1 .40 （.81） C1 .31 .29 （.92） A2 .59* .27 .11 （.71） M2 B2 .29 .63* .12 .37 （.78） C2 .18 .09 .68* .25 .18 （.83）（）中的數字為信度係素 * 為輻合性效度其餘為區別性效度相同方法相同特質: 信度相同方法不同特質: 區別性效度不同方法相同特質: 輻合性效度不同方法不同特質: 區別性效度

效度-基本概念、测量和解释

同时效度：诊断现状；预测效度：预测将来。
4、都是用简便的测验去预测个体行为，因此也成为效标预测效度。 5、效标污染：效标评定受到评定者知道测验分数的“污染”，即测验分数影响效标成绩。
效标污染会人为提高测验分数与效标之间的相关。
2012/5/28 效度：基本概念、测量和解释 16
6、效标度量一个测验有多少种具体用途，就可以根据多少种效标进行效度分析。评定任何情境中行为的任何方法，都为某种特定的目的提供一种效标度量。（1）智力测验的常用效标是学业成就。（2）能力倾向测验的常用效标是训练课程的成绩。
效度：基本概念、测量和解释
9
2、统计分析法（克伦巴赫相关法）（1）从统一教学内容总体中抽取两套独立的平行测验，用这两个测验来测同一批被试，求其相关。（2）若相关低，则两个测验中至少有一个缺乏内容效度；若相关高，则测验可能有较高的内容效度。
2012/5/28
效度：基本概念、测量和解释
10
（三）应用
1、内容效度能让我们回答教育成就测验效度的两个基本问题：（1）该测验覆盖了规定的知识和技能的代表性样本吗？（2）测验成绩不受无关变量影响吗？
2012/5/28
效度：基本概念、测量和解释
12
2、内容效度主要应用于成就测验（1）成就测验主要测量被试掌握某种技能或学习某门课程所达到的程度。题目取样的代表性是内容效度的主要考察方面。（2）使用语某些对员工进行选拔和分类的职业测验。（3）不适用于能力测验和人格测验。
效度：基本概念、测量和解释
18
（二）具体方法
1、相关法计算测验分数与效标测量之间的相关系数，包括积差相关、等级相关、二列相关、四分相关等。 2、区分法对照组、高分组&低分组 3、命中率

第4节测验的效度

中华心理学习网
官方总站：圣才学习网
（二）效度具有连续性 1．测验效度通常用相关系数表示，它只有程度上的不同，而没有“全有”或“全无”的区别。因此，我们评价一个测验时，不应该说“有效”或“无效”，而应该用效度较高或较低来评价。比如我们用尺子来测量人的腰围，从而衡量体重，一定程度上也是可以的。当然准确性会差些，即效度会较低，因为体重重的，一般腰围也粗些，可是有两个明显的干扰变量：身高和胖瘦。 2．效度是针对测验结果的。举个例子来说，当对某一儿童实施一套智力测验时，儿童的父母首先可能会提出“这个测验有效吗？”这样的问题。实际上，他们是在问“这个测验真的测得出智力吗？测验的结果真的代表了孩子的智力水平吗？”可以看出，测验的有效性是针对测验结果而言的，即测验效度是“测验结果”的有效性程度。
中华心理学习网
官方总站：圣才学习网
2．想编制有较高内容效度的心理测验：（1）首先要对所测量的心理特性有个明确的概念，并划定出哪些行为与这种心理特性有关，又较密切。这就需要通过查阅大量资料，观察及询问来发现究竟哪些行为是受这种心理特性所制约。例如要测定人的“忧虑性”，就要对忧虑性概念有个明确的内容范围，然后从临床观察、病人自述、医生笔记以及文献报道中了解到具有忧虑性的人具有哪些行为特点，并通过自己的观察及调查加以验证，从而明确编制测量人的“忧虑性”的测验。（2）其次，测验题目应是所界定的内容范围的代表性取样。有人在编制测验时不注意取样策略，哪方面内容编起来容易，哪方面题目就占较大比例，这样会影响测验的内容效度。为了防止此种情况的发生，必须对内容范围进行系统分析，将该范围区分细目，并且对每个细目作适当加权，然后再根据权数从每个细目中作随机取样，直到得到所需要的题目数。 3．需要说明的是，要求内容效度的测验，并不一定要求测验为同质的。例如智力测验通常包括了各种能力与技能，高度同质性的规定将不实际且不需要。在细目之内的高度同质性也许需要，但要求测验总体为同质就不必要了。然而，假使测验是用来测量某一心理特质时，则高度的同质性是需要的。

测验的效度

现在学习的是第29页，共35页
测验实施中的因素
• 主试的因素
是否遵从测验使用手册的各项规定；
指导语是否统一正确；
测验的时限是否一致；评分是否合理。
• 测验情境和时间间隔因素
测验与效标时间间隔是否过长；
场地的布置、材料的准备、测验场所有无噪音和其它干扰因素的影响；
• 被试影响因素兴趣、动机、情绪、态度和身心状况、健康状态以及是否充分合作与尽力而为、反应定势等。
• 假设X与Y呈直线相关，建立回归方程：
yˆabyxx
• 通过求解可知：
byxrx ysy/sx
aybyxx
• 把所求的a和b值代入回归方程，如果已知某人的测验分数(X)，便能对他的效标分数进行预测。
现在学习的是第24页，共35页
二、预测误差
• 如果我们知道测验的效度系数，我们就能预测真正的效标分数的范围。
(B)区分法 (D)失误法
现在学习的是第34页，共35页
• 要保证测验具有较高效度，测验本身的因素要做到( )。 (A)测验材料必须对整个内容具有代表性 (B)测题设计时应尽量避免容易引起误差的题型(如是非题) (C)测题难度要适中，具有较高的区分度 (D)测验长度要恰当，测题的排列应先易后
是通过实践来检验效度。如发展量表。
现在学习的是第7页，共35页
内容效度的特性
• 内容效度不具有普遍适用性，它具有内容范围的特定性和时间的特定性。
• 内容效度与表面效度既区别又联系。
评定主体不同：表面效度是靠外行的表面检查而确立的，它不反映测验实际测量的东西，内容效度是专家系统分析确立的。
• 区分效度法
两个构思不同的测验，其相关为区分效度，如果区分效度低，则构想效度高；如果区分效度高，则不一定证明构想效度高。

效度概念的演进、新进展及效度的估计方法

可编辑ppt
8
2.构想效度的六个方面
——Sam Messick的效度理论
在这阶段，作出突出贡献的是美国学者Sam Messick，他于 1989年提出的效度理论，极大地深化和推动了人们对效度概念的认识和理解。
Sam Messick认为，效度是一种总体性的、评价性的判断，代表了理论原理在多大程度上证明了由测验成绩所得解释的充分性和恰当性。将效度划分为多种类型的传统做法得到的效度是支离破碎的、不完整的，而且这种做法缺乏对测验成绩的价值内涵和社会后果的考虑。新的、一元的效度概念将这些方面统合起来组成一个更为全面的构想效度理论。
可编辑ppt
7
（三）第三阶段：效度是一元且多维的
时间： 20世纪70年代到现在
1.两大特点
①不同效度类型统合起来，逐渐形成一个统一而丰富的概念。效度只有一个，但证明效度的证据却可以来自很多方面，可以从内容、效标以及构想等多种渠道寻求支持。构想效度反映了效度概念最为本质的要求，其他效度都是统摄于其下的。它已经成为一个统合各方面效度证据的综合性概念。 ②对效度本身解释力的反思。泛泛地谈论某一测量工具的效度是不负责任的，因为效度指的是事实和理论对由测验分数所得解释的支持程度。被评估的是对测验成绩所作的解释，而不是测验本身。
时间：20世纪50年代之前主要代表人物：Hull Bingham Guilford Gu1Liksen。主要观点：相关即有效。 Bingham(1937 ):测验的成绩与采用其它客观方法进行度量所得结果之间的相关就是效度。 Guilford(1946):只要一个测验与某事物相关，那么对于该事物来说它就是有效的。
一方面，效度研究所包括的内容越来越丰富：从测验与效标之间的简单相关到多种效度类型，再到一元且多维的构想效度，现阶段的效度已经足以容纳所有可能为分数的解释提供支持的证据。

效度概念的演进、新进展及效度的估计方法-文档资料

2.构想效度的六个方面
——Sam Messick的效度理论
在这阶段，作出突出贡献的是美国学者Sam Messick，他于
1989年提出的效度理论，极大地深化和推动了人们对效度概念的认识和理解。
Sam Messick认为，效度是一种总体性的、评价性的判断，
代表了理论原理在多大程度上证明了由测验成绩所得解释的充分性和恰当性。将效度划分为多种类型的传统做法得到的效度是支
1954年，美国心理学会《关于心理测验和诊断的技术建议》一书对当时流行的各种效度概念进行了归纳概括，列举了四种类型的效度: ①预测效度 ②同时效度 ③构想效度 ④内容效度 1966年，美国心理学会、美国教育研究学会和国家教育测量委员会联合出版的《教育与心理测验的标准和指南》中，将效度类型进一步简化为： ①效标关联效度 ②构想效度 ③内容效度该阶段的特点：出现了各种与特定测验目的相联系的效度类型。特点：美中效度都与特定的目的相联系——人们普遍认为，不同的测验有不同的效度要求，比如成就测验更重视内容效度，能力测验强调效标关联效度，而人格测验则突出构想效度等。
（二）第二阶段：效度有多种类型
时间：20世纪50年代到70年代。不同的学者针对不同性质的测验或测验过程的不同方面，提出了效度的多种类型。 1.内容效度测验最早用途，是评定个体在指定的内容领内容与测验所要评定的内容领域相比较。 2.效标效度测验发展到第二阶段，重点转向预测。现在或将来某个时候，不同的个体在一定的情境中会怎样反应?同一个体在不同的指定情境中又会怎样反应? 3.结构效度测验发展到第三阶段，出现两种主要趋向:(1)加强理论研究;(2)心理学理论与通过经验和实验的假设检验之间密切联系。这两种趋向使人们认识到结构在描述和理解人类行为中的重要性，测验的编制必须考虑结构效度。

心理测量学第五章测验效度

（四）系统比较

评价内容效度最常用的方法是由有关专家对测验题目与测验所涉及的内容总体的符合性进行判断，即定性的方法，而不是定量的方法。将测验所涉及的内容总体进行细分，由专家们对各个部分进行系统比较，可以大大地提高这种定性判断的准确性。
第三节
效标关联效度
一、效标和效标关联效度二、效标关联效度的计算三、影响效标关联效度的因素
例1 为了考察高等教育自学考试数学试卷的效度，有关单位在自学高考的高等数学考试之后，请30名考生参加了某重点大学的高等数学结业考试。这些考生在两次考试上的成绩如下表。计算自学高考数学试卷成绩与普通大学数学考试成绩之间的相关系数：见附件1
例2 某工厂考虑采用一项考试作为招收工人的依据。为了检验这项考试的效度，对20名新工人施测考试之后，让他们工作了一年，并根据其工作各方面表现进行综合评定。这20 名工人的考试成绩和工作评定成绩如表。见附件2
正确录取人数 A Ppc 录取总人数 A B
５．预测误差效度系数反映了预测的的误差范围，预测误差的大小称为估计的标准误，即
2 SE S Y 1 rXY
标准误差是误差分数（ E Yˆ Y ）的分布的标准差，真正的效标分数Y有95%的可能在估 ˆ 计的效标 Y 增减1.96个标准误的范围之内，即
ˆ ˆ Y 1.96SE Y Y 1.96SE
2 YX 2 Y

rXY
S
2 YX
S
2 Y
=效度系数 =由测验所决定的效标分数方差 =效标分数方差
对于例1，我们可以认为，由于
r
2 XY
=
（0.882）2=0.78，所以，数学成绩的方差的78%可以用测验分数来解释。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

测验效度概念的新发展谢小庆（北京语言大学）摘要：在1985年《教育与心理测验标准》（第5版）出版之前，效度研究的核心概念是“效标（criterion）”。

效度研究被视为一种用“效标”对测验的效度进行证明（verify）的过程，效度研究被视为一种对测验分数做出有效（valid）解释的过程。

在1985年以后，效度研究的核心概念是“证据（evidence）”。

效度研究被视为一种通过积累证据对测验的效度进行支持（support）的过程，效度研究被视为一种对测验分数做出合理（reasonable）解释的过程。

关于效度的这种理解，突出地体现在1999年出版的《教育与心理测验标准》（第6版）中。

美国教育协会和美国国家教育测量学会共同组织编写的《教育测量》在业内被称为是“测量领域的《圣经》”。

在2006年《教育测量》（第4版）出版以后，效度研究的核心概念变为“理由（warrant）”。

效度研究被视为一种通过构造“理由系统”和“理由网络”对效度所进行的“论证（argument）”，效度研究被视为一种对测验分数做出可接受的（plausible）解释的过程。

本文结合作者在考试实践中的一些体会，介绍了效度概念的新发展。

关键词：测验考试效度考试是一把尺子，被用来测量应考者的能力。

这把尺子本身可能存在质量问题。

只有达到质量标准的考试才能被应用。

效度是刻画考试质量的最重要指标，它反映了考试在多大程度上实现了考试目的。

在美国教育研究协会（American Educational Research Association，AERA）、美国心理学会（American Psychological Association，APA）和美国国家教育测量学会（National Council on Measurement in Education，NCME）共同制定的《教育与心理测验标准（Standards for Educational and Psychological Testing）》[1][2]和美国教育协会（American Council on Education）和美国国家教育测量学会共同组织编写的、被人们称为“教育测量领域的《圣经》”的《教育测量（Educational Measurement）》[3][4]中，首先讨论的都是考试的效度问题。

一、效度概念的历史演变考试是一把尺子。

这把尺子的准确性，需要靠另一把尺子来检验。

这“另一把尺子”，就是“效标（criterion）”，或“标准”。

在招生名额有限的情况下，当我们准备将一项测验（如手指速度测验或注意力测验）作为“打字员培训班”的招生考试时，我们可以对这项测验的有效性进行检验。

我们可以计算经过一个月培训后的学员的打字速度与测验分数之间的相关。

如果存在显著的相关，我们可以说这项测验是有效的。

这时，经过一个月培训后的打字速度就是“效标”。

早期的效度研究是围绕“效标”展开的。

例如，作为美国高考的《学术评估测验（SAT）》的主要效标是大学第一年各科考试成绩的平均，英语TOEFL考试的效标是英语教师对学生英语水平的评价，汉语水平考试（HSK）的效标是汉语教师对学生汉语水平的评价。

在教育部考试中心的资助下，笔者曾经进行过一次关于语文高考的效度研究，采用了4种效标：高中成绩，高中任课教师对学生语文水平的评价，高中同学之间的互相评价，大学第一学年的各科成绩平均。

[8]受国家公务员局委托，笔者曾经对若干年的中央机关公务员录用考试进行效度研究。

研究所采用的最主要效标是考生的学历，划分为大专、本科、硕士、博士等几个等级。

大学中由任课教师命题的、监管并不严格的课程考试成绩真的比顶尖专家命题的、严格监管的高考成绩更可信吗？真的可以被作为效标去检验高考成绩吗？如果以“学历”作为效标来检验公务员录用考试的成绩，高学历就一定是高能力吗？为什么不直接根据学历来录用公务员呢？“效标”被用来对考试的质量进行检验。

在许多情况下，这些效标很容易受到质疑。

心理测量学家们发现，“效标”只能在很有限的领域内为测验提供有说服力的效度检验，更多的情况下则是捉襟见肘，难以自圆其说。

于是，他们尝试着为“效标”配备了两个助手，一个的名字叫“内容（content）”，另一个的名字叫“构念（construct）”。

在可疑的“效标”显然靠不住的时候，心理测量学家说，测验可以是特定知识内容总体的一个代表性样本。

只要我能够证明我编制的测验是特定知识内容总体的具有代表性的样本，我就可以说我的测验是有效的，说它具有“内容效度（content validity）”。

例如，高考语文考试可以是中学语文教学内容总体的一个代表性样本。

“内容效度”面临双重挑战。

首先，我需要证明我编的高考语文试卷是中学语文教学内容总体的一个代表性样本。

这并不容易。

“中学语文教学内容总体”本身就是一个充满争议的话题。

关于什么是“语文”，1949年以来已经争论了60多年。

基本观点有4种。

一是语言和文字。

二是语言和文学。

“唐初四杰”是哪几人？《过秦论》的作者是谁？《红楼梦》的主题思想是什么？《阿Q正传》的主题思想是什么？《小桔灯》采用的是什么描写手法？这些，属于文学问题，不属于语言和文字的范围。

三是语言和文化。

中国人结婚穿红而不穿白，中国人责“无后”为“不孝之最”，这些属于中华文化。

四是语言和人文。

礼义廉耻，仁义礼智信，这些属于“人文”。

根据“语言和人文”的观点，语文还应该包含教化，包含品德教育，包含价值观。

语文界的前辈叶圣陶、吕叔湘、张志公等，基本持“语言和文字”的看法。

今天，在我国语文教学界最有影响的一批权威人物则持“语言和人文”的看法。

“总体”的边界都不清楚，怎么证明你编的测验是具有代表性的样本？其次，即使我能够证明我的测验是具有代表性的样本，我还需要继续证明那些掌握了“中学语文教学内容总体”的考生更有可能在包括数学系、物理系、生物系在内的大学学习中具有优势。

近年来，人们常常提到“钱学森之问”，追问“为什么中国的大学培养不出杰出人才”。

我还需要继续证明，我编制的作为“中学语文教学内容总体”代表性样本的语文高考试卷，确实可以向那些潜在的“杰出人才”倾斜。

显然，这是比证明我的试卷具有取样代表性更困难的任务。

当主将“效标”和助手“内容”都招架不住的时候，心理测量学家就只好以另一个助手“构念”来搪塞。

他说，虽然我无法证明我的考试具有“效标关联效度”和“内容效度”，但我的考试具有“构念效度”。

“构念效度”成了一个“筐”，所有无法得到效度证明的考试都可以往里面装。

据说，“语文能力”是一个“构念”，这个“构念”可以用考试来界定，这些界定“构念”的考试具有“构念效度”。

关于“构念效度”虚弱的逻辑基础和循环论证，讨论的文章已经很多，不再赘述。

正是由于认识到原有效度概念框架的脆弱，心理测量学家们开始尝试构造新的效度研究范式（Paradigm）。

这种努力，体现在1985出版的《教育与心理测验标准（第5版）》[1]中，在1989年出版（1993年修订）的《教育测量（第3版）》[4]和1999年出版的《教育与心理测验标准（第6版）》[2]中，得到比较完整地阐述。

在新的研究范式中，不再将效度划分为效标关联效度、内容效度和构念效度。

“构念”被用来定义效度概念。

“构念”被定义为：“测验所要测量的概念或特性（the concept or the characteristic that a test is designed to measure）”。

（AERA，1999，第173页）。

所谓效度，就是测验对构念进行测量的有效程度。

从此，“构念效度（construct validity）”这一短语对于效度来讲已经成为多余（redundant）”。

（AERA，1999，第174页）。

随着“构念效度”退出历史舞台，“构念”走到了舞台的中心。

在新的研究范式中，“证据（evidence）”取代效标成为效度研究的核心概念。

效度研究被视为一种通过积累“证据”对测验的效度提供支持（support）的过程，效度研究被视为一种对测验分数做出合理（reasonable）解释的过程。

在《教育与心理测验标准（第6版）》中，提出了支持考试效度的5个方面的证据：基于内容的证据(evidence based on content)；基于反应过程的证据(evidence based on response processes)；基于内部结构的证据(evidence based on internal structure)；基于与其他变量之间关系的证据(evidence based on relations to other variables)；基于测验结果的证据(evidence based on consequences of testing)。

[2][9]这时，效度研究的逻辑是，虽然我不能“证明”我的考试是有效的，但我可以用尽可能多的“证据”去支持我的考试。

尽管我不能确认某项考试一定有效，但我可以从互相竞争的考试中选择得到更多证据支持的考试，我可以根据效度研究结果做出合理的选择。

在2006年出版的《教育测量（第4版）》中，将这种效度研究范式称为基于构念效度研究之上的“一元化效度模型（construct validation as the basis for a unified model of validity）”。

（Brennan，2006，第21页）在考试实践中，这种效度研究范式继续受到挑战，继续遭到质疑。

人们发现，仅仅靠作为证据的“事实（fact）”或“可观察行为（observable behavior）”并不足以对测验效度提供足够的支持。

只有当“证据”与一些预设的“假设”结合在一起时，才能对测验提供支持。

在考试领域中的一个重要的效度研究案例是美国教育测验服务中心（ETS）关于客观性选择题和主观性作文题的比较研究。

选择题能否被用于考查写作能力？上世纪50年代初，在美国语文教学界曾经存在激烈的争论。

为此，ETS从1954到1957年进行了一项长达3年的实证研究。

ETS对《英文写作水平考试》（English Composition Achievement Test ，简称ECT，全部是选择题）、《普通写作测验》（General Composition Test，简称GCT ，两小时的作文考试）和《学习能力倾向测验》（Scholastic Aptitude Test，简称SAT，）的言语部分（全部是选择题）等三个考试进行了比较研究。

采用的效标是语文教师对学生作文水平一年或一年以上的观察结论。

1957年，ETS公布了他们的研究成果：SAT的效度最高，与语文教师基于长期观察对学生写作能力做出的主观评价最一致。

测验效度概念的新发展201305

合集下载

测验效度

测验的效度(新教材)

测验的效度(新教材)课件

测验的效度

效度-基本概念、测量和解释

第4节测验的效度

测验的效度

效度概念的演进、新进展及效度的估计方法

效度概念的演进、新进展及效度的估计方法-文档资料

心理测量学第五章测验效度

文档推荐

最新文档

测验效度概念的新发展201305

合集下载

测验效度

测验的效度(新教材)

测验的效度(新教材)课件

测验的效度

效度-基本概念、测量和解释

第4节 测验的效度

测验的效度

效度概念的演进、新进展及效度的估计方法

效度概念的演进、新进展及效度的估计方法-文档资料

心理测量学 第五章 测验效度

文档推荐

最新文档

第4节测验的效度

心理测量学第五章测验效度