项目反应理论简介
- 格式:doc
- 大小:28.50 KB
- 文档页数:7
项目反应理论的形成与基本理论假设项目反应理论(Item Response Theory, IRT)是针对测试和评价领域中的一种方法和理论,旨在解决测量数据分析过程中的一系列问题,如测验题目类型、人群不同表现和不同测量精度等等。
该理论由多位统计学家和心理学家共同发展而来,包括Lord和Novick(1968), Hambleton、Swaminathan和Rogers (1991), Kolen 和Brennan(2014)等人。
项目反应理论早期起源于功效曲线(曲线上(Y-坐标)表示试题难度,X-坐标表示受试水平)。
1927年,美国心理学家Thurstone对于智力测验中的单项选择题目进行了功效曲线的研究。
1933年,Lazarsfeld和Henry对于记忆实验数据的分析中提出了多因素问题的解决方案(在Lazarsfeld和Henry的研究中最初称为Comparative-Quality Scale Technique Method)。
而当广义线性模型(GLM)在20世纪70年代发明出来之后,它便成为了许多现代IRT方法的基础。
IRT理论在假设中有一些基本前提,其包含了三个主要部分:1. 题目模型。
IRT模型的第一个基本假设是关于题目模型的,即问卷或试卷的测量者需要选择一种反映题目表现的模型。
IRT中最著名的四个模型是二维常识模型(2PLM),一维常识模型(1PLM),三维常识模型(3PLM)和一维等角模型(1PLU)等,试卷数据可以使用这些模型进行模型拟合和解释。
2.人群模型。
IRT的第二个基本假设是关于受试者或群体模型的,即每个被试的特定水平对于含有该要素的题目反应是有效的,以及这种特定水平可以准确地衡量被试者的表现水平,和题目的等级和难度水平有一定的相关性。
3.数据模型。
IRT的第三个基本假设是关于数据模型的,即用户可以基于现有数据拟合合适的IRT模型,通过分析测试中正确答案的项分布情况来优化题目的构成,以适应用户的需求。
国%i-(指标库、赋史端 必图格 普文岸、笛国库? L —1、建库与维护干系统建库与维护子系统的功能是将已经选定的题目按属性指标、题文、附图、答文、答图 等项目,将有关信息准确方便地送入各子库中,并对库中的有关信息进行增、册h 修改、I 换以及按题号排序和查对等。
由于物理学科的特点,图形和特殊字符在题库中占有较大比重,所以物理题库系统需 要有绘制图形与特殊符号的功能,这项功能应在建库和维护子系统中实现。
另外,由于试题 中有图形,答案中也可能有图形,所以一个题目记录要由属性指标、题目正文(简称题文)、 附图、答文、答图等五部分组成。
考虑存储和管理的方便,试题的这些信息不统一存放在 个库中,而分别存放在指标库、题文库。
附图库、答文库和答图库等五个子库中。
同属一道试题的各项信息通过题目序号联系起来。
此外,按照课程的内容把所有题目分类, 按类存放,这样各子库相应地分成若干分库,每一分库存放某一类的试题。
接用库维护成二后请\瘠标原破K峦层加抗计机区地里统H-分布正L自动布卷模式匹醍组卷快速自动荆卷Mi 目।一个题库将存放大量的题目这些题目在计算机内如何存储将直接影响题库系统的工作效率和效果,因此题库结构的设计是题库系统设计开发的关键一环。
一般地说,一个大型题库应该具有这样的特征:(1)题库中的题目按学科领域分类,每一学科领域的题目又细分为若干个题目组合,这些题目组合可用于特定的教学目标,或测验特定的概念或能力。
(2)题库中的每一题目由两部分组成,即题目属性指标和题目本身。
题目属性指标有多项,反映有关题目的多种信息,这些信息将某一题目与库中的其它题目区别开,同时标记着题目使用的历史和使用情况(如使用次数、被高分学生答对的次数和被低分学生答对的次数等)。
(3)题库具有构成和结出等价形式测验的能力。
等价形式的测验是由不同的题目组合构成的,但每个测验的统计结果具有等效性,即这些不同的题目组合却测验相同的目标或概念,并用相同的统计方法来区分学生学习的好与差。
项目反应理论任何一种理论都不可能是完美无缺的,作为测量初期发展起来的理论更是不可避免地存在着一些缺陷。
项目反应理论(Item Response Theory, IRT)则是在反对和克服传统测量理论的不足之中发展起来的一种现代测量理论。
无论是CTT还是GT,其测验内容的选择、项目参数的获得和常模的制定,都是通过抽取一定的样本(行为样本或被试样本),因此可以说二者都建立在随机抽样理论基础之上。
它们的局限性主要表现在以下几个方面:(1)信度估计的精确性不高测量的重要目标就是降低测量误差,提高测量的精度。
在经典测量理论中,信度被定义为真分数的方差与实得分数(原始分数)的方差之比。
然而,在此定义中,真分数的方差和误差的方差都无法求取。
为了估计信度,CTT又提出了平行测验的概念,并在此基础上推演出了若干个信度估计公式。
但是严格的平行测验是不存在的,等价测验也很难获得的,在此基础上估计的测验信度很难达到比较高的精确程度。
另外,经典测量理论中的信度估计值也是一个笼统值,即假定对不同能力水平的被试来说,测量的误差是相同的。
而事实是,一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。
当测验施测于能力水平高于(或低于)测验难度的被试时就容易产生较大的测量误差。
而且测量误差值会随着被试水平与测验难度距离的增加而变大。
(2)各种测量参数的估计依赖于被试样本经典测量理论构造了一个完整的理论体系,同时设计了一套参数指标来刻划测量各方面的特性。
如信度、效度、项目的难度、区分度等。
但是这些参数的估计对样本的依赖性是很大的。
如项目难度,对于同一题目,若样本的群体水平较低,就有较高的难度估计值。
测验的信度和效度采用相关分析法,同样受到样本的影响。
为避免抽样误差对参数估计的影响,经典测量理论特别强调样本对总体的代表性。
但经典理论所用的是随机抽样,随机抽样总有一定偏差存在。
何况在实际工作中,由于客观条件的限制,还不能做到随机抽样。
项目反应理论的模型项目反应理论是心理学领域中的一种模型,用于量化测试者的能力水平。
该模型基于测验者对测试项目的反应,通过一些统计模型来衡量被测试者的能力水平。
项目反应理论的模型是一种非常有效的评估个人能力的工具,尤其是在教育、招聘等领域。
项目反应理论的模型是基于以下基本假设来构建的:1.每个测试项目都有一个固定的潜在难度水平,被称为难度参数。
2.每个被测试者也有一个能力水平,被称为斯洛班参数。
3.测试项目的正确反应由被测试者的能力和测试项目的难度水平共同决定。
基于这些假设,项目反应理论的模型将测试项目和被测试者的参数结合在一起,来推断受试者的能力水平。
该模型的核心是估计被试者的斯洛班参数,也称为能力水平,并将其与测试项目的难度参数进行比较。
为了实现这一目标,项目反应理论的模型采用了以下几个主要方程式:1.二项式分布方程式:用于计算测试项目正确的可能性。
2.逻辑斯蒂回归方程式:用于计算斯洛班参数和测试项目的难度参数之间的关系。
3.变异斯特林公式:用于比较测试项目的难度参数和斯洛班参数。
通过这些公式,项目反应理论的模型可以在测试被试者时精确地预测他们的能力水平。
这种方法可以应用于各种不同测试,从标准化考试到心理测试,以便评估特定领域或技能中被试者的表现。
但是,需要注意的是,项目反应理论的模型仅适用于具有可测量性的特定领域或技能。
如果测试测量的特定领域或技能不常规或难以厘定,那么这种模型是不可行的。
总的来说,项目反应理论的模型可以为教育、招聘等领域提供极具价值的工具,以量化被试者的能力水平。
这个模型的关键是能够将-test项目和被测试者的参数结合在一起,从而逐步推导出能力水平。
如果能够正确地实现这一目标,那么这种模型可以作为应用于许多各种测试和评估中的可靠而有效的工具。
项目反应理论简介
摘要:项目反应理论(IRT)是近三十年发展起来的一种比较先进的心理与教育测验理论,受到国内外许多学者和专家的关注。
与经典测验理论相比,项目反应理论在较强的前提假设下,有更多的优越性。
关键词:经典测验理论;项目反应理论;项目特征曲线;罗氏模型一、引言
目前,考试系统题库的建立主要基于两种指导理论:经典测验理论(Classical Test Theory, CTT)和项目反应理论(Item Response Theory, IRT)。
二者都有一套完整的试题分析指标体系和评价标准。
但经过长期实践,经典测验理论显示出某些难以克服的缺点,如由不同测试项组成的测验其结果无法比较,数据没有等距性,测量结果容易受到样本的影响,以及多个变量不易同时处理等。
针对这些,现代测验理论应运而生。
在国外已广泛应用于教育测验领域,如GRE,GMAT,TOEFL等测验,近年来也扩展应用到其他学科领域的测验评估。
Baker (2001)认为,在经典测验理论指导下,测试学家关心的是被试的测试得分,即每个正确测试项的分值总和。
而项目反应理论的关注重点则是被试是否答对每个测试项,而不是被试的测试总分。
项目反应理论和经典测验理论在数学模式、基本假设和测验可靠程度的估计指标等方面都存在着明显的差别。
与经典测验理论相比,项目反应理论在较强的前提假设下,有更多的优越性。
二、项目反应理论
项目反应理论,也称潜在特质理论、潜在特质模型、强真值理论,是一种现代心理测量理论,是一系列心理统计学模型的总称,是针对经典测量理论的局限性提出来的。
项目反应理论是用来分析考试成绩或者问卷调查数据的数学模型,这些模型的目标是来确定潜在心理特征(latent trait)是否可以通过测试题被反应出来,以及测试题和被试之间的互动关系。
项目反应理论假设被试对项目的反应能体现他的潜在特质(Baker, 2001)。
根据被试回答测试项的情况,通过对项目特征函数的运算,来推测被试的能力。
项目反应理论的产生是以经典测验理论为前提的,其自身的发展结合了多人的努力。
理查森于1936年首次提出了IRT的参数估计方法;劳勒于1944年提出了一系列关于IRT领域中基本的理论问题,推出了很有价值的参数估计方法;格特曼于1944年提出了“无误差模型”(一种确定性模型,即理想量表项目),这是后来IRT中项目特征曲线(item characteristic curve, ICC)的雏形(胡维芳,2005)。
项目特征曲线是IRT的核心,IRT其他理论都是建立在ICC之上(Baker, 2001)。
ICC是由塔克于1946年首次提出,他把被试的某些纬度(如能力、年龄)看作是自变量,考生对于某个测验项目的反应看作是因变量,在直角坐标系中作出散点图,然后用一条光滑的曲线拟合这些数据,这样就得到了ICC。
当然,对于IRT贡献最大的是美国测量专家洛德。
1952年洛德在其博士论文《关于测验分数的一个理论》中,第一次对项目反应理论作了系统的阐述(当时他称其为项目特征曲线理论,后改名为项目反应理论)。
通常将此看作是项目反应理论诞生
的标志。
1968年洛德和诺维克在伯恩波姆的名著《心理测验分数的统计理论》中以四章的篇幅详细地阐述了项目反应理论中具有二、三参数的罗吉斯模型和正态卵形模型的数学问题,至此,构成了项目反应理论的基本体系。
20世纪70、80年代,项目反应理论获得迅猛发展,不论是基础理论与方法的研究,还是解决重大测验问题的应用研究,抑或是更实用的计算机程序的编制都取得了巨大的新成果。
项目反应理论的基本思想是确定被试的潜在特质和他们对于项目的反应之间的关系,被试的表现和这组潜在特质之间的关系,可通过一条连续严格递增的函数来加以诠释,此函数称为项目特征函数,而把不同能力的被试在某测试项的得分期望连结成线,此曲线称为项目特征曲线(ICC)。
这种关系的数学表现形式就是“项目反应模型”。
但这种模型是概率性模型。
确切地讲,项目反应模型表示的是被试潜在能力和被试能正确答对测试项的概率之间关系的数学形式。
从这个角度来讲,项目反应理论的核心就是数学模型的建立和对模型中各个参数的估计。
为了定量地描述被试对于测试项的反应,测量学家们提出了各种各样的模型。
一般认为,罗吉斯模型和正太卵形模型是得到普遍应用的两个模型。
下面以罗吉斯模型为例,简单介绍以罗吉斯数学模型为基础的三种不同模型。
IRT有三个项目参数,即难度(difficulty)、区分度(discrimination)和猜测系数(guessing)。
根据不同参数,特征函数可分为三种参数模型:
第一,单参数模型(one-parameter model),也称罗氏模型(Rasch model),在这个模型下只包括难度,且区分度恒定为1。
第二,双参数模型(two-parameter model),包括难度和区分度。
第三,三参数模型(three-parameter model),包括难度、区分度和猜测参数。
若观察ICC图表,我们可以看到:
与经典测验理论相比,项目反应理论是建立在强假设基础上的。
IRT 有三个基本假设:第一,潜在特质空间的单维性假设,是指组成某个测验的所有测试项都是测量同一潜在特质(俞晓琳,1998);第二,项目特征曲线假设,是指被试对项目的正确反应概率与其潜在能力之间存在函数关系,其基本模型为罗吉斯函数(logistic function)。
第三,局部独立性假设,是指项目参数的估计值独立于被试,即多个被试的不同能力水平不影响项目参数;同时,被试潜在能力与测试项的难易度无关,即不同难度的测试项都能测量出同一个被试的同一潜在能力。
基于这些基本假设,项目反应理论表现出了比经典测试理论更大的优越性。
第一,IRT在估计被试能力时,更考虑被试的反应组型,因此对于原始得分相同但反应组型不同的被试,得到的往往是不同的能力估计值,这一特性是CTT所无法比拟的。
在CTT中,原始得分相同的被试,其能力估计值也被认为相同。
第二,项目反应模型的项目参数都是不变的。
项目参数不会因被试样本或项目库的变化而发生改变,但CTT提供的项目统计量、项目难度和鉴别力等都是依赖于被试样组。
第三,IRT可以针对每个被试提出其能力估计值的测量误差指标,而不是以一个笼统的标准误来代表测量误差,因此能够比较精
确地断定每个被试能力估计值的误差范围。
第四,IRT提出的项目信息函数和测验信息函数的概念,可以更直接地用来评定个别项目或整份测验的测量误差,这比传统意义上的“信度”概念更科学、更有效。
第五,IRT把被试能力和项目难度放在同一量表上,这使得计算机自适应考试成为可能。
题库质量高低的一个重要标志是题库中测试项参数的完备性与准确性。
CTT题库的计量技术参数主要是难度、区分度、猜测度,IRT题库的计量技术参数除这三个外,还增加了测试项信息函数。
把测试项信息函数作为技术参数存入题库是IRT独有的,提高了题库参数的完备性和题库管理的可控性。
另外,参数准确性也是题库质量的重要条件。
在CTT的题库建设中,建题库者力求测试项参数的准确性,但CTT测试项参数的估计严重依赖于样本,这给维持参数的准确性带来了困难。
在IRT中,由于测试项参数具有跨群体不变性等特点,使测试项参数更具准确性。
测验编制的一个重要目标是要使测验误差达到最小。
在IRT中,可以预先规定在特质量表上所有值的最大允许误差,然后利用公式求出所有水平值上的最小允许信息量,形成一个信息函数。
这样,测验中用较少的试题就可以达到不超过允许误差的要求,提高了测验的效率。
标准参照测验的编制有两条原则:一是准确划定合格的分数线,二是要尽量降低对被试合格与不合格的误判率。
项目反应理论在备有题库条件下组拼标准参照测验可以比较理想地实现这两条原则。
随着计算机技术的普及和IRT的发展,计算机自适应测验正日益成为
国际上大型测验的主流。
由于CAT具有节省时间,安全性好以及可以及时提供被试成绩等优点,被迅速应用到多个领域。
计算机化自适应测验是当今测验技术的最高水平,也是项目反应理论最有特色的应用。
三、小结
项目反应理论是当前国际上最先进的教育和心理测量理论。
经典测验理论显示出这些难以克服的缺点,如由不同测试项组成的测验其结果无法比较,数据没有等距性,测量结果容易受到样本的影响,以及多个变量不易同时处理等,项目反应理论都能很有效地克服,表现出巨大的优越性。
但是,它也存在一些问题。
除了该理论本身要求研究者具有很高的统计学背景之外,其问题还表现在该理论的基本假设。
由于目前还不可能彻底查明使用数据满足假设的精确度,因为对于表面上满足了假设的数据而言,只有当从项目反应理论中所作出的预言能独立地加以证实后,才能进一步验证该理论下的基本假设。
不管怎样,项目反应理论还是朝着完善和成熟而不断前进着。
参考文献:
[1]Baker, Frank B.The Basics of Item Response Theory[C].ERIC Clearinghouse on Assessment and Evaluation, College Park, MD.2001. [2]胡维芳.论项目反应理论[J].高等理科教育,2005,(3).
[3]俞晓琳.项目反应理论与经典测验理论之比较[J].南京师大学报: 社会科学版,1998,(4).
[4]翁伟斌,等.关于项目反应理论试题参数的估计[J].教育发展研究, 2004,(6).。