项目反应理论
- 格式:doc
- 大小:59.00 KB
- 文档页数:4
项目反应理论与经典测验理论之比较一、本文概述在心理学、教育学和统计学等领域,测验理论一直扮演着至关重要的角色。
它们为我们提供了一种评估个体能力、知识、技能或情感状态的方法。
在众多的测验理论中,项目反应理论(Item Response Theory,简称IRT)和经典测验理论(Classical Test Theory,简称CTT)尤为引人注目。
本文旨在深入探讨这两种测验理论的核心概念、主要特点和应用场景,并通过比较分析来揭示它们的优势和局限性。
通过本文的阐述,读者将能更全面地理解项目反应理论与经典测验理论的基本原理,以及它们在不同实践领域的适用性。
在概述部分,我们将首先对项目反应理论和经典测验理论进行简要介绍,包括它们的起源、发展历程以及核心假设。
随后,我们将阐述本文的主要目的和研究问题,即比较这两种测验理论在理论框架、模型构建、参数估计、测量精度以及应用领域的异同。
通过这一概述,读者可以对本文的整体结构和内容有一个初步的了解,为后续深入探讨打下基础。
二、项目反应理论与经典测验理论的基本框架项目反应理论(Item Response Theory,简称IRT)与经典测验理论(Classical Test Theory,简称CTT)是心理测量学中的两大基本理论,它们各自构建了独特的理论框架和应用体系。
经典测验理论,起源于20世纪初,它基于真分数模型,认为测验的得分是由真分数和误差分数两部分组成的。
真分数反映了被试者的实际能力,而误差分数则是由测量过程中的随机误差引起的。
CTT 的主要假设包括测验的内部一致性、测验与测验之间的等价性和样本的代表性。
它主要关注测验的整体特性,如信度、效度和难度等,而忽略了单个项目的特性。
项目反应理论,则是在20世纪50年代后期逐步发展起来的。
与CTT不同,IRT将焦点放在了单个项目(即题目)的反应概率上,认为每个项目都有其独特的难度参数和区分度参数。
IRT模型,如二参数逻辑斯蒂克模型(2PL)、三参数逻辑斯蒂克模型(3PL)等,详细描述了项目参数与被试者能力之间的关系,并可以预测被试者在不同项目上的反应概率。
项目反应理论的形成与基本理论假设项目反应理论(Item Response Theory, IRT)是针对测试和评价领域中的一种方法和理论,旨在解决测量数据分析过程中的一系列问题,如测验题目类型、人群不同表现和不同测量精度等等。
该理论由多位统计学家和心理学家共同发展而来,包括Lord和Novick(1968), Hambleton、Swaminathan和Rogers (1991), Kolen 和Brennan(2014)等人。
项目反应理论早期起源于功效曲线(曲线上(Y-坐标)表示试题难度,X-坐标表示受试水平)。
1927年,美国心理学家Thurstone对于智力测验中的单项选择题目进行了功效曲线的研究。
1933年,Lazarsfeld和Henry对于记忆实验数据的分析中提出了多因素问题的解决方案(在Lazarsfeld和Henry的研究中最初称为Comparative-Quality Scale Technique Method)。
而当广义线性模型(GLM)在20世纪70年代发明出来之后,它便成为了许多现代IRT方法的基础。
IRT理论在假设中有一些基本前提,其包含了三个主要部分:1. 题目模型。
IRT模型的第一个基本假设是关于题目模型的,即问卷或试卷的测量者需要选择一种反映题目表现的模型。
IRT中最著名的四个模型是二维常识模型(2PLM),一维常识模型(1PLM),三维常识模型(3PLM)和一维等角模型(1PLU)等,试卷数据可以使用这些模型进行模型拟合和解释。
2.人群模型。
IRT的第二个基本假设是关于受试者或群体模型的,即每个被试的特定水平对于含有该要素的题目反应是有效的,以及这种特定水平可以准确地衡量被试者的表现水平,和题目的等级和难度水平有一定的相关性。
3.数据模型。
IRT的第三个基本假设是关于数据模型的,即用户可以基于现有数据拟合合适的IRT模型,通过分析测试中正确答案的项分布情况来优化题目的构成,以适应用户的需求。
国%i-(指标库、赋史端 必图格 普文岸、笛国库? L —1、建库与维护干系统建库与维护子系统的功能是将已经选定的题目按属性指标、题文、附图、答文、答图 等项目,将有关信息准确方便地送入各子库中,并对库中的有关信息进行增、册h 修改、I 换以及按题号排序和查对等。
由于物理学科的特点,图形和特殊字符在题库中占有较大比重,所以物理题库系统需 要有绘制图形与特殊符号的功能,这项功能应在建库和维护子系统中实现。
另外,由于试题 中有图形,答案中也可能有图形,所以一个题目记录要由属性指标、题目正文(简称题文)、 附图、答文、答图等五部分组成。
考虑存储和管理的方便,试题的这些信息不统一存放在 个库中,而分别存放在指标库、题文库。
附图库、答文库和答图库等五个子库中。
同属一道试题的各项信息通过题目序号联系起来。
此外,按照课程的内容把所有题目分类, 按类存放,这样各子库相应地分成若干分库,每一分库存放某一类的试题。
接用库维护成二后请\瘠标原破K峦层加抗计机区地里统H-分布正L自动布卷模式匹醍组卷快速自动荆卷Mi 目।一个题库将存放大量的题目这些题目在计算机内如何存储将直接影响题库系统的工作效率和效果,因此题库结构的设计是题库系统设计开发的关键一环。
一般地说,一个大型题库应该具有这样的特征:(1)题库中的题目按学科领域分类,每一学科领域的题目又细分为若干个题目组合,这些题目组合可用于特定的教学目标,或测验特定的概念或能力。
(2)题库中的每一题目由两部分组成,即题目属性指标和题目本身。
题目属性指标有多项,反映有关题目的多种信息,这些信息将某一题目与库中的其它题目区别开,同时标记着题目使用的历史和使用情况(如使用次数、被高分学生答对的次数和被低分学生答对的次数等)。
(3)题库具有构成和结出等价形式测验的能力。
等价形式的测验是由不同的题目组合构成的,但每个测验的统计结果具有等效性,即这些不同的题目组合却测验相同的目标或概念,并用相同的统计方法来区分学生学习的好与差。
项目反应理论任何一种理论都不可能是完美无缺的,作为测量初期发展起来的理论更是不可避免地存在着一些缺陷。
项目反应理论(Item Response Theory, IRT)则是在反对和克服传统测量理论的不足之中发展起来的一种现代测量理论。
无论是CTT还是GT,其测验内容的选择、项目参数的获得和常模的制定,都是通过抽取一定的样本(行为样本或被试样本),因此可以说二者都建立在随机抽样理论基础之上。
它们的局限性主要表现在以下几个方面:(1)信度估计的精确性不高测量的重要目标就是降低测量误差,提高测量的精度。
在经典测量理论中,信度被定义为真分数的方差与实得分数(原始分数)的方差之比。
然而,在此定义中,真分数的方差和误差的方差都无法求取。
为了估计信度,CTT又提出了平行测验的概念,并在此基础上推演出了若干个信度估计公式。
但是严格的平行测验是不存在的,等价测验也很难获得的,在此基础上估计的测验信度很难达到比较高的精确程度。
另外,经典测量理论中的信度估计值也是一个笼统值,即假定对不同能力水平的被试来说,测量的误差是相同的。
而事实是,一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。
当测验施测于能力水平高于(或低于)测验难度的被试时就容易产生较大的测量误差。
而且测量误差值会随着被试水平与测验难度距离的增加而变大。
(2)各种测量参数的估计依赖于被试样本经典测量理论构造了一个完整的理论体系,同时设计了一套参数指标来刻划测量各方面的特性。
如信度、效度、项目的难度、区分度等。
但是这些参数的估计对样本的依赖性是很大的。
如项目难度,对于同一题目,若样本的群体水平较低,就有较高的难度估计值。
测验的信度和效度采用相关分析法,同样受到样本的影响。
为避免抽样误差对参数估计的影响,经典测量理论特别强调样本对总体的代表性。
但经典理论所用的是随机抽样,随机抽样总有一定偏差存在。
何况在实际工作中,由于客观条件的限制,还不能做到随机抽样。
项目反应理论的模型项目反应理论是心理学领域中的一种模型,用于量化测试者的能力水平。
该模型基于测验者对测试项目的反应,通过一些统计模型来衡量被测试者的能力水平。
项目反应理论的模型是一种非常有效的评估个人能力的工具,尤其是在教育、招聘等领域。
项目反应理论的模型是基于以下基本假设来构建的:1.每个测试项目都有一个固定的潜在难度水平,被称为难度参数。
2.每个被测试者也有一个能力水平,被称为斯洛班参数。
3.测试项目的正确反应由被测试者的能力和测试项目的难度水平共同决定。
基于这些假设,项目反应理论的模型将测试项目和被测试者的参数结合在一起,来推断受试者的能力水平。
该模型的核心是估计被试者的斯洛班参数,也称为能力水平,并将其与测试项目的难度参数进行比较。
为了实现这一目标,项目反应理论的模型采用了以下几个主要方程式:1.二项式分布方程式:用于计算测试项目正确的可能性。
2.逻辑斯蒂回归方程式:用于计算斯洛班参数和测试项目的难度参数之间的关系。
3.变异斯特林公式:用于比较测试项目的难度参数和斯洛班参数。
通过这些公式,项目反应理论的模型可以在测试被试者时精确地预测他们的能力水平。
这种方法可以应用于各种不同测试,从标准化考试到心理测试,以便评估特定领域或技能中被试者的表现。
但是,需要注意的是,项目反应理论的模型仅适用于具有可测量性的特定领域或技能。
如果测试测量的特定领域或技能不常规或难以厘定,那么这种模型是不可行的。
总的来说,项目反应理论的模型可以为教育、招聘等领域提供极具价值的工具,以量化被试者的能力水平。
这个模型的关键是能够将-test项目和被测试者的参数结合在一起,从而逐步推导出能力水平。
如果能够正确地实现这一目标,那么这种模型可以作为应用于许多各种测试和评估中的可靠而有效的工具。
项目反应理论
随着心理学的发展, 心理测量无论是在理论上, 还是在方法上都逐步地提高。
目前, 心理测量有三大理论派别: 经典测量理论(Classical Test Theory , 简称CTT) , 项目反应理论( Item Response Theory , 简称IRT) 和概化理论( Generalizability Theory , 简称GT)。
项目反应理论是一种先进的测量理论,它是针对经典测量理论的不足而提出来的, 其理论基础是潜在特质理论。
项目反应理论的基本思路是确定考生的心理特质值和他们对于项目的反应之间的关系, 这种关系的数学形式就是“项目反应模型”。
下面主要对项目反应的理论假设和数学模型做一下简要概述。
一、项目反应理论的基本假设
任何一种数学模型都有一定的前提,任何一种测量都有一定的假设,在项目反应理论中也有三条最基本的假设:潜在特质空间的单维性假设、测验项目间的局部独立性假设、项目特征曲线假设。
有的学者还增加了“知道——答对”假设和非速度限制假设。
在此仅说明前面三条最基本的假设。
1、潜在特质空间的单维性假设
潜在特质空间是指由心理学中的潜在特质组成的抽象空间。
如果考生在测验项目上的反应是有K种潜在特质所决定的,那么这些潜在特征就定义了一个K维潜在空间,考生的各个潜在特质分数综合起来,就决定了该考生在该潜在空间的位置。
如果影响考生测验分数的所有重要的心理特质都被确定了,那么该潜在空间就称为完全潜在空间。
目前比较成熟的大多数项目反应模型都假设完全潜在空间是单维的,即只有一种潜在特质决定了考生对项目的反应,也就是说组成某个测验的所有项目都是测量的同一个心理变量,例如知识、能力、态度或人格。
当然,这一假设往往不可能得到严格的满足,因为总有其他因素会影响到考生在测验上的反应,这些因素包括认知的、人格的和施测时的客观条件,以及考生的动机水平、焦虑程度、反应速度和考试技巧等。
因此在项目反应理论中,只要所预测量的心理特质是影响考生对项目作出反应的主要因素,那么就认为这组测验数据是满足单维假设的。
2、测验项目间的局部独立性假设
所谓局部独立性假设是指某个考生对于某个项目的正确概率不会受到他对于该测验中其他项目反应的影响,也就是说只有考生的特质水平和项目的特性会影响到考生对该项目的反应。
在实际的教育和心理测量问题中, 如果前一个项目的内容为后一个项目的
正确反应提供暗示或其它有效的信息, 局部独立性的假设就会遭到破坏, 例如所谓的链状试题就会出现这种情况。
局部独立性是建立在统计的意义上的,用统计学的语言, 局部独立性是指对每一个测验者来说, 对整个试题作出某种反应的概率等于对组成试卷的每个项目的反应的概率的乘积。
3、项目特征曲线假设
项目反应理论的一个关键就是在被试者对项目作出的反应或作出反应的概率与被测试者的潜在特质之间建立某种函数关系。
可谓的项目特征曲线, 就是相应函数关系的图象。
项目反应理论之所以要作出项目特征曲线形式的假设, 是因为项目反应理论的建立不是首先从理论上推导出函数关系的存在, 而是先假定有某种形式的项目特征曲线, 然后找出满足相应曲线的函数形式。
所以, 关于项目特征曲线的特征形式的假设实际上就是对未来函数关系的假设。
项目特征曲线的假设主要有三点:
第一、曲线的下端渐近线。
如果一个项目的猜测参数值为C0, 即这个项目能够凭猜测作出正确反应的概率为C0, 那么项目特征曲线的下端渐近线为Y= C0如果假设在测验中不存在猜测因素的作用或我们不去考虑猜测因素的作用, 则取C0=0,即项目特征曲线以Y=0为其下端渐近线。
第二、曲线的上端渐近线。
通常假定曲线的上端渐近线为Y=1, 即假定对θ值足够大的被试者, 对项目或试卷作出正确反应的概率是趋于1的。
第三、曲线的升降性。
项目反应理论假定曲线严格单调上升, 即仅存在一个曲变点(又称拐点, 曲线在此处的一阶导数等于零)。
二、项目反应模型
IRT 模型是一种数学模型, 它的特点是以概率的概念来解释应试者对试题的反应和其潜在能力特质之间的关系。
IRT 的模型有20 余种, 但比较常用的有洛德提出的著名的正态卵形模型和伯恩鲍姆提出的逻辑斯蒂模型( Logistic模型)。
这两种函数模型在计算结果上并无大的区别, 所绘制的曲线也大体相同, 然而, 在实际中大多采用后者。
其中主要有以下两个方面的原因: 首先是它形式上的简洁, 更具数学模型的特点; 其次是它便于用对数关系作处理, 因而模型的项目质量参数和能力参数估计起来较为方便。
1、逻辑斯蒂模型( Logistic模型)
由于Logistic 模型相对比较简单, 准确性较高,计算量较其他模型小, 因此在建立自适应考试系统时, 常采用Logistic 模型。
由于参数的不同, 分为单参数、双参数和三参数,其中以三参数的Logistic模型最为常用, 由于计算机和网络技术的发展, 对考试
的准确性的要求也越来越高, 对三参数的Logistic 模型的研究也比较成熟, 现在逐步趋向使用三参数模型。
函数表达式如下:
θ表示受测者的能力, a(a∈R) 表示区分度, b(b∈R) 表示难度, c表示猜测的系数,受测者答对试题的概率是θ的函数, 记为P(θ), 称之为项目反应函数。
一般地, 对某一测验项目的质量, 我们可采用项目难度、项目区分度和猜测参数三个指标来描述, 据特征函数可画出题目的特征曲线( Item Characteristic Curve,ICC) ,图1 为典型的三参数模型的特征曲线:
从图1 可以看出, 项目特性曲线下部的渐近线离坐标轴的零点有一定的距离。
这表明由于存在猜测因素, 能力或物质水平很低的被试仍有可能答对该项目的猜测参数值, 一般用c 来表示, 它是凭猜测答对该题的概率。
项目特性曲线是一条以拐点为中心的曲线, 因而其拐点在纵轴上的投影正好落在c 与1 的中点上, 即拐点的纵坐标为( 1+c) /2。
这表明物质水平为b(拐点在横轴上的投影) 的被试与答对该项目的概率, 排除猜测因素不计, 恰好彼此相等,所以b 通常被定义为项目的难度参数。
项目特性曲线拐点处的斜率刻了曲线的陡峭程度, 这与项目区分被试物质水平的能力有关。
很显然, 曲线越陡峭, 答对概率P( θ) 对物质水平θ的变化就越敏感, 即项目区分被试水平的能力就越强。
因此, 曲线拐点处的斜率被称为项目的区分度参数, 一般用a 来表示。
2、正态卵形模型
和logistic 模型一样,根据模型中包含的条目参数的个数,正态卵形模型被命名为双参
数模型和三参数模型。
在项目反应理论中最早得到实际应用的是双参数正态卵形模型。
与双参数正态卵形模型相比三参数模型增加了参数c, 其数学表达式如下:
C表示项目特征曲线下端渐近线的高度;b表示和项目特征曲线拐点相对应的能力水平,该点处的正答概率为(1+c)/2;a表示和拐点处的斜率成正比的值,因为拐点处的斜率
由此可见,三参数正太卵形曲线的形状和位置是由三个因素决定的:曲线的下端渐近线、斜率和拐点。
下端渐近线的位置越高,表示θ值低的考生猜对该项目的概率越大,拐点的位置越靠右边,表示项目的难度越大,拐点处曲线的斜率越大,表示项目的区分度越高。
三、项目反映理论的发展前景
项目反应理论的理论假设是建立在严谨的数学统计模式基础上的, 它借助于电脑科技在近一、二十年取得了突飞猛进的进展。
在过去的十余年中, 不断有新的项目反应模式诞生, 有新的项目参数估计方法提出, 国内也有一些学者对项目反应理论进行了一系列的应用研究。
但总的说来, 目前我国对IRT的理论和应用研究尚处于起步阶段, IRT的推广应用更要受
到一些客观条件的限制。
IRT对模式参数的估计, 必须要有电脑的辅助, 没有电脑, 其繁琐的运算过程几乎无法完成。
IRT的应用推广, 还需要应用者有较深厚的数学功底, 或至少在数理统计方面训练有素, 这是国内一般的心理学者所缺乏的, 因而推广应用的步履相当缓慢。
然而, IRT在理论架构、项目参数的估计、可信度指标的获得等方面都比CCT更为精确和有效, 因此, IRT取代CCT已成为必然趋势。
我们有理由相信, 随着电脑技术的进一步普及, 随着心理学者、教育学者知识结构的更新, IRT在我国的普及推广也只是时间问题。
IRT最终必将取代而成为心理测量学的一大主流。