项目反应理论简介
- 格式:ppt
- 大小:837.50 KB
- 文档页数:7
项目反应理论简介摘要:项目反应理论(IRT)是近三十年发展起来的一种比较先进的心理与教育测验理论,受到国内外许多学者和专家的关注。
与经典测验理论相比,项目反应理论在较强的前提假设下,有更多的优越性。
关键词:经典测验理论;项目反应理论;项目特征曲线;罗氏模型一、引言目前,考试系统题库的建立主要基于两种指导理论:经典测验理论(Classical Test Theory, CTT)和项目反应理论(Item Response Theory, IRT)。
二者都有一套完整的试题分析指标体系和评价标准。
但经过长期实践,经典测验理论显示出某些难以克服的缺点,如由不同测试项组成的测验其结果无法比较,数据没有等距性,测量结果容易受到样本的影响,以及多个变量不易同时处理等。
针对这些,现代测验理论应运而生。
在国外已广泛应用于教育测验领域,如GRE,GMAT,TOEFL等测验,近年来也扩展应用到其他学科领域的测验评估。
Baker (2001)认为,在经典测验理论指导下,测试学家关心的是被试的测试得分,即每个正确测试项的分值总和。
而项目反应理论的关注重点则是被试是否答对每个测试项,而不是被试的测试总分。
项目反应理论和经典测验理论在数学模式、基本假设和测验可靠程度的估计指标等方面都存在着明显的差别。
与经典测验理论相比,项目反应理论在较强的前提假设下,有更多的优越性。
二、项目反应理论项目反应理论,也称潜在特质理论、潜在特质模型、强真值理论,是一种现代心理测量理论,是一系列心理统计学模型的总称,是针对经典测量理论的局限性提出来的。
项目反应理论是用来分析考试成绩或者问卷调查数据的数学模型,这些模型的目标是来确定潜在心理特征(latent trait)是否可以通过测试题被反应出来,以及测试题和被试之间的互动关系。
项目反应理论假设被试对项目的反应能体现他的潜在特质(Baker, 2001)。
根据被试回答测试项的情况,通过对项目特征函数的运算,来推测被试的能力。
项目反应理论的形成与基本理论假设项目反应理论(Item Response Theory, IRT)是针对测试和评价领域中的一种方法和理论,旨在解决测量数据分析过程中的一系列问题,如测验题目类型、人群不同表现和不同测量精度等等。
该理论由多位统计学家和心理学家共同发展而来,包括Lord和Novick(1968), Hambleton、Swaminathan和Rogers (1991), Kolen 和Brennan(2014)等人。
项目反应理论早期起源于功效曲线(曲线上(Y-坐标)表示试题难度,X-坐标表示受试水平)。
1927年,美国心理学家Thurstone对于智力测验中的单项选择题目进行了功效曲线的研究。
1933年,Lazarsfeld和Henry对于记忆实验数据的分析中提出了多因素问题的解决方案(在Lazarsfeld和Henry的研究中最初称为Comparative-Quality Scale Technique Method)。
而当广义线性模型(GLM)在20世纪70年代发明出来之后,它便成为了许多现代IRT方法的基础。
IRT理论在假设中有一些基本前提,其包含了三个主要部分:1. 题目模型。
IRT模型的第一个基本假设是关于题目模型的,即问卷或试卷的测量者需要选择一种反映题目表现的模型。
IRT中最著名的四个模型是二维常识模型(2PLM),一维常识模型(1PLM),三维常识模型(3PLM)和一维等角模型(1PLU)等,试卷数据可以使用这些模型进行模型拟合和解释。
2.人群模型。
IRT的第二个基本假设是关于受试者或群体模型的,即每个被试的特定水平对于含有该要素的题目反应是有效的,以及这种特定水平可以准确地衡量被试者的表现水平,和题目的等级和难度水平有一定的相关性。
3.数据模型。
IRT的第三个基本假设是关于数据模型的,即用户可以基于现有数据拟合合适的IRT模型,通过分析测试中正确答案的项分布情况来优化题目的构成,以适应用户的需求。
国%i-(指标库、赋史端 必图格 普文岸、笛国库? L —1、建库与维护干系统建库与维护子系统的功能是将已经选定的题目按属性指标、题文、附图、答文、答图 等项目,将有关信息准确方便地送入各子库中,并对库中的有关信息进行增、册h 修改、I 换以及按题号排序和查对等。
由于物理学科的特点,图形和特殊字符在题库中占有较大比重,所以物理题库系统需 要有绘制图形与特殊符号的功能,这项功能应在建库和维护子系统中实现。
另外,由于试题 中有图形,答案中也可能有图形,所以一个题目记录要由属性指标、题目正文(简称题文)、 附图、答文、答图等五部分组成。
考虑存储和管理的方便,试题的这些信息不统一存放在 个库中,而分别存放在指标库、题文库。
附图库、答文库和答图库等五个子库中。
同属一道试题的各项信息通过题目序号联系起来。
此外,按照课程的内容把所有题目分类, 按类存放,这样各子库相应地分成若干分库,每一分库存放某一类的试题。
接用库维护成二后请\瘠标原破K峦层加抗计机区地里统H-分布正L自动布卷模式匹醍组卷快速自动荆卷Mi 目।一个题库将存放大量的题目这些题目在计算机内如何存储将直接影响题库系统的工作效率和效果,因此题库结构的设计是题库系统设计开发的关键一环。
一般地说,一个大型题库应该具有这样的特征:(1)题库中的题目按学科领域分类,每一学科领域的题目又细分为若干个题目组合,这些题目组合可用于特定的教学目标,或测验特定的概念或能力。
(2)题库中的每一题目由两部分组成,即题目属性指标和题目本身。
题目属性指标有多项,反映有关题目的多种信息,这些信息将某一题目与库中的其它题目区别开,同时标记着题目使用的历史和使用情况(如使用次数、被高分学生答对的次数和被低分学生答对的次数等)。
(3)题库具有构成和结出等价形式测验的能力。
等价形式的测验是由不同的题目组合构成的,但每个测验的统计结果具有等效性,即这些不同的题目组合却测验相同的目标或概念,并用相同的统计方法来区分学生学习的好与差。
项目反应理论任何一种理论都不可能是完美无缺的,作为测量初期发展起来的理论更是不可避免地存在着一些缺陷。
项目反应理论(Item Response Theory, IRT)则是在反对和克服传统测量理论的不足之中发展起来的一种现代测量理论。
无论是CTT还是GT,其测验内容的选择、项目参数的获得和常模的制定,都是通过抽取一定的样本(行为样本或被试样本),因此可以说二者都建立在随机抽样理论基础之上。
它们的局限性主要表现在以下几个方面:(1)信度估计的精确性不高测量的重要目标就是降低测量误差,提高测量的精度。
在经典测量理论中,信度被定义为真分数的方差与实得分数(原始分数)的方差之比。
然而,在此定义中,真分数的方差和误差的方差都无法求取。
为了估计信度,CTT又提出了平行测验的概念,并在此基础上推演出了若干个信度估计公式。
但是严格的平行测验是不存在的,等价测验也很难获得的,在此基础上估计的测验信度很难达到比较高的精确程度。
另外,经典测量理论中的信度估计值也是一个笼统值,即假定对不同能力水平的被试来说,测量的误差是相同的。
而事实是,一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。
当测验施测于能力水平高于(或低于)测验难度的被试时就容易产生较大的测量误差。
而且测量误差值会随着被试水平与测验难度距离的增加而变大。
(2)各种测量参数的估计依赖于被试样本经典测量理论构造了一个完整的理论体系,同时设计了一套参数指标来刻划测量各方面的特性。
如信度、效度、项目的难度、区分度等。
但是这些参数的估计对样本的依赖性是很大的。
如项目难度,对于同一题目,若样本的群体水平较低,就有较高的难度估计值。
测验的信度和效度采用相关分析法,同样受到样本的影响。
为避免抽样误差对参数估计的影响,经典测量理论特别强调样本对总体的代表性。
但经典理论所用的是随机抽样,随机抽样总有一定偏差存在。
何况在实际工作中,由于客观条件的限制,还不能做到随机抽样。