当前位置:文档之家› 基于IRT理论的计算机自适应考试系统的设计与实现8

基于IRT理论的计算机自适应考试系统的设计与实现8

分类号学校代码

密级研究生学号

工程硕士学位论文

基于IRT理论的计算机自适应考试系统的设计与实现

The Design and the Realization of Computerized Adaptive Testing System Based on the IRT Theory

学位申请人詹沐清

导师姓名及职称徐远纯副教授

工程领域名称材料工程

研究方向计算机应用

所在学院信息工程学院

论文提交日期2009-4-30

工程硕士学位论文原创性声明

本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。

作者签名:日期:年月日

工程硕士学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权景德镇陶瓷学院可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

保密□,在年解密后适用本授权书。

本学位论文属于

不保密□。

(请在以上相应方框内打“√”)

作者签名:日期:年月日

导师签名:日期:年月日

摘要

随着教育测量理论和计算机网络技术的发展,中国的教育考试也正在发生着悄悄的变化,由传统的基于经典测验理论(CTT)的固定题目、同一试卷的考试向基于项目反应理论(IRT)的计算机化自适应测试(CAT)的方向转轨。计算机化自适应测试能针对不同考生的特质水平进行因人施考,且测试结果与样本的选择无关;它能更准确、客观地反映考生的实际能力水平,测试周期更短而不影响测试的可靠性,是主流的测试类型。

本文首先分析了CAT的现状及发展趋势,然后对IRT(CAT的理论基础)的主要概念进行了具体阐述,简要介绍了CAT的实现原理,对其主要流程及算法进行了详细的说明。

接下来,在IRT项目参数估计模型中采用M M L E/E M算法进行参数估计,对IRT项目参数估计模型进行了改进,与仅用MMLE算法相比可大大简化参数估计的计算工作量,简化程序,并提高了估计的精度。同时,为了解决网络传输出现阻塞的问题,加快网络传输速度,减少系统的响应时间,采用一种运用特征函数计算出难度系数的简洁适用的方法,对CAT 考试系统抽题策略进行了改进。并且提出了自适应考试系统的分析和设计思路,以建立一个《C语言程序设计》课程自适应考试系统为例,本文分析了系统的总体结构、各模块的详细设计、以及系统设计和实现时需要考虑的有关问题和涉及的相关技术。并介绍了《C语言程序设计》课程自适应考试系统的实际实现过程。重点描述了改进IRT考试模块的实现。

本文的最后结合本系统不足之处提出了一系列的改进方案,并进一步提出了今后的研究方向。

关键词: 项目反应理论计算机自适应考试 .net

Abstrct

With the development of educational measurement theory and computer network technology, there are some underlying changes in educational examination system in china, from traditional fixed testing based on Classical Test Theory (CTT) to Computerized Adaptive Testing (CAT) based on Item Response Theory(IRT). In Computerized Adaptive Testing (CAT),tests are automatically tailored to the proficiency level of the individual examinees,and the testing result is independent of examination items. CAT can measure the real competency of the examinees more exactly and with more impersonality, and shorten the time needed for the test but without affecting the reliability of the test. So,CAT will be the mainstream of the future examinations.

This paper first sets out to analyze the present status and the latest development of CAT, then formulates concretely the main comprehension of the IRT一the theoretical basis of CAT,and then gives an explanation to the implementing method of CAT and to the flow and arithmetic of CAT.

In the following part, the paper tries to improve the parameter estimation model of the IRT item by employing M M L E/E M method in the parameter estimation model of the IRT item. Compared with the method of just employing MMLE, the new method greatly reduces the work, simplifies the procedure and improves the accuracy. Meanwhile, in order to so lve the problem of online blockade, speed up the online transmission and condense the time needed for the system to respond, this paper improves the strategies of the CAT system for selecting examination items by adopting a simple but useful method of using a peculiarities parameter to work out the degree of difficulty. This paper also designs a practical system---“C Program Design”Course CAT system and gives out some analyses to it. Moreover, this paper introduces in detail the system collectivity structure,fine design of the system modules,some other problems and the correlative technology, and deseribes the course of how to practically implement the forenamed system,and the stress on the implementation of the test module.

In the end, the thesis points out the problems of the system that need betterment, provides some solutions for improvement, and puts forward research direction for further study.

KeyWords: Item Response Theory Computerized Adaptive Testing .Net

目录

摘要 ........................................................................................................................ I ABSTRCT ................................................................................................................ II 1 引言 (1)

1.1现有考试系统的现状 (1)

1.2计算机自适应考试系统的发展现状 (2)

1.3本系统目标和系统技术要求 (4)

1.4本文主要内容简介 (5)

2 自适应考试系统理论及基础 (6)

2.1项目反应理论(I TEM R ESPONSE T HEORY)概述 (6)

2.2自适应考试(CAT)系统的原理 (14)

3 基于IRT理论的CAT系统的分析与设计 (18)

3.1CAT系统的开发工具及运行平台 (18)

3.2系统的可行性分析 (19)

3.3系统的需求分析 (22)

3.4基于IRT的CAT系统的功能模块设计 (24)

3.5数据库的设计 (29)

3.6系统安全性设计 (33)

4基于IRT理论的CAT系统的实现 (35)

4.1题库的设计和建设 (35)

4.2用户管理模块的实现 (35)

4.3考试模块的实现 (40)

4.4IRT考试功能模块的实现 (44)

4.5IRT算法的改进 (47)

5 系统测试与系统运行分析 (55)

5.1基于IRT理论的CAT系统的使用测试 (55)

5.2系统运行分析 (55)

6 总结与展望 (60)

6.1总结 (60)

6.2展望 (60)

致谢 (62)

参考文献 (63)

1 引言

1.1 现有考试系统的现状

学习和考试总是紧密结合在一起的,随着学习方式走向电子化、远程化,考试也在实现无纸化。无纸化考试系统就是把计算机作为工具来替代人类的手工出题、发题、身份验证、监考、收卷、阅卷、统分和试卷分析等过程,使得考试更加严格、真实可信,从而达到降低考试成本,提高考试效率的效果。同时组织考试的机构通过计算机简化了发卷、收卷、评卷等考试过程,对考生的答题情况可利用软件进行分析,以便进一步反馈指导教与学的活动,从而更加方便地利用计算机来组织考试。

传统的测验,所有考生,不论学习水平高低全部要接受同一试题的检测,结果对水平低的考生来说,那些难度偏大的试题,根本无从下手,反而引起焦虑,不利于测试,反应不出对应的水平。而对于高水平考生来说,那些难度小的试题,又测不出考生的真实水平,徒然浪费时间和精力[1]。实践经验和理论分析都证明,当题目难度与考生水平相适应时,题目所提供的信息量最大,考生的积极性最高,测验效度也就最好[2]。

目前,计算机“无纸化考试系统”因为安全系数比较高,利于组卷及评阅,自动化程度高,无纸化资源消耗低,已在各种考试中广泛应用。但绝大部分考试系统只是简单的利用计算机作为工具,将试题输入计算机打印出来而已,或者仅仅是将笔试改为上机测试,最明显的例子就是将测试题目放在网上进行测试。

总体来说,现有的网上考试系统能够为广大被测者在一定的范围内提供一些便利,具有较好的性能,也得到了广泛的应用,相对于传统测试已取得了较大的进步。然而,由于技术限制和其它部分原因,很多现有的网上考试系统在考试内容和考试形式上,已经大大滞后于教学的其他环节。

目前远程教育的大部分考试系统中,不足之处还是很多,主要表现在以下几点:

1、考试设计没有科学性

现有的考试系统由于缺乏先进考试理论的指导,往往只是把大量的试题简单的罗列起来收集到数据库中,但是,这些题目大部分只是按科目分类,没有针对试题的难度信息,知识点信息以及学生对该题目的反映情况等信息进行分析处理,因此这种考试系统不能设计出合理的试卷。例如对所有考生要么偏难要么偏易,不能真实反映被测试者的实际水平,也把握不了试卷的精度和难度水平;试题过度地集中在某类知识点和某些章节等

情况;由于收集不到学生对试题的反馈信息,就无法进一步对试卷进行彻底的分析,也就无法总结经验,为下一次考试提供有价值的参考。

2、考试实施开放性不足

网络技术的引入使得考试系统可以在不同地域同时进行,但其前提条件首先必须是在指定的地点,不在指定地点考试将无法进行;其次,考试时间也是固定的,考生必须在规定时间参加考试,而且要在规定时间内答完试题;最后,所有被测者所检测的题目都是一样的。学生的考试成绩在很大程度上受到心理、生理和外界环境的影响,因此不同场次的考试之间无法进行比较,不具有可比性。

3、考试技术手段单一

与传统考试相比,目前还是统一出题,统一试卷,统一时间和地点,人工改卷,试题库试题少、涵盖范围窄。人工改卷,也增加了考试成绩的主观性,不利于反映出学生真实水平。

1.2 计算机自适应考试系统的发展现状

以上提到的当前考试系统的这些弊端使得网上考试难以被广泛采用,限制了网上教学与测试的发展。很多考试正是考虑到这些问题和困难以及解决问题的困难性,至今仍然采用很落后的方式进行。

而造成以上问题的根本原因就是考试理论的不足,因此,为了解决这些问题,有人就提出了以先进的考试理论作为指导来组织考试,来提高考试效率和考试的适应性、科学性。从而导致了计算机自适应考试理论(Computerized Adaptive Testing,简称CAT )的大量研究与应用。

在当前众多的新型考试方法中,基于项目反应理论(item response theory) (Hambleton&swaminathan, 1985;Hambleton, Swaminahtan, &Rogers,1991;Hulin, Drasgow, &Parsons, 1983;Lord, 1980[3,4,5,6])的计算机自适应考试是近年来将计算机技术应用于教育测量学并取得重大进展的考试方法。

在1979年,CAST——著名的计算机自适应考试系统诞生于美国军方实验室,这是首个全国范围的CAT;在信息产业中,美国络维公司在1991年成功地应用了CAT进行认证考试,首次使参加络维自适应考试的人数超过了百万人次。现如今在美国,计算机自适应考试理论己经在教育测验、职业测量、人事评测等领域中广泛应用,如美国研究生入学考试(Graduate Record Examination)、全美护士国家委员会资格考试(Nurse National Committee License Test)以及工商管理类研究生入学考试(Graduate for Management and Administration Test)等都已经采用了CAT考试方式。

针对参加测试人数的限制,许多学者进行了大量研究,国外现有一些

大型自适应考试系统软件,如麻省理工学院心理学实验室研究设计的BIGSTEPS软件,可处理3300个项目和35000个考生的数据。美国教育测试中心和麻省理工学院的专家共同开发研究的BILOG软件,能处理3000个项目,尤其是被测者数量不限,很适合国内当前的大型考试分析。美国“测试系统公司”(ASSESSMENT SYSTEMS CORP0RATION)在全球计算机测试系统中首屈一指。该公司的FastSimpleTEST Professional是一套基于局域网和可视平台的多媒体在线测试软件,也可用于自适应测试。使用该软件测试可产生是非判断题、配对题、多项选择题(最多可达40个选项)等,同时支持音频、视频和图形等多媒体文件,还具有随机出题、实时随机、题目衍支、关键词查询、统计分析等功能。其中的功能模块具有暂停、点播或预览题目、跳越题目、局域网管理、显示题数、实时时钟、题目反馈、限定及格线等功能。有消息表明自适应考试是微软今后考试的主要类型[7]。

在我国,已经有大批学者和机构进行了CAT应用型的研究,自行进行了一些CAT测验,并取得了实际的运用效果,如北京理工在北京市计算机应用能力的考试项目“VB6.0程序设计”中已采用了CAT的考试设计方法。江西师大小学数学CAT研究[8]、华南理工大学的“数据结构”自适应测试系统的研究也取得了一定的成果。江西师范大学丁树良的“一个计算机化自适应考试系统”采用VB6.0和SQL 7.0开发。杨琳的基于Web的自适应考试系统采用SQL 7.0和https://www.doczj.com/doc/9a10997715.html,开发。使用的考试系统很多还是没有采用CAT的形式,但

目前国内CAT应用于考试系统的还不是很多,但对IRT的研究与应用逐渐得到了教育部门的普遍关注,也取得了一定的成绩,自上世纪九十年代初期开始,全国大学英语四、六级考试委员会一直致力于项目反应理论和“计算机自适应测验”的研究和开发[9],相信在不久的将来会实现这一突破。在不远的将来,CAT将成为所有重要考试的主要形式,在社会各个方面发挥重要作用。

但是,要真正彻底地实现计算机自适应考试,能作到在考试过程中,由考生对某一题目的难度来及时确定出相适应的考试策略,这还是有相当难度的。主要表现在[10]:

1、及时响应和大量统计的矛盾

这种方法是建立在大量计算和大量统计的基础上的,系统在考虑及时响应的时候会碰到高效地进行大量计算的问题。怎样才能在每一次完成作答之后计算出学生的能力水平并使考试过程适应考生的能力水平,同时又不影响到系统计算的及时性,这是目前最大的困难,也是亟待解决的问题。

2、难以确保参数估计的精度

CAT最大特点就是基于参数估计,是由考生在上一个作答中的表现进一步来估计该考生的能力水平,此次的作答结果作为下一次估计的依据。这样,一旦某一次参数估计出现偏差,可能就会导致偏差越来越大,对至于最终的参数估计不适用。

3、系统的可靠性无法得到保证

当举行大规模的考试的时候,比如全国范围内的计算机等级考试、高考等,由于是基于网络的考试,一旦网络出现问题,后果将不堪设想。即使网络能确保不出现问题,如此大规模的考试要保证系统交互的及时性,网络流量和容量的要求也是非常高的。

CAT在理论上已经比较成熟,但在实际应用中,还是难以保证,需要在实践中不断验证和完善。

总而言之,目前国内的CAT研究还处于小规模应用或者是部分实现阶段,大规模投入使用还有待各方面研究有进一步的突破。

1.3本系统目标和系统技术要求

1、总体目标:

以科学的自适应考试理论为指导,结合先进的项目反应理论,设计、开发出高性能、适应性强的网上考试系统。

2、具体目标:

(1)、以大容量试题库为基础,应用IRT,实现计算机自适应考试;

(2)、打破现有考试指定具体统一时间的限制,让学生在自己认为最佳状态时参加考试,使考试尽量真实地反映出学生的水平;

(3)、尽可能提供考试到考分查询的一系列全面功能;

(4)、加强数据管理和维护,保证数据的权威性和一致性;

(5)、结合网络技术,打破地域空间限制,为系统的推广创造条件;

(6)、增强系统后台管理能力。

3、本课题关键技术在于:

(1)、技术上,以CAI理论为基础,如何迅速根据考生以前的答题情况决定下一个或一批试题,即参数估计的大量计算问题;

(2)、如何在当前网络条件下,高效地保证系统的运行速度;

(3)、如何保证题库设计的科学性。包括大容量试题库的收集、整理和分类。

4、该系统实现并投入使用后,预期有以下效果:

(1)、考试形式将改变。现有考试将不再使用统一试卷、统一时间、统一地点的方式,被测者可以自已决定何时何地进行测试,系统引导考生进入系统后,根据考生信息生成试题,再根据考生作答情况进行分析,给出

下一道题目。因此,系统会根据考生答卷情况随时修改出题策略,理论上不会出现相同试卷,考生所花时间也会不同。但是,由于技术和环境的问题,目前还是不能做到在任何地点均可进行测试。

(2)、监考方式将改变。在新系统下,监考人员的任务简化为只需确认考生身份,因此,很大的区域可以只设一个监考人员,从而减少投入。

(3)、简化考务处理。在新系统下,可以大大减少人力物力的投入。

1.4 本文主要内容简介

本系统着眼于现有的网上考试系统的现状,分析其主要的不足,引入了计算机自适应考试系统的概念,力图使考试可以在任何时候、任何地点都可以进行,并且,考试过程和考试时间也根据学生的水平而有所不同,以使考试的方方面面都可以根据学生的不同而自适应调整的。

分析了引入自适应考试系统的困难,本文提出将IRT引入到系统的实现中,来帮助解决多参数复杂模型的准确估计和计算量大的矛盾以及保障系统交互性和可靠性的困难。

本文主要内容如下:

在第一章中,本文首先详细分析了现有考试系统的缺陷和不足,以作为本系统开发的主要依据,并提出了研究本系统的意义所在;

第二章介绍了计算机自适应考试理论的原理和主要的实现思路,重点介绍项目反应理论,及对开发的指导意义;

第三章对基于IRT理论的CAT系统进行总体设计与分析,对系统的各功能模块进行了设计,介绍了系统设计过程;

第四章采用M M L E/E M算法进行参数估计,对IRT项目参数估计模型进行了改进,采用一种运用特征函数计算出难度系数的方法,对CAT考试系统抽题策略进行了改进,介绍了基于改进的IRT理论的CAT系统的实现,对用户管理模块、考试模块、IRT考试模块进行了详细的阐述;

第五章对系统进行了测试及实例分析;

论文最后对系统的设计开发过程进行了总结,展望了自适应考试系统的发展趋势,提出了今后的研究方向。

2 自适应考试系统理论及基础

2.1 项目反应理论(Item Response Theory)概述

2.1.1项目反应理论

CAT测试是建构在现代测试理论——项目反应理论(IRT)基础之上的,从试题库的建设到试题的选择再到最后的改卷,都是在IRT指导下进行的。CAT因此也被认为是现代测试理论对测试的最大贡献[11]。Hambleton和Swaminathan对项目反应理论作了如下定义:在测验情景中,通过定义被试的特征,即特质或能力、估计被试在这些特质上的得分(称作能力分数)、并运用这些分数来预测或解释项目以及答题情况,来解释和预测被试的作答[12]。特质(能力)和项目(试题)是IRT的两个核心概念。两者之间的关系是IRT的主要内涵。IRT和其指导下的计算机化自适应考试主要研究内容和理论支撑有:参数估计、测验等值、选题策略和终止规则。

2.1.2 项目反应理论的发展

当今主要有两种考试指导理论:(1)经典测试理论(CCT),(2)项目反应理论(IRT)。通常纸张考试和传统考试都基于经典测试理论,它是以信度、效度、区分度等统计特征量为中心的测试理论,它的主要问题是这些统计特征量与被测试的样本数据有关。被测试的样本不同,求得的统计特征量的数值也不同,这显然是不合理的。项目反应理论正是基于这种情况下出现的。它的最大的优点是项目参数的估计与被测试的样本无关。它根据被测者对问题的回答情况,通过题目特征函数的推算,来推测被测者的能力。项目反应理论研究中的一项重要工作就是确定项目特征曲线的形态,然后得出项目特征函数(item characteristic function;简记为ICF)。人们常说的项目反应模型通常就是指项目特征函数[13]。

项目反应理论的基本思想起源于上世纪30年代末至40年代初,在1948年,维克(Tucker)正式提出了“项目特征曲线”概念,把表征被测试者的能力或特质水平与其对一个测验项目的正确反应概率之间的关系描述为二维的曲线图。

1953年,美国教育测量学和心理学家洛德(Lord)提出了著名的正态卵形模型以及该模型的参数估计方法,并成功地将他的模型应用于实践。随后,在1958年,伯恩鲍姆(Birnbaum)提出了便于处理的逻辑斯蒂(Logistic)模型以及相应的统计计算方法,取代了洛德的正态卵形模型,进一步推动了项目反应理论的发展。

自上个世纪80年代以来,项目反应理论在其各个方面,如测试设计、参数估计方法、测试等同化、自适应测试等方面,都取得了很大的发展。当前人们对项目反应理论的研究工作,主要在两方面,在理论方面侧重于连续变量测验资料和多维情况下的数学模型探索上;而在应用方面,则侧重于模型——资料拟合深度检验方法和参数估计方法的改进,以及项目反应理论在测试编制、测试参数等值、题库建设等实际问题上的应用。

2.1.3 项目反应理论的基本原理

大家都清楚,考试的目的在于用测验分数来将表达被测试者不能直接测量的内部潜在特质,从而推断和评估其能力水平。项目反应理论是建立在潜在特质理论的基础上的,它通过建立一定的项目反应模型来描述这种关系的。项目反应理论的最大特点是:它找到了一条项目特性曲线并且以多种数学表达式(即数学模型)来描述它和逼近它,形成了不同的项目反应模型[14]。显然,不同的数学模型对曲线有不同程度的逼近也含有个数不同的参数。项目特性曲线的数学模型一般来说均包含两方面的参数:[15]一是用来刻画测验项目的特征的项目参数;

二是用来刻画考生特征的能力参数或称潜在特质。

根据以上参数,可以对测试项目的质量做出评价,也可以测算出单个考生自身在任一测验项目上的反应,从而估计出潜在特质的量数,即考生完成测验项目时所真正具有的能力或特质。从理论上说,彻底解决了经典测验理论无法建立测验项目参数之间与考生得分两者间函数关系的问题。

1、基本假设

项目反应理论的基本假设主要有三方面:

(1)、潜在特质空间的单维性假设

所谓单维性假设,指测试只测量被测者的某一种能力(如阅读能力),而可以忽略其他能力对测试结果的影响(如判断能力)。也就是说,被测者对测试项目的反应只受一种能力水平的支配而不受其他能力水平的影响。

但实际上,任何测试都不可能是单维的。影响被测者对测试项目反应的因素,除了该测验所测量的能力或特质外,通常还包括测验情景、个性以及认知等方面的因素,如测验焦虑、外界环境等。因此,项目反应理论的关于测验的单维性假设并不是真正意义上的单维性假设,首先该因素是测试所要测量的能力或特质,并且在所有影响被测者反应的因素中占主导地位,且这种主导地位是唯一的,那么这样的测验可认为是单维性测验。

(2)、局部独立性假设

局部独立性假设是指对同一特质水平或能力的被测者能力而言,项目间不存在相关性。这与一维性假设一个道理,它是指被测者对测试中不同

题目的反应在统计上是互不干扰的,是独立的。也就是说考生在其他题目上的正确反应概率不会影响到在此次测试中对某题目的正确反应概率。可以认为,被试者对某一测验项目的反应只与该测验项目本身的性质有关,不会受到其他测目反应情况的影响。

同理,在同一项目上各被试者的作答也是互不干扰的,仅由被测者的潜在特征决定,一个被测者的成绩不会影响别的被测者的成绩。

(3)、项目特征曲线假设

指考生对项目所作反应的概率遵循一定的函数关系,这种函数关系可以用项目特征曲线形式展示出来,是对考生某项目的正确反应概率与其能力之间的函数关系所作的模型。

2、项目反应模型

不同的项目特性曲线假设对应着不同的项目反应模型,当前应用最多的二级评分的单维非线性项目反应模型,以伯恩鲍姆提出的逻辑斯蒂模型为代表。多维模型及连续性模型比较复杂,目前都还处于研究阶段。下面着重介绍两种二级评分项目反应模型:最优量表模型和逻辑斯蒂模型。

(1)、最优量表模型

最优量表模型是古特曼提出的,所以又称为古特曼模型。古特曼认为,对于一个测验项目,如果被试者的相应能力或特质θ达到或超过了难度水平b,那么被试者就能对此项目作出正确反应,反之则不能。如图2—1所示,古特曼模型的相关被试曲线是一条阶梯曲线,图中的b通常被称为项目难度。

图2-1 古特曼模型

在实际测量中,大量的分析和统计结果表明,大多数情况下,即使被试者的能力或特质水平θ达到或超过了某个水平b,被试者也不一定能对难度为b的项目作出正确的反应;反之亦然。所以,古特曼模型存在很大的局限性,在实际中很少应用。

(2)、逻辑斯蒂模型

逻辑斯蒂模型是伯恩鲍姆于1958年提出的。他假定的项目特性曲线如图2一2所示。

图2-2 逻辑斯蒂模型

项目特性曲线反应的是各种特质水平的被测者(一般用θ表示),对某一测试项目的正确反应概率(一般用P(θ)表示)。一定特质水平或能力的被测者对某一项目的正确反应概率与无其它因素无关,只由该项目的质量决定。

通常情况下,被测者的特质水平可看作连续变化的,因此,反映各特质水平上被试者的答对概率的连线就必然成一条平滑的曲线。因为特质越高的被试者答对概率越大,因此这条曲线是一单调递增函数曲线。经研究,被测者的答对概率与其特质水平之间的关系是非线性的,即当特质水平θ大或小到一定程度以后,答对概率P(θ)随之变化的速度显著变小。经研究发现,这种曲线的形状,是一条以其拐点为中心的如图2-2所示的S型曲线。

通常情况下我们可采用项目难度、项目区分度和猜测参数三个指标来描述某一测验项目的质量。从图2-2中可以看到,项目特性曲线下部的渐近线离坐标轴的零点存在一点距离,这就充分说明由于存在猜测因素,特质水平或能力很低的被测者仍有可能碰运气答对。该项目的猜测参数,通常用c来表示,它是凭猜测答对该题的概率。在前面我们提到,项目特性曲线是一条以拐点为中心的曲线,因而其拐点在纵轴上的投影正好落在c与1的中心上,即拐点的纵坐标为(1+c)/2。这表明特质水平为b(拐点在横轴上的投影)的被测者在排除猜测因素不计的情况下,与答对、答错该项目的概率恰好彼此相等。因此b一般被定义为项目的难度参数。项目特性曲线拐点处的斜率反映了曲线的陡峭程度,这与项目划分被测者特质

水平的能力有关。很显然,曲线越陡,答对概率P(θ)对特质水平的变化就越敏感,即项目区分被试者水平的能力越强。因此,曲线拐点处的斜率被称为项目的区分度参数,通常用a 表示。

用来描述项目反应模型的数学函数称为项目反应函数。根据以上的分析可以得出,项目反应函数就是描述被测者答对概率P(θ)与项目的参数a 、b 、c 和被试者的特质水平θ在数值上的关系。逻辑斯蒂模型得名于伯恩鲍姆选择用来描述项目反应模型的数学函数是逻辑斯蒂拱形函数族。根据参数的不同,特征函数可分为单参数、双参数和三参数三种模式,它们的数学表达式分别为:

单参数模式: (2-1) 双参数模式: (2-2) 三参数模式: (2-3)

其中:D=1.702为量表因子常数;D :受测者能力值;P(θ):能力为θ的人答对此题目的概率。a :题目的区分度,即特征曲线的斜率,它的值越大说明题目对受测者的区分程度越高。b :题目的难度,即特征曲线在横坐标上的投影。c :题目的猜测系数,即特征曲线的截距。值越大,说明不论受测者能力高低,都容易猜对本道题目。

项目反应理论具有以下优点:

(1)、题目参数估计更为准确。

(2)、全面解决考试等值问题。

(3)、定义了信息函数这一综合质量指标,作为更科学地挑选题目的标准。

(4)、适合编制自适应考试系统。

通过对比,可以发现二参数模型和三参数模型两者之间有着非常紧密的联系。如果用P2来表示二参数模型,用P3来表示三参数模型,则有P3=C (1-P2)+P2,该公式表明被测者回答项目正确的概率由两部分构成。一部分是由于考生理解该项目,知道该项目正确应答的P 部分,它是由考生能力决定的;另一部分是考生对该项目并不理解,只是由于猜测、推断等原因,偶然地给出正确应答的C(1-P2)部分,它是由于偶然因素(如运气)所造成的。在计算机标准化考试试题中,一般是四选一的单项选择题目。这就必需要考虑到存在考生偶然猜测成分因素。因此一般情况下均以三参数模型为基础来构造计算机自适应考试系统。

b)Da(θe P --+=11)(θb)Da(θe c c P --+-+=11)1()(θb)D(θe P --+=11)(θ

图2-3 二参数和三参数模型的比较

从图2-3可以看出:当测试项目可以通过猜测等因素而作出正答的可能时,选用三参数模型比二参数模型更适宜。

3、项目信息函数和测试信息函数的意义

对于一个给定的项目(项目参数一定),它对不同被试的能力水平的分辨能力如何呢?或者说,被试者对一个项目作答后能带给我们关于被试者能力水平的信息有多少呢?被试者作答一个项目的得分反映其能力水平的精度有多高呢?为了回这一问题,项目反应理论引入了一个项目信息函数。项目信息函数(item information function ,简称IIF)在测验的发展与编制上,以及试题好坏的诊断上,扮演着举足轻重的角色,因为它能反映出试题对能力估计正确性的贡献量的大小。[16,17]

项目信息函数的定义:

)](1)[()]([

)(2

θθθθθj j j j P P P I -??= (2-4) 根据上述定义,我们可以计算出:

二参数项目反应模型的项目信息函数为:)](1)[

(7.1)(22θθθj j j j P P a I -=. 三参数模型的项目信息函数为:

(2-5)

为了帮助学生理解项目信息函数的意义,我们仍采用数值方法来讨论项目信息函数。

(1)、就某一个测试项目而言,当项目参数一定时,)(θI 只是θ的函

数,因此它可用来描述测试项目对不同能力水平的被试者进行测试的有效222))](7.1exp(1))][(7.1exp([)1(7.1)(j

j j j j j j j b a b a c c a I --+-+-=θθθ

性。在经典测验中将测验的效度用于所有被试者,而不考虑其能力水平。

(2)、当θ一定时,某一测试项目所能提供的信息量只取决于项目参数。

图2-4 区分度对信息函数的影响

θ,b=0.921,c=0.2)表明:项目区分度参数越大,项目信息图2-4(1

=

函数值也越大。

θ,b=0.921,a=2.0)表明:猜测参数越大,项目信息函数越图2-5 (1

=

小。

图2-5 项目猜测参数对信息函数的影响

从图2-6(a=2.0,b=0.921,c=0.2)可以看出:同一个项目在测验高、中、低水平的被试者时,它所提供的信息量是不一样的。当被试能力参数接近项目难度参数时,信息函数取得极大值。可实质上是,只有当被试能力水平略大于项目难度时,提供的信息量最大,且测验结果的效度和信度以及被试接受测验的积极性均可大提高。这就是我们在自适应测试中选择试题提供理论的依据所在。

图2-6 同一项目中信息函数与被试能力水平的关系

由上述分析,不难计算出信息函数为最大时的能力参数为:

]815.05.0ln[7.11max j j

j c a b +++=θ (2-6) 通过以上分析,我们可以得出一个结论,即项目信息函数是反映试题优劣的一个综合指标。

若我们假设被试参加各个项目的测试是相互独立的(不同测试项目之间没有相互影响),则当测试中包含n 个项目,且每个项目j 的项目信息函数为)(θj I ,各测试项目总的信息函数为测试信息函数:

∑==n

j j I I 1

)()(θθ (2-7)

测试信息函数表示了对于各种上千个不同被试,测试整体的测量精度。信息函数的可加性表明:组成测验的各个项目的质量越高(项目信息函数越大),它所提供的信息量也越大,从而根据整个测验所获得的数据资料而估算出来的被水平也越精确、越可靠。由此可见,测验信息函数是反映测验有效性的一个客观而精确的指标。

4、参数估计

每一个项目的选取都不是随意的,它是根据被测者先前的答题情况采用某种选择策略而进行的。具体步骤是首先根据对考生的能力进行估计,再挑选当能力值为θ时,具有最大信息值的项目max I (θ)。现代测验中估计能力参数θ的方法中,最为普遍使用的方法是最大似然估计法[18]。

若以

表示能力为θ的受测者对题目j 的反应为 (若答对,

=1;答错,

=0)的概率。则

(2-8)

其中:

n :题目数

相关主题
文本预览
相关文档 最新文档