认知诊断测验编制的原则
- 格式:docx
- 大小:21.53 KB
- 文档页数:8
认知诊断测验编制的原则standalone; self-contained; independent; self-governed;autocephalous; indie; absolute; unattached; substantive认知诊断测验编制的原则摘要:Tatsuoka 给出的实例表明,不同知识状态可能对应同一理想反应模式,即对知识状态产生误判。
如果不是对测验进行事后分析,找出属性及层级,而是采用Leighton 等人所倡导的方法,在认知诊断测验编制之前确定所测属性及其层次,导出可达阵,这时可以证明只要将可达阵作为认知诊断测验蓝图的一部分,则可避免这一问题。
这一原则不仅对认知诊断测验蓝图的设计有指导作用,而且对制定有认知诊断功能的计算机化自适应测验的选题策略有着重要的参考作用。
关键词:测验蓝图;认知诊断;可达矩阵;理想反应模式;计算机化自适应测验1. 引言通常把对个体知识结构、加工技能或认知过程(均简称为属性,attribute)的诊断评估称为认知诊断评估或认知诊断(cognitive diagnosis assessment /cognitive diagnosis, CDA,Leighton and Gierl,2007.) [1]。
一般的教育考试, 特别是大规模的考试,只提供考试分数或能力分数。
然而由单一的分数,既不能得到被试具体掌握或未掌握什么知识的结论,也不能得到被试做错试题的原因,以进行补救;对于相同分数的个体,更无法得到他们之间可能存在的知识状态和认知结构的差异。
传统的考试提供的信息已不太适合个体发展的需要,认知诊断评估的主要任务是挖掘更多的认知加工信息。
Leighton和 Gierl(2007)[1]认为认知诊断是用于测量/评价个体特定的知识结构(knowledge structure)和加工技能(processing skills)。
CDA 通过测验获得被试在测验上(可观察)的反应而推知该被试不可观察的知识状态(knowledge state)。
数学诊断性测验的研究综述作者:刘经兰黄玉华来源:《大学教育》2013年第19期[摘要]随着新一轮基础教育课程改革的发展,对考试的诊断研究已引起当前学者的广泛关注。
众多学者的研究都为诊断性测验的编制发展打下了理论基础与实践经验,也从不同层面为诊断性测验的编制提供了借鉴。
但这些研究提出的理论比较局限,不够精准,实践性欠佳,因此未能被广泛推广应用。
数学诊断性测验的研究并不多,国内的相关研究多集中在台湾;国外数学诊断性测验的年级跨度从幼儿园到初中,国内的研究大多集中在小学;总体来看,我国诊断性测验的编制研究还比较薄弱、零散,对于数学诊断性测验的研究还有待进一步充实和完善。
[关键词]诊断性测验理论研究现状[中图分类号] G642.0 [文献标识码] A [文章编号] 2095-3437(2013)19-0054-02一、诊断性测验概念的提出早在18世纪中期Bloom就指出,传统教育过于注重筛选的功能,应转向参照性测验以深入研究,测验应当更加注重学生的发展,并展示更多的相关信息。
近年来,在新一轮的基础教育课程改革启动并逐步完善的过程中,传统测验的局限性在新课程改革中尤为凸显。
单一的分数不能反映学生在解答题目时究竟使用了哪些认知成分或技能,因此很难诊断出学生答错题目的原因,也不能挖掘出考试信息的深度。
2007年,我国教育部考试中心戴家干主任提出,利用考试开展评价与诊断工作,是实现教育科学发展的重要途径,从考试到评价是时代赋予的任务。
由此可知,以考试为基础对学生进行相应的认知诊断是相当有必要的。
诊断性测验是鉴定学生在某一学科学习方面的优缺点或遇到困难而编制的一种测验方式。
时间一般在新的教学计划开始之前,如期末或期初,主要是了解与分析学生对基础知识和基本技能的掌握程度,以此鉴定学生的教学接受能力并为补救教学提供借鉴。
二、诊断性测验编制的理论(一)认知设计系统(CDS)认知设计系统(Albertson,1998)的提出,主要是由于传统项目开发存在削弱测验的结构效度方面的问题,认知设计系统更加强调以认知理论来指导编制测验项目,以此强化测验成绩的解释力度。
4~5年级阅读障碍儿童汉语词汇的认知诊断测验范晓玲;王思缘;耿博;伍慧;王梦翔【摘要】以IRT和认知诊断理论为指导,编制阅读障碍儿童汉语词汇认知诊断测验,并探索其认知属性模型及特征.通过对1074名4~5年级学生的测试与分析,测验的项目参数适当、信度和效度优良,97.3%的阅读障碍学生能被合理归类.阅读障碍儿童对感情色彩理解、整词理解和词素理解的掌握较差,对错词辨别的掌握一般,对视觉词汇、整体词音和词素词音的掌握较好.【期刊名称】《教育测量与评价(理论版)》【年(卷),期】2018(000)003【总页数】6页(P14-19)【关键词】汉语词汇;阅读障碍儿童;认知诊断测验【作者】范晓玲;王思缘;耿博;伍慧;王梦翔【作者单位】湖南师范大学教育科学学院长沙410081;湖南师范大学教育科学学院;湖南师范大学教育科学学院;湖南师范大学教育科学学院;湖南师范大学教育科学学院【正文语种】中文【中图分类】G448一、引言阅读是人类特有的高级心理机能,其基本材料是词,而阅读理解最基本的水平就是对词汇的理解和识别。
[1]词语作为汉语中能独立使用的最小单位,对阅读起着重大的作用。
[2]阅读障碍的主要特征表现为在单词识别上缺乏准确性与流畅性,并伴有拼写和解码困难。
[3]国外对阅读障碍儿童的研究不再停留于测评和诊断阶段,干预性和治疗性的研究逐渐增多。
国内针对阅读障碍儿童的研究起步相对较晚,不仅干预前的阅读障碍的调查性和诊断性测验缺乏[4],而且以词汇为材料的认知诊断测验更少,使得进一步的干预和治疗难以展开。
本研究以高夫(P.B.Gough)自下而上阅读认知理论和认知诊断理论为基础[5],采用Embretson的认知设计系统(connitivedesignsystem,CDS)[6]和规则空间模型[7](RSM),以汉语词汇为材料,编制4~5年级阅读障碍儿童汉语词汇的认知诊断测验,并总结和归纳被试的不同属性掌握模式及错误规则[8],旨在为词语阅读障碍儿童的筛查和诊断提供可靠而有效的评估工具,为其辅导、干预和治疗提供实证依据。
一、名词解释认知诊断:认知诊断是基于认知加工过程的诊断,是对个体认知加工过程中所涉及的认知属性的诊断。
从广义上说,认知诊断是建立观察分数和被试的内部认知特征之间的关系;从狭义上说,是指在测试中,按被试有没有掌握测试所测的技能或特质来对被试加以分类。
而所谓测试的认知诊断,不但了解学习者的能力知识结构,还能解释其通过知识掌握了哪些实际技能,在学习过程中采取了何种学习策略。
认知属性:认知属性一词用来描述被试正确完成任务所需的知识、技能、策略等,它是对被试问题解决心理内部加工过程的一种描述。
属性层级关系:认知属性不是独立操作,而是从属于一个相互关联的网络,认知属性间可能存在一定的心理顺序、逻辑顺序或者层级关系。
属性层级关系又四种基本类型:线性、收敛、分支、无结构。
这四种基本类型可组合为更复杂的网络层级关系。
Q 矩阵理论:Q 矩阵理论主要是确定测验项目所测的不可观察的认知属性,并把它转化为可观察的项目反应模式,将被试不可直接观察的认知状态在项目上可观察的作答反应相连接,从而为进一步了解并推测被试的认知状态提供基础。
即: 确定属性层级关系→连接矩阵→可达矩阵→事件矩阵→缩减实践矩阵→典型属性矩阵→典型项目反应模式这一过程统称为Q 矩阵理论。
Q 矩阵:Q 矩阵指描述测验项目于属性间关系的矩阵,它一般由J (J 指测验项目数)行K (K 指测验测量的属性个数)列的0—1矩阵组成,若1=jk Q 代表项目j 测量了属性k ,若0=jk Q 代表项目j 未测量属性k 。
A 矩阵(邻接矩阵)R 矩阵(可达矩阵)直接先决属性A1→A2→A3:A1为A2的直接先决属性间接先决属性A1→A2→A3:A1为A3的间接先觉属性理想掌握模式即所有可能存在的知识状态//利用扩张算法获取理想掌握模式p9理想反应模式指被试在不存在任何失误和猜测等误差条件下对项目的作答反应情况.即若被试掌握了项目考核的所有属性则被试答对该题,若被试至少有一个项目考核属性未掌握,则被试答错该项目。
《心理测量学》教学大纲一、课程基本信息课程代码:16091303课程名称:心理测量英文名称:Psychometrics课程类别:专业必修课学时:48学分: 3适用对象: 应用心理学专业大三本科生考核方式:考试先修课程:无二、课程简介《心理测量学》介绍了当今心理学研究中主要的测量方法,包括测量的信度、效度、以及测量中随机误差和系统误差的控制方法;测验的难度、区分度,以及试题难度分布的控制技术和提高试题区分度的技术;介绍了各种著名测验,除了要求了解编制原理,还要求掌握实际使用方法;本书还介绍了标准参照测验教育成就测验的技术和理论。
还引进了题库建设、测验等值、项目功能差异、评价中心技术、行为情境判断测验、内隐联想测验等较为新近或更为实用的测量理论和技术。
除了介绍经典测量理论,还介绍了发展前景更为诱人的项目反应理论和概化理论,以及认知诊断理论。
为将来准备从事心理学应用、教育考试、人员测评等工作的本科生学习使用。
Psychometrics program introduce some measure methods which are widely used in psychological research. Those methods are reliability, validity and control methods of random measurement error and systematic error; difficulty, discrimination and How to control the degree of difficulty and improve the distinction; introduced a variety of well-known tests, in addition to understand the principle, but also required to master the practical use; besides introducing classical measurement theory, also introduced a more attractive prospect item response theory and generalizability theory, and the theory of cognitive diagnosis.三、课程性质与教学目的心理测量学课程是心理学各专业共同必修的一门应用与方法课程。
认知诊断测验编制的原则摘要:Tatsuoka 给出的实例表明,不同知识状态可能对应同一理想反应模式,即对知识状态产生误判。
如果不是对测验进行事后分析,找出属性及层级,而是采用Leighton 等人所倡导的方法,在认知诊断测验编制之前确定所测属性及其层次,导出可达阵,这时可以证明只要将可达阵作为认知诊断测验蓝图的一部分,则可避免这一问题。
这一原则不仅对认知诊断测验蓝图的设计有指导作用,而且对制定有认知诊断功能的计算机化自适应测验的选题策略有着重要的参考作用。
关键词:测验蓝图;认知诊断;可达矩阵;理想反应模式;计算机化自适应测验1. 引言通常把对个体知识结构、加工技能或认知过程(均简称为属性,attribute)的诊断评估称为认知诊断评估或认知诊断(cognitive diagnosis assessment /cognitive diagnosis, CDA,Leighton and Gierl,2007.) [1]。
一般的教育考试, 特别是大规模的考试,只提供考试分数或能力分数。
然而由单一的分数,既不能得到被试具体掌握或未掌握什么知识的结论,也不能得到被试做错试题的原因,以进行补救;对于相同分数的个体,更无法得到他们之间可能存在的知识状态和认知结构的差异。
传统的考试提供的信息已不太适合个体发展的需要,认知诊断评估的主要任务是挖掘更多的认知加工信息。
Leighton 和 Gierl(2007)[1]认为认知诊断是用于测量/评价个体特定的知识结构(knowledge structure)和加工技能(processing skills)。
CDA 通过测验获得被试在测验上(可观察)的反应而推知该被试不可观察的知识状态(knowledge state)。
Leighton 和Gierl(2007) [1]在他们所编写的书第一篇文章称CDA 仍处于萌芽状态(CDA is still in its infancy),表明对CDA 的研究,包括认知诊断测验的构造都是新的课题。
Gierl(2007) [1]在注释中又指出,认知诊断测验设计是一个重要的研究领域,而已有的相关研究成果却很少,连Downing 和 Haladyma 编辑的由Erlbaum 在2006 年出版的测验编制手册(Handbook of test development)中也没有相应的章节涉及认知诊断测验编制,甚至找不到认知诊断评价的主题词条(subject entry)。
Gierl(2007)[2]还认为只有Gorin(2007)[1]描述了认知诊断测验编制的原理。
认知诊断测验的编制是一件具有挑战性的任务,限于篇幅和本文主旨,这里不讨论如何与命题专家沟通,打磨出好的试题的问题,而集中讨论认知诊断测验蓝图的编制问题。
在讨论认知诊断测验蓝图的编制问题之前,我们先看两个例子,一个是简化的用以解释原理性的例子;另一个是规则空间模型(rule space model,RSM)的开创者Tatsuoka(1995)给出的例子[2][3] [4][5],用以说明实际工作中考虑不周就很有可能编制出有问题的诊断测验。
下文中理想反应是指既不猜测也不失误的作答反应,只有被试掌握了项目所测的所有属性,才能正确作答。
属性层级方法(attribute hierarchy method,AHM)[6][7][8]中称理想反应为期望反应模式;确定性输入,噪声“与”门模型(deterministic inputs,noisy ”and” gate model,DINA,如可参见Henson&Douglas,2005[9])中的理想反应模式具体计算公式见附录1(其实,差不多所有理想反应模式都可以这样计算,当然也可以用丁树良等[10]介绍的方法计算)。
由附录1 中具体计算公式可见理想反应模式十分重要,其实理想反应模式对诸如RSM,AHM等许多认知诊断模型都十分重要。
对于诊断测验,在既不猜测也不失误的理想作答反应情况下,具有不同知识状态的被试对应不同的理想反应模式, 则称为理想的认知诊断测验;否则称为理想反应误判的认知诊断测验。
若具有不同知识状态被试对应相同的理想反应模式,则称这些不同知识状态为等价类。
实际上,这个等价类是由测验蓝图(测验Q阵)决定的,称为知识状态中由测验Q阵决定的等价类。
我们希望有测验Q阵,使得每个等价类中仅仅有一个知识状态。
例1.三个属性A1,A2,A3,它们彼此之间不存在先决关系(prerequisite relation)。
于是属性之间的可达阵R 为三阶单位阵I。
今给出三个项目作为诊断测验。
注意被试的知识状态共有8 种,即α1=(000),α2=(001),α3=(010),α4=(011),α5=(100),α6=(101),α7=(110),α8=(111)。
如果上述8 种被试分别参加测验蓝图为Qi(i=1,2,3,4)的认知诊断测验,则对于Q1,α1,α2,α3,α5 的理想反应模式均为(0,0,0),即理想反应模式为(0,0,0)的模式其潜在知识状态可能为α1,α2,α3,α5 ,此时如果根据其所有理想反应模式来判断其知识状态,误判率为3/8;上例中α1,α2,α3,α5 是Q1 决定的等价类;对于Q2,α1,α2,α3,α4 为一个等价类,理想反应模式均为(0,0,0);而α5,α6为另一个等价类,理想反应模式均为(1,0,0),即误判率为4/8;对于Q3,α1,α2 的理想反应模式均为(0,0,0),α3,α4 理想反应模式均为(0,1,0),而α5,α6 为第三个等价类,理想反应模式均为(1,0,0),即误判率为3/8;但对于Q4 却不带来任何误判。
例(1995,[4]给出了小学分数加减的认知诊断测验,测验共含9 个项目,依Tatsuoka 的事后(post hoc)分析,即通过对测验后的得分矩阵进行分析,得出5 个属性,属性完全相同的项目仅保留一个。
如第五题:7121 + 和第六题:2131 + 都是检测通分(A3)和分数相加(A4),即T)(00110 ,只保留第五题;而第四题44 222 1 + 与第八题42 363 1 + 均检测了所有五个属性,也应归为一类,即T)(11111 ,只保留第四题(本文中xT 表示向量x 的转置),于是仅剩下7 类项目,组成一个5×7 的Q 阵。
这里的Q 阵与Tatsuoka 给出的有不同,因为她给出的Q 阵有笔误,比如第七题只涉及分子相加(A4),即T)(00010 ,而不像Tatsuoka所标定的为“答案化简”,我们对这些笔误进行修正。
最后修正的Q 阵,它不含相同的列。
然而这个Q 阵可能导致对知识状态的误判,比如根据所测属性及其层次关系,有两个被试的知识状态分别为α1=(0,0,1,1,1),α2=(0,1,1,1,1),它们导出的理想反应模式却相同,都等于(0,1,1,0,1,1,0)[8]。
这个例子说明一个很严重的问题:Tatsuoka(1995,)[4]希望规则空间模型(Rule spacemodel, RSM)中的Q-矩阵理论,能够起到桥梁作用——将可观察的反应向量对应到不可观察的知识状态。
现在至少有两个不同的知识状态(例如α1,α2),居然对应到同一个理想反应模式,即这个等价类中至少含有两个知识状态。
此时如果我们观察到这个理想反应模式,以此来诊断其隐藏的知识状态,我们难以判断隐藏的知识状态到底是α1,还是α2。
这时完全可能产生误判。
我们称不同知识状态对应同一理想反应模式的现象为对知识状态的误判。
Tatsuoka(1995,)[4]以实例说明属性掌握模式(即被试知识状态)和理想反应模式并不是一一对应的,而是多个属性掌握模式对应同一个理想项目反应模式(idealitem-response pattern)。
这种现象对于被试的归类是很不利的,同时也说明Tatsuoka 提供的方法存在一定的问题。
由于认知诊断测验蓝图直接影响CDA 的分类效果,下描述了CDA 最为核心的过程,其中, s Q 是由可达阵R 导出的Q阵,称为被试Q阵,这时s Q 的每一列都代表了“一类”知识状态(knowledge state),表示一个测验中项目与属性关联关系的的Q矩阵为测验Q矩阵,记为t Q ,显然t Q 只是s Q 的某一部分,即t Q 是s Q 的子矩阵(sub-matrix)且不含相同的列[10];α 是知识状态, η 是理想(期望/潜在)反应模式,f--1 是f 的反函数,此时要求f 本身是一一映射[9]。
后半部分由试题性质、被试动机或一些随机因素等决定,因此要提高CDA 分类的准确性,关键取决于前半部分。
如果一映射( | ) s t f α∈Q Q 使得集合s Q 中的不同列(称为s Q 中的元素)在理想反应模式集合η 中有相同的象,则分类较为模糊——只能分到相应的等价类中。
如果能够编制一测验蓝图t Q 使得对应关系( | ) s t f α∈Q Q 对于集合s Q 中的任何一个元素,在集合η 中都存在唯一的一个元素与之对应,则可以通过求对应关系的反函数,达到对反应模式的比较准确的分类。
我们希望对任何一种属性层级,都能如例1一样,构造出相应的测验蓝图,使得属性掌握模式(知识状态)与理想反应模式一一对应。
本文探讨将可达阵作为测验蓝图的一部分对提高认知诊断准确率的关系;要对认知诊断测验编制进行讨论。
第2 节讨论认知诊断的逻辑顺序以及测验蓝图的编制,第3 节讨论上述结论中的应用,即对测验编制的指导作用和对有认知诊断功能的计算机化自适应测验选题策略的制订的指导作用;第4 节进行Monte Carlo 模拟研究,以讨论“将可达矩阵作为(或不作为)测验蓝图一部分”时的误判率大小;并验证第2 节的结论。
第5 节是认知诊断测验编制的相关问题的进一步讨论。
另外,我们给出一些附录,主要是想正文枝蔓不要太多而妨碍文章的主要结论,增加文章的可读性。
2. 认知诊断测验蓝图的编制Tatsuoka(1983,1991,1995) [2][3] [4]的规则空间模型中关联矩阵Q 是可以通过分析测试项目得到的。
事实上,目前许多CDA 是根据认知诊断模型(cognitive diagnostic model,CDM)对已有的测验进行分析,这些已有的测验并不是为认知诊断“量身定制”的。
Leighton, Gierl,和 Hunka(2000)[11]指出这样导出Q 阵的方法逻辑性不强。
Gierl 等人(2000) [11]及Leighton 等人(2004)[6]建议在测验之前就由专家给出欲测属性及这些属性间的层级关系(hierarchyrelation)。
对于如何构造一个有利于诊断的项目,Gorin(2007)[1]给出了一些例子,并给出一些原则;Gorin(2007)[1]强调诊断测验的构造的重要性不亚于构造单个项目的重要性,文章甚至造出一个不利于认知诊断的测验蓝图(其中每个项目至少包含两个属性),并讨论了诊断测验编制的问题,认为诊断测验中应尽可能多地包括对应Qr 中的列的项目。