认知诊断测验编制的原则

格式：docx
大小：21.53 KB
文档页数：8

下载文档原格式

可达矩阵在认知诊断测验编制中的重要作用

性都是其自身的先决属性．考生的知识结构、知加工技能等是不能直接观察的潜变量．认认知诊断评估要设计一个测验，以诱发出考生内在认知特点的外在表现，而实现对内在认知特征的判断．的认知诊断测验不仅要将考生潜在的从好不可直接观察的特征转换成可观察的反应，且要区别不同知识结构和不同加工技能的考生．设确定了而假认知诊断的领域（如学科、节、元等）由于不同领域的属性之间可能存在不同的层级关系，题专家只章单，命能命拟符合这些层级的考题（目）本文称符合属性层级关系的项目为有效项目… ；项，此外，测验中各种项目的组合要有利于区分不同认知特征的考生，一目标与传统的能力测验有很大的不同，专家可以从不同这如角度命拟一批多位数乘法项目，这不一定适合诊断性测验，但因为从这批考题的反应结果中，以区别出不难
测验可以用属性与项目的关联阵表示，这个关联阵记为，是Ｑ５的一个子矩阵．中每一列代表一类考Ｑ５
生（至少掌握了１个属性）的知识状态（ｎｗｅｇｔｅＫ）而Ｑ中每一列代表一类项目（ｅ．ｋｏｌｅｓｔ，Ｓ；ｄａｌｉｍ）由扩张算法ｔ
级已经给定，从而属性之间的邻接阵、可达阵足均可以计算出来．可达阵的列表示属性之间的直接或间接

心理测量-第八章-测验的编制与实施

一、测验编制的一般程序
测验的界定制定编题计划编制题目项目的试测和分析合成测验测验的标准化测验的修正与鉴定编写测验手册
第一页，共33页。
第一步：测验的界定
测量对象：什么人，儿童/成人，测量目标：什么内容，心理变量/行为
如：成就、智力、人格
测量用途：诊断/预测常模参照测验 /标准参照测验
第二页，共33页。
第一步：测验的界定（续）
建构测验的理论依据：
基于逻辑或内容：考虑行为的领域范围并进行相应的度量（如教育测验）
基于理论：根据一种理论编写出能够反映理论构想的题目（如Myers-Briggs Type Indicator 或MBTI基于容格的类型论）
基于外部效标：选择那些能够将个体或群体做出区分的题目（如MMPI，CPI，罗夏墨迹测验等）。。基于经验
境
第三十三页，共33页。
使用技术上的行话反应之间相互重叠
使用“以上所有”
第八页，共33页。
例2：主观题——人格
是非题
我喜欢去干有冒险性的工作
利克特评定量表：5点或7点评定
朋友们通常把我看成是一个潇洒的人
1
2
使用特殊符号
很不象我
用于态度调查
你对XXX电视节目有什么看法？
34 5
非常象我
第九页，共33页。
整。在测验建构中起着重要作用。
题目分析可以从质和量两个方面进行。
质：内容与形式量：统计学特性
题目是否对不同类型的人群有不同的难度与区分度
第十四页，共33页。
第五步：合成测验
项目的选择
根据项目分析结果筛选项目，选出的题与双向细目表对照，有效区分且难度合适，考虑题目数及所需时间

认知诊断测验编制的原则

认知诊断测验编制的原则standalone； self-contained； independent； self-governed；autocephalous； indie； absolute； unattached； substantive认知诊断测验编制的原则摘要：Tatsuoka 给出的实例表明，不同知识状态可能对应同一理想反应模式，即对知识状态产生误判。

如果不是对测验进行事后分析，找出属性及层级，而是采用Leighton 等人所倡导的方法，在认知诊断测验编制之前确定所测属性及其层次，导出可达阵，这时可以证明只要将可达阵作为认知诊断测验蓝图的一部分，则可避免这一问题。

这一原则不仅对认知诊断测验蓝图的设计有指导作用，而且对制定有认知诊断功能的计算机化自适应测验的选题策略有着重要的参考作用。

关键词：测验蓝图；认知诊断；可达矩阵；理想反应模式；计算机化自适应测验1. 引言通常把对个体知识结构、加工技能或认知过程（均简称为属性，attribute）的诊断评估称为认知诊断评估或认知诊断(cognitive diagnosis assessment /cognitive diagnosis, CDA，Leighton and Gierl，2007.) [1]。

一般的教育考试, 特别是大规模的考试，只提供考试分数或能力分数。

然而由单一的分数，既不能得到被试具体掌握或未掌握什么知识的结论,也不能得到被试做错试题的原因，以进行补救；对于相同分数的个体，更无法得到他们之间可能存在的知识状态和认知结构的差异。

传统的考试提供的信息已不太适合个体发展的需要，认知诊断评估的主要任务是挖掘更多的认知加工信息。

Leighton和 Gierl（2007）[1]认为认知诊断是用于测量/评价个体特定的知识结构（knowledge structure）和加工技能（processing skills）。

CDA 通过测验获得被试在测验上(可观察)的反应而推知该被试不可观察的知识状态（knowledge state）。

认知诊断技术在学科学业评价中的应_省略_初中一年级_有理数及其运算_为例_宁革

作者简介宁革，中学高级教师，广东省深圳市滨河中学副校长，深圳市首批教育科研专家工作室主持中学高级教师，广东省深圳市滨河中学数学教师。吴伙兵，硕士，中学高级教师，广东省深圳市滨人; 龚天平， 518001 。河中学数学教师。广东深圳， “十二五” 本文系广东省教育科学规划 2011 年度教育信息技术研究项目( 编号: 11JXZ009 ) 成果之一。
考依据。为此，本研究借助教育统计与测量 — —认知诊断 ( cognitive 中的前沿技术— diagnosis，CD ) 技术，尝试在初中一年级对 “有理数及其运算 ” 这一内容进行认知诊断。
［1 ］认知诊断技术是在项目反应理论 ( IRT ) 基
— —以初中一年级 “有理数及其运算” 认知诊断技术在学科学业评价中的应用— 为例表2
题号 T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 A1 1 0 0 0 0 0 0 0 0 0 0 0 A2 0 1 1 1 0 0 0 0 0 0 0 0 A3 0 0 0 0 1 0 0 0 0 0 0 0 A4 0 0 0 0 0 1 1 1 1 0 0 0 A5 0 0 0 0 0 0 0 0 0 1 1 0 A6 0 0 0 0 0 0 0 0 0 0 0 1 A7 0 0 0 0 0 0 0 0 0 0 0 0
个认知属性; 若 q ij = 0 ，说明第 i 题未测量第 j 个认知属性。Q 矩阵被认为是认知诊断测验编制的蓝图。试题编制过程如下: 首先，收集一批“有这一内容的测试题，题型全理数及其运算 ” 部为单项选择题。然后，将每道试题所运用到的属性直接标示在该题题首，这是属性与试题关联匹配的过程。最后，由具有丰富教学经验的教师在这一批测试题中挑选出较有典型性、代表性，且难度相对适中的试题组成认知诊断测验。我们针对第一属性群共挑选了 23 道测试题( 见附录 ) ，从而得到“有理数及其运算” 第一属性群的诊断测验 Q 矩阵，详见表 2 。表 2 中，第 1 题只测量认知属性 A1 ，第 8 题只测量了认知属性 A4 ，第 21 题测量了 A4 和 A5 两个认知属性，其余试题依此类推。

数学诊断性测验的研究综述

数学诊断性测验的研究综述作者：刘经兰黄玉华来源：《大学教育》2013年第19期[摘要]随着新一轮基础教育课程改革的发展，对考试的诊断研究已引起当前学者的广泛关注。

众多学者的研究都为诊断性测验的编制发展打下了理论基础与实践经验，也从不同层面为诊断性测验的编制提供了借鉴。

但这些研究提出的理论比较局限，不够精准，实践性欠佳，因此未能被广泛推广应用。

数学诊断性测验的研究并不多，国内的相关研究多集中在台湾；国外数学诊断性测验的年级跨度从幼儿园到初中，国内的研究大多集中在小学；总体来看，我国诊断性测验的编制研究还比较薄弱、零散，对于数学诊断性测验的研究还有待进一步充实和完善。

[关键词]诊断性测验理论研究现状[中图分类号] G642.0 [文献标识码] A [文章编号] 2095-3437（2013）19-0054-02一、诊断性测验概念的提出早在18世纪中期Bloom就指出，传统教育过于注重筛选的功能，应转向参照性测验以深入研究，测验应当更加注重学生的发展，并展示更多的相关信息。

近年来，在新一轮的基础教育课程改革启动并逐步完善的过程中，传统测验的局限性在新课程改革中尤为凸显。

单一的分数不能反映学生在解答题目时究竟使用了哪些认知成分或技能，因此很难诊断出学生答错题目的原因，也不能挖掘出考试信息的深度。

2007年，我国教育部考试中心戴家干主任提出，利用考试开展评价与诊断工作，是实现教育科学发展的重要途径，从考试到评价是时代赋予的任务。

由此可知，以考试为基础对学生进行相应的认知诊断是相当有必要的。

诊断性测验是鉴定学生在某一学科学习方面的优缺点或遇到困难而编制的一种测验方式。

时间一般在新的教学计划开始之前，如期末或期初，主要是了解与分析学生对基础知识和基本技能的掌握程度，以此鉴定学生的教学接受能力并为补救教学提供借鉴。

二、诊断性测验编制的理论（一）认知设计系统（CDS）认知设计系统（Albertson，1998）的提出，主要是由于传统项目开发存在削弱测验的结构效度方面的问题，认知设计系统更加强调以认知理论来指导编制测验项目，以此强化测验成绩的解释力度。

4～5年级阅读障碍儿童汉语词汇的认知诊断测验

4～5年级阅读障碍儿童汉语词汇的认知诊断测验范晓玲;王思缘;耿博;伍慧;王梦翔【摘要】以IRT和认知诊断理论为指导,编制阅读障碍儿童汉语词汇认知诊断测验,并探索其认知属性模型及特征.通过对1074名4～5年级学生的测试与分析,测验的项目参数适当、信度和效度优良,97.3％的阅读障碍学生能被合理归类.阅读障碍儿童对感情色彩理解、整词理解和词素理解的掌握较差,对错词辨别的掌握一般,对视觉词汇、整体词音和词素词音的掌握较好.【期刊名称】《教育测量与评价（理论版）》【年(卷),期】2018(000)003【总页数】6页(P14-19)【关键词】汉语词汇;阅读障碍儿童;认知诊断测验【作者】范晓玲;王思缘;耿博;伍慧;王梦翔【作者单位】湖南师范大学教育科学学院长沙410081;湖南师范大学教育科学学院;湖南师范大学教育科学学院;湖南师范大学教育科学学院;湖南师范大学教育科学学院【正文语种】中文【中图分类】G448一、引言阅读是人类特有的高级心理机能，其基本材料是词，而阅读理解最基本的水平就是对词汇的理解和识别。

[1]词语作为汉语中能独立使用的最小单位，对阅读起着重大的作用。

[2]阅读障碍的主要特征表现为在单词识别上缺乏准确性与流畅性，并伴有拼写和解码困难。

[3]国外对阅读障碍儿童的研究不再停留于测评和诊断阶段，干预性和治疗性的研究逐渐增多。

国内针对阅读障碍儿童的研究起步相对较晚，不仅干预前的阅读障碍的调查性和诊断性测验缺乏[4]，而且以词汇为材料的认知诊断测验更少，使得进一步的干预和治疗难以展开。

本研究以高夫（P.B.Gough）自下而上阅读认知理论和认知诊断理论为基础[5]，采用Embretson的认知设计系统（connitivedesignsystem，CDS）[6]和规则空间模型[7]（RSM），以汉语词汇为材料，编制4～5年级阅读障碍儿童汉语词汇的认知诊断测验，并总结和归纳被试的不同属性掌握模式及错误规则[8]，旨在为词语阅读障碍儿童的筛查和诊断提供可靠而有效的评估工具，为其辅导、干预和治疗提供实证依据。

教育认知诊断测验与认知模型一致性的评估_丁树良[1]

心理学报 2012, Vol. 44, No.11, 15351546 Acta Psychologica Sinica
DOI: 10.3724/SP.J.1041.2012.01535
教育认知诊断测验与认知模型一致性的评估*
丁树良 1
3
毛萌萌 2
汪文义 1
罗
芬1
CUI Ying3
(1 江西师范大学计算机信息工程学院 , 南昌 330022)
1tt10100的erp对应0t以及t00第二个问题除掉对照层级关系图写出可达矩阵直接对可达矩阵进行比对之外还可以使用缩减算法解决对lostq使用缩减算法得到0010010000??001100100000011??????????????m这表明qt的缺陷是缺少了当然由于qt本身的构造m中的前面4列才是qt本身缺少的m中的第5列是由r1和qt中的相同列第1列和r1中的第5列作布尔并得到的
补偿模型包括连接模型(conjunctive models)和非连接模型(disjunctive models)。连接的含义是掌握项目所有属性 , 可以较高的概率正确作答 , 而未掌握 ( 即使只有一个属性没有掌握)也将大大降低答对概率。本文仅讨论连接的非补偿模型。认知模型因为和具体的认知行为有关 , 故更加多姿多彩。本文仅讨论教育测量中的认知模型。给定一个感兴趣的论域 (domain), 教育测量中的认知模型是对问题解决的抽象, 选择合适的粒度 (granularity) 刻划任务 , 即用合适的粒度 ( 粒度的直观解释是考察点的细分或细化程度 ) 对问题解决的简化描述 , 以方便解释和预报被试表现 , 包括他们在这个论域中认知上的长处和不足 (Gierl, Leighton, & Hunka, 2007)。比如诊断小学生分数运算掌握情况, 就不能使用 “分数运算 ” 这么大的粒度对问题进行描述 , 而要将这个属性进行分解 , 用更小的粒度 ( 比如相同分母的加减运算、求两个整数的最小公倍数、最大公因子、通分、异分母加减运算、约分, 等等)进行描述(许志勇, 丁树良, 汪文义, 涂冬波, 2010)。认知模型提供了对测验反应进行解释的框架 ,

认知诊断学习文档

一、名词解释认知诊断：认知诊断是基于认知加工过程的诊断，是对个体认知加工过程中所涉及的认知属性的诊断。

从广义上说，认知诊断是建立观察分数和被试的内部认知特征之间的关系；从狭义上说，是指在测试中，按被试有没有掌握测试所测的技能或特质来对被试加以分类。

而所谓测试的认知诊断，不但了解学习者的能力知识结构，还能解释其通过知识掌握了哪些实际技能，在学习过程中采取了何种学习策略。

认知属性：认知属性一词用来描述被试正确完成任务所需的知识、技能、策略等，它是对被试问题解决心理内部加工过程的一种描述。

属性层级关系：认知属性不是独立操作，而是从属于一个相互关联的网络，认知属性间可能存在一定的心理顺序、逻辑顺序或者层级关系。

属性层级关系又四种基本类型：线性、收敛、分支、无结构。

这四种基本类型可组合为更复杂的网络层级关系。

Q 矩阵理论：Q 矩阵理论主要是确定测验项目所测的不可观察的认知属性，并把它转化为可观察的项目反应模式，将被试不可直接观察的认知状态在项目上可观察的作答反应相连接，从而为进一步了解并推测被试的认知状态提供基础。

即：确定属性层级关系→连接矩阵→可达矩阵→事件矩阵→缩减实践矩阵→典型属性矩阵→典型项目反应模式这一过程统称为Q 矩阵理论。

Q 矩阵：Q 矩阵指描述测验项目于属性间关系的矩阵，它一般由J （J 指测验项目数）行K （K 指测验测量的属性个数）列的0—1矩阵组成，若1=jk Q 代表项目j 测量了属性k ，若0=jk Q 代表项目j 未测量属性k 。

A 矩阵（邻接矩阵）R 矩阵（可达矩阵）直接先决属性A1→A2→A3：A1为A2的直接先决属性间接先决属性A1→A2→A3：A1为A3的间接先觉属性理想掌握模式即所有可能存在的知识状态//利用扩张算法获取理想掌握模式p9理想反应模式指被试在不存在任何失误和猜测等误差条件下对项目的作答反应情况.即若被试掌握了项目考核的所有属性则被试答对该题，若被试至少有一个项目考核属性未掌握，则被试答错该项目。

《心理测量》-课程教学大纲

《心理测量学》教学大纲一、课程基本信息课程代码：16091303课程名称：心理测量英文名称：Psychometrics课程类别：专业必修课学时：48学分： 3适用对象: 应用心理学专业大三本科生考核方式：考试先修课程：无二、课程简介《心理测量学》介绍了当今心理学研究中主要的测量方法，包括测量的信度、效度、以及测量中随机误差和系统误差的控制方法；测验的难度、区分度，以及试题难度分布的控制技术和提高试题区分度的技术；介绍了各种著名测验，除了要求了解编制原理，还要求掌握实际使用方法；本书还介绍了标准参照测验教育成就测验的技术和理论。

还引进了题库建设、测验等值、项目功能差异、评价中心技术、行为情境判断测验、内隐联想测验等较为新近或更为实用的测量理论和技术。

除了介绍经典测量理论，还介绍了发展前景更为诱人的项目反应理论和概化理论，以及认知诊断理论。

为将来准备从事心理学应用、教育考试、人员测评等工作的本科生学习使用。

Psychometrics program introduce some measure methods which are widely used in psychological research. Those methods are reliability, validity and control methods of random measurement error and systematic error; difficulty, discrimination and How to control the degree of difficulty and improve the distinction; introduced a variety of well-known tests, in addition to understand the principle, but also required to master the practical use; besides introducing classical measurement theory, also introduced a more attractive prospect item response theory and generalizability theory, and the theory of cognitive diagnosis.三、课程性质与教学目的心理测量学课程是心理学各专业共同必修的一门应用与方法课程。

新一代测量基本理论——认知诊断

新一代测量基本理论—— 认知诊断
计算R的方法
Tatsuoka介绍的方法：B=A+I 计算R的方法如果B的n次幂（逻辑乘法
）等于B的n+1次幂，则B的n次幂就是R 。数学原理是R是自反的传递闭包的关系矩阵，满足R* R=R
Warshall计算传递闭包的方法（省略）
新一代测量基本理论—— 29 认知诊断
新一代测量基本理论—— 认知诊断
传统测验及其理论的局限性
标准测验理论将所测的心理特质视为一个心理学意义并不明晰的“统计结构”，目的在于从宏观的层次给个体一个整体的评估，在单维的、线性的连续的度量系统上指定一个表示位置的值。
新一代测量基本理论—— 认知诊断
传统测验及其理论的局限性
标准测验理论包括：
新一代测量基本理论—— 认知诊断
传统测验及其理论的局限性
项目反应理论:
是在克服经典测量理论项目参数依赖于样本等局限性基础上发展的。它认为被试在项目上的反应决定于被试的潜在能力与项目难度间的距离，从而很好地将能力参数和难度参数统一到了一个量尺上来。项目反应理论的另一大优点是参数的不变性，从而推动了该理论的应用范围，为实现计算机化自适应考试（CAT）提供了可能。此外，项目反应理论还提出了测验信息函数的概念，利用测验信息函数来估算测验对不同能力水平被试所产生的误差。
j=3
1 1 1 1 1 1 1 1
0 1 0 0 1 1 0 1
00
0 0
1 1
0 1
1 0
0 1
1 1
11
j=4
不产生新列
新一代测量基本理论—— 33 认知诊断
基本概念(一系列Q矩阵）
新一代测量基本理论—— 认知诊断

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

认知诊断测验编制的原则摘要：Tatsuoka 给出的实例表明，不同知识状态可能对应同一理想反应模式，即对知识状态产生误判。

这一原则不仅对认知诊断测验蓝图的设计有指导作用，而且对制定有认知诊断功能的计算机化自适应测验的选题策略有着重要的参考作用。

一般的教育考试, 特别是大规模的考试，只提供考试分数或能力分数。

传统的考试提供的信息已不太适合个体发展的需要，认知诊断评估的主要任务是挖掘更多的认知加工信息。

Leighton 和 Gierl（2007）[1]认为认知诊断是用于测量/评价个体特定的知识结构（knowledge structure）和加工技能（processing skills）。

CDA 通过测验获得被试在测验上(可观察)的反应而推知该被试不可观察的知识状态（knowledge state）。

Leighton 和Gierl(2007) [1]在他们所编写的书第一篇文章称CDA 仍处于萌芽状态(CDA is still in its infancy)，表明对CDA 的研究，包括认知诊断测验的构造都是新的课题。

Gierl(2007) [1]在注释中又指出，认知诊断测验设计是一个重要的研究领域，而已有的相关研究成果却很少，连Downing 和 Haladyma 编辑的由Erlbaum 在2006 年出版的测验编制手册(Handbook of test development)中也没有相应的章节涉及认知诊断测验编制，甚至找不到认知诊断评价的主题词条(subject entry)。

Gierl(2007)[2]还认为只有Gorin(2007)[1]描述了认知诊断测验编制的原理。

认知诊断测验的编制是一件具有挑战性的任务，限于篇幅和本文主旨，这里不讨论如何与命题专家沟通，打磨出好的试题的问题，而集中讨论认知诊断测验蓝图的编制问题。

在讨论认知诊断测验蓝图的编制问题之前，我们先看两个例子，一个是简化的用以解释原理性的例子；另一个是规则空间模型（rule space model,RSM）的开创者Tatsuoka（1995）给出的例子[2][3] [4][5]，用以说明实际工作中考虑不周就很有可能编制出有问题的诊断测验。

下文中理想反应是指既不猜测也不失误的作答反应，只有被试掌握了项目所测的所有属性，才能正确作答。

属性层级方法（attribute hierarchy method，AHM）[6][7][8]中称理想反应为期望反应模式；确定性输入，噪声“与”门模型（deterministic inputs，noisy ”and” gate model,DINA,如可参见Henson&Douglas,2005[9]）中的理想反应模式具体计算公式见附录1(其实，差不多所有理想反应模式都可以这样计算，当然也可以用丁树良等[10]介绍的方法计算)。

由附录1 中具体计算公式可见理想反应模式十分重要，其实理想反应模式对诸如RSM,AHM等许多认知诊断模型都十分重要。

对于诊断测验，在既不猜测也不失误的理想作答反应情况下，具有不同知识状态的被试对应不同的理想反应模式, 则称为理想的认知诊断测验;否则称为理想反应误判的认知诊断测验。

若具有不同知识状态被试对应相同的理想反应模式，则称这些不同知识状态为等价类。

实际上，这个等价类是由测验蓝图（测验Q阵）决定的，称为知识状态中由测验Q阵决定的等价类。

我们希望有测验Q阵，使得每个等价类中仅仅有一个知识状态。

例1.三个属性A1，A2，A3，它们彼此之间不存在先决关系（prerequisite relation）。

于是属性之间的可达阵R 为三阶单位阵I。

今给出三个项目作为诊断测验。

注意被试的知识状态共有8 种，即α1=（000），α2=（001），α3=（010），α4=（011），α5=（100），α6=（101），α7=（110），α8=（111）。

如果上述8 种被试分别参加测验蓝图为Qi（i=1，2，3，4）的认知诊断测验，则对于Q1，α1，α2，α3，α5 的理想反应模式均为（0，0，0），即理想反应模式为（0，0，0）的模式其潜在知识状态可能为α1，α2，α3，α5 ，此时如果根据其所有理想反应模式来判断其知识状态，误判率为3/8；上例中α1，α2，α3，α5 是Q1 决定的等价类；对于Q2，α1，α2，α3，α4 为一个等价类，理想反应模式均为（0，0，0）；而α5，α6为另一个等价类，理想反应模式均为（1，0，0），即误判率为4/8；对于Q3，α1，α2 的理想反应模式均为（0，0，0），α3，α4 理想反应模式均为（0,1，0），而α5，α6 为第三个等价类，理想反应模式均为（1，0，0），即误判率为3/8；但对于Q4 却不带来任何误判。

例(1995，[4]给出了小学分数加减的认知诊断测验，测验共含9 个项目，依Tatsuoka 的事后(post hoc)分析，即通过对测验后的得分矩阵进行分析，得出5 个属性，属性完全相同的项目仅保留一个。

如第五题：7121 + 和第六题：2131 + 都是检测通分(A3)和分数相加(A4)，即T）（00110 ，只保留第五题；而第四题44 222 1 + 与第八题42 363 1 + 均检测了所有五个属性，也应归为一类，即T）（11111 ，只保留第四题（本文中xT 表示向量x 的转置），于是仅剩下7 类项目，组成一个5×7 的Q 阵。

这里的Q 阵与Tatsuoka 给出的有不同，因为她给出的Q 阵有笔误，比如第七题只涉及分子相加(A4)，即T）（00010 ,而不像Tatsuoka所标定的为“答案化简”，我们对这些笔误进行修正。

最后修正的Q 阵，它不含相同的列。

然而这个Q 阵可能导致对知识状态的误判，比如根据所测属性及其层次关系，有两个被试的知识状态分别为α1=(0,0,1,1,1)，α2=(0,1,1,1,1)，它们导出的理想反应模式却相同，都等于(0,1,1,0,1,1,0)[8]。

这个例子说明一个很严重的问题：Tatsuoka（1995，）[4]希望规则空间模型（Rule spacemodel， RSM）中的Q-矩阵理论，能够起到桥梁作用——将可观察的反应向量对应到不可观察的知识状态。

现在至少有两个不同的知识状态（例如α1，α2），居然对应到同一个理想反应模式，即这个等价类中至少含有两个知识状态。

此时如果我们观察到这个理想反应模式，以此来诊断其隐藏的知识状态，我们难以判断隐藏的知识状态到底是α1，还是α2。

这时完全可能产生误判。

我们称不同知识状态对应同一理想反应模式的现象为对知识状态的误判。

Tatsuoka（1995，）[4]以实例说明属性掌握模式（即被试知识状态）和理想反应模式并不是一一对应的，而是多个属性掌握模式对应同一个理想项目反应模式（idealitem-response pattern）。

这种现象对于被试的归类是很不利的，同时也说明Tatsuoka 提供的方法存在一定的问题。

由于认知诊断测验蓝图直接影响CDA 的分类效果，下描述了CDA 最为核心的过程，其中， s Q 是由可达阵R 导出的Q阵,称为被试Q阵，这时s Q 的每一列都代表了“一类”知识状态（knowledge state），表示一个测验中项目与属性关联关系的的Q矩阵为测验Q矩阵，记为t Q ,显然t Q 只是s Q 的某一部分，即t Q 是s Q 的子矩阵（sub-matrix）且不含相同的列[10]；α 是知识状态, η 是理想（期望/潜在）反应模式，f--1 是f 的反函数，此时要求f 本身是一一映射[9]。

后半部分由试题性质、被试动机或一些随机因素等决定，因此要提高CDA 分类的准确性，关键取决于前半部分。

如果一映射( | ) s t f α∈Q Q 使得集合s Q 中的不同列(称为s Q 中的元素)在理想反应模式集合η 中有相同的象，则分类较为模糊——只能分到相应的等价类中。

如果能够编制一测验蓝图t Q 使得对应关系( | ) s t f α∈Q Q 对于集合s Q 中的任何一个元素，在集合η 中都存在唯一的一个元素与之对应，则可以通过求对应关系的反函数，达到对反应模式的比较准确的分类。

我们希望对任何一种属性层级，都能如例1一样，构造出相应的测验蓝图，使得属性掌握模式(知识状态)与理想反应模式一一对应。

本文探讨将可达阵作为测验蓝图的一部分对提高认知诊断准确率的关系；要对认知诊断测验编制进行讨论。

第2 节讨论认知诊断的逻辑顺序以及测验蓝图的编制，第3 节讨论上述结论中的应用，即对测验编制的指导作用和对有认知诊断功能的计算机化自适应测验选题策略的制订的指导作用；第4 节进行Monte Carlo 模拟研究，以讨论“将可达矩阵作为（或不作为）测验蓝图一部分”时的误判率大小；并验证第2 节的结论。

第5 节是认知诊断测验编制的相关问题的进一步讨论。

另外，我们给出一些附录，主要是想正文枝蔓不要太多而妨碍文章的主要结论，增加文章的可读性。

2. 认知诊断测验蓝图的编制Tatsuoka(1983，1991，1995) [2][3] [4]的规则空间模型中关联矩阵Q 是可以通过分析测试项目得到的。

事实上，目前许多CDA 是根据认知诊断模型（cognitive diagnostic model，CDM）对已有的测验进行分析，这些已有的测验并不是为认知诊断“量身定制”的。

Leighton, Gierl,和 Hunka(2000)[11]指出这样导出Q 阵的方法逻辑性不强。

Gierl 等人(2000) [11]及Leighton 等人(2004)[6]建议在测验之前就由专家给出欲测属性及这些属性间的层级关系（hierarchyrelation）。

对于如何构造一个有利于诊断的项目，Gorin（2007）[1]给出了一些例子，并给出一些原则；Gorin（2007）[1]强调诊断测验的构造的重要性不亚于构造单个项目的重要性，文章甚至造出一个不利于认知诊断的测验蓝图（其中每个项目至少包含两个属性），并讨论了诊断测验编制的问题，认为诊断测验中应尽可能多地包括对应Qr 中的列的项目。

认知诊断测验编制的原则

合集下载

可达矩阵在认知诊断测验编制中的重要作用

心理测量-第八章-测验的编制与实施

认知诊断测验编制的原则

认知诊断技术在学科学业评价中的应_省略_初中一年级_有理数及其运算_为例_宁革

数学诊断性测验的研究综述

4～5年级阅读障碍儿童汉语词汇的认知诊断测验

教育认知诊断测验与认知模型一致性的评估_丁树良[1]

认知诊断学习文档

《心理测量》-课程教学大纲

新一代测量基本理论——认知诊断

文档推荐

最新文档