教育认知诊断测验与认知模型一致性的评估_丁树良[1]

格式：pdf
大小：528.69 KB
文档页数：12

下载文档原格式

一种多级评分的广义认知诊断模型

ＥＭ算法估计滑动矩阵。在模拟研究中，采用每掌握一个属性得１分的评分标准，结果表明线性
型、收敛型、发散型、无结构型和独立型五种属性层级结构均有较高的判准率。
关键词：认知诊断；多级评分；滑动矩阵；ＥＭ算法
一
ｉｎｐｕｔｓ，ｎｏｉｓｙ “ ａｎｄ ” ｇａｔｅｍｏｄｅ１）、ＮＩＤＡ模型（ｔｈｅｎｏｉｓｙ
ｉｎｐｕｔｓ，ｄｅｔｅｒｍｉｎｉｓｔｉｃ “ ａｎｄ ” ｇａｔｅｍｏｄｅ１）、融合模型（Ｆｕ —
ｔｕｒｅ）和加工技能（ｐｒｏｃｅｓｓｉｎｇｓｋｉｌｌｓ）（Ｌｅｉｇｈｔｏｎ＆Ｇｉ＇பைடு நூலகம்
ｅｒｌ，２００７）。通常把个体对知识结构、加工技能或认
知过程（均简称为 “ ａｔｔｒｉｂｕｔｅ ” ）的诊断评估称为认知诊断评估（ｃｏｇｎｉｔｉｖｅｄｉａｇｎｏｓｉｓａｓｓｅｓｓｍｅｎｔ）。认知诊断测验通过测试项目（题目）的属性反映被试者的知识掌握情况。它的发展根据实际步骤情况分为两
ｓｉｏｎＭｏｄｅ１）、ＧＤＭ（ＧｅｎｅｒａｌＤｉａｇｎｏｓｔｉｃＭｏｄｅ１）、Ｇ—
ＤＩＮＡ模型（ＧｅｎｅｒａｌｉｚｅｄＤＩＮＡＭｏｄｅ１）等。但这些模型一般只局限于０～１评分的情况，对于多级评分的情况，国内外学者进行了初步探讨。Ｂｏｌｔ和Ｆｕ（２００４）将０～１评分的Ｆｕｓｉｏｎ模型（Ｈａｎｚｅｔａ１．，２００２）拓广到多级评分，但模型过于复杂，参数估计也十分困难。祝玉芳等人（２００９）把０～１评分ＡＨＭ扩展成基于等级反应模型的ＡＨＭ，同时提出了一种新的分类方法— —对数似然比（ＬＬ）。罗欢等人（２０１０）把属性等权重的多级评分认知诊断拓展到非等权重的多级评分认知诊断。涂冬波等人

不同的认知发展观对教学的启示——试论皮亚杰与维果斯基认知发展观差异中的互补

不同的认知发展观对教学的启示——试论皮亚杰与维果斯基认知发展观差异中的互补摘要：皮亚杰与维果斯基从不同角度开创了“认知发展理论的先河”，为当代认知理论奠定了坚实的基础，对教育学产生深远影响。

本文在比较分析二者理论差异之处的同时，试图在差异中探讨两者的互补性，揭示其对教学的意义，为教育理论与实践的发展提供借鉴。

关键词：认知发展理论；差异与互补；教学启示1前言在认知发展领域，以皮亚杰的建构主义发展观和维果斯基的社会文化观最为突出。

在研究领域，把皮亚杰和维果斯基的认知发展理论放在一起比较越来越受到人们的关注，并且也产生了许多研究成果：至少可以找到两类比较模式，一是比较皮亚杰和维果斯基理论的不同点，并从这些不同点中，尤其是原则性的分歧中理解人类的发展；二是探讨两种理论之间的相似之处。

皮亚杰和维果斯基的发展心理学理论在许多方面，特别是对一些重要分歧点的理解存在着互补性，到目前为止，此方面的研究尚不多。

二十一世纪的今天，我国的教育面临着严竣的挑战，基础教育的一项紧迫任务是积极推进素质教育。

鉴于此，本文试图就二者的心理发展理论做一比较，揭示二者理论的差异与互补，探讨其理论在当前教育教学改革中的作用，从而为当前教学提供更多的启示。

2两种认知发展理论的基本观点2.1皮亚杰认知发展理论的基本观点皮亚杰认知理论最迄今最具影响力的儿童认知发展理论，他认为儿童心理结构的发展涉及图式、同化、顺应和平衡。

个体在与环境相互作用中逐渐构建知识体系，发展在很大程度上依赖于儿童对周围环境的操纵以及与周围环境的积极互动。

儿童心理发展是通过同化和顺应周围复杂的环境，从而达到平衡的过程，在平衡与平衡的转换中使知识结构不断完善，认知得到发展。

皮亚杰将数理逻辑作为划分儿童逻辑思维发展工具，把儿童心理分为以下四个阶段，认为每一阶段思维的发展都是建立在前一阶段思维发展水平的基础上。

这四个阶段为：感知运动阶段、前运算思维阶段、具体运算阶段和形式运算阶段。

认知诊断理论概述

分数报告：属性掌握概率学习之路
认知诊断模型：模型选择参数估计统计收敛性模型数据拟合检验
认知属性分析：属性提取属性层级关系界定测验Q矩阵标识测验题目编制
学习优势剖面图
16
常见的认知诊断模型
认知诊断模型 (Cognitive Diagnostic Model, CDM)
LOGO
认知诊断理论概述
认知诊断理论概述
认知诊断理论的背景与基础
Q矩阵的重要地位与规则空间模型常见认知诊断模型介绍
1
2 3 4 5
认知诊断评估的结果报告
认知诊断评估对我国学业评价的启示
2
1、认知诊断理论的背景与基础
3
认知诊断理论的背景
教育问责制 (accountability in education)
点击添加标题
3PLM 题目参数值
匹配分类间接匹配：匹配 (θ, ζ) 对理想反应模式 RSM (Tatsuoka, 1983, 1985)
24
认知诊断模型—规则空间模型
• 规则空间模型的主要步骤
Q矩阵理论部分
1. 确定属性与题目间的关系并编制事件Q矩阵 (incidence Q matrix) 2. 界定属性间的先决关系 (prerequisite)
9
认知心理学的发展 (续)
认知诊断的定义
对被试在测验所测属性或知识点 (如通分、借位与约
分等) 上的掌握水平进行分类 (掌握还是未掌握) 通过认知诊断方法或模型确定被试的不可直接观测的认知结构或知识状态，确定被试已经掌握哪些属性，哪些属性未掌握需要补救
除了二分，还可以是多分的情况
认知诊断模型nida模型nida模型简介与dina模型一样也是非补偿性模型不同于dina模型的参数建模于题目水平nida模型的参数建模于属性水平每个属性都有一个猜测和失误参数认知诊断模型nida模型nida模型项目特征函数认知诊断模型dino模型dino模型简介不同于dina模型和nida模型它属于补偿性模型dino模型的参数建模于题目水平认知诊断模型dino模型dino模型项目特征函数认知诊断模型gdina模型gdina模型简介gdina模型是dina模型的一般化通过设计矩阵和矩阵的转换gdina模型可以简化为其他一些常用的模型如dina和dino等gdina模型可以将所有潜大类分为个潜在组是正确作答题目j所需要的属性个数每个潜在组表示一种简化的属性向量每个潜在组都有相伴随的正确作答概率认知诊断模型gdina模型gdina模型简介认知诊断模型gdina模型gdina模型的项目特征函数对于identity链接方式gdina模型的正确作答概率公式可以分解为属性的主效应以及属性间的交互效应之和红框标识的系数一般为非负蓝框标识的可取任意值认知诊断模型gdina模型gdina模型的其他链接方式及特例除了identity链接方式还有log和logit链接方式identity链接方式下的全模型等价于log和logit链接下的全模型dina模型和dino模型是全模型的特例acdmrrum和llm分别是identitylog和logit链接方式下的加法模型认知诊断模型gdina模型gdina模型的其他链接方式及特例续dina可通过在gdina中设定除了和其他参数都为0得到并令和dino可通过在gdina中设定其中得到并令认知诊断模型gdina模型gdina模型的参数估计也采用mmleem算法但与dina的稍有不同dina模型中是将似然函数直接对参数求偏导令其为0解得参数值gdina模型的参数比较多直接对参数求偏导的方法计算量太大太复杂于是采用两阶段的方法计算先将似然函数对概率值p求偏导令其为0求出p的估计值再在所有掌握模式下用最小二乘法获得参数估计值认知诊断模型模型数据拟合

认知诊断测验的属性分类一致性和分类准确性指标

认知诊断测验的属性分类一致性和分类准确性指标汪文义;宋丽红;陈平;丁树良;程艳【摘要】分类一致性和分类准确性是衡量考试信效度的两个重要评价指标.基于项目反应理论下分类一致性和分类准确性指标,提出认知诊断测验的属性(模式)分类一致性和分类准确性指标,讨论分类一致性指标、分类准确性指标与属性估计误差之间的关系,并由属性掌握概率的估计标准误推导出属性分类准确性的上限.结果显示:属性(模式)分类一致性可准确估计重测一致性;分类准确性指标计算简单,可准确估计认知诊断测验的判准率.【期刊名称】《心理学探新》【年(卷),期】2016(036)003【总页数】6页(P264-269)【关键词】分类一致性;分类准确性;属性经验信度;属性α信度;确定性输入噪声与门模型【作者】汪文义;宋丽红;陈平;丁树良;程艳【作者单位】江西师范大学计算机信息工程学院,南昌330022;江西师范大学初等教育学院,南昌330022;北京师范大学中国基础教育质量监测协同创新中心,北京100875;江西师范大学计算机信息工程学院,南昌330022;江西师范大学计算机信息工程学院,南昌330022【正文语种】中文【中图分类】B841.2在认知诊断评估领域中，诊断测验的信效度是一个较新的研究领域。

认知诊断主要是在离散潜在空间对被试分类，连续潜在空间下信度评估方法不能直接应用于诊断测验(Henson，2005；Roussos et al.，2007)。

因此，诊断分数信度常常没有报告，属性分类结果的可信度就无从得知(Templin & Bradshaw，2013)。

国内外关于诊断测验的信效度评估方法近年来有些研究，但仍存在一定的不足。

在此简要介绍几种已有的评估方法，并分析这些方法存在的问题。

Rousso等人(2007)提出通过模拟平行测验的方法得到分类一致性，此方法可用于估计重测一致性，只是需要模拟平行测验得分数据并对模拟的被试进行分类，再计算两测验的分类一致性。

认知诊断模型下整体和项目拟合指标

认知诊断模型下整体和项目拟合指标宋丽红;汪文义;戴海琦;丁树良【摘要】认知诊断模型能否拟舍测验数据,直接决定诊断结果的准确性.目前国内鲜有研究涉及认知诊断测验下的模型-资料拟合检验.文章将模型整体拟合指标及基于PPMC的项目拟合指标应用于认知诊断模型-资料拟合检验.模拟研究基于DINA,R-DINA和R-RUM三个诊断模型检验各拟合指标的表现.结果显示整体和项目拟合指标在识别数据产生模型时皆有较高准确率.采用整体和项目拟合指标比较了三个竞争模型与Tatsuoka带分数减法数据的拟合情况,显示R-RUM拟合最好.【期刊名称】《心理学探新》【年(卷),期】2016(036)001【总页数】5页(P79-83)【关键词】认知诊断模型;DINA;R-DINA;R-RUM;后验预测模型检查;带分数减法数据【作者】宋丽红;汪文义;戴海琦;丁树良【作者单位】江西师范大学初等教育学院,南昌330022;江西师范大学计算机信息工程学院,南昌330022;江西师范大学心理学院,南昌330022;江西师范大学计算机信息工程学院,南昌330022【正文语种】中文【中图分类】B841.2认知诊断评估是认知心理学与心理计量学相结合的产物，是21世纪一种新的测量范式。

认知诊断模型是描述可观察反应与潜在认知属性之间关系的统计模型，对认知诊断评估至关重要。

为了满足不同情境下实际应用需求，研究者开发出了众多认知诊断模型。

相关文献显示，截止到2007年，已有诊断模型超过60个(Fu & Li，2007)，而之后又涌现出了不少诊断模型(陈秋梅，张敏强，2010；R-DINA，宋丽红，戴海琦，汪文义，丁树良，2012)。

在认知诊断实践中，选择恰当的认知诊断模型是对被试准确诊断或分类的重要前提(Rupp，Templin，& Henson，2010)。

对于特定的诊断测验，诊断模型的选择要依据心理学或教育学的理论假设，如模型假设与测验作答心理认知过程的匹配性(杨向东，2010；Kunina-Habenicht，Rupp，& Wilhelm，2012)，测验Q矩阵与测验作答所需属性及属性结构的吻合性(丁树良，毛萌萌，汪文义，罗芬，Cui，2012；涂冬波，蔡艳，戴海琦，2013；Chen，Torre，& Zhang，2013；Kunina-Habenicht et al.，2012)。

认知诊断理论在数学教育评价中的应用

认知诊断理论在数学教育评价中的应用王立东;郭衎;孟梦【摘要】质性地比较论证了基于认知诊断理论的数学教育评价工具开发的可行性。

通过分析实际测试数据，比较几种不同认知诊断模型中的参数估计方法实际应用于分析数学评价测验的可能性。

研究发现，认知属性概念可以帮助研究者和实践者分析影响学生解答数学题目背后的认知结构。

人工神经网络模型能够充分利用理论设计的认知模型，克服测验题目有限、题型多样、认知属性差异大等不易分析的困难，较好评价学生的数学学业成就，为后续教学提供诊断性信息，达到了诊断性测验的目的。

%Qualitatively illustrating the feasibility of developing mathematics education assessment tool based on Cognitive Diagnose Model. Several different parameter estimation model based on survey data were compared. The results indicated that the concept of cognitive attributes could help both the researchers and the practitioners to analyze the cognitive structure behind students’ solutions of mathematical problems. Artificial neural networks model could fully make use of the cognitive model to solve the problems of limited amount of rubrics as well as diversity of different cognitive attributes, and assess students’ mathematical achievement with high validity, which provide diagnosestic information for future instruction.【期刊名称】《数学教育学报》【年(卷),期】2016(025)006【总页数】6页(P15-19,55)【关键词】数学教育评价;多维评分;认知诊断模型;属性层次模型;人工神经网络模型【作者】王立东;郭衎;孟梦【作者单位】中国人民大学附属中学，北京100080;北京师范大学数学科学学院，北京 100875;西南大学数学与统计学院，重庆 400715【正文语种】中文【中图分类】G40-034通常的数学测验只给出一个笼统的测验分数，而对于具有相同分数的学生，既不易区分他们可能具有的不同数学认知结构[1]，也没有具体给出学生在数学学习的哪个方面存在不足．在教育研究中，这种测验分数无法提供精细化的学生学业成就评价；在教学实践中，这种测验分数对于后续数学教学的指导，也往往依赖于教师对于试卷的经验性分析．心理测量学中的认知诊断理论（Cognitive Diagnose: CD）依据测量学理论和统计分析技术给出了对于学生学习状况的标准化多维评价，为后续的教学实践提供了精细化的指导信息．心理学工作者开发了多种认知诊断模型和技术，如规则空间模型（Rule Space Model: RSM）[2]、DINA模型[3]、属性层次模型（Attribute Hierarchy Method: AHM）[4]等．在具体的模型下，又有多种不同的统计分析方法，如在AHM模型的理论框架下，就有多种属性掌握概率的参数估计方法[5]．研究将以大规模七年级学生代数学业成就测试的编制与实施为案例，尝试将认知诊断理论中的AHM模型应用于数学学业成就的诊断性评价中，通过质性分析论证其应用于数学教育理论与实践的可行性．2.1 AHM模型概述AHM模型是在规则空间模型的基础上发展起来的一种重要的认知诊断模型．该方法的核心概念是认知属性（Attribute），对于该概念，心理测量界有多种描述，但详细考察其间没有本质上的区别．综合Tatsuoka（2009）、Leighton等（2004）的观点，认知属性可以被认为是一般性的知识与认知技能，或程序与陈述性知识，在课程标准为教学目标的教学系统中，可以将属性等同于课程标准中的具体教学目标的条目．在数学背景下的认知属性可以是具体的数学知识（如掌握有理数的定义）、技能（如能够求解二元一次方程组），也可以是相对抽象的数学思想（如数学类比的思想）等．它是一种将考生在测验项目上的作答情况与特定认知属性掌握情况建立数量关系的统计方法，进而能够对于学生学业成就进行多维度评价，为后续的教学提供诊断信息（指出学生在哪个认知属性的掌握上存在不足）[6]．该方法以认知结构理论为基础，在操作上，先由学科专家确定要测量的各个认知属性及其层次关系，将此作为指导测验编制的认知结构模型．如：图1表示分别被称为直线型和收敛型的认知结构模型，各自由4个和6个需要测量的认知属性组成．在数学学习上，这若干个认知属性应存在逻辑先决关系（由箭头表示），如A1A2表示学生掌握A2属性必须是以掌握A1属性为前提（如掌握二元一次方程组的解法必须是以掌握一元一次方程解法为基础），即直接的先决关系．A1A2A3表明，A1与A2，A2与A3存在直接的先决关系，A1与A3存在间接的先决关系．这样在测量高级属性的过程，可以提供低级属性的测量信息．如，正确回答二元一次方程题目的学生，可被判定是掌握了二元一次方程属性，同时，也在一定程度上掌握了一元一次方程属性．此外，正确回答了一元一次方程题目，但错误回答二元一次方程题目的学生，要比错误回答了一元一次方程题目和二元一次方程题目的学生在二元一次方程属性的掌握情况上更好（虽然他们错误地回答了二元一次方程题目）．在属性层级关系的基础上，可以获得一个可达矩阵（Reachability Matrices）：表示各属性间的直接或间接的先决关系．在可达矩阵的基础上，通过扩张算法（丁树良等，2009）[7]得到包含各类可能的属性组合的完全的Q矩阵，该矩阵建立了题目与属性的关系．基于这个过程设计的题目能够整合已有的认知理论对于各类属性层次结构的认识，可以从内容效度的角度保证了所设计的测验能够测量、区分学生不同的认知结构．通过Q矩阵，可以获得若干个学生的期望反应模式，这个模式假设学生完全依照认知模型作答，不受任何随机因素（如猜测，发挥失常等）影响．也可以获得与期望反应模式相对应的属性掌握模式（即在理想状态下，具有某种属性掌握模式的学生的答题结果是期望反应模式）．如图1中，直线型结构给出的认知结构样例中，学生应有4种理想的反应模式包括(1, 0, 0, 0)、(1, 1, 0, 0)、(1, 1, 1, 0)、(1, 1, 1, 1)，其中4个数字分别表示学生回答4道试题（由Q矩阵决定）的正误情况．即按照图1中的层次关系，在理想的情况下，学生如果正确回答了第二题，在无其它随机因素影响的前提下，应正确地回答第一题．对应的属性掌握模式为(1, 0, 0, 0)，即仅答对第一题的学生在理想状态下，应是仅掌握第一个认知属性．在教育实践中，学生对于某种属性的掌握情况无法仅由掌握和不掌握来描述，同时实际答题的过程中还受到许多随机因素的影响．AHM模型可以基于学生的实际答题情况（称为反应类型），如：(1, 0, 0, 1)代表学生正确回答第一、第四题，错误回答了第二、第三题．AHM模型通过估计属性掌握概率（对于各个属性掌握情况都用一个属于[0, 1]的数来刻画）更加细致地刻画属性掌握情况，如(0.1, 0.5, 0, 0.8)可代表学生对于4个认知属性的掌握情况（该学生较好地掌握了第四个属性，对于第二个属性掌握一般，没有掌握第一、第三个属性）．认知诊断模型对于学习者在某个属性上的掌握情况做出判断，进而从中获得反馈指导相应的教学（如学生在第一、第三个认知属性的学习上需要重点加强，补充学习）．2.2 测验框架设计与试题编制评价模式选择为标准参照的诊断性评价，以课程标准中的有关数学教学内容的具体条目为测量目标，将其作为AHM模型中的认知属性．在征询了部分一线教学专家的意见的基础上，将七年级的代数和几何内容分开编制测试问卷．（由于在七年级的教学要求中，代数几何的综合内容可以忽略不计，同时忽略统计教学内容和一次不等式（组）的教学内容．由于在七年级第二学期期中考试后（5月底，6月初）对于学生进行测量，按照基本教学计划，多数学校还未教授这两个内容．）针对代数测试卷（编码为卷Ⅰ）先在16个涉及代数的属性中（不包括不等式的内容）由多位有中学教学经验的数学教育专业博士生从上述属性中，抽取认为处于核心知识地位的8个属性（总数的50%），具体见表2．在此基础上，得到各测试卷认知模型．属性层次结构图见图2．以上属性层次结构给出了需要测量的8个属性的层次结构关系，如掌握属性A1.1是掌握属性A1.2和A1.3的直接先决条件．用矩阵的形式给出如图2所示结构图，得到如表3所示的可达矩阵．在可达矩阵的基础上，获得缩减Q矩阵．这个矩阵考虑了8个具体层级关系属性理论上可以在相关题目中实现各种组合情况，同时也考虑到了数学学科内容的特点，包括按照理论上的属性搭配模式编制的问题可能不是在初中范围内实质上的，有意义、有价值的数学问题（如强行将两个数学内容联系在一起或者产生如二元一次方程组与绝对问题相结合的难度过大的题目），或者这些问题是否过于复杂、难度过大的问题，同时也考虑是否会造成试卷过长的问题．如是否考虑属性A1.2（相反数与绝对值内容）会造成题目大量增加（因为A1.2相对“独立”）．在可达矩阵的基础上，获得了如下的缩减Q矩阵（包括11类题目），如表4所示．上述Q矩阵表明，在开发测验中，需要编制11类题目．在此基础上，形成卷Ⅰ的各个测试题目．样例：（）1. 某数的相反数的绝对值的倒数是5，求这个数是（）(A) (B) (C) 5或 (D)正确回答该题目需要掌握涉及A1.1和A1.2两个属性的知识与能力．正确回答该问题说明学生较好地掌握了属性A1.1（有理数的意义、数轴上的点表示有理数、比较有理数的大小）和属性A1.2（会求有理数的相反数与绝对值（绝对值符号内不含字母））．2.3 属性掌握分数的参数估计模型针对如何通过学生的题目反应模式获得学生对于各个属性的掌握分数的问题，现有文献提供了多种针对AHM模型的参数估计方法．方法一：Leighton, et al（2004）提出了依据“滑动”（slips），观测反应模式（Observed Response Pattern）向期望反应模式判定的方式中的A方法，结合Tatsuoka（2009）中属性掌握概率的概念获得一个新的属性掌握分数估计方法，具体过程如下：对于一个实际反应模式：，；．计算其由某个特定的期望反应模型“滑动”而来的后验似然：其中，为第i个期望反应模式对应的学生的能力估计值，由项目反应模型（IRT）给出．此外，表示期望反应模式的反应为0，观测反应模式的反应为1的项目的集合；表示期望反应模式的反应为1，而观测反应模式的反应为0的项目的集合，从而形成一个后验似然．这个后验似然即为某个观察反应模式是由某个由理想属性掌握模式决定的期望反应模式而来的后验似然．为了获得对于某个学生在某个属性上的掌握情况的更准确的估计，参考Tatsuoka（2009）中给出的属性掌握概率的方式，通过综合考虑某个观察反应模式从每个期望属性掌握模式而来的可能性，给出了如下属性掌握概率的刻画，从而可以获得给某个特定观测反应模式的学生在某个特定属性上的掌握概率（分数）的估计值：其中，表示第个期望反应模式在第个属性上的掌握情况，用0，1来表示掌握与未掌握的学习状态．方法二：朱金鑫等（2009）[8]提出了非IRT的属性掌握概率的估计方法．首先，计算学生在包含属性k的项目中答对的比例，利用这个比例估计学生掌握某个属性的概率，同时将答对某个项目的概率定为该项目涉及的所有属性掌握概率估计的乘积，这个项目答对的概率可以修正上述学生掌握某个属性的估计，进而获得学生在某个属性掌握概率的估计：朱金鑫等（2009）认为这个估计方法可以消除属性间的影响，但研究者认为属性间可能存在的影响恰恰可以为属性掌握情况的估计提供更为丰富的信息．如：如正确回答二元一次方程的学生，即使在求解一元一次方程的题目中出错，但在有关一元一次方程的认知属性的评价中，应当考虑属性层次提供的信息，不应评为0．方法三：Gierl, et.al（2007）,（2008）[9]提出了应用人工神经网络学习模型（Artificial Neural Networks，以下简称ANN）估计属性掌握概率的方法．ANN方法是由生物神经网络启发的计算模型，包含多组不连接的人工神经元．在学习的过程中，通常基于内部或外部的信息修正激发函数．通常被用来建立输入与输出的复杂关系以发现数据的模型．该方法采用Logistic函数（S型曲线）作为隐藏层（Hidden Layer）和输出层（Output Layer）的激发函数（Activition Function）：其中为输入变量，即学生的答题情况（n道题），为隐藏层的个数，为线性变换部分的权重．从而输入经过隐藏层形成了一个维向量，经过下列公式：通过进入输出层，为线性变换部分的权重，形成一个维向量，即学生在个属性上的掌握情况的评分，从而实现反应模式到属性掌握概率（分数）的变换．可以看到该种方式的模型决定了各个项目的结果都为各个属性掌握的结果的估计提供了信息，这就建立了属性之间的联系，可用学生的答题情况估计学生的属性掌握情况．下文将基于一个实证大样本调查研究的数据比较上述3种参数估计方法的运算结果，质性地论证将认知诊断理论应用于数学教育评价的可行性．针对性地搜集了理论框架设计所需的数据，从而保证了研究的系统性．数据来自北京师范大学与美国Vanderbilt大学的MIST-CHINA国际合作项目的数据库，样本来自中国3个大城市学区的教师与学生．用分层随机抽样的方法从重点中学（示范中学）与非重点中学（普通中学）中近似随机选择若干所初级中学（包括完全中学的初中部）．从每所学校的七年级随机选取5~7名数学教师作为教师样本，选取每位教师教授的一个班的学生为学生样本（随机选择每位教师的一半的学生完成代数测试），有效数据为：1 304名学生的代数测试数据．利用实际施测数据对于几种方法进行了比较，讨论了各种方法的差异，进而获得了适合该研究数据分析的相对高效度的分析方法．尝试一：利用综述中的方法一获得对于学生属性掌握分数的估计，每个学生的属性掌握情况由一个八维向量来表示，但通过计算各个维度属性掌握分数的相关系数，发现该方法在分析研究数据的计算结果存在一定的问题，如表5所示．通过相关分析，学生在某些属性的掌握概率与另外一些属性的掌握概率呈现负相关（如表5中用下划线标识的），而且相关系数较大（统计显著），项目反应理论（IRT）估计的学生数学能力数值（在表格中以BILGdata表示）与部分属性能力数值呈现负相关的现象．这种现象与教育实践经验无疑是不相符的，通常的认识是在同一个领域的学习中，不同的内容间的学习情况在一个群体中应当是具有一定的一致性的，呈现强负相关的情况无疑是值得怀疑的．这是由于在对于学生进行多维认知评价的时候使用具有单维假设（假设学生的能力能够用一个数值来表示）的IRT模型所带来的问题．即在计算滑动似然的时候，单维的IRT模型不易精确刻画相应的似然，同时此研究的测试在使用IRT分析时，鉴于实际作答情况，采取了3参数的IRT模型（有两道非选择试题也做了3参数分析），这在某种程度上降低了IRT分析的精确性．从这个意义上讲，对于项目反应理论模型估计参数效果不佳，即具有一定数量的非选择题，并且涉及的知识内容较为宽泛（属性之间的差异较大，不满足IRT的单一维度假设）的测验，不宜采用上述模型分析．在这样的情况下，尝试不基于IRT模型的分析方法．尝试二：利用综述中的方法二，其估计结果不存在上一方法中所出现的负相关和估计值过小的问题．但出现一个新的问题，即部分涉及项目较少的属性的掌握分数估计结果较为单一（只有3种分数，对应3种属性掌握情况），如属性A4.3（有两个题目涉及），不易区分出学生对于该属性的不同掌握情况．属性A4.3的掌握分数估计结果见表6．这种单一的现象使得对于某些属性的掌握分数的估计过于依赖单一的题目，而忽略了各个属性之间的相关性对于估计某些属性掌握概率的贡献，如有理由期望在低一层次掌握较好的学生比掌握较差的学生更有可能掌握更为高级的属性（恰恰后文分析的神经网络模型可以实现这点）．这种现象是由于对于属性A4.3仅有两道题目测试，造成分母值较为单一．同时，该结果出现了低水平属性和高水平属性能力“倒挂”的现象，如所有学生属性A1.1的属性能力的均值为0.045 087，作为最基础需要掌握的属性，其得分反而低于其它所有的属性，这无疑有悖于教育经验．出现这种现象的原因是因为该种估计方法依赖于项目的数量，由于测试条件限制（时间限制），代数测试的项目数量有限，这就使得随机因素影响了参数估计结果．同时这也是一种基于实际数据的模型，抛开了属性的层级结构的假设，因此产生了“倒挂”现象的可能．从这个意义上讲，对于题目数量有限但需要评价的认知属性较多（且相关关系“紧密”）的测验，该评价方法不易充分利用理论设计中的认知结构模型来高效度地测量学生的属性掌握情况．分析上述不足，研究者尝试第三种参数估计方式：将20个与期望属性掌握模式相对应的期望反应模式（由Q矩阵生成的学生对于各个属性的掌握的各种情况（对于每种属性仅限制于没有掌握和完全掌握两种情况））作为样本（Examplers），即20个十二维向量做为模型训练的输入．而将20个期望反应模式作为期望变量（Desired Varibales），即20个八维向量作为模型训练的输出．选择SPSS16.0的默认设置（如，多层感知器（Multilayer Perceptron）过程，Batch类型的训练类型，自动生成隐藏层单元数等），获得估计结果，形成权重矩阵．这个权重矩阵和激发函数即作为连接前文所述实际反应模式与属性能力的映射．注意这是一个基于理论假设而非基于数据的模型．进而将学生的项目反应作为向量，输入属性能力，SPSS自动生成了16个隐藏层：即学生的8个属性掌握能力的八维向量到一个虚拟隐藏层的十六维向量再到学生答题结果（12道题）的十二维向量的映射，从而可以通过学生的答题结果回归估计学生的属性掌握能力．需要注意的是，这是一种不受数据影响的估计方法，其参数估计完全基于测验内容的理论设计（不由实测数据估计参数的模型），而不受到学生回答情况的影响，因此相对于施测情况不是特别理想的测验（如学生不认真作答）相对有效．表5的数据表明模型的拟合较好．对于前述两个模型出现的问题，神经网络模型都提供了很好的解决方法．各个属性之间呈现正向相关．这个结果与周超（2009）[10]的研究结果相一致（虽然对于认知水平的认识和处理方式（如基于题目和基于教学目标、内容）有所差异）．神经网络模型能够很好地利用各个属性之间的联系（特别是层次结构关系）来更精细地估计属性分数．不同题目的反应对通过权重为属性分数的估计提供了贡献．例如：对于两个都错误地回答了A4.3有关的题目的学生，很好地掌握了属性A4.3上位属性（包括A1.1、A1.3、A1.4、A3.2、A4.2）的学生对于A4.3的掌握情况，估计很可能好于未能很好地掌握这些属性的学生．通过上述分析，可以看到，对于有如下特征的测验，人工神经网络模型能够很好的分析．（1）基于认知结构模型设计的；（2）题目数量有限；（3）要测量的属性较为宽泛；（4）题型丰富（选择，填空，解答）且不易用IRT模型分析．至此，应用人工神经网络模型可以获得对于学生在各个数学学习目标（认知属性）的学习评价结果，每位同学都得到了一个标准化的成绩报告，包括其在8个代数学习内容上的评分．这个成绩报告可以为后续教学实践活动提供指导，如：为教学质量提供系统的反馈，针对性地设计“补偿性”教学（包括采用“微课”等信息技术的方式）．通过测试工具的编制与实施的过程分析可以看到，认知诊断可以帮助数学教育工作者系统地设计结构效度较高的诊断性测验工具．认知属性概念，可以帮助研究者和实践者分析影响学生解答数学题目背后的认知结构．同时，通过比较几种参数估计方法，找到可以相对合理的对测验结果数据进行多维分析的统计模型——人工神经网络模型．该模型能够充分地利用理论设计的认知模型，克服测验题目有限、题型多样、认知属性差异大等不易分析的困难，较好地评价学生的数学学业成就，为后续教学提供诊断性信息，达到了诊断性测验的目的．这些评价数据信息不仅可以用于有针对性的教学改进，也为大样本教育政策研究，如教育效能、学校效能、教师效能研究等，提供了精细的学生评价数据．[1] 涂冬波，蔡艳，戴海崎，等．现代测量理论下四大认知诊断模型述评[J]．心理学探新，2008，（2）：64-68．[2] Tatsuoka K K. Cognitive Assessment: An Introduction to the Rule Space Method [M]. New York and London: Routledge Taylor & Francis Group, 2009.[3] 孙佳楠，张淑梅，辛涛，等．基于Q矩阵和广义距离的认知诊断方法[J]．心理学报，2011，（9）：1 095-1 102．[4] Leighton J P, Gierl M J, Hunka S M. The Attribute Hierarchy Method for Cognitive Assessment: A Variation on Tatsuoka’s Rule-Space Approach [J]. Journal of Educational Measurement, 2004, 41(3): 205-237.[5] 王立东．数学教师对学生学业成就的影响研究[D]．北京师范大学，2012．[6] 朱文芳．俄罗斯数学教育评价改革的动态与研究[J]．课程·教材·教法，2006，（2）：90-92．[7] 丁树良，祝玉芳，林海菁，等．Tatsuoka Q矩阵理论的修正[J]．心理学报，2009，（41）：175-181．[8] 朱金鑫，张淑梅，辛涛．属性掌握概率分类模型——一种基于Q矩阵的认知诊断模型[J]．北京师范大学学报，2009，（2）：117-122．[9] Gierl M J, Wang C, Zhou J. Using the Attribute Hierarchy Method to Make Diagnostic Inferences about Examinees’ Cognitive Skills in Algebra on the SAT [J]. Journal of Technology Learning & Assessment, 2008, 6(6): 53.[10] 周超．八年级学生数学认知水平的检测与相关分析[D]．华东师范大学，2009．。

大学生解决物理问题时的认知诊断——以牛顿力学为例

势．ＦＣＩ反映的属性是在大量测试分析的基础上建
是Ｈｅｓｔｅｎｅｓ等开发的一套用于评估学生对牛顿力学概念掌握情况的测试卷［２］，这套试卷经过多轮的实践检验，具有一定的效度和信度，已经在美国成为考察学生牛顿物理学学习情况的一个通用测试
卷［３］，并且也已经扩展到我国［４ｕ５］．本试卷中大都为
看似简单的牛顿力学基本概念问题，被测试者为经历了中考、高考进入大学的一年级学生．然而，对于看似简单的力学问题，通过测试发现学生仍然有各种各样的认知错误．通过测试评估学生应用牛顿力学概念解决物理问题的能力，进而诊断学生的认知错误，是发现物理学习中存在问题的途径．本文以测试牛顿力学的ＦＣＩ试卷为例，应用认知诊断理论中的Ｑ矩阵方法［６＿７］，建立ＦＣＩ试卷的Ｑ矩阵．应用统计软件对样本的成绩及属性进行统计分析，并根据分析结果对学生进行认知诊断，帮助被测试者了解自己对牛顿力学各个概念属性的掌握情况，诊断个人认知错误．这些信息反馈可以帮助教
收稿日期：２０１４—０５—１９基金项目：宁夏高等学校科学研究项目（ＮＧＹ２０１３０４４）
立起来的，能科学反映学生学习力学时的认知错误．
ＦＣＩ考核的知识属性有１１个，见表１．
作者简介：张轶炳（１９６４一），女，教授，硕士，主要从事物理教学研究．
万方数据
第１期
表１属性序号Ａ
张轶炳等：大学生解决物理问题时的认知诊断——以牛顿力学为例
大学生解决物理问题时的认知诊断以牛顿力学为例953测试结果分析31对每个学生的认知诊断记录学生的原始答题选项统计每个题目的得分总分及认知属性得分可以让学生诊断自己的学习情况及知识属性的薄弱点及时采取有效措施进行强化
第３６卷第１期
ＶｏＩ．３６Ｎｏ．１
宁夏大学学报（自然科学版）

教育认知诊断测验与认知模型一致性的评估_丁树良[1]

心理学报 2012, Vol. 44, No.11, 15351546 Acta Psychologica Sinica
DOI: 10.3724/SP.J.1041.2012.01535
教育认知诊断测验与认知模型一致性的评估*
丁树良 1
3
毛萌萌 2
汪文义 1
罗
芬1
CUI Ying3
(1 江西师范大学计算机信息工程学院 , 南昌 330022)
1tt10100的erp对应0t以及t00第二个问题除掉对照层级关系图写出可达矩阵直接对可达矩阵进行比对之外还可以使用缩减算法解决对lostq使用缩减算法得到0010010000??001100100000011??????????????m这表明qt的缺陷是缺少了当然由于qt本身的构造m中的前面4列才是qt本身缺少的m中的第5列是由r1和qt中的相同列第1列和r1中的第5列作布尔并得到的
补偿模型包括连接模型(conjunctive models)和非连接模型(disjunctive models)。连接的含义是掌握项目所有属性 , 可以较高的概率正确作答 , 而未掌握 ( 即使只有一个属性没有掌握)也将大大降低答对概率。本文仅讨论连接的非补偿模型。认知模型因为和具体的认知行为有关 , 故更加多姿多彩。本文仅讨论教育测量中的认知模型。给定一个感兴趣的论域 (domain), 教育测量中的认知模型是对问题解决的抽象, 选择合适的粒度 (granularity) 刻划任务 , 即用合适的粒度 ( 粒度的直观解释是考察点的细分或细化程度 ) 对问题解决的简化描述 , 以方便解释和预报被试表现 , 包括他们在这个论域中认知上的长处和不足 (Gierl, Leighton, & Hunka, 2007)。比如诊断小学生分数运算掌握情况, 就不能使用 “分数运算 ” 这么大的粒度对问题进行描述 , 而要将这个属性进行分解 , 用更小的粒度 ( 比如相同分母的加减运算、求两个整数的最小公倍数、最大公因子、通分、异分母加减运算、约分, 等等)进行描述(许志勇, 丁树良, 汪文义, 涂冬波, 2010)。认知模型提供了对测验反应进行解释的框架 ,

喻晓锋1,2 丁树良1 秦春影2 陆云娜1,3

心理学报 2011, Vol. 43, No.3, 338−346Acta Psychologica Sinica DOI: 10.3724/SP.J.1041.2011.00338收稿日期: 2009-12-22* 国家自然科学基金项目(编号30860084和60263005), 全国教育考试“十一五”科研规划课题(编号2009JKS2009), 教育部人文社科项目(编号09YJCXLX012, 10YJCXLX049), 安徽省2010年度高校省级自然科学研究项目(编号KJ2010B123)。

通讯作者: 丁树良, E-mail: ding06026@贝叶斯网在认知诊断属性层级结构确定中的应用*喻晓锋1,2 丁树良1 秦春影2 陆云娜1,3(1 江西师范大学计算机信息工程学院, 南昌 330027) (2 安徽亳州师范高等专科学校计算机系, 亳州 233500)(3 江西省南昌市第一中学, 南昌 330003)摘要 K. K. Tatsuoka 和她同事研究的规则空间模型(RSM)是一种在国内外有较大影响的认知诊断模型, 但是Tatsuoka 的RSM 是由学科专家先从已编制的测验中抽取出属性, 然后给出测验的关联Q 阵, 再由该Q 阵导出属性间的层级关系。

已有研究证明, 这种做法所得到的属性间的层级关系难以保证是正确的, 甚至难以保证属性间的层级关系是唯一确定的。

这里利用贝叶斯网进行结构学习, 从被试的属性掌握模式中挖掘出属性间的层级关系, 学习所得到的层级关系可以用来验证由RSM 中的方法得到的层级关系。

模拟实验和实证研究的结果都显示了该方法所得到的属性层级关系是有参考价值的, 可以为命题或测量专家带来有用的信息。

关键词规则空间模型; 认知诊断; 贝叶斯网; 结构学习分类号 B8411 引言认知诊断理论是新一代测量理论, 在教育测量实践中具有广阔的应用前景; 贝叶斯网络是基于概率的图模型, 正逐渐成为人工智能、模式识别、机器学习和数据挖掘等众多领域中处理不确定性问题的重要方法之一, 是十多年来在这些领域的一个研究热点(董立岩, 2007)。

认知诊断理论

GLTM综合考虑了MLTM和 LLTM的优点，一方面可以通过控制刺激成分的复杂度来调整刺激水平，另一方面，它所定义的潜在特质之间又如同MLTM 那样是非补偿的。
潜在分类模型
规则空间模型
规则空间模型（Rule Space Model, RSM）是潜在分类模型的基础，其核心思想是：测验项目可以用特定的认知属性来刻画，同时个体的知识结构也可以用一组无法直接观察到的认知属性掌握模式来表征，而且这些不能直接观察到的认知属性掌握模式可以用可观察到的项目反应模式恰当地表达。
认知诊断模型研究
潜在特质模型
线性逻辑特质模型多成分潜在特质模型拓广多成分潜在特质模型
潜在分类模型
规则空间模型融合模型 DINA模型 NIDA模型贝叶斯网络
潜在特质模型
线性逻辑特质模型
线性逻辑特质模型（Linear Logistic Traits Model, LLTM）是潜在特质模型的基础，该模型首次实现了测量与认知的结合。
认知诊断理论简介
传统的考试结果只报告一个笼统的总分或能力分数，但分数相同的考生，往往具有不同的知识状态及不同的认知结构。认知诊断理论把认知过程与测量手段结合起来，不仅能对考生的整体水平做出评估，同时还可以将考生的认知结构模式化，利用合适的测量模型对不同的认知结构模式进行诊断，从而定量地考察考生的认知结构和个体差异。
给出诊断式评分
如果只是对正确的部分记分，忽略了错误答案的价值，那也就丧失了诊断的依据。
进行编码评分。其中，编码所代表的分数有三种：满分、部分得分、零分；编码有双位编码和一位编码两种。其双位编码的第一位数字代表学生应得的分数，第二位数字代表学生的作答反应类型。双位编码的使用记录了学生在解决给定问题的过程中所使用的策略，或是阻碍学生得出正确解决方案的错误概念。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2009), 或者扩张算法的逆算法 ( 缩减算法 ) 可以得到可达矩阵 R 。而使用 “ 缩减算法 ” 时 , 要使用 “ 布尔并 ”运算。所谓两个 0-1 列向量的 “布尔并 ”运算 , 即 y 为取两个向量的对应分量中取最大元 , 亦即若 x、 1 的元素 , 则 x 与 y 的布尔并记为 x∨y=max 值为 0、而缩减法的要义是如果 Q 矩阵中一个列可以 ( x, y )。表示成为这个 Q 矩阵中其他两个或者两个以上列的布尔并, 那么这一列是这个 Q 矩阵中“非本质”的列, 可以删除, 不断地删除 Q 中“非本质”的列, 一直到所有“非本质”的列都删除为止。缩减算法放在附录中。
补偿模型包括连接模型(conjunctive models)和非连接模型(disjunctive models)。连接的含义是掌握项目所有属性 , 可以较高的概率正确作答 , 而未掌握 ( 即使只有一个属性没有掌握)也将大大降低答对概率。本文仅讨论连接的非补偿模型。认知模型因为和具体的认知行为有关 , 故更加多姿多彩。本文仅讨论教育测量中的认知模型。给定一个感兴趣的论域 (domain), 教育测量中的认知模型是对问题解决的抽象, 选择合适的粒度 (granularity) 刻划任务 , 即用合适的粒度 ( 粒度的直观解释是考察点的细分或细化程度 ) 对问题解决的简化描述 , 以方便解释和预报被试表现 , 包括他们在这个论域中认知上的长处和不足 (Gierl, Leighton, & Hunka, 2007)。比如诊断小学生分数运算掌握情况, 就不能使用 “分数运算 ” 这么大的粒度对问题进行描述 , 而要将这个属性进行分解 , 用更小的粒度 ( 比如相同分母的加减运算、求两个整数的最小公倍数、最大公因子、通分、异分母加减运算、约分, 等等)进行描述(许志勇, 丁树良, 汪文义, 涂冬波, 2010)。认知模型提供了对测验反应进行解释的框架 ,
心理学报 2012, Vol. 44, No.11, 15351546 Acta Psychologica Sinica
DOI: 10.3724/SP.J.1041.2012.01535
教育认知诊断测验与认知模型一致性的评估*
丁树良 1
3
毛萌萌 2
汪文义 1
罗
芬1
CUI Ying3
(1 江西师范大学计算机信息工程学院 , 南昌 330022)
(2 南昌大学教育学院教育系 , 南昌 330031)
( Centre for Research in Applied Measurement and Evaluation (CRAME), University of Alberta, CA)
摘
要
构建正确的认知模型是成功进行认知诊断的关键之一 , 如果认知诊断测验不能完整准确地代表这
个认知模型 , 这个测验的效度就存在问题。属性及其层级可以表示一个认知模型。在认知模型正确基础上 , 给出了一个计量公式以衡量认知诊断测验能够多大程度上代表认知模型 ; 对于不止包含一个知识状态的等价类及其形成原因进行了分析 , 对 Cui 等人的属性层级相合性指标 (HCI)提出修改建议 , 以更好地探查数据与专家给出的认知模型的一致性。关键词分类号认知诊断 ; 认知模型 ; 认知诊断测验 B841
教育认知诊断中涉及到两类模型：认知诊断模型 (cognitive diagnostic model, CDM) 和认知模型 (cognitive model, CM)。认知诊断模型受到高度关注 , 它是被试在项目上的反应的函数 , 将被试可观察的反应模式 (ORP) 转化为被试知识状态 (KS) 的数学模型。大家比较熟悉的规则空间模型 (RSM; Tatsuoka, 1995, 2009)、属性层级模型 (AHM; Leighton, Gierl, & Hunka, 2004) 、确定性输入 , 噪音 “ 与 ” 门模型 (DINA; Junker & Sijtsma, 2001)等等 , 都是 CDM。对 CDM 的研究包括对 CDM 的开发、CDM 的性质的探讨以及 CDM 的应用等等。而 CDM 又可依照不同标准进行分类 , 如果从项目的评分方式来看 , 可以分成 0-1 评分、多级评分、甚至连续评分的 CDM; 从认知模型的维度来看 , 有单维和多维模型 ; 从认知属性对认知任务起的作用来看 , 有补偿性、部分补偿性和非补偿性模型 ; 从认知策略的多寡来看 , 有单策略与多策略模型 ; 从 Q 阵的完备性来看 , 有要求 Q 阵完备和不要求 Q 阵完备模型等等 (Fu & Li, 2007; 汪文义 , 2009; 陈平 , 2011)。非补偿的含义是掌握的属性不能补偿没有掌握的属性 , 非
1
认知模型与属指正确求解项目
11 期
丁树良等: 教育认知诊断测验与认知模型一致性的评估
1537
Luo, Cai, Lin, & Wang, 2008; 杨淑群 , 蔡声镇 , 丁树良 , 林海菁 , 丁秋林 , 2008; 丁树良 , 汪文义 , 杨淑群 , 2009; 丁树良 , 祝玉芳 , 林海菁 , 蔡艳 , 2009) 导出 Qr。我们将 Qr 改写成 Qp, Qp 的列的集合表示所有潜在 (potential)项目类的集合 , 即 Qp 中第 j 列代表一类项目 , 这类项目所含属性恰好对应了 Qp 第 j 列中非零元素 ; 在 Qp 中加上一个全 0 列 , 记为 Qs, 表示所有被试的知识状态类。显然由 R 可以导出 Qp, 由 Qp 可以导出 Qs; 同样由 Qs 立即可得 Qp。而由 Qp 通过行的包含关系的比较 (Tatsuoka, 1995,
收稿日期 : 2011- 10- 10 * 国家自然科学基金(30860084, 31160203,31100756)、国家社会科学基金(12BYY055)、国家教育科学规划项目(CCA110109)、教育部人文社科项目(09JJCXLX012, 10YJCXLX049, 11YJC190002), 江西省教育厅科技计划项目(GJJ11385, GJJ10238)、全国教育考试科研规划课题 (2009JKS2009)和高等学校博士学科点专项科研基金(20113604110001)资助。通讯作者 : 丁树良, E-mail:ding06026@
1535
1536
心
理
学
报
44 卷
这个框架还可以用来指导项目开发 , 将测验观察结果和被试的知识、加工、策略等特殊认知推断联系起来 , 使认知原理和测量实践联系起来 (Gierl et al., 2007)。认知模型是认知诊断中最基础也是最关键的部分。如果没有认知模型 , 就好像进入一个大城市缺少一张导游图 , 只能在纵横交错的道路上摸索 , 而不可能对城市的布局了然于胸。同样 , 没有认知模型 , 认知诊断测验的设计就缺乏基础 , 也就很有可能无法探查某些被试的知识结构 ( 这些知识结构就相应于地图中的一些道路 ) 。之所以说规则空间模型对现存的测验数据进行认知诊断分析 , 即使用 “ 翻新 ” (retrofitting) 方法 , 会存在这样或那样的缺陷 , 就是因为现存的测验根本不是依据认知模型去设计的。当然 , 由于认知诊断测验编制的原理和方法的研究成果还不丰富 , 纵使有了认知模型 , 如何编制一个能够完整准确地反映这个认知模型的测验蓝图的问题 , 也还值得认真研究。构建认知模型主要有专家讨论、文献调查、口语报告等方法。认知模型的构建是一个十分艰巨的工作 , 所以目前能直接应用到教育认知诊断的认知模型还很少 (Gierl et al., 2007)。认知模型的构建也不是一蹴而就的 , 比如下文中例 5 就给出了对认知模型进行争论的例子。这些争论提供了一些竞争的认知模型 , 如何评价各自的优劣是一件很有意义的工作。本文对教育诊断测验与认知模型一致性的评估进行讨论。首先将认知模型和属性及其层级 (attributes and their hierarchy, A&H) 对应 , 再将 A&H 用数学符号表示 , 给出充分必要 Q 矩阵概念及其性质 ; 其次讨论 A&H 和观察反应模式 (ORP) 与期望反应模式 (ERP) 的关系 , 由此引出认知诊断测验的理论构想效度 (theoretical construct validity) 的概念 , 并且用两个例子分析、说明理论构想效度是如何受到影响的 ; 接着考虑到不论先构建认知模型再编制测验的方式还是先开发测验 , 再对所得反应数据做认知诊断分析的 “翻新 ”方式 , 都有必要考查测验数据是否能代表 (符合 )认知模型的问题：如果得到 Q 矩阵 , 将现有的层级相合性指标 (HCI; Cui & Leighton, 2009)进行一点修正 , 获得修正的 HCI (MHCI), 希望用 HCI (MHCI)考察观察反应模式与认知模型吻合的好坏 ; 最后一节是总结与讨论。
所需的基本认知加工 (cognitive processes) 或技能 (skill)。属性层级(hierarchy)是属性之间的逻辑和(或 ) 心理特征结构 , 不能与项目解决中要求的属性顺序关系相互混淆 (Gierl, Leighton, & Hunka, 2000)。若不掌握属性 A 便不能掌握属性 B, 则称 A 为 B 的先决 (prerequisite)属性。比如 , 不掌握同分母加法 (A) 和求两个数的公倍数 (B), 就不能正确掌握异分母加法 (C), 于是 A 和 B 都是 C 的先决属性 , 而 A 和 B 之间没有先决关系。如果 A1 是 A2 的先决属性 , 并且不存在另外一个属性 D, 使得 A1 是 D 的先决属性而 D 又是 A2 的先决属性 , 则称 A1 是 A2 的直接 (immediate)先决属性, 或者用偏序关系的语言来说 , A2 是 A1 的覆盖 (屈婉玲 , 耿素云 , 张立昂 , 2008)。有专家认为对于所感兴趣的论域 , 属性及其层级可以构成认知模型 (Gierl et al., 2007; Leighton et al., 2004; Tatsuoka, 1995, 2009)。Leighton 等人(2004) 给出四种基本属性层级、线型、收敛型、发散型及无结构型 ( 图 1), 并且认为其他复杂层级关系可以由这四种基本层级结构组合而成。从图 1 可知 Leighton 等人 (2004)的无结构型是一种特殊的发散型 , 他们这种分类显得有一点混乱 ; 而 Tatsuoka (1995, 2009)给出一种独立型结构 (图 1), 即所有属性之间无先决关系。这种独立型结构 , 在实际应用中也是存在的 , 如有研究认为 GRE 牵涉的属性之间的关系符合独立型结构 ( 可参见 Leighton et al., 在国外研究中经常使用这种独立型结构 , 由 2004)。于 Leighton 等人强调属性之间的先决关系 , 而没有引入这种属性之间无先决关系的结构类型。 Leighton 等人所给出的结构都是连通图 , 独立型是非连通图 ( 屈婉玲等 , 2008), 为了研究范围更加广泛而不冗余 , 我们主张用独立型代替无结构型。给定 K 个属性及其层级 , 根据图论 (graph theory), 便可以给出一系列元素为 0 或 1 的矩阵 , 比如 K 阶邻接矩阵 (adjacency matrix) A (aij ) , aij=1 表示 i 是 j 的直接先决属性; 否则 aij=0, 当 i=j 时 aij = aii =0; 由邻接矩阵 A 和 K 阶单位矩阵 I 的和 A+I 可以获得可达矩阵 R (rij ) ; R 的第 i 行等于 1 的元素表示属性 i 是这些非零元素对应的属性的先决属性 ; R 第 j 列中非零元素表示这些非零元素对应的属性和第 j 个属性在同一 “路径 ”上 ; 故 R 第 j 列表示的是以第 j 个属性为终点的路径(杨淑群, 丁树良, 2011)。由可达矩阵 R 通过 Tatsuoka (1995, 2009)的方法可以导出简化 Q 阵 Qr, 或者通过扩张算法 (Ding,

认知ABC理论

页数:3
认知结构知识模型理论简介

页数:3
认知结构知识模型理论

页数:7
认知网络体系及认知行为模型

页数:4
第六章认知模型理论

页数:3
认知模型理论王寅认知语言学第六章

页数:50
认知语言学中的意象图式理论

页数:3
认知科学的几个基础理论问题-智能科学与人工智能

页数:9
社会认知模型

页数:47
第4章_自我的发展_1_自我发展的理论_2_皮亚杰的认知发展模型

页数:2

教育认知诊断测验与认知模型一致性的评估_丁树良[1]

合集下载

一种多级评分的广义认知诊断模型

不同的认知发展观对教学的启示——试论皮亚杰与维果斯基认知发展观差异中的互补

认知诊断理论概述

认知诊断测验的属性分类一致性和分类准确性指标

认知诊断模型下整体和项目拟合指标

认知诊断理论在数学教育评价中的应用

大学生解决物理问题时的认知诊断——以牛顿力学为例

教育认知诊断测验与认知模型一致性的评估_丁树良[1]

喻晓锋1,2 丁树良1 秦春影2 陆云娜1,3

认知诊断理论

文档推荐

最新文档