教育认知诊断测验与认知模型一致性的评估_丁树良[1]
- 格式:pdf
- 大小:528.69 KB
- 文档页数:12
不同的认知发展观对教学的启示——试论皮亚杰与维果斯基认知发展观差异中的互补摘要:皮亚杰与维果斯基从不同角度开创了“认知发展理论的先河”,为当代认知理论奠定了坚实的基础,对教育学产生深远影响。
本文在比较分析二者理论差异之处的同时,试图在差异中探讨两者的互补性,揭示其对教学的意义,为教育理论与实践的发展提供借鉴。
关键词:认知发展理论;差异与互补;教学启示1前言在认知发展领域,以皮亚杰的建构主义发展观和维果斯基的社会文化观最为突出。
在研究领域,把皮亚杰和维果斯基的认知发展理论放在一起比较越来越受到人们的关注,并且也产生了许多研究成果:至少可以找到两类比较模式,一是比较皮亚杰和维果斯基理论的不同点,并从这些不同点中,尤其是原则性的分歧中理解人类的发展;二是探讨两种理论之间的相似之处。
皮亚杰和维果斯基的发展心理学理论在许多方面,特别是对一些重要分歧点的理解存在着互补性,到目前为止,此方面的研究尚不多。
二十一世纪的今天,我国的教育面临着严竣的挑战,基础教育的一项紧迫任务是积极推进素质教育。
鉴于此,本文试图就二者的心理发展理论做一比较,揭示二者理论的差异与互补,探讨其理论在当前教育教学改革中的作用,从而为当前教学提供更多的启示。
2两种认知发展理论的基本观点2.1皮亚杰认知发展理论的基本观点皮亚杰认知理论最迄今最具影响力的儿童认知发展理论,他认为儿童心理结构的发展涉及图式、同化、顺应和平衡。
个体在与环境相互作用中逐渐构建知识体系,发展在很大程度上依赖于儿童对周围环境的操纵以及与周围环境的积极互动。
儿童心理发展是通过同化和顺应周围复杂的环境,从而达到平衡的过程,在平衡与平衡的转换中使知识结构不断完善,认知得到发展。
皮亚杰将数理逻辑作为划分儿童逻辑思维发展工具,把儿童心理分为以下四个阶段,认为每一阶段思维的发展都是建立在前一阶段思维发展水平的基础上。
这四个阶段为:感知运动阶段、前运算思维阶段、具体运算阶段和形式运算阶段。
认知诊断测验的属性分类一致性和分类准确性指标汪文义;宋丽红;陈平;丁树良;程艳【摘要】分类一致性和分类准确性是衡量考试信效度的两个重要评价指标.基于项目反应理论下分类一致性和分类准确性指标,提出认知诊断测验的属性(模式)分类一致性和分类准确性指标,讨论分类一致性指标、分类准确性指标与属性估计误差之间的关系,并由属性掌握概率的估计标准误推导出属性分类准确性的上限.结果显示:属性(模式)分类一致性可准确估计重测一致性;分类准确性指标计算简单,可准确估计认知诊断测验的判准率.【期刊名称】《心理学探新》【年(卷),期】2016(036)003【总页数】6页(P264-269)【关键词】分类一致性;分类准确性;属性经验信度;属性α信度;确定性输入噪声与门模型【作者】汪文义;宋丽红;陈平;丁树良;程艳【作者单位】江西师范大学计算机信息工程学院,南昌330022;江西师范大学初等教育学院,南昌330022;北京师范大学中国基础教育质量监测协同创新中心,北京100875;江西师范大学计算机信息工程学院,南昌330022;江西师范大学计算机信息工程学院,南昌330022【正文语种】中文【中图分类】B841.2在认知诊断评估领域中,诊断测验的信效度是一个较新的研究领域。
认知诊断主要是在离散潜在空间对被试分类,连续潜在空间下信度评估方法不能直接应用于诊断测验(Henson,2005;Roussos et al.,2007)。
因此,诊断分数信度常常没有报告,属性分类结果的可信度就无从得知(Templin & Bradshaw,2013)。
国内外关于诊断测验的信效度评估方法近年来有些研究,但仍存在一定的不足。
在此简要介绍几种已有的评估方法,并分析这些方法存在的问题。
Rousso等人(2007)提出通过模拟平行测验的方法得到分类一致性,此方法可用于估计重测一致性,只是需要模拟平行测验得分数据并对模拟的被试进行分类,再计算两测验的分类一致性。
认知诊断模型下整体和项目拟合指标宋丽红;汪文义;戴海琦;丁树良【摘要】认知诊断模型能否拟舍测验数据,直接决定诊断结果的准确性.目前国内鲜有研究涉及认知诊断测验下的模型-资料拟合检验.文章将模型整体拟合指标及基于PPMC的项目拟合指标应用于认知诊断模型-资料拟合检验.模拟研究基于DINA,R-DINA和R-RUM三个诊断模型检验各拟合指标的表现.结果显示整体和项目拟合指标在识别数据产生模型时皆有较高准确率.采用整体和项目拟合指标比较了三个竞争模型与Tatsuoka带分数减法数据的拟合情况,显示R-RUM拟合最好.【期刊名称】《心理学探新》【年(卷),期】2016(036)001【总页数】5页(P79-83)【关键词】认知诊断模型;DINA;R-DINA;R-RUM;后验预测模型检查;带分数减法数据【作者】宋丽红;汪文义;戴海琦;丁树良【作者单位】江西师范大学初等教育学院,南昌330022;江西师范大学计算机信息工程学院,南昌330022;江西师范大学心理学院,南昌330022;江西师范大学计算机信息工程学院,南昌330022【正文语种】中文【中图分类】B841.2认知诊断评估是认知心理学与心理计量学相结合的产物,是21世纪一种新的测量范式。
认知诊断模型是描述可观察反应与潜在认知属性之间关系的统计模型,对认知诊断评估至关重要。
为了满足不同情境下实际应用需求,研究者开发出了众多认知诊断模型。
相关文献显示,截止到2007年,已有诊断模型超过60个(Fu & Li,2007),而之后又涌现出了不少诊断模型(陈秋梅,张敏强,2010;R-DINA,宋丽红,戴海琦,汪文义,丁树良,2012)。
在认知诊断实践中,选择恰当的认知诊断模型是对被试准确诊断或分类的重要前提(Rupp,Templin,& Henson,2010)。
对于特定的诊断测验,诊断模型的选择要依据心理学或教育学的理论假设,如模型假设与测验作答心理认知过程的匹配性(杨向东,2010;Kunina-Habenicht,Rupp,& Wilhelm,2012),测验Q矩阵与测验作答所需属性及属性结构的吻合性(丁树良,毛萌萌,汪文义,罗芬,Cui,2012;涂冬波,蔡艳,戴海琦,2013;Chen,Torre,& Zhang,2013;Kunina-Habenicht et al.,2012)。
认知诊断理论在数学教育评价中的应用王立东;郭衎;孟梦【摘要】质性地比较论证了基于认知诊断理论的数学教育评价工具开发的可行性。
通过分析实际测试数据,比较几种不同认知诊断模型中的参数估计方法实际应用于分析数学评价测验的可能性。
研究发现,认知属性概念可以帮助研究者和实践者分析影响学生解答数学题目背后的认知结构。
人工神经网络模型能够充分利用理论设计的认知模型,克服测验题目有限、题型多样、认知属性差异大等不易分析的困难,较好评价学生的数学学业成就,为后续教学提供诊断性信息,达到了诊断性测验的目的。
%Qualitatively illustrating the feasibility of developing mathematics education assessment tool based on Cognitive Diagnose Model. Several different parameter estimation model based on survey data were compared. The results indicated that the concept of cognitive attributes could help both the researchers and the practitioners to analyze the cognitive structure behind students’ solutions of mathematical problems. Artificial neural networks model could fully make use of the cognitive model to solve the problems of limited amount of rubrics as well as diversity of different cognitive attributes, and assess students’ mathematical achievement with high validity, which provide diagnosestic information for future instruction.【期刊名称】《数学教育学报》【年(卷),期】2016(025)006【总页数】6页(P15-19,55)【关键词】数学教育评价;多维评分;认知诊断模型;属性层次模型;人工神经网络模型【作者】王立东;郭衎;孟梦【作者单位】中国人民大学附属中学,北京100080;北京师范大学数学科学学院,北京 100875;西南大学数学与统计学院,重庆 400715【正文语种】中文【中图分类】G40-034通常的数学测验只给出一个笼统的测验分数,而对于具有相同分数的学生,既不易区分他们可能具有的不同数学认知结构[1],也没有具体给出学生在数学学习的哪个方面存在不足.在教育研究中,这种测验分数无法提供精细化的学生学业成就评价;在教学实践中,这种测验分数对于后续数学教学的指导,也往往依赖于教师对于试卷的经验性分析.心理测量学中的认知诊断理论(Cognitive Diagnose: CD)依据测量学理论和统计分析技术给出了对于学生学习状况的标准化多维评价,为后续的教学实践提供了精细化的指导信息.心理学工作者开发了多种认知诊断模型和技术,如规则空间模型(Rule Space Model: RSM)[2]、DINA模型[3]、属性层次模型(Attribute Hierarchy Method: AHM)[4]等.在具体的模型下,又有多种不同的统计分析方法,如在AHM模型的理论框架下,就有多种属性掌握概率的参数估计方法[5].研究将以大规模七年级学生代数学业成就测试的编制与实施为案例,尝试将认知诊断理论中的AHM模型应用于数学学业成就的诊断性评价中,通过质性分析论证其应用于数学教育理论与实践的可行性.2.1 AHM模型概述AHM模型是在规则空间模型的基础上发展起来的一种重要的认知诊断模型.该方法的核心概念是认知属性(Attribute),对于该概念,心理测量界有多种描述,但详细考察其间没有本质上的区别.综合Tatsuoka(2009)、Leighton等(2004)的观点,认知属性可以被认为是一般性的知识与认知技能,或程序与陈述性知识,在课程标准为教学目标的教学系统中,可以将属性等同于课程标准中的具体教学目标的条目.在数学背景下的认知属性可以是具体的数学知识(如掌握有理数的定义)、技能(如能够求解二元一次方程组),也可以是相对抽象的数学思想(如数学类比的思想)等.它是一种将考生在测验项目上的作答情况与特定认知属性掌握情况建立数量关系的统计方法,进而能够对于学生学业成就进行多维度评价,为后续的教学提供诊断信息(指出学生在哪个认知属性的掌握上存在不足)[6].该方法以认知结构理论为基础,在操作上,先由学科专家确定要测量的各个认知属性及其层次关系,将此作为指导测验编制的认知结构模型.如:图1表示分别被称为直线型和收敛型的认知结构模型,各自由4个和6个需要测量的认知属性组成.在数学学习上,这若干个认知属性应存在逻辑先决关系(由箭头表示),如A1A2表示学生掌握A2属性必须是以掌握A1属性为前提(如掌握二元一次方程组的解法必须是以掌握一元一次方程解法为基础),即直接的先决关系.A1A2A3表明,A1与A2,A2与A3存在直接的先决关系,A1与A3存在间接的先决关系.这样在测量高级属性的过程,可以提供低级属性的测量信息.如,正确回答二元一次方程题目的学生,可被判定是掌握了二元一次方程属性,同时,也在一定程度上掌握了一元一次方程属性.此外,正确回答了一元一次方程题目,但错误回答二元一次方程题目的学生,要比错误回答了一元一次方程题目和二元一次方程题目的学生在二元一次方程属性的掌握情况上更好(虽然他们错误地回答了二元一次方程题目).在属性层级关系的基础上,可以获得一个可达矩阵(Reachability Matrices):表示各属性间的直接或间接的先决关系.在可达矩阵的基础上,通过扩张算法(丁树良等,2009)[7]得到包含各类可能的属性组合的完全的Q矩阵,该矩阵建立了题目与属性的关系.基于这个过程设计的题目能够整合已有的认知理论对于各类属性层次结构的认识,可以从内容效度的角度保证了所设计的测验能够测量、区分学生不同的认知结构.通过Q矩阵,可以获得若干个学生的期望反应模式,这个模式假设学生完全依照认知模型作答,不受任何随机因素(如猜测,发挥失常等)影响.也可以获得与期望反应模式相对应的属性掌握模式(即在理想状态下,具有某种属性掌握模式的学生的答题结果是期望反应模式).如图1中,直线型结构给出的认知结构样例中,学生应有4种理想的反应模式包括(1, 0, 0, 0)、(1, 1, 0, 0)、(1, 1, 1, 0)、(1, 1, 1, 1),其中4个数字分别表示学生回答4道试题(由Q矩阵决定)的正误情况.即按照图1中的层次关系,在理想的情况下,学生如果正确回答了第二题,在无其它随机因素影响的前提下,应正确地回答第一题.对应的属性掌握模式为(1, 0, 0, 0),即仅答对第一题的学生在理想状态下,应是仅掌握第一个认知属性.在教育实践中,学生对于某种属性的掌握情况无法仅由掌握和不掌握来描述,同时实际答题的过程中还受到许多随机因素的影响.AHM模型可以基于学生的实际答题情况(称为反应类型),如:(1, 0, 0, 1)代表学生正确回答第一、第四题,错误回答了第二、第三题.AHM模型通过估计属性掌握概率(对于各个属性掌握情况都用一个属于[0, 1]的数来刻画)更加细致地刻画属性掌握情况,如(0.1, 0.5, 0, 0.8)可代表学生对于4个认知属性的掌握情况(该学生较好地掌握了第四个属性,对于第二个属性掌握一般,没有掌握第一、第三个属性).认知诊断模型对于学习者在某个属性上的掌握情况做出判断,进而从中获得反馈指导相应的教学(如学生在第一、第三个认知属性的学习上需要重点加强,补充学习).2.2 测验框架设计与试题编制评价模式选择为标准参照的诊断性评价,以课程标准中的有关数学教学内容的具体条目为测量目标,将其作为AHM模型中的认知属性.在征询了部分一线教学专家的意见的基础上,将七年级的代数和几何内容分开编制测试问卷.(由于在七年级的教学要求中,代数几何的综合内容可以忽略不计,同时忽略统计教学内容和一次不等式(组)的教学内容.由于在七年级第二学期期中考试后(5月底,6月初)对于学生进行测量,按照基本教学计划,多数学校还未教授这两个内容.)针对代数测试卷(编码为卷Ⅰ)先在16个涉及代数的属性中(不包括不等式的内容)由多位有中学教学经验的数学教育专业博士生从上述属性中,抽取认为处于核心知识地位的8个属性(总数的50%),具体见表2.在此基础上,得到各测试卷认知模型.属性层次结构图见图2.以上属性层次结构给出了需要测量的8个属性的层次结构关系,如掌握属性A1.1是掌握属性A1.2和A1.3的直接先决条件.用矩阵的形式给出如图2所示结构图,得到如表3所示的可达矩阵.在可达矩阵的基础上,获得缩减Q矩阵.这个矩阵考虑了8个具体层级关系属性理论上可以在相关题目中实现各种组合情况,同时也考虑到了数学学科内容的特点,包括按照理论上的属性搭配模式编制的问题可能不是在初中范围内实质上的,有意义、有价值的数学问题(如强行将两个数学内容联系在一起或者产生如二元一次方程组与绝对问题相结合的难度过大的题目),或者这些问题是否过于复杂、难度过大的问题,同时也考虑是否会造成试卷过长的问题.如是否考虑属性A1.2(相反数与绝对值内容)会造成题目大量增加(因为A1.2相对“独立”).在可达矩阵的基础上,获得了如下的缩减Q矩阵(包括11类题目),如表4所示.上述Q矩阵表明,在开发测验中,需要编制11类题目.在此基础上,形成卷Ⅰ的各个测试题目.样例:()1. 某数的相反数的绝对值的倒数是5,求这个数是()(A) (B) (C) 5或 (D)正确回答该题目需要掌握涉及A1.1和A1.2两个属性的知识与能力.正确回答该问题说明学生较好地掌握了属性A1.1(有理数的意义、数轴上的点表示有理数、比较有理数的大小)和属性A1.2(会求有理数的相反数与绝对值(绝对值符号内不含字母)).2.3 属性掌握分数的参数估计模型针对如何通过学生的题目反应模式获得学生对于各个属性的掌握分数的问题,现有文献提供了多种针对AHM模型的参数估计方法.方法一:Leighton, et al(2004)提出了依据“滑动”(slips),观测反应模式(Observed Response Pattern)向期望反应模式判定的方式中的A方法,结合Tatsuoka(2009)中属性掌握概率的概念获得一个新的属性掌握分数估计方法,具体过程如下:对于一个实际反应模式:,;.计算其由某个特定的期望反应模型“滑动”而来的后验似然:其中,为第i个期望反应模式对应的学生的能力估计值,由项目反应模型(IRT)给出.此外,表示期望反应模式的反应为0,观测反应模式的反应为1的项目的集合;表示期望反应模式的反应为1,而观测反应模式的反应为0的项目的集合,从而形成一个后验似然.这个后验似然即为某个观察反应模式是由某个由理想属性掌握模式决定的期望反应模式而来的后验似然.为了获得对于某个学生在某个属性上的掌握情况的更准确的估计,参考Tatsuoka(2009)中给出的属性掌握概率的方式,通过综合考虑某个观察反应模式从每个期望属性掌握模式而来的可能性,给出了如下属性掌握概率的刻画,从而可以获得给某个特定观测反应模式的学生在某个特定属性上的掌握概率(分数)的估计值:其中,表示第个期望反应模式在第个属性上的掌握情况,用0,1来表示掌握与未掌握的学习状态.方法二:朱金鑫等(2009)[8]提出了非IRT的属性掌握概率的估计方法.首先,计算学生在包含属性k的项目中答对的比例,利用这个比例估计学生掌握某个属性的概率,同时将答对某个项目的概率定为该项目涉及的所有属性掌握概率估计的乘积,这个项目答对的概率可以修正上述学生掌握某个属性的估计,进而获得学生在某个属性掌握概率的估计:朱金鑫等(2009)认为这个估计方法可以消除属性间的影响,但研究者认为属性间可能存在的影响恰恰可以为属性掌握情况的估计提供更为丰富的信息.如:如正确回答二元一次方程的学生,即使在求解一元一次方程的题目中出错,但在有关一元一次方程的认知属性的评价中,应当考虑属性层次提供的信息,不应评为0.方法三:Gierl, et.al(2007),(2008)[9]提出了应用人工神经网络学习模型(Artificial Neural Networks,以下简称ANN)估计属性掌握概率的方法.ANN方法是由生物神经网络启发的计算模型,包含多组不连接的人工神经元.在学习的过程中,通常基于内部或外部的信息修正激发函数.通常被用来建立输入与输出的复杂关系以发现数据的模型.该方法采用Logistic函数(S型曲线)作为隐藏层(Hidden Layer)和输出层(Output Layer)的激发函数(Activition Function):其中为输入变量,即学生的答题情况(n道题),为隐藏层的个数,为线性变换部分的权重.从而输入经过隐藏层形成了一个维向量,经过下列公式:通过进入输出层,为线性变换部分的权重,形成一个维向量,即学生在个属性上的掌握情况的评分,从而实现反应模式到属性掌握概率(分数)的变换.可以看到该种方式的模型决定了各个项目的结果都为各个属性掌握的结果的估计提供了信息,这就建立了属性之间的联系,可用学生的答题情况估计学生的属性掌握情况.下文将基于一个实证大样本调查研究的数据比较上述3种参数估计方法的运算结果,质性地论证将认知诊断理论应用于数学教育评价的可行性.针对性地搜集了理论框架设计所需的数据,从而保证了研究的系统性.数据来自北京师范大学与美国Vanderbilt大学的MIST-CHINA国际合作项目的数据库,样本来自中国3个大城市学区的教师与学生.用分层随机抽样的方法从重点中学(示范中学)与非重点中学(普通中学)中近似随机选择若干所初级中学(包括完全中学的初中部).从每所学校的七年级随机选取5~7名数学教师作为教师样本,选取每位教师教授的一个班的学生为学生样本(随机选择每位教师的一半的学生完成代数测试),有效数据为:1 304名学生的代数测试数据.利用实际施测数据对于几种方法进行了比较,讨论了各种方法的差异,进而获得了适合该研究数据分析的相对高效度的分析方法.尝试一:利用综述中的方法一获得对于学生属性掌握分数的估计,每个学生的属性掌握情况由一个八维向量来表示,但通过计算各个维度属性掌握分数的相关系数,发现该方法在分析研究数据的计算结果存在一定的问题,如表5所示.通过相关分析,学生在某些属性的掌握概率与另外一些属性的掌握概率呈现负相关(如表5中用下划线标识的),而且相关系数较大(统计显著),项目反应理论(IRT)估计的学生数学能力数值(在表格中以BILGdata表示)与部分属性能力数值呈现负相关的现象.这种现象与教育实践经验无疑是不相符的,通常的认识是在同一个领域的学习中,不同的内容间的学习情况在一个群体中应当是具有一定的一致性的,呈现强负相关的情况无疑是值得怀疑的.这是由于在对于学生进行多维认知评价的时候使用具有单维假设(假设学生的能力能够用一个数值来表示)的IRT模型所带来的问题.即在计算滑动似然的时候,单维的IRT模型不易精确刻画相应的似然,同时此研究的测试在使用IRT分析时,鉴于实际作答情况,采取了3参数的IRT模型(有两道非选择试题也做了3参数分析),这在某种程度上降低了IRT分析的精确性.从这个意义上讲,对于项目反应理论模型估计参数效果不佳,即具有一定数量的非选择题,并且涉及的知识内容较为宽泛(属性之间的差异较大,不满足IRT的单一维度假设)的测验,不宜采用上述模型分析.在这样的情况下,尝试不基于IRT模型的分析方法.尝试二:利用综述中的方法二,其估计结果不存在上一方法中所出现的负相关和估计值过小的问题.但出现一个新的问题,即部分涉及项目较少的属性的掌握分数估计结果较为单一(只有3种分数,对应3种属性掌握情况),如属性A4.3(有两个题目涉及),不易区分出学生对于该属性的不同掌握情况.属性A4.3的掌握分数估计结果见表6.这种单一的现象使得对于某些属性的掌握分数的估计过于依赖单一的题目,而忽略了各个属性之间的相关性对于估计某些属性掌握概率的贡献,如有理由期望在低一层次掌握较好的学生比掌握较差的学生更有可能掌握更为高级的属性(恰恰后文分析的神经网络模型可以实现这点).这种现象是由于对于属性A4.3仅有两道题目测试,造成分母值较为单一.同时,该结果出现了低水平属性和高水平属性能力“倒挂”的现象,如所有学生属性A1.1的属性能力的均值为0.045 087,作为最基础需要掌握的属性,其得分反而低于其它所有的属性,这无疑有悖于教育经验.出现这种现象的原因是因为该种估计方法依赖于项目的数量,由于测试条件限制(时间限制),代数测试的项目数量有限,这就使得随机因素影响了参数估计结果.同时这也是一种基于实际数据的模型,抛开了属性的层级结构的假设,因此产生了“倒挂”现象的可能.从这个意义上讲,对于题目数量有限但需要评价的认知属性较多(且相关关系“紧密”)的测验,该评价方法不易充分利用理论设计中的认知结构模型来高效度地测量学生的属性掌握情况.分析上述不足,研究者尝试第三种参数估计方式:将20个与期望属性掌握模式相对应的期望反应模式(由Q矩阵生成的学生对于各个属性的掌握的各种情况(对于每种属性仅限制于没有掌握和完全掌握两种情况))作为样本(Examplers),即20个十二维向量做为模型训练的输入.而将20个期望反应模式作为期望变量(Desired Varibales),即20个八维向量作为模型训练的输出.选择SPSS16.0的默认设置(如,多层感知器(Multilayer Perceptron)过程,Batch类型的训练类型,自动生成隐藏层单元数等),获得估计结果,形成权重矩阵.这个权重矩阵和激发函数即作为连接前文所述实际反应模式与属性能力的映射.注意这是一个基于理论假设而非基于数据的模型.进而将学生的项目反应作为向量,输入属性能力,SPSS自动生成了16个隐藏层:即学生的8个属性掌握能力的八维向量到一个虚拟隐藏层的十六维向量再到学生答题结果(12道题)的十二维向量的映射,从而可以通过学生的答题结果回归估计学生的属性掌握能力.需要注意的是,这是一种不受数据影响的估计方法,其参数估计完全基于测验内容的理论设计(不由实测数据估计参数的模型),而不受到学生回答情况的影响,因此相对于施测情况不是特别理想的测验(如学生不认真作答)相对有效.表5的数据表明模型的拟合较好.对于前述两个模型出现的问题,神经网络模型都提供了很好的解决方法.各个属性之间呈现正向相关.这个结果与周超(2009)[10]的研究结果相一致(虽然对于认知水平的认识和处理方式(如基于题目和基于教学目标、内容)有所差异).神经网络模型能够很好地利用各个属性之间的联系(特别是层次结构关系)来更精细地估计属性分数.不同题目的反应对通过权重为属性分数的估计提供了贡献.例如:对于两个都错误地回答了A4.3有关的题目的学生,很好地掌握了属性A4.3上位属性(包括A1.1、A1.3、A1.4、A3.2、A4.2)的学生对于A4.3的掌握情况,估计很可能好于未能很好地掌握这些属性的学生.通过上述分析,可以看到,对于有如下特征的测验,人工神经网络模型能够很好的分析.(1)基于认知结构模型设计的;(2)题目数量有限;(3)要测量的属性较为宽泛;(4)题型丰富(选择,填空,解答)且不易用IRT模型分析.至此,应用人工神经网络模型可以获得对于学生在各个数学学习目标(认知属性)的学习评价结果,每位同学都得到了一个标准化的成绩报告,包括其在8个代数学习内容上的评分.这个成绩报告可以为后续教学实践活动提供指导,如:为教学质量提供系统的反馈,针对性地设计“补偿性”教学(包括采用“微课”等信息技术的方式).通过测试工具的编制与实施的过程分析可以看到,认知诊断可以帮助数学教育工作者系统地设计结构效度较高的诊断性测验工具.认知属性概念,可以帮助研究者和实践者分析影响学生解答数学题目背后的认知结构.同时,通过比较几种参数估计方法,找到可以相对合理的对测验结果数据进行多维分析的统计模型——人工神经网络模型.该模型能够充分地利用理论设计的认知模型,克服测验题目有限、题型多样、认知属性差异大等不易分析的困难,较好地评价学生的数学学业成就,为后续教学提供诊断性信息,达到了诊断性测验的目的.这些评价数据信息不仅可以用于有针对性的教学改进,也为大样本教育政策研究,如教育效能、学校效能、教师效能研究等,提供了精细的学生评价数据.[1] 涂冬波,蔡艳,戴海崎,等.现代测量理论下四大认知诊断模型述评[J].心理学探新,2008,(2):64-68.[2] Tatsuoka K K. Cognitive Assessment: An Introduction to the Rule Space Method [M]. New York and London: Routledge Taylor & Francis Group, 2009.[3] 孙佳楠,张淑梅,辛涛,等.基于Q矩阵和广义距离的认知诊断方法[J].心理学报,2011,(9):1 095-1 102.[4] Leighton J P, Gierl M J, Hunka S M. The Attribute Hierarchy Method for Cognitive Assessment: A Variation on Tatsuoka’s Rule-Space Approach [J]. Journal of Educational Measurement, 2004, 41(3): 205-237.[5] 王立东.数学教师对学生学业成就的影响研究[D].北京师范大学,2012.[6] 朱文芳.俄罗斯数学教育评价改革的动态与研究[J].课程·教材·教法,2006,(2):90-92.[7] 丁树良,祝玉芳,林海菁,等.Tatsuoka Q矩阵理论的修正[J].心理学报,2009,(41):175-181.[8] 朱金鑫,张淑梅,辛涛.属性掌握概率分类模型——一种基于Q矩阵的认知诊断模型[J].北京师范大学学报,2009,(2):117-122.[9] Gierl M J, Wang C, Zhou J. Using the Attribute Hierarchy Method to Make Diagnostic Inferences about Examinees’ Cognitive Skills in Algebra on the SAT [J]. Journal of Technology Learning & Assessment, 2008, 6(6): 53.[10] 周超.八年级学生数学认知水平的检测与相关分析[D].华东师范大学,2009.。
心理学报 2011, Vol. 43, No.3, 338−346Acta Psychologica Sinica DOI: 10.3724/SP.J.1041.2011.00338收稿日期: 2009-12-22* 国家自然科学基金项目(编号30860084和60263005), 全国教育考试“十一五”科研规划课题(编号2009JKS2009), 教育部人文社科项目(编号09YJCXLX012, 10YJCXLX049), 安徽省2010年度高校省级自然科学研究项目(编号KJ2010B123)。
通讯作者: 丁树良, E-mail: ding06026@贝叶斯网在认知诊断属性层级结构确定中的应用*喻晓锋1,2 丁树良1 秦春影2 陆云娜1,3(1 江西师范大学计算机信息工程学院, 南昌 330027) (2 安徽亳州师范高等专科学校计算机系, 亳州 233500)(3 江西省南昌市第一中学, 南昌 330003)摘 要 K. K. Tatsuoka 和她同事研究的规则空间模型(RSM)是一种在国内外有较大影响的认知诊断模型, 但是Tatsuoka 的RSM 是由学科专家先从已编制的测验中抽取出属性, 然后给出测验的关联Q 阵, 再由该Q 阵导出属性间的层级关系。
已有研究证明, 这种做法所得到的属性间的层级关系难以保证是正确的, 甚至难以保证属性间的层级关系是唯一确定的。
这里利用贝叶斯网进行结构学习, 从被试的属性掌握模式中挖掘出属性间的层级关系, 学习所得到的层级关系可以用来验证由RSM 中的方法得到的层级关系。
模拟实验和实证研究的结果都显示了该方法所得到的属性层级关系是有参考价值的, 可以为命题或测量专家带来有用的信息。
关键词 规则空间模型; 认知诊断; 贝叶斯网; 结构学习 分类号 B8411 引言认知诊断理论是新一代测量理论, 在教育 测量实践中具有广阔的应用前景; 贝叶斯网络 是基于概率的图模型, 正逐渐成为人工智能、 模式识别、机器学习和数据挖掘等众多领域中处理不确定性问题的重要方法之一, 是十多年来在这些领域的一个研究热点(董立岩, 2007)。