基于“态度”的知识追踪模型及集成技术
- 格式:pdf
- 大小:279.41 KB
- 文档页数:4
聚焦可解释性:知识追踪模型综述与展望
杨文阳;杨益慧
【期刊名称】《现代教育技术》
【年(卷),期】2024(34)5
【摘要】模型的可解释性是评估其实用性和实际应用价值的重要指标,但目前基于深度学习的知识追踪模型普遍存在可解释性差的问题,导致教学决策过程不透明。
对此,文章首先介绍了知识追踪的流程,分析了知识追踪模型的可解释性,并根据可解释性方法在模型训练过程中作用的时间,将可解释知识追踪模型分为事前可解释的知识追踪模型和事后可解释的知识追踪模型。
随后,文章分别对这两种模型进行再分类,并从优点、缺点两个维度,对不同类型的事前、事后可解释知识追踪模型进行了对比。
最后,文章从模型可视化、融入教育规律、多模态数据融合、解释方法探索、可解释性评估等方面,对未来可解释知识追踪模型的教学应用进行了展望。
文章的研究有助于提升知识追踪模型在教学中的实用性,推动教育数字化的进程。
【总页数】11页(P53-63)
【作者】杨文阳;杨益慧
【作者单位】西安石油大学计算机学院;现代教学技术教育部重点实验室
【正文语种】中文
【中图分类】G40-057
【相关文献】
1.深度学习模型可解释性研究综述
2.面向智慧教育的知识追踪模型研究综述
3.面向图像分类的深度模型可解释性研究综述
4.深度知识追踪模型综述和性能比较
5.机器学习模型可解释性研究及其在PHM中应用现状综述
因版权原因,仅展示原文概要,查看原文内容请购买。
软件学报ISSN 1000-9825, CODEN RUXUEW E-mail:************.cn Journal of Software,2021,32(3):818−830 [doi: 10.13328/ki.jos.006185] ©中国科学院软件研究所版权所有. Tel: +86-10-62562563 LFKT:学习与遗忘融合的深度知识追踪模型∗李晓光1, 魏思齐1, 张昕1, 杜岳峰1, 于戈21(辽宁大学信息学院,辽宁沈阳 110036)2(东北大学计算机科学与工程学院,辽宁沈阳 110163)通讯作者: 张昕,E-mail:****************.cn摘要: 知识追踪任务旨在根据学生历史学习行为实时追踪学生知识水平变化,并且预测学生在未来学习表现.在学生学习过程中,学习行为与遗忘行为相互交织,学生的遗忘行为对知识追踪影响很大.为了准确建模知识追踪中学习与遗忘行为,提出一种兼顾学习与遗忘行为的深度知识追踪模型LFKT(learning and forgetting behavior modeling for knowledge tracing).LFKT模型综合考虑了4个影响知识遗忘因素,包括学生重复学习知识点的间隔时间、重复学习知识点的次数、顺序学习间隔时间以及学生对于知识点的掌握程度.结合遗忘因素,LFKT采用深度神经网络,利用学生答题结果作为知识追踪过程中知识掌握程度的间接反馈,建模融合学习与遗忘行为的知识追踪模型.通过在真实在线教育数据集上的实验,与当前知识追踪模型相比, LFKT可以更好地追踪学生知识掌握状态,并具有较好的预测性能.关键词: 智慧教育;知识追踪;深度神经网络;学习行为;遗忘行为中图法分类号: TP181中文引用格式: 李晓光,魏思齐,张昕,杜岳峰,于戈.LFKT:学习与遗忘融合的深度知识追踪模型.软件学报,2021,32(3): 818−830./1000-9825/6185.htm英文引用格式: Li XG, Wei SQ, Zhang X, Du YF, Yu G. LFKT: Deep knowledge tracing model with learning and forgetting behavior merging. Ruan Jian Xue Bao/Journal of Software, 2021,32(3):818−830 (in Chinese)./1000-9825/ 6185.htmLFKT: Deep Knowledge Tracing Model with Learning and Forgetting Behavior MergingLI Xiao-Guang1, WEI Si-Qi1, ZHANG Xin1, DU Yue-Feng1, YU Ge21(College of Information, Liaoning University, Shenyang 110036, China)2(School of Computer Science and Engineering, Northeastern University, Shenyang 110163, China)Abstract: The knowledge tracing task is designed to track changes of students’ knowledge in real time based on their historical learning behaviors and to predict their future performance in learning. In the learning process, learning behaviors are intertwined with forgetting behaviors, and students’ forgetting behaviors have a great impact on knowledge tracing. In order to accurately model the learning and forgetting behaviors in knowledge tracing, a deep knowledge tracing model LFKT (learning and forgetting behavior modeling for knowledge tracing) that combines learning and forgetting behaviors is proposed in this study. To model such two behaviors, the LFKT model takes into account four factors that affect knowledge forgetting, including the interval between students’ repeated learning of knowledge points, the number of repeated learning of knowledge points, the interval between sequential learning, and the understanding degree of knowledge points. The model uses a deep neural network to predict knowledge status with indirect feedbacks on students’ understanding of knowledge according to students’ answers. With the experiments on the real datasets of online education, LFKT shows better performance of knowledge tracing and prediction in comparison with the traditional approaches.∗基金项目: 国家自然科学基金(U1811261)Foundation item: National Natural Science Foundation of China (U1811261)本文由“支撑人工智能的数据管理与分析技术”专刊特约编辑陈雷教授、王宏志教授、童咏昕教授、高宏教授推荐.收稿时间: 2020-08-23; 修改时间: 2020-09-03; 采用时间: 2020-11-06; jos在线出版时间: 2021-01-21李晓光等:LFKT:学习与遗忘融合的深度知识追踪模型819Key words: intelligent education; knowledge tracing; deep neural network; learning behavior; forgetting behavior在线教育系统提倡因材施教,即根据学生的知识水平为其推荐合适的学习资源[1].学生的知识水平受其学习阶段和认知能力的影响,在学习过程中不断变化.实时追踪学生知识水平,对于个性化在线教育至关重要[2,3].知识追踪(knowledge tracing,简称KT)任务主要包括:(1) 通过学生的学习历史实时追踪其知识水平变化;(2) 根据学生的知识水平预测其在未来学习中的表现.传统的知识追踪技术主要有基于隐马尔可夫模型(HMM)[4]的贝叶斯知识追踪(BKT)[5].近年来,深度学习在自然语言处理[6]及模式识别[7]等任务上的表现优于传统模型.在知识追踪研究领域,亦提出了大量基于深度学习的知识追踪模型.基于循环神经网络的深度知识追踪(DKT)模型[8]采用循环神经网络的隐藏向量表示学生的知识状态,并且据此预测学生的表现.动态键-值对记忆网络(DKVMN)[9]借鉴了记忆网络(memory network)[10]的思想,用值矩阵表示学生对于各个知识点的掌握程度,并以此预测学生表现,提升预测准确度.但是以上知识追踪方法都忽略了学生在学习过程中的遗忘行为对知识水平的影响.在教育心理学领域已经有很多学者认识到人类的遗忘行为,并且探索影响人类遗忘的因素.教育心理学理论艾宾浩斯遗忘曲线理论[11,12]提出:学生会遗忘所学知识,遗忘带来的影响是知识掌握程度的下降.学生重复学习知识点的次数与距离上次学习知识点的时间间隔会影响学生的遗忘程度.教育心理学理论记忆痕迹衰退说[13]认为:遗忘是记忆痕迹的衰退引起的,消退随时间的推移自动发生,原始的痕迹越深,则遗忘的程度越低.目前,在知识追踪领域,只有少数的研究考虑了学生的遗忘行为.BKT的扩展[14,15]考虑了艾宾浩斯遗忘曲线提到的影响遗忘程度的两个因素:重复学习知识点的次数和间隔时间.DKT的扩展[16]考虑了学生顺序学习的间隔时间,该研究认为:学科中的各个知识点是相通的,持续的学习会降低学生对于知识点的遗忘程度.然而,以上的研究仅仅考虑了部分影响学生遗忘的信息,忽略了学生原本知识水平对于遗忘程度的影响,学生对于其掌握的知识点和没有掌握的知识点的遗忘程度不同.与此同时,由于BKT算法与DKT算法的局限性,以往涉及遗忘的研究或者仅考虑了学生对于单个知识点的遗忘程度,或者仅考虑了学生对于整个知识空间的遗忘程度,没有建模学生对知识空间中的各个知识点的遗忘情况.针对于此,本文提出一种兼顾学习和遗忘的深度知识追踪模型LFKT(learning and forgetting behavior modeling for knowledge tracing).LFKT拟合了学生的学习与遗忘行为,实时更新、输出知识点掌握程度,并以此预测其未来表现.本文主要创新和贡献有:(1)结合教育心理学,知识追踪模型LFKT考虑了4个影响知识遗忘的因素:学生重复学习知识点的间隔时间、重复学习知识点的次数、顺序学习间隔时间以及学生对于知识点的掌握程度.LFKT根据以上信息建模遗忘行为,拟合学生因遗忘行为导致的知识掌握程度变化;(2)基于深度神经网络技术,LFKT设计了一个基于RNN和记忆神经网络的知识追踪神经网络.该网络包括注意力层、遗忘层、学习层、预测层和知识水平输出层.其中:遗忘层采用全连接网络计算记忆擦除向量和记忆更新向量,用以拟合遗忘行为;学习层采用LSTM网络,并利用学生在学习结束时的答题结果作为知识掌握程度的间接反馈.根据记忆擦除向量和记忆更新向量,获得经过遗忘后的知识掌握程度的中间嵌入,并以此作为学习层的输入,进而获得遗忘与学习相融合的知识掌握程度嵌入;(3)通过在两个真实在线教育数据集上的实验验证结果表明:LFKT可以有效地建模学生的学习行为与遗忘行为,实时追踪学生的知识水平,并且LFKT模型的预测性能优于现有模型.本文第1节介绍知识追踪相关工作.第2节给出相关概念和符号定义,并提出问题.第3节详细介绍LFKT 模型结构以及训练方法.第4节给出LFKT对比实验结果和分析.最后总结全文.1 相关工作知识追踪大致可以分为基于隐马尔可夫模型的知识追踪与基于深度学习的知识追踪.贝叶斯知识追踪是典型的基于隐马尔可夫模型实现知识追踪目标的模型之一.BKT将学生对某个知识点的潜在知识状态建模为一组二进制变量,每一个变量代表学生对于特定知识点“掌握”或“没掌握”,根据隐马尔可夫模型更新学生的知识状态,进而更新其在未来学习中的表现.在BKT的基础上,通过考虑其他因素,提出了820 Journal of Software 软件学报 V ol.32, No.3, March 2021 很多扩展方案,例如:Pardos 等人的研究[17]引入了习题难度对预测学生表现的影响;Baker 等人的研究[18]引入了学生猜测和失误对预测学生表现的影响;Khajah 等人的研究[19]将人类的认知因素扩展到BKT 中,从而提高预测精度.基于隐马尔可夫的知识追踪模型将学生对各个知识点的掌握程度分别建模,忽略各个知识点之间的关系.BKT 模型简单地将学生对于各个知识点的掌握程度分为“掌握”与“未掌握”,忽略了中间情况.深度知识追踪是深度学习模型循环神经网络在知识追踪任务的首次尝试,将学生的学习历史作为输入,使用RNN 隐藏状态向量来表示学生的知识水平,并且基于此预测学生未来学习表现.DKT 模型无法建模学生对于各个知识点的掌握程度,仅仅可以建模学生的整个知识水平.Chen 等人的研究[20]考虑了知识点之间的先验关系,提升了DKT 的预测性能.Su 等人的研究[21]将习题文本信息和学生的学习历史作为循环神经网络的输入,利用RNN 的隐向量建模学生的知识水平,取得了较好的预测效果,但是依旧无法建模学生对于各个知识点的掌握程度.DKVMN 模型借鉴了记忆网络的思想,用值矩阵建模学生对于各个知识点的掌握程度,考察习题与各个知识点之间的关系,追踪学生对于各个知识点的掌握程度.Abdelrahman 等人的研究[22]利用注意力机制,着重考察学生作答相似习题时的答题历史,改进了DKVMN.Sun 等人的研究[23]将学生答题时的行为特征扩展到DKVMN,从而取得更好的预测效果.Liu 等人的研究[24]利用习题的文本信息与学生的学习历史进行知识追踪.Nakagawa 等人的研究[25]用知识图建模各个知识点之间的关系,取得了良好的预测效果.Minn 等人的研究[26]根据学生的知识水平对学生进行分类,再对每一类学生进行知识追踪.Cheng 等人的研究[27]通过深度学习扩展了传统方法项目反映理论.Shen 等人的研究[28]考虑了每个学生的个性化差异,取得了很好的效果.Ai 等人的研究[29]考虑了知识点之间的包含关系,重新设计了记忆矩阵,改进了DKVMN,取得了良好的效果.关于学生遗忘行为对知识掌握状态的影响,Qiu 等人[15]考虑了学生距离上一次重复学习知识点的间隔时间,将新一天的标记加入到BKT 中,建模先前学习之后一天的遗忘行为,但是无法对较短时间的遗忘行为进行建模.Khajah 等人的研究[14]应用学生重复学习知识点的次数估计遗忘的概率,改进了BKT,提升了预测准度.Nagatani 等人的研究[16]考虑了重复学习知识点的次数、距离上一次学习知识点的间隔时间和距离上一次学习的间隔时间,改进了DKT 模型,但忽略了学生原本对于知识点掌握程度对学生遗忘程度影响.总的来说,当前的研究可以一定程度上追踪学生对于各个知识点的掌握程度,但或者忽略了学生遗忘行为,默认学生在学习间隔前后知识水平一致;或者对于遗忘行为的建模不够全面.本文所提出的LFKT 模型综合考察了影响学生遗忘程度的因素,将学生的练习结果作为学生知识掌握程度的间接反馈,建模学生的学习与遗忘行为,实时追踪学生对于各个知识点的掌握程度,预测学生未来学习表现.2 问题定义这里,我们定义S 为学生集合,K 为知识点集合,E 为习题集合.每个学生单独进行学习,互不影响.学生s 的答题历史H s =[(e 1,r 1),(e 2,r 2),...,(e t ,r t )],其中:e t 为学生t 时刻所做的习题;r t 为答题结果,r t =1表示答题正确,r t =0表示答题错误.k t ⊆K 为习题e t 所涉及的知识点集合.矩阵M K (d k ×|K |)为整个知识空间中|K |个知识点嵌入表示,其中,d k 维列向量为一个知识点的嵌入表示.矩阵1(||)V t v d K −×M 为学生在t −1时刻的知识空间中知识点嵌入.用|K |维向 量value t −1表示t −1时刻学习结束时学生对于各个知识点的掌握程度,其中,向量每一维的值介于(0,1)之间:值为0,表示学生对于该知识点没有掌握;值为1,表示学生对于该知识点已经完全掌握.学生在学习过程中会遗忘未复习的知识点,同时,学生在两次学习的间隔时间也会遗忘所学知识,因此,t −1时刻学习结束时的知识水平与t 时刻学习开始时的知识水平不尽相同.本文用矩阵(||)FV t v d K ×M 建模学生在t 时刻开始学习时的知识掌握状态.矩阵FV t M 与1V t −M 形状相同,FV t M 是由1V t −M 经过遗忘处理后得到.t 时刻学习结束,系统获得学生答题结果, LFKT 模型根据答题结果将开始学习时知识掌握嵌入矩阵FV t M 更新为学习结束时知识掌握嵌入矩阵V t M ,以 此建模学习行为.预测学生在下一个候选习题e t +1上的表现时,由于t 时刻学习结束到t +1时刻开始答题之间存 在时间间隔,学生在时间间隔内的遗忘行为会影响知识掌握状态,因此需要根据影响知识遗忘的因素将V t M 更新为1FV t +M ,从而预测学生答题表现.李晓光 等:LFKT:学习与遗忘融合的深度知识追踪模型821基于以上描述,本文将问题定义为:给定每个学生的学习历史记录,实现以下两个目标. •跟踪学生的知识状态变化; • 预测学生在下一个候选习题e t +1上的表现.3 方法描述3.1 影响知识遗忘的因素学生如果没有及时复习所学知识,就会产生遗忘,其对知识的掌握程度便会衰减.教育学理论艾宾浩斯曲线理论[11,12]表明,学生对于所学知识点的保留率受以下两方面影响:学生重复学习次数与时间间隔.时间间隔可以分为重复学习知识点的时间间隔和顺序学习的时间间隔.除此之外,教育心理学理论记忆痕迹衰退说[13]认为,学生对于知识点的掌握状态也影响着学生的遗忘程度.因此,本文考虑了以下4个影响知识遗忘的因素.•RT(repeated time interval):距离上次学习相同知识点的时间间隔; •ST(sequence time interval):距离上次学习的时间间隔; •LT(repeated learn times):重复学习知识点的次数; • KL(past knowledge level):学生原本对于该知识点的掌握程度.RT,ST 和LT 这3个标量组合在一起得到向量C t (i )=[RT t (i ),ST t (i ),LT t (i )],表示影响学生对于知识点i 遗忘程 度的前3个因素.每个知识点所对应的向量C t (i )组成矩阵C t (d c ×|K |).本文用向量1()V t i −M 度量学生原本对于知识点i 的掌握程度,并且将其作为影响学生对于知识点遗忘程度的第4个因素(KL).将矩阵C t 与1V t −M 组合在一起,得到矩阵1[,]V t t t −=F M C ,表示4个影响知识遗忘的因素.3.2 LFKT 模型本文提出了一种融合学习与遗忘的深度知识追踪模型LFKT,如图1所示.Fig.1 LFKT model图1 LFKT 模型LFKT 模型分为注意力层(attention layer)、遗忘层(forget layer)、预测层(prediction layer)、学习层(learn layer)822 Journal of Software 软件学报 V ol.32, No.3, March 2021 以及知识水平输出层(knowledge level output layer):注意力层以习题e t 以及习题所涵盖的知识点集合k t 作为输入,计算习题与各个知识点的知识相关权重;遗忘层根据第3.1节中提出的影响知识遗忘的4个因素将学生上一 时刻学习结束时知识掌握嵌入矩阵1V t −M 更新为当前时刻学习开始时知识掌握嵌入矩阵,FV t M 有效地对学生遗忘行为进行建模;预测层根据t +1时刻开始答题时的1FV t +M 预测学生的答题表现;学习层通过LSTM 网络将本次学习开始时的FV t M 更新为本次学习结束时的V t M ,对学生学习行为进行建模;知识水平输出层以学生本次学习结束时的V t M 作为输入,输出学生知识水平向量value t ,实时输出学生对于各个知识点的掌握程度.3.2.1 注意力层注意力层的作用是计算习题与知识点之间的知识相关权重.注意力层的输入是学生当前练习题目e t 以及题目所涉及的知识点集合k t .为了将e t 映射到连续的向量空间,用e t 乘以习题嵌入矩阵A (d k ×|E |),生成一个d k 维度的习题嵌入向量v t .其中,矩阵A 中每一个d k 维列向量为一道习题的嵌入表示.专家标注了每道习题所涵盖的知识点,存放于集合k t 中.本文通过知识点过滤器(K -Filter)滤掉不相关知识点,保留习题涵盖知识点.矩阵R t 存储习题涵盖知识点的嵌入向量,其中,矩阵R t 中每一个d k 维列向量为习题涵盖的一个知识点的嵌入向量.计算习题嵌入向量v t 与涵盖知识点嵌入向量R t (i )之间的内积,再计算内积的Softmax 值并存入向量RS t 中.向量RS t 表示习题v t 与习题涵盖知识点之间的知识相关权重,如公式(1)所示:()(())T t t t i Softmax i =RS v R (1) |K |维向量w t 为习题与全部知识点之间的知识相关权重向量.由于习题涵盖知识点被知识点过滤器滤出,模型需要将习题涵盖知识点的知识相关权重放入到w t 对应的位置上.首先,初始化|K |维全零向量w t ,即w t ←[0,…,0];之后,将RS t 每一维的权重放入到w t 的相应位置上,即w t [k t [i ]]←RS t [i ],得到习题与各个知识点的知识相关权重.3.2.2 遗忘层遗忘层根据第3.1节中介绍的影响知识遗忘的因素F t 对上一次学习结束时学生的知识掌握嵌入矩阵1V t −M 进行遗忘处理,得到学生本次学习开始时的知识掌握嵌入矩阵.FV t M 受LSTM 中遗忘门与输入门的启发,根据影响知识遗忘的因素F t 更新1V t −M 时,首先要擦除1V t −M 中原有的信息,再写入信息.对于遗忘行为建模来说,擦除 过程控制学生知识点掌握程度的衰退,写入过程控制学生知识点掌握程度的更新.遗忘层如图2所示.Fig.2 Forget layer图2 遗忘层利用一个带有Sigmoid 激活函数的全连接层将影响学生对知识点i 遗忘程度的因素F t (i )转换为知识点i 对应的记忆擦除向量fe t (i ):fe t (i )=Sigmoid (FE T F t (i )+b fe ) (2)全连接层的权重矩阵FE 的形状是(d v +d c )×d v ,全连接层的偏置向量b fe 为d v 维.记忆擦除向量fe t (i )是一个维李晓光 等:LFKT:学习与遗忘融合的深度知识追踪模型 823 度为d v 的列向量,向量中的所有值都是在(0,1)范围之内.利用一个带有Tanh 激活函数的全连接层将影响学生对知识点i 遗忘程度的因素F t (i )转换为知识点i 对应的记忆更新向量fa t (i ):fa t (i )=Tanh(FA T F t (i )+b fa ) (3)全连接层的权重矩阵FA 的形状是(d v +d c )×d v ,全连接层的偏置向量b fa 为d v 维,记忆更新向量fa t (i )是一个维 度为d v 的列向量.根据记忆擦除向量与记忆更新向量对1V t −M 更新得到FV t M :1()()(1())(1())FV V t t t t i i i i −=−+M M fe fa (4)遗忘层输出本次学习开始时知识掌握嵌入矩阵FV t M .遗忘层可以为分别建模学生对不同知识点的遗忘过 程,根据学生对于不同知识点学习历史的不同,计算学生对于不同知识点的遗忘程度.3.2.3 学习层学习层根据学生答题结果追踪学习过程中的知识掌握变化,将学生开始学习时知识掌握嵌入矩阵FV t M 更新为学生学习结束时知识掌握嵌入矩阵V t M ,建模学习行为.元组(e t ,r t )表示学生在时间t 的答题结果,为了将元 组(e t ,r t )映射到连续的向量空间,元组(e t ,r t )与大小为d v ×2|E |的答题结果嵌入矩阵B 相乘,得到d v 维答题结果嵌入向量s t .学习层将答题结果嵌入向量s t 和习题对应的知识相关权重向量w t 作为输入,利用学生在在线教育系统中的练习结果作为学生学习效果的间接反馈,通过LSTM 网络更新学生学习过程中的知识掌握状态,建模学习行为:()(,()();)V FV t t t t i LSTM i i =M s w M θ (5)3.2.4 预测层预测层的目的是预测学生在下一个候选习题e t +1上的表现.由于学生在两次答题间隔内的遗忘行为会影响 其知识掌握状态,预测层根据当前时刻开始答题时的知识掌握嵌入矩阵1FV t +M 预测学生正确回答习题e t +1的概率.将知识相关权重w t +1与当前时刻开始答题时学生知识掌握嵌入1FV t +M 加权求和,得到的向量d t +1为学生对于 习题涵盖知识点的加权掌握程度嵌入向量:1111()()K FV t t t i i i +++==∑d w M (6) 学生成功解答习题,不仅与学生对于习题涵盖知识点的综合掌握程度有关,还与习题本身有关,所以将向量d t +1和v t +1连接得到的组合向量[d t +1,v t +1]输入到带有Tanh 激活函数的全连接层,输出向量h t +1包含了学生对习题涵盖知识点的综合掌握程度和习题本身的特点.其中,矩阵W 1和向量b 1分别表示全连接层的权重与偏置: 11111([,])T t t t Tanh +++=+h W d v b (7)最后,将向量h t +1输入到一个带有Sigmoid 激活函数的全连接层中,得到表示学生答对习题的概率p t +1.其中,矩阵W 2和向量b 2分别表示全连接层的权重与偏置:1212()T t t p Sigmoid ++=+W h b (8)3.2.5 知识水平输出层 知识水平输出层以学生学习结束时知识掌握嵌入矩阵V t M 为输入,输出表示学生本次学习结束时知识掌 握程度的|K |维向量value t ,向量的每一维介于(0,1)之间,表示学生对于该知识点的掌握程度.知识水平输出层如图3所示.在预测层中,每一个时间节点t ,公式(7)、公式(8)根据两种输入预测学生在特定习题e t 上的表现:学生对于该习题涵盖知识点的综合掌握嵌入向量d t 和习题嵌入向量v t .因此,如果只是想估计在没有任何习题输入情况 下学生对于第i 个知识点的掌握情况,可以省略习题嵌入v t ,同时,让学生知识掌握嵌入矩阵V t M 的第i 列()V t i M 作为等式的输入.图3展示了知识水平输出层的详细过程.具体来说:学习层输出矩阵V t M 后,为了估计对于第i 个知识点的掌握程度,构造了权重向量βi =(0,…,1,…,0),其中,第i 维的值等于1,并用公式(9)提取第i 个知识点的 知识掌握嵌入向量()V t i M ,之后,使用公式(10)、公式(11)估计知识掌握水平:824Journal of Software 软件学报 V ol.32, No.3, March 2021()V V t i t i =M M β (9)11()([(),])T V t t i Tanh i =+0y W M b (10)22()(())T t t i Sigmoid i =+value W y b (11) 向量0=(0,0,…,0)与习题嵌入v t 维度相同,用于补齐向量维度.参数W 1,W 2,b 1,b 2与公式(7)和公式(8)中的完全相同.依次计算知识空间中每一个知识的掌握程度,得到学生知识掌握程度向量value t.Fig.3 Knowledge level output layer图3 知识水平输出层3.2.6 模型优化目标模型需要训练的参数主要是习题嵌入矩阵A 、答题结果嵌入矩阵B 、神经网络权重与偏置以及知识点矩阵M K .本文通过最小化模型对于学生答题结果的预测值p t 和学生答题的真实结果r t 之间的交叉熵损失函数来优化各个参数.损失函数如公式(12)所示,本文使用Adam 方法优化参数:(log (1)log(1))t t t t t L r p r p =−+−−∑ (12) 4 实 验本文在两个真实在线教育数据集上进行实验,通过对比LFKT 模型与其他知识追踪模型的预测性能以及知识追踪表现,证明LFKT 模型的有效性.4.1 数据集首先介绍实验所使用的两个真实在线教育数据集.• ASSISTments2012:该数据集来自于ASSISTments 在线教育平台.本文删除了学习记录数过少(<3)的学生信息,经过预处理后,数据集包含45 675个学生、266个知识点以及总计5 818 868条学习记录.数据集中,user_id 字段表示学生编号,skill_id 字段表示知识点编号,problem_id 字段表示题目编号, correct 字段表示学生真实答题结果,start_time 字段表示学生本次开始学习的时间,end_time 字段表示学生本次学习结束的时间;• slepemapy.cz:该数据集来自于地理在线教育系统.本文同样删除学习记录数过少(<3)的学生信息,经过预处理后,数据集包含87 952个学生、1 458个知识点以及总计10 087 305条学习记录.数据集中, user 字段表示学生编号,place_answered 字段表示学生真实答题结果,response_time 字段表示学生学习时间,place_asked 字段表示问题编号.其中,由于该数据集中每个问题仅仅考察一个知识点,因此place_asked 也是知识点编号.4.2 评测指标本文使用平均AUC(area under the curve)、平均ACC(accurary)和平均RMSE(root mean squared error)作为评估预测性能的指标.AUC 被定义为ROC 曲线与下坐标轴围成的面积,50%的AUC 值表示随机猜测获得的预。
第 42 卷第 3 期2023年 5 月Vol.42 No.3May 2023中南民族大学学报(自然科学版)Journal of South-Central Minzu University(Natural Science Edition)基于利用BERT不同层信息的微调策略的对话状态追踪叶正,傅灵,覃俊,刘晶(中南民族大学计算机科学学院& 信息物理融合智能计算国家民委重点实验室,武汉430074)摘要在对话状态追踪任务中,BERT在训练下游任务时往往会选择模型的最后一层来做分类,尽管这样做的性能也非常出色,但是这种做法往往忽略了BERT的其他层包含的语义信息.在BERT的微调策略方法上,探究了BERT层数选择对任务结果的影响.为了缓解Dropout在训练和推理过程中产生的不一致性问题,引入了R-Drop正则模块对网络输出预测进行正则约束.实验结果表明:用注意力机制对拼接后的BERT的12层输出进行特征权重的微调,提高了对语义信息的特征表达能力,在数据集上Woz2.0上比只采用最后一层进行句子分类的BERT-Base 效果更好.关键词对话状态追踪;微调策略;层数选择中图分类号TP391.1 文献标志码 A 文章编号1672-4321(2023)03-0327-07doi:10.20056/ki.ZNMDZK.20230306Dialogue state tracking based on fine-tuning strategy using BERTinformation at different layerYE Zheng,FU Ling,QIN Jun,LIU Jing(College of Computer Science & Information Physics Fusion Intelligent Computing Key Laboratory of the National Ethnic Affairs Commission, South-Central Minzu University, Wuhan 430074)Abstract In the dialogue state tracking task, BERT often selects the last layer of model for classification when training downstream tasks. Although the performance of this method is also excellent,it often ignores the semantic information contained in other layers of BERT. The impact of BERT layer selection on task results in terms of BERT fine-tuning strategies is explored . At the same time, Dropout will lead to inconsistency of training and reasoning processes. In order to alleviate the inconsistency problem caused by Dropout during training and reasoning, the R-Drop regularization module to perform regular constraints on network output prediction is introduced . The experimental results show that using the attention mechanism to fine-tune the feature weight of the 12 layers of output of the spliced BERT improves the feature expression ability of semantic information,and has a better effect on the dataset WoZ 2.0 than the BERT Base using only the last layer for sentence classification.Keywords dialogue state tracking; fine-tuning strategy; layer selection近几年来,智能对话系统已经成为当下互联网中的热门领域,如小米公司的小爱同学、苹果公司的SIRI等智能语音助手,这些产品相比那些基于传统规则的语音助手来说,它们不再局限于人工制定的规则,而是通过基于深度学习的方式,更好地来理解用户的意思,同时还能对用户提出的问题做到更加精确且快速的回答.对话系统按功能来划分的话,分为闲聊型、任务型、知识问答型和推荐型.其中任务型对话可以帮助用户完成所提出的任务[1](例如查找产品,预订住宿和餐馆).在不同类型的聊收稿日期2022-09-04作者简介叶正(1981-),男,教授,博士,研究方向:自然语言处理,E-mail:*****************.cn基金项目教育部产学合作协同育人项目(202102191002);中南民族大学引进人才项目(YZZ20001)第 42 卷中南民族大学学报(自然科学版)天系统中,对话管理也不尽相同.对话管理是任务型对话中至关重要的一部分,对话状态追踪[2](Dialogue State Tracking, DST)则是对话管理的一部分.对话状态是从对话开始到当前对话的用户目标的总结,通常表现为多组槽-值对的组合的形式,有时也会包括对话所属的领域、用户意图等信息.对话状态追踪是指结合对话历史、当前对话、前一轮对话状态等信息,推断并更新当前对话状态的过程.DST在对话管理中介于自然语言理解[3](Natural Language Understanding, NLU)和对话策略[4](Dialog Policy, DP)模块之间,可以将其简化成输入输出的形式,DST的输入往往是自动语音识别(Automatic Speech Recognition,ASR)以及语音语言理解(Speech Language Understanding, SLU)的输出结果;DST的输出则是对话状态,用于选择下一步动作.但是ASR、SLU等组件的识别结果往往没有那么理想,经常出现错误,这对DST本身的鲁棒性有着较高的要求.所以DST的输出往往是各个对话状态的概率分布,这样可以在多轮对话中进行修改,并且方便系统向用户发起澄清语句.随着深度学习的崛起,目前有许多深度神经网络被提出并用做DST任务[5-7],但是深度网络存在着几个问题,比如说网络层次越深,需要的训练样本数越多.若用于监督任务则需大量标注样本,小规模样本则很容易造成过拟合.深层网络特征比较多,会出现的多特征问题主要有多样本问题、规则化问题、特征选择问题;同时多层神经网络还存在参数优化经常得到收敛较差的局部解和梯度扩散问题.为了解决这些问题,将预训练模型作用于DST 任务就是一个有效的方法,其中比较流行的预训练模型就是ELMo[8]和BERT[9].这样就可以在自己的NLP数据集上使用该预训练模型,而无需从头开始构建模型来解决类似的问题.BERT拥有强大的语言表征能力和特征提取能力,同时使用预训练模型还有助于缓解数据缺失的问题.但由于BERT的12层输出层每层都包含着语义信息,在做池化分类的时候往往没有利用其他层的信息.所以本文将以端到端的对话状态跟踪任务为研究对象,利用BERT不同层信息的微调策略上对BERT进行微调.实验结果表明,BERT输出12层拼接后再加上R-Drop正则约束在DST任务上取得了较优的效果.1 相关工作1.1 对话状态追踪深度学习早期,由于在ASR和NLU这两个环节经常出现误差,因此输入到DST中的内容是N-best 列表(对于ASR输入的是多条句子,对于SLU输入的是多个槽值对.每条句子和每个槽值对都带一个置信度).DST也就相应地输出各个状态的概率分布,这样可以在多轮对话中对对话状态方便地进行改动.尽管如此,DST任务还是会受到误差传播的影响.之后HENDERSON等人直接舍弃了ASR、SLU模块[10],而向模型输入语句或者其他特征,并将循环神经网络(RNN)运用在了DST领域.DST任务需要对每个领域的不同槽位进行追踪,目的是为了在每轮对话过程中获得用户目标.对此DST常用的建模方法主要有两种:分类式和判别式,前者将DST视作一个多任务分类任务,也就是说,DST任务需要为每个槽位都创建一个唯一的分类器,这种做法带来的缺点也有很多.首先是泛化能力不强.由于各个槽位都有着特定的分类器参数,即便槽位在一定程度上很相似,但是也无法处理另外一个槽位;其次在任务型对话数据集中,针对某个领域只有少量数据时,分类器分到的数据集也会变少,比如“餐厅-区域”和“电影院-区域”,火车领域数据较多,而飞机领域数据则比较稀缺,如果能通过训练“餐厅-区域”来处理“电影院-区域”,那么就需要对模型的泛化能力有较高要求,另外分类式还有可扩展性不高和无法并行处理槽位的问题.除了分类式,还可以将DST任务建模成判别式.判别式的工作流程则是计算槽位表征和槽值表征之间的距离[11].同样,判别式也存在泛化能力不足、可扩展性不高等问题,每次加入新的槽位,模型就要重新训练.针对以上问题,RASTOGI等人在DST 任务中共享了所有槽位的参数[12],这样就可以充分地利用训练数据来训练分类器.由于参数的共享机制,使得模型能够处理相似的槽位,这样一来该模型也就具有了一定的泛化能力.1.2 基于BERT的对话状态追踪BERT使用了Transformer[13]模型的Encoder层来进行特征的提取,采用了预训练加微调的训练模式,通过遮蔽语言模型(Masked Language Model,MLM)随机对输入序列中的某些位置进行遮蔽,然后通过模型进行预测.MLM随机遮蔽模型输入中的328第 3 期叶正,等:基于利用BERT不同层信息的微调策略的对话状态追踪一些token,目标在于仅基于遮蔽词的语境来预测其原始词汇id.与从左到右的语言模型预训练不同,MLM 目标允许表征融合左右两侧的语境,从而预训练一个深度双向 Transformer,有利于训练得到更深的BERT网络模型.除此之外,在训练BERT的过程中还加入了下句预测任务(Next Sentence Prediction,NSP),即同时输入两句话到模型中,然后预测第二句话是不是第一句话的下一句话,它可以和MLM共同预训练文本对的表示.通过MLM任务和NSP任务来学习深度单词级和句子级的特征,在不同的下游任务上通过微调的方式训练和测试,以此得到最终的模型和实验结果.BERT采用大量的无标签数据、充分的训练,学习了字符级、单词级、句子级甚至句间关系的特征,以至于在不同的下游NLP任务中,只需要为BERT 在特定任务中添加一个额外的输出层,即可进行训练.在BERT被提出后,判别式模型中“槽值”也被赋予了语义.大量的以BERT为编码器的模型出现并用于DST任务[14-15],通常的做法是将槽位名称或槽位描述直接追加在上下文的前面或后面.这种编码方式的输出相当于某个上下文感知的槽位表征,然后在下游任务中接入一个分类器或直接对候选值进行判别.BERT在DST任务上的实现通常是取最后一层进行pooled-output得到任务需要的特征,这样就往往忽略了BERT其他层的信息,同时pooled-output是由线性层和Tanh激活函数进一步处理的,这个输出并不一定是对输入语义内容的一个很好的总结.1.3 R-Drop过拟合是很多深度学习网络的通病,在训练一些大规模模型时往往会出现,导致泛化能力较差,为了解决这些问题,出现了很多正则化技术,例如:L2正则化,Dropout等,其中,Dropout技术由于只需要简单地在训练过程中丢弃一部分神经元,而成为了被最广为使用的正则化技术.但是也正是因为训练过程中每次都会随机丢弃部分神经元,这样就会产生不同的子模型,结果就是Dropout在一定程度上使得训练后的模型是一种多个子模型的组合约束.基于Dropout的这种特殊方式对网络带来的随机性,WU等人提出了R-Drop[16]来进一步对(子模型)网络的输出预测进行正则约束.R-Drop在训练过程中通过刻意对子模型之间的输出进行约束,来约束参数空间,让不同的输出都能一致,从而降低了训练与测试的不一致性.2 模型本文所使用的模型编码器为BERT-Base,通过注意力机制对拼接后的BERT的12层输出进行特征权重的微调。
知识是一种载体,反映了客观事物固有的属性或联系,能力是以掌握知识为前提完成一些任务和活动的本领。
当今社会,要求大学生不仅要善于学习理论知识,更要善于应用和实践所学的知识,将知识向能力转化。
影响大学生知识-能力转化的因素有很多,学者们从不同角度探讨了知识转化为能力的影响因素。
贺建良等[1]从学生的角度研究,提出学生可以通过参加学科竞赛实现知识向能力的转化;张学敏等[2]从教学的角度研究,提出在教学中要在理论知识的学习与实践能力的训练之间架起相互沟通的桥梁,以此来提高学生的综合能力;吴冰莹等[3]从高校专业设置的角度研究,分析高校向社会输送人才需要落实“三步走”战略,提高学生的知识转化能力进而提高就业率等。
知识-能力转化是一个系统性的问题,具有行为多样性、影响因素多样性等特点。
本文从系统观的角度出发,分析了影响知识-能力转化的因素,并找到了最关键因素、中间因素和外围因素,为解决新时期的大学生知识-能力转化问题提供了有益的参考。
1影响知识-能力转化因素分析影响大学生知识-能力转化的因素有许多,通过问卷调查和向专家咨询,从学生自身因素、高校教学因素、社会需求因素3个方面对总结归纳出的20个影响大学生知识-能力转化的因素进行分析和研究。
1.1学生自身因素学生是学习的主体,由于每个学生的学习方法、学习心态、学习目标、学习能力、知识掌握程度、实践能力、动手能力、学习习惯等不同,每个学生知识-能力的转化过程也不尽相同,具有良好学习方法和学习心态的学生往往能够较好地将所学知识转化为自身的能力,学生对学习目标和对所学知识的掌握程度也是影响知识-能力转化的重要因素。
学生自身因素包括:S 1学习方法、S 2学习心态、S 3学习目标、S 4学习能力、S 5知识掌握程度、S 6是否锻炼实践能力、S 7动手能力。
1.2高校教学因素学校是学生学习的主要场所,而高校教师是大学生教育的引导者。
高校的课程设置合理、教师采文章编号:1674-9146(2021)0317-04[基金项目]河南省科技厅项目(182102310951);郑州航空工业管理学院教育教学改革研究与实践项目(zhhj y19-27);郑州航空工业管理学院研究生教育质量提升项目(2019Y JSK C 3;2020Y J SJ G 5)收稿日期:2020-09-17;修回日期:2020-09-25作者简介:刘紫莹(1998—),女,河南许昌人,在读本科,主要从事工业工程技术创新研究,E-m ai l :951118166@ 。
Python实现贝叶斯知识追踪模型代码1. 简介贝叶斯知识追踪模型是一种基于贝叶斯统计原理的机器学习模型,用于追踪知识的演化过程。
它能够根据已有的知识数据和新的观测数据,通过贝叶斯推断方法更新知识模型的概率分布,从而实现对知识的追踪和更新。
在本文中,我们将使用Python语言实现贝叶斯知识追踪模型的代码,并详细介绍算法的原理和实现细节。
2. 贝叶斯知识追踪模型原理2.1 贝叶斯统计原理贝叶斯统计原理是一种基于条件概率的统计推断方法。
在贝叶斯统计中,我们将待推断的未知量称为参数,将已观测到的数据称为观测量。
贝叶斯统计的核心思想是通过已观测数据更新对参数的先验概率分布,得到参数的后验概率分布。
具体地,假设我们有一个参数θ和一组观测数据D,我们希望推断参数θ的概率分布。
根据贝叶斯统计原理,我们可以通过以下公式计算参数θ的后验概率分布:P(θ|D)=P(D|θ)⋅P(θ)P(D)其中,$ P(θ|D) $ 表示参数θ在给定观测数据D下的后验概率,$ P(D|θ)$ 表示观测数据D在给定参数θ下的概率,$ P(θ) $ 表示参数θ的先验概率,$ P(D) $ 表示观测数据D的边缘概率。
2.2 贝叶斯知识追踪模型贝叶斯知识追踪模型是基于贝叶斯统计原理的推断模型,用于追踪知识的演化过程。
在贝叶斯知识追踪模型中,我们将知识的状态变化看作是参数的变化,将观测数据看作是对知识状态的观测。
具体地,假设我们有一个知识模型,其中每个知识点对应一个参数θ,表示该知识点的概率。
我们还有一组观测数据D,表示新的知识点观测结果。
根据贝叶斯统计原理,我们可以通过观测数据D更新知识模型的概率分布。
具体步骤如下:1.初始化知识模型的先验概率分布P(θ);2.根据观测数据D计算每个知识点的似然概率P(D|θ);3.根据贝叶斯统计原理计算每个知识点的后验概率分布P(θ|D)。
在实际应用中,我们可以使用迭代的方式,每次观测到新的数据时更新知识模型的概率分布。
ChatGPT技术中对话场景切换与知识库集成的技巧分享随着人工智能技术的不断发展,ChatGPT(Chat Generative Pre-trained Transformer)成为了自然语言处理领域的热门话题之一。
ChatGPT是一种基于Transformer模型的对话生成技术,通过预训练模型和微调模型的方式,实现了人机对话的自动生成。
在实际应用中,对话场景的切换和知识库的集成是提升ChatGPT技术效果的重要手段。
本文将分享一些在对话场景切换和知识库集成方面的技巧。
一、对话场景切换的技巧1. 上下文建模对话场景切换时,为了保持对话的连贯性,需要对上下文进行良好的建模。
在ChatGPT中,可以通过在对话历史中引入特殊的标记来实现上下文的划分。
例如,可以在对话历史中插入"[USER]"和"[SYSTEM]"标记,分别表示用户和系统的发言。
这样一来,ChatGPT就能够根据上下文中的标记来判断当前是用户发言还是系统发言,从而实现对话场景的切换。
2. 状态追踪在对话场景切换中,状态的追踪是非常重要的。
状态追踪可以通过引入特殊的标记来实现。
例如,在对话历史中插入"[STATE]"标记,用于表示当前对话的状态。
通过这种方式,ChatGPT就能够根据状态的变化来适应不同的对话场景,并生成相应的回复。
3. 转场提示为了更好地引导ChatGPT进行对话场景的切换,可以在对话历史中插入转场提示。
转场提示可以是一些特殊的问题或者关键词,用于提示ChatGPT当前对话场景的变化。
例如,在用户发言后,可以插入问题:“你对此有何看法?”或者关键词:“换个话题”。
这样一来,ChatGPT就能够根据转场提示来判断对话场景的切换,并生成相应的回复。
二、知识库集成的技巧1. 知识库预处理在将知识库集成到ChatGPT中之前,需要对知识库进行预处理。
预处理的目的是将知识库中的信息转化为ChatGPT可以理解的形式。
可解释的深度知识追踪方法综述目录一、内容概述 (2)1.1 背景与意义 (3)1.2 研究目的与问题 (4)1.3 文献综述范围与限制 (5)二、深度知识追踪基本概念 (6)2.1 深度学习与知识追踪 (7)2.2 可解释性在知识追踪中的重要性 (9)2.3 现有研究的不足与挑战 (10)三、基于模型可解释性的知识追踪方法 (12)3.1 基于决策树的追踪方法 (13)3.2 基于贝叶斯网络的追踪方法 (14)3.2.1 贝叶斯网络构建过程 (16)3.2.2 基于概率推理的追踪算法 (17)3.3 基于神经网络的可解释性方法 (18)3.3.1 神经网络结构可视化 (19)3.3.2 权重分析 (20)四、基于数据可解释性的知识追踪方法 (22)4.1 数据预处理与特征选择 (23)4.2 可视化技术 (24)4.3 基于统计分析的方法 (25)4.3.1 相关性分析 (27)4.3.2 因子分析 (28)五、混合方法与创新点 (30)5.1 结合多种追踪方法的混合方法 (31)5.2 新型可解释性追踪方法的提出 (33)5.3 在实际应用中的效果评估 (34)六、结论与展望 (35)6.1 研究成果总结 (36)6.2 研究局限与未来方向 (37)6.3 对相关领域研究的启示 (38)一、内容概述随着人工智能技术的不断发展,深度知识追踪已成为研究热点。
为了更好地理解和应用深度知识追踪方法,本文将对相关方法进行综述,概括其基本原理、主要任务、关键技术和应用场景。
深度知识追踪方法旨在通过学习数据中的隐含关系,构建可解释的深度模型,以实现对未知数据的预测和推理。
其主要任务包括:特征提取、关系挖掘、模型构建和模型评估。
特征提取是基础,关系挖掘是关键,模型构建是手段,模型评估是目的。
在关键技术方面,深度知识追踪方法主要依赖于表示学习、迁移学习、多任务学习和强化学习等技术。
表示学习旨在将原始数据转化为具有丰富语义信息的表示,以便于后续处理;迁移学习利用已有知识解决新领域中的问题;多任务学习旨在同时学习多个相关任务,提高模型的泛化能力;强化学习则通过与环境交互来优化模型性能。