基于ROAM____陈希亮
- 格式:pdf
- 大小:789.20 KB
- 文档页数:5
2019,55(7)1引言强化学习(Reinforcement Learning)是指智能体在与未知环境进行交互时,通过由未知环境反馈的强化信号来学习状态空间到动作空间的最优映射关系[1],已经在机器人控制[2]、智能体决策[3]和多智能体系统[4]领域得到了广泛应用。
Q-learning[5-6]算法是目前使用比较广泛的强化学习算法,它可从有延迟的回报中学习获得最优控制策略。
但是Q-learning每次均使用最大动作值来近似最大预期动作值,这就导致Agent对未来动作值预测的高估,从而出现过估计问题。
Q-learning被Thrun[7]理论证明存在过估计问题,并且在利用函数近似Q值时可能会导致Agent学习陷入次优策略。
Hasselt[8]提出了Double Q-learning算法,通过向Q-learning算法里面引入双估计方法来确定Q值,有效地减少了Q-learning的过估计问题,在路由和迷宫游戏中都取得了比Q-learning更好的表现。
近来,Minh[9-10]有效地将Q-learning和神经网络结合起来,提出了DQN(Deep Q Networks)算法,在Atari2600游戏[11]中取得了超越人类玩家的成绩,然而Hasselt[12]证明即使在像Atari这种确定性环境下的游戏,基于动态融合目标的深度强化学习算法研究徐志雄,曹雷,张永亮,陈希亮,李晨溪解放军陆军工程大学指挥信息系统学院,南京210000摘要:针对深度强化学习算法中存在的过估计问题,提出了一种目标动态融合机制,在Deep Q Networks(DQN)算法基础上进行改进,通过融合Sarsa算法的在线更新目标,来减少DQN算法存在的过估计影响,动态地结合了DQN算法和Sarsa算法各自优点,提出了DTDQN(Dynamic Target Deep Q Network)算法。
利用公测平台Ope-nAI Gym上Cart-Pole控制问题进行仿真对比实验,结果表明DTDQN算法能够有效地减少值函数过估计,具有更好的学习性能,训练稳定性有明显提升。
现代电子技术Modern Electronics Technique2023年11月1日第46卷第21期Nov. 2023Vol. 46 No. 210 引 言ELMO [1]、BERT [2]、GPT⁃2[3]、XLM [4]和MASS [5]等预训练模型的提出,通过大量未标记的数据来学习知识,然后转移到下游任务中,显著提高了许多自然语言处理(NLP )任务如分类、问答、序列标记任务等的效果。
其中,BERT 作为很成功的技术之一,引出了很多变体结构,如XLM [4]、RoBERTa [6]等,这些变体达到了许多NLP 任务的最好结果。
神经机器翻译(NMT )的目标是将输入的源语言序列翻译为目标语言序列,通常它都是由编码器与解码器组成,编码器负责将源语言序列映射到隐藏空间,解基于掩码矩阵⁃BERT 注意力机制的神经机器翻译陈 锡1,2, 陈奥博1,2(1.昆明理工大学 信息工程与自动化学院, 云南 昆明 650500;2.云南省人工智能重点实验室, 云南 昆明 650500)摘 要: BERT 在各种自然语言处理任务上取得了优异的效果,但是,其在跨语言任务上并没有取得很好的结果,尤其是在机器翻译任务上。
文中提出BERT 增强的神经机器翻译(BE⁃NMT )模型,该模型分为三部分来提升神经机器翻译(NMT )模型对BERT 输出表征的利用。
首先,针对BERT 在NMT 任务上微调所造成的知识遗忘,使用一种掩码矩阵(MASKING )策略来缓解这种情况;其次,使用注意力机制的方式将BERT 的输出表征融入NMT 模型中,同时更好地权衡了模型中的多个注意力机制;最后,融合BERT 的多层隐藏层输出来补充其最后一层隐藏层输出缺失的语言信息。
在多个翻译任务上进行实验,结果表明提出的模型明显优于基线模型,在联合国平行语料库英文→中文翻译任务上提高了1.93个BLEU 值。
此外,文中的模型在其他翻译任务上也取得了不错的提升。
融合多粒度信息的用户画像生成方法
邵一博;秦玉华;崔永军;高宝勇;赵彪
【期刊名称】《计算机应用研究》
【年(卷),期】2024(41)2
【摘要】现有用户画像方法缺乏不同粒度文本信息表示,且特征提取阶段存在噪声,导致构建画像不够准确。
针对以上问题,提出一种融合多粒度信息的用户画像生成方法(user profile based on multi-granularity information fusion,UP-MGIF)。
首先,该方法在嵌入层融合字粒度、词粒度表示向量以扩充特征内容;其次,在改进双向门控循环单元网络基础上,结合降噪自编码器和注意力机制设计一种特征提取混合模型Bi-GRU-DAE-Attention,实现特征降噪和语义增强;最后,将鲁棒性强的特征向量输入到分类器中实现用户画像生成。
实验表明,该用户画像生成方法在医疗和互联网两个画像数据集上的分类准确率高于其他基线方法,并通过消融实验验证了各个模块的有效性。
【总页数】7页(P401-407)
【作者】邵一博;秦玉华;崔永军;高宝勇;赵彪
【作者单位】青岛科技大学信息科学技术学院;康复大学青岛医院青岛市市立医院【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于Multi-Aspect的融合网络用户画像生成方法
2.基于多粒度信息融合的无监督行人重识别方法
3.融合局部语义特征的学者细粒度信息提取方法
4.多源直觉模糊决策信息系统中信息融合的加权多粒度方法
5.融合细粒度上下文信息的互动论点对识别方法
因版权原因,仅展示原文概要,查看原文内容请购买。
让心爱的RSS内容自动存档
佚名
【期刊名称】《电脑迷》
【年(卷),期】2007(000)006
【摘要】用OPML文件订阅了丰富多彩的RSS资源是不是很兴奋,如果遇到了自己喜欢的RSS源就更值得庆祝一番了,自己喜欢的RSS源内容让Outlook 2007自动备份岂不更美哉?要自动保存RSS源,就在这个RSS源的名称上右击鼠标执行“属性”命令,在弹出的对话框中切换到“自动存
【总页数】1页(P143-143)
【正文语种】中文
【中图分类】TP393.092
【相关文献】
1.如何拍摄存档报纸——GB/T25072-2010内容介绍 [J], 张文增;毛谦;李铭
2.基于内容管理的电子试卷存档管理方案 [J], 董平军;王晓锋
3.基于内容管理的电子试卷存档管理方案 [J], 董平军;王晓锋
4.基于内容管理软件的RSS聚合实现——以TRS WCM内容协作平台为例 [J], 李悦
5.美国国会图书馆网络存档内容实现了与网站其他内容的集成 [J], 齐燕(编译);刘超(校对);吴振新(校对)
因版权原因,仅展示原文概要,查看原文内容请购买。
Using Two-dimensional Code to Realize Cloud Services of CD Attached with Books in Libraries 作者: 陈海龙[1];陈希亮[2]
作者机构: [1]长安大学图书馆,陕西西安710061;[2]西安交通大学电气工程学院,陕西西安710049
出版物刊名: 新世纪图书馆
页码: 70-73页
年卷期: 2017年 第1期
主题词: 随书光盘;二维码;云服务;馆藏资源
摘要:随着图书馆附盘图书的逐年增多,如何管理和利用好随书光盘这一馆藏资源,最大限度地满足读者的需要是一个急待解决的问题。
论文在图书馆随书光盘管理实践和研究的基础上,分析了二维码的性质、特点及优势,提出了利用二维码技术建立图书馆随书光盘云服务系统的设计思想和方法,并论述了该系统的具体实现过程及系统具有的特点和优势,以期对解决这一问题有所帮助。