过程自动化仿真系统_贾宏宇
- 格式:pdf
- 大小:122.68 KB
- 文档页数:3
过程控制系统
(ProcessContro1System)
总学时:40学时理论40学时
学分:2.5
课程主要内容:
《过程控制系统》课程是电气工程与自动化专业的一门专业主干课程,具有很强的实践性。
主要内容包括单回路控制系统的方案设计、调节参数整定以及控制系统的投运:为提高控制品质或满足特殊操作要求的复杂过程控制系统及应用中的有关问题;对典型案例的学习,掌握对各典型单元操作静、动态特性的分析方法,和与之相匹配的典型控制方案的设计等三大部分。
通过本课程的学习,要使学生在掌握控制理论和过程检测与控制仪表等知识的基础上,用工程处理的方法去解决控制系统的分析、设计与研究方面的问题。
先修课程:自动控制理论、微机原理、过程检测与控制仪表、微机控制等。
适用专业:电气工程与自动化
教材:
邵裕森.过程控制工程.北京:机械工业出版社,2006年1月。
教学弁考书:
[1]金以慧.过程控制.北京:清华大学出版社,1993年4月。
[2]蒋慰孙.过程与控制.北京:化学工业出版社,1996年10月。
[3]邵裕森.过程控制及仪表(修订版).上海:上海交大出版社,1995年3月。
自动化控制系统的建模与仿真论文素材自动化控制系统的建模与仿真自动化控制系统建模与仿真是现代控制工程中非常重要的领域。
通过建立数学模型和使用计算机仿真技术,可以更好地理解和优化控制系统的性能。
本文将就自动化控制系统的建模方法、仿真技术以及在不同领域中的应用等方面进行论述。
一、建模方法在自动化控制系统中,建模是指将实际系统抽象为一种数学模型。
建模方法可以分为两种主要类型:物理建模和黑盒建模。
1. 物理建模物理建模是通过分析系统的物理特性和相互关系,基于物理定律和原理,构建系统的数学模型。
常用的物理建模方法包括:微分方程模型、状态空间模型和传递函数模型等。
2. 黑盒建模黑盒建模是根据实际系统的输入和输出数据,通过统计分析和数据挖掘等方法构建系统的数学模型。
常用的黑盒建模方法包括:神经网络模型、模糊逻辑模型和遗传算法模型等。
二、仿真技术仿真是指利用计算机模拟实际系统的行为和性能,以验证控制算法的有效性和系统的稳定性。
在自动化控制系统中,常用的仿真技术有离散事件仿真和连续仿真。
1. 离散事件仿真离散事件仿真是基于事件驱动的仿真方法,通过模拟系统中离散事件的变化,来推进仿真时钟。
离散事件仿真常用于对具有非线性和时变属性的系统进行建模和仿真。
2. 连续仿真连续仿真是基于时钟驱动的仿真方法,通过不断更新系统的状态和控制输入,来模拟系统的连续变化。
连续仿真常用于对具有线性和时不变属性的系统进行建模和仿真。
三、应用领域自动化控制系统的建模与仿真在各个领域都有广泛的应用。
1. 工业控制在工业生产中,自动化控制系统的建模与仿真可以帮助优化生产过程,提高生产效率和质量。
通过建立模型和仿真验证,可以选择合适的控制策略,降低能耗和生产成本。
2. 智能交通在智能交通系统中,自动化控制系统的建模与仿真可以模拟交通流量、信号控制和车辆调度等系统的行为。
通过仿真分析,可以优化交通流量,减少交通拥堵和事故发生率。
3. 机器人技术在机器人技术领域,自动化控制系统的建模与仿真可以帮助设计和优化机器人的动作规划和控制算法。
自适应过程控制系统的模型建立与仿真实验随着科技的不断发展,自适应过程控制系统在工业生产中得到了广泛应用。
自适应过程控制系统能够对生产过程中的变化进行及时响应和调整,达到最大限度地优化生产效率和产品质量。
本文将介绍自适应过程控制系统的基本原理和模型建立方法,以及如何通过仿真实验对系统性能进行评估与优化。
一、自适应过程控制系统基本原理自适应过程控制系统是指通过对受控对象进行监测和分析,对控制器或控制算法进行实时调整,以达到生产过程的最优化控制的一种控制系统。
它的基本结构包括受控对象、传感器、控制器和执行机构等四部分。
其中,传感器用于对受控对象的状态进行实时监测,控制器则根据传感器获取的数据进行控制算法的调整,最终通过执行机构对受控对象进行控制。
自适应过程控制系统的基本原理可以用下图表示:图1 自适应过程控制系统基本结构图自适应过程控制系统对受控对象的调整是通过调整控制器或者控制算法来实现的。
为了使控制器或者控制算法更加精确地调整,需要先建立一个可靠的、与实际生产过程相适应的动态数学模型。
二、自适应过程控制系统的模型建立在自适应过程控制系统中,模型建立是非常重要的一步。
一个准确的模型能够帮助我们更好地理解受控对象的性质和行为规律,从而使控制器或者控制算法更加精确地调整。
以下是模型建立的五个步骤:1、确定受控对象我们需要先明确受控对象的类型和性质,以确定我们需要建立的模型的类型和实际应用范围。
例如,如果我们需要控制某个生产流程中的温度变化,那么受控对象就是温度单元。
2、选择模型类型根据受控对象的特性,选择合适的模型类型。
一般情况下,我们可以选择传统的模型类型,例如传输函数模型或者状态空间模型。
此外,也可以采用非参数模型,例如神经网络模型或者模糊逻辑模型等。
3、数据采集我们需要采集受控对象的数据,并将其输入到模型中进行分析。
数据采集的方法和设备可以根据具体的受控对象和实际应用环境进行选择。
4、模型参数估计将采集得到的数据输入到模型中进行参数估计和模型拟合,以获得一个准确的模型。
智能工业自动化系统的建模与仿真研究智能工业自动化系统是现代工业生产中的重要组成部分,它通过集成先进的技术和智能化的系统,实现对生产过程的自动化控制和管理。
为了确保智能工业自动化系统能够高效运行,并满足生产需求,建模与仿真研究成为一项必要且有价值的工作。
本文将从建模方法、仿真技术和应用案例三个方面进行探讨,并对智能工业自动化系统的未来发展进行展望。
首先,建模方法是智能工业自动化系统研究的核心内容之一。
建模是通过抽象和简化实际系统的特征和行为,构建一个适用于仿真分析的模型。
在智能工业自动化系统中,建模通常包括对系统的结构、功能和行为进行描述。
常用的建模方法包括物理仿真模型、数学模型和基于代理的模型等。
物理仿真模型通过实际物理设备的连接和组装来描述系统的结构和功能;数学模型则通过一系列的方程和算法来描述系统的行为;基于代理的模型则是利用智能体来描述系统中的各个组成部分以及其之间的相互作用。
其次,仿真技术是进行智能工业自动化系统研究的重要手段之一。
仿真是在计算机环境下对系统进行模拟和评估的过程,通过仿真可以检验系统的性能、验证控制策略以及指导系统的改进和优化。
根据仿真精度和计算速度的要求,常见的仿真技术包括离散事件仿真、连续系统仿真和物理仿真等。
离散事件仿真是以事件驱动的机制来模拟和评估系统,适用于描述系统中离散事件的变化;连续系统仿真基于微分方程和差分方程来描述系统动态行为,适用于连续性和实时性要求较高的系统;物理仿真是通过建立物理仿真模型,对系统进行模拟和评估。
不同的仿真技术可根据实际需求进行选择和应用。
最后,智能工业自动化系统建模与仿真在实际应用中具有广泛的应用案例。
例如,在制造业中,通过建立智能工业自动化系统的仿真模型,可以对工艺流程进行优化、生产线进行调度和排产,实现生产效率的提升和资源的合理利用。
在物流领域,通过智能工业自动化系统的建模与仿真,可以实现仓库管理的优化和物流路径的规划,提高物流运输效率和减少成本。
自动化系统建模与仿真自动化系统建模与仿真是自动化领域中的重要研究方向,它通过对实际系统进行数学建模,并利用计算机仿真技术,实现对系统的分析、设计和优化。
本文将介绍自动化系统建模与仿真的基本概念、方法和应用。
一、引言自动化系统建模与仿真是在自动化控制的背景下,利用数学和计算机技术对复杂系统进行模拟和分析的过程。
它通过建立数学模型,描述系统的物理、动力学和控制行为,并利用计算机代码实现对系统的仿真。
自动化系统建模与仿真在工业控制、交通运输、机械制造、航空航天等领域具有广泛的应用。
二、自动化系统建模方法1. 系统建模的基本原理自动化系统建模的基本原理是将实际系统的行为、结构和性能抽象成数学模型,并利用模型描述系统的状态、输入和输出之间的关系。
通常采用微分方程、差分方程、状态空间等数学工具来描述系统行为。
例如,对于连续系统可以使用微分方程描述,对于离散系统可以使用差分方程描述。
2. 建模工具的选择在进行自动化系统建模时,需要选择适当的建模工具,常用的有Simulink、Matlab、LabVIEW等。
Simulink是一款图形化建模仿真工具,可以通过拖拽模块的方式建立系统模型,并进行仿真分析。
Matlab是一种通用的数学计算软件,可以使用其编程语言对系统进行建模和仿真。
LabVIEW是一种基于图形化编程的软件,主要用于虚拟仪器的建模与仿真。
三、自动化系统仿真方法1. 离散事件仿真离散事件仿真是一种模拟离散系统行为的仿真方法,它以事件驱动为基础,模拟系统中事件的发生和处理过程。
离散事件仿真适用于网络通信、物流调度、排队论等领域的系统建模与仿真。
2. 连续系统仿真连续系统仿真主要针对物理系统的动态行为进行模拟,例如机械系统、电路系统等。
连续系统仿真通常采用微分方程来描述系统的动态行为,通过数值求解方法进行仿真计算,得到系统的动态响应。
四、自动化系统建模与仿真应用1. 工业控制系统自动化系统建模与仿真在工业控制系统中的应用十分广泛。
MATLAB控制系统与仿真课程设计报告院(系):电气与控制工程学院专业班级:测控技术与仪器1301班**:**学号:**********指导教师:杨洁昝宏洋基于MATLAB的PID恒温控制器本论文以温度控制系统为研究对象设计一个PID控制器。
PID控制是迄今为止最通用的控制方法,大多数反馈回路用该方法或其较小的变形来控制。
PID控制器(亦称调节器)及其改进型因此成为工业过程控制中最常见的控制器(至今在全世界过程控制中用的84%仍是纯PID调节器,若改进型包含在内则超过90%)。
在PID控制器的设计中,参数整定是最为重要的,随着计算机技术的迅速发展,对PID参数的整定大多借助于一些先进的软件,例如目前得到广泛应用的MATLAB仿真系统。
本设计就是借助此软件主要运用Relay-feedback法,线上综合法和系统辨识法来研究PID控制器的设计方法,设计一个温控系统的PID控制器,并通过MATLAB中的虚拟示波器观察系统完善后在阶跃信号下的输出波形。
关键词:PID参数整定;PID控制器;MATLAB仿真。
Design of PID Controller based on MATLABAbstractThis paper regards temperature control system as the research object to design a pid controller. Pid control is the most common control method up until now; the great majority feedback loop is controlled by this method or its small deformation. Pid controller (claim regulator also) and its second generation so become the most common controllers in the industry process control (so far, about 84% of the controller being used is the pure pid controller, it’ll exceed 90% if the second generation included). Pid parameter setting is most important in pid controller designing, and with the rapid development of the computer technology, it mostly recurs to some advanced software, for example, mat lab simulation software widely used now. this design is to apply that soft mainly use Relay feedback law and synthetic method on the line to study pidcontroller design method, design a pid controller of temperature control system and observe the output waveform while input step signal through virtual oscilloscope after system completed.Keywords: PID parameter setting ;PID controller;MATLAB simulation。
基于MATLAB控制系统的仿真与应用毕业设计论文目录一、内容概括 (2)1. 研究背景和意义 (3)2. 国内外研究现状 (4)3. 研究目的和内容 (5)二、MATLAB控制系统仿真基础 (7)三、控制系统建模 (8)1. 控制系统模型概述 (10)2. MATLAB建模方法 (11)3. 系统模型的验证与校正 (12)四、控制系统性能分析 (14)1. 稳定性分析 (14)2. 响应性能分析 (16)3. 误差性能分析 (17)五、基于MATLAB控制系统的设计与应用实例分析 (19)1. 控制系统设计要求与方案选择 (20)2. 基于MATLAB的控制系统设计流程 (22)3. 实例一 (23)4. 实例二 (25)六、优化算法在控制系统中的应用及MATLAB实现 (26)1. 优化算法概述及其在控制系统中的应用价值 (28)2. 优化算法介绍及MATLAB实现方法 (29)3. 基于MATLAB的优化算法在控制系统中的实践应用案例及分析对比研究31一、内容概括本论文旨在探讨基于MATLAB控制系统的仿真与应用,通过对控制系统进行深入的理论分析和实际应用研究,提出一种有效的控制系统设计方案,并通过实验验证其正确性和有效性。
本文对控制系统的基本理论进行了详细的阐述,包括控制系统的定义、分类、性能指标以及设计方法。
我们以一个具体的控制系统为例,对其进行分析和设计。
在这个过程中,我们运用MATLAB软件作为主要的仿真工具,对控制系统的稳定性、动态响应、鲁棒性等方面进行了全面的仿真分析。
在完成理论分析和实际设计之后,我们进一步研究了基于MATLAB 的控制系统仿真方法。
通过对仿真模型的建立、仿真参数的选择以及仿真结果的分析,我们提出了一种高效的仿真策略。
我们将所设计的控制系统应用于实际场景中,通过实验数据验证了所提出方案的有效性和可行性。
本论文通过理论与实践相结合的方法,深入探讨了基于MATLAB 控制系统的仿真与应用。
过程控制系统的仿真
潘正义
【期刊名称】《机械职业教育》
【年(卷),期】2002(000)010
【摘要】@@ 众所周知,电子电路可用EWB进行电路分析和设计软件仿真.那么对于由各种设备、仪表、被控对象等组成的、结构十分复杂的过程控制系统是否也可在计算机上仿真呢?答案是肯定的.这就是本文要介绍的MCGS工控组态软件.【总页数】2页(P32-33)
【作者】潘正义
【作者单位】无锡职业技术学院
【正文语种】中文
【相关文献】
1.基于Matlab的过程控制系统仿真实验设计
2.包装过程中三容水箱液位控制系统的设计与仿真
3.先进摩擦增材制造控制系统总体设计与过程仿真
4.基于PCS7化工反应过程控制系统的仿真设计与实现
5.基于MATLAB的过程控制系统仿真设计
因版权原因,仅展示原文概要,查看原文内容请购买。
基于优化粒子群神经PID的双变量解耦控制杨雨彬 任天宇 邓宏敬 蔡子龙 杨子墨(东北大学秦皇岛分校控制工程学院 河北秦皇岛 066004)摘要:在工业过程控制系统中,存在多变量耦合的现象,其中双变量耦合较为常见。
针对双变量耦合现象,该文提出了自适应粒子群优化算法与单神经元PID相结合的解耦控制方法,利用PSO算法对单神经元PID 网络进行参数进行优化,从而提升系统解耦效果,并对双变量耦合系统进行仿真验证。
结果表明,适应度经过参数寻优后有了不同程度的降低,在局部最优中的全局最优值降低了93.75%、39.90%;解耦效果稳定性提高,系统误差降低,精度提升。
关键词:双变量系统 解耦控制 自适应粒子群算法 单神经元PID中图分类号:TP273文献标识码:A 文章编号:1672-3791(2023)03-0001-05 Bivariate Decoupling Control Based on Particle Swarm Neural PIDYANG Yubin REN Tianyu DENG Hongjing CAI Zilong YANG Zimo(School of Control Engineering, Northeastern University at Qinhuangdao, Qinhuangdao, Hebei Province, 066004China)Abstract:In the industrial process control system, there is a phenomenon of multivariable coupling, among which bivariate coupling is more common. In view of the bivariate coupling phenomenon, this paper proposes a decou‐pling control method combining adaptive particle swarm optimization algorithm and single neuron PID. The PSO algorithm is used to optimize the parameters of the single neuron PID network, so as to improve the decoupling ef‐fect of the system, and the simulation verification of bivariate coupling system is carried out. The results show that the fitness has been reduced to varying degrees after parameter optimization, and the global optimal value in the lo‐cal optimal value has decreased by 93.75%, 39.90%; the stability of decoupling effect is improved, the system error is reduced, and the accuracy is improved.Key Words: Bivariate system; Decoupling control; Adaptive particle swarm optimization; Single neuron PID在工业过程控制中,存在系统耦合现象,不但降低了控制精度,还降低了生产的品质和效率,其中双变量耦合现象较为常见。
非平稳多维多点虚拟激励法的快速模拟方法贾宏宇;郑史雄;阳栋;洪浩;罗楠【期刊名称】《振动与冲击》【年(卷),期】2013(032)018【摘要】为研究实际地震动非平稳性与空间效应的快速模拟方法,运用绝对位移直接求解非平稳多维多点虚拟激励法,不必将绝对位移分解为拟静力位移项及动力相对位移项,避免求解静力影响矩阵的繁琐;将非平稳激励响应转换为一系列确定性外力作用下运动方程瞬态解,以有限元软件ANSYS瞬态分析模块为平台,在结构有限元模型各支撑处激励方向设置大质量块后,直接将地震虚拟激励荷载施加于大质量块,实现绝对位移求解动力方程,提高随机振动响应计算效率,高效地在通用有限元软件中实现多维多点非平稳虚拟激励法,避免自编程序的繁琐,简化实现方法,使多维多点非平稳虚拟激励法在理论及工程应用中获得进一步拓展.【总页数】6页(P108-112,132)【作者】贾宏宇;郑史雄;阳栋;洪浩;罗楠【作者单位】西南交通大学土木工程系,四川峨眉614202;西南交通大学土木工程学院,成都610031;同济大学地下建筑与工程系,上海200092;西南交通大学土木工程学院,成都610031;西南交通大学土木工程学院,成都610031【正文语种】中文【中图分类】TU311.3【相关文献】1.基于改进Vanmarcke方法的非平稳多点地震动模拟 [J], 陈辉国;杜江;任俊儒2.结构非平稳随机响应分析的快速虚拟激励法 [J], 徐瑞;苏成3.多点多维全非平稳地震动场的降维模拟 [J], 刘子心;刘章军4.基于多维多点虚拟激励法对转向架构架随机振动疲劳寿命预测 [J], 王腾飞;肖绯雄;贾宏宇;银豪5.多维多点虚拟激励法在ANSYS中的应用 [J], 贾宏宇;郑史雄;陈冠桦因版权原因,仅展示原文概要,查看原文内容请购买。
高等教育新教师教学传统可编程控制器(PLC )实验采用PLC 设备和硬件电路搭建的控制对象[1-2],其缺陷是占用大量实验室空间、硬件设备价格昂贵、很难进行修改和升级换代、硬件设备维护困难等。
所以,如何进行新型PLC 实验室的改造已成为迫在眉睫的问题,而工业组态控制技术能较好的解决这一问题。
组态软件使用灵活的组态方式,为用户提供快速构建工业自动控制系统监控功能的、通用层次的软件工具,能够支持各种工控设备和常见的通讯协议,同时组态软件自身还提供基于Web 远程访问的功能[3-4]。
因此,将PLC 与组态软件的优点结合起来,建立组态虚拟PLC 实验室,解决了自动化专业的实验教学、课程设计、实训以及毕业设计等环节所面临的实际问题,也为教学和科研节省大量经费,缩短开发周期,创造良好的经济效益,是实践教学模式的革新。
一、虚拟实验室建设原则虚拟仿真实验室建设应充分体现虚实结合、相互补充、能实不虚的原则。
在功能上应体现以下几个方面:综合化:实验系统应紧密结合工业系统实际,形成完善体系,功能上综合化。
拟实性:所有测控对象及参数均为工业现场的设备和参数或对他们进行小型化处理而得到的。
模块化:各类测控对象和参数均相对独立构成模块,具有相对独立且典型的功能,易于组合和拼装,满足不同专业学科的实验需要。
开放性:核心软件平台具有开放的应用软件接口,满足用户的二次开发需要。
扩展性:用户根据需要设计出适合自身需要的扩展模块,集成到系统中。
网络化:所有测控对象既可以独立实验又可以成为局域网中其他PC 的共享设备,组成一个虚拟实验室。
二、基于组态软件的虚拟PLC 实验室建设思路虚拟PLC 实验室的系统结构如图1所示。
系统以组态软件做为平台,开发控制实验的仿真对象,内嵌PLC 编程软件实现控制程序编写,以PLC 做为控制设备,借助于组态软件自带的WebServer 发布到Internet ,远程客户端实现登录功能。
组态软件通过以太网与PLC 之间进行通信,并监控PLC 所有存储器、控制器及I/O 接口的状态,以变量值的形式传输到计算机上,供服务器使用、处理。
YHCNC-FANUC仿真软件操作说明书前言南京宇航自动化技术研究所是以南京东南大学、南京航空航天大学作为技术依托,一直致力于计算机辅助设计与制造技术(CAD/CAM)、数控技术(CNC)与网络集成技术的研究、开发、推广和应用,拥有一支强大的、经验丰富的技术支持和服务队伍,也是江苏省高校金工教学主要承建单位。
南京宇航自动化技术研究所开发FANUC、SIEMENS系统数控车、数控铣及加工中心模拟仿真教学软件,是结合机床厂家实际加工制造经验与高校(含职业技术学院、中等专业学校、技工学校和职业学校)教学训练一体所开发的。
通过该软件可以使学生达到实物操作训练的目的,又可大大减少昂贵的设备投入。
该软件具有FANUC、SIEMENS系统功能,学生通过在PC机上操作该软件,能在很短时间内就能操作FANUC、SIEMENS系统数控车、数控铣及加工中心,可手动或CAD/CAM编程和加工,教师通过网络教学,监看窗口滚动控制,可随时获得学生信息。
该软件兼容性广,可和国内数控设备配套教学使用。
南京宇航自动化技术研究所2004年5月目录第一章YHCNC概述 (5)1.1 YHCNC虚拟CNC (5)1.2 YHCNC的安装 (6)1.2.1 安装环境 (6)1.2.2 软件安装 (6)1.2.3 在安装期间生成的重要文件 (12)1.3 YHCNC的功能 (12)1.3.1 控制器 (12)1.3.2 功能介绍 (15)第二章YHCNC 操作 (16)2.1 执行和退出 (16)2.1.1 执行 (16)2.1.2 退出 (17)2.2 基本操作 (17)2.2.1 工具条和菜单的配置 (17)2.2.2 文件管理菜单 (18)第三章FANUC 0D 操作...............................................................................错误!未定义书签。
煤化工煤制甲醇行业操作员培训仿真系统OTS OTS系统通常由一个主控计算机和多个仿真节点组成。
主控计算机用来控制和监控整个系统,而仿真节点则负责模拟设备的运行和响应各种操作指令。
通过这些仿真节点,操作员可以在虚拟环境中进行各种操作,如开启设备、调节温度和压力、控制流量等。
OTS系统模拟的是煤制甲醇的生产过程,它能够准确模拟真实的操作环境和设备响应。
通过该系统,操作员可以学习到煤制甲醇的工艺流程、设备原理和操作注意事项。
操作员可以在虚拟环境中进行各种操作,如进料、调节操作参数、检修设备等。
系统会即时给出操作的结果和反馈,以便操作员及时调整操作策略。
OTS系统还可以进行故障模拟和应急处理的培训。
在虚拟环境中,操作员可以面对各种故障情况,如设备故障、流程异常等,然后根据自己的经验和知识来应对和处理。
系统会给出相应的故障提示和解决方案,帮助操作员熟悉故障处理的流程和方法。
使用OTS系统进行操作员培训有以下几个优点:1.安全性高:由于操作在虚拟环境中进行,因此可以避免操作过程中的意外事故和设备损坏。
2.便于重复训练:通过OTS系统,操作员可以反复进行训练,以弥补传统培训方式中一次性训练的不足。
3.可控度强:OTS系统可以模拟各种操作情况和设备响应,操作员可以随时调整操作参数和策略进行培训,提高培训的针对性和有效性。
4.提高操作效率:由于OTS系统可以模拟真实的工艺流程和设备响应,操作员可以在虚拟环境中进行预演和调试,提前发现和解决潜在的问题,从而提高操作的效率和准确性。
总之,煤化工煤制甲醇行业操作员培训OTS系统是一种能够准确模拟实际生产过程的培训工具,通过该系统,操作员可以熟悉设备操作流程、掌握操作技能,提高操作水平和安全意识。
该系统具有安全性高、便于重复训练、可控度强和提高操作效率等优点,是一种有效的操作员培训工具。
《工业机器人系统离线编程与仿真》课程标准1 .课程性质《工业机器人系统离线编程与仿真》课程是“工业机器人技术专业”课程体系中专业核心课程之一,课程实施二阶段教学,在第三学期,奠定学生的基础技能,培养其兴趣;第四学期,为了接受技能抽考和为毕业设计做准备。
课程模拟企业项目案例,融合技能抽查标准,以项目任务的形式开展教学,强调由学生在学习过程中自我建构而获得知识与技能。
2 .课程任务主要讲授工业机器人离线编程、系统仿真技术、三维建模仿真技术等,掌握工业机器人系统方案设计、系统仿真、系统离线编程的方法,本课程的任务是使学生掌握本专业必需的机器人系统离线编程与仿真基本知识和基本能力,初步形成分析问题和解决实际问题的能力,为从事相应职业打下坚实基础,并注意加强职业素养的培养,逐步培养学生的辩证思维能力和创新精神。
3 .课程定位《工业机器人系统离线编程与仿真》是工业机器人技术专业核心课程,也是技能抽考岗位核心技能模块之一,同时还涵盖了《工业机器人应用编程》1+X的考核模块内容。
主要培养学生在零件的造型设计、结构设计、运动仿真、产品优化以等方面的能力,为后续自动化生产线系统设计与集成等能力培养打下基础。
4 .课程设计理念与思路学院要求所有专业课教师每三年必须下企业进行为期半年的生产实践,在这样的背景下,我们与企业进行深度合作,通过调研分析,确定本专业面向的职业技术岗位,以岗位能力和典型工作任务分析为依据,构建工作过程的课程体系,根据学生认知规律和职业成长规律,按从易到难、由简入繁的顺序确定教学项目和工作任务,以企业实际生产过程组织和实施教学。
5.课程要求通过本课程的学习,使学生掌握工业机器人系统方案设计、系统仿真、系统离线编程的方法,提高分析问题和解决问题的能力,养成良好的职业道德同时也为后续课程的学习打下坚实的基础。
二、课程目标通过本课程的学习,使学生具备机器人系统离线编程与仿真基本知识和基本技能,课程教学贯彻以学生为主体的教学理念,采用案例教学、任务驱动、理实一体化等教学模式;课程内容紧密结合装备制造相关的行业标准、法规及规程;按照职业岗位能力要求进行技术技能培养的同时强化职业素质的养成,为学生获得工业机器人应用编程(1+X)等职业资格证书,胜任售前方案仿真工程师、机器人程序员等工作岗位打下坚实基础。
基于智能仿真技术的工业自动化仿真系统开放性设计王猛刘颖(莱芜钢铁集团有限公司自动化部板带厂,山东莱芜271104)摘要:本文简要介绍了以西门子S7-300和S7-400PLC仿真软件S7-PLCSIM为智能试验平台,运用开放性设计方法成功开发出可实际应用的工业自动化仿真系统。
该系统可以有效的模拟PLC绝大多数功能,具有功能强大、高精度仿真、使用方便等优点。
关键词:S7-PLCSIM;工业自动化;仿真系统中图分类号:TP273 文献标识码:A文章编号:Openness design based on intelligent simulation technology industrial automationsimulation systemWang Meng liu Ying(The Automation Department of Laiwu Iron and Steel Group Corporation, Laiwu 271104, China)Abstract:The article mianly introduce thesiemens S7-300 andS7-400PLC simulation software S7-PLCSIM is the intelligenceexperiments the platform, carries on the open design and the successinvestment practical application industrial automation simulationsystem. This system may the effective simulation PLC overwhelmingmajority function, have the function to be formidable, merit and so onhigh accuracy simulation, easy to operate.Keywords:S7-PLCSIM; Industrial automation; Simulation system1 引言随着钢铁工业的发展和自动控制水平的提高,一方面要求运行人员具有更高的操作技能和应变能力;另一方面,由于生产规模的扩大和工艺复杂程度的提高,对生产安全经济运行指标和性能要求的提高,需要技术人员对系统进行深入研究,然而由于在实际的生产过程中不可能做过多的实验,因此利用智能仿真软件,构建智能试验平台进行仿真研究必然成为有效的研究手段。
第44卷第1期2022年2月指挥控制与仿真CommandControl&SimulationVol 44㊀No 1Feb 2022文章编号:1673⁃3819(2022)01⁃0103⁃09基于深度强化学习潜艇攻防对抗训练指挥决策研究郭洪宇,初㊀阳,刘㊀志,周玉芳(江苏自动化研究所,江苏连云港㊀222061)摘㊀要:潜艇和水面舰艇编队间的攻防对抗是潜艇作战研究的重点内容,如何确保潜艇在舰艇编队㊁反潜直升机等兵力的联合封锁下存活和突围,是对潜艇指挥决策的考验㊂为此,针对潜舰机博弈对抗场景,从深度强化学习和规则推理两个方面构建潜艇智能体,提出两种近端策略优化(ProximalPolicyOptimization,PPO)算法改进机制,开展互博弈对抗和分布式训练,最终实现潜艇在对抗过程中的智能决策,相关技术路线和算法在兵棋对战平台上得到实施和验证,算法改进后的收敛速度和稳定性有了较大提升,可为潜艇智能指挥决策的研究提供技术参考㊂关键词:智能指挥决策;深度强化学习;近端策略优化算法;互博弈中图分类号:E917㊀㊀㊀㊀文献标志码:A㊀㊀㊀㊀DOI:10.3969/j.issn.1673⁃3819.2022.01.015ResearchonCommandDecision⁃makingofSubmarineAttackandDefenseConfrontationTrainingBasedonDeepReinforcementLearningGUOHong⁃yu,CHUYang,LIUZhi,ZHOUYu⁃fang(1.JiangsuAutomationResearchInstitute,Lianyungang222061,China)Abstract:Theoffensiveanddefensiveconfrontationbetweenthesubmarineandthesurfaceshipformationisthekeycontentofsubmarinecombatresearch.Howtoensurethatthesubmarinesurvivesandbreaksthroughthejointblockadeoftheshipformationandanti⁃submarinehelicoptersisatestofthesubmarinecommanddecision.Tothisend,inviewoftheasymmetryofthesubmarine⁃ship⁃helicopterconfrontationscenario,thesubmarineagentisconstructedfromtwoaspectsofdeeprein⁃forcementlearningandruleinference,andtwoProximalPolicyOptimization(PPO)algorithmimprovementmechanismsareproposed.Itcarriesoutmutualgameconfrontationanddistributedtraining,andfinallyrealizestheintelligentdecision⁃makingofsubmarinesintheconfrontationprocess.Relatedtechnicalroutesandalgorithmshavebeenimplementedandveri⁃fiedonthewargamingplatform.Theimprovedalgorithmhasgreatlyimprovedtheconvergencespeedandstability.There⁃searchonsubmarineintelligentcommanddecision⁃makingprovidestechnicalreference.Keywords:intelligentcommanddecisionmaking;deepreinforcementlearning;ProximalPolicyOptimization;mutualgameconfrontation收稿日期:2021⁃10⁃13修回日期:2021⁃10⁃26作者简介:郭洪宇(1996 ),男,硕士,研究方向为人工智能在军事仿真中应用㊂初㊀阳(1985 ),男,硕士,高级工程师㊂㊀㊀近年来,AlphaGo㊁AlphaStar等智能体在围棋㊁ 星际争霸 等各类游戏中不断战胜人类的顶尖选手,人工智能技术的迅猛发展和广泛应用,已经成为新一轮科技革命的主导因素,世界主要的军事大国纷纷制定人工智能发展战略与规划,加快军事智能化的发展[1]㊂在战术层面的决策博弈领域,由于作战环境㊁对手㊁目标㊁手段㊁方式都相对确定,通过人工智能技术能够逐步实现作战智能指挥决策,给指挥员在复杂现代战争中的指挥决策提供建议,帮助指挥员做出更好的决策判断㊂与作战智能指挥决策过程具有一定相似性的是星际争霸 游戏的决策问题㊂ 星际争霸 智能体的训练技术可以在战场数据生成机理㊁战略战术算法开发和验证方面,为作战指挥决策智能体的构建提供理论指导和技术支撑[2]㊂目前,人们对深度强化学习算法在军事智能决策上的应用进行了广泛的探索㊂文献[3]针对高度复杂且行为连续的战场环境,提出了一种改进的深度确定策略梯度(DDPG)算法,提高算法收敛速度,设计了一种混合双噪声的探索策略,从而实现复杂且连续的军事决策控制行为;文献[4]针对多机协同空战,研究利用深度强化学习实现多机协同的方法,提出了集中式训练⁃分布式执行架构,并对近端策略优化算法设计了四种算法增强机制,利用兵棋推演平台进行了验证;文献[5]针对作战仿真推演系统,提出了一种基于深度强化学习技术的智能决策模型,建立了以actor⁃critic体系为基础的智能体训练网络,根据反潜作战想定,利用SAC算法训练智能体实现自主决策;文献[6]针对作战实体间的博弈对抗,提出了一种监督学习和深度强化学习相结合的算法,利用近端策略优化(ProximalPolicyOptimization,PPO)算法和改进的额外奖励,提升智能体的作战决策能力㊂本文针对潜艇与水面舰艇反潜编队间的对抗,研究利用人工智能技术实现潜艇的智能指挥决策,设计104㊀郭洪宇,等:基于深度强化学习潜艇攻防对抗训练指挥决策研究第44卷了基于深度强化学习的分布式训练方法,构建了潜艇智能体决策模型和舰艇及其舰载反潜直升机的协同反潜规则体模型,利用互博弈对抗的方式训练得到潜艇决策智能体模型㊂根据文献[7]对各深度强化学习算法在海战场中应用的分析㊂本文选取了PPO算法进行研究,并提出了两种增强改进机制,针对性地提高潜艇攻防对抗场景下深度强化学习算法的效果㊂最后,在兵棋推演平台上设计潜舰机攻防对抗想定,对本文提出的训练方法和算法改进效果进行验证,实验结果证明了本文所用方法的实用性和有效性㊂1㊀深度强化学习1 1㊀深度强化学习理论强化学习的基本思想是智能体在与环境交互的过程中根据环境反馈得到的奖励不断调整自身的策略以实现最佳决策,主要用来解决决策优化类的问题㊂深度学习是通过学习一种深层的非线性网络结构,实现复杂函数的逼近,能够对训练数据的本质特征进行学习,具有较强的无监督特征提取能力[8]㊂对强化学习过程的描述通常为如图1所示的马尔科夫决策过程,基本要素有策略㊁奖励函数㊁值函数和环境状态㊂图1㊀强化学习基本学习模型深度强化学习是将深度学习与强化学习相结合,融合了深度学习和强化学习的优点,实现了从环境中获取状态信息通过学习得到当前最优动作㊂目前,深度强化学习在棋类博弈㊁即时策略游戏和兵棋推演等智能决策领域不断取得重大突破,显示出了深度强化学习在认知决策方面具有巨大的潜力和独特的优势,使智能体在高动态性㊁高复杂性的战场环境下具有作战决策能力成为可能㊂1 2㊀近端策略优化算法PPO算法是Schulman等人在提出置信区域策略优化(TrustRegionPolicyOptimization,TRPO)算法保证策略更新稳定的基础上,进一步提出的一种改进后的策略梯度算法,通过截断或限制KL散度的方式,避免策略出现突变的情况,增强了训练的效果[9]㊂策略梯度算法的主要目标是找到一个可以让带有折扣的未来期望的收益达到最大的策略,因此,PPO算法的网络参数θ更新的目标函数为L(θ)=Ε[min(rt(θ)^At,clip(rt(θ),1-ε,1+ε)^At)](1)其中,^At为优势函数,该函数定义为:^At=δt+(γλ)δt+1+ +(γλ)T-t+1δT-1δt=rt+γV(st+1)-V(st){(2)rt(θ)为新旧策略的比值:rt(θ)=πθ(at|st)πθ(at|st)(3)网络参数θ的更新为θt+1=θt+α∇θL(θt)(4)此外,ε为截断常数,其取值为一个经验值,表示新旧策略的最大差值;clip函数为截断函数,将rt(θ)的值限定在1-ε和1+ε之间,表示新策略不会因为远离旧策略而获益㊂因此,PPO算法的描述如下:初始化策略参数θ,θold重复每轮更新㊀重复每个Actor㊀重复T步㊀㊀每步使用旧的策略参数产生θold决策㊀㊀计算每一步中的优势函数估计A㊀迭代K步㊀㊀求解累积期望回报函数的策略梯度,每次使用小批量数据㊀用策略梯度θ更新策略参数将新的策略参数更新至θold㊀2㊀智能体构建目前,潜艇攻防对抗缺少历史仿真数据,且潜艇和主流的舰机协同反潜兵力属于非对称性的博弈对抗,为此本文研究构建潜艇智能体模型和反潜规则体模型,利用互博弈对抗的方式进行深度强化学习训练,其训练流程的总体框架如图2所示,主要的研究内容是深度强化学习训练和两类模型的构建㊂2 1㊀基于深度强化学习的分布式训练为了获取大量互博弈对抗数据,提高智能体的训练速度,本文参考AlphaStar的训练[10],设计了基于深度强化学习的分布式训练方法,如图3所示,该训练方法由数据采样㊁分布式学习和预测推断三部分组成㊂1)数据采样数据采样利用CPU集群采用并行方式同时与多个仿真环境进行交互,每个仿真环境开启一局对战,利用数据采样器(CPU)采集每一步潜艇智能体的状态数据,其数据格式为(state,action,reward)三元组形式,经过样本处理㊁奖励计算,将采集的数据送入样本数据库(SampleBuffer)㊂此外,数据采样器通过与智能体的交互,获得下一步需要执行的动作(Action),并利用动作第1期指挥控制与仿真105㊀图2㊀智能体训练总体框架图图3㊀基于深度强化学习的分布式训练流程指令解码器将动作转化为仿真环境可以接受执行的指令㊂经过大量对战数据的积累,样本数据库可为强化学习提供大量的样本数据㊂2)分布式学习分布式学习利用多个学习器Leaner(GPU)采用了TensorFlow的开源模块,对采集的数据进行消费㊂当样本数据库采集的数据满足一批的数量后,Leaner读取这些样本数据,输入神经网络中进行前向计算,调用强化学习算法,根据算法的优化目标计算损失函数值,进而计算得到梯度的更新值,持续稳定输出多层神经网络的参数,生成针对潜艇突防任务的潜艇智能体㊂通过获得仿真环境中指令的执行结果对其进行评价,评价结果反馈给智能体模型,通过反复迭代,实现智能体模型参数优化㊂3)预测推断预测推断是基于当前智能体的状态信息,运用分布式学习中提供的智能体(神经网络)实施前向推断,输出决策序列㊂预测推断模块,可以将智能体模型通过对环境态势预测得到的动作指令集分发到各个仿真环境,同一个智能体模型可指挥多个仿真环境内的对战㊂其中,前向推断采用TensorRT库,该库是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应用提供低延迟㊁高吞吐率的部署推理㊂2 2㊀潜艇智能体决策模型在深度强化学习训练框架中,智能体通过分布式学习中的学习器对样本数据进行学习,根据环境状态做出动作决策,智能体的决策模型结构如图4所示㊂智能体决策模型采用Actor⁃Critic机制,Actor网络用于输出潜艇采取的动作,Critic网络用于评价智能体决策的优劣,引导策略进化㊂因为PPO算法具有较好的收敛性和稳定性,使用clip函数的方法操作相对简单且鲁棒性好,适用于在兵棋仿真推演平台上进行潜艇攻防对抗实验,所以,选取PPO算法进行实验验证;考虑战场态势信息部分可观测,智能体需要根据历史上的观察动作来进行连续决策,因此,神经网络模型的主体采用双向循环神经网络,同时利用长短时记忆网络(Longshort⁃termmemory,LSTM)[11]结构来解决长序列训练中出现的梯度消失和梯度爆炸问题;由于战场态势信息维度高㊁关联性不强,为了提高训练效率,引入注意力机制[12],使用Softmax回归函数对输入态势信106㊀郭洪宇,等:基于深度强化学习潜艇攻防对抗训练指挥决策研究第44卷图4㊀智能体决策模型结构图息的重要性进行归一化处理,得到各参数信息的相对重要性,实现对敌我局部态势信息的聚焦;神经网络输出智能体的决策指令形式多种多样,有连续型㊁离散型㊁数值型等,需要在神经网络末端针对每种输出形式增加一个全连接网实现连接,并加入解码模块,将决策指令转为平台可接受的操作指令㊂2 3㊀多决策行动方案的规则体模型为了防止规则体智能体出现行动决策变化少㊁泛化能力弱等问题,不利用红蓝双方博弈对抗产生大量不同的数据㊂为此,本文根据反潜作战的典型战术规则和行动方案,探索了一种基于多决策行动方案的规则体构建方法,利用反潜的战术规则和行动方案,给每个实体单位设计了规则推理模型,在代码层面实现协同反潜规则体可以根据战场态势信息触发不同的作战任务和决策指令,使规则体在反潜过程中具有多种战术变化,其设计方案如图5所示㊂构建的规则体模型,具有多种决策行动方案,在互博弈对抗中,使潜艇智能体面对不同的战术战法,获得更加丰富的样本数据㊂此外,还可以通过观察智能体训练过程中反潜规则体的表现是否符合预期要求,以及智能体和人类进行人机对战中人类选手战胜潜艇智能体所用的战术战法,对反潜规则体的决策进行调整改进,继续进行对抗训练㊂3㊀增强改进机制为了加快算法的收敛速度,提高算法的稳定性,本文提出了两种算法的增强改进机制,对于损失函数引入了值函数截断机制来加快算法收敛速度,提高训练的稳定性;对于奖励函数引入决策引导和专家经验奖励机制,建立完善的决策引导体系,来提高智能体的作战效率,使智能体可以探索更多的战术战法㊂3 1㊀损失函数损失函数决定了智能体的学习能力,在潜艇智能体决策模型中,对于策略网络的策略梯度计算,本文采用了PPO算法,其损失函数为了保证策略更新的安全性,引入了截断机制㊂但是,在复杂的攻防对抗场景下,每次采样轨迹的奖励存在很大的波动,单纯地将策略更新限定在一定范围,智能体会出现很多无效的动作,并且,策略梯度的截断会导致与值函数的畸形发展,很难找到最优策略㊂为了解决这个问题,本文将价值网络的输出使用泛化优势估计(GeneralizedAdvantageEstimation,GAE)来构造PPO算法的优势函数,保障策略向更好的方向更新快速找到最优策略,另外针对价值网络,还设计了一种值函数的截断机制,将每一轮动作值函数的更新同样限定在一定的阈值内㊂对于价值网络的损失函数采用均方误差(meansquarederror,MSE)拟合目标的奖励期望,并对其进行截断处理:ValueLoss(φ)=max(MSE(Vφ,Vtarget),MSE(Vold+clip(Vφ-Vold,-ε,ε),Vtarget))(5)其中,Vold表示更新之前的价值估计,用于限定本轮更新的范围;Vtarget表示更新的目标价值,在训练阶段由价值网络的输出基于反事实基线(Counterfactual第1期指挥控制与仿真107㊀图5㊀规则体设计方案Baseline)构造,即智能体采取了一个动作,在对其进行评价时要基于所有可能采取的动作进行分析;Vφ表示价值网络当前的输出,采用均方误差(MeanSquaredEr⁃ror,MSE)对目标价值的奖励期望进行拟合㊂使用截断函数可以减少值函数受到估计偏差以及轨迹采样方差的影响,防止更新的目标价值出现错误,保障了值函数更新的稳定性,使价值网络更新匹配策略网络,保障了智能体动作的有效性㊂3 2㊀决策引导体系决策引导的实现是通过构建奖励函数对强化学习决策动作进行评价,奖励函数的优劣直接影响智能体的训练是否能够收敛以及收敛的方向,是智能体训练的关键㊂在一局对战过程中,奖励函数可以分为两个部分,即过程奖励和终局奖励㊂其中,终局奖励占比较大,反映了智能体最终能否取得胜利;过程奖励虽然占比较小,但是可以对智能体进行决策引导并加速收敛,在训练过程中十分重要㊂因此,奖励函数通常设计为终局奖励和过程奖励之和:r=rend+rprocessrprocess=k1Δx+k2Δyrend=ω1rwin+ω2rpriceìîíïïïï(6)其中,rprocess为过程奖励,引导智能体前进;rend为终局奖励,对最终结果进行评价;Δx为当前经度与上一步经度的差值;Δy为当前纬度与上一步纬度的差值;k1㊁k2为权重系数,用于调整智能体的前进方向,使智能体不断靠近目标地点;rwin为智能体胜负的奖励;rprice为智能体自身损耗的评价奖励,损耗包括武器弹药消耗量和自身战损情况;ω1㊁ω2为权重系数,要保证胜负奖励占据主导地位㊂但是,这种方式会导致智能体机动性差,决策步数多㊁决策时间长的问题,为了解决这一问题,本文对终局奖励和过程奖励进行改进,引入专家经验奖励完善决策引导体系:rend_new=ω1rwin+ω2rprice+τmaxτsteprprocess_new=k1Δx+k2Δy+ðni=1qiìîíïïïï(7)其中,τmax为想定运行到设定的结束时间时,智能体可进行的最大决策步数;τstep为一局对战结束时智能体进行的决策步数;qi为智能体进行某些行为动作或处于某些状态的额外奖励㊂在终局奖励中,增加决策步数的比值,即τmax/τstep来降低决策步数,引导智能体快速向目标区域前进,提高智能体的作战效率;在过程奖励中,增加额外的专家经验奖励来增强智能体的机动性和攻击性,使智能体探索更多的战术战法㊂强化学习的奖励函数需要针对不同的训练场景进行设计,本文在原有的奖励函数基础上,加入决策引导和经验奖励机制对奖励函数进行改进,在上述决策引导体系的应用中,还需要根据实际情况进行具体分析108㊀郭洪宇,等:基于深度强化学习潜艇攻防对抗训练指挥决策研究第44卷和改进㊂4㊀智能体训练与验证本文利用中国船舶集团公司第七一六所研发的悟空㊃海上智能博弈平台,编写潜艇攻防对抗作战想定,实现数据采集和潜艇智能体验证㊂该兵棋推演平台具有舰艇㊁潜艇㊁飞机㊁导弹㊁各种传感器等多种武器装备模型,可以实现到达指定区域㊁沿航线运动㊁飞机起飞降落㊁开火㊁放置浮标等多种操作,具备实时观察智能体训练场景的能力,可以进行人人对战和人机对战㊂4 1㊀想定设计实验想定如图6所示,该想定红方包含三艘水面舰艇,即两艘携带反潜直升机的护卫舰和一艘驱逐舰,蓝方为一艘核潜艇㊂想定区域为长140km㊁宽140km的海上矩形区域,想定时长为5个小时㊂三艘红方舰艇在固定海域范围巡航,舰艇间相距30km,蓝方潜艇在水面舰艇侧方距离50km处准备穿越红方舰艇搜索区域到达另一侧的指定区域㊂潜艇的胜利条件为在规定时间内到达指定区域㊂红蓝双方的兵力编成如表1所示㊂图6㊀想定示意图表1㊀兵力编成红方蓝方实体类别护卫舰驱逐舰反潜直升机核潜艇数量2121武器反潜鱼雷∗8㊁诱饵∗5反潜鱼雷∗6㊁火箭助飞鱼雷∗6㊁诱饵∗5空潜鱼雷∗1㊁浮标鱼雷∗16㊁诱饵∗6传感器舰壳声呐㊁拖曳线列阵声呐拖曳线列阵声呐㊁回声定位声呐吊放声呐㊁水面搜索雷达对海雷达㊁综合声呐4 2㊀模型建立利用悟空㊃海上智能博弈平台建立各实体单位模型并配置搭载的武器和传感器等信息,实现想定编辑㊂根据智能体训练流程,构建潜艇智能体决策模型和多决策行动方案规则体模型,对模型的要素信息进行如下定义㊂1)状态空间设计状态空间包含战场上敌我双方的实体信息,我方实体信息包含潜艇㊁鱼雷和诱饵的信息,敌方实体信息包含敌方舰艇㊁直升机㊁鱼雷㊁诱饵和浮标等信息㊂由于战争迷雾的存在,潜艇获取的敌方信息只有通过传感器探测到的敌方舰艇位置和来袭鱼雷的信息,无法探测得到直升机和浮标信息㊂各实体单位的状态空间信息见表2㊂表2㊀状态空间信息实体状态信息潜艇经度㊁纬度㊁航向㊁航速㊁深度㊁鱼雷数量㊁诱饵数量㊁敌方舰艇经纬度㊁来袭导弹经纬度㊁目标区域经纬度舰艇经度㊁纬度㊁航向㊁航速㊁鱼雷数量㊁诱饵数量㊁潜艇经纬度㊁来袭导弹经纬度鱼雷经度㊁纬度㊁航向㊁航速㊁深度直升机经度㊁纬度㊁航向㊁航速㊁高度㊁浮标数量㊁鱼雷数量㊁潜艇经纬度㊀2)动作空间设计潜舰机攻防对抗的作战决策包含航向㊁航速㊁高度㊁开火距离㊁投放诱饵方向和投放浮标等㊂其中,舰艇高度保持不变,只有直升机可以投放浮标,鱼雷耗尽后开火动作无效㊂为了降低动作空间维度,本文对实体的航向㊁航速㊁高度㊁开火距离和投放诱饵方向进行了离散化处理,见表3㊂表3㊀动作空间信息动作类别动作范围实体航向东㊁西㊁南㊁北㊁东北㊁东南㊁西北㊁西南8个动作方向潜艇下潜深度-200m㊁-300m㊁-400m直升机高度500m直升机速度100km/h㊁300km/h潜艇速度15kn㊁25kn㊁34kn舰艇速度15kn㊁29kn投放诱饵方向0ʎ㊁60ʎ㊁120ʎ㊁180ʎ㊁240ʎ㊁300ʎ潜艇开火距离20nmile内舰艇开火距离27nmile内㊀3)决策引导体系设计本实验的决策引导体系设计参考公式(6)和(7),根据想定内容对潜艇决策智能体的奖励参数值的设置见表4㊂第1期指挥控制与仿真109㊀表4㊀潜艇智能体奖励设计参数名称奖励条件奖励值㊀㊀㊀㊀㊀㊀㊀㊀终局奖励潜艇到达目标区域10rwin潜艇被击毁-10想定结束未到达目标区域-10rpricre潜艇无损伤1潜艇有损伤-1系数ω11ω21㊀㊀㊀㊀㊀㊀㊀㊀过程奖励qi潜艇击沉一艘舰艇3潜艇超出作战区域-2鱼雷接近潜艇2km内-3潜艇诱饵成功引诱鱼雷2系数k10.5k210㊀4)智能体训练参数设计根据本次实验想定场景大小,训练过程中可同时进行30局对战,对智能体训练过程所涉及的参数配置见表5㊂表5㊀训练参数配置参数名配置信息参数名参数值学习器1块GPUε0.1采样器36个CPUτmax500采样批大小30局对战数据θ1训练批大小128k2隐藏层大小128折扣率0.9数据记录的间隔10学习率2e-4损失值0.5㊀图7㊀舰机协同反潜规则体决策图5)规则体设计反潜规则体的设计如图7所示㊂其中,反潜直升机可以选择携带声呐和浮标进行探测或者选择携带一枚鱼雷进行攻击;当实体的诱饵和鱼雷消耗殆尽时,投放诱饵和发射鱼雷的操作无效㊂4 3㊀智能体训练结果记录智能体训练过程中每轮30局对战的平均奖励值和平均决策步数,并进行可视化处理,其中,一轮为30局对战数据㊂本文奖励函数值的设置是经过多次实验确定潜艇决策智能体效果较好的数值,由于调整奖励值的实验变量较多,在此不做比较㊂此外,本文还进行了三组奖励函数相同的对比验证实验,共产生45000局左右的互博弈对抗数据㊂三组实验分别是损失函数改进实验㊁损失函数未改进实验以及增强反潜规则体继承实验,其中,继承实验采用损失函数改进实验中第390轮产生的智能体模型,潜艇决策智能体的训练效果如图8和图9所示㊂从图中的三组曲线可以看出,三组实验潜艇决策智能体在相同的决策引导体系下,每轮的平均奖励值和决策步数最终都可以收敛㊂对比两图中损失函数改进前后的两组实验曲线,改进后智能体在230轮训练后就开始逐步收敛并缓慢增加,曲线的波动幅度较小,训练过程中潜艇智能体的决策行为稳步增强,而损失函数改进前潜艇决策智能体虽然总体上是趋于收敛的,但收敛效果并不好,奖励曲线波动较大,在340轮之后才不会出现平均奖励值变为负数的情况,通过两110㊀郭洪宇,等:基于深度强化学习潜艇攻防对抗训练指挥决策研究第44卷图8㊀奖励值曲线图9㊀决策步数曲线组实验的对比,损失函数的改进可以将平均奖励值提高18%左右,决策步数下降10%左右,潜艇智能体对反潜规则体的胜率提高了27%左右㊂从图8和图9中增强反潜规则体继承实验的曲线可以看出,智能体经过200轮的训练后,逐渐稳定收敛,奖励值稳定在14分左右,相比于继承前的损失函数改进实验第390轮模型,奖励值提高18%,决策步数下降9%,智能体的攻击性得到加强,与规则体对战的胜率达到90%以上,实现了对潜艇智能体决策模型的进一步优化㊂5㊀结束语本文针对潜舰机攻防对抗非对称性的特点,构建了潜艇智能体决策模型和多决策行动方案的协同反潜规则体模型,提出的两种PPO算法增强改进机制,通过潜艇决策智能体和协同反潜规则体间的互博弈对抗,利用深度强化学习分布式训练框架实现了潜艇的智能指挥决策㊂通过仿真实验,验证了潜艇决策智能体培育方法和决策引导体系的有效性;在对比实验中,验证了损失函数的改进能够加快算法的收敛速度,提高训练的稳定性,增强潜艇智能体的指挥决策能力;在继承实验中,证实了经过对反潜规则体的增强和对潜艇智能体的继承实现,可以培育具有更高智能决策能力的潜艇智能指挥决策模型,为军事智能体的培育和潜艇作战辅助决策提供了技术参考㊂。
贾宏宇,博士研究生,现在主要的研究方向为自动控制理论的应用,DCS 、FCS 、CIMS 以及异地制造系统和监控软件的体系结构、设计方法、总体规划和仿真应用。
施仁,西安交通大学自动控制系教授、博导,现在主要研究方向为自动控制理论的应用,DCS 、FCS 、CI MS 以及异地制造系统的理论研究与设计实现。
收稿日期:1998-05-13第16卷 第3期计 算 机 仿 真1999年7月过程自动化仿真系统贾宏宇 施 仁(西安交通大学自动控制系,710049)摘要 介绍了作者研制成功并投入实际应用的一套易扩展、易移植、开放性的过程自动化仿真系统,该仿真系统包含了从过程自动化模型对象的生成到运行的各个环节,为灵活、方便、有效地进行生产过程自动化的操作培训和仿真研究提供了一套先进实用的工具。
文章就该仿真系统的体系结构、性能特征、设计原理和经济效益等方面进行了分析。
关键词 过程自动化 仿真 面向对象1 前言随着生产的发展和自动化程度的提高,对操作人员和管理人员的要求越来越高,如何有效地进行岗前培训,降低生产过程中的事故发生率,提高对意外事故的应变处理能力,成了生产发展的一个重要问题。
另一方面,由于生产规模的扩大和复杂程度的提高,对系统安全经济运行指标和性能要求的提高,需要工程师对系统进行深入研究,然而由于在实际的生产过程中不可能做过多的实验,因此建立数学模型进行仿真研究就成为了重要的研究手段。
本仿真系统的研制与开发就是为了解决上述两个问题,给过程自动化中的操作培训和仿真研究提供一套先进实用的工具。
2 仿真系统的体系结构:本仿真系统硬件平台的基本配置为486以上的微型计算机,并配有4M 以上内存及显示器、打印机和键盘等外设;另外支持鼠标、触摸屏等辅助设备。
为了具有良好的仿真效果,本系统具有过程控制系统的所有基本功能:数据通信、报警处理、控制算法、趋势记录、报表的生成与打印、流程图的显示和动态刷新以及友善的人机交互,系统运行中需要同时完成多个任务的处理,故需要选择多任务操作系统。
另外,系统运行过程中,需要进行大量的数据处理,故应当选择保护模式的操作系统,以突破实模式下640KB 的内存限制。
Windows 是目前微机上流行的多任务操作系统,并且运行于保护模式,可以对应用程序透明地完成大内存的管理,所以选择Windows 操作系统作为系统开发和实际运行的软支撑平台。
该仿真系统的软件部分包括组态软件包和实时运行软件包两大部分。
组态软件包用于完成模型对象的结构、功能等的描述性定义,例如,工位的数量及名称,通信的协议,报警的阈值,趋势记录的周期,报表、流程图的格式等等。
实时运行软件包根据组态软件包生成的组态信息数据库,自动生成总貌、报警、趋势等各种过程控制画面,执行模型对象的仿真控制运行。
整个系统的软件构成如图1所示:图1 仿真系统软件构成图3 仿真系统的功能及设计原理311 仿真对象的生成对于过程控制而言,生成模型对象即完成控制系统的仿真组态。
首先必须进行控制系统中工位和通信协议的仿)37)真定义,在这些定义完成的基础上才能进行其它功能模块的组态,并且所有其它模块的组态都以工位名称作为索引。
为了保证组态信息的正确快速查询,对工位名称采用两种搜索路径并相互验证。
报警组态主要完成报警信息的显示格式和存储数量的组态;调整画面组态主要完成工位的类型、级别、单位、量程、报警极限、报警处理等组态内容;控制算法组态主要进行控制算法的定义和控制算法的选择;分组画面组态主要完成相互关联的工位的集中显示说明;趋势图组态主要完成趋势图记录周期、工位名称和所记录数据类型的说明;流程图组态主要完成生产工艺流程图的用户自定义绘制及与相关工位的关联定义;报表组态主要供用户生成自定义格式的生产报表及定义报表的打印方式、打印时间等。
最后,组态完成模型系统操作级别和口令的设置。
组态软件包的设计可以采用填表方式或图形生成方式,考虑到人机交互的友善性,本仿真系统采用了图形化的方式生成组态信息数据库。
312仿真对象的运行仿真模型对象的运行,即根据组态时生成的组态信息数据库,执行模型对象的仿真运行控制,其中包括总貌画面、报警画面、分组画面、调整画面、趋势画面、流程图画面、报表画面、工艺数据汇总和系统维护画面共9种画面,给用户提供一个完整的工业过程控制仿真运行环境。
在仿真运行的过程中,象历史数据存盘这样的任务,其完成过程是比较费时的,所以在设计本仿真系统时,设计了一个能完成实时调度任务的核心功能模块,把诸如磁盘读写等费时操作通过消息驱动的方式交由其他模块来完成,这些模块在完成上述操作的过程中,随时检测高优先级消息的到来,一旦发现,应立即暂时放弃当前任务,把CPU的控制权让给核心模块以完成实时调度,然后再继续执行被暂停的任务。
实践表明,这种设计策略是正确的,用户根本觉察不到其中的变化,并且上述任务被暂停的可能性很小,故这种设计对系统的运行和人机界面的友善不会带来什么不良的影响,而提高了系统的实时响应性能。
4仿真系统的开发方法411面向对象程序设计方法(OOP)的应用面向对象的程序设计方法是软件设计方法上的一次重大改进,通过把与对象有关的数据和对数据的操作封装起来,可以使我们以比较直观的方式来认识和描述客观事物。
在本仿真系统的开发过程中,采用了面向对象的方法,通过把不同的功能模块封装到不同的类中,简化了程序设计过程中遇到的各种错综复杂的关系,而且概念清晰,在实际运行中也可以方便地实现系统功能的加载和卸载。
412开放性的体系结构设计为了增强系统的通用性和适应能力,使系统具有开放性的体系结构是至关重要的。
在本仿真系统中,除了本身提供一定的控制算法以外,为了能容易地加挂别的控制算法软件包,在系统中提供了动态数据交换(DDE)、动态链接库(DLL)、网络通信等开放性接口,通过这些接口(或经过适当的转换),可以很容易地加挂例如模型优化、复杂控制等的先进控制算法软件包,从而很好地实现了实际工业过程控制的仿真功能,为仿真培训和仿真研究提供了一个良好的仿真环境,同样为构建大型的计算机集成制造系统(CIMS)的仿真环境打下了坚实的基础。
413操作性设计一个优秀的软件不仅要实现预定的功能,而且要具有良好的人机接口界面。
在本仿真系统的设计中,根据仿真对象的实际情况,摒弃了常见的办公自动化(OA)软件中所采用的标题条、菜单条、工具条和状态条等界面,而采用了工业控制现场常见的黑色背景屏幕,更好地达到了仿真的目的。
另外,为了方便用户的操作,系统中提供了多种操作方式,例如键盘、鼠标、触屏等,并依据操作简易方便的设计原则,所有操作都一触完成。
5仿真系统的实际应用作者设计的这套过程自动化仿真系统,经实际运行表明,仿真效果良好,可以大大缩短操作人员和管理人员的岗前培训周期,并为过程控制的仿真研究提供了一个良好的环境,具有显著的经济效益。
图2即取自一个仿真系统运行时的调整画面(为了打印的清晰起见,画面被反色处理)。
6结束语本文所介绍的过程自动化仿真系统,旨在为工业过程控制提供一个高效、方便的仿真培训和研究环境,实际表明,这一目标基本实现。
最后,作者想要说明的一点是,由于本系统中采用的开放性设计,通过加挂一定的通信模块和其它特定模块,该系统可以作为上层软件构建实际的集散控制系统(DCS),实际系统已在北京燕山石化二厂等地方得到了具体应用。
参考文献1黄步余1分散控制系统在工业过程中的应用1中国石化出版社2王子才1控制系统设计手册1国防工业出版社3张国峰1Windows应用程序设计原理、方法和技巧1电子工业出版社)38 )图2仿真系统调整画面Process Automation Simulating SystemJia Hongyu,Shi Ren(Automatic Control Department,Xi.an JiaoTong Uni versity,710049)ABSTRACT T his article introduces a successful Process Automation Simulating System developed by the author and pu t into practical us-ing.Thi s sys tem contains the chains from building the process automation module to running the module.It ai ms at providing an advanced tool for easy and convenient cultivati ng and simulating research.This article analyses the system.s structure,functions,the design principle and the economic efficiency.KEY WORDS Process automation Simulating Object oriented(上接第21页)VRML)))The Criterion for Virtual Reality on InternetHe Feng Xie Zhonghong Ang Haisong(Nanji ng Uni versity of Aeronautics and Astronautics,210016)ABSTRACT In the domain of today.s i nternet,the Vrtual Reality(VR)has become a hot topic.As a trans mutting and discrip ting criterion for3D file,VRML(Virtual Reali ty Modelling Language)has maken it possible for VR on internet.In this paper,the deleloping process and composition of VRML,as well as how to programme with VRML are intruduced.At last the prospective aplication of VRML is put forward. KEY WORDS Virtual reality VRML In ternet World wide web))39。