基于多智能体系统的动力学与非线性控制
- 格式:docx
- 大小:37.60 KB
- 文档页数:5
《多智能体系统的几类编队控制问题研究》一、引言多智能体系统由多个可以互相通信与合作的智能体组成,其应用领域广泛,包括无人驾驶车辆、无人机群、机器人集群等。
编队控制是多智能体系统研究的重要方向之一,它通过协调各智能体的运动,实现整体协同的编队行为。
本文将针对多智能体系统的几类编队控制问题进行研究,旨在为相关领域的研究与应用提供理论支持。
二、多智能体系统编队控制基本理论编队控制是多智能体系统协同控制的核心问题之一,它要求各智能体在动态环境中协同完成任务,形成特定的几何形状或空间布局。
编队控制的基本理论包括编队结构、通信机制、协同策略等。
编队结构是编队控制的基础,它决定了智能体的空间布局和运动轨迹。
常见的编队结构包括线性编队、环形编队、星形编队等。
通信机制是实现智能体之间信息交互的关键,它包括无线通信、视距通信等多种方式。
协同策略则是根据任务需求和系统状态,制定合适的控制策略,实现编队的稳定性和灵活性。
三、几类多智能体系统编队控制问题研究1. 固定环境下多智能体编队控制问题在固定环境下,多智能体需要形成稳定的编队结构,并按照预定的路径进行运动。
针对这一问题,可以采用基于规则的编队控制方法、基于优化的编队控制方法等。
其中,基于规则的编队控制方法通过设计合适的规则,使智能体根据自身状态和邻居状态进行决策;基于优化的编队控制方法则通过优化算法,求解最优的编队结构和控制策略。
2. 动态环境下多智能体编队跟踪问题在动态环境下,多智能体需要实时调整编队结构,以适应环境变化。
针对这一问题,可以采用基于领航者的编队跟踪方法、基于分布式控制的编队跟踪方法等。
其中,基于领航者的编队跟踪方法通过领航者引导智能体进行运动;而基于分布式控制的编队跟踪方法则通过分布式控制器实现各智能体的协同运动。
3. 异构多智能体编队控制问题异构多智能体系统中,各智能体的性能、能力等存在差异。
针对这一问题,需要研究异构智能体的协同策略、任务分配等问题。
基于多智能体技术的复杂系统控制研究随着科技的发展,人类能够逐渐掌握和利用更加复杂的系统和环境,而多智能体技术的出现,进一步推动了这一进程。
多智能体技术是指利用多个智能体之间的协作和交互,解决复杂系统控制问题的一种技术手段。
本文将探讨基于多智能体技术的复杂系统控制研究。
一、多智能体技术的应用及优势多智能体技术可以应用于多种领域,如自动驾驶、机器人控制、智能家居等。
其中,自动驾驶是多智能体技术最为广泛应用的领域之一。
在自动驾驶中,多个智能体配合工作,通过传感器获取环境信息,进行决策和执行行动,实现车辆的自动驾驶。
相比传统的单一智能体控制系统,多智能体系统有明显的优势。
首先,多智能体系统可以更好地应对复杂的非线性系统问题。
其次,多智能体系统可以通过协作和分工,提升整个系统的效率和鲁棒性。
第三,多智能体系统可以对系统进行即时调整和优化,较好地应对系统变化和异常情况。
二、多智能体技术的基本原理多智能体技术的核心在于智能体之间的协调与交互。
智能体是指具有感知、决策和执行能力的实体,如机器人、车辆、传感器等。
多个智能体通过交换信息,协同完成任务。
多智能体技术包含三个基本模块:感知模块、决策模块和执行模块。
感知模块可以获取环境信息。
决策模块会根据当前的感知信息进行推理和判断,并生成相应的控制信号。
执行模块则负责根据控制信号,对系统进行相应操作。
除此之外,多智能体技术还包括智能体之间的通信和协作。
智能体之间可以通过不同的通信方式,传递信息和实现协作。
例如,无线通信、有线通信、近场通信和基于互联网的通信等。
三、多智能体技术在复杂系统控制中的应用多智能体技术可以应用于复杂系统的控制中,其中一个代表性应用是复杂网络控制。
复杂网络指由大量节点和边构成的网络,例如物联网、社交网络和交通网络等。
其中,节点代表网络中的实体,边代表它们之间的关系。
复杂网络控制的目标是通过设计控制策略,实现对网络整体行为的控制。
多智能体技术可以通过分布式控制和协调,实现对复杂网络的控制。
基于多智能体模型的复杂系统建模与仿真复杂系统是指由多个相互作用的部分组成,其中这些部分可能是物理系统、生物系统或社会经济系统等。
这些部分之间的相互作用会引起非线性效应,从而导致系统表现出复杂和难以预测的行为。
为了更好地理解和管理这类复杂系统,人们需要对其进行建模和仿真,这就需要借助多智能体模型。
多智能体模型是一种用于描述和探究多智能体行为的计算模型。
它基于多智能体的交互作用和协作行为,可以对多智能体的行为进行抽象和模拟。
在复杂系统中,多智能体模型可以被看作是一个解决方案,用来对系统进行分析和预测。
在多智能体模型中,每个智能体都有自己的行为和目标,同时也会受到其他智能体的影响和限制。
这种相互作用是多智能体模型的核心。
通过模拟这种交互作用,我们可以研究智能体之间的关系以及它们对系统整体行为的影响。
多智能体模型的应用非常广泛。
在物理系统中,多智能体模型可以用于描述粒子的运动和相互作用。
在生物系统中,它可以用于描述群体动力学和生态系统的演变。
在社会经济系统中,它可以用于描述市场的行为和决策制定。
在多智能体模型中,有一些关键性的参数需要被控制和调整。
这些参数包括智能体之间的距离、互动方式、速度和行动力度等。
通常,这些参数需要通过观测、实验或模拟来确定其最佳取值。
这就需要使用到基于多智能体的复杂系统建模和仿真。
建模和仿真是一种非常重要的工具。
通过建模和仿真,我们可以对系统行为进行预测和分析,从而能够更好地优化系统性能、减少风险,并提高决策的准确性。
在多智能体模型的建模和仿真中,有一些常用的技术和方法。
这些技术和方法包括网格离散化、决策树、神经网络、遗传算法等。
这些方法可以用于处理不同类型的任务和目标,例如最优路径规划、机器人协作和投资决策等。
在多智能体模型的建模和仿真中,还要考虑一些其他因素。
例如,需要关注智能体之间的相互影响,以及智能体对系统总体行为的影响。
在进行建模和仿真时,需要考虑系统整体的动态性和不确定性,从而能够更好地理解和管理复杂系统。
第38卷第8期2021年8月控制理论与应用Control Theory&ApplicationsV ol.38No.8Aug.2021基于预估器的一类多智能体系统神经动态面输出一致控制杨杨†,刘奇东,陈笛笛,岳东,窦春霞(南京邮电大学自动化学院;人工智能学院,江苏南京210023)摘要:本文针对一类含未知扰动与非对称输入饱和的非线性多智能体系统,提出基于预估器的神经动态面输出一致控制策略.在设计预估器的基础上构造预估误差,驱动神经网络更新权值估计系统未知动态,并将预估器与神经网络应用于非线性扰动观测器来补偿广义扰动.本文所提出的控制策略采用神经网络权值范数学习方法,减少学习参数数目.对于非对称的输入饱和,设计辅助系统,其生成的辅助变量与反步法相结合补偿输入限制.结合图论知识和Lyapunov函数等技术,证明多智能体系统的输出一致跟踪误差以及闭环系统中的所有信号最终有界.最后通过一组四旋翼飞行器和数值仿真验证提出控制策略的有效性.关键词:预估器;神经网络;动态面控制;扰动;多智能体系统引用格式:杨杨,刘奇东,陈笛笛,等.基于预估器的一类多智能体系统神经动态面输出一致控制.控制理论与应用,2021,38(8):1197–1212DOI:10.7641/CTA.2021.10047Predictor-based neural dynamic surface output consensus control ofa class of nonlinear multi-agent systemsYANG Yang†,LIU Qi-dong,CHEN Di-di,YUE Dong,DOU Chun-xia(College of Automation;College of Artificial Intelligence,Nanjing University of Posts and Telecommunications,Nanjing Jiangsu210023,China) Abstract:For a class of nonlinear multi-agent systems(MASs)with unknown disturbances and nonsymmetric input saturations,we propose a predictor-based neural dynamic surface output consensus control strategy in this paper.Based on the design of a predictor,weights of neural networks(NNs)are updated by prediction errors,and NNs are for estimation of unknown dynamics.A nonlinear disturbance observer is then developed by the predictor and NNs,and it is for compen-sation of generalized disturbances.The number of learning parameters in the proposed strategy is reduced by the norm of NNs’weights.As for nonsymmetric input saturation,an auxiliary system is bined with the framework of backstepping,this auxiliary system generates signals to compensate saturation.With the help of graph theory and Lyapunov functions as well as other technology,it is proven that the output consensus tracking error of the MAS and all signals in the closed-loop system are ultimately bounded.Finally,the effectiveness of the proposed control strategy is verified by an example of a team of qurdrotor unmanned aerial vehicles(UA Vs)and a numerical simulation.Key words:predictor;neural networks;dynamic surface control;disturbance;multi-agent systemCitation:YANG Yang,LIU Qidong,CHEN Didi,et al.Predictor-based neural dynamic surface output consensus control of a class of nonlinear multi-agent systems.Control Theory&Applications,2021,38(8):1197–12121引言近年来,多智能体系统在各领域广泛应用,如多无人机系统[1]、船舶编队[2]、微电网系统[3]等.此类系统的研究受到控制领域普遍关注.对于含未知动态的多智能体系统输出一致问题,学者们取得部分研究成果[4–10].该问题主要研究多智能体输出一致情况,对于一类含有未知动态的非线性多智能体系统,广泛采用自适应学习方法逼近不确定动态,如模糊逻辑系统[4–5]和神经网络技术[6–10]等.以这类自适应逼近方法为框架,学者们进一步研究一收稿日期:2021−01−13;录用日期:2021−03−29.†通信作者.E-mail:***************.cn;Tel.:+86189****8267.本文责任编委:柯良军.国家自然科学基金项目(61873130,61833008,61833011),江苏省自然科学基金项目(BK20202011,BK20191377),南京邮电大学“1311人才计划”,南京邮电大学校级科研基金项目(NY220102,NY220194,2020XZZ11),江苏省研究生科研与实践创新计划项目(SJCX210292)资助.Supported by the National Natural Science Foundation of China(61873130,61833008,61833011),the Natural Science Foundation of Jiangsu Province of China(BK20202011,BK20191377),the1311Talent Project of the Nanjing University of Posts and Telecommunications and the NUPT (NY220102,NY220194,2020XZZ11)and the Postgraduate Research&Practice Innovation Program SF of Jiangsu Province(SJCX21 0292).1198控制理论与应用第38卷致问题中的输入扰动[5]、拓扑切换[6–7]、执行器故障[8]等复杂情况.为了减少多智能体系统中神经网络学习参数的数目,Yoo等学者提出了基于最少学习参数的神经动态面输出一致控制方法[9–10].但上述输出一致控制方法[6–10]均未考虑神经网络逼近性能对控制效果的影响.对于神经网络的逼近性能,较多学者展开了研究.在传统神经网络动态面控制方法设计中使用误差面更新神经网络权值.一般情况下,需要选取较大自适应增益以获得更好的逼近效果,但这将导致信号出现较大抖动,影响系统的控制性能.为了解决这个问题, Peng等学者在文献[11]中构造的预估器状态与实际系统状态构成预估误差,用以更新网络权值.与传统的误差面信号更新方法[8]相比,该方法将系统辨识性能与跟踪效果分离,并增加额外参数调节收敛速度.在此基础上,文献[12]将预估器引入到系统各阶误差面估计中,并使用预估误差驱动自适应参数更新.文献[13]提出了复合神经网络学习方法,将跟踪误差和预估误差同时用于权值更新.但上述文献[11–13]中基于预估器的方法目前仅用于控制增益为1的一类严格反馈非线性系统,更复杂的系统模型暂未涉及.在实际系统中,智能体往往遭受外界未知扰动,亟需应对处理[14].为了降低非匹配扰动的影响,现有大多数非线性扰动观测器通过构建系统状态和中间变量差值相关的信息作为扰动补偿项[15–16].在此基础上,文献[17–18]分别将模糊逻辑和神经网络应用于扰动观测器中,与逼近技术相结合估计系统未知动态和外部扰动.但是文献[17–18]仍存在瞬态性能亟需改善和学习参数过多的问题.输入饱和是智能体遭受的另一类限制.若长时间处于输入饱和状态将损坏执行器机构,如电机、方向舵等.文献[19]构造了实际输入与期望输入之差的补偿函数以消除非线性输入约束的影响.为了补偿不确定非线性系统的非对称输入饱和,文献[20]设计了包含输入饱和误差的高阶辅助系统,并将其引入至反步法设计中.虽然在文献[20]考虑了非对称输入饱和,但其辅助系统仍需估计未知的控制增益.结合以上研究成果,本文针对一类含未知扰动与非对称输入饱和的非线性多智能体系统,采用基于预估误差更新的神经网络、辅助系统以及图论知识,在反步法框架下设计自适应输出一致控制策略.本文的主要贡献有:1)提出一种基于预估误差更新的神经网络非线性扰动观测器.不同于传统神经网络使用误差面更新权值[10],本文提出由预估器产生的预估误差更新神经网络权值,避免由于选择不适当参数导致的高频抖动现象.2)为一类非线性多智能体系统提出一种基于预估误差更新的神经网络输出一致简捷控制策略.通过将神经网络权值范数化处理,减少学习参数个数.与文献[13]的控制方法相比,本文提出的输出一致控制策略中学习参数个数与神经网络隐含层节点数无关,仅仅取决于跟随者各自的系统阶数.从而减少了控制策略计算时间,易于实际工程应用.3)构造辅助系统补偿跟随者非对称输入饱和.辅助系统根据输入受制前后的偏差信号构建,阶数与跟随者相同,每阶辅助系统信号分别作用于反步法每一步虚拟控制律以及中间控制律中,以补偿非对称输入饱和.相比于文献[20]中的方法,本文设计的辅助系统应用至多智能体系统中,并且不需要估计未知控制增益函数,简化辅助系统的设计.2预备知识与问题描述2.1图论多智能体连接拓扑可以通过图G={V,E,A}来表示,图G包括了N个节点的集合V={1,···,N};节点边的集合E⊆V×V以及边权重矩阵A=[a ij]∈R N×N.当(j,i)∈E时,a ij=0;反之,a ij=0,其中: (j,i)∈E是指信息从j传递到i.邻居节点集N i={j| (j,i)∈E}表示与第i个节点相邻的节点集合.定义d Li =N∑j=1a ij以及D L=diag{d L1,···,d LN},Laplacian矩阵L定义为L=D L−A.当从i节点出发经过一条连续的边序列可到达j节点,则称这条边序列为一条直通路径.当一个图中的节点可以通过一条直通路径到达其他节点时称图包含生成树.对于包含一个领导者(记为0)和N个节点的增广图¯G可表示为¯G={¯V,¯E},其中,¯V={0,1,···,N},¯E⊆¯VׯV.权重边bi表示领导者与其他节点的连接关系:若相连,则b i=0;反之,b i=0.记B=diag{b1,···,b N}.2.2径向基神经网络本文采用径向基神经网络逼近系统中的未知非线性动态.对于一个光滑未知非线性函数f:R j→R,有理想权值使得f(x)=W∗Tβ(x)+ε,其中x∈Ωx ⊂R j,W∗=[w∗1···w∗l]T∈R l为网络理想权值向量,l为隐藏层节点数,ε为逼近误差,ε与其导数˙ε满足|ε| ε∗和|˙ε| ˘ε∗,ε∗和˘ε∗为未知正常数[28–29].β(x) =[β1(x)···βl(x)]T∈R l为激活函数向量.激活函数选择高斯函数βi(x)=1√2πξiexp[−(x−µi)T(x−µi)2ξ2i],µi=[µi,1···µi,j]T为激活函数中心值,ξi表示函数的中心值宽度.第8期杨杨等:基于预估器的一类多智能体系统神经动态面输出一致控制11992.3问题的提出考虑由一个领导者和N 个跟随者构成的多智能体系统,其中第i 个跟随者的动力学模型为˙x i,k =f i,k (¯x i,k )+g i,k (¯x i,k )x i,k +1+d i,k (t ),˙x i,n i =f i,n i (¯x i,n i )+g i,n i (¯x i,n i )u i +d i,n i (t ),y i =x i,1,i ∈V ,(1)其中:k =1,···,n i −1,¯xi,m =[x i,1···x i,m ]T ∈R m 是系统状态,m =1,···,n i ,y i ∈R 为系统输出,连续未知函数f i,m (¯xi,m )和g i,m (¯x i,m )分别表示非线性动态和控制增益,d i,m (t )为未知外部干扰,u i ∈R 为跟随者控制输入且受非对称输入饱和特性限制u i =sat(v i )=u i,max ,v i u i,max ,v i ,u i,min <v i <u i,max ,u i,min ,v i u i,min ,(2)其中:v i 是中间控制输入量,u i,max 和u i,min 分别是输入饱和的上下界.本文需要如下假设.假设1对于跟随者系统中的未知控制增益g i,m (¯xi,m ),有0<g min |g i,m (¯x i,m )| g max ,其中g min 和g max 为控制增益的上下界.假设2多智能体系统含有一个领导者,且其拓扑图¯G是以领导者为根节点的生成树.假设3第i 个跟随者能获得相连领导者y r 和˙y r信息,以及邻居跟随者的输出信号x j,1,i ∈V ,j ∈N i .假设4[28]系统所受外部扰动d i,m (t )及其导数˙d i,m (t )有界,且满足|d i,m (t )| d ∗i,m 和|˙d i,m (t )| ˘d ∗i,m ,d ∗i,m 和˘d ∗i,m为未知正常数.注1由于g i,m 是连续函数,假设1表明g i,m 严格正或者严格负,以防止出现g i,m =0系统不可控的情况.在本文中,笔者主要考虑g i,m >0的情形.在数学上,g i,m <0时可用相同的方式处理,仅为简单的数学变换.不失一般性,本文仅考虑g i,m >0.由假设2可知,矩阵H =L +B 非奇异[21].假设2是确保多智能体系统能够达到输出一致的前提.本文中领导者信号y r 光滑有界,其对时间导数˙y r有界.定义领导者与跟随者之间的输出一致跟踪误差e =y −(y r ⊗I N ),其中,y =[y 1···y N ]T ,⊗为Kronecker 积,I N 是N 维单位向量.若该误差能够收敛至原点的小邻域内,则称该多智能体系统达到输出一致.本文的控制目标是设计自适应控制策略,使得多智能体系统达到输出一致,且闭环系统中所有信号最终有界.定义第i 个跟随者的协同跟踪误差z i,1=∑j ∈N ia ij (x i,1−x j,1)+b i (x i,1−y r ),(3)并记作z 1=[z 1,1···z N,1]T .根据图论知识,有z 1=(L +B )e =Hee .(4)为了方便控制策略设计,转换跟随者(1)˙x i,k =F i,k (¯x i,k +1)+x i,k +1+d i,k (t ),˙x i,n i =F i,n i (¯x i,n i ,u i )+u i +d i,n i (t ),y i =x i,1,i ∈V ,(5)其中:F i,k (¯xi,k +1)=f i,k (¯x i,k )+g i,k (¯x i,k )x i,k +1−x i,k +1,k =1,···,n i −1,F i,n i (¯xi,n i ,u i )=f i,n i (¯x i,n i )+g i,n i (¯x i,n i )u i −u i .对于式(5)变化可知系统的未知动态和未知控制增益可以通过一个神经网络进行逼近,但是这会使得反步法设计控制律时会出现代数环问题[22].为了解决此问题,引入一个滤波信号,则式(5)可重新表示为˙x i,k =F i,k (¯x i,k ,x i,k +1,f )+x i,k +1+d i,k (t )+∆F i,k ,˙x i,n i =F i,n i (¯x i,n i ,u i,f )+u i +d i,n i (t )+∆F i,n i ,y i =x i,1,i ∈V ,(6)其中:∆F i,k =F i,k (¯xi,k +1)−F i,k (¯x i,k ,x i,k +1,f ),∆F i,n i =F i,n i (¯xi,n i ,u i )−F i,n i (¯x i,n i ,u i,f ).注意有x i,k +1,f 和u i,f 是滤波信号:x i,k +1,f =H L (s )x i,k +1≈x i,k +1,u i,f =H L (s )u i ≈u i ,其中H L (s )为Butterworth 低通滤波器,具体细节可参阅文献[22].定义滤波误差¯δi,k +1=x i,k +1,f −x i,k +1,k =1,···,n i −1,¯δi,n i=u i,f −u i ,根据文献[22],其满足|¯δi,k | ¯δ∗i,k,其中¯δ∗i,k 是未知有界正常数.注2对于存在的代数环问题实质上就是所设计的控制策略等号两边同时出现同一信号.解决这个问题的方法之一是引入一个滤波信号来代替原信号,以避免代数环问题.由于实际系统中大多数物理执行器具有低通特性,因此可选用一个合适的Butterworth 低通滤波器获得滤波信号.类似的处理方法可参阅文献[22].给出本文所需引理.引理1(Young 不等式)存在a ∈R n ,b ∈R n ,ϕ>0,α>1和β>1使得(α−1)(β−1)=1,则有a Tb ϕαα∥a ∥α+1βϕβ∥b ∥β成立.1200控制理论与应用第38卷注3本文中选取参数α=2和β=2,则有a T b¯ϕ2∥a∥2+12¯ϕ∥b∥2,其中¯ϕ是一个可选择正常数.3基于预估器以及扰动观测器的神经网络自适应控制策略设计3.1控制策略设计针对控制信号受限的第i个跟随者,引入辅助系统补偿输入饱和.由κi=[κi,1···κi,n i]T构成辅助系统,表示为˙κi,1=(d Li+b i)κi,2−p i,1κi,1,˙κi,k=κi,k+1−p i,kκi,k,k=2,···,n i−1,˙κi,ni=∆u i−p i,n iκi,n i,(7)其中:p i,1,p i,k,p i,ni是设计的正常数,∆u i=u i−v i.注4与文献[20]提出的辅助系统有所不同的是,在式(7)中加入了系数d L i+b i.这是第i个跟随者及其相连智能体通信拓扑关系的结果.此外,由于跟随者i系统模型的转换(5),移除了辅助系统中对控制增益的估计.注5辅助系统根据输入受制前后的偏差信号构建,其信号κi,k作用于每一步的虚拟控制律αi,k+1(或中间控制律v i)中来补偿输入饱和现象.当系统未进入饱和上下界时,∆u i=0,根据初值κi,k(0)=0,辅助系统在控制策略中未起任何作用.当输入饱和现象发生时,∆u i=0,辅助系统将产生辅助信号通过作用在虚拟控制律αi,k+1(或中间控制律v i)中补偿.需要说明的是,由于误差面定义中存在辅助系统信号,在确定协同误差时需额外分析辅助系统补偿信号的界限.本文在反步法框架下设计协同控制策略,具体第i 个跟随者的控制策略设计步骤:第1步根据式(3)定义跟随者i的第1步误差面˘z i,1=∑j∈N ia ij(x i,1−x j,1)+b i(x i,1−y r)−κi,1,其导数有˙˘z i,1=(d Li+b i)[F i,1(x i,1,x i,2,f)+x i,2+d i,1+∆F i,1]−∑j∈N ia ij˙x j,1−b i˙y r−(d Li+b i)κi,2+p i,1κi,1,(8)对于上式中的F i,1(x i,1,x i,2,f)用神经网络逼近,有F i,1(x i,1,x i,2,f)=W*Ti,1βi,1(x i,1,x i,2,f)+εi,1,其中εi,1为逼近误差.则式(8)为˙˘z i,1=¯b i(W*Ti,1βi,1+x i,2+D i,1+∆F i,1)−∑j∈N ia ij˙x j,1−b i˙y r−¯b iκi,2+p i,1κi,1,(9)其中:¯b i=d L i+b i,D i,1=εi,1+d i,1.D i,1称为广义扰动,其包含外部扰动d i,1和神经网络逼近误差εi,1.为了消除广义扰动对系统的影响,设计非线性扰动观测器ˆDi,1=c di,1(ˆx i,1−ˆd i,1),˙ˆd i,1=ˆλi,1Φi,1˜x i,1+x i,2+c Di,1ˆDi,1+¯c di,1˜x i,1,(10)其中:¯c di,1=c−1d i,1−(c i,1¯b i+c p i,1),c d i,1,c D i,1,c i,1和c pi,1为设计的正常数,˜x i,1=ˆx i,1−x i,1.ˆx i,1来自状态预估器˙ˆxi,1=ˆλi,1Φi,1˜x i,1+x i,2−(c i,1¯b i+c p i,1)˜x i,1+ˆD i,1,(11)其中ˆλi,1是对λ∗i,1=−∥W∗i,1∥2的估计,其自适应律为˙ˆλi,1=Γi,1(−Φi,1˜x2i,1−ζi,1ˆλi,1),(12)Φi,1=βTi,1βi,1/(4γ2i,1),Γi,1,ζi,1和γi,1是设计的正常数.根据假设3,可知式(8)中出现的邻居输出导数˙x j,1无法直接获取,使用跟踪微分器[23]˙r j,1=r j,2,˙r j,2=−k2TD,jsgn(r j,1−x j,1)|r j,1−x j,1|αTD,j−k TD,j r j,2(13)估计˙x j,1,其中,k TD,j和αTD,j是设计常数,应满足k TD,j>0和0<αTD,j<1,邻居跟随者的输出信息x j,1,即y j为跟踪微分器的输入,r j,1和r j,2分别重构x j,1和˙x j,1.给出第1步的虚拟控制律αi,2=−ˆλi,1Φi,1˜x i,1−c i,1˘z i,1−ˆD i,1+1¯bi(∑j∈N ia ij r j,2+b i˙y r−p i,1κi,1).(14)为了避免常规反步法对虚拟控制量求导复杂问题,引入动态面控制技术,虚拟控制律αi,2经过一阶滤波器ηi,2˙x i,2d+x i,2d=αi,2,x i,2d(0)=αi,2(0)(15)得到x i,2d,其中ηi,2是滤波器时间常数.注6在现有的关于多智能体系统输出一致的文献[9]中,由于控制设计需要,式(8)中出现的不易获得的邻居输出信号导数˙x j,1,通常从系统模型入手将其转换为关于x j,2的函数.这就意味着每个跟随者需要获取邻居信息x j,1和x j,2,将增加智能体间的通信量,且实际中x j,2本身亦有可能无法直接获得.为了避免出现这些情况,本文使用微分跟踪器通过x j,1信息来估计出˙x j,1的值设计控制策略.第k步(k=2,···,n i−1)定义第k步误差面˘z i,k =x i,k−x i,kd−κi,k,其导数有˙˘zi,k=F i,k(¯x i,k,x i,k+1,f)+x i,k+1+d i,k+第8期杨杨等:基于预估器的一类多智能体系统神经动态面输出一致控制1201∆F i,k −˙x i,kd −κi,k +1+p i,k κi,k .(16)对式(16)中的未知函数F i,k (¯xi,k ,x i,k +1,f )使用神经网络逼近F i,k (¯x i,k ,x i,k +1,f )=W *T i,k βi,k (¯xi,k ,x i,k +1,f )+εi,k ,其中εi,k 为逼近误差.则式(16)为˙˘z i,k =W *T i,k βi,k+x i,k +1+D i,k +∆F i,k −˙x i,kd −κi,k +1+p i,k κi,k ,(17)其中广义扰动D i,k =εi,k +d i,k .与前述步骤类似,为了消除外部干扰以及逼近误差等带来的影响,设计非线性扰动观测器ˆD i,k =c d i,k (ˆx i,k −ˆd i,k ),˙ˆd i,k =ˆλi,k Φi,k ˜x i,k +x i,k +1+c D i,k ˆD i,k +¯c d i,k ˜x i,k ,(18)其中:ˆDi,k 是D i,k 的估计,c d i,k 和c D i,k 为设计的正常数,ˆλi,k 是λ∗i,k =−∥W ∗i,k ∥2的估计,Φi,k =βT i,k βi,k/(4γ2i,k ),γi,k 为设计的正常数,¯c d i,k =c −1d i,k −(c i,k +c p i,k ),˜x i,k =ˆx i,k −x i,k ,信号ˆx i,k 来自状态预估器˙ˆx i,k =ˆλi,k Φi,k ˜x i,k +x i,k +1−(c i,k +c p i,k )˜x i,k +ˆDi,k ,(19)其中:c i,k 和c p i,k 是设计的正常数,自适应参数ˆλi,k 的变化律将在下文虚拟控制律中给出.给出第k 步的虚拟控制律αi,k +1=−ˆλi,k Φi,k ˜x i,k −c i,k ˘z i,k −ˆz i,k −1+˙x i,kd −ˆDi,k −p i,k κi,k ,(20)以及自适应律˙ˆλi,k =Γi,k (−Φi,k ˜x 2i,k −ζi,k ˆλi,k ),(21)其中:Γi,k 和ζi,k 为设计的正常数,ˆz i,k −1=ˆx i,k −1−x i,(k −1)d −κi,k −1.将虚拟控制律αi,k +1通过一阶滤波器得到信号x i,(k +1)d ,ηi,k +1˙x i,(k +1)d +x i,(k +1)d =αi,k +1,(22)其中ηi,k +1是时间常数,滤波器的初始状态满足x i,(k +1)d (0)=αi,(k +1)(0).注7扰动观测器ˆDi,k 所逼近的不仅仅是跟随者系统受到的外部扰动d i,k ,还有神经网络逼近误差εi,k ,本文将其统称为广义扰动D i,k =εi,k +d i,k .这使得扰动观测器在补偿外部扰动时还可以补偿神经网络的逼近误差,系统动态重构更加准确.第n i 步定义误差面˘z i,n i =x i,n i −x i,n i d −κi,n i ,其导数有˙˘z i,n i =F i,n i(¯x i,n i ,u i,f )+v i +d i,n i +∆F i,n i −˙x i,n i d +p i,n i κi,n i .(23)对于上式中的F i,n i (¯xi,n i ,u i,f )使用神经网络F i,n i (¯x i,n i ,u i,f )=W *T i,n i βi,n i (¯xi,n i ,u i,f )+εi,n i 逼近,其中εi,n i 为逼近误差.则式(23)为˙˘z i,n i =W *T i,n i βi,n i +v i +D i,n i +∆F i,n i −˙x i,n i d +p i,n i κi,n i ,(24)其中广义扰动D i,n i =εi,n i +d i,n i .构造非线性扰动观测器ˆD i,n i =c d i,n i (ˆx i,n i −ˆd i,n i ),˙ˆd i,n i =ˆλi,n i Φi,n i ˜x i,n i +u i +c D i,n i ˆD i,n i +¯c d i,n i ˜x i,n i ,(25)其中:c d i,n i 和c D i,n i 为设计的正常数,ˆDi,n i 是D i,n i 的估计,ˆλi,n i 是对λ∗i,n i=−∥W ∗i,n i∥2的估计,Φi,n i=βT i,n i βi,n i /(4γ2i,n i),γi,n i为正的设计常数,¯c d i,n i =c −1d i,n i −(c i,n i +c p i,n i ),˜x i,n i =ˆx i,n i −x i,n i ,信号ˆx i,n i来自状态预估器˙ˆx i,n i =ˆλi,n i Φi,n i ˜x i,n i+u i −(c i,n i +c p i,n i )˜x i,n i +ˆDi,n i ,(26)其中c i,n i 和c p i,n i 为设计正常数.最后,给出中间控制律v i =−ˆλi,n i Φi,n i ˜x i,n i−c i,n i ˘z i,n i −ˆz i,n i −1+˙x i,n i d −ˆDi,n i −p i,n i κi,n i(27)和自适应律˙ˆλi,n i =Γi,n i (−Φi,n i ˜x 2i,n i −ζi,n i ˆλi,n i ),(28)其中:Γi,n i 和ζi,n i 均是设计的正常数,ˆz i,n i −1=ˆx i,n i −1−x i,(n i −1)d −κi,n i −1.由此递归设计,第i 个跟随者的控制策略框图如图1所示.注8一般情况下,为获得较好的跟踪效果,自适应增益参数一般选取得较大[11],但过大的不适当参数将导致高频抖动现象,主要出现在系统运行初始状态或系统动态发生突变时.这是由于在初始状态或动态突变时,系统跟踪误差相对较大,而基于跟踪误差学习的方法因为过大的自适应增益会进一步导致系统超调过大,出现抖动现象.本文用预测误差˜x i,k 来更新权值,将扰动、系统动态学习与跟踪效果分离,分为两个时间尺度,通过设计预估器初值和调节预估器增益使得预估误差具有更快的收敛速度,避免高频抖动现象.注9本文使用一个自适应参数ˆλi,k 来估计神经网络的权值范数,减少了控制策略所需要的学习参数数量.具体说,单个跟随者中,本文学习参数与隐含层节点数l i,k 无关,只需n i 个.对比地看,文献[13,28]扰动观测器设计中使用传统1202控制理论与应用第38卷神经网络逼近系统动态,将会有n i ∑k =1l i,k 个学习参数,其中l i,k为第i 个跟随者的第k 阶子系统所用神经网络的隐藏层节点个数.进一步推广,扩展到整个多智能体系统中,文献[13,28]中神经网络学习参数增加至N ∑i =1n i ∑k =1l i,k ,而本文的控制策略中学习参数仅有N ∑i =1n i 个.控制策略学习参数个数对比如表1所示.3.2稳定性分析为了方便系统稳定性分析,定义闭环控制系统误差信号图1第i 个跟随者控制策略框图Fig.1The block diagram of the i th follower第8期杨杨等:基于预估器的一类多智能体系统神经动态面输出一致控制1203ˆz i,1=∑j∈N ia ij(ˆx i,1−x j,1)+b i(ˆx i,1−y r)−κi,1,ˆz i,k=ˆx i,k−x i,kd−κi,k,q i,k=x i,kd−αi,k,k=2,···,n i以及˜x i,k=ˆx i,k−x i,k,˜D i,k=ˆD i,k−D i,k,˜λi,k=ˆλi,k−λ∗i,k,k=1,···,n i,i=1,···,N.表1控制策略学习参数个数对比Table1Comparison of the number of learningparameters文献[13,28]/个本文控制策略/个单个跟随者n i∑k=1l i,k n i多智能体系统N∑i=1n i∑k=1l i,kN∑i=1n il i,k为第i个跟随者第k阶子系统所用的神经网络隐藏层节点个数,N为跟随者个数以上信号对时间的导数分别为˙ˆzi,1=¯b i(ˆz i,2+q i,2−c i,1ˆz i,1−c p i,1˜x i,1−˜x i,2)−∑j∈N ia ijϖj,˙ˆzi,k=ˆz i,k+1+q i,k+1−c i,kˆz i,k−c p i,k˜x i,k−˜x i,k+1−ˆz i,k−1,k=2,···,n i−1,˙ˆzi,n i=−c i,niˆz i,ni−c p i,ni˜x i,ni−ˆz i,n i−1,˙q i,k+1=−q i,k+1ηi,k+1+B i,k+1(·),k=2,···,n i,(29)˙˜xi,1=ˆλi,1Φi,1˜x i,1+˜D i,1−(c i,1¯b i+c p i,1)˜x i,1−W*Ti,1βi,1−∆F i,1,˙˜xi,k=ˆλi,kΦi,k˜x i,k+˜D i,k−(c i,k+c p i,k)˜x i,k−W*Ti,kβi,k−∆F i,k,k=2,···,n i,˙˜Di,k=c di,k(1−c Di,k)ˆD i,k−˜x i,k−˙D i,k,k=1,···,n i,˙˜λi,k=Γi,k(−Φi,k˜x2i,k−ζi,kˆλi,k),k=1,···,n i,(30)其中ϖj=˙x j,1−r j,2.B i,k(·)=˙αi,k是一个连续函数,其定义可参考文献[11,21].为方便稳定性分析表述,定义ˆz i=[ˆz i,1···ˆz i,n i]T,ˆz=[ˆz T1···ˆz T N]T.类似地,˜x,˜D,q,˜λ分别为各自对应元素构成的列向量.下面给出本文的主要结果.定理1考虑由含扰动和非对称输入饱和的跟随者(1)构成的多智能体系统在满足假设1–4的情况下,设计基于预估误差更新的神经网络自适应控制策略(14)(20)(27),以及预估器(11)(19)(26),自适应律(12)(21)(28),扰动观测器(10)(18)(25),可使闭环系统中所有信号最终有界,且多智能体输出一致跟踪误差收敛到原点附近的邻域内.证选取Lyapunov备选函数V=N∑i=1V i,(31)其中V i=12n i∑k=1(ˆz2i,k+˜x2i,k+˜D2i,k+Γ−1i,k˜λ2i,k)+12n i−1∑k=1q2i,k+1,(32)由式(29)–(30),可得式(32)对时间的导数˙Vi=¯b iˆz i,1q i,2−¯b i c i,1ˆz2i,1−¯b i c p i,1ˆz i,1˜x i,1−¯biˆz i,1˜x i,2−ˆz i,1∑j∈N ia ijϖj−(c i,1¯b i+c pi,1)˜x2i,1+n i∑k=2(ˆz i,k q i,k+1−c i,kˆz2i,k−c p i,kˆz i,k˜x i,k−ˆz i,k˜x i,k+1−(c i,k+c p i,k)˜x2i,k)+n i∑k=1(ˆλi,kΦi,k˜x2i,k−W∗T i,kβi,k˜x i,k−˜x i,k∆F i,k−c d i,k(c D i,k−1)˜D i,kˆD i,k−˜Di,k˙Di,k−˜λi,kΦi,k˜x2i,k−ζi,k˜λi,kˆλi,k)+n i−1∑k=1(1ηi,k+1q2i,k+1+q i,k+1B i,k+1(·)).(33)根据假设4与神经网络逼近误差有界性,记D∗i,k =ε∗i,k+d∗i,k和˘D∗i,k=˘ε∗i,k+˘d∗i,k分别为广义扰动及其导数的上界.有下述不等式成立|ˆz i,1∑j∈N ia ijϖj| ˆz2i,1/2+(∑j∈N ia ijϖj)2/2,|˜D i,k˙D i,k| ˜D2i,k/2+˘D∗2i,k/2,−˜D i,kˆD i,k −˜D2i,k/2+D∗2i,k/2,−˜λi,kˆλi,k −˜λ2i,k/2+λ∗2i,k/2,|q i,k B i,k(·)| q2i,k/2+M2i,k/2,|˜x i,k∆F i,k| ˜x2i,k/2+(g max+1)2¯δ∗2i,k/2,其中M i,k是B i,k(·)的上界[11,21].由式(33)和λ∗i,k=−∥W∗i,k∥2,可得不等式−W*T i,kβi,k˜x i,k ˜λi,kΦi,k˜x2i,k−ˆλi,kΦi,k˜x2i,k+γ2i,k,1204控制理论与应用第38卷其中γi,k 为式(18)中设计的正常数.考虑引理1和上述不等式,式(33)可写为˙V i −(¯b i c i,1−(1+c p i,1)2¯b i −12)ˆz 2i,1−n i ∑k =2(c i,k −1−c p i,k 2)ˆz 2i,k −(¯c p i,1−¯b i c p i,12)˜x 2i,1−n i ∑k =2(¯c p i,k −1+c p i,k 2)˜x 2i,k −n i ∑k =1(¯c D i,k −12)˜D 2i,k −(1ηi,2−¯b i 2−M 2i,22)q 2i,2−n i −1∑k =2(1ηi,k +1−12−M 2i,k +12)q 2i,k +1−n i ∑k =1ζi,k 2Γ−1i,kΓ−1i,k ˜λ2i,k+12(∑j ∈N i a ij ϖj )2+n i −1∑k =1M 2i,k +12+n i ∑k =1(γ2i,k +D ∗2i,k 2+¯c Di,k 2˘D ∗2i,k +ζi,k 2λ∗2i,k ),(34)其中:¯c p i,k =c i,k +c p i,k ,¯c D i,k =c d i,k (c D i,k −1),k =1,···,n i ,i =1,···,N .选择参数满足χˆz i,1=¯b i c i,1−¯b i (1+c p i,1)/2−1/2>0,χˆz i,k =c i,k −1−c p i,k /2>0,k =2,···,n i ,χ˜x i,1=¯cp i,1−¯b i c p i,1/2>0,χ˜x i,k =¯cp i,k −(1+c p i,k )/2>0,k =2,···,n i ,χ˜D i,k =¯c D i,k −1/2>0,k =1,···,n i ,χq i,2=1/ηi,2−¯b i /2−M 2i,2/2>0,χq i,k +1=1/ηi,k +1−1/2−M 2i,k +1/2>0,k =2,···,n i −1,χ˜λi,k =ζi,k /(2Γ−1i,k )>0,k =1,···,n i .接下来定义χˆz i,min =min k =1,···,n i{χˆz i,k },χ˜x i,min =min k =1,···,n i{χ˜x i,k },χ˜D i,min =min k =1,···,n i{χ˜D i,k },χq i,min =mink =1,···,n i −1{χq i,k +1},χ˜λi,min =min k =1,···,n i{χ˜λi,k },和ρi =n i ∑k =1(γ2i,k +1/2+D ∗2i,k /2+˘D ∗2i,k /2+M 2i,k /2+ζi,k λ∗2i,k /2).式(31)的导数可写为˙V −N ∑i =1n i ∑k =1χˆz i,min ˆz 2i,k −N ∑i =1n i ∑k =1χ˜x i,min ˜x 2i,k −N ∑i =1n i −1∑k =1χq i,min q 2i,k +1−N ∑i =1n i ∑k =1χ˜D i,min ˜D 2i,k −N ∑i =1n i ∑k =1χ˜λi,min Γ−1i,k ˜λ2i,k +N ∑i =1ρi +12N ∑i =1(∑j ∈N ia ij ϖj )2 −χV +ρ1+12N ∑i =1¯ϖ2i ,(35)其中:χ=min i =1,···,N[2χˆz i,min ,2χ˜x i,min ,2χq i,min ,2χ˜Di,min ,2χ˜λi,min ],ρ1=N ∑i =1ρi ,¯ϖi =∑j ∈N ia ij ϖj .文献[23]已证明通过选取合适的参数,微分跟踪器(13)的估计误差ϖj 有界,因此¯ϖi 亦有界,可将¯ϖ=[¯ϖ1···¯ϖN ]T 视为状态为S =[ˆz T ˜x T ˜D Tq T ˜λT ]T 的系统(29)(30)的有界输入[24].选取K 类函数ς1(s )=Γs 2/2,ς2(s )=¯Γs 2/2,ς3(s )=χs 2,ς4(s )=s 2/2,其中Γ=min k =1,···,n ii =1,···,N(1,Γ−1i,k ),¯Γ=max k =1,···,nii =1,···,N(1,Γ−1i,k ),根据文献[25]可知V 是系统(29)(30)的一个输入状态实际稳定(input-to-state practically stability,ISpS)Ly-apunov 函数,则系统是输入状态实际稳定的,且非线性L ∞增益为ς(s )=ς−11◦ς2◦ς−13◦ς4(s )=√¯Γ/(2Γ−1χ)s.结合输入状态稳定定义[26],存在KL 类函数φ、非线性L ∞增益ς和¯ρ>0,使得∥S (t )∥ φ(∥S (0)∥,t )+ς(∥¯ϖ∥∞)+¯ρ=φ(∥S (0)∥,t )+√¯Γ/(2Γ−1χ)ϖ∗+¯ρ,其中ϖ∗=max i =1,···,N{|¯ϖi |}.由lim t →∞φ→0和¯ϖi 收敛可知,系统(29)–(30)中所有信号最终有界.从而式(35)进一步改写为˙V−χV +ρ,(36)第8期杨杨等:基于预估器的一类多智能体系统神经动态面输出一致控制1205其中:ρ=ρ1+¯ϖ∗,¯ϖ∗=sup(N ∑i =1¯ϖ2i /2).根据式(36)和|˘z i,1| |ˆz i,1|+|¯b i ˜x i,1|,可得˘z i,1 (1+¯b i )√2ρ/χ.由于误差信号˘z i,1含有补偿项κi,1,所以为了确定多智能体协同误差z i,1的界,补偿信号的界也需要确定.为此本文选取Lyapunov 备选函数V κ=12N ∑i =1n i ∑k =1κ2i,k.根据κi,k κi,k +1 κ2i,k /2+κ2i,k +1/2可得˙V κ N ∑i =1(n i ∑k =1−p i,0κ2i,k +∆u i 2)−p 0V κ+N ∑i =1∆u i 2,(37)其中:p i,0=min k =1,···,n i(p i,1−¯b i /2,p i,2−(¯b i +1)/2,p i,k −1,p i,n i −3/4),以及p 0=min i =1,···,N(2p i,0).通过求解式(37),辅助信号κi,k 的界为|κi,k | √2/p 0sup ∥∆u ∥,其中∆u =[∆u 1···∆u N ]T .现在给出多智能体系统输出一致跟踪误差的界.根据多智能体协同误差(3)和第1步误差面定义,有z i,1=˘z i,1+κi,1.根据所求解出的辅助信号的界,则|z i,1|(1+¯b i )√2ρ/χ+√2/p 0sup ∥∆u ∥.根据(4)和假设2可知e =H −1z 1,进一步得到∥e ∥ ∥z 1∥/σmin (H ),其中σmin (H )是H 的最小奇异值.最后可得多智能体系统输出一致跟踪误差的界为∥e ∥√N ∑i =1[(1+¯b i )√2ρ/χ+√2/p 0sup ∥∆u ∥]2/σmin (H ).则多智能体系统输出误差和所有闭环系统信号最终有界.证毕.注10根据稳定性分析,多智能体系统输出一致跟踪误差的界主要通过ρ和χ的大小决定,可以通过增大χ和减小ρ来缩小输出误差的界.其中对于χ的增大主要通过增大c i,k 和Γi,k 以及减小ηi,k 来实现.而ρ可以通过降低ζi,k 和γi,k 来进行减小,但是必须满足ζi,k >0和γi,k >0.可以通过调节预估器中参数c p i,k 来调节预估误差的收敛速度,进而改变系统动态估计的快慢.扰动观测器可以通过适当增加c d i,k 和c D i,k 以调整逼近效果.4仿真实例在本章中,两个仿真例子验证所设计的控制策略有效性.4.1四旋翼飞行器系统仿真考虑一组四旋翼飞行器,每个飞行器4个旋翼位于两个正交方向上分别由4个电机带动,4个旋翼产生的升力表示为F q,i,f ,f =1,2,3,4.定义惯性坐标系I ={x I y I z I },满足右手螺旋定则,z 轴垂直地面向上.机身坐标系B ={x B y B z B },其原点在飞行器中心上,机身相对于惯性坐标系I 的相对位置表示为χi =[x q,i y q,i z q,i ]T ∈R 3,相对于机身坐标系B 的姿态角表示为p i =[ϕi θi ψi ]T ∈R 3.四旋翼飞行器模型为[27]¨x q,i =(cos ϕi sin θi cos ψi +sin ϕi sin ψi )u i,1/m i −ξx ˙x q,i /m i +d i,1,¨y q,i =(cos ϕi sin θi sin ψi −sin ϕi sin ψi )u i,1/m i −ξy ˙y q,i /m i +d i,2,¨z q,i =(cos ϕi cos θi )u i,1/m i −g −ξz ˙z q,i /m i +d i,3,¨ϕi =−ξϕ˙ϕi /I x ,i +u i,2/I x ,i +d i,4,¨θi =−ξθ˙θi /I y ,i +u i,3/I y ,i +d i,5,¨ψi =−ξψ˙ψi /I z ,i +u i,4/I z ,i +d i,6,(38)其中:m i 是飞行器质量,I x ,i ,I y ,i 和I z ,i 为转动惯量,ξx ,i ,ξy ,i ,ξz ,i ,ξϕ,i ,ξθ,i 和ξψ,i 是空气动力阻尼系数,g 是重力加速度,d i 为未知扰动,输入和升力之间的关系表示为u i,1=F q,i,1+F q,i,2+F q,i,3+F q,i,4,u i,2=−F q,i,1−F q,i,2+F q,i,3+F q,i,4,u i,3=−F q,i,1+F q,i,2+F q,i,3−F q,i,4,u i,4=−F q,i,1+F q,i,2−F q,i,3+F q,i,4.对于式(38)中的控制输入u i,1,将其分解为Q x ,i ,Q y ,i 和Q z ,i ,分别表示输入u i,1的纵向、横向和高度分量,有 Q x ,i=(cos ϕi sin θi cos ψi +sin ϕi sin ψi )u i,1,Q y ,i =(cos ϕi sin θi sin ψi −sin ϕi sin ψi )u i,1,Q z ,i =(cos ϕi cos θi )u i,1,(39)系统(38)可分为位置系统˙χi,1=χi,2,˙χi,2=u s,i+Fχ,i+d p,i(40)和姿态系统˙p i,1=p i,2,˙p i,2=u r,i +F p,i +d a,i ,(41)1206控制理论与应用第38卷其中:χi,1=χi ,χi,2=˙χi ,u s,i =[Q x ,i Q y ,i Q z ,i ]T ,F χ,i =f i,1+g i,1u s,i −u s,i ,g i,1=diag {1/m i ,1/m i ,1/m i },f i,1=[ξx ,i ˙x q,i /m i ξy ,i ˙y q,i /m i ξz ,i ˙z q,i /m i −g]T ,d p,i =[d i,1d i,2d i,3]T,以及p i,1=p i ,p i,2=˙p i ,F p,i =f i,2+g i,2u r,i −u r,i ,g i,2=diag {1/I x ,i ,1/I y ,i ,1/I z ,i },u r,i =[u i,2u i,3u i,4]T ,f i,2=[ξϕ,i ˙ϕi /I x ,i ξθ,i ˙θi /I y ,i ξψ,i ˙ψi /I z ,i ]T ,d a,i =[d i,4d i,5d i,6]T .根据式(39)和sin 2(·)+cos 2(·)=1,有u 2i,1=Q 2x ,i +Q 2y ,i +Q 2z ,i 成立.所以实际控制律可通过u i,1=∥u s,i ∥=√Q 2x ,i +Q 2y ,i +Q 2z ,i 算得.定义领导者位置信号χd =[x q,d y q,d z q,d ]T 和偏航角信号ψd ,则俯仰角和滚转角由ϕd =arcsin(Q x ,i sin ψd −Q y ,i cos ψd∥u s,i ∥)和θd =arctan(Q x ,i cos ψd +Q y ,i sin ψdQ z ,i )获得.在控制策略设计中需要˙ϕd 和˙θd ,然而并不能直接获得,因此使用跟踪微分器对其逼近,见式(13).系统通信拓扑见图2,且忽略飞行器间的距离间隔.输入限制为u s,i,min =−15N,u s,i,max =15N 和u r,i,min =−10N ·m,u r,i,max =10N ·m.未知扰动d i,1=0.2sin t,d i,2=0.5cos t +sin y q,i ,d i,3=1.5,d i,4=0.2+sin(10t ),d i,5=0.5,d i,6=2+cos(5θi ).领导者信号y r =[x q,d y q,d z q,d ]T 为x q,d =6−5cos(0.4t )m ,y q,d =5sin(0.4t )+0.3t m ,z q,d =5−5exp(−0.3t )m和ψd =0rad.控制参数选择为c d i,k =10,c D i,k =1.2,γi,k =0.1,c i,k =2,c p i,k =10,Γi,k =10,ζi,k =0.01,ηi,k =0.01.系统初始状态χ1,1(0)=ˆχ1,1(0)=[0.400]T ,χ2,1(0)=ˆχ2,1(0)=[000]T ,χ3,1(0)=ˆχ3,1(0)=[0.20−0.2]T ,χi,2(0)=ˆχi,2(0)=[000]T ,κi,k (0)=0,p i,1=ˆp i,1=[00π]T ,p i,2=ˆp i,2=[000]T ,ˆλi,k (0)=0.图2例4.1通信拓扑图Fig.2Communication topology in Example 4.1仿真结果如图3–6所示.其中,图3展示了四旋翼飞行器系统位置输出分别在3D 以及x ,y ,z 轴的情况.3个跟随者飞行器克服外部干扰影响在很短时间内跟踪上领导者信号.图4为控制输入曲线,可看出在2s 左右输入饱和现象结束并达到稳定.为了说明辅助系统的作用,有/无辅助系统的控制律u 2,2曲线如图5所示.在有辅助系统情况下,执行机构的饱和时间相比于无辅助系统的情况缩短.值得注意的是,由于扰动观测器逼近的为广义扰动,单独的神经网络或者扰动观测器的逼近效果并不是特别理想.为了更好体现神经网络和扰动观测器的逼近效果,将二者逼近效果相加与系统动态以及外部扰动之和对比观察.图6给出了飞行器1位置系统和姿态系统的动态和扰动估计情况,验证了神经网络和扰动观测器的逼近效果.(a)惯性坐标系下3D 输出情况(b)惯性坐标系下x ,y ,z 轴输出情况图3飞行器位置输出Fig.3The output positions of the vehicles为了说明本文提出由预估器产生的预估误差更新神经网络权值,可以避免由于选择不适当参数导致的高频抖动现象.对比了传统神经网络方法[13]和本文控制策略在大自适应增益Γ1,2=2000情况下,第1个智能体姿态系统ϕ角度上的未知动态逼近效果,如图7所示.可以发现在大自适应增益情况下传统神经网络方法在系统运行初始阶段出现了高频抖动的现象,而本文设计的基于预估误差更新的神经网络方法始终保持良好逼近性能.图4例4.1跟随者控制输入Fig.4Control inputs of the followers in Example4.1图5例4.1输入u 2,2有/无辅助系统控制输入对比Fig.5The comparison of the control input u 2,2with/withoutan auxiliary system in Example4.1(a)飞行器1位置系统动态和扰动估计情况(b)飞行器1姿态系统动态和扰动估计情况图6系统动态和扰动估计情况Fig.6Estimation performances of system dynamics anddisturbances。
基于多智能体的协同决策模型设计与优化随着人工智能技术的快速发展,越来越多的人开始关注多智能体系统的研究,尤其是多智能体的协同决策模型设计和优化。
在实际应用中,多智能体系统可以应用于机器人、智能交通、医疗、物流等众多领域。
然而,多智能体系统在复杂环境中的协同工作由于不确定性、动态性和非线性等问题,使得其设计和优化显得尤为复杂和难以实现。
因此,本文将重点探讨基于多智能体的协同决策模型的设计和优化,希望能为相关研究提供一些有用的参考和借鉴。
一、多智能体协同决策模型多智能体协同决策模型是一种基于多智能体系统的可调度,自适应和协同工作的方法。
其核心在于将多个相互独立的个体协调一起工作,从而达到最佳的决策结果。
在多智能体协同决策模型中,多个智能体共同分工,保持信息的共享和讨论交流,以实现任务目标。
多智能体协同决策模型通常包括三个重要的元素:状态、动作和策略。
其中状态是指智能体在一定时期内的状态,动作则是由智能体采取的行动。
策略是智能体在决策时所采取的决策策略,其作用是使得智能体采取的行动最终会导致实现目标。
在多智能体协同决策模型中,每个智能体的判断和决策应该是相互配合的,这意味着一个智能体的行为有时可能不是最优的,并且还可能对其他智能体造成负面影响。
因此,确保每个智能体的行动都能对整个系统产生正面影响是非常关键的。
二、多智能体协同决策模型优化在多智能体协同决策模型中,合理的调度方案和策略优化是很重要的。
在此,我们提出如下三种基于多智能体的协同决策模型优化方法。
1. 自适应多智能体决策模型自适应多智能体决策模型是多智能体系统的一种新形式,其主要目的是利用智能体之间的合作和相互竞争来组合和优化整个众包系统,以实现最优的任务分配和决策结果。
这种自适应多智能体决策模型主要包括四个阶段:第一阶段是任务分配,即将每个任务分配给不同的智能体;第二阶段是策略制定,即各个智能体制定自己的策略;第三阶段是信息共享和反馈,即智能体共享彼此的信息和结果;第四阶段是结果评估和优化,即根据整个系统的任务目标评估模型,对各个智能体的成绩和贡献进行评估和优化。
多智能体数学模型一、引言多智能体系统是指由多个相互交互的智能体组成的系统。
智能体可以是机器人、无人机、传感器等等,它们可以通过通信和合作来实现某个特定的任务。
多智能体系统在现实生活中的应用越来越广泛,如自动驾驶、无人机编队等。
而为了研究多智能体系统的行为和性能,数学模型的构建和分析变得非常重要。
二、多智能体系统的建模方法多智能体系统的建模可以使用不同的数学工具和方法,其中最常用的方法之一是图论。
图论可以用来表示智能体之间的关系和连接方式。
例如,可以使用图来表示智能体之间的邻居关系,即智能体之间是否直接相互通信和交互。
通过图论的方法,可以分析智能体系统的整体结构和性质。
另一种常用的建模方法是基于博弈论的方法。
博弈论可以用来描述多个智能体之间的决策和竞争。
通过建立适当的博弈模型,可以研究智能体的最优策略和均衡解。
博弈论在多智能体系统中的应用非常广泛,如研究智能体之间的合作与竞争、资源分配等问题。
三、多智能体系统的动力学模型为了描述多智能体系统的动态行为,需要建立相应的动力学模型。
在多智能体系统中,每个智能体都有自己的状态和控制输入。
通过建立每个智能体的状态方程和控制方程,可以描述智能体的运动规律和控制策略。
而整个多智能体系统的动态行为可以通过智能体之间的相互作用来描述。
常用的多智能体系统动力学模型包括线性模型、非线性模型和随机模型。
线性模型适用于简单的多智能体系统,可以通过线性代数的方法进行分析。
非线性模型适用于复杂的多智能体系统,可以通过非线性控制理论进行分析和设计。
随机模型适用于具有不确定性的多智能体系统,可以通过概率论和随机过程进行分析。
四、多智能体系统的控制方法多智能体系统的控制是指通过合适的控制策略来实现系统的目标。
常用的控制方法包括集中式控制和分布式控制。
集中式控制是指由中央控制器对所有智能体进行控制,可以实现系统的全局最优。
但是集中式控制存在单点故障和通信负载大的问题。
分布式控制是指每个智能体根据自身状态和邻居信息进行局部决策,通过合作和协调来实现系统的目标。
非线性多智能体系统的协同控制研究伴随着科技的发展,越来越多的多智能体系统被广泛应用于各行各业,如机器人、无人机、交通控制等等。
这些系统可以由多个独立的智能体协同完成任务,但由于智能体之间存在相互作用和干扰,所以如何协调智能体的行为成为一个挑战。
针对这一问题,非线性多智能体系统的协同控制成为了一个研究的热点。
一、非线性多智能体系统的特点非线性多智能体系统具有以下几个特点:1. 非线性的动力学模型。
这表明智能体之间的相互作用难以被线性化处理。
2. 多智能体之间存在相互作用和干扰。
这导致智能体之间的行为不是独立的,而是互相影响的。
3. 系统的复杂性高。
智能体之间的相互作用和干扰会导致系统呈现出高度的不确定性和复杂性。
二、非线性多智能体系统的控制方法针对非线性多智能体系统的特点,研究者提出了以下几种控制方法:1. 集中式控制。
这种控制方法将系统中的所有信息集中在一个中心节点,由中心节点对整个系统进行控制。
优点是容易实现和系统性能易于优化。
然而,该方法存在单点故障风险和计算负载不均衡等问题。
2. 分散式控制。
这种控制方法将控制算法分配到系统中的每一个智能体节点上,每个节点仅控制附近的邻居节点。
优点是容错性高、计算负载均衡,但是系统性能难以优化。
3. 协同控制。
这种控制方法是在分散式控制的基础上,增加了智能体之间的协同信息交换,从而实现系统性能最优化。
该方法可以进一步细分为基于传递函数的控制方法和基于控制器的控制方法。
三、协同控制的研究进展近年来,协同控制的研究成为了一个热点,许多学者在此领域做出了重要贡献。
以下是一些经典的科研成果:1. 采用自适应动态规划的协同控制方法。
该研究使用了自适应动态规划方法优化控制器参数,并通过协同信息交换进一步提高系统性能。
2. 基于模型预测控制的协同控制方法。
该研究将模型预测控制方法应用到协同控制中,通过对系统的预测来优化控制器的参数,从而提高系统性能。
3. 基于神经网络的协同控制方法。
基于多智能体的协同控制技术研究一、引言多智能体系统具有分布式、去中心化、自组织的特点,在工业控制、机器人、交通、金融等各个领域都有广泛应用。
其实现的关键是协作控制,而多智能体系统的协作控制是指多个智能体根据某种策略,通过交换信息和协商达成共同目标的行为,并进一步实现针对复杂动态环境的自适应优化。
本文主要介绍基于多智能体的协同控制技术研究。
二、多智能体系统及其协同控制研究现状1.多智能体系统概述多智能体系统是一种由多个智能体组成的分布式系统,在该系统中,每个智能体都有其特定的功能和任务,根据系统的性质和目的,通过协作、交互等方式,实现系统的整体性能和目标优化。
2.多智能体系统的协同控制多智能体系统中各个智能体的协同控制是指它们在不同的执行过程中相互协调和相互作用以实现系统的整体性能和优化的目标。
该控制方式擅长于解决由于系统架构、智能体之间的相互作用和信息传递引起的非线性和不确定性问题。
3.现有研究面临的挑战当前多智能体系统的协同控制研究面临如下挑战:1)协助智能体之间不同的工作和任务分配。
2)网络改变、传输时间、滞后等时间因素下的稳定性。
3)协作控制的合理分配,以避免过大的计算和通信成本。
4)错误预测和预测模型的不确定性等。
三、基于多智能体的协同控制技术1.分布式最优协作控制分布式最优协作控制是最优协同控制问题的一种求解方法,该方法通过成本函数和约束条件建立优化目标,同时解决了智能体之间的协作及合理分工问题。
该方法以高效的算法实现了协同控制,2.基于人工智能的协同控制技术随着人工智能技术的发展,应用于协同控制的人工智能技术也日益成熟。
包括深度学习、计算机视觉、自然语言处理等技术在内的人工智能方法,能够有效地实现协同控制中的参数优化、状态估计、决策制定等问题。
这类技术在智能制造系统、交通系统、能源管理等领域应用广泛。
3.协作控制在机器人领域的应用在机器人领域,协同控制技术顺应机器人多关节、复杂环境等诸多机械、电气和控制等技术交叉缺陷,可以以机器人任务规划和路径优化、环境建模和感知等方面的应用为切入点,有效提高机器人的性能和灵活性。
基于深度强化学习的多智能体算法研究基于深度强化学习的多智能体算法研究引言近年来,随着人工智能的快速发展,多智能体系统成为研究的热点领域之一。
在多智能体系统中,智能体之间的相互合作和竞争对于解决复杂问题具有重要意义。
然而,传统的多智能体算法往往面临高维状态空间、非线性动力学以及信息共享等挑战。
为了解决这些问题,深度强化学习技术被引入到多智能体系统中,取得了显著的突破和进展。
一、多智能体系统简介多智能体系统是由多个相互作用的智能体组成的系统。
这些智能体可以是机器人、无人机、自动驾驶车辆等。
相比于单一智能体系统,多智能体系统具有更高的复杂性和挑战。
多智能体系统可以分为合作型和竞争型两种类型。
在合作型系统中,智能体通过合作实现共同的目标;而在竞争型系统中,智能体之间争夺资源或者通过竞争获得最大回报。
二、传统多智能体算法的挑战在传统的多智能体算法中,常见的方法是基于博弈论或者优化理论来求解最优策略。
然而,由于多智能体系统的动态性和非线性,这些传统方法往往面临以下挑战:1. 高维状态空间:多智能体系统中存在大量的状态变量,使得传统方法无法完全覆盖所有状态。
2. 非线性动力学:多智能体系统中智能体的动力学常常是非线性的,传统方法难以描述和解决。
3. 信息共享问题:多智能体系统中智能体之间的信息共享是一个关键问题。
传统方法通常需要预先定义信息共享策略,但这往往无法适应动态环境。
三、深度强化学习在多智能体系统中的应用深度强化学习是一种通过智能体与环境交互来学习最优策略的方法。
相比于传统方法,深度强化学习具有以下优势:1. 自适应性:深度强化学习可以根据环境的变化和智能体的反馈进行实时调整,适应不同的情况和场景。
2. 高效性:深度强化学习可以通过大量的训练样本来学习最优策略,克服了维度灾难的挑战。
3. 信息共享:深度强化学习可以通过共享经验来提高系统的整体性能和效果。
在多智能体系统中,深度强化学习被广泛应用于解决合作与竞争问题。
基于多智能体系统的动力学与非线性控制多智能体系统是一种由多个智能个体组成的系统。
每个智能个体可以自主运动,同时又能与其他智能个体进行通信和合作,从而协同完成任务。
这种系统具有高度的复杂性和动态性,因此需要动力学和非线性控制等领域的技术来进行分析和设计。
一、多智能体系统的动力学建模
多智能体系统的动力学建模是研究多智能体系统行为的基础。
一般来说,多智能体系统的动力学包括两个方面:智能个体的动力学和智能个体之间的相互作用。
智能个体的动力学模型通常采用微分方程或者差分方程来进行描述。
例如,一个智能个体在空间中的运动可以由以下的微分方程来描述:
$$m\ddot{\mathbf{r}} = \mathbf{F}$$
其中,$m$为智能个体的质量,$\mathbf{r}$为智能个体的位置向量,$\mathbf{F}$为智能个体所受的力。
智能个体之间的相互作用可以分为直接相互作用和间接相互作用两种类型。
直接相互作用是指智能个体之间通过感知到其他智能个体的位置、速度等信息产生的相互作用。
比如,在群体移动中,个体之间的位置关系和速度关系会影响到群体的整体运动方式。
因此,可以通过智能个体之间的相互作用来进行群体运动的协调和规划。
间接相互作用是指智能个体之间通过环境变量进行相互作用的情况。
例如,在一些环境中,智能个体之间的相互作用可能会产生变化,从而影响智能个体的运动状态和轨迹。
因此,在进行多智能体系统的动力学建模时,需要考虑到环境对智能个体之间的相互作用的影响。
二、多智能体系统的非线性控制
多智能体系统的非线性控制是研究如何调节智能个体之间的相互作用,使得系统能够以预期的方式进行运动。
非线性控制技术主要包括PID控制、模糊控制、神经网络控制等。
PID控制是一种经典的控制方法,它通过对系统输出偏差进行反馈调节,从而使得系统输出能够达到期望值。
与传统的PID控制相比,多智能体系统的PID控制需要考虑到智能个体之间的相互作用,因此需要对PID控制器进行改进。
一种常用的改进方法是将多个PID控制器组合起来,形成一个更加复杂的控制器。
模糊控制是一种基于模糊逻辑的控制方法,它通过将输入和输出之间的关系进行模糊化,从而实现对系统运动的控制。
与传统的模糊控制方法相比,多智能体系统的模糊控制需要考虑到多智能个体之间的相互作用,因此需要对模糊控制器进行改进。
一种常用的改进方法是将多个模糊控制器组合起来,形成一个更加复杂的控制器。
神经网络控制是一种通过利用神经网络的学习能力对系统进行控制的方法。
在多智能体系统的控制中,神经网络可以用于学习智能个体之间的相互作用,从而实现对系统的控制。
与传统的神经网络控制方法相比,多智能体系统的神经网络控制需要考虑到多个神经网络之间的相互作用,因此需要对神经网络进行改进。
一种常用的改进方法是将多个神经网络进行联合学习,形成一个更加复杂的网络结构。
三、多智能体系统的应用
多智能体系统的应用非常广泛,涵盖了许多领域。
其中,最常见的应用包括群体移动、环境监测、工业生产等。
在群体移动领域,多智能体系统的应用可以帮助实现群体的协调和规划。
例如,在无人机集群的控制中,多智能体系统可以实现对无人机的控制和调度,使得无人机能够完成协作任务。
在环境监测领域,多智能体系统的应用可以帮助实现对环境的自动监测和控制。
例如,在海洋生物学研究中,多智能体系统可以实现对海洋生物的自动监测和控制,从而帮助科学家进行海洋生态系统的研究和保护。
在工业生产领域,多智能体系统的应用可以帮助实现对工业生产过程的自动化控制和优化。
例如,在工厂自动化控制中,多智能体系统可以实现对工厂设备的自动化控制和调度,从而提高工厂的生产效率和质量。
综上所述,多智能体系统是一种具有高度复杂性和动态性的系统。
在进行多智能体系统的设计和控制时,需要考虑到智能个体之间的相互作用和环境变量的影响。
通过采用动力学建模和非线性控制等技术,可以实现对多智能体系统的精确控制和调节,从而实现多种应用场景下的任务。