基于Epsilon-Nash策略的动态武器-目标分配方法
- 格式:docx
- 大小:41.54 KB
- 文档页数:8
基于SOAR模型的武器目标分配系统设计与研究作者:丁凡文鹏程韩炜来源:《航空科学技术》2020年第05期摘要:威胁评估是影响武器目标分配结果的重要因素,当前空战环境下,诸如速度、角度、高度、攻击距离等多种参数都会影响武器目标分配的结果,飞行员在考虑上述因素的同时,难以做出快速准确的决策。
研究并提出一种基于SOAR智能认知模型构建的武器目标分配系统,通过将知识库与武器目标分配算法相结合,能够快速准确地给出目标分配方案,帮助飞行员更好地进行决策。
最后进行了仿真计算,结果表明该系统的输出符合期望结果,并具有较好的实时性。
关键词:SOAR;认知架构;目标分配;威胁评估;专家系统中图分类号:TP18文献标识码:ADOI:10.19452/j.issn1007-5453.2020.05.012基金项目:航空科学基金(2017ZC31008)武器目标分配问题(weapon-target assignment,WTA)即WTA问题,是空战协同作战的一个难点,其核心在于在短时间内给出正确、可靠的分配方案[1-2]。
目标分配结果受多方面因素的影响,诸如角度、速度、高度、攻击半径等都对目标分配结果有着一定的干扰[3-4],在考虑以上因素的同时,单靠飞行员个人难以做出快速周全的决策,因此迫切需要一种可靠的辅助手段来帮助飞行员进行决策。
针对武器目标分配问题,大多通过建立专家系统知识库的方法,结合威胁态势评估和目标分配算法总结出相应规则来解决问题。
传统的专家系统存在结构简单、逻辑单一、知识库内容固定、难以修改且处理预期外情况能力较差等缺陷,而SOAR智能认知模型具有类似自学习、块处理、子状态处理等多种手段来解决知识库僵局的问题,将其与传统专家系统相结合,构建出的新系统具有人类专家思考解决问题的能力,且满足决策快速准确的要求,能够适应当前智能化的需求。
1 SOAR模型简介SOAR模型即状态-算子-结果(State-Operator-andResult),是一种通过符号主义对智能行为进行编码的模型,通过选择算子改变问题状态产生最终结果来处理问题。
2010年3月第15卷第2期 西 安 邮 电 学 院 学 报JOURNAL OF XI ’AN UNIVERS ITY OF POSTS AND TE L ECOMMUN ICATIONS Mar.2010Vol 115No 12收稿日期63基金项目陕西省社会科学基金项目();陕西省教育厅专项科研计划项目(K )作者简介杨俊辉(6),男,陕西富平人,西安邮电学院管理工程学院副教授。
基于不对称Nash 协商模型的知识工作团队利益分配方法研究杨俊辉(西安邮电学院管理工程学院,陕西西安 710061)摘要:知识工作团队的利益分配是一个谈判协商过程,将不对称Nash 协商模型引入知识工作团队的利益分配问题,依据知识工作团队的利益分配原则提出了一个合理的利益分配方案,并通过一个应用实例说明了方案的有效性。
关键词:知识工作团队;利益分配;Nash 协商模型中图分类号:F272.92 文献标识码:A 文章编号:1007-3264(2010)02-0107-03 随着世界经济的日益全球化,个人与组织都处于急剧而无法预料的变革中,为了在激烈的竞争中立于不败之地,工作团队成为组织应对变化的有效方式。
[1-2]在过去的20年里,工作团队的广泛应用引人注目,[3]尤其是在高科技企业和科研组织中,以知识工作者为主体的从事知识加工与创造活动的知识工作团队得到普遍的应用。
知识工作团队作为一种高效、灵活的组织形式,不但可以集合各方面专家特长,而且可以创造出因合作而产生的利益。
同时,由于知识工作团队成员具有较高的专业知识或技术水平,工作中自主发挥的空间较大,所从事的工作对创造性有较高的要求,并且节奏快、压力大,因此在知识工作团队中,团队成员的积极性、主动性和创造性对团队的有效性至关重要。
而影响团队成员积极性、主动性和创造性的一个重要方面就是对其对合作产生利益的分配,利益分配不但会影响团队工作效率,甚至直接影响团队能否续存在。
因此,在知识工作团队中明确利益分配的原则及依据,并建立一套科学、公平、合理的利益分配机制尤为重要。
第42卷第5期2023年10月沈㊀阳㊀理㊀工㊀大㊀学㊀学㊀报JournalofShenyangLigongUniversityVol 42No 5Oct 2023收稿日期:2022-09-08基金项目:辽宁省教育厅科学研究经费项目(LG202025ꎬLJKZ0260)ꎻ辽宁省 兴辽英才计划 项目(XLYC2006017)作者简介:孙文娟(1982 )ꎬ女ꎬ副教授ꎬ研究方向为智能优化算法㊁生产物流与优化ꎮ通信作者:宫华(1976 )ꎬ女ꎬ教授ꎬ博士ꎬ研究方向为智能防御㊁生产物流与优化ꎮ数理应用文章编号:1003-1251(2023)05-0082-06基于博弈建模的地对空防御火力分配策略选择孙文娟1ꎬ2ꎬ许㊀可1ꎬ2ꎬ宫㊀华1ꎬ2(1.沈阳理工大学理学院ꎬ沈阳110159ꎻ2.辽宁省兵器工业智能优化与控制重点实验室ꎬ沈阳110159)摘㊀要:战场环境复杂多变ꎬ如何根据当前态势及火力资源特点ꎬ及时有效地对来袭目标进行火力分配ꎬ是防空指挥中的关键环节ꎮ针对地对空防御问题ꎬ考虑对敌方来袭目标的毁伤程度和我方武器资源消耗因素ꎬ以最大化总体毁伤概率和最小化使用武器价值为目标建立多目标优化模型ꎮ由于优化目标之间存在对武器资源的竞争ꎬ以优化目标为博弈方ꎬ以决策武器如何攻打来袭目标为策略ꎬ建立非合作博弈模型ꎬ并结合禁忌搜索技术ꎬ设计基于纳什均衡搜索的改进遗传算法(NE ̄IGA)进行求解ꎮ实验结果表明ꎬ与求解优化模型的基于禁忌搜索的改进遗传算法(TSGA)及基本遗传算法(GA)相比ꎬ博弈模型及其求解算法NE ̄IGA能够得到更优的分配方案ꎮ关㊀键㊀词:地对空防御ꎻ火力分配ꎻ非合作博弈ꎻ纳什均衡ꎻ遗传算法中图分类号:O225ꎻE911文献标志码:ADOI:10.3969/j.issn.1003-1251.2023.05.013Ground ̄to ̄airDefenseFirepowerAssignmentDecisionBasedonGameModelingSUNWenjuan1ꎬ2ꎬXUKe1ꎬ2ꎬGONGHua1ꎬ2(1.ShenyangLigongUniversityꎬShenyang110159ꎬChinaꎻ2.LiaoningKeyLaboratoryofIntelligentOptimizationandControlforOrdnanceIndustryꎬShenyang110159ꎬChina)Abstract:Forthecomplexandchangeableenvironmentofthebattlefieldꎬtimelyandeffectivefirepowerassignmenttoincomingtargetsaccordingtothesituationandcharacteristicsofthefireresourcesiscrucialtotheairdefensecommand.Consideringthedegreeofdamagetotheincomingtargetsandtheconsumptionofweaponresourcesintheground ̄to ̄airdefenseꎬamulti ̄objectiveoptimizationmodelisproposedtomaximizethetotaldamageprobabilitywithminimizedconsumptionofweapons.Forthecompetitionbetweenthetwoobjectivesforweaponresourcesꎬanon ̄cooperativegamemodelisproposedforthefirepowerassignmentwithobjectivesasplayersꎬandthedecisiontoattacktargetswithweaponsasastrategy.Animprovedgeneticalgorithm(NE ̄IGA)basedontabusearchtechnologyisdesignedtosolvetheNashequilibrium.Theexperimentalresultsshowthatꎬcomparedwiththeimprovedgeneticalgorithmbasedontabusearch(TSGA)andthebasicgeneticalgorithm(GA)whichareusedforsolvingtheoptimizationmodelꎬthegamemodelandtheproposedalgorithmNE ̄IGAcanbringabetterassignmentscheme.Keywords:ground ̄to ̄airdefenseꎻfirepowerassignmentꎻnon ̄cooperativegameꎻNashequi ̄libriumꎻgeneticalgorithm㊀㊀火力分配是指根据作战目标㊁战场态势㊁武器性能等因素ꎬ将不同类型和一定数量的火力单元针对来袭目标以某种准则进行分配ꎬ以有效攻击敌方目标的过程ꎮ在地对空防御体系中ꎬ火力分配是决定作战效果的关键因素ꎬ其任务是针对多个来袭目标ꎬ防御方能及时有效地分配防御武器ꎬ消除敌方威胁ꎬ使防御方所遭受的损失减少到最小[1]ꎮ在火力分配问题的解决方案中ꎬ主要考虑的优化目标包括整体打击效能最大[2]㊁防御方资源损失最小[3]㊁来袭目标生存概率最小[4]以及被保护资产存留价值最大[5]等ꎮ采用的优化方法主要包括近似动态规划方法[6]ꎬ混合遗传算法[7]ꎬ蚁群算法[8]㊁蜂群算法[9]㊁布谷鸟搜索算法[10]㊁生物地理学优化[11]等智能优化算法ꎮ在火力分配问题中ꎬ攻击方和防御方之间往往存在着利益冲突ꎮ对于某一方来说ꎬ不同优化目标之间也存在着对武器资源的竞争ꎬ而优化模型很难考虑各竞争主体之间的冲突关系ꎮ非合作博弈理论主要用于解决有约束㊁多人多目标且目标函数相互矛盾的决策问题ꎬ是研究具有竞争现象的理论和方法ꎬ因此非合作博弈建模是解决多目标火力分配问题的有效工具ꎮ针对火力分配中的竞争问题ꎬ大多以攻防双方为博弈方ꎬ考虑不同的收益函数ꎬ基于博弈理论建立相应的火力分配模型ꎮ张毅等[12]㊁Galati[13]㊁马飞等[14]分别以作战效能㊁目标毁伤概率㊁目标生存价值为收益ꎬ建立火力分配非合作博弈模型ꎬ采用启发式遗传-蚁群优化算法及邻域搜索算法进行求解ꎮ曾松林等[15]㊁周兴旺等[16]针对火力资源分配问题ꎬ分别建立动态博弈模型及贝叶斯混合博弈模型ꎬ利用混合粒子群算法求解纳什均衡ꎮ针对多目标火力分配问题ꎬ赵玉亮等[17]㊁Leboucher等[18]分别建立了双矩阵博弈模型及演化博弈模型ꎬ采用粒子群算法求解ꎮ综上可知ꎬ在利用博弈理论研究火力分配问题时ꎬ考虑攻防双方之间竞争现象的较多ꎮ而在多目标火力分配问题中ꎬ各优化目标之间同样存在对武器资源的竞争ꎬ利用博弈理论研究多目标火力分配问题ꎬ通过纳什均衡分配方案ꎬ使目标之间的博弈策略实现最优ꎬ可以在保证作战效能的同时ꎬ得到满足多方利益的均衡火力分配方案ꎮ本文针对地对空防御中的火力分配问题ꎬ以最大化总体毁伤概率和最小化使用武器价值为优化目标ꎬ通过将优化目标映射为博弈方建立非合作博弈模型ꎬ结合禁忌搜索技术设计改进遗传算法NE ̄IGA寻求纳什均衡解ꎬ从而获得使优化目标间达到均衡的地对空防御火力分配决策方案ꎮ1㊀火力分配问题描述在地对空防御火力分配问题中ꎬ一般包含空中进攻和地面防御两种力量ꎬ分别记为敌方和我方ꎮ假设在某次作战中ꎬ敌方有n个空中来袭目标攻击我方阵地ꎬ我方防御阵地中有r种武器单元ꎬ第i(i=1ꎬ2ꎬ ꎬr)种武器单元中有mi个武器可用于防御ꎬ且不同性能的武器具有不同的作战效能ꎮ并进一步假设如下:1)每个武器只能攻打一个来袭目标ꎬ每个来袭目标可以被多个武器攻打ꎻ2)同种武器对同一来袭目标的毁伤概率相同ꎻ3)我方武器可以精准打击在攻击能力范围内的来袭目标ꎮ火力分配的任务是为各个来袭目标分配武器ꎬ达成在武器资源使用较少的基础上毁伤效果最好的结果ꎮ相关参数及变量说明见表1ꎮ本文利用毁伤概率衡量火力分配方案的毁伤效果ꎬ在满足作战要求的前提下ꎬ通过攻击空中来袭目标ꎬ使其毁伤概率达到最大ꎬ同时最小化我方38第5期㊀㊀㊀㊀㊀孙文娟等:基于博弈建模的地对空防御火力分配策略选择武器资源的价值ꎮ因此ꎬ目标函数描述为表1㊀参数及变量说明表符号名称及说明i武器单元索引ꎬi=1ꎬ2ꎬK?ꎬrj来袭目标索引ꎬj=1ꎬ2ꎬK?ꎬnTj第j个来袭目标qj来袭目标Tj的威胁度Wi第i种武器单元mi武器单元Wi中的武器总数k武器单元Wi中武器索引ꎬk=1ꎬ2ꎬK?ꎬmiWik武器单元Wi中的第k个武器vik武器Wik的价值pikꎬj武器Wik对目标Tj的毁伤概率p毁伤概率下限likꎬj描述Tj是否在Wik的攻击能力范围内ꎮ如果是ꎬlikꎬj=1ꎻ否则ꎬlikꎬj=0xikꎬj决策变量ꎬ描述武器Wik是否攻打目标Tjꎮ如果是ꎬxikꎬj=1ꎻ否则ꎬxikꎬj=0㊀maxf1=ðnj=1qj[1-ᵑri=1ᵑmik=1(1-likꎬjpikꎬj)xikꎬj](1)minf2=ðnj=1ðri=1ðmik=1vikxikꎬj(2)式中:f1为对所有来袭目标的总毁伤概率ꎻf2为使用武器的总价值ꎮ为保障攻击效果ꎬ在我方有一定数量武器的前提下ꎬ要求总毁伤概率不低于pꎬ因此模型应满足以下约束ꎬ其中i=1ꎬ2ꎬ ꎬrꎮðnj=1xikꎬjɤ1(3)ðnj=1ðmik=1xikꎬjɤmi(4)f1ȡp(5)2㊀火力分配问题博弈模型考虑到来袭目标的总体毁伤概率和使用武器的总价值两个目标函数之间存在着对武器资源的竞争ꎬ本文利用非合作博弈建模方法求解多目标优化问题ꎮ以两个目标函数作为博弈方ꎬ分别表示为毁伤概率P和武器价值Vꎬ建立非合作博弈模型G={PꎬVꎻS1ꎬS2ꎻU1ꎬU2}ꎬ其中S1㊁S2分别表示博弈方P和V的策略集ꎬU1㊁U2分别表示博弈方P和V的收益ꎮ1)策略及策略组合ꎮ令s1表示博弈方P对部分武器单元的决策ꎬs2表示博弈方V对剩余部分武器单元的决策ꎬ构成策略组合sꎬs=(s1ꎬs2)ꎬ其中s1ɪS1ꎬs2ɪS2ꎮ策略组合s对应一个火力分配方案{X1ꎬX2ꎬ ꎬXr}ꎬ其中Xi(i=1ꎬ2ꎬK?ꎬr)表示博弈方对第i种武器单元的决策ꎬ用miˑn阶矩阵表示为Xi=xi1ꎬ1xi1ꎬ2 xi1ꎬnxi2ꎬ1xi2ꎬ2 xi2ꎬnximiꎬ1ximiꎬ2 ximiꎬnæèçççççöø÷÷÷÷÷miˑn(6)满足式(3)~(5)的策略组合为可行策略组合ꎬ所有可行策略组合s的集合等价于多目标优化问题的可行域ꎮ2)收益函数ꎮ为了统一博弈方收益的优化方向ꎬ令U1=f1ꎬU2=-f2ꎮ3)纳什均衡ꎮ在博弈G={PꎬVꎻS1ꎬS2ꎻU1ꎬU2}中ꎬ如果对任一博弈方K(K=1ꎬ2)ꎬ策略组合(s∗Kꎬs∗-K)满足UK(s∗Kꎬs∗-K)ȡUK(sKꎬs∗-K)ꎬ∀sKɪSK(7)那么s∗=(s∗Kꎬs∗-K)为博弈G的一个纳什均衡ꎬ其中s∗K为博弈方K的策略ꎬs∗-K为另一博弈方策略ꎮ基于地对空防御火力分配问题非合作博弈模型ꎬ将多目标优化问题转化为满足式(7)的纳什均衡的求解ꎮ3㊀改进遗传算法求解纳什均衡当来袭目标和防御武器数量较多时ꎬ由于解空间较大ꎬ根据式(7)利用定义求解纳什均衡比较困难ꎮ遗传算法(GA)以其全局寻优㊁鲁棒性强等特点ꎬ被广泛应用于各个领域ꎬ但在进化后期ꎬ收敛速度较慢ꎬ容易陷入局部最优ꎮ而禁忌搜索的核心思想是标记对应已搜索的局部最优解的对象ꎬ并在以后的迭代搜索中尽量避开ꎬ从而保证多样化的有效搜索[19]ꎮ因此ꎬ本文结合禁忌搜索技术设计基于纳什均衡的改进遗传算法NE ̄IGA求解火力分配问题的博弈模型ꎬ从而避免算法早熟收敛ꎬ优化算法性能ꎮ3.1㊀编码与解码针对地对空防御火力分配问题ꎬ采用实数编码表示待优化问题的解ꎮ将各武器按照武器单元48沈㊀阳㊀理㊀工㊀大㊀学㊀学㊀报㊀㊀第42卷顺序编号ꎬ设武器总数为mꎬ来袭目标总数为nꎬ用(c1ꎬc2ꎬ ꎬcm)表示火力分配问题的一个方案ꎮ其中ck(k=1ꎬ2ꎬ ꎬm)为0~n的整数ꎬck=0表示第k个武器不攻打ꎬck=j(j=1ꎬ2ꎬ ꎬn)表示第k个武器攻打第j个来袭目标ꎮ如有两个武器单元ꎬ共有6个武器ꎬ武器数量分别为2和4ꎬ则个体编码(2ꎬ3ꎬ0ꎬ1ꎬ4ꎬ3)中的基因 2 表示武器单元1中的第1个武器攻打第2个来袭目标ꎻ基因 0 表示武器单元2中的第1个武器不攻打任何来袭目标ꎮ3.2㊀适应度函数多目标博弈中的纳什均衡ꎬ每一个优化目标的决策都是给出其他优化目标策略后的最佳策略ꎮ纳什均衡求解算法的主要目的是使各优化目标尽可能地逼近自己的最优解ꎬ并且不损害其他优化目标的利益ꎮ为求解博弈模型的纳什均衡ꎬ定义NJ为NJ=maxf1-fJ1maxf1+fJ2-minf2minf2(8)式中:NJ为判断第J个个体是否为纳什均衡的指标ꎻfJ1和fJ2分别为当前种群中个体J的毁伤概率和武器价值ꎻmaxf1和minf2分别为各单目标下的最优毁伤概率及最优武器价值ꎮ当fJ1越接近maxf1ꎬfJ2越接近minf2时ꎬ第J个个体对应的NJ就会越小ꎮ此时ꎬ每一个目标函数都在试图逼近其最优值ꎬ并且任一目标函数都不能单独决定多目标问题的解ꎮ寻求NJ的最小值ꎬ就等价于寻求纳什均衡ꎮ令Nbest=minJNJꎬ在遗传算法每一次迭代时ꎬ寻找每一代的近似纳什均衡Nbest及满足NJ-Nbest<ε的NJ(其中ε是反映接近程度的纳什均衡因子)ꎮ由于NJ越小越接近纳什均衡值ꎬ因此令f=-NJꎬ将其作为遗传算法中的适应度函数ꎮ3.3㊀NE ̄IGA基本流程3.3.1㊀初始化参数初始化问题及算法参数ꎬ其中火力分配问题参数:武器个数mꎬ来袭目标数nꎬ优化目标f1和f2ꎻ遗传算法参数:种群大小Posꎬ最大迭代次数MIꎬ交叉概率Pcꎬ相似度tꎬ纳什均衡因子εꎮ按照编码规则随机生成Pos个初始个体ꎮ3.3.2㊀选择算子采用二元锦标赛选择操作ꎬ在当前种群中随机选择两个个体ꎬ将适应度值大的个体放入下一代种群ꎬ较小的放回原种群ꎬ以参加下一次选择ꎮ3.3.3㊀交叉算子为避免基本遗传算法容易早熟的缺点ꎬ采用两点交叉方式ꎬ并利用禁忌搜索技术改进交叉操作ꎬ产生子代个体ꎮ1)在0和1之间生成随机数rand(0ꎬ1)ꎬ若rand(0ꎬ1)小于交叉概率Pcꎬ进行两点交叉ꎬ即随机选择两个交叉点ꎬ交换两个父代个体中位于交叉点之间的部分基因ꎬ生成两个子代个体ꎻ否则不进行ꎮ2)禁忌搜索获取子代个体ꎮ以父代个体的平均适应度值作为期望水平ꎬ将父代个体的适应度值作为禁忌对象存在禁忌表中ꎮ若子代个体的适应度值大于期望水平ꎬ则保留该子代个体ꎻ若小于期望水平ꎬ查看禁忌表中是否有此适应度值ꎬ如没有ꎬ保留该子代个体ꎬ否则选择适应度值高的父代个体替代该子代个体ꎮ3.3.4㊀变异算子采用均匀变异方式ꎮ应用相似度在个体长度中的占比判断是否进行变异操作ꎮ相似度是指两个个体相同位置处编码相同的个数ꎬ若相似度在整个编码中占比大于tꎬ则随机生成需变异的个体位置进行变异操作ꎮNE ̄IGA流程如图1所示ꎬ其中I为当前迭代次数ꎮ4㊀实验仿真4.1㊀实验环境及参数设置本节通过实例验证求解火力分配问题的博弈建模方法及NE ̄IGA的可行性和有效性ꎮ实验采用Windows10操作系统㊁PyCharmCommunityE ̄dition2020.3x64编译环境㊁Python3.8语言编程实现ꎮ假设我方有5种武器单元ꎬ包括:GPS/毫米波W1ꎬ诱饵弹/箔条W2ꎬ烟雾弹W3ꎬ防空导弹W4以及高炮W5ꎬ各武器单元的武器价值和数量如表2所示ꎮ有10个敌方来袭目标ꎬ包括两枚BGM ̄109C 战斧 式巡航导弹T1㊁T2ꎬ两台F ̄16C战斗机T3㊁T4ꎬ1枚AGM ̄86巡航导弹T5ꎬ1架MQ ̄9 死神 无人机T6ꎬ两架AH ̄64A 阿帕奇 直升机T7㊁T8ꎬ1架F ̄22隐形战斗机T9和1架B ̄52H战略轰58第5期㊀㊀㊀㊀㊀孙文娟等:基于博弈建模的地对空防御火力分配策略选择炸机T10ꎬ敌方来袭目标的威胁度如表3所示ꎬ各武器对不同来袭目标的毁伤概率如表4所示ꎮ图1㊀NE ̄IGA流程图表2㊀我方武器价值及数量武器单元W1W2W3W4W5单位价值0.40.30.210.7数量8561514表3㊀敌方来袭目标的威胁度表4㊀各武器对各来袭目标的毁伤概率来袭目标武器单元W1W2W3W4W5T1㊁T20.0000.1000.1570.9560.821T3㊁T40.0000.0800.1020.9270.742T50.8610.5200.4230.9000.814T60.0000.1100.1230.9130.800T7㊁T80.0000.0700.2100.9230.780T90.8520.8570.8040.8740.730T100.0000.1200.1150.9100.798㊀㊀本例中ꎬ设置参数Pos=30㊁MI=60㊁Pc=0.9㊁t=0.94㊁ε=0.01ꎻ结合武器单元种类及数量ꎬ设置毁伤概率下限p=0.9ꎮ4.2㊀实验结果及分析为验证本文提出算法NE ̄IGA的有效性ꎬ将多目标优化模型中目标函数f1和f2采用线性加权方式变为单目标ꎬ由于两个目标优化方向不同ꎬ将其权重分别取相反数ꎬ并将加权后的单目标作为适应度函数ꎬ比较基于禁忌搜索改进的遗传算法(TSGA)及基本遗传算法(GA)求解结果ꎮ其中TSGA是在GA的基础上ꎬ利用禁忌搜索技术改进交叉算子ꎬ改进方法同NE ̄IGAꎮTSGA及GA的选择算子及变异算子以及算法其他参数设置同NE ̄IGAꎮ得到的火力分配方案如表5所示ꎮ三种算法得到的火力分配方案的目标函数值及武器总数如表6所示ꎮ由表6可知ꎬ与TSGA及GA求解多目标优化模型相比ꎬ本文提出的NE ̄IGA求解博弈模型得到的分配方案效果较好ꎬ总体毁伤概率较高ꎬ武器价值和使用武器数量均最低ꎮ与TSGA相比ꎬ虽然NE ̄IGA毁伤概率优势较小ꎬ但武器价值降低了13.2%ꎻ与GA相比ꎬNE ̄IGA毁伤概率提高0.6%ꎬ武器价值降低了17.7%ꎮ此外ꎬ由TSGA得到的分配方案中各目标函数值均优于GAꎮ68沈㊀阳㊀理㊀工㊀大㊀学㊀学㊀报㊀㊀第42卷表5㊀三种算法获得的火力分配方案来袭目标火力分配方案NE ̄IGATSGAGAT1W4ꎬ10W4ꎬ12W5ꎬ4W5ꎬ13W45W56W5ꎬ14W14W31W4ꎬ15T2W4ꎬ11W4ꎬ13W15W51W57W5ꎬ10W15W36W43T3W24W51W52W5ꎬ12W14W23W44W32W33W42W48W4ꎬ10W56T4W32W45W57W36W46W5ꎬ11W35W44W4ꎬ14W54T5W15W33W46W13W47W49W4ꎬ14W12W41W5ꎬ13T6W13W43W48W21W22W31W35W48W4ꎬ10W4ꎬ11W55W16W21W23W34W49W4ꎬ11W5ꎬ2W55W58T7W21W4ꎬ15W42W4ꎬ12W24W5ꎬ12W5ꎬ14T8W31W42W5ꎬ11W33W34W53W59W46W4ꎬ12W4ꎬ13T9W44W4ꎬ14W11W17W18W41W47W5ꎬ11T10W36W55W58W59W5ꎬ10W12W4ꎬ13W4ꎬ15W58W13W22W25W45W57表6㊀三种算法获得方案的目标函数值及武器总数NE ̄IGATSGAGA毁伤概率f10.9900.9890.984武器价值f222.325.727.1使用武器数3139415㊀结论本文利用非合作博弈理论研究地对空防御的火力分配问题ꎮ针对以最大化毁伤概率和最小化武器价值作为优化目标的多目标优化问题ꎬ通过将目标函数映射为博弈方ꎬ以对各武器的决策作为策略建立非合作博弈模型ꎮ在遗传算法的基础上ꎬ为提高遗传算法的寻优能力ꎬ加入禁忌搜索技术ꎬ设计了算法NE ̄IGA以寻求博弈模型的纳什均衡ꎮ实验结果验证了本文模型及算法的可行性和有效性ꎮ未来将应用博弈理论对来袭目标动态到达㊁威胁度动态变化等更为复杂的战场环境进行研究ꎬ设计更加高效的纳什均衡求解算法ꎮ参考文献:[1]于连飞ꎬ刘进ꎬ张维明ꎬ等.武器-目标分配问题算法研究综述[J].数学的实践与认识ꎬ2016ꎬ46(2):26-32. [2]程远增ꎬ张佩超ꎬ梅卫ꎬ等.要地防空协同射击打击效能辅助决策研究[J].测控技术ꎬ2015ꎬ34(6):129-131ꎬ135.[3]于博文ꎬ吕明.基于改进NSGA ̄Ⅲ算法的动态武器协同火力分配方法[J].火力与指挥控制ꎬ2021ꎬ46(8):71-77ꎬ82.[4]杨荣军ꎬ李长军.粒子群算法在激光武器反无人机火力分配中的应用[J].指挥信息系统与技术ꎬ2021ꎬ12(5):70-75ꎬ81.[5]方卫国ꎬ石小艳.多层防御模式下武器目标分配决策的群体智能优化算法[J].数学的实践与认识ꎬ2013ꎬ43(7):76-84.[6]DAVISMTꎬROBBINSMJꎬLUNDAYBJ.Approxi ̄matedynamicprogrammingformissiledefenseinter ̄ceptorfirecontrol[J].EuropeanJournalofOperationalResearchꎬ2016ꎬ259(3):873-886.[7]于博文ꎬ吕明.基于D ̄NSGA ̄GKM算法的多阶段武器协同火力分配方法[J].控制与决策ꎬ2022ꎬ37(3):605-615.[8]黄钦龙ꎬ刘忠ꎬ童继进.改进的蚁群算法求解无人艇编队火力分配问题[J].电光与控制ꎬ2020ꎬ27(8):58-63ꎬ74.[9]褚凯轩ꎬ常天庆ꎬ孔德鹏ꎬ等.基于蜂群算法的坦克阵地部署与火力分配模型[J].系统工程与电子技术ꎬ2022ꎬ44(2):546-556.[10]孙海文ꎬ谢晓芳ꎬ庞威ꎬ等.基于改进火力分配模型的综合防空火力智能优化分配[J].控制与决策ꎬ2020ꎬ35(5):1102-1112.[11]罗锐涵ꎬ李顺民.基于改进BBO算法的火力分配方案优化[J].南京航空航天大学学报ꎬ2020ꎬ52(6):897-902.[12]张毅ꎬ姜青山ꎬ陈国生.基于模糊-灰色非合作Nash博弈的多组动态武器-目标分配方法[J].云南大学学报(自然科学版)ꎬ2012ꎬ34(1):26-32ꎬ38. [13]GALATIDG.Gametheoretictargetassignmentstrate ̄giesincompetitivemulti ̄teamsystems[D].Pitts ̄burgh:UniversityofPittsburghꎬ2004.(下转第94页)78第5期㊀㊀㊀㊀㊀孙文娟等:基于博弈建模的地对空防御火力分配策略选择。
现代电子技术Modern Electronics Technique2024年2月1日第47卷第3期Feb. 2024Vol. 47 No. 30 引 言武器目标分配(Weapon Target Assignment, WTA )问题是指挥控制与任务规划领域的关键难点之一[1],是在复杂的战场环境中满足一定的约束条件下,将多种作战武器分配给多个目标,从而实现最优的作战效能。
从求解武器目标分配问题的算法来看,既有匈牙利算法[2]、整数规划算法[3]等最优方法,还有遗传算法[4]、蜂群优化算法[5]、鲸鱼优化算法[6]、萤火虫算法[7]等仿生智能算法[8⁃10]。
仿生智能算法具有结构简单、参数较少和实现便捷等优点,在解决优化问题领域有着广泛的应用[11]。
文献[12]设计了一种混沌自适应萤火虫算法,利用变尺度混沌方改进萤火虫算法的武器目标分配问题研究赵冬梅, 李 玲, 宋 阳(海军大连舰艇学院 基础部, 辽宁 大连 116018)摘 要: 武器目标分配(WTA )是指挥控制和任务规划领域的关键问题之一,萤火虫算法求解武器目标分配问题具有参数设置简单、执行效率高等优点。
针对传统萤火虫算法易陷入局部极值,收敛速度和精度不高的弊端,从以下三个方面进行改进:初始化萤火虫序列编码时融入PWLCM 混沌优化以提高全局搜索能力;设置受迭代次数控制的服从半高斯分布的非均匀步长因子以兼顾算法的搜索能力和收敛性;设计基于排序的萤火虫更新策略同时融入交叉变异操作以提高算法的效率和准确性。
为验证改进算法的先进性,先利用其求解4种典型测试函数的最优解,再求解WTA 问题,并与传统萤火虫算法进行对比,仿真实验结果表明,改进后算法的评价函数值提高了2.1%,迭代次数减少了52.9%,改善了传统算法易陷入局部极值的缺点,提高了收敛速度和精度,提升了武器目标分配的效果。
关键词: 萤火虫算法; 武器目标分配; 惩罚函数; 混沌初始化; 非均匀步长因子; 排序更新; 交叉变异; 测试函数中图分类号: TN911.1⁃34; TP242 文献标识码: A 文章编号: 1004⁃373X (2024)03⁃0102⁃07Research on weapon target assignment based on improved firefly algorithmZHAO Dongmei, LI Ling, SONG Yang(Basic Department of Dalian Naval Academy, Dalian 116018, China)Abstract : Weapon target assignment (WTA) is one of the key problems in the field of command control and task planning. The firefly algorithm has the advantages of simple parameter setting and high execution efficiency when solving the problem of weapon target assignment. In response to the shortcomings of the traditional firefly algorithms, such as being prone to local optima, slow convergence speed and low accuracy, improvements are made in the following three aspects, including incorporatingPWLCM (piece⁃wise linear chaotic map) chaotic optimization into the initialization of firefly sequence encoding to improve global search ability, setting a non ⁃uniform step size factor that follows a semi ⁃Gaussian distribution controlled by the number ofiterations to balance the search ability and convergence of the algorithm, designing a firefly update strategy based on sortingwhile incorporating cross mutation operations to improve the efficiency and accuracy of the algorithm. In order to verify the progressiveness of the improved algorithm, it is used to solve the optimal solutions of four typical test functions first, and then to solve the WTA problem. Finally, it is contrasted with the traditional firefly algorithm. The results of simulation experiments showthat the evaluation function value of the improved algorithm is increased by 2.1%, and the number of iterations is reduced by 52.9%. The improved algorithm improves the disadvantage of being prone to trapping in local optima, improves convergencespeed and accuracy, and enhances the effect of weapon target allocation.Keywords : firefly algorithm; WTA; penalty function; chaos initialization; non ⁃uniform step size factor; sort update; crossmutation; test functionDOI :10.16652/j.issn.1004⁃373x.2024.03.019引用格式:赵冬梅,李玲,宋阳.改进萤火虫算法的武器目标分配问题研究[J].现代电子技术,2024,47(3):102⁃108.收稿日期:2023⁃08⁃10 修回日期:2023⁃08⁃31基金项目:海军大连舰艇学院科研发展基金(DLJYKYKT2022)102第3期法改进光吸收系数,通过引入全局最优值、自适应惯性权重和步长提高算法的精度和收敛速度;文献[13]将萤火虫算法离散化,编码并重新定义萤火虫移动机制,提出变步长和多邻域搜索机制,提高了算法的收敛性和全局搜索能力;文献[14]在初始化萤火虫种群时,融入Logistic 映射策略和逆向学习算子,提高了标准测试函数最优解的质量和稳定性,但仅限于函数优化,没有将改进算法进行实际应用;文献[15]重新定义了萤火虫距离、相对亮度公式和移动方式,利用混沌方法提高算法的局部搜索能力,但没有改善算法的收敛性;文献[16]提出了一种基于最大最小策略和非均匀变异的萤火虫算法,提高了算法的寻优能力,但存在效率较低的问题。
博弈论在动态武器目标分配问题中的应用博弈论是研究决策和策略的一门学科,它在各个领域都有广泛的应用,包括经济学、政治学、计算机科学等等。
其中,博弈论在动态武器目标分配问题中的应用也非常重要。
动态武器目标分配问题是指在一场战争中,需要分配有限的武器目标给不同的参与方,以达到最优的效果。
这是一个典型的多方博弈问题,因为参与者之间的互动关系很复杂,每个人都追求自己的最大利益,而且参与者的数量和策略层次都很多样化。
博弈论可以帮助解决动态武器目标分配问题的优化和决策过程。
它提供了一种系统的分析框架,可以用来研究不同参与者的策略选择和可能的结果,以及他们之间的相互作用和影响。
首先,博弈论提供了一些基本的概念和解决方法,如博弈形式、纳什均衡和最大最小化原则等。
这些概念和方法可以帮助我们描述和分析动态武器目标分配问题,并找到最优的决策策略。
其次,博弈论可以对不同参与者的策略进行建模和分析。
在动态武器目标分配问题中,不同参与者可以是不同的军队、组织或个体,他们的策略可以是武器的部署、目标选择、攻击顺序等。
博弈论可以帮助我们确定参与者的策略选择和影响因素,以及他们之间可能的竞争和合作关系。
此外,博弈论还可以解决动态武器目标分配问题中的合作与冲突的平衡。
在动态武器目标分配问题中,参与者之间常常存在着竞争和合作的关系。
博弈论可以帮助我们研究合作和冲突的平衡点,以及如何通过博弈的方式达成合作和解决冲突问题。
博弈论的一个重要应用是建立数学模型和算法来解决动态武器目标分配问题。
通过建立模型,我们可以对问题进行抽象和简化,以便进行定量分析和计算。
通过算法,我们可以有效地求解模型,找到最优的分配策略和结果。
例如,博弈论可以用来解决动态武器目标分配问题中的两个极端情况。
一种情况是零和博弈,即参与者之间的利益是相互矛盾的,一方的利益损失就是另一方的利益增加。
在这种情况下,我们可以通过最大化自己的利益来寻求最优的分配策略。
另一种情况是合作博弈,即参与者之间的利益是相互依存的,一方的利益增加也会带来其他方的利益增加。
基于Nash-Q的网络信息体系对抗仿真技术闫雪飞;李新明;刘东;王寿彪【摘要】武器装备体系作战仿真研究隶属于复杂系统研究范畴,首次对基于Nash-Q的网络信息体系(network information system-of-systems,NISoS)对抗认知决策行为进行探索研究.Nash-Q算法与联合Q-learning算法具有类似的形式,其区别在于联合策略的计算,对于零和博弈体系作战模型,由于Nash-Q不需要其他Agent的历史信息即可通过Nash均衡的求解而获得混合策略,因此更易于实现也更加高效.建立了战役层次零和作战动态博弈模型,在不需要其他Agent的完全信息时,给出了Nash均衡的求解方法.此外,采用高斯径向基神经网络对Q表进行离散,使得算法具有更好的离散效果以及泛化能力.最后,通过NISoS作战仿真实验验证了算法的有效性以及相比基于Q-learning算法以及Rule-based决策算法具有更高的收益,并且在离线决策中表现优异.%Battle simulation for weapon equipment sysem-of-systems (SoS) belongs to the research category of complex system and the confrontation cognition of network information system-of-systems (NISoS) based on Nash-Q technology is researched.The form of the Nash-Q is similar with the union Q-learning except the obtaining of the union policy.For the zero-sum game model of the SoS battle simulation,the realization and solution of the Nash-Q model is more effective since the Nash-Q does not need the history action messages of other Agents.The zero-sum game command model for the battle simulation of the tactical command level is built and the solving process of Nash-equilibrium is introduced through the complete information of other Agents is not known.The Gauss radial basis function neural network is usedto discrete the Q-table to improve the discrete performance and generalization ability of Nash-Q.Finally,the effectiveness of the algorithm is validated through battle simulation of pared with Q-learning and Rule-based algorithm,the proposed algorithm has higher gains and can be used to off-line decision.【期刊名称】《系统工程与电子技术》【年(卷),期】2018(040)001【总页数】8页(P217-224)【关键词】网络信息体系;零和博弈;Q-Learning;Nash均衡【作者】闫雪飞;李新明;刘东;王寿彪【作者单位】装备学院复杂电子系统仿真实验室,北京101416;装备学院复杂电子系统仿真实验室,北京101416;装备学院复杂电子系统仿真实验室,北京101416;装备学院复杂电子系统仿真实验室,北京101416【正文语种】中文【中图分类】TP3910 引言武器装备体系(简称为体系)作战仿真研究一直是军事领域的热点和难点,对于指导体系发展建设[1]、进行使命能力论证[2]、开展系统需求评估、辅助战场指挥决策等均具有重要的意义。
基于Epsilon-Nash策略的动态武器-目标分配方法王邑;孙金标;华玉光;王继辉【摘要】在大型任务规划软件的作战单元任务分配中,搜索零和博弈问题的纳什均衡点是求解任务分配的一种有效的方法.然而,纳什均衡点在决策中并不一定总是存在且唯一,这造成了纳什均衡策略在实际使用时具有较大的局限.通过采用Epsilon-Nash策略克服这种局限,并将其应用于自主空战任务规划系统中,通过仿真实验,证实Epsilon-Nash策略具有近似于纳什策略的效果.%In large scale mission planning software,the mission assignment of asset can be effctive when searching nash equilibria in non-cooperative non zero sum game problem.However ,the pure nash equlibrium is not always exist and single,in which case limit the use of nash strategy in Weapon-Target assignment. A Epsilon-Nash Equlibirum method to overcome the limitation is proposed. Apply it in a air combat mission planning system,through simulation test,the epsilon-nash strategy can be as effective as pure nash strategy.【期刊名称】《火力与指挥控制》【年(卷),期】2016(041)011【总页数】4页(P12-15)【关键词】战术决策;武器-;目标分配;Epsilon-Nash;博弈论【作者】王邑;孙金标;华玉光;王继辉【作者单位】空军指挥学院,北京 100097;空军指挥学院,北京 100097;空军指挥学院,北京 100097;空军指挥学院,北京 100097【正文语种】中文【中图分类】TP391.9动态武器-目标分配问题(Dynamic Weapon-Target Assignment,WTA)是战场指挥决策中的关键问题[1]。
对该问题的求解,是很多武器任务规划软件的核心功能。
以博弈论为基础的作战指挥控制理论在战场指挥决策中得到了广泛的应用。
在敌我双方具有一定情报信息理解的前提下,通过构造对策矩阵,寻找博弈均衡点,来搜寻作战收益最高的分配方案,是解决武器-目标分配问题的可行的方法。
博弈论中最常讨论研究的博弈均衡为纳什均衡(Nash Equilibirum),采用纳什均衡解决任务规划问题的时候,必须保证决策矩阵都有全局唯一的纳什均衡点。
这种决策矩阵博弈对策中存在且唯一的纳什均衡点称之为纯纳什均衡点,而据文献[2],大多数非零和博弈对策矩阵不存在纯纳什均衡点,因此,在实践中,必须考虑纳什均衡点非唯一或不存在的情形。
在理论探讨中,通常采用混合策略(Mixed Strategy)[3],简化决策矩阵[4]等方法来进行无纯纳什均衡点矩阵的决策。
影响纳什均衡策略在动态武器[6]-目标分配问题中的使用问题,除了纯纳什均衡点可能不存在这个理论问题之外,还有搜索纳什均衡点本身的效率问题。
经过科学论证,搜索纳什均衡点、判断纯纳什均衡点数量的计算复杂度都是PPAD-Complete难度,而若对策矩阵中出现元素缺失或不确定的情况,随之产生的纳什均衡点非唯一或不存在使情况更加复杂,除此以外,搜索混合纳什均衡点、简化决策矩阵等工作涉及也都是PPAD-Complete难度的计算,因此,在实践中,基本上没有讨论战役规模决策矩阵的相关论述,而大多是围绕小规模2对2空战等简单对策中讨论纳什均衡的求解。
综上所述,若有方法能够克服纳什均衡点数量的问题,且能够快速有效地计算得到接近纳什均衡的结果,那将是非常实用的。
本文将Epsilon-Nash策略引入解决纯纳什均衡不存在时的局部最优化问题,使用经过线性时间就可计算出的Epsilon-Nash均衡点来代替纳什均衡点,得到纯纳什均衡的近似解,大大地提高了问题的求解效率,并拓宽了博弈论方法在WTA问题中的运用范围。
通过蒙特卡洛仿真,与全信息最优策略,和无信息最优策略进行效用对比来分析方法的使用效果。
通过实验表明,Epsilon-Nash策略能够接近于纯纳什均衡所产生的效能。
1.1WTA问题描述设A,B方进行攻防对抗,A为红方,有N个单位,B为蓝方,有M个单位,则A={1,2,…,n},B= {1,2,…,m},设Pij表示A组第i单位攻击B组第j目标的击毁概率,对应的存活概率是qij=1-Pij,则目标j遭受多目标攻击后的存活概率为:其中,xij为A组第i单位攻击B组第j目标的武器数。
则xij的约束条件为:设红方为A,蓝方为B,行动规划共有K步。
行动步骤为k=0,1,…,K,各步可用作战单位数为N(k),M(k),设在决策中每一步都有评价函数,红方为JA(x(k),y(k)),蓝方为JB(x(k),y(k)),其中:分别是NA(k),MB(k)维向量,表示红蓝双方每个作战单元第k步的目标分配策略。
设第k步时,红方第i作战单元打击蓝方第j作战单元的毁伤概率为,对应的蓝方第j作战单元打击红方第i作战单元的毁伤概率为,设分别是第k步起始时红方第i作战单元和蓝方第j作战单元的生存概率,则生存概率的计算式为:每个作战单元的价值不同,设Wx(i)表示红方第i个作战单元对红方的价值,Wy(i)表示该作战单元对蓝方的价值。
设Wy(j)表示蓝方第j个作战单元对蓝方的价值,Wx(j)表示该单元对红方的价值。
相应地,红蓝双方的策略评价函数可以写为:1.2WTA问题的Nash均衡解设在评价函数JA下,对B方策略y,A方的最优策略x*,定义为:对于B方给定的策略y,A方由最优策略x*变为其他策略x,造成的损失(又称悔值regret)为:对称地,对A方策略x,B方由最优策略y*变为其他策略y,造成的损失为:Dx(x,y),Dy(x,y)严格非负。
当Dx(x,y)=Dy(x,y)=0时,双方策略为纳什均衡策略对。
定义(WTA问题的纳什均衡策略):称uA,uB纳什策略对,当且仅当:若定义双方的累积损失为:则,纳什策略对满足:将式(7)~式(9)给出的纳什策略对条件带入式(3),得到许多步规划以下目标函数:1.3一种Epsilon-Nash均衡策略由于动态武器-目标分配问题的每一步都是NP难优化问题,故式(10)没有解析解,虽然可以对模型进行适当简化,使其符合双矩阵博弈的基本形式,但搜索其Nash均衡解的复杂度仍然是PPAD-Complete难度,且如前所述,纯纳什策略的存在性和唯一性无法保证,因此,需要引入Epsilon-Nash均衡策略作为纳什均衡策略的替代。
双矩阵博弈:博弈空间G=(V,E)中,博弈方i∈V有mi个纯决策方案,j∈V有mj个纯决策方案,则:双矩阵博弈规模mi×mj,〈A(i×j),A(j×i)〉,对所有(i,j)∈E,i方的支付函数(即决策收益)为所有博弈分支付的总和:如式(8)所描述的纳什策略可以抽象为寻找双矩阵博弈问题的纳什均衡点,非合作非零和双矩阵博弈Γ=〈A,B〉,策略对(x*,y*)为纳什均衡,当且仅当,①对行博弈方(row player)任意混合策略x,xTAy*≤x*TAy*且,②对列博弈方(column player)任意混合策略y,x*TBy*≤x*TBy*,定义(Epsilon-Nash策略):对于给定的任意ε>0,一对策略()在非合作非零对策Γ=〈A,B〉中为Epsilon-Nash均衡,当且仅当,①对行博弈方(row player)任意混合策略x,且②对列博弈方(column player)任意混合策略y,,引理[5]((2+λ)/4-纳什均衡存在定理):一个n×m非负正规化非合作双矩阵对策Γ=〈A,B〉中,设为所有行(列)玩家所有纳什均衡决策中支付最小者,且设λ=max,则必存在线性时间可求得的(2+λ)/4-纳什均衡策略。
(2+λ)/4-纳什均衡求解方法:设如下线性规划问题:线性规划1:线性规划2:设t*,y*,s*,x*分别是线性规划1和2最优解,则存在至少一行r∈[1,n],满足,一列c∈[1,m]使。
即最优解的行号和列号分别是r,c。
设为行决策方纳什策略中的最小支付,对应的纳什策略为,则为线性规划1的可行解,因此,有,相似地,设对应列决策方纳什策略中的最小支付和策略,则为线性规划2的可行解,因此,有。
而由于设λ=max,因此,有。
因此,设则(,)是Γ=〈A,B〉的(2+λ)/4-纳什均衡策略,即,按照式(14)、式(15)构造的策略最多比纯纳什策略多支付(2+λ)/4,此解可以在线性时间内获得[5]。
1.4钟摆搜索Epsilon-Nash策略由于对抗双方控制变量x(k),y(k)属于动态变化的量,所以多步预测是极复杂的问题。
为简化计,可以用钟摆交替搜索法。
首先假设蓝方两步的步骤是{y (k),y(k+1)}0,相应地算出对应的策略{x(k),x(k+1)}0,然后再根据此策略计算蓝方的响应策略{y(k),y(k+1)}1以此类推。
结束终止条件为:其中r≥1,当搜索结束,选取在其中满足线性规划式(12)、式(13)的量,即可构造Epsilon-Nash决策输出。
1.5Epsilon-Nash策略评价为验证Epsilon-Nash策略目标分配方法的实际效果,定义两种其他策略作为参考策略。
即,全信息最优策略和无信息最优策略。
定义(全信息最优策略):红方全信息最优策略{x*(k),x*(k+1)}∈XA*(k)为在给定蓝方作战单位y (k)条件下,在后推步长d=1时,满足如下不等式:定义蓝方全信息最优策略为在给定红方作战单位x(k)条件下,在后推步长d=1时,满足如下不等式:全信息最优策略是在完全知晓对方策略的前提下得到的,且仅知道当前时刻对方的策略,其策略的目标函数可以在下一个运算周期内进行推测。
定义(无信息最优策略):无信息最优策略x(ok),在k步骤时,,任一方的决策满足己方获益最大,即,蓝方以此类推。
无信息最优策略即完全忽略对方策略而产生的一种策略。
为验证Epsilon-Nash策略在动态武器-目标分配问题中的效用,进行了红蓝双方各10个目标的蒙特卡洛仿真。
假设红蓝双方的作战单元价值相同,每次仿真生成新的随机决策矩阵,首先假定了两个16×16矩阵,分别是红方对蓝方以及蓝方对红方的杀伤概率,取值服从[0,0.5]区间上的正态分布。