进化策略+进化规划.共42页文档
- 格式:ppt
- 大小:3.59 MB
- 文档页数:42
第一章 进化优化算法概述1.1 进化算法的一般框架自1960年以来,进化算法已经发展出相当多的种类,但一般认为进化算法有5个基本组成部分[3]:1.问题解的遗传表示。
2.种群的初始化方法。
3.根据个体适应度对其进行优劣判定的评价函数。
4.产生新的种群的进化算子5.算法的参数取值1.1.1进化优化算法解决对象的描述进化算法主要是求解优化问题,其数学模型如下:Maximizey =f (x )(1.1)Subject to g(x )=()(1x g ,)(2x g ,…,)(x g m )≤0 (1.2)其中 x =(1x ,2x ,…,n x )∈X ,x 是决策向量,X 是决策向量形成的决策空间;y 是决策目标。
这是个最大化问题,对于最小化问题可以令y '=C -f (x )转化为最大化问题,因此,它们在本质上是一致的。
根据优化函数f (x )是否连续可以将最优化问题分为二大类:连续函数的最优化与离散函数的最优化。
后者也可以称为组合优化问题。
根据是否包含约束条件(1.2)可分为约束优化问题和无约束优化问题。
此外,若y 是一个决策向量,则是一个多目标的优化问题,我们将在第二章进一步讨论。
1.1.2进化优化算法结构进化算法的一般结构如图 1.1所示,进化算法维持由一群个体组成的种群P (t )(t 为进化代数)。
每个个体代表问题的一个潜在解。
每个个体通过目标函数评价得到适应度并根据优胜劣汰的原则进行选择。
被选择的个体经历遗传操作产生新的个体,主要有两种遗传操作:杂交是将多个个体的有关部分组合起来形成新的个体,变异是将一个个体改变而获得新的个体。
新产生的个体(子代)继续被评价优劣。
从父代种群和子代种群中选择比较优秀的个体形成新的种群。
在若干代后,算法收敛到一个最优个体,该个体很有可能代表问题的最优或次优解。
图1.1 进化算法流程图1.1.3进化算法几个环节的解释遗传编码:如何将问题的解编码成染色体是进化算法使用中的关键问题,目前的编码方式主要有二进制编码[4]、Gray编码、实数编码、字符编码等,对于更复杂的问题,用合适自然的数据结构来表示染色体的等位基因,可以有效抓住问题的本质,但总的来说,完整的遗传编码理论尚未建立,部分文献[5~7]的讨论都有都有一定的局限性。
分类号:密级:专业学位研究生学位论文论文题目(中文)进化程序设计模式研究和生命进化现象的程序模拟论文题目(外文)The study on "Evolutionary Programming Model"and the programming simulation on the phenomenon of the life evolution研究生姓名范玫学位类别工程硕士专业学位领域计算机应用学位级别硕士校内导师姓名、职称马义忠教授校外导师单位、姓名甘肃省冶金设计院郎宪录高工论文工作起止年月2011 年1月至2012年3月论文提交日期2012年 3月论文答辩日期2012年 5月学位授予日期2012年 5月校址:甘肃省兰州市原创性声明本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立进行研究所取得的成果。
学位论文中凡引用他人已经发表或未发表的成果、数据、观点等,均已明确注明出处。
除文中已经注明引用的内容外,不包含任何其他个人或集体已经发表或撰写过的科研成果。
对本文的研究成果做出重要贡献的个人和集体,均已在文中以明确方式标明。
本声明的法律责任由本人承担。
论文作者签名:日期:关于学位论文使用授权的声明本人在导师指导下所完成的论文及相关的职务作品,知识产权归属兰州大学。
本人完全了解兰州大学有关保存、使用学位论文的规定,同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版,允许论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用任何复制手段保存和汇编本学位论文。
本人离校后发表、使用学位论文或与该论文直接相关的学术论文或成果时,第一署名单位仍然为兰州大学。
本学位论文研究内容:□可以公开□不易公开,已在学位办公室办理保密申请,解密后适用本授权书。
(请在以上选项内选择其中一项打“√”)论文作者签名:导师签名:日期:日期:进化程序设计模式研究和生命进化现象的程序模拟摘要目前在计算机程序设计领域,对软件的动态自适应能力的需求越来越强烈,它要求软件在运行过程中能够根据运行环境的情况动态地改变行为,从而更好地适应环境,这就要求我们的程序和软件能够自动地进化,能够动态适应不同的运行环境。
如何⼀⽂读懂「进化策略」?这⾥有⼏组动图!原⽂来源:「雷克世界」编译:嗯~阿童⽊呀本⽂将借助于⼀些视觉实例,阐述进化策略(Evolution Strategies,ES)是如何进⾏⼯作的。
为了能够让读者更为容易地了解更多详细信息,将尽量保持⽂中所涉及的等式简明易懂,同时附加原始⽂章的链接。
这是⼀系列⽂章中的第⼀篇⽂章,计划展⽰该如何将这些算法应⽤于MNIST、OpenAI Gym、RobSchool以及PyBullet环境的⼀系列任务中。
介绍神经⽹络模型具有很强的表达性和灵活性,如果我们能够找到合适的模型参数的话,那么就可以使⽤神经⽹络,解决许多具有挑战性的问题。
深度学习的成功很⼤程度上来⾃于使⽤反向传播算法有效地计算⽬标函数在每个模型参数上的梯度的能⼒。
有了这些梯度,我们就可以有效对参数空间进⾏搜索,以找到⼀个解,⽽这个解通常⾜够让我们的神经⽹络完成困难的任务。
不过,有许多问题是反向传播算法⽆法解决的。
例如,在强化学习(RL)问题中,我们也可以训练⼀个神经⽹络做出决策,以执⾏⼀系列动作来完成环境中的某些任务。
然⽽,当智能体在当前执⾏了⼀个动作之后,对未来给予智能体的奖励信号的梯度进⾏评估是⾮常重要的,特别是在未来,奖励是跨越了许多时间步长之后实现的情况下。
另外,即使我们能够计算出精确的梯度,但也存在被困于局部最优解的问题,⽽这个问题在强化学习任务中是极其常见的。
困于局部最优解可以这样说,强化学习的整个领域都是致⼒于研究这⼀信⽤分配问题的,并且近年来也取得了很⼤的进步。
但是,当奖励信号稀疏时,信⽤分配仍然是个难题。
在实际中,奖励可以是稀疏和嘈杂的。
有时候,我们可能只得到⼀份奖励,这就像是年终的奖⾦⽀票,主要是取决于雇主,我们很难弄清楚为什么会这么低。
对于这些问题,与其依赖于对策略进⾏未来的⾮常嘈杂且可能毫⽆意义的梯度评估,还不如忽略任何梯度信息,并尝试使⽤诸如遗传算法(GA)或ES这样的⿊盒优化技术。