进化策略+进化规划共44页
- 格式:ppt
- 大小:3.83 MB
- 文档页数:44
如何⼀⽂读懂「进化策略」?这⾥有⼏组动图!原⽂来源:「雷克世界」编译:嗯~阿童⽊呀本⽂将借助于⼀些视觉实例,阐述进化策略(Evolution Strategies,ES)是如何进⾏⼯作的。
为了能够让读者更为容易地了解更多详细信息,将尽量保持⽂中所涉及的等式简明易懂,同时附加原始⽂章的链接。
这是⼀系列⽂章中的第⼀篇⽂章,计划展⽰该如何将这些算法应⽤于MNIST、OpenAI Gym、RobSchool以及PyBullet环境的⼀系列任务中。
介绍神经⽹络模型具有很强的表达性和灵活性,如果我们能够找到合适的模型参数的话,那么就可以使⽤神经⽹络,解决许多具有挑战性的问题。
深度学习的成功很⼤程度上来⾃于使⽤反向传播算法有效地计算⽬标函数在每个模型参数上的梯度的能⼒。
有了这些梯度,我们就可以有效对参数空间进⾏搜索,以找到⼀个解,⽽这个解通常⾜够让我们的神经⽹络完成困难的任务。
不过,有许多问题是反向传播算法⽆法解决的。
例如,在强化学习(RL)问题中,我们也可以训练⼀个神经⽹络做出决策,以执⾏⼀系列动作来完成环境中的某些任务。
然⽽,当智能体在当前执⾏了⼀个动作之后,对未来给予智能体的奖励信号的梯度进⾏评估是⾮常重要的,特别是在未来,奖励是跨越了许多时间步长之后实现的情况下。
另外,即使我们能够计算出精确的梯度,但也存在被困于局部最优解的问题,⽽这个问题在强化学习任务中是极其常见的。
困于局部最优解可以这样说,强化学习的整个领域都是致⼒于研究这⼀信⽤分配问题的,并且近年来也取得了很⼤的进步。
但是,当奖励信号稀疏时,信⽤分配仍然是个难题。
在实际中,奖励可以是稀疏和嘈杂的。
有时候,我们可能只得到⼀份奖励,这就像是年终的奖⾦⽀票,主要是取决于雇主,我们很难弄清楚为什么会这么低。
对于这些问题,与其依赖于对策略进⾏未来的⾮常嘈杂且可能毫⽆意义的梯度评估,还不如忽略任何梯度信息,并尝试使⽤诸如遗传算法(GA)或ES这样的⿊盒优化技术。