进化策略让 AI 开挂，玩游戏不断给自己续命

腾讯数码

2018年06月04日 22:20

　　雷锋网按：这里是，雷锋字幕组编译的Two minutes paper专栏，每周带大家用碎片时间阅览前沿技术，了解AI领域的最新研究成果。

　　原标题 This Evolving AI Finds Bugs in Games - Two Minute Papers #250

　　翻译 | 孙启超　　整理 | 凡江

　　强化学习会通过在系统中选择一系列的行为，把分数提到最高水平。我们可以将这类技术运用于训练一种可以打爆各种各样游戏的人工智能，例如在 Q bert 游戏中，人工智能每走一步，都要计算出合适的操作来控制这个橙色的光标，并在不碰到紫色敌人的情况下，点亮所有的立方体。

　　针对部分具有挑战性的深度强化学习问题，比如雅达利游戏，已经有研究表明，进化策略（Evolution Strategies）是强化学习的可行替代方案。本期论文所提出的进化策略，目标不仅是训练一个代理而是并行训练所有代理，这种方法效率很高，就像大自然的进化那样，优胜劣汰，表现最好的代理产生新的后代。

　　Open AI 最近的研究结果表明，比起深度强化学习的各种通用手段，自然进化策略也不失为一种好的替代手段。本期论文使用的进化策略证明了，即便是年代久远的进化策略，最后的成绩也非常喜人。

　　更酷的是，在经过 5 个小时的训练后，我们发现该算法不仅能掌控游戏，还能通过很多有创造性的方式完胜 Q bert 中的机器人玩家。

　　当它下落牺牲自己来引诱紫点时，出了个小故障，令我们惊喜的是，当从这个位置下落的时候，它应该是丢一条命，但因为这是个 BUG，所以没有死掉。

　　厉害~ AI 给自己续命

　　还有一个非常酷的技术就是为了等待对手它会在那个位置来回跳，然后突然跳到另外一条路径上。

　　它发现并利用了另一个很严重的 BUG，据我所知这个 BUG 以前从来没有发生过，在完成第一阶段后。它开始以一种看似随机的方式在周围跳跃。过了一会我们看到游戏并没有进入下个阶段，那些方格开始闪烁，人工智能可以想要多少分就拿多少分。

　　分数蹭蹭往上涨

　　通过进化策略，AI 可以轻轻松松搞定诸如像雅达利这样的游戏，甚至还能发现 Bug，简直是开了挂一般的存在。

　　视频原址：https://www.youtube.com/watch?v=wm8tK91k37U&t=105s

　　论文原址：https://arxiv.org/pdf/1802.08842.pdf

　　雷锋网雷锋网

家电之家©部分网站内容来自网络，如有侵权请联系我们，立即删除！

策略人工智能

你该读读这些：一周精选导览

与恩博力代言人王赐月一起，解码恩博力电器中的“冠军同款”

与恩博力代言人王赐月一起，解码恩博力电器中的“冠军同款”

清凉不止于风！美的空调科技开放日开启“夏日清凉革命”新体验

清凉不止于风！美的空调科技开放日开启“夏日清凉革命”新体验

东芝艺术品家电以人为尺，诠释生活新美学

东芝艺术品家电以人为尺，诠释生活新美学

95后夫妻盛夏坚守高空守护万家清凉京东以旧换新享国补再送外卖券

95后夫妻盛夏坚守高空守护万家清凉京东以旧换新享国补再送外卖券

2025 FIFA世俱杯™全球官方合作伙伴ASKO闪耀赛场，共逐非凡时刻

2025 FIFA世俱杯™全球官方合作伙伴ASKO闪耀赛场，共逐非凡时刻

《重构交付逻辑，激活产品价值》 —装库科技副总经理赵世佳解读“团装模式”的时代意义

《重构交付逻辑，激活产品价值》 —装库科技副总经理赵世佳解读“团装模式”的时代意义

更多内容...

TOP

文章仪表混凝土测量苹果跟随生活区块学生烟草

More

2008～2017 家电之家 Inc. All rights reserved.