当前位置:主页 > 单职业传奇 > 正文

【DOTA之后新里程碑】DeepMind强化学习重大突破:AI在多人射击游戏完胜人类!

时间:2018-08-30 05:18 | 来源:www.9pay.net.cn | 编辑:传奇最大网站

小编导读:【新智元导读】继OpenAI之后,DeepMind也在多智能体强化学习方面秀肌肉:首次在第一人称射击游戏的多人模式中完胜人类,而且没有使用大量训练局数,轻松超过了人类水平。 就在OpenAI宣布在5v5 DOTA 2中战胜人类玩

  CTF是在程序生成的环境中执行的,因此,智能体必须要适应不可见的地图。

  用fast and slow RNN 和内存机制达到类似Hierarchical RL的作用。

  就在OpenAI宣布在5v5 DOTA 2中战胜人类玩家后没多久,今天,DeepMind也分享了他们在多智能体学习(multi-agent learning)方面的进展。

  一场早期的测试比赛,由人类与训练好的智能体一起玩CTF。

  智能体必须从头开始学习如何在不可见(unseen)的环境中观察、行动、合作和竞争,所有这些都来自每场比赛的一个强化信号:他们的团队是否获胜。这是一个具有挑战性的学习问题,它的解决方法基于强化学习的三个一般思路:

  图:交互式CTF游戏浏览器,分别有室内和室外的程序生成环境。室外地图游戏是FTW智能体相互之间的竞赛,而室内地图上的游戏则是人类与FTW智能体之间的竞赛(见图标)。

  这些行为出现在训练过程中,通过强化学习和群体层面的进化,一些行为——比如跟随队友——随着智能体学会以更加互补的方式合作而减少。

  从多智能体的角度看,CTF要求队员既要成功地与队友合作,又要与对方敌手竞争,同时在可能遇到的任何比赛风格中保持稳健性。

  不过,FPS在策略学习上面的难度还是比Dota,星际这种RTS游戏小很多,CTF模型在长期策略游戏上效果还有待观察。

  这个AI名叫“为了赢”(For the Win,FTW),只玩了将近45万场游戏,理解了如何有效地与人和其他的机器合作与竞争。

  FTW智能体学会的比强大的基线方法更强,并超过人类玩家的胜率。事实上,在一项对参与者的调查中,它们被认为比人类参与者更具有合作精神。

  除了这种丰富的表示,智能体还会如何行动呢?首先,我们注意到这些智能体的反应时间非常快,tagging也非常准确,这可以解释为它们的性能。但是,通过人为地降低tagging的准确度和反应时间,我们发现这只是它们成功的因素之一。

Tag关键词: