DeepMind在Quake III中部署自学代理人以击败人类选手 | 广东省智能创新协会

发布日期:2019-06-04 10:00
国际象棋和围棋最初是为模仿战争而开发的,但它们做得不好。战争和大多数其他比赛通常涉及不止一个对手和一个以上的盟友,并且戏剧通常不是在有序的平面矩阵上展开,而是在三维建立的各种景观中展开。



这就是为什么Alphabet的DeepMind,已经粉碎了国际象棋和围棋,现在已经解决了三维、多人、第一人称视频游戏对人工智能带来的更巨大的挑战。今天在“ 科学”杂志上发表文章,主要作者Max Jaderberg和 17位DeepMind同事 描述了一个完全无监督的自学程序如何让软件在玩“ Quake III Arena ”时超越人类表现。该实验涉及一个版本的游戏,需要两个中的每一个球队尽可能多地抓住其他球队的旗帜。

团队从设置在地图两端的大本营开始,在每轮之前随机生成。玩家漫游,与地图上的建筑物,树木,走廊和其他特征以及盟友和对手互动。他们试图使用类似激光的武器“标记”对方队员; 被标记的玩家必须丢弃他当场可能携带的任何旗帜并返回其团队的基地。

DeepMind使用软件代理表示每个玩家,该软件代理看到人类玩家将看到的同一屏幕。代理商无法知道其他代理人看到了什么; 再次,这是一个比大多数棋盘游戏提供的更接近真实战略竞赛的近似值。每个代理都是通过随机选择开始的,但随着证据在游戏的连续迭代中涓涓细流,它被用于称为强化学习的过程中。结果是使代理的行为收敛于有目的的行为模式,称为“策略”。 

每个代理人自己制定政策,这意味着它可以专攻一点。但是,有一个限制:在每1000次迭代后,系统会比较策略并估计整个团队在模仿这个或那个代理时会做得多好。如果一个特工的获胜机会低于另一个特工的70%,那么较弱的特工会复制较强的特工。同时,强化学习本身通过将其与其他指标进行比较来调整。对tweaker的这种调整被称为元优化。

代理商最初是空白的,但他们确实在评估事物的过程中有一个功能。它被称为具有外部记忆的多时间尺度递归神经网络,它不仅关注游戏结束时的得分,还关注早期点。研究人员指出,“纯粹基于比赛结果的奖励,例如胜利/平局/失利信号......非常稀疏和延迟,导致无法学习。因此,我们通过考虑游戏点流来获得更频繁的奖励。“

当从随机生成的位置开始时,该程序通常击败人类玩家。即使人类已经练习了12个小时,他们仍然能够赢得25%的比赛,占6%的比赛时间,并且输掉了剩下的比赛。

但是,当两名专业游戏测试人员获得一张特别复杂的地图时,他们没有在训练中使用,并且被允许在该地图上与两名软件代理人一起玩游戏,专业人员只需要6小时的训练即可获得最佳状态。该结果未在科学论文中描述,而是在向新闻界提供的补充文件中描述。专业人员使用他们对地图的深入研究来确定代理人喜欢的路线,并找出如何避免这些路线。

因此,目前人们仍然可以在经过充分研究的定位战中击败软件。当然,现实生活很少提供这样的机会。Robert E. Lee只有一次与葛底斯堡战役作战。