人工智能代理用出乎意料的捉迷藏策略震惊研究者 | 智能技术

发布日期:2019-10-04 10:00


Open AI

2500万场比赛后,人工智能代理互相捉迷藏,掌握了四种基本的游戏策略。研究人员预料到了这一部分。OpenAI项目展示了AI玩家的“紧急行为”,包括冲浪。

在总共3.8亿个游戏之后,人工智能玩家开发出了研究人员不知道的策略,这些策略在研究人员自己创建的游戏环境研究者自己不知道是可能的。这是让位于旧金山的一家研究公司OpenAI感到惊讶的部分。

人工智能玩家通过一种被称为强化学习的机器学习技术来学习一切。在这种学习方法中,人工智能代理从随机行为开始。有时,这些随机的行为会产生预期的结果,从而获得回报。通过大规模的尝试和错误,他们可以学习复杂的策略。

在游戏的背景下,这个过程可以通过AI与自己的另一个版本进行合作,以确保对手能够势均力敌。它还将人工智能锁定在一个上升的过程中,在这个过程中出现的任何新策略都会迫使对手寻找对策。随着时间的推移,这种“自我游戏”相当于研究人员所说的“自动课程”。

根据Open AI研究人员Igor Mordatch的说法,这个实验表明,自我游戏“足以让代理人们自己学习令人惊讶的行为,就像孩子们在一起玩一样。”

强化是当前人工智能研究的一个热点领域。Open AI的研究人员在训练一组机器人玩视频游戏Dota 2时使用了这项技术,它们在去年4月击败了一支世界冠军团队。谷歌母公司Alphabet旗下人工智能公司DeepMind在古代棋盘游戏Go和电子游戏星际争霸中用它获胜。

艾伦人工智能研究所(AI2)在西雅图的一位研究人员说,诸如“捉迷藏”之类的游戏为AI探员学习“基础技能”提供了一个很好的途径。将游戏性视为人工智能进行常识推理和交流的一种方式。“然而,我们离将高度简化的环境中的这些初步发现转化为现实世界还很远,”肯巴维(Kembhavi)说。


插图:Open AI
AI代理人在OpenAI开发的捉迷藏游戏中构建了一个堡垒。

在Open AI的捉迷藏游戏中,隐藏者和寻求者只有在赢得游戏后才能获得奖励,让AI玩家自己制定策略。在包含墙、块和坡道的简单三维环境中,玩家首先学会了四处奔跑和互相追逐(策略1)。接下来,隐藏者学会了移动街区来建造堡垒(2),然后搜索者学会了移动斜坡(3),使他们能够跳进堡垒。然后,藏匿者学会了在搜索者使用它们之前把所有的斜坡移动到他们的堡垒中。(4)接下来是两个让研究人员感到惊讶的策略。首先,搜索者了解到他们可以跳上一个盒子,然后“冲浪”到一个堡垒(5),让他们可以跳进去——这是研究人员没有意识到在游戏环境中物理上是可能的。所以作为最后的对策,隐藏者学会了把所有的盒子锁在适当的位置,这样它们就不能用作冲浪板。


Open AI人工智能代理用附近的一个盒子冲浪进入竞争对手的堡垒。

在这种情况下,让人工智能代理以一种出乎意料的方式行事并不是问题:他们找到了不同的奖励途径,但没有造成任何麻烦。然而,你可以想象结果会相当严重的情况。机器人在现实世界中的行为会造成真正的伤害。还有尼克·博斯特罗姆(Nick Bostrom)著名的例子,一家人工智能公司经营的回形针工厂,其目标是生产尽可能多的回形针。正如博斯特罗姆在2014年告诉科技纵览杂志(IEEE Spectrum)的那样,人工智能可能意识到“人体由原子组成,这些原子可以用来制作一些非常漂亮的回形针。”

Open AI研究团队的另一位成员鲍文.贝克(Bowen Baker)指出,很难预测一个AI代理人在一个环境中的所有行为方式,即使是一个简单的环境。“建立这样的环境是很困难的,”他说。“代理人们会想出这些意想不到的行为,当你把他们放在更复杂的环境中时,这将是一个安全问题。”

英国剑桥微软研究所的人工智能研究人员卡蒂娅·霍夫曼(katja hofmann)见证了人工智能代理的许多游戏:她发起了一场以“我的世界“(Minecraft)为游戏场地的比赛。她说,在这个游戏中看到的紧急行为,以及其他研究人员先前的实验表明,游戏可以成为安全和负责任的人工智能研究的有利工具。

霍夫曼说:“在游戏和类似游戏的环境中,我发现这样的演示是探索安全环境中现有方法的能力和局限性的好方法。”“这样的结果将有助于我们更好地理解如何验证和调试强化学习系统,这是迈向实际应用的关键一步。”

贝克说,还有一个充满希望的外来物,来自于捉迷藏实验中的惊喜。他说:“如果你把这些代理人放在一个足够富裕的环境中,他们会找到我们从来不知道可能的策略。”“也许他们能解决我们无法想象的问题。”