AI可通过玩“星际争霸”和“我的世界”来学习真实世界的人类技能 | 广东省智能创新协会

发布日期:2019-05-28 10:00
DarioWünsch感到自信。来自德国莱比锡的这位28岁的年轻人即将成为第一个在快速视频游戏“星际争霸II”中接受人工智能程序AlphaStar的专业游戏玩家。Wünsch一直专业玩“星际争霸II”近十年。他这五场比赛的挑战中不可能输给一个新创造的AI游戏玩家。



甚至AlphaStar在总部位于伦敦的人工智能研究公司DeepMind的创始人也是如此,该公司是Alphabet公司的一部分,对结果并不乐观。他们是一大批研究人员中的最新成员,他们试图建立一个可以处理星际争霸II令人眼花缭乱的复杂性的人工智能。到目前为止,还没有人创造出能够击败经验丰富的人类玩家的系统。

果然,当AlphaStar在12月12日对阵Wünsch时,人工智能似乎在第一场比赛开始时犯了一个致命错误:它忽略了在营地入口处建立一个保护屏障,让Wünsch渗透并迅速挑选关闭了几个工人单位。有一分钟,看起来星际争霸II仍然是人类战胜机器的领域。但AlphaStar取得了胜利的回归,组建了一个顽强的罢工队伍,很快就浪费了Wünsch的防守。AlphaStar 1,Wünsch0。

Wünsch摇了摇头。他只需要更多地关注防守。但是在第二轮比赛中,AlphaStar通过扣留攻击让这位职业选手感到惊讶,直到它积累了一支再次粉碎Wünsch部队的军队。之后的三场比赛,AlphaStar以5比0的比分赢得了比赛,将Wünsch降级为由机器击败的小型但不断增长的世界级游戏玩家俱乐部。

研究人员长期以来一直将游戏作为AI智能的基准。1997年,IBM的Deep Blue赢得了国际象棋冠军加里卡斯帕罗夫(SN:8/2/97,第76页)的国际赞誉。2016年,DeepMind的AlphaGo以击败Go冠军Lee Sedol而着称(SN:12/24/16,第28页)。

但是像国际象棋和围棋这样的基于棋盘的比赛到目前为止只能推动人工智能。这些游戏仍然非常简单 - 玩家可以轮流看到每个棋子在棋盘上的位置。在制作能够处理真实世界歧义和快节奏互动的人工智能时,最有用的机器认知测试可能会出现在虚拟世界中的游戏中。

建立可以打败人类玩家的AI游戏玩家不仅仅是一个虚荣项目。哥本哈根IT大学的AI研究员Sebastian Risi说:“最终的想法是......将这些算法用于实际挑战。” 例如,在总部位于旧金山的公司OpenAI训练了一个五人工作小组参加一个名为Dota 2的在线战斗游戏之后,程序员重新利用这些算法教导机器人手的五个手指以前所未有的灵巧操纵物体。研究人员在1月份在arXiv.org网上描述了这项工作。

DeepMind的研究人员同样希望AlphaStar的设计能够让研究人员尝试构建AI来处理长时间的相互作用,例如那些涉及模拟气候变化或理解对话的人,这是一项特别困难的任务(SN:3/2/19,第8页)。

目前,AI仍在努力解决的两个重要问题是:相互协调,不断将新知识应用于新情况。事实证明,星际争霸的世界是一种优秀的测试平台,可以让人工智能更加合作。为了试验使AI永远成为学习者的方法,研究人员正在使用另一种流行的视频游戏Minecraft。虽然人们可能会利用屏幕时间作为对现实生活的娱乐分心,但虚拟挑战可能有助于AI掌握在现实世界中取得成功所需的技能。

街机教育

AI可以在视频游戏中练习不同的技能,以学习如何在现实世界中相处。例如,导航技术可以帮助搜索和救援机器人徘徊崎岖的地形,知道如何管理许多工人的AI可以帮助管理公司。

为现实世界教授AI有用技能的游戏类型。



团队合作

当AlphaStar接手Wünsch时,AI就像人类一样玩星际争霸II:它像一个木偶操纵者一样完全控制着舰队中的所有角色。但在旧金山的Facebook AI Research的人工智能研究员Jakob Foerster表示,有许多现实世界的情况依赖于一个主脑AI来微观管理大量设备会变得难以处理。

想想监督整个医院照顾病人的数十个护理机器人,或者自驾卡车协调他们在数英里的高速公路上的速度,以缓解交通瓶颈。因此,包括Foerster在内的研究人员正在使用星际争霸游戏尝试不同的“多代理”方案。

在某些设计中,个别作战单位具有一定的独立性,但仍然受到集中控制器的支持。在这个设置中,监督AI就像一个教练在场边喊叫。教练制定了一个重要的计划并向团队成员发出指示。各个单位使用该指导以及对周围环境的详细观察来决定如何采取行动。中国北京大学计算机科学家王益洲及其同事在提交给IEEE神经网络和学习系统的论文中报告了这种设计的有效性。

Wang的团队使用强化学习训练其人工智能团队,这是一种机器学习,其中计算机系统通过与环境互动获得技能,并在做正确的事情后获得虚拟奖励。每个队友都根据其附近被淘汰的敌人数量获得奖励,以及整个团队是否胜过由游戏内置的自动对手控制的舰队。在由至少10个战斗单位组成的团队的几个不同挑战中,教练指导的AI团队赢得了60%到82%的时间。没有独立推理能力的中央控制的AI团队对内置对手的成功率较低。

当团队可以依赖所有代理人之间快速,准确的沟通时,具有单个指挥官的AI工作人员对个别单位施加至少一些控制可能效果最佳。例如,该系统可以用于同一仓库内的机器人。

但是,对于许多机器,例如自动驾驶汽车或无人机群体,它们分布在很远的距离,单独的设备“将无法与单个控制器保持一致,可靠和快速的数据连接,”Foerster说。这是每个AI本身。在这些限制下工作的AI通常无法与集中式团队协调,但Foerster及其同事设计了一个培训计划,以使独立思考的机器能够协同工作。

在该系统中,集中观察者在强化学习期间向队友提供反馈。但是,一旦该小组接受了全面培训,AI就会独立完成。主要代理人不像是边线教练,更像是在排练期间提供芭蕾舞女演员指导的舞蹈教练,但在舞台表演期间保持沉默。

AI监督员通过在培训期间提供个性化建议,为个人AI提供自给自足的准备。在每次试运行之后,监督员模拟替代可能的未来,并告诉每个代理人,“这就是实际发生的事情,如果其他人都做了同样的事情就会发生这种情况,但你做了不同的事情。”这种方法,福斯特的团队于2018年2月在新奥尔良举行的AAAI人工智能会议上,帮助每个AI单位判断哪些行动有助于或阻碍该团队的成功。

为了测试这个框架,Foerster及其同事在星际争霸中训练了三组五个AI单元。受过训练的单位必须仅根据对周围环境的观察来行动。在由内置的非人类对手指挥的相同球队的战斗回合中,所有三个AI组赢得了他们的大部分回合,在相同的战斗场景中表现出三个中央控制的AI团队

终身学习

程序员在星际争霸和星际争霸II中测试的AI培训类型旨在帮助AI团队掌握单一任务,例如协调交通信号灯或无人机。星际争霸游戏非常适合这种情况,因为对于所有移动部件而言,游戏相当简单:每个玩家都有一个压倒对手的单一目标。但是,如果人工智能变得更加多样化和人性化,程序需要能够学习更多知识并不断学习新技能。

“我们现在看到的所有玩Go和国际象棋的系统 - 他们基本上都训练过很好地完成这一项任务,然后他们被修复以便他们无法改变,”Risi说。Risi说,一个带有18×18网格的Go-playing系统,而不是标准的19×19游戏板,可能必须在新的主板上完全重新训练。改变星际争霸单位的特征需要进行相同的背对一训练。类似乐高的Minecraft领域是一个更好的测试方法,使AI更具适应性。



与“星际争霸”不同,“我的世界”不会让玩家完成任务。在这个由三维灰尘,玻璃和其他材料组成的虚拟世界中,玩家可以收集资源来建造结构,旅行,寻找食物,并做其他任何他们喜欢的事情。总部位于旧金山的软件公司Salesforce的人工智能研究员Caiming Xiong和同事们在Minecraft中使用了一个简单的建筑物来测试人工智能,以便不断学习。

熊的团队并没有指定人工智能通过强化学习中的反复试验来学习单一任务,而是让人工智能的教育错综复杂。研究人员指导人工智能通过越来越困难的强化学习挑战,从寻找特定区块到堆叠区块。人工智能旨在将每个挑战分解为更简单的步骤。它可以使用旧的专业知识解决每一步或尝试新的东西。与另一个没有使用先前知识来传达新学习经验的人工智能相比,熊团队的人工智能证明是一个更快的研究。

积累知识的人工智能在适应新情况方面也更好。熊和同事告诉两个AI如何拾取块。在一个只包含一个街区的简单房间内进行培训时,两个AI都获得了“收集项目”技能。但是在一个有多个街区的房间里,离散任务AI很难确定其目标并且只有29%的时间抓住了正确的区块。

知识积累的AI知道依赖于先前学习的“查找项目”技能来在分心中定位目标对象。它在94%的时间内获得了正确的阻止。该研究于2018年5月在温哥华举行的国际学习代表大会上发表。

通过进一步的培训,熊和同事的系统可以掌握更多的技能。但是这种设计受到以下事实的限制:AI只能学习人类程序员在训练期间分配的任务。人类没有这种教育截止。当人们完成学业时,“不喜欢,”现在你已经完成了学习。你可以冻结你的大脑然后去,“Risi说。

加州大学圣地亚哥分校的机器人专家Priyam Parashar说,一个更好的人工智能将在游戏和模拟中获得基础教育,然后能够在其整个生命周期中继续学习。例如,如果居民安装婴儿门或重新安排家具,家用机器人应该能够找到导航工作区。

Parashar及其同事创建了一个AI,可以识别需要进一步培训而无需人工输入的实例。当人工智能遇到新的障碍时,它会评估环境与预期的不同。然后它可以在心理上排练各种解决方案,想象每个解决方案的结果并选择最佳解决方案。

研究人员在一个两室的Minecraft建筑中用AI测试了这个系统。人工智能已经接受过培训,可以从第二个房间找回金块。但是另一个Minecraft玩家在房间之间的门口建造了一个玻璃屏障,阻止AI收集金块。人工智能评估了这种情况,并通过强化学习,找出了如何粉碎玻璃以完成其任务,Parashar和她的同事在2018年知识工程评论中报道。

Parashar承认,面对意想不到的婴儿门或玻璃墙的人工智能应该可能不会得出最好的解决办法。但她说,程序员可以为AI的心理模拟添加额外的约束 - 比如不应该破坏有价值或拥有的对象的知识 - 来告知系统的学习。

快速吸收

一个知道如何应用过去的知识来学习新技能(深绿色)的Minecraft玩AI可以更快地学习如何成功地执行新技能。与不依赖于旧专业知识(浅绿色)的人工智能相比,它在尝试中获得的奖励高达1.0。







新的视频游戏一直在成为AI测试床。人工智能和纽约大学的游戏研究员Julian Togelius及其同事希望在Overcooked中测试合作的AIs - 这是一个团队烹饪游戏,发生在一个紧凑,拥挤的厨房里,玩家不断地互相攻击。“游戏旨在挑战人类的思想,”Togelius说。任何视频游戏本质上都是一个现成的测试,可以测试AI知识如何模仿人类的聪明才智。

但是当谈到在视频游戏或其他模拟世界中测试AI时,“你永远不能说,'好吧,我已经模拟了现实世界中发生的一切,'”Parashar说。弥合虚拟和物理现实之间的差距将需要更多的研究。

她建议,保持模拟训练的人工智能免于过度使用的一种方法是设计需要AI在需要时向人们寻求帮助的系统。“从某种意义上说,这使得AI更像人类,对吗?”Parashar说。“我们人类都是在朋友的帮助下顺利成长过来的。”