DeepMind尝试推动人工智能与人类共同工作 | 广东省智能创新协会

发布日期:2019-07-03 10:00
研究人员正在尝试开发与人类合作的人工智能。有朝一日,这些合作代理商可能出现在自动驾驶汽车或家用机器人中。

美国女子足球队在法国的世界杯表现一直很好。一群机器人玩家需要展示这样的技能,团队合作。但是,即使是简单的游戏中的协调也难以在没有明确编程的情况下学习人工智能。新的研究朝着正确的方向迈出了一步,表明当虚拟参与者因社会影响而获得奖励时,合作就会出现。



人类不仅受到外在动机的驱使:金钱,食物或性,而且还有内在动机:对知识,能力和联系的驱使。研究表明,提供机器人和机器学习算法的内在动机,例如好奇心,可以提高他们在各种任务上的表现。在上周在机器学习国际会议上提出的新工作中,认可机构获得了“社交”驱动。

“这是一篇非常引人入胜的文章,具有巨大的扩展潜力,” 伦敦玛丽女王大学的计算机科学家Christian Guckelsberger说,他研究AI和内在动机,但没有参与这项工作。

虚拟动物玩了两个游戏,他们共同导航一个二维世界来收集苹果。在收获时,当附近有更多苹果时苹果生长得更快,所以当它们全部消失时,它们就会停止出现。需要协调一致的约束。(在足球比赛中,如果球队中的每个人都跑向球,你就会失败。)在清理中,如果没有连续清洁附近的含水层,苹果就会停止生长。(一支球队需要进攻和防守。)

这些生物依赖于称为强化学习的AI形式,其中算法使用反复试验,并获得奖励以获得更好的性能。在这项工作中,每个生物不仅可以获得奖励,还可以改变其他玩家的选择,无论是帮助还是伤害其他玩家。

在一个实验中,这些生物使用人类的“ 心理理论 ”:理解他人思想的能力,来估计他们的影响力。通过观察,他们学会了预测他人的行为。然后,他们可以使用反事实或“假设”推理来预测邻居对一个行动与另一个行动的反应。如果某一特定行动比其他可能的行动更能改变其邻居的行为,那么它被认为更具影响力,因而更为可取。



在针对AI代理的游戏的一个版本中,DeepMind研究人员构建了一个特殊的环境,其中蓝绿色代理被困在一个盒子里。紫色代理可以选择释放蓝绿色剂或简单地收集自己的苹果。

研究人员将所有小动物收集的苹果数量加起来。当个人因为影响而获得奖励时,人口的表现要好于没有。如果群体内的不平等保持低水平,他们甚至超过无私人口,其中生物在训练期间获得额外奖励。显然,获得对他人福祉的内在奖励只会到目前为止进行协调,而没有反事实的推理来告诉你,你的行为是否直接对他人的行为负责。

小动物不仅仅是互相推挤或远离苹果。研究人员发现,小动物正在使用动作向对方发送信息,类似于“蜜蜂摇摆舞”。在另一项实验中,研究人员为这些生物提供了无需移动即可广播信息的额外功能。再次,当有动力互相影响时,小组得分更高。更重要的是,那些容易受到影响的生物--善于倾听的人--收集的苹果多于那些没有的苹果。

蒙特利尔麦吉尔大学的计算机科学家莱恩·洛伊(Ryan Lowe)说,这项研究“真的很整洁” ,他研究人工智能和协调,但没有参与这项工作。他说,为影响力增添动力是“有点直观的”,但有时直观的事情是行不通的。

在这些实验中,自私的寻求状态导致了合作,但在其他情况下,它可能会导致有害的操纵。这就是为什么位于剑桥的麻省理工学院的计算机科学家娜塔莎·雅克斯(Natasha Jaques)在伦敦的Alphabet's DeepMind实习期间带头开展这项工作,他希望将一个驱动器与一个驱动器相结合。最终的应用可能包括自动驾驶汽车,仓库机器人或家庭佣工,她说:“任何你想让机器人与其他机器人或人类协调的东西。”与此同时,她渴望尝试更复杂的游戏,包括机器人足球。