Dota2世界冠军OG被AI碾压,全程人类只推掉两座外塔 | 广东省智能创新协会

发布日期:2019-04-15 14:36
       人工智能OpenAI在当地时间4月13日于美国旧金山迎战去年Ti8冠军OG战队,这是OpenAI在去年8月战胜《Dota2》半职业战队,再次尝试挑战职业团队,是AI与人类冠军的终极决战。
       

        
       结果OG被OpenAI碾压,最终0:2输掉比赛,两局比赛加在一起,人类只推掉了AI两座外塔。最惨烈的第二局,人类直到最后击杀人头数还是个位数。



        据报道,OpenAI在这次比赛中进化了新能力:他们的AI不仅会和人类对抗,还能与人类合作组队一起打Dota!原来的对手,已经可以做陪练了。



       另外,OpenAI开放一个专门的竞技场,名叫OpenAI Five Arena。人类用户在这个平台上既可以组团对抗AI,也可以和AI组队比赛。游戏将于太平洋时间4月18日下午6点(北京时间4月19日上午9点)正式上线,4月21日结束,现在用户已经可以到这个平台注册。

       5个LSTM,修炼45000年
       AI的快速进化,其实是刻苦训练的结果,也就是不断的自我对局。OpenAI CTO Greg Brockman赛前说,他们的AI相当于已经练习了45000年Dota。
       OpenAI之前也说过,AI每天的训练量相当于人类打180年游戏;之前输给过OpenAI的MoonMeanderated则说,AI一天要打200万场比赛。这样的训练量,远非人类能及,当然对计算力的需求也大到吓人:它们的日常训练,需要256块P100 GPU和12.8万个CPU核心。



       这支“饭量惊人”的OpenAI Five战队,包含5个智能体(agent),每一个都是包含1024个节点的单层LSTM,能够通过V社(Valve)的Bot API观察当前游戏状态,控制英雄去移动、攻击、施放技能、使用道具。
       它们能够观察到的信息和人类差不多,包括自身、队友和敌人的状况,比如位置、血量、攻击力、护甲、携带物品、能力等等。这些信息,对于智能体来说是一个包含20000数值的列表,而它判断之后发出的行动指令,是8个值的列表。



       如果要以一种拟人的方式描述,AI“眼中”的游戏大概是这个样子:



       选手们的训练,使用的是扩展版的近端策略优化(PPO)方法,这也是OpenAI现在默认的强化学习训练方法。这些智能体的目标是最大化未来奖励的指数衰减和。既然是5个智能体,当然还要让它们能作为一支队伍相互配合。为此,OpenAI设计了一个“团队精神”超参数来统一控制。这个超参数的范围在0到1之间,决定了选手对与自身奖励函数和队友平均奖励函数的关注程度分配。