AI将统治电视广播? | 广东省智能创新协会

发布日期:2019-06-02 10:00
DARPA的频谱协作挑战表明,人工智能自主无线电可以比人类更好地管理频谱。



在21世纪初,第一批蓝牙设备努力避免干扰Wi-Fi路由器,这是一种更高功率,更成熟的无线电频谱群组,蓝牙设备与之共享频率。蓝牙工程师最终修改了他们的标准,并通过开发蓝牙设备的跳频技术来保护他们的无线技术免于早期灭绝,蓝牙设备在检测到Wi-Fi信号时将操作转移到未占用的频段。

跳频只是避免干扰的一种方法,这个问题从一开始就困扰着无线电。很久以前,监管机构学会了管理频谱,以便在新兴的无线生态系统中,不同的无线电用户被分配不同的频率供他们独家使用。虽然这种做法避免了在运行中检测传输和频率变换的挑战,但由于部分休闲,因此频谱的使用非常低效。

今天,对有限的无线电频谱资源的需求正在飙升。在过去的几年中,无线数据传输每年增长约50%,主要是由人们在智能手机上流式传输视频和滚动社交媒体。为了满足这种需求,我们必须尽可能有效地分配频谱。这意味着无线技术越来越不能拥有专有频率,而是必须共享可用频谱。蓝牙使用的跳频将成为解决方案的一部分,但为了应对激增的需求,我们将不得不远远超出它。

为了解决频谱稀缺问题,我在美国国防高级研究计划局创建了频谱协作挑战赛(SC2)(DARPA),我是项目经理。SC2是一项为期三年的公开竞赛,来自世界各地的团队正在以清晰的方式重新思考频谱管理问题。团队正在设计使用人工智能(AI)的新无线电,以学习如何与竞争对手共享频谱,最终目标是提高整体数据吞吐量。这些球队将在今年10月在洛杉矶举行的SC2锦标赛中争夺近400万美元的奖金。经过两年的竞争,我们首次见证了自主无线电集体共享无线频谱,传输的数据远远超过为每个无线电分配专用频率所能传输的数据。

在SC2之前,各种DARPA项目已经证明,少数无线电可以通过跳频自动管理频谱,就像蓝牙一样,以避免彼此。那么为什么我们不能将跳频技术的使用扩展到更广泛的无线电阵列,并以这种方式解决频谱有限的问题呢?





不幸的是,跳频只能达到一定程度。这取决于未使用频谱的可用性,如果有太多无线电尝试发送信号,则可用的频谱不会太多(如果有的话)。为了使SC2工作,我们意识到,我们需要测试竞争团队的情况,其中有数十个无线电试图同时共享频谱带。这样,我们可以确保每个无线电都没有自己的专用信道,因为没有足够的频谱可以绕过。

考虑到这一点,我们开发了一系列场景,这些场景将在一系列循环赛中进行,其中三个,四个或五个独立的无线电网络在一个大约一平方公里的区域内一起广播。允许无线电网络访问相同的频率,并且每个网络将使用AI系统来确定如何与其他网络共享这些频率。我们将根据完成了多少任务(如电话和视频流)确定给定匹配的成功程度。一组完成比另一组更多任务的无线电网络将成为该比赛的赢家。但是,我们的主要目标是看到团队开发人工智能管理的无线电网络,这些无线电网络能够比每个无线电使用专用频段时完成更多的任务。

我们很快意识到将这些无线电放置在现实世界中是不切实际的。我们永远无法保证每个参赛队伍的无线条件都是一样的。此外,移动单个无线电以设置每个场景和每个匹配将是太复杂和耗时。

因此,我们建造了斗兽场,这是世界上最大的射频仿真试验台。目前位于马里兰州劳雷尔的约翰霍普金斯大学应用物理实验室,斗兽场占用21个服务器机架,耗电65千瓦,并且需要与10个大型家庭大致相同的冷却量。它可以同时模拟128个无线电之间超过65,000个独特的交互,例如文本消息或视频流。有64个现场可编程门阵列通过共同执行超过150万亿次浮点运算(teraflops)来处理仿真。

对于每场比赛,我们插入无线电,以便他们可以直接将广播频率信号“广播”到罗马斗兽场。根据给定环境的详细数学模型,该测试台具有足够的计算能力来计算这些信号的行为方式。例如,在罗马斗兽场内有模拟的墙壁,信号“反弹”。有模拟的暴风雨和池塘,其中信号部分“吸收”。



仿真提供了团队的AI在每个模拟场景中根据他们的观察做出适当决策所需的所有信息。例如,面对充斥着无意义噪音的手机干扰器,AI可能会选择将其频率更改为不受干扰影响的频率。

为AI 建立一个协作管理频谱的环境是一回事,但创建这些AI完全是另一回事。要了解在SC2中参与竞争的团队如何构建这些AI系统,您需要了解AI在过去几十年中如何发展的背景知识。

从广义上讲,研究人员已经在一些重新定义这些系统如何学习的“波浪”中推进了人工智能。第一波AI是专家系统。这些AI是通过采访特定领域的专家并从中推导出一套规则来创建的,自主系统可以在尝试完成某些任务时使用这些规则做出决策。这些AI在诸如国际象棋之类的问题上表现出色,其中规则可以以简单的方式写下来。事实上,第一波人工智能的最着名的例子之一是IBM的Deep Blue,它在1997年首次击败了国际象棋大师Garry Kasparov。

有一个较新的第二波人工智能依赖于大量的数据而不是人类的专业知识来学习给定任务的规则。第二波人工智能特别擅长于人们在写下问题的所有细微差别时遇到困难的问题,而且往往似乎存在比规则更多的例外情况。识别语音就是这种问题的一个例子。这些系统摄取复杂的原始数据,例如音频信号,然后对数据做出决定,例如说出的单词。这种AI浪潮是我们在Siri和Alexa等数字助理使用的语音识别中找到的类型。

今天,第一波和第二波AI都不用于管理无线频谱。这意味着我们可以考虑AI的两种波动以及研究人员如何教授这些AI如何解决问题,找到解决问题的最佳方案。最终,将频谱管理视为一种强化学习问题是最容易的,在这种问题中,我们会在AI成功时对其进行奖励,并在失败时对其进行惩罚。例如,AI可以接收一个点用于成功传输数据,或者丢失一个点用于丢弃的传输。通过在训练期间累积积分,AI记住成功并尝试重复它们,同时也远离不成功的策略。

在我们的竞争中,由于来自另一个无线电传输的干扰,经常会发生丢弃传输。因此,我们还必须将无线管理视为一项协作挑战,因为同时有多个无线电广播。人工智能管理的无线电比传统的静态分配表现更好的关键是开发可以最大化自己的点数的AI,同时为其他AI提供相同的空间。当团队尽可能多地成功传输而不会在追求可用频谱时不断相互碰撞时,团队会得到奖励,这将阻止他们最大限度地利用该频谱。



好像这还不够困难,还有一个额外的皱纹使频谱协作比许多类似的问题更难。想象一下,和以前从未见过的人一起打篮球比赛:你的球队一起比赛的能力不会像多年来一直训练的队友一样好。迄今为止,涉及多个代理人的最成功的挑战是AI已经一起训练的那些。最近的一个例子是2018年的一个项目,其中非营利性人工智能研究公司OpenAI证明了一组五个AI 可以在视频游戏Dota 2中击败一群人类玩家。

这是2018年12月9日,我的DARPA同事和我终于有机会了解一组AI是否可以在如此复杂的多代理问题上取得成功。我们蜷缩在酒店会议室的一组电脑周围,距离斗兽场的安装地点只有一个街区。酒店已成为我们的指挥中心,为期一周,我们已经分析了300多场比赛,以确定得分最高的球队。在三天内,我们期望奖励最多八个750,000美元奖励,每个顶级团队一个奖励。但就目前而言,我们实际上并不知道我们将分发多少奖品。

在一年前的第一次资格赛中,球队仅根据他们的相对排名来评判。然而,这一次,为了赢得奖项,顶级团队还必须证明他们的无线电可以比使用传统的专用频道更好地管理频谱。

为了将自主无线电与独占频率管理进行比较,我们设计了最后一组匹配。首先,我们采用了一个基线,为每个团队分配了专用频率,以衡量他们可以传输多少数据。然后我们删除了限制,以查看团队的网络是否可以传输更多数据,而不会妨碍共享频谱的其他四个无线网络。

在酒店房间,我们焦急地等待最后一组比赛完成。如果没有人能够清除我们为他们设定的标准,那么两年的艰苦工作就会破灭。对我们来说,在我们的热情中,如果每个人都失败,我们就没有备用计划。它并不一定能缓解我们的神经,在SC2存在的这一点上,我们已经开始看到一些方法的局限性。

幸运的是,我们也开始发现一些成功的关键。比赛开始时,几乎所有球队都开始采用第一波AI方法。这是一个有意义的起点 - 请记住,没有AI系统用于管理频谱。在第一波方法中,团队正在尝试编写协作使用频谱的一般规则。

当然,每个团队都有不同的规则,但他们开发的每个系统都有一些共同的一般原则。首先,系统应该监听每个网络要求使用的频率。其次,从剩余的频段来看,每个频段只能分配一个无线电 - 而且团队应该是好邻居,而不是声称超过其公平份额。第三,如果没有空频段,无线电应选择干扰最小的频段。

不幸的是,这些规则无法捕捉到无线管理的所有特性,这会导致妨碍无线电协同工作能力的意外后果。在SC2期间,我们已经看到了很多这些看似简单的规则失败的例子。

例如,还记得第二条规则,是一个好邻居而不是生猪频率吗?原则上,这种合作方法应该为其他无线电提供在需要时使用更多频谱的机会。在实践中,我们看到了这种策略是如何出错的:在一个例子中,三个团队完全没有使用大量的频谱。

观察结果,我们意识到一个团队坚持使用不超过三分之一的频谱。虽然这种策略非常无私,但它也限制了他们完成自己任务所能建立的联系 - 因此也限制了他们的分数。当另一个系统注意到第一个系统没有得到足够的分数时,它变得更糟,因此它限制了自己的频谱使用,以允许第一个系统使用更多,这是它永远不会做的。基本上,系统过于恭敬,结果是浪费了光谱。



为了解决第一波AI问题,团队必须编写另一条规则。当新规则导致另一个意外结果时,他们会通过编写另一条规则来解决这个问题。等等。这些不断的惊喜和随之而来的新规则是第一波AI的主要缺点。看起来像一个直截了当的问题可能最终会比看起来更难。

似乎更好的方法是让每个无线电基于与其共享频谱的其他无线电来调整其策略,而不是依赖于一些硬性规则。实际上,无线电应该通过从大量数据中挖掘它们来开发一系列不断增长的规则 - 这是斗兽场擅长产生的数据类型。这就是为什么现在,在2018年12月9日的试验期间,我们看到团队转向第二波人工智能方法。几个团队建立了初出茅庐的第二波AI网络,可以快速表征其他网络如何匹配,并使用这些信息即时更改自己的无线电规则。

当SC2启动时,我们怀疑许多团队会采用采用“感知和避免”策略的简单方法。这是蓝牙设备在发现Wi-Fi路由器正在使用它所需的频谱时所做的事情:它跳转到一个新的频率。但蓝牙的跳频部分起作用,因为Wi-Fi以可预测的方式起作用(即,它以特定频率广播并且不会改变该行为)。然而,在我们的竞争中,每个团队的无线电行为都表现得非常不同,而且根本不可预测,制定一种有意识和避免的策略,毫无意义。

相反,我们看到更好的方法是预测未来频谱的样子。然后,无线电可以使用这些预测来决定哪些频率可能会打开 - 即使只是一两分钟,只需要足以推动甚至少量数据。更精确的预测将允许协作无线电利用每个传输更多数据的机会,而不会干扰同时抓取相同的频率。现在我们希望第二波AI能够学会以足够的精度预测频谱环境,以免让单个赫兹浪费掉。

当然, 如果AI管理的系统不能胜过传统的分配,那么所有这些理论都是无用的。这就是为什么我们很高兴看到,那天晚上在酒店房间结果滚滚斗兽场,前八名队伍中的六个已经成功!这些团队证明,当他们合作共享频谱时,他们的无线电可以集体提供比使用专用频率更多的数据。三周后,另外四支队伍也会这样做,总数达到10人。

令人鼓舞的是,虽然结果如此,但现在说我们何时会看到无线电使用人工智能积极管理无线电频谱的使用还为时尚早。了解DARPA面临的巨大挑战的重要一点是,它们与竞争结束时的技术状态无关。相反,挑战旨在确定是否可能进行根本性转变。看看DARPA 在2004年的自动驾驶大挑战:自动化技术又花了十年才开始在商用车中以非常有限的方式使用。

也就是说,我们最初的比赛结果很有希望。到目前为止,我们发现当三个无线电网络共享频谱时,他们的预测要比四五个团队尝试共享相同数量的情况要好得多。但我们尚未完成,我们的团队目前正在构建更好的系统。也许,2019年10月23日在洛杉矶举行的SC2在美洲世界移动通信大会上举行的现场冠军赛中,这些系统将比以往任何时候都更成功地展示AI操作的无线电可以共同创造无线通信的新时代。