AI也有情商?一窥微软ICLR2019AI情感理论 | 广东省智能创新协会

发布日期:2019-05-04 10:00
如果机器智能具有人类情商,那么机器智能是否会超越人类智能?近期Microsoft Research Blog发表了文章《向有情商的人工智能发展》,介绍了有情商的AI,全文编译如下:

最近在机器智能领域的成功依赖于为了做出决策而有效地搜索数十亿种可能性的核心计算能力。如果成功的话,这一系列的决策往往表明计算能力正在赶上甚至超过人类的智力。另一方面,人类智能是高度可概括的、自适应的、稳健的,并且具有当前最先进的机器智能系统还无法产生的特性。例如,即使存在许多未知的变量,人类也能够根据预期的结果提前进行重要的计划。人类的智能在其他人类和生物参与的场景中闪耀,并始终显示推理和元推理能力。人类的智慧还具有同情心、同理心、善良、有教养,而且重要的是,它能够为了更大的利益而放弃和重新定义一项使命的目标。尽管几乎所有的机器智能研究都集中在“怎么做”上,但人类智能的特点是能够问“是什么”和“为什么”。

我们的假设是,情商是开启机器出现的关键,这些机器不仅更普遍、更强大、更高效,而且还符合人类的价值观。人类的情感机制使我们能够完成目前机器无法编程或教授的任务。例如,我们的交感神经和副交感神经反应使我们保持安全,并意识到危险。我们有能力认识到他人的影响,并想象自己处在他们的处境中,这使我们能够更有效地做出正确决定和适应复杂的世界。饥饿、好奇、惊喜和快乐等驱动力和影响使我们能够规范自己的行为,并确定我们希望实现的一系列目标。最后,我们表达自己内心状态的能力是向他人发出信号并可能影响他们决策的一种极好的方式。


【 图片来源:Microsoft Research Blog  所有者:Microsoft Research Blog 】

因此,有人假设,将这种情商构建到一个计算框架中,至少需要具备以下能力:

·识别他人的情绪

·回应他人的情绪

·表达的情绪

·在决策中调节和利用情绪

从历史上看,构建具有情商的机器的研究主要从人机协作的角度出发,并且主要集中在前三项功能上。例如,最早关于情感识别的研究始于近30年前,当时人们使用生理传感器、照相机、麦克风等来检测一系列情感反应。存在这样一些争论:人们脸上的情感表达和其他生理信号有多一致和统一,并且这些是否真的反映了他们的内在感觉,研究人员已经成功地构建算法,在人类表情的嘈杂世界中识别有用的信号,并且证明这些信号与社会文化准则是一致的。

根据人的内在认知状态采取适当行动的能力对于高情商的人来说是必不可少的。诸如自动辅导系统、心理和身体健康支持以及提高生产力的应用等应用是目前正在进行的工作的重点。最近一系列关于顺序决策的研究,如上下文强盗,正在这个地区慢慢取得进展。例如,我们自己的研究表明,一个对饮食管理的情感方面敏感的系统可以如何帮助受试者做出正确的决定。

几十年来,情感表达一直处于计算的最前沿。即使是简单的信号(例如,光、色、声)也有能力传达和激起丰富的情感。在将于ICLR2019上发表的 “Neural TTS Stylization with Adversarial and Collaborative Games”(《神经TTS与对抗和协作游戏的程式化》)(马爽和宋耶鲁合著)中,我们提出了一种新的机器学习方法来合成具有表现力的逼真的人类语音。该体系结构挑战模型生成真实的语音,忠实于文本内容,同时维护一个易于控制的拨盘,以独立的方式改变表达的情感。我们的模型在多个任务中实现了最开始的效果,包括样式转换(内容和样式交换)、情感建模和身份转换(适合新演讲者的声音)。文章提供了一个开源实现。



【 图片来源:Microsoft Research Blog  所有者:Microsoft Research Blog 】

虽然人工智能系统的识别、表达和干预方面的研究在过去20年已经深入,但还有一种更引人注目的智能形式——一种为了更好地学习和更有效地做出选择而有效地利用情感机制的系统。在最近的工作中,我们希望探索如何建立这样的情感机制,以帮助我们的计算过程实现比目前更多的目标。

同样出现在ICLR 2019,我们最近的工作探索了基于影响的内在动机的想法,这可以帮助学习决策机制。最近人工智能在解决围棋、Pac-Man和基于文本的RPG等游戏方面取得的成功,很大程度上依赖于强化学习,在强化学习中,好的行为会得到奖励,坏的行为会受到惩罚。然而,要让计算代理学习一个合理的策略,需要在这样一个行动奖励框架中进行大量的试验。我们提议背后的直觉是,从人类和其他生物如何利用情感机制中来更有效地学习中获得灵感。

当人类学着面对世界时,身体(神经系统)的反应会对行为选择的潜在后果提供持续的内在反馈,例如,当接近悬崖边缘或在拐弯处快速行驶时,会变得紧张。生理变化与这些保护自己免受危险的生物制剂有关。人类对危险情况的预期反应是心率加快,心率变异性降低,血液从四肢分流,汗腺扩张。这是身体的“战斗或逃跑”反应。人类已经进化了数百万年来建立这些复杂的系统。如果机器有类似的反馈系统呢?



【 图片来源:Microsoft Research Blog  所有者:Microsoft Research Blog 】

在“Visceral Machines: Risk-Aversion in Reinforcement Learning with Intrinsic Physiological Rewards” (《本能机器:在内在生理奖励的强化学习中的风险规避》)一书中,我们提出了一种新的强化学习方法,它利用了人类战斗或逃跑行为的内在奖励功能。

我们的假设是,这样的奖励函数可以规避强化学习环境中与稀疏和倾斜奖励相关的挑战,并有助于提高样本效率。在我们的例子中,来自事件的外部奖励并不是代理学习的必要条件。我们在模拟驾驶环境中进行了测试,结果表明,该方法可以提高学习速度,减少学习过程中的碰撞次数。我们对训练自主系统的潜力感到兴奋,这种系统能够模拟以情感方式感受和响应刺激的能力。



【 图片来源:Microsoft Research Blog  所有者:Microsoft Research Blog 】

许多计算机科学家和机器人专家都渴望打造出类似于KITT和R2D2等流行科幻小说中令人难忘的人物形象的机器人。无论如何,我们都有很多机会来建立一个超越以往的整体情感计算机制,并帮助我们建立健全、高效和非近视的人工智能。我们希望这项研究能让我们重新审视情感在人工智能中的应用。