OpenAI的GPT-2程序推出了非常连贯的自然语言 | 智能技术

发布日期:2019-12-22 10:00


照片说明:Gluekit

来自OpenAI的Greg Brockman和Ilya Sutskever,他们选择不向世界发布其GPT-2语言模型。
这是关于自然语言处理历史的六部分系列的第六部分。
今年2月,世界上最重要的人工智能实验室之一OpenAI宣布,一组研究人员已经构建了功能强大的新型文本生成器,称为Generative Pre-Trained Transformer 2,简称GPT-2。研究人员使用强化学习算法在广泛的自然语言处理(NLP)功能集上对其系统进行训练,包括阅读理解,机器翻译以及生成长条连贯文本的功能。
但是,与NLP技术一样,该工具具有巨大的前景和巨大的风险。实验室的研究人员和政策制定者担心,他们的系统如果被广泛发布,可能会被不良行为者利用并为“恶意目的”挪用。
OpenAI的人们将其任务定义为“发现并制定通往安全人工智能的道路”,他们担心GPT-2可能会被伪造的文本淹没Internet,从而破坏本已脆弱的信息生态系统。因此,OpenAI决定不向公众或其他研究人员发布完整版GPT-2。
GPT-2是NLP中一种称为语言建模的技术的示例,通过该系统,计算系统可以将文本的统计蓝图内部化,从而可以模仿它。就像手机上的预想文字一样(GPT-2会根据您之前使用过的单词来选择单词),GPT-2可以查看一串文字,然后根据该文字固有的概率来预测下一个单词可能是什么。
GPT-2可以看作是统计语言模型的后裔,俄罗斯数学家AA马尔可夫发展在20年代初日世纪(部分涉及三此系列)。
不过,与GPT-2不同的是,系统建模的文本数据的规模。马尔可夫分析了20,000个字母的字符串以创建一个基本模型,可以预测文本的下一个字母是辅音还是元音的可能性,而GPT-2使用从Reddit抓取的800万篇文章来预测下一个单词可能是在整个数据集中。

而且,尽管Markov仅通过计算两个参数(元音和辅音)来手动训练他的模型,但GPT-2使用最先进的机器学习算法对超过150万个参数进行语言分析,从而消耗了大量的计算能力。
结果令人印象深刻。OpenAI 在其博客文章中报告说,GPT-2可以根据提示生成合成文本,模仿显示的任何样式的文本。如果用威廉·布莱克的诗句来提示系统,它可以产生出浪漫诗人风格的诗句。如果使用蛋糕食谱提示系统,则会得到一个新发明的食谱作为回应。
GPT-2最引人注目的功能可能是它可以准确回答问题。例如,当OpenAI研究人员问系统时,“谁写了《物种起源》这本书?”,它的回答是:“查尔斯·达尔文。”尽管有时只能准确地做出响应,但该功能似乎确实是Gottfried Leibniz 梦想的一种能够回答任何人类问题的语言生成机器梦想的有限实现(在本系列的第二部分)。
在实践中观察到新系统的功能后,OpenAI选择不发布经过全面培训的模型。在2月份发布之前,人们对“深造假”(即通过机器学习技术生成的合成图像和视频)的认识得到了提高,人们可以说并说他们实际上并没有说过的话。OpenAI的研究人员担心,GPT-2可能会被用于本质上创建Deepfake文本,从而使人们更难以在线信任文本信息。
对这一决定的反应各不相同。一方面,OpenAI的警告引发了媒体过度反应,有关“危险”技术的文章被大量引用在AI的发展中的科学怪人故事中。
其他人则对OpenAI的自我推广提出了质疑,甚至有人建议OpenAI故意夸大GPT-2的能力以制造炒作,而这违反了AI研究界的规范,在AI研究界,实验室通常共享数据,代码和预先训练的模型。正如机器学习研究员Zachary Lipton在推特上说的那样,“也许@OpenAI争议的*最显着* 是*技术*多么平凡*。尽管他们投入了大量精力和预算,但这项研究本身却完全是普通的-就在深度学习NLP研究的主要分支中。”
OpenAI坚持只发布GPT-2的限量版的决定,但此后又发布了更大的模型供其他研究人员和公众试用。迄今为止,还没有报道过该系统生成广泛散布的假新闻文章的情况。但是,有许多有趣的衍生项目,包括GPT-2诗歌和一个网页,您可以在其中自行提示系统问题。
甚至有一个Reddit小组完全填充了由GPT-2驱动的机器人产生的文本。这些机器人在Reddit上模仿人类,因此就各种主题进行了长时间的对话,包括阴谋论和《星球大战》电影。
这种由机器人驱动的对话可能标志着在线生活的新状况,在这种情况下,越来越多的人类和非人类代理人创造了语言,并且尽管我们尽了最大努力,但保持人类与非人类之间的区别却越来越困难。

使用规则,机制和算法来生成语言的想法在整个历史上都启发了许多不同文化的人们。但是,在在线世界中,这种强大的文字技巧可能会真正找到其自然环境-在说话者的身份变得更加模棱两可甚至不那么相关的环境中。有待观察的语言,交流和我们的人类身份感将与我们以自然语言表达的能力紧密相关,这将产生什么后果。
这是关于自然语言处理历史的六部分系列的第六部分。上周的帖子解释了一个无辜的Microsoft聊天机器人如何在Twitter上立即成为种族主义者
您还可以查看有关AI的悠久历史的先前系列。