自然语言处理的历史可以追溯到卡巴拉主义者的神秘主义者 | 智能技术

发布日期:2019-11-22 10:00
在NLP成为AI的热门领域很久之前,人们就设计了规则和机器来操纵语言。


照片说明:Gluekit

13世纪的神秘主义者亚伯拉罕·阿布拉菲亚(Abraham Abulafia)从他的字母组合术实践开始涉足自然语言领域。

我们正处在自然语言处理(NLP)的繁荣时期,自然语言处理(NLP)是专注于人与机器之间的语言交互的计算机科学领域。由于过去十年来机器学习的进步,我们已经看到了语音识别和机器翻译软件的巨大进步。现在,语言生成器已经足够优秀,可以撰写连贯的新闻文章,而Siri和Alexa等虚拟代理正成为我们日常生活的一部分。

大多数人将这一领域的起源追溯到计算机时代的初期,当时艾伦·图灵(Alan Turing)于1950年写信,他设想一种智能机器可以通过屏幕上的键入文本与人类进行流畅的互动。因此,机器生成的语言通常被理解为一种数字现象,并且是人工智能(AI)研究的主要目标。

这个由六部分组成的系列文章将挑战对NLP的共识。实际上,设计可分析,处理和生成语言的形式规则和机器的尝试可以追溯到数百年前。

尽管特定的技术随着时间的推移而发生了变化,但由于多种不同的原因,许多人都追求将语言视为可以由基于规则的系统人为操纵的材料的基本思想。这些历史性的实验揭示了尝试以非人类的方式模拟人类语言的前景和危险,并且它们为当今的NLP尖端技术从业者提供了经验教训。

设计可以分析,处理和生成语言的正式规则和机器的尝试可以追溯到数百年前。

故事始于中世纪的西班牙。1200年代后期,一个名叫亚伯拉罕·阿布拉菲亚(Abraham Abulafia)的犹太神秘主义者坐在他在巴塞罗那的小屋中的一张桌子上,拿起一根鹅毛笔,蘸上墨水,然后开始将希伯来字母的字母组合成奇怪的,看似随机的字母方法。Aleph与Bet,Bet与Gimmel,Gimmel与Aleph和Bet,等等。

Abulafia称这种做法为“ 字母组合的科学 ”。取而代之的是,他在研究古代的喀布尔主义著作 “ 塞弗•瑟西拉 ”(Sefer Yetsirah)时精心制定了一套秘密规则。这本书描述了上帝是如何通过按照神圣的公式结合希伯来字母来创造“所有形成的一切和所说的一切”的。在一节中,上帝用尽了所有22个希伯来字母的两个字母的组合。

通过研究Sefer Yetsirah,Abulafia获得了一种洞见,即可以用形式规则来操纵语言符号,以创建新的,有趣的,有洞察力的句子。为此,他花了几个月的时间来生成希伯来字母的22个字母的数千种组合,最终出现了一系列他认为具有先知智慧的书。

对于Abulafia而言,根据神圣的规则产生语言可以提供对神圣和未知事物的洞察力,或者如他所说,可以使他“掌握人类传统或您自己不知道的事物”。

组合字母以生成语言使您可以“掌握人类传统或自己不知道的东西。”——神秘主义者亚伯拉罕·阿布拉法西亚

但是其他犹太学者认为,这种基本的语言世代是亵渎世俗的危险行为。塔木德告诉谁,通过置换根据载于公式语言的神奇行为拉比的故事之书Yetsirah,建立人工生物叫做傀儡。在这些故事中,拉比使用神圣的公式使希伯来语字母表的字母复制上帝的创造行为,从而使无生命的物体充满生命。

在某些神话中,拉比出于实际原因使用此技能,使动物在饥饿时食用,或由仆人来帮助他们履行家务。但是,这些魔像故事中的许多故事结局都很糟糕。在一个特别著名的寓言中,布拉格的16世纪犹太教士犹大·洛·本·贝萨勒(Judah Loew ben Bezalel)使用了字母组合术的神圣实践,制造出魔像来保护犹太社区免受反犹太人的袭击,而只是看到魔像猛烈地向他转身。

这种“字母组合的科学”是自然语言处理的基本形式,因为它涉及根据特定规则组合希伯来字母的字母。对于Kabbalists来说,这是一把双刃剑:一种获取新形式的知识和智慧的方式,而且是一种内在的危险实践,可能带来意想不到的后果。
这种紧张状态在整个语言处理的悠久历史中再次出现,并且在关于我们数字时代最前沿的NLP技术的讨论中仍然相呼应。