数字母建立第一语言生成模型 | 智能技术

发布日期:2019-11-30 10:00


图片:Gluekit

俄罗斯数学家安德烈·安德烈耶维奇·马尔科夫在对亚历山大·普希金的小说《尤金·奥涅金》进行统计分析之前。

1913年,俄罗斯数学家安德烈·安德烈耶维奇·马尔科夫(Andrey Andreyevich Markov)在圣彼得堡的书房里坐下来,手里拿着一本亚历山大·普希金(Alexander Pushkin)19世纪的诗篇小说《尤金·奥涅金》(Eugene Onegin),这是当时的文学经典。然而,马尔科夫并没有开始阅读普希金的名著。相反,他拿着一支笔和一张草稿纸,把书中的前两万个字母用一长串字母写出来,去掉了所有的标点和空格。然后,他将这些字母排列成200个网格(每行10个字符,每列10个字符),开始计算每行和每列的元音,计算结果。

对于旁观者来说,马尔科夫的行为会显得很奇怪。为什么会有人这样解构一部文学天才的作品,使之难以理解?但马尔科夫读这本书并不是为了吸取有关生命和人性的教训;他是在寻找文本更基本的数学结构。

在分离元音和辅音时,马尔科夫正在测试一种概率理论,这种理论是他从1909年开始发展起来的。在那之前,概率论领域主要局限于分析轮盘赌或掷硬币等现象,在这些现象中,先前事件的结果不会改变当前事件的概率。但马尔科夫认为,大多数事情都是在因果链中发生的,并且依赖于先前的结果。他想要一种通过概率分析来模拟这些事件的方法。

马尔科夫认为,语言是一个系统的例子,过去的事件在一定程度上决定了现在的结果。为了证明这一点,他想表明,在普希金小说这样的文本中,某个字母出现在文本中某一点的机会在某种程度上取决于它之前的字母。

为此,马尔科夫开始计算尤金·奥涅金的元音,发现43%的字母是元音,57%是辅音。然后马尔科夫把这两万个字母分成元音和辅音对:他发现有1104个元音-元音对,3827个辅音-辅音对,以及15069个元音-辅音和辅音-元音对。从统计学上讲,这表明普希金文本中的任何一个字母,如果是元音,那么下一个字母很可能是辅音,反之亦然。

马尔科夫利用这一分析证明普希金的尤金·奥涅金不仅是字母的随机分布,而且具有一些可以建模的潜在统计特性。这项研究发表的题为“尤金·奥涅金关于样本链连接的文本统计调查实例”的神秘研究论文,在马尔科夫的一生中没有被广泛引用,直到2006年才被翻译成英文。但它围绕概率和语言的一些核心概念遍布全球,最终在1948年出版的克劳德·香农(Claude Shannon)极具影响力的论文《沟通的数学理论》(A mathematic Theory of Communication)中找到了重新表述。

香农的论文概述了一种精确测量消息中信息量的方法,并在此基础上为定义数字时代的信息理论奠定了基础。Shannon对马尔可夫的想法着迷,在给定的文本中,一些字母或单词出现的可能性可以近似。与Markov一样,Shannon通过一些文本实验证明了这一点,这些实验包括建立语言的统计模型,然后进一步尝试使用该模型根据这些统计规则生成文本。

在一个最初的控制实验中,他首先从27个符号的字母表(26个字母加上一个空格)中随机选取字母,生成一个句子,然后得到以下输出:  XFOML RXKHRJFFJUJ zlpwcwkcyj FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD公司

这句话毫无意义,香农说,因为当我们交流时,我们不会选择概率相等的字母。正如马尔科夫所说,辅音比元音更可能。但在更大的粒度级别上,E比s更常见,s比Q更常见,香农修改了他原来的字母表,使之更接近于英语的概率,他从字母表中提取E的概率比从Q中提取E的概率高出11%。当他再次从这个重新校准的语料库中随机提取字母时,他得到了一个更接近英语的句子。

我是一个英国人。

在随后的一系列实验中,香农证明,当你使统计模型更加复杂时,你会得到越来越容易理解的结果。Shannon通过Markov揭示了英语语言的一个统计框架,并通过分析字母和单词组合出现的依赖概率来建立这个框架,他实际上可以生成语言。

给定文本的统计模型越复杂,语言生成就越准确,或者正如香农所说,语言生成就越“与普通英语文本相似”。在最后的实验中,香农从一个单词而不是字母的语料库中提取了以下内容:

而在正面攻击一位英国作家时,认为这一点的特点也因此成为另一种对字母表示怀疑的方法。

对于Shannon和Markov来说,语言的统计特性可以被建模的洞见提供了一种重新思考他们正在研究的更广泛问题的方法。

对马尔可夫而言,它将随机性的研究扩展到相互独立的事件之外,为概率论的新时代铺平了道路。对香农来说,这有助于他制定一种精确的测量和编码信息单位的方法,从而彻底改变了电信业,并最终实现了数字通信。但他们对语言建模和生成的统计方法也开创了自然语言处理的新纪元,并在数字时代发展到今天。

这是关于人工智能自然语言处理历史的六部分系列文章的第三部分。上周的帖子描述了莱布尼茨提出的一个机器的建议,该机器将概念结合起来,形成合理的论点。下周一再来看第四部分,“为什么人们要求隐私来向世界上第一个聊天机器人倾诉。”