今天介绍一篇最近看到的论文,两位作者分别是华盛顿大学 Linguistics 系的 Emily M. Bender 和萨尔大学语言科学与技术(Language Science and Technology)系的 Alexander Koller。从作者的院系大概可以猜到这篇论文并不是跑很多实验提出很 fancy 的模型或者打破了很多 state-of-the-art 性能的论文,不过这篇论文得到了今年 ACL 的 Best Theme Paper,虽然不是很 technical 所以读起来比较容易,但是其实讨论的问题和观点都挺有意思的。
从标题可以看到,这篇论文主要探讨的问题是 NLU(自然语言理解),NLU 在最初 AI 开始作为一个问题研究时就具有重要地位,著名的图灵测试就是一种让人和算法进行“对话”的实验:看人是否能够意识到跟自己对话的另一端是机器而不是一个人,从而来断定机器是否具有了“智能”。取决于被测试的人是否是语言或者人工智能方面的专家,图灵测试有可能会很困难或者很容易,非常早期就有一些程序,例如 ELIZA,通过非常简单的语法变换来对你进行各种反问,成功地让一些人觉得和这个“心理医生”对话非常有帮助(Emacs 里也有一个类似的程序,通过 M-x doctor
可以访问到)。到今天,基于各种超大型神经网络的文本生成模型能做到各种比简单的语法词法替换复杂很多倍的事情。比如最近火遍大江南北的 GPT-3 在开放了 API 之后被大家玩出了各种新花样,有用 GPT-3 写诗歌文章的,有让 GPT-3 帮忙写代码的,当然还有让 GPT-3 做图灵测试的,更多的例子可以参见这个 awesome gpt-3 的列表。
如果早期基于简单规则变换的“心理医生”能骗过一些未经过专门训练的人并不会让我们认为这样的模型具备了真正的智能的话,那么今天能够让绝大多数人都感到惊叹的 GPT-3 这样的模型又如何呢?这大概是一时半会也争论不出结果的问题。这篇论文也没有尝试去跳通用智能这个大坑,而是探讨一个更加容易明确定义和论证的话题:在自然语言处理中什么是一个句子的“意思(meaning)”,以及怎么样算是对一个句子“理解”了。论文对这些概念给出了定义,并通过一些 thought experiment 来论证普通的语言模型的训练方法(例如 GPT-3 之类的)由于只使用语言的“form”,在原则上无法训练出能够掌握语言的“meaning”的模型来。