数智时代语言研究的挑战与机遇
◇刘海涛
人类正步入智能时代,很难想象智能可以脱离语言而存在,这也许是人类历史上最需要语言学家的时代,遗憾的是现实世界的主流语言学却似乎与这个时代渐行渐远。为什么会这样?形成这一挑战的主要原因可能在于,智能时代的推动力源于数据。换言之,我们正在进入数智时代,但对于大多数语言学家来说,基于数据驱动的语言研究方法则是陌生的、困难的。为了应对数智时代带来的各种挑战,语言学家们需要进行全方位的反思,特别是从目标、方法、语料和知识表征等方面进行反思。
自然语言处理是数智时代的主要领域,其实践与进展为我们反思和检验语言学研究中的各种假说提供了一种可参考的路径和反思的起点。简单来说,为什么语言学家绞尽脑汁发现的所谓规律或形式化的计算模型,一旦放到计算机里面就不灵了呢?是因为这些规律压根不是规律?还是表现规律或知识的形式不当呢?此外,我们也需要解释为什么一些翻译软件很容易就具有上百种语言互译的能力,尽管我们有时抱怨这些翻译文本的质量一般,但又有几个人能达到这样的翻译水平呢?这些难以回答的问题和令人尴尬的事实,便是数智时代对语言研究的挑战——致命,但又充满了诱惑。