“聊天机器人”在葡萄牙语中是指能够理解和分析葡语对话的程序。如今,这些聊天机器人可以非常流畅地实现人与计算机之间的对话。

自然语言处理(NLP,本文称为 PLN)的最新进展,使得葡语聊天机器人的开发能够兼顾语言的特殊性。这些进展利用机器学习(ML)来理解语言结构、词义及其上下文。

用 AI 创建葡萄牙语聊天机器人

葡萄牙语是世界第六大语言,其中一半在巴西。尽管与所有拉丁语系语言接近,但它有两个显著特点:

  • 存在大量假朋友词,即外形相似但含义不同的词。在葡萄牙葡语中,propina 指月费,在巴西葡语中则是贿赂。即使在巴西,不同地区词义也会变化:在该国东北部,“cabra”指男性,而在其他地方仅指动物。
  • 大量使用上下文会让葡萄牙语聊天机器人的理解工作变得非常困难。例如“chega”既可以是动词(“她明天到”),也可以表示请求停止(“别聊了”)。

此外,不同国家的葡萄牙语使用者之间有完全不同的习惯用语,有时甚至会导致整句话难以理解。

这些差异会让葡语聊天机器人的开发变得困难吗?毫无疑问,答案是肯定的。

葡萄牙语聊天机器人:NLP 挑战

上述内容为葡萄牙语聊天机器人的自然语言处理带来了挑战。任何自然语言处理算法的第一步都是理解语言,也就是将句子分解为小的意义单元或“标记”。这个过程称为“分词”(顺便说一句,巴西葡萄牙语的一个特点是喜欢使用外来词并“本地化”)。因此,语言越系统、越有条理,分词就越容易。

在我们理解自然语言处理最新进展的意义之前,需要先了解自然语言理解模型是如何构建的。

过去

在某种程度上,了解一个葡萄牙语(或任何语言)的聊天机器人是如何构建的,就像是一场穿越时空的旅行。

最早应对语言不可预测性的研究可以追溯到20世纪40年代,当时麻省理工学院的神经解剖学家兼精神病学家沃伦·麦卡洛克和伊利诺伊大学的数学家沃尔特·皮茨发表了一系列论文。他们奠定了理论基础,使约翰·冯·诺依曼能够在20世纪40年代末撰写《自动机的一般与逻辑理论》

计算机算力的不断提升则成为推动自然语言处理(PLN)研究从科学实验室走向企业和政府机构、并应用于日常技术的另一支柱。

自然语言处理的历史,实际上始于20世纪50年代,当时艾伦·图灵发表了《计算机器与智能》一文,提出了如今被称为“图灵测试”的智能判定标准。

然而,从80年代末开始,随着机器学习算法被引入到语言处理领域,自然语言处理迎来了革命。这既得益于计算能力的持续提升,也源于“乔姆斯基学派”语言学理论影响力的逐步减弱——该理论不鼓励采用基于语料库的方法,而语料库正是机器学习处理语言的基础。这种自动化通过将句子拆分为更小的单元,并应用统计规则对这些单元进行分类和关系识别来实现,这一过程称为“分词”,前文已有详细介绍。

不过,分词的工作对自然语言处理研究者来说仍需大量手动干预。每种语言都必须独立且基本上手动进行分词。

对于处理高度依赖上下文的语言的机器人来说,分词工作尤其困难,这一点不难想象。

一旦语言完成分词,人工智能算法就可以应用于理解语言,即构建词语之间意义关系的映射。

如果分词足够可靠,这一步骤就可以自动化。但问题在于分词本身很复杂,因此即使是理解算法也需要与分词一起手动配置。

最终的结果并不理想。例如,葡萄牙语的理解水平与英语相比只能算中等。当然,研究重点一直更多放在英语上,但葡萄牙语在上下文处理方面的难度也让取得好结果变得更加困难。

正如人工智能研究者常做的那样,他们开始思考,分词本身是否也可以通过机器学习来完成。如果可以,这将使分词和理解算法都不再依赖于特定语言(即“语言无关”),从而大大加快和优化人工智能在新语言上的训练。

人工智能的最新进展

正是在2018年底,创新取得了突破:人工智能可以在无需人工干预的情况下用葡萄牙语进行训练,因此自然语言处理的表现大幅提升。

葡萄牙语聊天机器人AI平台因此得以瞬间提升,葡萄牙语的理解能力也达到了与其他语言相当的水平。

但这一进步的出现,并不意味着葡萄牙语聊天机器人的整体质量立刻提升。要让客户真正感受到这些好处,首先需要使用AI的聊天机器人平台升级其算法,采用最新技术。

鉴于此前对旧技术的投入,这些平台并不会很快完成升级。

此外,平台还需实现一些功能,以确保葡萄牙语聊天机器人为终端用户带来良好体验。例如,构建同义词库并在不同语境下使用,以映射词义,避免机器人将词语理解为与实际语境不符的含义。

多语言平台

在不同市场平台上使用多种语言可能很困难。有些平台要求不同语言的聊天机器人必须分别构建为独立机器人,这在可扩展性和维护上显然效率低下。

因此,一个优秀的平台应当是真正多语言的,允许在用户界面中为同一内容提供多种翻译。

此外,语言应被设定为对话变量,这样 AI 才能准确识别语言,且对话设计师可围绕该语言设计逻辑。

除了语言相关功能外,要打造出色的聊天机器人,平台的整体功能也必须出色。主要有两大类功能至关重要。

  • 首先是通用的自然语言理解技术(如上文所述,即NLP算法)。一个表现良好的平台不仅应支持多语言,其底层NLP算法还应采用最新技术,整体表现优异。平台还应具备与NLP相关的功能,如“槽位”填充(从上下文中提取信息片段,组成“键/值”格式的信息集)和基于对话上下文的意图匹配。
  • 第二类是平台的整体功能。它应当让设计者能够轻松为终端用户打造极佳的聊天机器人体验,包括便捷集成旧有系统和第三方系统。如果没有这些功能,或者不好用,那么是否支持葡萄牙语也就无关紧要了。

最终,用户端聊天机器人体验的质量与所用工具的能力直接相关,包括语言理解和图形/文本界面的设计方式。

打造最佳葡萄牙语聊天机器人

即使有了优秀的平台,构建葡萄牙语聊天机器人仍然面临挑战。全球关于葡萄牙语的人工智能研究有限,因此为项目找到合适的资源可能非常耗时。

虽然无需自己编写底层自然语言处理算法(这些平台已提供),但找到懂得葡萄牙语不同群体间习惯用语差异的优秀设计师却很难。对于葡萄牙语来说尤其如此,因为其大量基于语境的习惯表达。

因此,聊天机器人平台应允许非技术人员轻松更新和维护内容及翻译,因为设计师和开发者往往不熟悉葡萄牙语的各种文化表现。

显然,随着高质量葡萄牙语聊天机器人越来越精准,这项技术的应用将在未来几年持续增长。这种增长将缓解资源限制问题,也让潜在买家能清楚了解最佳实践,从而获得最佳效果。

摘要

PLN(自然语言处理)技术的创新不仅适用于葡萄牙语聊天机器人,也适用于其他AI应用。现在我们看到多功能系统以不同方式使用葡萄牙语AI,从新闻和评论的情感分析,到文本摘要或生成,这些以前只有人类能完成。通常,葡萄牙语聊天机器人不仅作为不同AI技术的用户界面,还帮助终端用户使用其他系统,如网站或Web应用,或作为购物顾问和决策助手。

当然,尽管葡萄牙语PLN能力有了显著提升,结果仍有提升空间。研究仍在持续改进PLN引擎,毫无疑问会有新突破。直到PLN达到人类水平,改进工作还会继续。

所有PLN引擎的下一个目标,无论语言如何,就是在多轮对话中表现更好。这意味着让用户能在限定主题领域与机器人进行多步对话,而不仅仅是发出命令或提问。与此相关的聊天机器人平台的下一个目标,是让多轮对话的创建更简单。

多轮对话对Alexa等语音界面或Google Home等设备尤为重要。

虽然我们讨论了基于机器学习的分词进步及其对葡萄牙语PLN的影响,但相关话题还有葡萄牙语语音转文本。葡萄牙语语音转文本仍在不断进步,尽管与其他语言的差距正在迅速缩小。我们希望这里描述的PLN进步以及全球的努力,能在不久的将来进一步缩小这一差距。