最佳葡萄牙语聊天机器人

“聊天机器人”在葡萄牙语中是指能够理解和分析葡语对话的程序。如今，这些聊天机器人可以非常流畅地实现人与计算机之间的对话。
‍
自然语言处理（NLP，本文称为 PLN）的最新进展，使得葡语聊天机器人的开发能够兼顾语言的特殊性。这些进展利用机器学习（ML）来理解语言结构、词义及其上下文。

用 AI 创建葡萄牙语聊天机器人

葡萄牙语是世界第六大语言，其中一半在巴西。尽管与所有拉丁语系语言接近，但它有两个显著特点：

存在大量假朋友词，即外形相似但含义不同的词。在葡萄牙葡语中，propina 指月费，在巴西葡语中则是贿赂。即使在巴西，不同地区词义也会变化：在该国东北部，“cabra”指男性，而在其他地方仅指动物。
大量使用上下文会让葡萄牙语聊天机器人的理解工作变得非常困难。例如“chega”既可以是动词（“她明天到”），也可以表示请求停止（“别聊了”）。

此外，不同国家的葡萄牙语使用者之间有完全不同的习惯用语，有时甚至会导致整句话难以理解。
‍
这些差异会让葡语聊天机器人的开发变得困难吗？毫无疑问，答案是肯定的。

葡萄牙语聊天机器人：NLP 挑战

上述内容为葡萄牙语聊天机器人的自然语言处理带来了挑战。任何自然语言处理算法的第一步都是理解语言，也就是将句子分解为小的意义单元或“标记”。这个过程称为“分词”（顺便说一句，巴西葡萄牙语的一个特点是喜欢使用外来词并“本地化”）。因此，语言越系统、越有条理，分词就越容易。
‍
在我们理解自然语言处理最新进展的意义之前，需要先了解自然语言理解模型是如何构建的。

过去

在某种程度上，了解一个葡萄牙语（或任何语言）的聊天机器人是如何构建的，就像是一场穿越时空的旅行。
‍
最早应对语言不可预测性的研究可以追溯到20世纪40年代，当时麻省理工学院的神经解剖学家兼精神病学家沃伦·麦卡洛克和伊利诺伊大学的数学家沃尔特·皮茨发表了一系列论文。他们奠定了理论基础，使约翰·冯·诺依曼能够在20世纪40年代末撰写《自动机的一般与逻辑理论》，。
‍
计算机算力的不断提升则成为推动自然语言处理（PLN）研究从科学实验室走向企业和政府机构、并应用于日常技术的另一支柱。
‍
自然语言处理的历史，实际上始于20世纪50年代，当时艾伦·图灵发表了《计算机器与智能》一文，提出了如今被称为“图灵测试”的智能判定标准。
‍
然而，从80年代末开始，随着机器学习算法被引入到语言处理领域，自然语言处理迎来了革命。这既得益于计算能力的持续提升，也源于“乔姆斯基学派”语言学理论影响力的逐步减弱——该理论不鼓励采用基于语料库的方法，而语料库正是机器学习处理语言的基础。这种自动化通过将句子拆分为更小的单元，并应用统计规则对这些单元进行分类和关系识别来实现，这一过程称为“分词”，前文已有详细介绍。
‍
不过，分词的工作对自然语言处理研究者来说仍需大量手动干预。每种语言都必须独立且基本上手动进行分词。
‍
对于处理高度依赖上下文的语言的机器人来说，分词工作尤其困难，这一点不难想象。
‍
一旦语言完成分词，人工智能算法就可以应用于理解语言，即构建词语之间意义关系的映射。
‍
如果分词足够可靠，这一步骤就可以自动化。但问题在于分词本身很复杂，因此即使是理解算法也需要与分词一起手动配置。
‍
最终的结果并不理想。例如，葡萄牙语的理解水平与英语相比只能算中等。当然，研究重点一直更多放在英语上，但葡萄牙语在上下文处理方面的难度也让取得好结果变得更加困难。
‍
正如人工智能研究者常做的那样，他们开始思考，分词本身是否也可以通过机器学习来完成。如果可以，这将使分词和理解算法都不再依赖于特定语言（即“语言无关”），从而大大加快和优化人工智能在新语言上的训练。

人工智能的最新进展

正是在2018年底，创新取得了突破：人工智能可以在无需人工干预的情况下用葡萄牙语进行训练，因此自然语言处理的表现大幅提升。
‍
葡萄牙语聊天机器人AI平台因此得以瞬间提升，葡萄牙语的理解能力也达到了与其他语言相当的水平。
‍
但这一进步的出现，并不意味着葡萄牙语聊天机器人的整体质量立刻提升。要让客户真正感受到这些好处，首先需要使用AI的聊天机器人平台升级其算法，采用最新技术。
‍
鉴于此前对旧技术的投入，这些平台并不会很快完成升级。
‍
此外，平台还需实现一些功能，以确保葡萄牙语聊天机器人为终端用户带来良好体验。例如，构建同义词库并在不同语境下使用，以映射词义，避免机器人将词语理解为与实际语境不符的含义。

多语言平台

在不同市场平台上使用多种语言可能很困难。有些平台要求不同语言的聊天机器人必须分别构建为独立机器人，这在可扩展性和维护上显然效率低下。
‍
因此，一个优秀的平台应当是真正多语言的，允许在用户界面中为同一内容提供多种翻译。
‍
此外，语言应被设定为对话变量，这样 AI 才能准确识别语言，且对话设计师可围绕该语言设计逻辑。
‍
除了语言相关功能外，要打造出色的聊天机器人，平台的整体功能也必须出色。主要有两大类功能至关重要。

首先是通用的自然语言理解技术（如上文所述，即NLP算法）。一个表现良好的平台不仅应支持多语言，其底层NLP算法还应采用最新技术，整体表现优异。平台还应具备与NLP相关的功能，如“槽位”填充（从上下文中提取信息片段，组成“键/值”格式的信息集）和基于对话上下文的意图匹配。
第二类是平台的整体功能。它应当让设计者能够轻松为终端用户打造极佳的聊天机器人体验，包括便捷集成旧有系统和第三方系统。如果没有这些功能，或者不好用，那么是否支持葡萄牙语也就无关紧要了。

最终，用户端聊天机器人体验的质量与所用工具的能力直接相关，包括语言理解和图形/文本界面的设计方式。

打造最佳葡萄牙语聊天机器人

即使有了优秀的平台，构建葡萄牙语聊天机器人仍然面临挑战。全球关于葡萄牙语的人工智能研究有限，因此为项目找到合适的资源可能非常耗时。
‍
虽然无需自己编写底层自然语言处理算法（这些平台已提供），但找到懂得葡萄牙语不同群体间习惯用语差异的优秀设计师却很难。对于葡萄牙语来说尤其如此，因为其大量基于语境的习惯表达。
‍
因此，聊天机器人平台应允许非技术人员轻松更新和维护内容及翻译，因为设计师和开发者往往不熟悉葡萄牙语的各种文化表现。
‍
显然，随着高质量葡萄牙语聊天机器人越来越精准，这项技术的应用将在未来几年持续增长。这种增长将缓解资源限制问题，也让潜在买家能清楚了解最佳实践，从而获得最佳效果。

摘要

PLN（自然语言处理）技术的创新不仅适用于葡萄牙语聊天机器人，也适用于其他AI应用。现在我们看到多功能系统以不同方式使用葡萄牙语AI，从新闻和评论的情感分析，到文本摘要或生成，这些以前只有人类能完成。通常，葡萄牙语聊天机器人不仅作为不同AI技术的用户界面，还帮助终端用户使用其他系统，如网站或Web应用，或作为购物顾问和决策助手。
‍
当然，尽管葡萄牙语PLN能力有了显著提升，结果仍有提升空间。研究仍在持续改进PLN引擎，毫无疑问会有新突破。直到PLN达到人类水平，改进工作还会继续。
‍
所有PLN引擎的下一个目标，无论语言如何，就是在多轮对话中表现更好。这意味着让用户能在限定主题领域与机器人进行多步对话，而不仅仅是发出命令或提问。与此相关的聊天机器人平台的下一个目标，是让多轮对话的创建更简单。
‍
多轮对话对Alexa等语音界面或Google Home等设备尤为重要。
‍
虽然我们讨论了基于机器学习的分词进步及其对葡萄牙语PLN的影响，但相关话题还有葡萄牙语语音转文本。葡萄牙语语音转文本仍在不断进步，尽管与其他语言的差距正在迅速缩小。我们希望这里描述的PLN进步以及全球的努力，能在不久的将来进一步缩小这一差距。