最佳葡萄牙語聊天機器人

所謂葡萄牙語聊天機器人，是指能理解並分析葡萄牙語對話的程式。如今，這些聊天機器人能讓人與電腦之間的對話變得非常流暢。
‍
近年來自然語言處理（NLP，本文稱為 PLN）的進步，使葡萄牙語聊天機器人的開發能考慮語言特性。這些進步運用機器學習（ML）來理解語言結構、詞義與語境。

用 AI 打造葡萄牙語聊天機器人

葡萄牙語是全球第六大語言，其中一半使用者在巴西，雖然與其他拉丁語系語言接近，但有兩個明顯特點：

有許多假同源詞，外觀相似但意思不同。在葡萄牙葡語中，propina 指月費，在巴西葡語則是賄賂。即使在巴西，不同地區詞義也會變：在該國東北，「cabra」指男人，其他地區則只指動物。
大量依賴上下文會讓聊天機器人理解葡萄牙語變得困難。例如「chega」既可作為動詞（「她明天到」），也可表示要求停止（「別再說了」）。

此外，不同國家的使用者之間有完全不同的慣用語，有時甚至會讓整句話難以理解。
‍
這些特殊情況會讓葡萄牙語聊天變得困難嗎？毫無意外，答案是肯定的。

葡萄牙語聊天機器人：自然語言處理（PLN）挑戰

上述內容對葡萄牙語聊天機器人的自然語言處理（NLP）帶來挑戰。任何自然語言處理演算法的第一步都是理解語言，也就是將句子拆解成小的意義單位，稱為「詞元」。這個步驟叫做「斷詞」（順帶一提，巴西葡萄牙語很常把外來語本地化）。因此，語言越有系統、越有規律，斷詞就越容易。
‍
在我們理解 NLP 最新進展的意義之前，必須先了解 NLP 理解模型是如何建立的。

過去

某種程度上，了解一個葡萄牙語（或任何語言）聊天機器人是如何製作的，就像是一場時光之旅。
‍
最早為解決語言不可預測性而進行的研究，可追溯到 1940 年代，由麻省理工學院神經解剖學家暨精神科醫師 Warren McCulloch 及伊利諾大學數學家 Walter Pitts 發表的論文。他們奠定了理論基礎，使 John von Neumann 能在 1940 年代末撰寫《The General and Logical Theory of Automata》。
‍
電腦運算能力的持續提升，成為推動自然語言處理（PLN）從科學實驗室走向企業與政府單位日常應用研究的另一支柱。
‍
PLN 的發展史，實際上始於 1950 年代，當時 Alan Turing 發表了《Computing Machinery and Intelligence》一文，提出了現在所稱的圖靈測試作為智慧的標準。
‍
然而，從 1980 年代末開始，隨著機器學習演算法被引入語言處理領域，PLN 經歷了一場革命。這既歸功於運算能力的提升，也因語言學「喬姆斯基學派」理論逐漸式微，讓以語料庫為基礎的機器學習方法得以發展。這種自動化是將句子拆解為更小的單位，並用統計規則來分類與辨識這些單位間的關係，這個過程稱為「斷詞」（tokenization），前文已有說明。
‍
然而，語言斷詞的工作需要 NLP 研究者大量手動介入。每種語言都必須獨立且幾乎全手動地進行斷詞。
‍
對於處理高度語境化語言的機器人來說，這項工作尤其困難。
‍
一旦語言完成斷詞，AI 演算法就能用來理解語言，也就是建立詞語間意義關聯的地圖。
‍
如果斷詞能夠可靠自動化，這個語言理解階段也能自動化。但問題在於斷詞本身很複雜，因此即使是理解演算法也必須與斷詞一起手動設定。
‍
最終結果並不理想。例如，葡萄牙語的理解程度與英語相比僅屬中等。當然，英語研究一直比葡萄牙語多，但葡萄牙語語境處理的困難也讓成果難以提升。
‍
如同 AI 研究者一貫的思考，他們開始思考斷詞本身是否也能用機器學習來完成。這將讓斷詞與理解演算法都能對底層語言「語言無關」（agnostic），大幅加快並提升 AI 訓練不同語言的效率。

人工智慧的最新進展

就在 2018 年底，創新出現了：AI 可以在沒有人工介入的情況下用葡萄牙語訓練，結果讓 NLP 效能大幅提升。
‍
葡語聊天機器人 AI 平台因此能立刻變得更好，葡語理解能力也達到與其他語言相近的水準。
‍
但這項突破並不代表葡語聊天機器人的整體品質馬上提升。要讓客戶感受到這些好處，AI 聊天機器人平台的第一步是更新演算法，採用最新技術。
‍
考量到過去對舊技術的投資，這些平台並不會很快完成這個轉換。
‍
此外，平台還需實作一些功能，確保葡語聊天機器人能帶給最終用戶良好體驗。例如建立同義詞區塊，並在不同情境下運用，對應語意，避免機器人誤解詞語在特定情境下的意思。

多語言平台

在不同市集平台上處理多語言可能很困難。有些平台要求不同語言的聊天機器人必須分開建立，這在擴展性和維護上顯然效率低下。
‍
因此，一個好的平台應該是真正的多語言，允許在用戶介面中為同一內容提供多種翻譯。
‍
此外，語言必須設為對話變數，讓 AI 能精確偵測語言，對話設計師也能圍繞該語言設計邏輯。
‍
除了語言相關功能外，若要打造優秀的聊天機器人，平台本身的整體功能也必須出色。這些功能可分為兩大類。

首先是通用自然語言理解技術（或稱 NLP 演算法）。一個表現良好的平台不僅要支援多語言，底層 NLP 演算法也必須採用最新技術並具備整體優異表現。平台還應具備 NLP 相關功能，如「slot 填充」（從上下文中擷取資訊並以鍵值對形式組成資訊集）及根據對話情境進行意圖比對。
第二類是平台的整體功能。它必須讓設計師能輕鬆打造極佳的聊天機器人使用體驗，包括與舊系統及第三方系統的輕鬆整合。如果缺乏這些功能或不易使用，不論是否支援葡萄牙語都無關緊要。

最後，為最終用戶打造的聊天機器人體驗品質，與所用工具的能力息息相關，從語言理解到圖文介面設計都很重要。

打造最強葡萄牙語聊天機器人

即使有了好的平台，打造葡萄牙語聊天機器人仍有挑戰。葡語 AI 研究有限，因此找到合適資源參與專案相當不易。
‍
雖然不必自行撰寫 NLP 演算法，因為這些已經現成，但要找到能理解不同葡語族群語境差異的設計師仍具挑戰。這在葡萄牙語特別明顯，因為大量語境相關的慣用語。
‍
因此，聊天機器人平台必須讓非技術人員也能輕鬆更新與維護內容及翻譯，因為設計師和開發者未必熟悉各種葡語文化。
‍
當然，葡語高品質聊天機器人越來越精準，代表這項技術的採用率將在未來幾年提升。這種成長將解決資源限制問題，讓潛在買家更清楚最佳實踐與成果。

摘要

PLN 技術的創新不僅適用於葡萄牙語聊天機器人，也應用於其他 AI 產品。現在我們看到多功能系統以不同方式運用葡萄牙語 AI，從新聞與評論的情感分析，到摘要或產生過去只能由人類完成的文本。通常，葡萄牙語聊天機器人不僅作為不同 AI 技術的使用者介面，也協助終端用戶操作其他系統，例如網站或網頁應用程式，甚至擔任購物顧問或協助決策。
‍
當然，雖然葡萄牙語 PLN 的能力大幅提升，結果仍有進步空間。研究持續推進 PLN 引擎，未來必定會有新突破。在 PLN 達到人類水準前，仍有許多工作要做。
‍
所有 PLN 引擎的下一步，不論語言，都在於提升多輪對話的表現。這代表讓人類能在特定主題領域與機器人進行多步驟對話，而不只是單一指令或提問。對於聊天機器人平台來說，下一步則是讓多輪對話的設計更容易。
‍
多輪對話對於 Alexa 等語音介面或 Google Home 等裝置尤其重要。
‍
雖然我們討論了機器學習導向的分詞技術及其對葡萄牙語 PLN 的影響，相關主題還包括葡萄牙語語音轉文字。葡萄牙語語音轉文字仍在追趕其他語言，儘管差距正迅速縮小。我們期望這裡描述的 PLN 進展，以及全球的努力，能在不久的將來進一步縮小這個差距。