所謂葡萄牙語聊天機器人,是指能理解並分析葡萄牙語對話的程式。如今,這些聊天機器人能讓人與電腦之間的對話變得非常流暢。
近年來自然語言處理(NLP,本文稱為 PLN)的進步,使葡萄牙語聊天機器人的開發能考慮語言特性。這些進步運用機器學習(ML)來理解語言結構、詞義與語境。
葡萄牙語是全球第六大語言,其中一半使用者在巴西,雖然與其他拉丁語系語言接近,但有兩個明顯特點:
此外,不同國家的使用者之間有完全不同的慣用語,有時甚至會讓整句話難以理解。
這些特殊情況會讓葡萄牙語聊天變得困難嗎?毫無意外,答案是肯定的。
上述內容對葡萄牙語聊天機器人的自然語言處理(NLP)帶來挑戰。任何自然語言處理演算法的第一步都是理解語言,也就是將句子拆解成小的意義單位,稱為「詞元」。這個步驟叫做「斷詞」(順帶一提,巴西葡萄牙語很常把外來語本地化)。因此,語言越有系統、越有規律,斷詞就越容易。
在我們理解 NLP 最新進展的意義之前,必須先了解 NLP 理解模型是如何建立的。
某種程度上,了解一個葡萄牙語(或任何語言)聊天機器人是如何製作的,就像是一場時光之旅。
最早為解決語言不可預測性而進行的研究,可追溯到 1940 年代,由麻省理工學院神經解剖學家暨精神科醫師 Warren McCulloch 及伊利諾大學數學家 Walter Pitts 發表的論文。他們奠定了理論基礎,使 John von Neumann 能在 1940 年代末撰寫《The General and Logical Theory of Automata》。
電腦運算能力的持續提升,成為推動自然語言處理(PLN)從科學實驗室走向企業與政府單位日常應用研究的另一支柱。
PLN 的發展史,實際上始於 1950 年代,當時 Alan Turing 發表了《Computing Machinery and Intelligence》一文,提出了現在所稱的圖靈測試作為智慧的標準。
然而,從 1980 年代末開始,隨著機器學習演算法被引入語言處理領域,PLN 經歷了一場革命。這既歸功於運算能力的提升,也因語言學「喬姆斯基學派」理論逐漸式微,讓以語料庫為基礎的機器學習方法得以發展。這種自動化是將句子拆解為更小的單位,並用統計規則來分類與辨識這些單位間的關係,這個過程稱為「斷詞」(tokenization),前文已有說明。
然而,語言斷詞的工作需要 NLP 研究者大量手動介入。每種語言都必須獨立且幾乎全手動地進行斷詞。
對於處理高度語境化語言的機器人來說,這項工作尤其困難。
一旦語言完成斷詞,AI 演算法就能用來理解語言,也就是建立詞語間意義關聯的地圖。
如果斷詞能夠可靠自動化,這個語言理解階段也能自動化。但問題在於斷詞本身很複雜,因此即使是理解演算法也必須與斷詞一起手動設定。
最終結果並不理想。例如,葡萄牙語的理解程度與英語相比僅屬中等。當然,英語研究一直比葡萄牙語多,但葡萄牙語語境處理的困難也讓成果難以提升。
如同 AI 研究者一貫的思考,他們開始思考斷詞本身是否也能用機器學習來完成。這將讓斷詞與理解演算法都能對底層語言「語言無關」(agnostic),大幅加快並提升 AI 訓練不同語言的效率。
就在 2018 年底,創新出現了:AI 可以在沒有人工介入的情況下用葡萄牙語訓練,結果讓 NLP 效能大幅提升。
葡語聊天機器人 AI 平台因此能立刻變得更好,葡語理解能力也達到與其他語言相近的水準。
但這項突破並不代表葡語聊天機器人的整體品質馬上提升。要讓客戶感受到這些好處,AI 聊天機器人平台的第一步是更新演算法,採用最新技術。
考量到過去對舊技術的投資,這些平台並不會很快完成這個轉換。
此外,平台還需實作一些功能,確保葡語聊天機器人能帶給最終用戶良好體驗。例如建立同義詞區塊,並在不同情境下運用,對應語意,避免機器人誤解詞語在特定情境下的意思。
在不同市集平台上處理多語言可能很困難。有些平台要求不同語言的聊天機器人必須分開建立,這在擴展性和維護上顯然效率低下。
因此,一個好的平台應該是真正的多語言,允許在用戶介面中為同一內容提供多種翻譯。
此外,語言必須設為對話變數,讓 AI 能精確偵測語言,對話設計師也能圍繞該語言設計邏輯。
除了語言相關功能外,若要打造優秀的聊天機器人,平台本身的整體功能也必須出色。這些功能可分為兩大類。
最後,為最終用戶打造的聊天機器人體驗品質,與所用工具的能力息息相關,從語言理解到圖文介面設計都很重要。
即使有了好的平台,打造葡萄牙語聊天機器人仍有挑戰。葡語 AI 研究有限,因此找到合適資源參與專案相當不易。
雖然不必自行撰寫 NLP 演算法,因為這些已經現成,但要找到能理解不同葡語族群語境差異的設計師仍具挑戰。這在葡萄牙語特別明顯,因為大量語境相關的慣用語。
因此,聊天機器人平台必須讓非技術人員也能輕鬆更新與維護內容及翻譯,因為設計師和開發者未必熟悉各種葡語文化。
當然,葡語高品質聊天機器人越來越精準,代表這項技術的採用率將在未來幾年提升。這種成長將解決資源限制問題,讓潛在買家更清楚最佳實踐與成果。
PLN 技術的創新不僅適用於葡萄牙語聊天機器人,也應用於其他 AI 產品。現在我們看到多功能系統以不同方式運用葡萄牙語 AI,從新聞與評論的情感分析,到摘要或產生過去只能由人類完成的文本。通常,葡萄牙語聊天機器人不僅作為不同 AI 技術的使用者介面,也協助終端用戶操作其他系統,例如網站或網頁應用程式,甚至擔任購物顧問或協助決策。
當然,雖然葡萄牙語 PLN 的能力大幅提升,結果仍有進步空間。研究持續推進 PLN 引擎,未來必定會有新突破。在 PLN 達到人類水準前,仍有許多工作要做。
所有 PLN 引擎的下一步,不論語言,都在於提升多輪對話的表現。這代表讓人類能在特定主題領域與機器人進行多步驟對話,而不只是單一指令或提問。對於聊天機器人平台來說,下一步則是讓多輪對話的設計更容易。
多輪對話對於 Alexa 等語音介面或 Google Home 等裝置尤其重要。
雖然我們討論了機器學習導向的分詞技術及其對葡萄牙語 PLN 的影響,相關主題還包括葡萄牙語語音轉文字。葡萄牙語語音轉文字仍在追趕其他語言,儘管差距正迅速縮小。我們期望這裡描述的 PLN 進展,以及全球的努力,能在不久的將來進一步縮小這個差距。
打造令人驚豔的 AI 智能代理體驗。