Một “chatbot” bằng tiếng Bồ Đào Nha là một chương trình có thể hiểu và phân tích hội thoại bằng tiếng Bồ Đào Nha. Ngày nay, các chatbot này có thể duy trì cuộc đối thoại giữa con người và máy tính một cách rất tự nhiên.
Những tiến bộ gần đây trong Xử lý Ngôn ngữ Tự nhiên (NLP, trong văn bản này gọi là PLN) cho phép tạo ra các chatbot bằng tiếng Bồ Đào Nha, tính đến các đặc thù của ngôn ngữ. Những tiến bộ này sử dụng Học Máy (ML - machine learning) để hiểu không chỉ cấu trúc ngôn ngữ mà còn cả ý nghĩa của từ và ngữ cảnh sử dụng.
Tiếng Bồ Đào Nha là ngôn ngữ được nói nhiều thứ sáu trên thế giới, một nửa trong số đó ở Brazil, và dù gần gũi với các ngôn ngữ Latinh khác, nó có hai điểm đặc biệt nổi bật:
Ngoài ra, còn có nhiều thành ngữ hoàn toàn khác biệt giữa người nói ở các quốc gia khác nhau, đôi khi khiến việc hiểu cả câu trở nên rất khó khăn.
Những điểm đặc biệt này có làm cho việc xây dựng chatbot tiếng Bồ Đào Nha trở nên khó khăn không? Không có gì ngạc nhiên, câu trả lời là có.
Những điều trên đặt ra thách thức cho NLP trong chatbot tiếng Bồ Đào Nha. Bước đầu tiên của bất kỳ thuật toán Xử lý Ngôn ngữ Tự nhiên nào là hiểu ngôn ngữ, tức là phân tích câu thành các đơn vị ý nghĩa nhỏ hơn, hay còn gọi là "token". Nhiệm vụ này gọi là "token hóa" (một đặc điểm của tiếng Bồ Đào Nha Brazil là sử dụng từ nước ngoài và "Brazil hóa" chúng). Do đó, ngôn ngữ càng có hệ thống và trật tự thì việc token hóa càng dễ dàng.
Trước khi hiểu ý nghĩa của các tiến bộ mới nhất trong NLP, chúng ta cần biết các mô hình hiểu NLP được xây dựng như thế nào.
Ở một khía cạnh nào đó, hiểu cách một chatbot tiếng Bồ Đào Nha (hoặc bất kỳ ngôn ngữ nào) được tạo ra là một hành trình xuyên thời gian.
Những nghiên cứu đầu tiên nhằm xử lý tính bất định của ngôn ngữ xuất hiện vào thập niên 40, với các bài viết của nhà giải phẫu thần kinh và tâm thần học Warren McCulloch (MIT) và nhà toán học Walter Pitts (Đại học Illinois). Họ đặt nền móng lý thuyết cho phép John von Neumann viết “The General and Logical Theory of Automata”, cuối thập niên 1940.
Những tiến bộ giúp máy tính ngày càng mạnh mẽ hơn đã tạo nên trụ cột thứ hai, đưa nghiên cứu Xử lý Ngôn ngữ Tự nhiên (PLN) từ phòng thí nghiệm khoa học sang các tổ chức/doanh nghiệp ứng dụng công nghệ mới vào thực tiễn.
Lịch sử PLN thực sự bắt đầu vào thập niên 1950, khi Alan Turing công bố bài “Computing Machinery and Intelligence”, đề xuất tiêu chí kiểm tra trí tuệ mà nay gọi là Turing Test.
Từ cuối những năm 1980, PLN có bước ngoặt lớn với sự xuất hiện của các thuật toán học máy cho xử lý ngôn ngữ. Điều này nhờ vào sức mạnh tính toán tăng lên và sự suy giảm dần của các lý thuyết ngôn ngữ học “chomsky”, vốn không khuyến khích xây dựng kho ngữ liệu – nền tảng cho học máy trong xử lý ngôn ngữ. Quá trình này chia câu thành các khối nhỏ và áp dụng quy tắc thống kê để phân loại, xác định quan hệ giữa các khối. Quá trình này gọi là “tokenization”, đã đề cập ở trên.
Tuy nhiên, việc token hóa ngôn ngữ đòi hỏi rất nhiều can thiệp thủ công từ nhà nghiên cứu PLN. Mỗi ngôn ngữ phải được token hóa độc lập và gần như hoàn toàn thủ công.
Việc token hóa này đặc biệt khó với các robot xử lý ngôn ngữ có tính ngữ cảnh cao, như bạn có thể hình dung.
Sau khi token hóa, các thuật toán AI có thể được áp dụng để hiểu ngôn ngữ, tức là xây dựng bản đồ ý nghĩa về mối quan hệ giữa các từ.
Bước hiểu ngôn ngữ này có thể tự động hóa nếu token hóa đủ tin cậy. Tuy nhiên, token hóa lại rất phức tạp, nên ngay cả các thuật toán hiểu ngôn ngữ cũng phải cấu hình thủ công cùng với token hóa.
Kết quả cuối cùng không khả quan. Ví dụ, mức độ hiểu tiếng Bồ Đào Nha so với tiếng Anh chỉ ở mức trung bình. Dĩ nhiên, nghiên cứu tiếng Anh luôn được chú trọng hơn, nhưng việc xử lý ngữ cảnh tiếng Bồ Đào Nha rất khó để đạt kết quả tốt.
Như các nhà nghiên cứu AI thường làm, họ tự hỏi liệu chính việc token hóa có thể thực hiện bằng học máy không. Điều này sẽ giúp các thuật toán token hóa và hiểu ngôn ngữ không phụ thuộc vào ngôn ngữ gốc (gọi là agnostic), từ đó giúp huấn luyện AI cho một ngôn ngữ nhanh và tốt hơn nhiều.
Và chính tại thời điểm đó, đổi mới đã diễn ra vào cuối năm 2018: AI có thể được huấn luyện bằng tiếng Bồ Đào Nha mà không cần can thiệp thủ công, nhờ đó hiệu suất NLP đã tốt hơn rất nhiều.
Các nền tảng AI cho chatbot tiếng Bồ Đào Nha đã ngay lập tức trở nên tốt hơn và khả năng hiểu tiếng Bồ Đào Nha đạt gần như các ngôn ngữ khác.
Tuy nhiên, việc có bước tiến này không có nghĩa chất lượng chatbot tiếng Bồ Đào Nha được cải thiện ngay lập tức. Để khách hàng cảm nhận được lợi ích, bước đầu tiên là các nền tảng chatbot AI phải cập nhật thuật toán để sử dụng công nghệ mới nhất.
Với khoản đầu tư vào công nghệ cũ, đây không phải điều các nền tảng này làm ngay lập tức.
Bên cạnh đó, còn một số tính năng cần được triển khai để đảm bảo chatbot tiếng Bồ Đào Nha mang lại trải nghiệm tốt cho người dùng cuối. Ví dụ, xây dựng các khối từ đồng nghĩa và cách sử dụng trong các ngữ cảnh khác nhau để ánh xạ ý nghĩa, tránh chatbot hiểu sai nghĩa của từ trong từng ngữ cảnh.
Làm việc với nhiều ngôn ngữ trên các nền tảng thị trường khác nhau có thể rất khó khăn. Một số nền tảng yêu cầu xây dựng chatbot cho từng ngôn ngữ riêng biệt, điều này rõ ràng không hiệu quả về mặt mở rộng và bảo trì.
Vì vậy, một nền tảng tốt sẽ thực sự đa ngôn ngữ, cho phép nhiều bản dịch cho cùng một nội dung trên giao diện người dùng.
Bên cạnh đó, ngôn ngữ cần được đặt làm biến của hội thoại, để AI có thể phát hiện chính xác ngôn ngữ và nhà thiết kế hội thoại có thể xây dựng logic dựa trên ngôn ngữ đó.
Ngoài chức năng liên quan đến ngôn ngữ, để tạo ra một chatbot tuyệt vời ở bất kỳ ngôn ngữ nào, chức năng tổng thể của nền tảng chatbot cũng phải xuất sắc. Có hai nhóm chức năng quan trọng.
Cuối cùng, chất lượng trải nghiệm chatbot mà người dùng cuối nhận được phụ thuộc trực tiếp vào sức mạnh của công cụ tạo ra nó, từ khả năng hiểu ngôn ngữ đến cách tiếp cận giao diện đồ họa/văn bản.
Ngay cả với một nền tảng tốt, việc xây dựng chatbot tiếng Bồ Đào Nha vẫn gặp nhiều thách thức. Số lượng nghiên cứu về tiếng Bồ Đào Nha trong lĩnh vực AI còn hạn chế, vì vậy việc tìm kiếm nguồn lực phù hợp cho dự án có thể khá vất vả.
Mặc dù bạn không cần phải tự phát triển các thuật toán Xử lý Ngôn ngữ Tự nhiên (PLN) vì chúng đã được cung cấp sẵn, nhưng việc tìm kiếm các nhà thiết kế am hiểu sự khác biệt về ngôn ngữ giữa các nhóm người dùng mà chatbot tiếng Bồ Đào Nha sẽ phục vụ lại là một thách thức. Điều này đặc biệt đúng với tiếng Bồ Đào Nha, do ngôn ngữ này sử dụng rất nhiều thành ngữ phụ thuộc vào ngữ cảnh.
Vì vậy, điều quan trọng là nền tảng chatbot phải cho phép nội dung và bản dịch được cập nhật, quản lý dễ dàng bởi những người không chuyên về kỹ thuật, bởi các nhà thiết kế và lập trình viên có thể không am hiểu sâu về các yếu tố văn hóa của từng biến thể tiếng Bồ Đào Nha.
Rõ ràng, việc các chatbot tiếng Bồ Đào Nha chất lượng cao ngày càng chính xác sẽ thúc đẩy việc ứng dụng công nghệ này trong những năm tới. Sự phát triển này sẽ giải quyết vấn đề thiếu nguồn lực và giúp khách hàng tiềm năng có cái nhìn rõ ràng hơn về các phương pháp tối ưu để đạt kết quả tốt nhất.
Những đổi mới trong công nghệ Xử lý ngôn ngữ tự nhiên (PLN) không chỉ áp dụng cho chatbot tiếng Bồ Đào Nha mà còn cho các ứng dụng AI khác. Hiện nay, chúng ta thấy các hệ thống đa chức năng sử dụng AI tiếng Bồ Đào Nha theo nhiều cách khác nhau, từ phân tích cảm xúc trong tin tức và bình luận, đến tóm tắt hoặc tạo văn bản mà trước đây chỉ con người mới làm được. Thông thường, chatbot tiếng Bồ Đào Nha được dùng làm giao diện người dùng không chỉ cho các công nghệ AI khác nhau mà còn giúp người dùng cuối sử dụng các hệ thống khác như website hoặc ứng dụng web, hoặc đóng vai trò là tư vấn mua hàng và/hoặc hỗ trợ ra quyết định.
Tất nhiên, dù đã có bước tiến lớn về sức mạnh PLN tiếng Bồ Đào Nha, kết quả vẫn luôn có thể tốt hơn. Nghiên cứu vẫn tiếp tục cải thiện các engine PLN và chắc chắn sẽ có những tiến bộ mới. Cho đến khi PLN đạt trình độ như con người, vẫn còn nhiều việc phải làm.
Bước tiếp theo cho tất cả các engine PLN, bất kể ngôn ngữ, là làm tốt hơn trong các hộp thoại nhiều lượt. Điều này có nghĩa là cho phép con người trò chuyện nhiều bước với bot trong một chủ đề cụ thể, thay vì chỉ ra lệnh hoặc đặt câu hỏi. Và bước tiếp theo liên quan đến nền tảng chatbot là giúp việc tạo hội thoại nhiều lượt trở nên dễ dàng hơn.
Hội thoại nhiều lượt đặc biệt quan trọng với giao diện giọng nói như Alexa hoặc các thiết bị như Google Home.
Dù chúng ta đã bàn về tiến bộ trong token hóa dựa trên máy học và tác động đến PLN tiếng Bồ Đào Nha, một chủ đề liên quan là chuyển đổi giọng nói thành văn bản tiếng Bồ Đào Nha. Việc chuyển đổi này vẫn đang phát triển so với các ngôn ngữ khác – dù sự khác biệt về hiệu suất đang giảm nhanh chóng. Chúng tôi hy vọng tiến bộ PLN được mô tả ở đây và trên toàn thế giới sẽ giúp thu hẹp khoảng cách này trong tương lai gần.
Tạo trải nghiệm tác nhân AI tuyệt vời.