Một bước phổ biến khi xây dựng bot là xác định "ý định".
Mục đích có thể là "đặt lại mật khẩu của tôi", "đặt chuyến bay" hoặc "liên hệ với bộ phận hỗ trợ". Nhà phát triển bot cần nhập nhiều cụm từ vào phần mềm mà tất cả đều có cùng ý nghĩa với ý định. Ví dụ: "Tôi muốn bay đến Paris" sẽ là một trong những cụm từ như vậy cho mục đích "đặt chuyến bay".
Nói chung, các nền tảng phát triển bot yêu cầu người dùng nhập nhiều cụm từ cho một mục đích nhất định. Những cụm từ này là dữ liệu đào tạo cho thuật toán Xử lý ngôn ngữ tự nhiên (NLP).
Thuật toán NLP là một thuật toán học máy tự đào tạo trên dữ liệu để có thể nhận ra các cụm từ có cùng nghĩa nhưng các từ khác nhau (so với dữ liệu đào tạo).
Thuật toán NLP sử dụng dữ liệu ý định do nhà phát triển bot cung cấp cộng với một kho dữ liệu khổng lồ liên quan đến ngôn ngữ (mà nó đã được đào tạo trước đó) để hiệu chỉnh mô hình nội bộ của nó để có thể nhận ra các cụm từ mới.
Càng nhiều ví dụ được đưa ra cho thuật toán NLP bởi nhà phát triển chatbot, nó càng có thể nhận ra chính xác ý nghĩa tương tự trong các cụm từ khác có từ ngữ khác nhau. Ít nhất đó là thông điệp được đưa ra cho các nhà phát triển bot.
Vấn đề là tất cả dữ liệu đào tạo không được tạo ra như nhau. Chất lượng của dữ liệu cũng quan trọng như số lượng.
Ví dụ: hãy tưởng tượng tôi muốn tạo một ý định gọi là "đặt lại mật khẩu của tôi".
Tác giả bot có thể bắt đầu tạo các cụm từ sau:
Đặt lại mật khẩu của tôi
Tôi đã quên mật khẩu của mình
Mật khẩu của tôi không hoạt động
Mật khẩu mới xin vui lòng
Vấn đề mật khẩu
V.v.
Vấn đề ở trên là tất cả các cụm từ đều sử dụng cùng một từ "mật khẩu". Điều này có nghĩa là khi thuật toán tự đào tạo về dữ liệu này, nó sẽ phân biệt quy tắc rằng nếu từ "mật khẩu" nằm trong cụm từ, thì mục đích là "đặt lại mật khẩu của tôi". Điều này, tất nhiên, là sai. Mọi người có thể nói nhiều cụm từ khác mà không có từ "mật khẩu" trong đó có nghĩa tương tự như "đặt lại mật khẩu của tôi". Ngoài ra còn có nhiều cụm từ có từ "mật khẩu" trong đó không có nghĩa là "đặt lại mật khẩu của tôi".
Trong thế giới thuật toán, vấn đề này được gọi là quá phù hợp với dữ liệu đào tạo. Thuật toán đã trang bị quá mức cho từ "mật khẩu" và do đó "tin" rằng mọi cụm từ có từ "mật khẩu" trong đó có nghĩa là "đặt lại mật khẩu của tôi".
Có những ví dụ khác về điều này cho cùng một mục đích. Ví dụ: nhà phát triển bot có thể nhập các cụm từ sau:
Thông tin đăng nhập của tôi không hoạt động
Thông tin đăng nhập của tôi không hoạt động
Mật khẩu của tôi không hoạt động
Tên người dùng của tôi không hoạt động.
V.v.
Tất nhiên, đây là một ví dụ cực đoan hơn về vấn đề, nhưng mô hình là phổ biến khi tạo dữ liệu đào tạo. Điều này một lần nữa sẽ khiến thuật toán quá phù hợp với dữ liệu, nhưng lần này là cụm từ "không hoạt động".
Giải pháp hy vọng bây giờ đã rõ ràng. Mỗi cụm từ trong dữ liệu đào tạo cần phải càng khác càng tốt với các cụm từ khác trong tập dữ liệu. Chẳng hạn:
Thông tin đăng nhập của tôi không hoạt động.
Tôi cần đặt lại mật khẩu.
Làm cách nào để khắc phục sự cố đăng nhập của tôi?
Ai có thể giúp tôi đăng nhập vào hệ thống.
V.v.
Tất nhiên, việc tạo một tập dữ liệu như trên cần nhiều nỗ lực hơn. Nó thậm chí có thể giúp có một từ điển đồng nghĩa mở để tìm các từ đồng nghĩa với mục đích kích thích ý tưởng cho các cụm từ.
Một cách khác mà các nhà phát triển bot khắc phục vấn đề này là có quyền truy cập vào dữ liệu trò chuyện dịch vụ khách hàng, cung cấp nhiều ví dụ về tất cả các cách mà khách hàng thực sự sẽ hỏi cùng một câu hỏi. Dữ liệu này có thể cực kỳ có giá trị.
Có một câu hỏi về việc khi nào các thuật toán NLP sẽ có thể hoạt động tốt chỉ trên một tập dữ liệu đào tạo nhỏ. Chắc chắn sẽ tốt hơn nếu bot hoạt động hoàn hảo chỉ bằng cách sử dụng một tập dữ liệu nhỏ. Đây chắc chắn là điều đang được các nhà nghiên cứu nghiên cứu nghiên cứu vì nó sẽ không chỉ giảm thời gian và công sức cần thiết để tạo chatbots, nó sẽ cải thiện đáng kể chất lượng của họ.
Thuật toán NLP là một hộp đen đối với hầu hết các nhà phát triển bot. Tuy nhiên, điều quan trọng là họ phải hiểu những điều cơ bản về cách thuật toán hoạt động để họ biết loại dữ liệu đào tạo nào (dữ liệu ý định) mà họ cần cung cấp cho thuật toán để mang lại kết quả tốt nhất.
Chia sẻ điều này trên:
Xây dựng chatbot AI được cá nhân hóa của riêng bạn miễn phí
Bắt đầu xây dựng bot GPT được cá nhân hóa với giao diện kéo và thả trực quan của chúng tôi.
Bắt đầu - hoàn toàn miễn phí! 🤖Không cần thẻ tín dụng
Luôn cập nhật thông tin mới nhất về AI chatbots