Trợ lý giọng nói là gì?
Trợ lý giọng nói là phần mềm có thể hiểu và trả lời các lệnh được nói bằng ngôn ngữ tự nhiên. Chúng cũng có thể được gọi là trợ lý thông minh và đây có thể là một mô tả chính xác hơn vì trong nhiều trường hợp, chúng có thể được giao tiếp bằng văn bản qua trò chuyện. Tất nhiên, chúng còn được gọi là bot.
Trong những năm gần đây , việc áp dụng trợ lý giọng nói đã cất cánh, đặc biệt là dưới dạng trợ lý gia đình kích hoạt bằng giọng nói như Alexa và Google Home.
Những sản phẩm này cho phép người dùng ra lệnh cho phần mềm làm mọi thứ chỉ bằng giọng nói của họ. Ví dụ: người dùng có thể phát nhạc trên Spotify hoặc phát video trên Youtube chỉ bằng cách ra lệnh cho trợ lý giọng nói thông minh làm như vậy.
Thiết bị trợ lý cá nhân được thực hiện nhờ những đột phá trong AI, đặc biệt là trong một lĩnh vực gọi là xử lý ngôn ngữ tự nhiên.
Trợ lý giọng nói sử dụng NLP để nhận dạng giọng nói như thế nào?
Xử lý ngôn ngữ tự nhiên là một công nghệ cho phép máy tính hiểu ý định đằng sau một cụm từ được nói. Điều này khác với nhận dạng giọng nói phiên âm các từ được nói thành văn bản. Nhận dạng giọng nói tất nhiên cũng cần thiết cho các trợ lý kỹ thuật số điều khiển bằng giọng nói. Nhận dạng giọng nói phiên âm các từ được nói thành văn bản và xử lý ngôn ngữ tự nhiên xác định ý định của người dùng đằng sau văn bản.
Xử lý ngôn ngữ tự nhiên rất quan trọng và hữu ích vì con người hướng dẫn trợ lý giọng nói sử dụng các cụm từ khác nhau có cùng ý nghĩa. Ví dụ: họ có thể nói, "Chơi X trên Youtube" hoặc "Vui lòng tìm X trên Youtube và phát nó" hoặc "Trên Youtube vui lòng phát bài hát X", v.v.
NLP có thể phát hiện ra rằng tất cả các cụm từ này có cùng ý nghĩa. Điều này rất hữu ích cho con người, ngoài thực tế là họ chỉ có thể tương tác với thiết bị bằng giọng nói vì họ không cần nhớ lệnh hoặc cú pháp chính xác để vận hành thiết bị. NLP cũng dễ dàng đáng ngạc nhiên cho các nhà phát triển để tìm hiểu cách thiết lập và vì lý do này, nó là một phần quan trọng của bất kỳ khung bot nào.
Ưu và nhược điểm của Trợ lý giọng nói
Như bất kỳ ai thực sự đã cố gắng sử dụng trợ lý giọng nói sẽ nói với bạn, chúng tốt cho một cái gì đó nhưng không hoàn hảo. Bạn không thể có một cuộc trò chuyện giống như con người với họ chẳng hạn. Cuộc trò chuyện sẽ nhanh chóng bị phá vỡ nếu bạn cố gắng.
Cũng rất khó để tìm ra những gì họ có thể hoặc không thể làm chỉ bằng cách tương tác với họ. Giọng nói, hóa ra là một giao diện kém để nhanh chóng truy xuất nhiều thông tin. Quét một trang web, ví dụ, là một cách tốt hơn nhiều để có được thông tin một cách nhanh chóng.
Những gì họ rất giỏi là một trong những lệnh hoặc câu hỏi. Chúng hoạt động tốt, đặc biệt là trong trường hợp người dùng biết chính xác kết quả họ mong muốn, ví dụ: họ muốn phát một video cụ thể trên youtube mà họ biết tên và nơi câu trả lời cho câu hỏi là một cụm từ đơn giản, chẳng hạn như câu trả lời cho "nhiệt độ trong thành phố của tôi là bao nhiêu?".
Chúng ta thường quên rằng trợ lý giọng nói chỉ đơn giản là một giao diện phần mềm khác. Chúng tôi gọi họ là trợ lý vì bạn có thể nói chuyện với họ và do đó rất dễ khái niệm họ có một số phẩm chất giống như con người. Ý tưởng này được củng cố thêm bởi thực tế là chúng ta phải gọi chúng bằng tên với một từ nóng, "Hey Google", "Alexa", "Siri" để kích hoạt chúng. Nếu chúng tôi không có một từ nóng, họ sẽ không biết khi nào họ được nói chuyện và do đó khi nào nên trả lời. Từ nóng này tẩy não chúng ta nghĩ về trợ lý giọng nói như một loại trợ lý suy nghĩ gần như con người hơn là một giao diện phần mềm. Và nó tẩy não trẻ nhỏ tin rằng Google hoặc Alexa là một loại Dieties nào đó có thể gây ra cho chúng một số thiệt hại lâu dài khi chúng phát hiện ra rằng đây là những tập đoàn thống trị thế giới.
Trong thực tế, trợ lý giọng nói chỉ là một giao diện phần mềm khác, tức là tương đương với giao diện đồ họa. Giao diện đồ họa thực hiện vai trò tương tự như giao diện giọng nói nhưng nó không thể được nhân bản hóa theo cùng một cách.
Tất nhiên, giao diện giọng nói được sử dụng khác với giao diện đồ họa. Nó chỉ ra rằng giao diện giọng nói thường được sử dụng ngoài giao diện đồ họa nhưng không phải là cách khác.
Điều này một phần là do giao diện đồ họa đã được xây dựng cho hầu hết các ứng dụng và do đó việc thêm giao diện giọng nói vào chúng cho phép người dùng một cách tương tác khác với phần mềm. Giống như yêu cầu trợ lý giọng nói phát video youtube. Bạn có thể phát video bằng giao diện đồ họa nhưng sẽ chậm hơn để làm điều đó.
Cũng có thể tranh luận rằng giao diện đồ họa hoàn thiện hơn giao diện giọng nói vì sẽ rất khó thực hiện một số tác vụ sử dụng giọng nói có thể dễ dàng thực hiện trên giao diện đồ họa. Để hiểu điểm này, hãy tưởng tượng cố gắng để đồng nghiệp của bạn xây dựng một bảng tính cho bạn bằng cách cung cấp cho họ hướng dẫn qua điện thoại so với việc tự xây dựng bảng tính bằng giao diện đồ họa.
Mặc dù giao diện giọng nói thường không thể thiếu, nhưng chúng cung cấp một mức độ tiện lợi mới trong một số tình huống nhất định. Đây thường là sự tiện lợi mà bạn có thể sống mà không cần thiết ngoại trừ trong những trường hợp hiếm hoi khi tương tác rảnh tay là điều cần thiết.
Tương lai của trợ lý giọng nói
Với những hạn chế của chúng, câu hỏi đặt ra là liệu trợ lý giọng nói sẽ trở nên quan trọng hơn trong tương lai hay liệu chúng sẽ vẫn là một sản phẩm bên lề.
Rõ ràng với chúng tôi rằng trợ lý giọng nói sẽ trở nên phổ biến và được sử dụng rộng rãi hơn nhiều trong tương lai vì một lý do, chúng sẽ được tích hợp hoàn toàn với giao diện người dùng đồ họa.
Mặc dù rất khó để thay thế giao diện người dùng đồ họa bằng giọng nói, nhưng việc kết hợp giao diện giọng nói và đồ họa là rất khả thi. Điều này đang được thực hiện ở một mức độ rất hạn chế ngay bây giờ với Google Assistant (cho phép một trang web cung cấp ngữ cảnh) và Bixby.
Thế hệ giao diện tiếp theo mà chúng ta sẽ gọi là giao diện "kết hợp" sẽ tích hợp đồ họa, văn bản và giọng nói vào trải nghiệm tốt nhất cho người dùng. Điều này không chỉ cho phép người dùng hoàn thành nhiệm vụ nhanh hơn và ít đường cong học tập hơn (vì giọng nói cho phép người dùng tương tác với phần mềm mà không cần biết lệnh chính xác) mà AI giám sát các tương tác sẽ cho phép các giao diện phát triển và tự cải thiện.
Hướng dẫn bằng giọng nói khi ứng dụng được khởi chạy lần đầu tiên sẽ hoạt động khác khi ứng dụng đã học được từ hàng ngàn tương tác về cách hành động tốt nhất là gì.
Cũng rất thú vị khi xem xét làm thế nào để giọng nói được chấp nhận đầy đủ, sẽ cần phải có sự thay đổi trong hành vi của người dùng. Ngay bây giờ mọi người gõ văn bản và sử dụng giao diện đồ họa trên điện thoại thông minh của họ nhiều hơn là họ nói vào điện thoại và sử dụng trợ lý giọng nói.
Điều này là do công nghệ nhận dạng giọng nói không hoàn hảo. Trong nhiều thập kỷ đã có các phím tắt bằng giọng nói trên điện thoại và máy tính nhưng các phím tắt này đã không được sử dụng rộng rãi vì tỷ lệ lỗi quá cao đến nỗi nỗi nỗi đau của việc tính toán lỗi lớn hơn lợi ích của sự tiện lợi sau khi tính mới đã biến mất.
Hãy tưởng tượng nếu nhận dạng giọng nói là hoàn hảo và không có tỷ lệ lỗi.
Trong trường hợp này, mọi người sẽ nhanh hơn nhiều khi "nhập" email, ví dụ, sử dụng giọng nói hơn là gõ trên điện thoại thông minh của họ. Khi đạt đến điểm quan trọng này, hỗ trợ giọng nói sẽ có mặt khắp nơi cho các loại tác vụ này.
Để bot cất cánh, cả NLP và công nghệ nhận dạng giọng nói cần phải hoạt động ở mức cao. Mặc dù nhận dạng giọng nói đã hoạt động rất tốt, NLP, như chúng ta đã thảo luận, chỉ hoạt động tốt cho các miền hẹp.
Điểm thú vị ở đây là nhận dạng giọng nói hoạt động tốt hơn nhiều trong các miền hẹp vì những lý do rõ ràng, có ít từ có thể xảy ra hơn mà người dùng có thể nói.
Điều này có nghĩa là chúng ta đã ở thời điểm có thể tạo chatbots gần như hoàn hảo trong một miền hẹp. Chỉ cần nghe Google Duplex Demos.
Điều này sẽ dẫn đến việc áp dụng giọng nói cực kỳ nhanh chóng một khi phát hiện và các vấn đề liên quan được giải quyết.
Giọng nói đầu tiên
Ý tưởng là giọng nói sẽ là cổng gọi đầu tiên khi ai đó cần hỗ trợ.
Trong thế giới đầu tiên bằng giọng nói, các thiết bị sẽ trở nên vô hình hơn vì mọi người sẽ chỉ cần nhìn vào chúng cho các tác vụ mà họ không thể sử dụng giọng nói để làm.
Mọi người sẽ không chỉ có một thiết bị trong phòng khách của họ, họ sẽ có một thiết bị thoại giá rẻ trong mỗi phòng. Các thiết bị này sẽ được kết nối với nhau, với các thiết bị IoT và với điện thoại thông minh và máy tính. Một số thiết bị này có thể chiếu hình ảnh lên tường.
Mọi người sẽ có thể đặt câu hỏi hoặc ra lệnh trong khi họ đang tắm hoặc đánh răng. Họ sẽ không phải nhớ những điều cần nói với bot thoại ở tầng dưới.
Sẽ có nhiều cách tốt hơn để khám phá chức năng và "đào tạo" con người về cách sử dụng hiệu quả các bot.
Mặc dù hiện tại có nhiều vấn đề với các thiết bị trợ lý giọng nói, nhưng hầu hết các vấn đề này liên quan đến cách chúng đang được sử dụng hơn là công nghệ cơ bản. Chúng tôi tin rằng trong một khoảng thời gian ngắn, các ứng dụng giết người cho giọng nói sẽ xuất hiện và đây sẽ là một sự kiện thay đổi cuộc chơi cho cách sử dụng phần mềm. Điều này cũng sẽ đòi hỏi một số tiêu chuẩn hóa các công nghệ và giao thức thoại, nhưng đây là những trở ngại sẽ không cản trở tiến trình lâu dài.
Chúng tôi mong muốn một thế giới tiện lợi tối đa, nơi các thiết bị thoại sẵn sàng trợ giúp ở hầu hết mọi nơi hoặc mọi lúc.
Mục lục
Cập nhật thông tin mới nhất về các tác nhân AI
Chia sẻ điều này trên: