Trong khi nhiều người trong ngành có thể lập luận rằng "điều lớn tiếp theo" trong công nghệ là blockchain, AI thay thế công nhân của con người hoặc thực tế tăng cường, có một công nghệ quan trọng đang bị đánh giá thấp: giao diện người dùng bằng giọng nói.
Nghiên cứu cho thấy 50% truy vấn tìm kiếm sẽ được thực hiện thông qua tìm kiếm bằng giọng nói vào năm 2020. Tuy nhiên, điều mà nghiên cứu này đang đánh giá thấp là những cải tiến nhỏ trong giao diện người dùng giọng nói có khả năng thay đổi hoàn toàn mô hình tương tác giữa người và máy tính hiện tại. Điều này vượt xa trường hợp sử dụng tìm kiếm đối với giao diện người dùng bằng giọng nói thay thế hoặc tích hợp sâu với giao diện người dùng và ứng dụng đồ họa.
Giao diện người dùng giọng nói cho phép mọi người giao tiếp với các thiết bị bằng ngôn ngữ nói tự nhiên thông qua loa thông minh và các thiết bị khác, hiện được tìm thấy trong các thiết bị như Alexa hoặc Google Home. Nói là nền tảng cho cách chúng ta hoàn thành công việc với những người khác, và nó sẽ là nền tảng cho cách chúng ta hoàn thành công việc với máy tính trong tương lai.
Tuy nhiên, đây hiện là một ý kiến bên lề.
Trong khi hầu hết các chuyên gia công nghệ sẽ đồng ý rằng giọng nói sẽ tiếp tục phát triển vai trò thích hợp hiện tại của nó trong hệ sinh thái công nghệ, hoặc ít nhất là phát triển dần dần khi công nghệ được cải thiện, dự đoán của tôi là giọng nói là sự kiện chính. Nó sẽ thống trị các tương tác của chúng ta với phần mềm và thiết bị, và thậm chí trở nên quan trọng như giao diện người dùng đồ họa.
Như đã đề cập, đây không phải là một ý kiến chính thống. Nhiều chuyên gia trong ngành nhận ra rằng giọng nói vẫn còn là một điều mới lạ và chưa đạt được sự phù hợp hoàn hảo với thị trường sản phẩm. Ví dụ, một số VC nổi tiếng có ý kiến rằng cho đến khi đạt được trí tuệ nhân tạo tổng quát, công nghệ giọng nói sẽ luôn rất thích hợp.
Do nhiều hạn chế hiện tại của trợ lý giọng nói, thật khó để mọi người tưởng tượng giọng nói là làn sóng công nghệ tiếp theo. Theo quan điểm của tôi, giọng nói ngày nay tương tự như web quay số vào đầu những năm 90. Hồi đó, trải nghiệm trực tuyến tồi tệ đến mức khó có thể hình dung điều gì sẽ có thể xảy ra khi băng thông được cải thiện. Các nhà tư tưởng hàng đầu đã đưa ra tất cả các loại dự đoán cho internet có vẻ bảo thủ một cách vô lý trong nhận thức muộn màng - một số chuyên gia thậm chí còn dự đoán rằng nó sẽ không có tác động đến nền kinh tế nhiều hơn máy fax.
Kỳ vọng của mọi người đối với giọng nói ngày nay cũng bảo thủ tương tự, một phần vì trải nghiệm giọng nói vẫn còn khó khăn như thế nào. Giả định là cho đến khi đạt được trí tuệ nhân tạo tổng quát, các bot sẽ hoạt động kém trong các cuộc trò chuyện - và công nghệ sẽ không bao giờ tuyệt vời cho đến khi chatbots đều có khả năng trò chuyện gần gũi với người dùng. Tuy nhiên, giả định này liên quan đến nhu cầu trí tuệ nhân tạo tổng quát là thiếu sót: Chắc chắn có nhiều cách để có được chatbots để đạt được hiệu suất gần như ở cấp độ con người bằng cách sử dụng công nghệ hiện tại.
Đối với các trợ lý loa thông minh nói chung, phạm vi chủ đề rất rộng, họ cần phải tự học gần như hoàn toàn. Thật không may, công nghệ hiện tại không đủ tốt để tự động tạo ra các bot tự học có thể xử lý các cuộc trò chuyện nhiều lượt với con người. Nếu công nghệ đó tồn tại, chúng tôi sẽ có thể đặt câu hỏi tiếp theo trên Google. Nhưng việc các bot thông minh tự xây dựng cũng giống như cố gắng làm cho một ứng dụng điện thoại thông minh tự xây dựng mà không có bất kỳ sự tham gia nào của con người - điều đó đơn giản là không thể thực hiện được vào lúc này.
Có một cách khác để đạt được cuộc trò chuyện gần như ở cấp độ con người với bot: thu hẹp đáng kể phạm vi của chúng. Cũng giống như đối với các ứng dụng, các nhà phát triển có thể tạo các bot tinh vi cho các tác vụ cụ thể, lập trình thủ công chúng để tham gia vào cuộc trò chuyện có ý nghĩa. Với những loại bot này, bước đột phá cho giọng nói sẽ đến: loa thông minh, điện thoại và các thiết bị khác sẽ lưu trữ các loại bot này, tạo cơ hội lớn cho những người di chuyển đầu tiên làm đúng.
Giải quyết các vấn đề của bot thoại ngày nay
Để nắm bắt trực giác sự khác biệt giữa trải nghiệm của các bot thoại hiện tại và công nghệ này sẽ trông như thế nào trong tương lai, chúng ta cần bắt đầu bằng cách hiểu tại sao một thiết bị thoại hiện tương đương với việc lướt web trên modem quay số.
Thứ nhất, các tương tác cơ bản với bot thoại vẫn còn rất kém. Bạn phải giải quyết cụ thể thiết bị bằng một từ nóng, sau đó bạn phải đợi xem bot đã được kích hoạt thành công hay chưa. Nếu nó được kích hoạt, bạn cần nói sau tiếng bíp với tốc độ chậm nhưng nhất quán và xây dựng câu của bạn để bao gồm tất cả các tham số cần thiết - gần giống như bạn đang nói trong câu lệnh SQL. Nếu bạn tạm dừng để suy nghĩ bất cứ lúc nào, sự tương tác của bạn sẽ thất bại và bạn sẽ cần phải quay lại từ đầu.
Hãy xem một ví dụ thực tế:
Bạn nói, "Này, Google."
Có một khoảng dừng khi bạn chờ xác nhận rằng thiết bị đã được kích hoạt.
Nếu nó đã được kích hoạt, bạn tiếp tục với yêu cầu của mình:
"Chơi 'Dark Horse' của Katy Perry trên YouTube, trên TV phòng khách."
Có một độ trễ khác trong khi thiết bị xử lý những gì bạn đã nói.
Nếu yêu cầu của bạn thành công, điều gì đó sẽ bắt đầu xảy ra trên TV của bạn và video sẽ phát.
Nếu nó không thành công, bạn phải quay lại từ đầu và thử lại, có lẽ với cấu trúc câu khác, các từ khác nhau hoặc chỉ cố gắng nói rõ ràng hơn.
Trải nghiệm này đầy sự chậm trễ, lỗi tiềm ẩn và có thể mất nhiều lần khởi động lại để hoàn thành nhiệm vụ. Ngoài ra, voice bot chưa thông minh và sẽ không trả lời các lệnh hoặc truy vấn liên quan đến những gì bạn đang làm.
Một cách mới để tương tác với bot thoại
Cách dễ nhất để tưởng tượng các tương tác với các bot thông minh trong tương lai là hình dung một nhà điều hành con người điều khiển thiết bị và đưa ra hướng dẫn cụ thể liên quan đến việc vận hành YouTube (và không có gì khác).
Sự khác biệt đầu tiên là ở tốc độ tương tác. Bạn có thể nói chuyện với tổng đài viên "con người" ở tốc độ bình thường, không bị tạm dừng hoặc chậm trễ trong phản hồi và không có vấn đề gì nếu bạn tạm dừng trong khi nói. Bạn cũng có thể tham khảo toán tử con người ở giữa câu - ví dụ: "Tôi muốn xem TV - bạn biết không, Alexa, vui lòng đưa thứ gì đó lên YouTube." Trên thực tế, bạn có thể không cần phải nói tên của họ (từ nóng) để khiến họ trả lời.
Bot giống con người này cũng sẽ linh hoạt về cách chúng tương tác với bạn:
Bạn: "Alexa, tôi muốn xem YouTube."
Alexa: "Chắc chắn rồi, trên TV nào?"
Bạn: "Trên TV nhà bếp - có thể là thứ gì đó của Katy Perry."
Alexa: "Bạn có một bài hát cụ thể nào trong tâm trí không?"
Bạn: "Không, bạn có thể đề nghị gì?"
Con người: "'Roar', 'Dark Horse'? Tôi đã đưa nhiều gợi ý hơn lên màn hình".
Bạn: "Tuyệt, cảm ơn. Chơi 'nóng và lạnh'."
Đây là tương lai của các tương tác bot: Liền mạch, mượt mà và dễ nói về nhiệm vụ hoặc chủ đề trong tầm tay. Hãy tưởng tượng một vũ trụ rộng lớn của những bot này với một vũ trụ rộng lớn không kém của các thiết bị thoại hàng hóa, giá rẻ. Nó sẽ giống như có một người vận hành đứng trong mọi phòng và bên cạnh mọi thiết bị. Vẫn sẽ có rất nhiều giao diện người dùng đồ họa, nhưng chúng sẽ dễ sử dụng hơn nhiều thông qua bot.
Bước vào tương lai của giọng nói
Ngày nay, người ta thường thấy nhân viên ở những nơi như ga tàu điện ngầm, sân bay và siêu thị cung cấp hỗ trợ cho những người sử dụng màn hình cảm ứng tự phục vụ - ví dụ, người giúp bạn sử dụng máy làm thủ tục để lấy thẻ lên máy bay tại sân bay. Tuy nhiên, hãy tưởng tượng rằng người này thực sự có thể giao tiếp trực tiếp với ứng dụng đăng ký - có nghĩa là nửa chừng quá trình đăng ký, bạn có thể nói với máy rằng bạn muốn thay đổi chỗ ngồi từ vị trí bạn đã chọn ban đầu và ứng dụng sẽ hiển thị màn hình liên quan cho bạn - tất cả mà không cần sự trợ giúp của trợ lý con người.
Đây là tương lai: một bot thoại sẽ được nhúng vào hoặc có thể truy cập vào mọi thiết bị hoặc dịch vụ bạn muốn tham gia và sẽ ngay lập tức làm những gì bạn ra lệnh. Bạn sẽ không còn cần phải lấy điện thoại hoặc máy tính xách tay ra để hoàn thành công việc nữa - thay vào đó, tất cả những gì bạn cần làm là nói to những gì bạn cần và mọi thứ sẽ rơi vào vị trí từ đó.
Việc chuyển sang giọng nói cuối cùng sẽ là về một cái gì đó đơn giản như sự tiện lợi. Trong thế giới hiện đại của chúng ta, mọi người muốn làm mọi thứ nhanh chóng với ít rắc rối nhất và tốc độ quan trọng hơn bao giờ hết. Mặc dù phần lớn những người kết nối với ngành công nghiệp chatbot hiện không dự đoán được điều đó, nhưng những người trong chúng ta đang nghiên cứu và phát triển công nghệ này thấy trước những tác động to lớn đối với hoạt động kinh doanh, tiếp thị, bán hàng, xây dựng thương hiệu, phân phối sản phẩm và hơn thế nữa. Giọng nói là tương lai của công nghệ, và chúng ta đã đi được nửa chặng đường.
Chia sẻ điều này trên:
Xây dựng chatbot AI được cá nhân hóa của riêng bạn miễn phí
Bắt đầu xây dựng bot GPT được cá nhân hóa với giao diện kéo và thả trực quan của chúng tôi.
Bắt đầu - hoàn toàn miễn phí! 🤖Không cần thẻ tín dụng
Luôn cập nhật thông tin mới nhất về AI chatbots