Walaupun ramai dalam industri mungkin berpendapat bahawa "perkara besar seterusnya" dalam teknologi adalah blockchain, AI menggantikan pekerja manusia atau realiti tambahan, ada satu teknologi penting yang dipandang rendah: antara muka pengguna suara.
Penyelidikan menunjukkan bahawa 50% pertanyaan carian akan dilakukan melalui carian suara menjelang 2020. Walau bagaimanapun, apa yang dipandang rendah oleh penyelidikan ini ialah penambahbaikan kecil dalam UI suara mempunyai potensi untuk mengalihkan sepenuhnya paradigma interaksi manusia-komputer semasa. Ini melampaui kes penggunaan carian ke arah UI suara menggantikan atau menyepadukan secara mendalam dengan antara muka dan aplikasi pengguna grafik.
UI suara membolehkan orang ramai berkomunikasi dengan peranti dalam bahasa pertuturan semula jadi melalui pembesar suara pintar dan peranti lain, yang kini ditemui dalam peranti seperti Alexa atau Google Home. Bercakap adalah asas kepada cara kita menyelesaikan sesuatu dengan manusia lain, dan ia akan menjadi asas kepada cara kita menyelesaikan sesuatu dengan komputer pada masa akan datang.
Walau bagaimanapun, ini adalah pendapat yang mengecewakan.
Walaupun kebanyakan pakar teknologi akan bersetuju bahawa suara akan terus mengembangkan peranan niche semasa dalam ekosistem teknologi, atau sekurang-kurangnya berkembang secara berperingkat apabila teknologi bertambah baik, ramalan saya ialah suara adalah peristiwa utama itu sendiri. Ia akan menguasai interaksi kami dengan perisian dan peranti, malah menjadi sama pentingnya dengan antara muka pengguna grafik.
Seperti yang dinyatakan, ini bukan pendapat arus perdana. Ramai pakar industri menyedari bahawa suara masih baru dan belum mencapai kesesuaian pasaran produk yang sempurna. Sesetengah VC terkemuka, sebagai contoh, berpendapat bahawa sehingga kecerdasan buatan umum dicapai, teknologi suara akan sentiasa menjadi sangat khusus.
Oleh kerana banyak batasan pembantu suara semasa, sukar bagi orang untuk membayangkan suara sebagai gelombang teknologi seterusnya. Pada pandangan saya, suara hari ini serupa dengan web dailan pada awal tahun 90-an. Pada masa itu, pengalaman dalam talian sangat buruk sehingga sukar untuk membayangkan apa yang mungkin apabila lebar jalur bertambah baik. Pemikir terkemuka membuat pelbagai ramalan untuk internet yang kelihatan tidak masuk akal konservatif di belakang - sesetengah pakar bahkan meramalkan bahawa ia tidak akan memberi kesan lebih kepada ekonomi daripada mesin faks.
Harapan rakyat untuk suara adalah sama konservatif hari ini, sebahagiannya kerana betapa kasarnya pengalaman suara itu. Andaiannya ialah sehingga kecerdasan buatan umum dicapai, bot akan menunjukkan prestasi buruk dalam perbualan - dan teknologi itu tidak akan menjadi hebat sehingga chatbots mampu perbualan dekat dengan manusia dengan pengguna. Walau bagaimanapun, andaian ini mengenai keperluan kecerdasan buatan umum adalah cacat: Sudah tentu ada cara untuk mendapatkan chatbots untuk mencapai prestasi tahap hampir manusia menggunakan teknologi semasa.
Bagi pembantu penceramah pintar umum, liputan topik sangat luas, sehingga mereka perlu hampir sepenuhnya belajar sendiri. Malangnya, teknologi semasa tidak cukup baik untuk membuat bot pembelajaran kendiri secara automatik yang boleh mengendalikan perbualan berbilang pusingan dengan manusia. Jika teknologi itu wujud, kami akan dapat bertanya soalan susulan di Google. Tetapi mempunyai bot pintar membina diri mereka seperti cuba membuat aplikasi telefon pintar membina dirinya tanpa penglibatan manusia - ia tidak mungkin pada masa ini.
Terdapat satu lagi cara untuk mencapai perbualan tahap hampir manusia dengan bot: secara drastik menyempitkan skop mereka. Sama seperti apl, pembangun boleh membuat bot canggih untuk tugas tertentu, memprogramkannya secara manual untuk terlibat dalam perbualan yang bermakna. Dengan bot seperti ini, kejayaan untuk suara akan datang: pembesar suara pintar, telefon dan peranti lain akan menjadi tuan rumah bot seperti ini, mewujudkan peluang besar bagi penggerak pertama yang mendapat perkara yang betul.
Menangani isu bot suara hari ini
Untuk memahami secara intuitif perbezaan antara pengalaman bot suara semasa dan bagaimana teknologi ini akan kelihatan seperti pada masa akan datang, kita perlu bermula dengan memahami mengapa peranti suara kini bersamaan dengan melayari web pada modem dailan.
Pertama, interaksi asas dengan bot suara masih sangat miskin. Anda perlu menangani peranti secara khusus dengan perkataan panas, selepas itu anda mesti menunggu untuk melihat sama ada bot berjaya diaktifkan atau tidak. Jika ia diaktifkan, anda perlu bercakap selepas bunyi bip pada kelajuan yang perlahan tetapi konsisten dan merumuskan ayat anda untuk memasukkan semua parameter yang diperlukan - hampir seperti anda bercakap dalam kenyataan SQL. Jika anda berhenti seketika untuk berfikir pada bila-bila masa, interaksi anda akan gagal dan anda perlu kembali ke permulaan.
Mari lihat contoh kehidupan sebenar:
Anda berkata, "Hei, Google."
Terdapat jeda sementara anda menunggu pengakuan bahawa peranti telah diaktifkan.
Jika ia telah diaktifkan, anda meneruskan permintaan anda:
"Mainkan 'Kuda Gelap' oleh Katy Perry di YouTube, di TV ruang tamu."
Terdapat satu lagi kelewatan semasa peranti memproses apa yang anda katakan.
Jika permintaan anda berjaya, sesuatu akan mula berlaku pada TV anda dan video akan dimainkan.
Sekiranya tidak berjaya, anda perlu kembali ke permulaan dan cuba lagi, mungkin dengan struktur kalimat yang berbeza, kata-kata yang berbeza, atau hanya cuba bercakap dengan lebih jelas.
Pengalaman ini penuh dengan kelewatan, kemungkinan kesilapan dan boleh mengambil banyak permulaan semula untuk menyelesaikan tugas. Selain itu, bot suara belum lagi pintar dan tidak akan bertindak balas terhadap arahan atau pertanyaan berkaitan mengenai perkara yang anda lakukan.
Cara baru berinteraksi dengan bot suara
Cara paling mudah untuk membayangkan interaksi dengan bot pintar masa depan adalah dengan menggambarkan pengendali manusia yang mengawal peranti dan memberikannya arahan khusus berkaitan dengan mengendalikan YouTube (dan tidak ada yang lain).
Perbezaan pertama adalah dalam kelajuan interaksi. Anda boleh bercakap dengan pengendali "manusia" pada kelajuan biasa, tanpa jeda atau kelewatan sebagai tindak balas, dan tiada masalah jika anda berhenti semasa bercakap. Anda juga boleh merujuk pengendali manusia di tengah-tengah ayat — sebagai contoh, "Saya mahu menonton TV — anda tahu apa, Alexa, sila letakkan sesuatu di YouTube." Malah, anda mungkin tidak perlu mengatakan nama mereka (perkataan panas) sama sekali untuk membuat mereka bertindak balas.
Bot seperti manusia ini juga akan fleksibel dari segi cara mereka berinteraksi dengan anda:
Anda: "Alexa, saya mahu menonton YouTube."
Alexa: "Pasti, di TV mana?"
Anda: "Di TV dapur - mungkin sesuatu oleh Katy Perry."
Alexa: "Adakah anda mempunyai lagu tertentu dalam fikiran?"
Anda: "Tidak, apa yang boleh anda cadangkan?"
Manusia: "'Roar,' 'Kuda Gelap'? Saya telah meletakkan lebih banyak cadangan pada skrin."
Anda: "Hebat, terima kasih. Main 'Panas dan Sejuk.'"
Ini adalah masa depan interaksi bot: Lancar, lancar dan mudah dibincangkan mengenai tugas atau topik yang ada. Bayangkan alam semesta yang luas bot ini dengan alam semesta yang sama luas peranti suara murah dan komoditi. Ia akan menjadi seperti mempunyai pengendali manusia yang berdiri di setiap bilik dan di sebelah setiap peranti. Masih terdapat banyak UI grafik, tetapi mereka akan lebih mudah digunakan melalui bot.
Melangkah ke masa depan suara
Hari ini, adalah perkara biasa untuk melihat pekerja di tempat-tempat seperti stesen metro, lapangan terbang dan pasar raya yang menyediakan bantuan kepada mereka yang menggunakan skrin sentuh layan diri - sebagai contoh, orang yang membantu anda menggunakan mesin daftar masuk untuk mendapatkan pas masuk anda di lapangan terbang. Bayangkan, bagaimanapun, bahawa orang ini sebenarnya boleh secara langsung antara muka dengan aplikasi daftar masuk - yang bermaksud bahawa separuh jalan melalui proses daftar masuk, anda boleh memberitahu mesin yang anda ingin menukar tempat duduk anda dari kedudukan yang anda pilih pada asalnya, dan aplikasi itu akan memaparkan skrin yang relevan untuk anda - semuanya tanpa bantuan pembantu manusia.
Ini adalah masa depan: bot suara akan tertanam atau boleh diakses oleh setiap peranti atau perkhidmatan yang ingin anda gunakan, dan akan segera melakukan apa yang anda perintahkan. Anda tidak perlu lagi mengeluarkan telefon atau komputer riba anda untuk menyelesaikan sesuatu - sebaliknya, apa yang perlu anda lakukan ialah mengatakan dengan kuat apa yang anda perlukan, dan semuanya akan berlaku dari sana.
Langkah untuk menyuarakan akhirnya akan menjadi sesuatu yang semudah kemudahan. Di dunia moden kita, orang ingin melakukan sesuatu dengan cepat dengan sedikit kerumitan, dan kelajuan lebih penting daripada sebelumnya. Walaupun majoriti mereka yang berkaitan dengan industri chatbot tidak menjangkakannya pada masa ini, kita yang sedang meneliti dan membangunkan teknologi meramalkan implikasi besar untuk operasi perniagaan, pemasaran, jualan, penjenamaan, pengedaran produk, dan banyak lagi. Suara adalah masa depan teknologi, dan kami sudah separuh jalan di sana.
Senarai Kandungan
Kekal terkini dengan chatbots AI terkini
Kongsi ini pada: