Meskipun banyak orang di industri ini mungkin berpendapat bahwa "hal besar berikutnya" dalam teknologi adalah blockchain, AI yang menggantikan pekerja manusia, atau augmented reality, ada satu teknologi penting yang diremehkan: antarmuka pengguna suara.
Penelitian menunjukkan bahwa 50% permintaan pencarian akan dilakukan melalui pencarian suara pada tahun 2020. Namun, apa yang diremehkan oleh penelitian ini adalah bahwa peningkatan kecil pada UI suara memiliki potensi untuk mengubah paradigma interaksi manusia-komputer saat ini. Hal ini jauh melampaui kasus penggunaan pencarian menuju UI suara yang menggantikan atau terintegrasi secara mendalam dengan antarmuka pengguna grafis dan aplikasi.
UI suara memungkinkan orang untuk berkomunikasi dengan perangkat dalam bahasa lisan alami melalui speaker pintar dan perangkat lain, yang saat ini dapat ditemukan di perangkat seperti Alexa atau Google Home. Berbicara merupakan hal mendasar dalam cara kita menyelesaikan berbagai hal dengan manusia lain, dan akan menjadi hal mendasar dalam cara kita menyelesaikan berbagai hal dengan komputer di masa depan.
Namun demikian, hal ini saat ini masih merupakan opini pinggiran.
Meskipun sebagian besar pakar teknologi akan setuju bahwa suara akan terus mengembangkan perannya saat ini dalam ekosistem teknologi, atau setidaknya tumbuh secara bertahap seiring dengan perkembangan teknologi, prediksi saya adalah bahwa suara adalah peristiwa utama. Suara akan mendominasi interaksi kita dengan perangkat lunak dan perangkat, dan bahkan menjadi sama pentingnya dengan antarmuka pengguna grafis.
Seperti yang telah disebutkan, ini bukanlah pendapat umum. Banyak pakar industri mengakui bahwa suara masih merupakan hal baru dan belum mencapai kecocokan produk-pasar yang sempurna. Beberapa perusahaan modal ventura terkemuka, misalnya, berpendapat bahwa hingga kecerdasan buatan secara umum tercapai, teknologi suara akan selalu menjadi sesuatu yang sangat khusus.
Karena banyaknya keterbatasan asisten suara saat ini, sulit bagi orang untuk membayangkan suara sebagai gelombang teknologi berikutnya. Menurut saya, suara saat ini mirip dengan web dial-up di awal tahun 90-an. Saat itu, pengalaman online sangat buruk sehingga sulit untuk membayangkan apa yang akan terjadi setelah bandwidth meningkat. Para pemikir terkemuka membuat berbagai macam prediksi untuk internet yang terlihat sangat konservatif jika dipikir-pikir lagi - beberapa ahli bahkan meramalkan bahwa internet tidak akan berdampak lebih besar terhadap ekonomi daripada mesin faks.
Ekspektasi orang terhadap suara saat ini juga sama konservatifnya, sebagian karena pengalaman suara yang masih kasar. Asumsinya adalah bahwa hingga kecerdasan buatan umum tercapai, bot akan berkinerja buruk dalam percakapan - dan teknologi ini tidak akan pernah menjadi hebat hingga chatbots mampu melakukan percakapan yang mirip dengan manusia dengan pengguna. Namun, asumsi mengenai perlunya kecerdasan buatan yang digeneralisasi ini adalah salah: Tentu saja ada cara untuk membuat chatbots mencapai kinerja yang hampir menyerupai manusia dengan menggunakan teknologi saat ini.
Untuk asisten pembicara pintar pada umumnya, cakupan topiknya sangat luas, sehingga mereka harus benar-benar belajar sendiri. Sayangnya, teknologi saat ini belum cukup baik untuk secara otomatis membuat bot belajar mandiri yang dapat menangani percakapan multi-berputar dengan manusia. Jika teknologi tersebut memang ada, kita bisa mengajukan pertanyaan lanjutan di Google. Namun, membuat bot pintar membangun dirinya sendiri sama saja dengan mencoba membuat aplikasi ponsel pintar membangun dirinya sendiri tanpa keterlibatan manusia - hal itu tidak mungkin dilakukan saat ini.
Ada cara lain untuk mencapai percakapan yang hampir menyerupai manusia dengan bot: mempersempit cakupannya secara drastis. Seperti halnya aplikasi, pengembang dapat membuat bot yang canggih untuk tugas-tugas tertentu, memprogramnya secara manual untuk terlibat dalam percakapan yang bermakna. Dengan bot semacam inilah terobosan untuk suara akan terjadi: speaker pintar, ponsel, dan perangkat lain akan menjadi tuan rumah bagi bot semacam ini, menciptakan peluang besar bagi para penggerak pertama yang melakukan sesuatu dengan benar.
Mengatasi masalah bot suara saat ini
Untuk memahami secara intuitif perbedaan antara pengalaman bot suara saat ini dan seperti apa teknologi ini di masa depan, kita perlu memulai dengan memahami mengapa perangkat suara saat ini setara dengan berselancar di web dengan modem dial-up.
Pertama, interaksi dasar dengan bot suara masih sangat buruk. Anda harus secara khusus menyapa perangkat dengan kata kunci, setelah itu Anda harus menunggu untuk melihat apakah bot berhasil diaktifkan atau tidak. Jika sudah diaktifkan, Anda harus berbicara setelah bunyi bip dengan kecepatan yang lambat tetapi konsisten dan merumuskan kalimat Anda untuk memasukkan semua parameter yang diperlukan - hampir seperti Anda berbicara dalam pernyataan SQL. Jika Anda berhenti sejenak untuk berpikir, interaksi Anda akan gagal dan Anda harus kembali ke awal.
Mari kita lihat contoh kehidupan nyata:
Anda berkata, "Hai, Google."
Ada jeda saat Anda menunggu pemberitahuan bahwa perangkat telah diaktifkan.
Jika sudah diaktifkan, Anda dapat melanjutkan permintaan Anda:
"Putar lagu 'Dark Horse' dari Katy Perry di YouTube, di TV ruang tamu."
Ada penundaan lagi sementara perangkat memproses apa yang Anda ucapkan.
Jika permintaan Anda berhasil, sesuatu akan mulai terjadi di TV Anda dan video akan diputar.
Jika tidak berhasil, Anda harus kembali ke awal dan mencoba lagi, mungkin dengan struktur kalimat yang berbeda, kata-kata yang berbeda, atau hanya mencoba berbicara lebih jelas.
Pengalaman ini penuh dengan penundaan, potensi kesalahan, dan bisa jadi membutuhkan banyak pengulangan untuk menyelesaikan tugas. Selain itu, bot suara belum cerdas dan tidak akan merespons perintah atau pertanyaan terkait tentang apa yang Anda lakukan.
Cara baru untuk berinteraksi dengan bot suara
Cara termudah untuk membayangkan interaksi dengan bot pintar di masa depan adalah dengan membayangkan seorang operator manusia yang mengendalikan perangkat dan memberikan instruksi secara khusus terkait pengoperasian YouTube (dan bukan yang lainnya).
Perbedaan pertama adalah kecepatan interaksi. Anda dapat berbicara dengan operator "manusia" dengan kecepatan normal, tanpa jeda atau penundaan dalam merespons, dan tidak ada masalah jika Anda berhenti sejenak saat berbicara. Anda juga dapat merujuk operator manusia di tengah-tengah kalimat - misalnya, "Saya ingin menonton TV - Anda tahu, Alexa, tolong pasang sesuatu di YouTube." Bahkan, Anda mungkin tidak perlu menyebutkan nama mereka (kata populer) sama sekali untuk membuat mereka merespons.
Bot yang mirip manusia ini juga akan fleksibel dalam hal cara mereka berinteraksi dengan Anda:
Kamu: "Alexa, saya ingin menonton YouTube."
Alexa: "Tentu, di TV yang mana?"
Kamu: "Di TV dapur - mungkin ada lagu dari Katy Perry."
Alexa: "Apakah Anda memiliki lagu tertentu dalam pikiran Anda?"
Kamu: "Tidak, apa yang bisa Anda sarankan?"
Manusia: "'Roar,' 'Dark Horse'? Saya sudah menaruh lebih banyak saran di layar."
Kamu: "Bagus, terima kasih. Mainkan 'Hot and Cold'."
Inilah masa depan interaksi bot: Mulus, lancar, dan mudah diajak bicara tentang tugas atau topik yang sedang dibahas. Bayangkan alam semesta yang luas dari bot ini dengan alam semesta yang sama luasnya dengan perangkat suara yang murah dan dikomoditaskan. Ini akan seperti memiliki operator manusia yang berdiri di setiap ruangan dan di samping setiap perangkat. Masih akan ada banyak UI grafis, tetapi akan jauh lebih mudah digunakan melalui bot.
Melangkahke masa depan suara
Saat ini, sudah biasa melihat karyawan di tempat-tempat seperti stasiun metro, bandara, dan supermarket memberikan bantuan kepada mereka yang menggunakan layar sentuh swalayan - sebagai contoh, orang yang membantu Anda menggunakan mesin check-in untuk mendapatkan boarding pass di bandara. Namun, bayangkan jika orang tersebut dapat berinteraksi langsung dengan aplikasi check-in - artinya, di tengah-tengah proses check-in, Anda dapat memberi tahu mesin bahwa Anda ingin mengubah tempat duduk Anda dari posisi yang Anda pilih sebelumnya, dan aplikasi tersebut akan menampilkan layar yang sesuai untuk Anda - semuanya tanpa bantuan asisten manusia.
Inilah masa depan: bot suara akan tertanam di dalam atau dapat diakses oleh setiap perangkat atau layanan yang ingin Anda gunakan, dan akan langsung melakukan apa yang Anda perintahkan. Anda tidak perlu lagi mengeluarkan ponsel atau laptop untuk menyelesaikan sesuatu - sebagai gantinya, Anda hanya perlu mengatakan dengan lantang apa yang Anda butuhkan, dan semuanya akan berjalan dengan sendirinya.
Perpindahan ke suara pada akhirnya akan menjadi sesuatu yang sederhana seperti kenyamanan. Di dunia modern ini, orang-orang ingin melakukan segala sesuatunya dengan cepat dengan sedikit kerumitan, dan kecepatan menjadi lebih penting daripada sebelumnya. Meskipun sebagian besar dari mereka yang terhubung dengan industri chatbot saat ini tidak mengantisipasinya, kami yang meneliti dan mengembangkan teknologi ini melihat implikasi besar untuk operasi bisnis, pemasaran, penjualan, branding, distribusi produk, dan banyak lagi. Suara adalah masa depan teknologi, dan kita sudah setengah jalan menuju ke sana.
Bagikan ini:
Buat chatbot AI pribadi Anda sendiri secara gratis
Mulailah membuat bot GPT yang dipersonalisasi dengan antarmuka seret & lepas yang intuitif.
Mulailah - gratis! 🤖Tidak diperlukan kartu kredit
Terus ikuti perkembangan terbaru tentang AI chatbots