Apakah itu Pembantu Suara AI?

Ditulis oleh

Ben Luks

Pakar Linguistik Pengiraan, Penyelidik AI & MSc dalam Teknologi Suara AI

Senarai Kandungan

Langkah 1. Tajuk langkah pergi ke sini seperti yang diharapkan

Ringkasan

Pembantu suara AI menukar pertuturan kepada teks, mentafsir niat, mendapatkan maklumat dan membalas melalui teks ke pertuturan.
Teknologi utama termasuk penyepaduan ASR, NLP, RAG dan API untuk melaksanakan tugas dan perbualan dinamik.
Bot suara menawarkan kelajuan, kebolehaksesan, pemperibadian dan antara muka bebas tangan merentas industri.
Kes penggunaan merangkumi penjagaan kesihatan, perbankan, sokongan pelanggan dan runcit, meningkatkan kecekapan dan pengalaman pengguna.

Saya terpaksa menukar saya ChatGPT suara kepada lelaki Inggeris yang marah. Saya takut jika suara itu terlalu mesra saya akan jatuh cinta dengannya.

Seperti lelaki itu. Dalam filem itu.

Mari kita bercakap tentang pembantu suara.

Siri pernah menjadi bahan jenaka. Tetapi semasa kami sibuk bertanya kepada Siri cara menyembunyikan mayat, AI suara secara senyap-senyap meresap ke seluruh penjuru pasaran. Sehingga 2025, 67% organisasi menganggap AI suara sebagai teras kepada perniagaan mereka .

Organisasi tersebut menyedari bahawa ejen AI lebih baik dengan keupayaan pertuturan.

Oh, dan filem itu yang saya rujuk? Tidak begitu jauh. Pemerolehan io oleh Open AI baru-baru ini dijangka dengan niat untuk membina pembantu suara yang tidak invasif, sentiasa sedar.

Anda tahu, kawan kecil di telinga anda pada setiap masa.

Jadi inilah kami: Alexa lebih dikenali sebagai produk berbanding nama seseorang, CEO syarikat AI sedang mengambil gambar pertunangan bersama-sama dan dua pertiga daripada perniagaan telah pun menyimpan tarikh .

Dan jika anda tidak berada di atasnya, maka kakak, anda berada di belakang .

Yang boleh difahami. Teknologi ini membingungkan, dan tidak ramai yang menerangkan cara ia berfungsi . Tetapi teka siapa yang mempunyai dua ibu jari dan ijazah siswazah dalam teknologi pertuturan?

(Anda tidak dapat melihat tetapi saya mengangkat ibu jari saya.)

(...Anda tahu siapa lagi yang tidak dapat melihat? Pembantu suara.)

(Saya menyimpang.)

Saya menulis artikel ini untuk mengejar anda dengan pantas. Kami akan bercakap tentang Pembantu Suara AI: cara mereka berfungsi, perkara yang boleh anda lakukan dengan mereka dan sebab begitu banyak syarikat memilih untuk menyepadukan mereka ke dalam operasi mereka.

Bina Chatbots AI

Bina chatbot ejen tersuai

Mula sekarang

Apakah itu Pembantu Suara AI?

Pembantu suara AI ialah perisian berkuasa AI yang memproses input pertuturan, memahaminya, melaksanakan tugas dan memberikan respons kepada pengguna. Pembantu ini digunakan merentas industri dan kes penggunaan, menambahkan sentuhan peribadi pada pengurusan tugas dan sokongan pelanggan.

Bagaimanakah AI Voice Assistants berfungsi?

Gambar rajah yang menggambarkan langkah-langkah pada satu pusingan perbualan dengan pembantu suara.

Pembantu suara AI ialah orkestrasi kompleks teknologi AI . Dalam beberapa saat antara menangkap pertuturan input pengguna dan menjana respons, beberapa proses dicetuskan untuk menyampaikan interaksi yang lancar.

Pengecaman Pertuturan Automatik (ASR)

Pengecaman pertuturan automatik kadangkala dipanggil pertuturan ke teks, kerana itulah hakikatnya.

Apabila pengguna bercakap ke dalam peranti mereka– sama ada telefon, pembantu rumah atau papan pemuka kereta, pertuturan mereka ditukar menjadi teks. Untuk melakukan ini, rangkaian saraf dalam dilatih untuk meramalkan transkripsi klip audio .

Selepas latihan mengenai 1,000 jam data pertuturan merentas berjuta-juta klip berbeza yang melibatkan pembesar suara, aksen dan keadaan hingar yang berbeza, model AI ini menjadi sangat baik dalam menyalin.

Dan itu penting– langkah pertama dalam sistem berbilang lapisan perlu teguh.

Pemprosesan Bahasa Semulajadi (NLP)

Dengan input pertuturan ditranskripsikan, model bergerak untuk mentafsirnya.

NLP ialah konsep payung untuk semua teknik yang digunakan untuk menghuraikan pertanyaan pengguna (sebagai teks yang ditranskripsi) kepada unit niat dan bermakna.

Pengiktirafan Niat

Teks tidak berstruktur, dan tugas mengusik makna adalah jauh dari remeh. Ambil beberapa pertanyaan berikut:

“Jadualkan panggilan dengan Aniqa pada hari Selasa pukul 1.”
"Bolehkah anda bermain Cher?"
“Apa yang sesuai dengan keju kambing?”

Pembantu AI akan mempunyai siri niat terhingga di bawah hud. Untuk bot kami, itu termasuk:

tempahan janji temu
bermain media
mungkin mencari di web , dan
berbual santai

Pengecaman niat bertanggungjawab untuk mengklasifikasikan setiap pertanyaan pengguna ke dalam salah satu kategori ini.

Jadi, yang manakah setiap contoh kita termasuk?

“Jadualkan panggilan…” diungkapkan sebagai imperatif. Agak mudah. “Bolehkah awak…?” diungkapkan sebagai soalan. Tetapi ia juga merupakan arahan, seperti pertanyaan sebelumnya. Dalam kedua-dua kes, anda secara intuitif memahami tindakan yang diingini, tetapi ia tidak begitu mudah untuk diformalkan.

“Apa yang sesuai dengan…?” adalah mudah– semacam.

Kami tahu jenis jawapan yang kami mahu: makanan. Tetapi ia tidak begitu jelas dari mana ia harus mendapatkan jawapannya.

Patutkah ia mencari di web? Jika ya, berapa banyak jawapan yang perlu diberikan? Keputusan pertama tidak akan begitu teliti, tetapi memberikan banyak respons boleh merumitkan tugas mudah.

Sebaliknya, mungkin ia hanya boleh menggali dari pengetahuan dalamannya– tetapi kita semakin mendahului diri kita sendiri.

Perkara yang boleh diambil ialah: pilihannya tidak selalunya mudah, dan kerumitan tugasan ini mempunyai banyak kaitan dengan reka bentuk– atau personaliti– bot seperti halnya dengan pertanyaan pengguna.

Pengiktirafan Entiti Dinamakan

Di atas dan di luar mengetahui tugas yang perlu dilakukan, bot perlu mengenali maklumat yang diberikan.

Pengiktirafan entiti bernama berkenaan dengan mengekstrak unit bermakna – atau entiti bernama – daripada teks tidak berstruktur . Contohnya, mengenal pasti nama nama orang, artis muzik atau tarikh dalam pertanyaan pengguna.

Mari kita lihat pada pertanyaan pertama sekali lagi:

“Jadualkan panggilan dengan Aniqa pada hari Selasa pukul 1.”

Aniqa ialah seorang, dan tersirat daripada pertanyaan bahawa pengguna mengenalinya . Itu menjadikan dia - kemungkinan besar - kenalan.

Dalam kes ini, "kenalan" akan dipraprogramkan sebagai entiti dan bot akan mempunyai akses kepada kenalan pengguna.

Ini berlaku untuk masa, lokasi dan sebarang maklumat bermakna lain yang mungkin disembunyikan dalam pertanyaan pengguna.

Mendapatkan Maklumat

Setelah memahami perkara yang anda mahukan, pembantu suara perlu mencari maklumat yang berkaitan untuk membantunya bertindak balas. Bot yang baik akan dilengkapi dengan rangkaian lengkap sambungan untuk membantu memenuhi keperluan anda.

Kami bercakap tentang pengetahuan dalaman tadi. Saya pasti anda terpesona pada satu ketika oleh model bahasa yang besar' ( LLM ) dan pengetahuan mereka yang luas. Dan ia mengagumkan, tetapi apabila pertanyaan anda semakin khusus, keretakan mula kelihatan.

Penjanaan Pertambahan Pengambilan (RAG)

Pembantu yang baik mempunyai akses kepada sumber pengetahuan luar – ia tidak bergantung semata-mata pada pengetahuan yang diperoleh semasa latihan . RAG menetapkan tindak balas AI pada pengetahuan itu.

Pengetahuan, dalam kes ini, merujuk kepada dokumen, jadual, imej, atau pada asasnya apa sahaja yang boleh diproses secara digital.

Ia mencari melalui dokumentasi, menarik item yang paling berkaitan dengan pertanyaan pengguna dan menggunakannya untuk memaklumkan respons model .

Kadangkala ia bertujuan untuk menajamkan maklumat LLMs , seperti merujuknya kepada literatur akademik semasa membuat penyelidikan.

Pada masa lain ia adalah mengenai memberi akses kepada maklumat yang model tidak akan mempunyai , seperti data pelanggan.

Dalam mana-mana kes, ia mempunyai kelebihan tambahan untuk memetik sumbernya, menjadikan respons lebih dipercayai dan boleh disahkan.

Menggunakan Ejen AI?

Baca Rangka Tindakan kami untuk Pelaksanaan Agen AI

Baca Sekarang

API dan Integrasi

Dengan cara yang sama bahawa an LLM boleh antara muka dengan maklumat luaran, API dan integrasi membolehkannya bersambung dengan teknologi luaran.

Ingin menempah janji temu Google Meets melalui Calendly untuk membuat susulan pada petunjuk HubSpot yang dinilai dengan pengayaan Clearbit? Melainkan anda membina kalendar, teknologi persidangan video, CRM dan alat analitis (yang sangat tidak digalakkan), anda perlu 🔌menyepadukan⚡️.

Alat pihak ke-3 ini biasanya mempunyai API yang mendedahkan operasi supaya ia boleh dilakukan oleh teknologi automatik lain– seperti ejen anda.

Penyepaduan menjadikannya lebih mudah bagi bot untuk antara muka dengan teknologi pihak ke-3. Ia dibina di atas API, menutupi kekacauan supaya anda boleh menghubungkan ejen anda dengan sedikit kerja.

Membalas dan Teks ke Pertuturan (TTS)

Jadi, input pengguna telah ditranskripsikan, niat mereka dihuraikan, maklumat yang berkaitan diambil dan tugas telah dilaksanakan.

Kini tiba masanya untuk bertindak balas.

Sama ada ia menjawab soalan pengguna atau mengesahkan bahawa ia melaksanakan tugas yang diminta, bot suara hampir selalu menawarkan respons.

Teks ke Pertuturan (TTS)

Sama dan bertentangan dengan pengecaman pertuturan ialah sintesis pertuturan, atau teks ke pertuturan .

Ini adalah model, juga dilatih pada pasangan teks pertuturan, selalunya dikondisikan pada pembesar suara, intonasi dan emosi untuk menyampaikan ujaran seperti manusia.

TTS menutup gelung yang bermula dan berakhir dengan pertuturan manusia(-oid).

Faedah Pembantu Suara

Lapisan suara di atas kefungsian AI meningkatkan pengalaman di sekeliling. Sudah tentu, ia diperibadikan dan intuitif, tetapi ia juga mempunyai kelebihan dari segi perniagaan.

Suara Lebih Cepat daripada Teks

Dengan percambahan chatbots, pengguna telah terbiasa dengan respons pantas. Dengan pembantu AI suara, kami juga telah berjaya meningkatkan masa input.

Ejen AI Suara menghalang kami daripada perlu merumuskan ayat yang betul. Sebaliknya, anda boleh mengeluarkan aliran kesedaran, dan minta bot memahaminya.

Begitu juga dengan respons. Saya akan menjadi orang pertama yang mengakui bahawa membaca boleh menjadi seret– tetapi tidak menjadi masalah apabila respons diceritakan kepada anda.

24/7 Respons

Satu lagi jenis kelajuan. Dengan orang yang bekerja dari jauh dan urus niaga perniagaan berlaku di seluruh benua, adalah mustahil untuk mengambil kira semua zon waktu dan waktu bekerja yang perlu anda lindungi.

Interaksi lisan harus tersedia untuk semua orang, bukan hanya pelanggan yang terlibat dalam waktu kerja tertentu. Dan dengan pembantu AI suara, itu boleh menjadi kenyataan.

Lebih Banyak Interaksi Diperibadikan

Bercakap adalah lebih daripada perkataan. Mempunyai bot suara mencipta pengalaman yang lebih peribadi yang menanamkan rasa yakin dalam diri pengguna. Ditambah dengan kualiti seperti manusia AI chatbots , lapisan suara menghasilkan sambungan yang lebih kukuh.

Mudah Bersepadu

Hakikat bahawa pembantu suara adalah bebas tangan bermakna ia juga bebas UI. Ia tidak memerlukan skrin, atau penggunaan mata anda– itulah sebabnya ia sangat popular di dalam kereta.

Malah, mereka boleh menyepadukan di mana sahaja mikrofon boleh disambungkan. Itu adalah bar yang sangat rendah untuk dilalui, bukan sahaja kerana mikrofon sangat kecil, tetapi kerana ia sudah ada di mana-mana: komputer, telefon pintar, dan juga talian tetap.

Namakan satu lagi teknologi canggih yang boleh diakses melalui telefon berputar.

Lebih Boleh Diakses

"Bebas tangan" bukan sahaja mengenai kemudahan. Bagi orang yang mempunyai pelbagai keperluan, ia boleh menjadi satu keperluan.

Pembantu suara tersedia untuk orang yang mempunyai kepelbagaian mobiliti, penglihatan dan celik huruf yang mungkin bergelut dengan antara muka AI tradisional.

Gunakan Kes Bot Suara Merentasi Industri

Jadi, anda dijual pada bot suara. Hebat. Tetapi bagaimana anda menggunakannya?

Berita baiknya ialah hampir setiap industri boleh dipertingkatkan dengan AI suara.

Penjagaan kesihatan

Prosedur penjagaan kesihatan terkenal membosankan. Dan untuk alasan yang baik: ia adalah kerja yang tinggi, dan ia perlu dilakukan dengan betul. Ruang ini meminta automasi AI, dengan syarat ia boleh dipercayai dan berkesan.

Kami telah melihat aplikasi AI dalam penjagaan kesihatan , dan suara menambah banyak peluang baharu untuk bertambah baik.

Satu contoh yang baik ialah soal selidik perubatan: maklumat peribadi, sejarah perubatan, dsb.

Itu membosankan. Tetapi mereka penting.

Peningkatan dalam kelajuan dan produktiviti mengurangkan beban kerja profesional penjagaan kesihatan yang terlalu bekerja, dan aliran perbualan seperti manusia memecahkan kebosanan menjawab soalan demi soalan.

Kebolehcapaian diambil kira, dan mengikut saluran paip berbilang lapisan yang kuat yang kami bincangkan sebelum ini, saya boleh memberi jaminan kepada anda bahawa teknologi itu boleh dipercayai.

Perbankan

Bercakap tentang taruhan tinggi dan membosankan.

Perkara seperti menyemak baki akaun dan mengemas kini maklumat adalah transaksi yang agak mudah, tetapi mempunyai beberapa lapisan perlindungan untuk mengurangkan ralat dan penipuan.

Ejen suara NatWest berurusan dengan transaksi biasa, membebaskan ejen manusia untuk menghabiskan lebih banyak masa pada interaksi sensitif atau kompleks, meningkatkan kepuasan pelanggan sebanyak 150% tanpa menjejaskan keselamatan.

Sokongan pengguna

Mengenai topik mengautomasikan panggilan rutin, SuperTOBI Vodafone, pembantu AI suara, telah meningkatkan skor penganjur bersih (NPS) mereka daripada 14 kepada 64 .

Ini kerana interaksi perkhidmatan pelanggan adalah berulang dan pertanyaan pelanggan dijawab sama, sama ada oleh seseorang atau ejen. Pendekatan ini tidak berkompromi dengan kes-kes tepi - yang diserahkan kepada ejen manusia.

Runcit

Saya agak merindui hari-hari bercakap dengan jurujual.

Masalahnya ialah, mereka terlalu sibuk untuk membiasakan diri dengan katalog dan polisi kedai, apatah lagi masa yang diperlukan untuk berurusan dengan setiap pelanggan individu.

Masukkan pembantu jualan suara seperti Lowe's' MyLow: rakan jualan maya dengan maklumat tentang butiran produk, inventori dan dasar.

LLMs ' pengetahuan umum benar-benar bersinar di sini: selain memberikan maklumat khusus Lowe, ia menggunakan pengetahuan reka bentuk dalaman untuk menasihati pelanggan tentang menghias rumah.

Sesetengah pelanggan masih mencari interaksi manusia. Nasib baik, MyLow juga tersedia untuk rakan jualan. Pekerja boleh mendapatkan maklumat yang mereka perlukan daripada MyLow dan membantu pelanggan itu sendiri.

Mula Menawarkan Pembantu Suara AI

Pembantu AI suara adalah cara yang jelas untuk pergi. Kecekapan dan keperibadian, tanpa menjejaskan kemanusiaan– ia menang-menang.

Botpress menawarkan pembina drag-and-drop yang boleh disesuaikan, pengawasan gelung manusia, pelbagai integrasi pra-bina, dan tambahan lagi, pembungkus suara yang terletak dengan lancar di atas ejen anda.

Bot kami bersih dan intuitif, tetapi tidak bermakna asas.

Mula membina hari ini . Ia percuma.

Bina Chatbots AI

Bina chatbot ejen tersuai

Mula sekarang

Soalan lazim

Sejauh manakah tepat pembantu suara AI memahami loghat atau gangguan pertuturan yang berbeza?

Pembantu suara AI semakin tepat dengan loghat yang pelbagai, terima kasih kepada latihan mengenai set data global, tetapi ketepatan mereka masih menurun untuk loghat serantau yang kuat, sebutan luar biasa atau gangguan pertuturan. Sesetengah sistem seperti Google dan Microsoft menawarkan model khusus aksen, tetapi pengguna dengan cabaran pertuturan yang ketara mungkin mengalami kadar ralat yang lebih tinggi dan memerlukan penalaan tersuai atau penyelesaian khusus.

Bolehkah pembantu suara AI berfungsi di luar talian atau adakah ia sentiasa memerlukan sambungan internet?

Pembantu suara AI boleh berfungsi di luar talian jika ia menggunakan pengecaman pertuturan pada peranti dan model bahasa, tetapi ini biasanya mengehadkannya kepada tugas yang lebih mudah dan tiada akses data luaran masa nyata. Kebanyakan pembantu lanjutan bergantung pada internet untuk pemprosesan berasaskan awan dan mendapatkan maklumat terkini.

Sejauh manakah data selamat dikongsi dengan pembantu suara AI, terutamanya untuk industri sensitif seperti penjagaan kesihatan dan perbankan?

Data yang dikongsi dengan pembantu suara AI dalam industri sensitif seperti penjagaan kesihatan dan perbankan dijamin melalui penyulitan dan pematuhan peraturan seperti HIPAA, GDPR atau PCI DSS. Walau bagaimanapun, perniagaan mesti berhati-hati memilih vendor dengan pensijilan keselamatan yang teguh dan harus mengelak daripada menghantar maklumat yang boleh dikenal pasti secara peribadi.

Adakah mahal untuk menambah antara muka suara pada chatbot sedia ada?

Menambah antara muka suara pada chatbot sedia ada boleh berkisar daripada yang agak murah (menggunakan API awan seperti Google Text-to-Speech atau Botpress pembungkus suara) kepada lebih mahal jika ia memerlukan pembangunan tersuai atau penyepaduan ke dalam sistem proprietari. Banyak platform kini menawarkan integrasi suara sebagai ciri, mengurangkan kos kepada beberapa ratus dollars sebulan untuk penggunaan sederhana, tetapi penggunaan berskala besar dengan suara tersuai atau keperluan keselamatan boleh mencapai tahap harga perusahaan berpuluh-puluh ribu dollars .

Seberapa cepat perniagaan boleh menggunakan pembantu suara AI dari awal?

Perniagaan boleh menggunakan pembantu suara AI asas dalam masa beberapa jam menggunakan platform tanpa kod atau templat pra-bina, terutamanya untuk tugas mudah seperti Soalan Lazim atau penghalaan panggilan. Pembantu suara yang lebih kompleks yang menyepadukan dengan sistem bahagian belakang dan menyokong dialog semula jadi biasanya mengambil masa beberapa minggu hingga bulan untuk pembangunan.