Sebbene molti operatori del settore sostengano che la "next big thing" della tecnologia sia la blockchain, l'intelligenza artificiale che sostituisce i lavoratori umani o la realtà aumentata, c'è una tecnologia cruciale che viene sottovalutata: l'interfaccia utente vocale.
Le ricerche suggeriscono che entro il 2020 il 50% delle interrogazioni di ricerca sarà effettuato attraverso la ricerca vocale. Ciò che questa ricerca sottovaluta, tuttavia, è che i piccoli miglioramenti dell'interfaccia vocale hanno il potenziale per cambiare completamente l'attuale paradigma di interazione uomo-macchina. Questo va ben oltre il caso d'uso della ricerca, in quanto l'interfaccia vocale sostituirà o si integrerà profondamente con le interfacce grafiche e le app.
L'interfaccia utente vocale consente alle persone di comunicare con i dispositivi in linguaggio naturale parlato attraverso altoparlanti intelligenti e altri dispositivi, attualmente presenti in dispositivi come Alexa o Google Home. Il linguaggio vocale è fondamentale per il modo in cui facciamo le cose con gli altri esseri umani e sarà fondamentale per il modo in cui faremo le cose con i computer in futuro.
Al momento, però, si tratta di un'opinione marginale.
Mentre la maggior parte degli esperti di tecnologia concorda sul fatto che la voce continuerà a evolvere il suo attuale ruolo di nicchia nell'ecosistema tecnologico, o almeno crescerà in modo incrementale con il miglioramento della tecnologia, la mia previsione è che la voce sia l'evento principale in sé. Arriverà a dominare le nostre interazioni con il software e i dispositivi, fino a diventare importante quanto l'interfaccia grafica.
Come già detto, questa non è un'opinione mainstream. Molti esperti del settore riconoscono che la voce è ancora una novità e non ha ancora raggiunto un perfetto adattamento prodotto-mercato. Alcuni importanti investitori, ad esempio, ritengono che fino a quando non sarà raggiunta un'intelligenza artificiale generalizzata, la tecnologia vocale sarà sempre molto di nicchia.
A causa delle numerose limitazioni attuali degli assistenti vocali, è difficile immaginare la voce come la prossima ondata tecnologica. A mio avviso, la voce oggi è simile al web dial-up dei primi anni Novanta. All'epoca, l'esperienza online era così negativa che era difficile immaginare cosa sarebbe stato possibile fare una volta migliorata la larghezza di banda. I più autorevoli pensatori hanno fatto ogni sorta di previsione su Internet che, con il senno di poi, appare assurdamente conservativa: alcuni esperti hanno persino previsto che non avrebbe avuto un impatto sull'economia superiore a quello dei fax.
Le aspettative delle persone nei confronti della voce sono oggi altrettanto conservative, in parte a causa di quanto sia ancora approssimativa l'esperienza vocale. L'ipotesi è che, fino a quando non verrà raggiunta un'intelligenza artificiale generalizzata, i bot avranno prestazioni scarse nelle conversazioni e che la tecnologia non sarà mai eccezionale fino a quando chatbots non sarà in grado di sostenere una conversazione quasi umana con l'utente. Tuttavia, questo assunto sulla necessità di un'intelligenza artificiale generalizzata è errato: Esistono certamente modi per far sì che chatbots raggiunga prestazioni di livello quasi umano utilizzando la tecnologia attuale.
Per gli assistenti generici per altoparlanti intelligenti, la copertura degli argomenti è così ampia che devono essere quasi totalmente autoapprendenti. Purtroppo, la tecnologia attuale non è abbastanza buona da creare automaticamente bot ad autoapprendimento in grado di gestire conversazioni con più interlocutori. Se questa tecnologia esistesse, saremmo in grado di fare domande di follow-up su Google. Ma far sì che i bot intelligenti si costruiscano da soli è come cercare di far sì che un'applicazione per smartphone si costruisca da sola senza alcun coinvolgimento umano: al momento non è semplicemente possibile.
C'è un altro modo per ottenere una conversazione di livello quasi umano con i bot: restringere drasticamente il loro campo di applicazione. Proprio come per le app, gli sviluppatori possono creare bot sofisticati per compiti specifici, programmandoli manualmente per avviare conversazioni significative. È con questo tipo di bot che avverrà la svolta per la voce: altoparlanti intelligenti, telefoni e altri dispositivi ospiteranno questo tipo di bot, creando grandi opportunità per i primi che riusciranno a fare le cose per bene.
Affrontare i problemi dei bot vocali di oggi
Per comprendere intuitivamente la differenza tra l'esperienza degli attuali bot vocali e quella che questa tecnologia avrà in futuro, dobbiamo iniziare a capire perché un dispositivo vocale è attualmente l'equivalente della navigazione sul web con un modem dial-up.
In primo luogo, le interazioni di base con un bot vocale sono ancora molto scarse. È necessario rivolgersi al dispositivo in modo specifico con una parola chiave, dopodiché si deve aspettare di vedere se il bot è stato attivato con successo o meno. Se è stato attivato, bisogna parlare dopo il segnale acustico a una velocità lenta ma costante e formulare le frasi in modo da includere tutti i parametri necessari, quasi come se si stesse parlando in un'istruzione SQL. Se vi fermate a pensare in qualsiasi momento, l'interazione fallirà e dovrete tornare all'inizio.
Vediamo un esempio reale:
Voi dite: "Ehi, Google".
Si verifica una pausa in attesa della conferma dell'attivazione del dispositivo.
Se è stato attivato, si prosegue con la richiesta:
"Riprodurre 'Dark Horse' di Katy Perry su YouTube, sul televisore del soggiorno".
Si verifica un ulteriore ritardo mentre il dispositivo elabora ciò che avete detto.
Se la richiesta va a buon fine, sul televisore inizierà ad accadere qualcosa e il video verrà riprodotto.
Se non si riesce, bisogna tornare all'inizio e riprovare, magari con una struttura di frase diversa, con parole diverse o semplicemente cercando di parlare più chiaramente.
Questa esperienza è piena di ritardi, potenziali errori e può richiedere molti riavvii per portare a termine le attività. Inoltre, il bot vocale non è ancora intelligente e non risponde ai comandi o alle domande relative a ciò che si sta facendo.
Un nuovo modo di interagire con i bot vocali
Il modo più semplice per immaginare le interazioni con i bot intelligenti del futuro è immaginare un operatore umano che controlla il dispositivo e gli dà istruzioni specifiche per il funzionamento di YouTube (e nient'altro).
La prima differenza riguarda la velocità di interazione. Si può parlare con l'operatore "umano" a una velocità normale, senza pause o ritardi nella risposta, e senza problemi se si fa una pausa mentre si parla. Si può anche fare riferimento all'operatore umano nel bel mezzo di una frase, ad esempio: "Voglio guardare la TV - sai cosa, Alexa, per favore metti qualcosa su YouTube". In effetti, potrebbe non essere necessario pronunciare il loro nome (la parola chiave) per ottenere una risposta.
Questo bot simile a un essere umano sarebbe anche flessibile in termini di interazione con l'utente:
Voi: "Alexa, voglio guardare YouTube".
Alexa: "Certo, su quale TV?".
Tu: "Sulla TV della cucina, forse qualcosa di Katy Perry".
Alexa: "Hai in mente una canzone in particolare?".
Tu: "No, cosa può suggerire?".
Umano: "'Roar', 'Dark Horse'? Ho messo altre proposte sullo schermo".
Lei: "Ottimo, grazie. Suona 'Hot and Cold'".
Questo è il futuro delle interazioni con i bot: Senza soluzione di continuità, senza intoppi e con cui è facile parlare dell'attività o dell'argomento in questione. Immaginate un vasto universo di questi bot con un altrettanto vasto universo di dispositivi vocali economici e di largo consumo. Sarà come avere un operatore umano in ogni stanza e accanto a ogni dispositivo. Ci saranno ancora molte interfacce grafiche, ma saranno molto più facili da usare attraverso il bot.
Avvicinarsial futuro della voce
Oggi è comune vedere impiegati in luoghi come stazioni della metropolitana, aeroporti e supermercati che forniscono assistenza a chi utilizza schermi touchscreen self-service - ad esempio, la persona che vi aiuta a utilizzare le macchine per il check-in per ottenere la carta d'imbarco all'aeroporto. Immaginate, però, che questa persona possa interfacciarsi direttamente con l'applicazione per il check-in: ad esempio, a metà del processo di check-in, potreste dire alla macchina che volete cambiare posto rispetto alla posizione scelta inizialmente e l'applicazione vi mostrerà la schermata corrispondente, il tutto senza l'aiuto di un assistente umano.
Questo è il futuro: un bot vocale sarà incorporato o accessibile a ogni dispositivo o servizio con cui si desidera interagire e farà istantaneamente ciò che viene comandato. Non sarà più necessario tirare fuori il telefono o il computer portatile per ottenere qualcosa, ma basterà dire ad alta voce ciò di cui si ha bisogno e tutto andrà a posto.
Il passaggio alla comunicazione vocale si baserà in ultima analisi su qualcosa di semplice come la comodità. Nel nostro mondo moderno, le persone vogliono fare le cose velocemente e con il minor numero di problemi, e la velocità è più importante che mai. Sebbene la maggior parte di coloro che sono legati al settore dei chatbot non lo prevedano al momento, quelli di noi che stanno studiando e sviluppando la tecnologia prevedono enormi implicazioni per le operazioni aziendali, il marketing, le vendite, il branding, la distribuzione dei prodotti e altro ancora. La voce è il futuro della tecnologia e siamo già a metà strada.
Condividi questo articolo su:
Costruite gratuitamente il vostro chatbot AI personalizzato
Iniziate a costruire un bot GPT personalizzato con la nostra intuitiva interfaccia drag & drop.
Iniziare è gratis! 🤖Non è richiesta la carta di credito
Rimanete aggiornati sulle ultime novità in materia di IA chatbots