Che cos'è un assistente vocale?
Un assistente vocale è un software in grado di comprendere e rispondere ai comandi pronunciati in linguaggio naturale. Possono essere chiamati anche assistenti intelligenti e questa potrebbe essere una descrizione più accurata perché in molti casi possono essere interfacciati con il testo tramite chat. Naturalmente, sono anche noti come bot.
Negli ultimi anni l'adozione degli assistenti vocali è decollata, soprattutto sotto forma di assistenti domestici ad attivazione vocale come Alexa e Google Home.
Questi prodotti consentono agli utenti di comandare il software a fare cose semplicemente con la voce. Ad esempio, un utente può riprodurre la musica su Spotify o un video su Youtube semplicemente comandando l'assistente vocale intelligente.
Il dispositivo di assistenza personale è stato reso possibile dai progressi dell'intelligenza artificiale, in particolare in un'area chiamata elaborazione del linguaggio naturale.
In che modo gli assistenti vocali utilizzano la PNL per il riconoscimento vocale?
L'elaborazione del linguaggio naturale è una tecnologia che consente ai computer di comprendere l'intenzione che sta dietro a una frase pronunciata. È diversa dal riconoscimento vocale, che trascrive le parole pronunciate in testo. Il riconoscimento vocale è ovviamente necessario anche per gli assistenti digitali a controllo vocale. Il riconoscimento vocale trascrive le parole pronunciate in testo e l'elaborazione del linguaggio naturale determina l'intenzione dell'utente dietro il testo.
L'elaborazione del linguaggio naturale è importante e utile perché gli esseri umani danno istruzioni agli assistenti vocali usando frasi diverse che hanno lo stesso significato. Ad esempio, possono dire: "Riproduci X su Youtube", oppure "Trova X su Youtube e riproducilo" o "Su Youtube riproduci la canzone X", ecc.
La PNL è in grado di rilevare che tutte queste frasi hanno lo stesso significato. Questo è utile per gli esseri umani, oltre al fatto che possono interagire con il dispositivo solo con la voce, perché non hanno bisogno di ricordare un comando o una sintassi esatta per far funzionare il dispositivo. L'NLP è anche sorprendentemente facile da imparare per gli sviluppatori e per questo motivo è una parte importante di qualsiasi framework di bot.
Pro e contro degli assistenti vocali
Come vi dirà chiunque abbia provato a usare un assistente vocale, sono ottimi per alcune cose, ma non sono perfetti. Ad esempio, non è possibile avere una conversazione simile a quella umana. Se ci si prova, la conversazione si interrompe rapidamente.
È anche difficile scoprire cosa possono o non possono fare semplicemente interagendo con loro. La voce si rivela un'interfaccia inadeguata per recuperare rapidamente molte informazioni. La scansione di una pagina web, ad esempio, è un modo molto migliore per ottenere rapidamente informazioni.
Sono molto utili per i comandi o le domande singole. Funzionano bene soprattutto nei casi in cui l'utente sa esattamente il risultato che desidera, ad esempio se vuole riprodurre un video specifico su YouTube di cui conosce il nome e se la risposta a una domanda è una semplice frase, come ad esempio la risposta a "qual è la temperatura nella mia città?".
Spesso dimentichiamo che gli assistenti vocali sono semplicemente un'altra interfaccia software. Li chiamiamo assistenti perché si può parlare con loro e quindi è facile concettualizzarli come se avessero una sorta di qualità simile a quella umana. Questa idea è ulteriormente rafforzata dal fatto che per attivarli dobbiamo chiamarli per nome con una parola chiave, "Ehi Google", "Alexa", "Siri". Se non avessimo una parola d'ordine, non saprebbero quando gli si parla e quindi quando rispondere. La parola d'ordine ci induce a pensare all'assistente vocale più come a una sorta di assistente quasi umano che come a un'interfaccia software. Inoltre, fa credere ai bambini più piccoli che Google o Alexa siano una sorta di società, il che potrebbe causare loro un danno duraturo quando scopriranno che si tratta di aziende che dominano il mondo.
In realtà, gli assistenti vocali sono solo un'altra interfaccia software, equivalente ad esempio a un'interfaccia grafica. Un'interfaccia grafica svolge un ruolo simile a quello di un'interfaccia vocale, ma non può essere umanizzata allo stesso modo.
Le interfacce vocali sono utilizzate in modo diverso dalle interfacce grafiche. Si scopre che le interfacce vocali sono normalmente utilizzate in aggiunta alle interfacce grafiche, ma non viceversa.
Questo è dovuto in parte al fatto che le interfacce grafiche sono già state realizzate per la maggior parte delle applicazioni e quindi l'aggiunta di un'interfaccia vocale permette agli utenti di interagire con il software in un altro modo. Ad esempio, chiedendo a un assistente vocale di riprodurre un video di YouTube. Si potrebbe riprodurre il video utilizzando l'interfaccia grafica, ma sarebbe più lento.
Si può anche sostenere che l'interfaccia grafica sia più completa di quella vocale, poiché sarebbe molto difficile svolgere a voce alcune operazioni che possono essere facilmente eseguite con un'interfaccia grafica. Per capire questo punto, immaginate di cercare di far costruire un foglio di calcolo a un vostro collega dandogli istruzioni al telefono e non di costruirlo voi stessi con l'interfaccia grafica.
Pur non essendo indispensabili, le interfacce vocali offrono un nuovo livello di comodità in alcune situazioni. In genere si tratta di una comodità di cui si può fare a meno, se necessario, tranne nelle rare circostanze in cui l'interazione a mani libere è essenziale.
Il futuro degli assistenti vocali
Visti i loro limiti, la domanda è se gli assistenti vocali diventeranno più importanti in futuro o se rimarranno un prodotto marginale.
È chiaro che gli assistenti vocali diventeranno molto più popolari e utilizzati in futuro per un motivo: saranno completamente integrati con le interfacce grafiche.
Sebbene sia difficile sostituire le interfacce utente grafiche con la voce, è molto fattibile combinare un'interfaccia vocale e grafica. Questo è stato fatto in misura molto limitata con Google Assistant (che permette a una pagina web di fornire un contesto) e Bixby.
La prossima generazione di interfacce, che chiameremo interfacce "combinate", integrerà grafica, testo e voce nella migliore esperienza per l'utente. Questo non solo consentirà agli utenti di svolgere le attività più velocemente e con una curva di apprendimento minore (perché la voce permette agli utenti di interagire con il software senza conoscere i comandi esatti), ma l'intelligenza artificiale che monitora le interazioni permetterà alle interfacce di evolversi e migliorare da sole.
Un'istruzione vocale al primo avvio dell'app funzionerà in modo diverso una volta che l'app avrà appreso, grazie a migliaia di interazioni, qual è la linea d'azione migliore.
È interessante anche considerare come, per la piena adozione della voce, sia necessario un cambiamento nel comportamento degli utenti. Attualmente le persone digitano testi e utilizzano interfacce grafiche sui loro smartphone molto più di quanto non facciano parlando al telefono e utilizzando gli assistenti vocali.
Questo perché la tecnologia di riconoscimento vocale non è perfetta. Da decenni esistono scorciatoie vocali su telefoni e computer, ma queste scorciatoie non sono state molto utilizzate perché i tassi di errore erano così alti che il dolore di dover tenere conto dell'errore superava il beneficio della comodità dopo che la novità era svanita.
Immaginate se il riconoscimento vocale fosse perfetto e non ci fossero tassi di errore.
In questo caso, sarebbe molto più veloce per le persone "digitare" un'e-mail, ad esempio, utilizzando la voce che non digitando sullo smartphone. Una volta raggiunto questo punto critico, l'assistenza vocale sarà onnipresente per questo tipo di attività.
Affinché i bot decollino, sia la tecnologia NLP che quella di riconoscimento vocale devono operare a un livello elevato. Mentre il riconoscimento vocale funziona già molto bene, l'NLP, come abbiamo detto, funziona bene solo per ambiti ristretti.
L'aspetto interessante è che il riconoscimento vocale funziona molto meglio in ambiti ristretti per ovvie ragioni: ci sono molte meno parole possibili che l'utente potrebbe pronunciare.
Ciò significa che siamo già in grado di creare chatbots quasi perfetto in un ambito ristretto. Basta ascoltare le dimostrazioni di Google Duplex.
Questo porterà a un'adozione estremamente rapida della voce, una volta risolti i problemi di scoperta e quelli correlati.
Prima la voce
L'idea è che la voce sia la prima porta di chiamata quando qualcuno ha bisogno di assistenza.
In un mondo Voice First i dispositivi diventeranno più invisibili, poiché le persone dovranno guardarli solo per le attività che non possono essere svolte con la voce.
Le persone non avranno solo un dispositivo in salotto, ma avranno un dispositivo vocale economico in ogni stanza. Questi dispositivi saranno collegati tra loro, ai dispositivi IoT e a smartphone e computer. Alcuni di questi dispositivi potrebbero essere in grado di proiettare immagini sulle pareti.
Le persone potranno fare domande o impartire comandi mentre sono sotto la doccia o si lavano i denti. Non dovranno ricordare le cose da dire al robot vocale di sotto.
Ci saranno modi molto migliori per scoprire le funzionalità e "addestrare" gli esseri umani su come utilizzare in modo efficiente i bot.
Sebbene al momento i dispositivi di assistenza vocale presentino numerosi problemi, la maggior parte di essi riguarda il modo in cui vengono utilizzati, piuttosto che la tecnologia sottostante. Riteniamo che in breve tempo emergeranno le killer app per la voce e che questo sarà un evento che cambierà il modo in cui il software viene utilizzato. Ciò richiederà anche una certa standardizzazione delle tecnologie e dei protocolli vocali, ma si tratta di ostacoli che non impediranno il progresso a lungo.
Ci aspettiamo un mondo di estrema comodità in cui i dispositivi vocali sono pronti ad aiutare in qualsiasi luogo o momento.
Indice dei contenuti
Rimanete aggiornati sulle ultime novità in materia di agenti AI
Condividi questo articolo su: