- L'ASR trasforma il parlato in testo grazie all'apprendimento automatico, consentendo comandi vocali e trascrizione in tempo reale.
- I moderni sistemi ASR sono passati da modelli di fonemi separati (HMM-GMM) a modelli di apprendimento profondo che predicono intere parole.
- Le prestazioni dell'ASR si misurano in base al tasso di errore di parola (WER), con errori derivanti da sostituzioni, cancellazioni o inserimenti; WER più basso = migliore qualità di trascrizione.
- Il futuro dell'ASR è incentrato sull'elaborazione sul dispositivo per garantire la privacy e il supporto per le lingue a bassa densità di risorse.
Quand'è stata l'ultima volta che avete guardato qualcosa senza sottotitoli?
Una volta erano facoltativi, ma ora rimbalzano nei video di breve durata, che li si voglia o meno. Le didascalie sono così integrate nel contenuto che ci si dimentica della loro presenza.
Il riconoscimento vocale automatico (ASR) - la capacità di automatizzare in modo rapido e preciso la conversione delle parole pronunciate in testo - è la tecnologia alla base di questo cambiamento.
Quando pensiamo a un agente vocale dell'intelligenza artificiale, pensiamo alla scelta delle parole, all'espressione e alla voce con cui parla.
Ma è facile dimenticare che la fluidità delle nostre interazioni dipende dalla capacità del bot di capirci. E arrivare a questo punto - il bot che ti capisce attraverso "um" e "ah" in un ambiente rumoroso - non è stata una passeggiata.
Oggi parleremo della tecnologia che alimenta queste didascalie: il riconoscimento vocale automatico (ASR).
Permettetemi di presentarmi: Ho conseguito un master in tecnologia vocale e nel tempo libero mi piace documentarmi sulle ultime novità in materia di ASR e persino costruire oggetti.
Vi spiegherò le basi dell'ASR, sbircerò sotto il cofano della tecnologia e farò un'ipotesi sulla sua prossima evoluzione.
Che cos'è l'ASR?
Il riconoscimento automatico del parlato (ASR), o speech-to-text (STT), è il processo di conversione del parlato in testo scritto attraverso l'uso di tecnologie di apprendimento automatico.
Le tecnologie che coinvolgono il parlato spesso integrano l'ASR in qualche modo; può trattarsi di didascalie video, trascrizione di interazioni di assistenza clienti per l'analisi, o parte di un'interazione con un assistente vocale, per citarne alcune.
Algoritmi di sintesi vocale
Le tecnologie sottostanti sono cambiate nel corso degli anni, ma tutte le iterazioni sono state costituite da due componenti, in una forma o nell'altra: i dati e il modello.
Nel caso dell'ASR, i dati sono il parlato etichettato - file audio di linguaggio parlato e le relative trascrizioni.
Il modello è l'algoritmo utilizzato per prevedere la trascrizione dall'audio. I dati etichettati vengono utilizzati per addestrare il modello, in modo che possa generalizzare su esempi di parlato non visti.

È un po' come capire una serie di parole, anche se non le si è mai sentite in quell'ordine particolare, o se sono pronunciate da un estraneo.
Anche in questo caso, i tipi di modelli e le loro specifiche sono cambiati nel tempo e tutti i progressi in termini di velocità e accuratezza sono dipesi dalle dimensioni e dalle specifiche dei dataset e dei modelli.
Un'idea rapida: Estrazione delle caratteristiche
Ho parlato di caratteristiche o rappresentazioni nel mio articolo sul text-to-speech. Sono utilizzate nei modelli ASR passati e presenti.
L'estrazione delle caratteristiche, ossia la conversione del parlato in caratteristiche, è il primo passo di quasi tutte le pipeline ASR.
In breve, queste caratteristiche, spesso spettrogrammi, sono il risultato di un calcolo matematico eseguito sul parlato e convertono il parlato in un formato che enfatizza le somiglianze tra gli enunciati e minimizza le differenze tra i parlanti.
In altre parole, lo stesso enunciato pronunciato da due parlanti diversi avrà spettrogrammi simili, indipendentemente da quanto siano diverse le loro voci.
Lo segnalo per farvi sapere che parlerò di modelli che "predicono le trascrizioni dal parlato". Questo non è tecnicamente vero: i modelli predicono dalle caratteristiche. Ma si può pensare alla componente di estrazione delle caratteristiche come parte del modello.
ASR precoce: HMM-GMM
I modelli di markov nascosti (HMM) e i modelli a miscela gaussiana (GMM) sono modelli predittivi che risalgono a prima che le reti neurali profonde prendessero il sopravvento.
Gli HMM hanno dominato l'ASR fino a poco tempo fa.
Dato un file audio, l'HMM prevede la durata di un fonema e il GMM prevede il fonema stesso.
Sembra un'affermazione al contrario, e in effetti è così:
- HMM: "I primi 0,2 secondi sono un fonema".
- GMM: "Quel fonema è una G, come Gary".
La trasformazione di un clip audio in testo richiede alcuni componenti aggiuntivi, in particolare:
- Un dizionario di pronuncia: un elenco esaustivo delle parole del vocabolario, con le relative pronunce.
- Un modello linguistico: Combinazioni di parole nel vocabolario e loro probabilità di co-occorrenza.
Quindi, anche se il GMM predice /f/ rispetto a /s/, il modello linguistico sa che è molto più probabile che l'oratore abbia detto "un penny per i tuoi pensieri", e non "foughts".
Avevamo tutte queste parti perché, per dirla senza mezzi termini, nessuna parte di questa pipeline era eccezionalmente buona.
L'HMM avrebbe sbagliato a prevedere gli allineamenti, il GMM avrebbe confuso suoni simili: /s/ e /f/, /p/ e /t/, e non parliamo poi delle vocali.
E poi il modello linguistico ripulirebbe la confusione di fonemi incoerenti in qualcosa di più linguistico.
ASR end-to-end con apprendimento profondo
Molte parti di una conduttura ASR sono state nel frattempo consolidate.

Invece di addestrare modelli separati per gestire l'ortografia, l'allineamento e la pronuncia, un unico modello riceve il parlato e produce (si spera) parole scritte correttamente e, oggi, anche i timestamp.
(Anche se le implementazioni spesso correggono, o "riattribuiscono", questo risultato con un modello linguistico aggiuntivo).
Questo non significa che fattori diversi, come l'allineamento e l'ortografia, non ricevano un'attenzione particolare. Ci sono ancora montagne di letteratura che si concentrano sull'implementazione di soluzioni a problemi altamente mirati.
In altre parole, i ricercatori propongono modi per alterare l'architettura di un modello che mirano a fattori specifici delle sue prestazioni, come ad esempio:
- Un decodificatore RNN-trasduttore condizionato dalle uscite precedenti per migliorare l'ortografia.
- Il downsampling convoluzionale limita le uscite vuote, migliorando l'allineamento.
So che non ha senso. Sto solo cercando di evitare che il mio capo mi chieda: "Puoi fare un esempio chiaro e semplice?".
La risposta è no.
No, non posso.
Come si misurano le prestazioni nell'ASR?
Quando l'ASR fa un cattivo lavoro, lo sapete.
Ho visto la caramellizzazione trascritta come asiatici comunisti. Crispiness to Chris p - avete capito bene.
La metrica che utilizziamo per riflettere matematicamente gli errori è il tasso di errore di parola (WER). La formula del WER è:

Dove:
- S è il numero di sostituzioni (parole cambiate nel testo previsto per farle corrispondere al testo di riferimento)
- D è il numero di cancellazioni (parole mancanti nell'output, rispetto al testo di riferimento)
- I è il numero di inserimenti (parole aggiuntive nell'output, rispetto al testo di riferimento)
- N è il numero totale di parole nel riferimento
Quindi, diciamo che il riferimento è "il gatto si è seduto".
- Se il modello produce "il gatto è affondato", si tratta di una sostituzione.
- Se il modello produce "cat sat", si tratta di una cancellazione.
- Se esce "il gatto si è seduto", si tratta di un'inserzione.
Quali sono le applicazioni dell'ASR?
L'ASR è un ottimo strumento.
Ci ha anche aiutato a migliorare la qualità della vita grazie al miglioramento della sicurezza, dell'accessibilità e dell'efficienza in settori cruciali.
Assistenza sanitaria
Quando dico ai medici che faccio ricerca sul riconoscimento vocale, mi rispondono "Oh, come Dragon".
Prima che l'IA generativa entrasse in sanità, i medici prendevano appunti verbali a 30 parole al minuto con un vocabolario limitato.
L'ASR ha avuto un enorme successo nel ridurre il diffuso burnout dei medici.
I medici bilanciano montagne di scartoffie con la necessità di occuparsi dei loro pazienti. Già nel 2018, i ricercatori hanno invocato l'uso della trascrizione digitale nelle consultazioni per migliorare la capacità dei medici di fornire assistenza.
Questo perché la necessità di documentare retroattivamente le consultazioni non solo sottrae tempo al faccia a faccia con i pazienti, ma è anche molto meno accurata delle sintesi delle trascrizioni delle consultazioni effettive.
Case intelligenti
Ho una battuta che faccio.
Quando voglio spegnere le luci ma non ho voglia di alzarmi, batto due volte in rapida successione, come se avessi un batacchio.
Il mio partner non ride mai.
Le case intelligenti ad attivazione vocale sembrano al tempo stesso futuristiche e vergognosamente indulgenti. O almeno così sembra.
Certo, sono comodi, ma in molti casi permettono di fare cose che altrimenti non sarebbero possibili.
Un ottimo esempio è il consumo energetico: apportare piccole modifiche all'illuminazione e al termostato non sarebbe fattibile nel corso della giornata se ci si dovesse alzare per giocare con una manopola.
Grazie all'attivazione vocale, queste piccole modifiche non solo sono più facili da apportare, ma leggono anche le sfumature del linguaggio umano.
Ad esempio, si dice: "Si può fare un po' più fresco?". L'assistente utilizza l'elaborazione del linguaggio naturale per tradurre la vostra richiesta in una variazione della temperatura, tenendo conto di tutta una serie di altri dati: la temperatura attuale, le previsioni del tempo, i dati di utilizzo del termostato da parte di altri utenti, ecc.
Voi fate la parte umana e lasciate al computer la parte informatica.
Direi che è molto più facile che dover indovinare di quanti gradi abbassare il riscaldamento in base alle proprie sensazioni.
Ed è più efficiente dal punto di vista energetico: ci sono testimonianze di famiglie che hanno ridotto il consumo energetico dell'80% con l'illuminazione intelligente ad attivazione vocale, per fare un esempio.
Assistenza clienti
Ne abbiamo parlato con l'assistenza sanitaria, ma la trascrizione e il riassunto sono molto più efficaci di quanto non lo siano i riassunti retroattivi delle interazioni.
Anche in questo caso, si risparmia tempo e si è più precisi. Quello che impariamo sempre di più è che le automazioni liberano tempo per le persone che possono fare meglio il loro lavoro.
E questo è più vero che nell'assistenza clienti, dove l'assistenza clienti potenziata con l'ASR ha un tasso di risoluzione della prima chiamata superiore del 25%.
La trascrizione e la sintesi aiutano ad automatizzare il processo di individuazione di una soluzione basata sul sentimento e sulla domanda del cliente.
Assistenti in auto
Ci stiamo appoggiando agli assistenti di casa, ma vale la pena menzionarlo.
Il riconoscimento vocale riduce il carico cognitivo e le distrazioni visive dei conducenti.
E dato che la distrazione è responsabile fino al 30% delle collisioni, l'implementazione di questa tecnologia è una scelta obbligata per la sicurezza.
Patologia del linguaggio
L'ASR è da tempo utilizzato come strumento di valutazione e trattamento delle patologie del linguaggio.
È utile ricordare che le macchine non solo automatizzano le attività, ma fanno anche cose che gli esseri umani non possono fare.
Il riconoscimento vocale è in grado di rilevare sottigliezze nel parlato che sono quasi impercettibili all'orecchio umano, cogliendo specifiche del parlato che altrimenti passerebbero inosservate.
Il futuro dell'ASR
STT è diventato abbastanza buono da non pensarci più.
Ma dietro le quinte, i ricercatori stanno lavorando duramente per renderlo ancora più potente e accessibile - e meno evidente.
Ho scelto alcune tendenze interessanti che sfruttano i progressi dell'ASR e ho aggiunto alcune mie riflessioni.
Riconoscimento vocale sul dispositivo
La maggior parte delle soluzioni ASR funziona nel cloud. Sicuramente l'avrete già sentito dire. Ciò significa che il modello viene eseguito su un computer remoto, da qualche altra parte.
Lo fanno perché il piccolo processore del telefono non può necessariamente far funzionare il loro enorme modello, altrimenti ci vorrebbe una vita per trascrivere qualcosa.
L'audio viene invece inviato, via Internet, a un server remoto che esegue una GPU troppo pesante da portare in tasca. La GPU esegue il modello ASR e restituisce la trascrizione al dispositivo.

Per ragioni di efficienza energetica e di sicurezza (non tutti vogliono che i loro dati personali vaghino nel cyberspazio), sono state condotte molte ricerche per realizzare modelli abbastanza compatti da poter essere eseguiti direttamente sul dispositivo, sia esso un telefono, un computer o un motore di navigazione.
Il sottoscritto ha scritto una tesi sulla quantizzazione dei modelli ASR in modo che possano essere eseguiti su un dispositivo. Picovoice è un'azienda canadese che sta costruendo un'intelligenza artificiale vocale a bassa latenza su dispositivo e sembra interessante.
L'ASR on-device rende disponibile la trascrizione a un costo inferiore, con il potenziale di servire le comunità a basso reddito.
Trascrizione - Prima UI
Il divario tra audio e trascrizioni si sta riducendo. Che cosa significa?
Gli editor video come Premiere Pro e Descript consentono di navigare tra le registrazioni attraverso una trascrizione: cliccando su una parola si arriva al timestamp.
Avete dovuto fare un paio di riprese? Scegliete la vostra preferita e cancellate le altre, in stile editor di testo. Il video viene ritagliato automaticamente.
È molto frustrante fare questo tipo di editing con una semplice forma d'onda, ma è molto facile quando si dispone di editor basati sulla trascrizione.
Allo stesso modo, i servizi di messaggistica come WhatsApp trascrivono le note vocali e permettono di scorrerle attraverso il testo. Facendo scorrere il dito su una parola, si accede a quella parte della registrazione.

Una storia divertente: Ho costruito qualcosa di simile circa una settimana prima che Apple annunciasse una funzione simile.
Questi esempi mostrano come le complesse tecnologie under-the-hood portino semplicità e intuitività alle applicazioni degli utenti finali.
Equità, inclusione e lingue a bassa densità di risorse
La battaglia non è ancora vinta.
L'ASR funziona benissimo in inglese e in altre lingue comuni e con buone risorse. Non è necessariamente così per le lingue con scarse risorse.
C'è un divario nelle minoranze dialettali, nei discorsi affetti e in altri problemi di equità nella tecnologia vocale.
Mi dispiace disturbare le buone vibrazioni. Questa sezione si chiama "futuro" dell'ASR. E io scelgo di guardare a un futuro di cui essere orgogliosi.
Se vogliamo progredire, dobbiamo farlo insieme, o rischiamo di aumentare la disuguaglianza sociale.
Iniziate a usare l'ASR oggi stesso
Indipendentemente dalla vostra attività, l'utilizzo dell'ASR è una scelta obbligata, anche se probabilmente vi state chiedendo come iniziare. Come si implementa l'ASR? Come passare i dati ad altri strumenti?
Botpress è dotato di schede di trascrizione facili da usare. Possono essere integrate in un flusso drag-and-drop, con decine di integrazioni tra applicazioni e canali di comunicazione.
Iniziate a costruire oggi stesso. È gratuito.
Domande frequenti
Quanto è preciso l'ASR moderno per i diversi accenti e gli ambienti rumorosi?
I moderni sistemi ASR sono straordinariamente precisi per gli accenti comuni delle principali lingue, raggiungendo tassi di errore di parola (WER) inferiori al 10% in condizioni di pulizia, ma l'accuratezza diminuisce sensibilmente con accenti pesanti, dialetti o rumore di fondo significativo. Fornitori come Google e Microsoft addestrano i modelli su dati vocali diversi, ma la trascrizione perfetta in ambienti rumorosi rimane una sfida.
L'ASR è affidabile per la trascrizione di gergo specialistico o di termini specifici del settore?
L'ASR è meno affidabile per il gergo specialistico o per i termini specifici del settore, perché i dati di addestramento sono solitamente orientati verso il parlato generale; le parole non familiari possono essere trascritte in modo errato o omesse. Tuttavia, le soluzioni aziendali consentono di creare vocabolari personalizzati, modelli linguistici specifici per il dominio e dizionari di pronuncia per migliorare il riconoscimento di termini tecnici in settori come la sanità, la legge o l'ingegneria.
Qual è la differenza tra gli strumenti ASR gratuiti e le soluzioni di livello aziendale?
La differenza tra gli strumenti ASR gratuiti e le soluzioni di livello aziendale risiede nell'accuratezza, nella scalabilità, nella personalizzazione e nei controlli sulla privacy: gli strumenti gratuiti hanno spesso tassi di errore più elevati, un supporto linguistico limitato e limiti di utilizzo, mentre le soluzioni aziendali offrono WER più bassi, personalizzazione specifica del dominio, integrazioni, accordi di livello di servizio (SLA) e solide funzioni di sicurezza per la gestione dei dati sensibili.
In che modo l'ASR protegge la privacy degli utenti e le informazioni sensibili durante la trascrizione?
L'ASR protegge la privacy degli utenti attraverso la crittografia durante la trasmissione dei dati e offre opzioni come l'esecuzione dei modelli sul dispositivo per evitare l'invio dei dati vocali a server esterni. Molti fornitori aziendali sono inoltre conformi alle normative sulla privacy come il GDPR o l'HIPAA e possono anonimizzare i dati per salvaguardare le informazioni sensibili.
Quanto costano i servizi ASR basati sul cloud rispetto alle soluzioni on-device?
I servizi di ASR basati su cloud sono generalmente addebitati al minuto di audio o per livelli di utilizzo, con costi che variano da 0,03 a 1,00 dollari al minuto a seconda dell'accuratezza e delle funzioni, mentre le soluzioni su dispositivo comportano costi di sviluppo iniziali e costi di licenza.