- ASR zet spraak om in tekst met behulp van machine learning, waardoor spraakopdrachten en real-time transcriptie mogelijk worden.
- Moderne ASR-systemen zijn overgestapt van afzonderlijke foneemmodellen (HMM-GMM) naar deep learning-modellen die hele woorden voorspellen.
- ASR-prestaties worden gemeten aan de hand van de Word Error Rate (WER), waarbij fouten afkomstig zijn van substituties, verwijderingen of invoegingen; een lagere WER = een betere transcriptiekwaliteit.
- De toekomst van ASR is gericht op verwerking op het apparaat voor privacy en ondersteuning van talen met weinig bronnen.
Wanneer heb je voor het laatst naar iets gekeken zonder ondertiteling?
Vroeger was ondertiteling optioneel, maar nu zie je ze overal in korte video's, of we dat nu willen of niet. Ondertitels zijn zo ingebed in de inhoud dat je vergeet dat ze er zijn.
Automatische spraakherkenning (ASR) - de mogelijkheid om gesproken woorden snel en nauwkeurig om te zetten in tekst - is de technologie die deze verschuiving aandrijft.
Als we denken aan een AI-stemagent, denken we aan de woordkeus, de uitspraak en de stem waarmee hij spreekt.
Maar het is gemakkelijk om te vergeten dat de vloeiendheid van onze interacties afhankelijk is van de bot die ons begrijpt. En het bereiken van dit punt - de bot die je begrijpt door middel van "um"s en "ah"s in een lawaaierige omgeving - is geen peulenschil.
Vandaag gaan we het hebben over de technologie die deze bijschriften voedt: automatische spraakherkenning (ASR).
Sta me toe mezelf voor te stellen: Ik heb een master in spraaktechnologie en in mijn vrije tijd lees ik graag over de nieuwste ontwikkelingen op het gebied van ASR en bouw ik zelfs dingen.
Ik leg je de basisprincipes van ASR uit, neem een kijkje onder de motorkap van de technologie en doe een gok naar waar de technologie naartoe zou kunnen gaan.
Wat is ASR?
Automatische spraakherkenning (ASR), of spraak-naar-tekst (STT) is het proces van het omzetten van spraak in geschreven tekst door middel van machinaal leren.
Technologieën waarbij spraak een rol speelt, integreren ASR vaak op de een of andere manier; dit kan zijn voor videobijschriften, het transcriberen van klantensupportinteracties voor analyse of als onderdeel van een stemassistentinteractie, om er maar een paar te noemen.
Spraak-naar-tekst algoritmen
De onderliggende technologieën zijn in de loop der jaren veranderd, maar alle iteraties hebben op de een of andere manier uit twee componenten bestaan: gegevens en een model.
In het geval van ASR zijn de gegevens gelabelde spraak - audiobestanden van gesproken taal en hun bijbehorende transcripties.
Het model is het algoritme dat wordt gebruikt om de transcriptie uit de audio te voorspellen. De gelabelde gegevens worden gebruikt om het model te trainen, zodat het kan generaliseren over ongeziene spraakvoorbeelden.

Het lijkt veel op hoe je een reeks woorden kunt begrijpen, zelfs als je ze nog nooit in die bepaalde volgorde hebt gehoord of als ze door een vreemde worden uitgesproken.
Nogmaals, de soorten modellen en hun specifieke kenmerken zijn in de loop der tijd veranderd en alle vooruitgang in snelheid en nauwkeurigheid is te danken aan de omvang en specificaties van de datasets en modellen.
Snel terzijde: Extractie van kenmerken
In mijn artikel over tekst-naar-spraak heb ik het gehad over kenmerken of representaties. Ze worden gebruikt in vroegere en huidige ASR-modellen.
Kenmerkextractie - spraak omzetten in kenmerken - is de eerste stap in vrijwel alle ASR-pijplijnen.
In het kort komt het erop neer dat deze kenmerken, vaak spectrogrammen, het resultaat zijn van een wiskundige berekening die op spraak wordt uitgevoerd, en spraak omzetten in een formaat dat overeenkomsten tussen uitingen benadrukt en verschillen tussen sprekers minimaliseert.
Dezelfde uitspraak gesproken door 2 verschillende sprekers zal vergelijkbare spectrogrammen hebben, ongeacht hoe verschillend hun stemmen zijn.
Ik zeg dit om je te laten weten dat ik het zal hebben over modellen die "transcripts voorspellen op basis van spraak". Dat is technisch gezien niet waar; modellen voorspellen op basis van kenmerken. Maar je kunt de feature-extractiecomponent zien als onderdeel van het model.
Vroege ASR: HMM-GMM
Hidden markov models (HMM's) en Gaussian mixture models (GMM's) zijn voorspellende modellen van voordat diepe neurale netwerken het overnamen.
Tot voor kort domineerden HMM's ASR.
Gegeven een audiobestand zou de HMM de duur van een foneem voorspellen en de GMM het foneem zelf.
Dat klinkt achterstevoren, en dat is het ook een beetje:
- HMM: "De eerste 0,2 seconden is een foneem."
- GMM: "Dat foneem is een G, zoals in Gary."
Om een audioclip om te zetten in tekst zijn een paar extra onderdelen nodig, namelijk:
- Een uitspraakwoordenboek: een volledige lijst van de woorden in de woordenschat, met de bijbehorende uitspraak.
- Een taalmodel: Combinaties van woorden in de woordenschat en hun waarschijnlijkheid om samen voor te komen.
Dus zelfs als de GMM /f/ boven /s/ voorspelt, weet het taalmodel dat het veel waarschijnlijker is dat de spreker "een penny voor je gedachten" zei, niet foughts.
We hadden al deze onderdelen omdat, om het bot te zeggen, geen enkel onderdeel van deze pijplijn uitzonderlijk goed was.
De HMM zou uitlijningen verkeerd voorspellen, de GMM zou soortgelijke klanken verwarren: /s/ en /f/, /p/ en /t/, en laat ik maar niet beginnen over klinkers.
En dan zou het taalmodel de warboel van onsamenhangende fonemen opruimen tot iets taalachtigers.
End-to-end ASR met diep leren
Veel onderdelen van een ASR-pijpleiding zijn sindsdien geconsolideerd.

In plaats van aparte modellen te trainen voor spelling, uitlijning en uitspraak, neemt een enkel model spraak op en voert (hopelijk) correct gespelde woorden uit, en tegenwoordig ook tijdstempels.
(Hoewel implementaties deze uitvoer vaak corrigeren of "her-scoren" met een extra taalmodel).
Dat wil niet zeggen dat andere factoren - zoals uitlijning en spelling - geen unieke aandacht krijgen. Er zijn nog steeds bergen literatuur gericht op het implementeren van oplossingen voor zeer gerichte problemen.
Dat wil zeggen dat onderzoekers manieren bedenken om de architectuur van een model te veranderen die gericht zijn op specifieke factoren van de prestaties, zoals:
- Een RNN-Transducer-decoder geconditioneerd op basis van eerdere outputs om de spelling te verbeteren.
- Convolutionele downsampling om lege uitgangen te beperken, waardoor de uitlijning wordt verbeterd.
Ik weet dat dit onzin is. Ik loop gewoon vooruit op mijn baas die zoiets heeft van "kun je een duidelijk voorbeeld geven?".
Het antwoord is nee.
Nee, dat kan ik niet.
Hoe wordt prestatie gemeten in ASR?
Als ASR slecht werk levert, weet je dat.
Ik heb karamelisatie zien omschrijven als communistische Aziaten. Crispiness naar Chris p - je krijgt het idee.
De metriek die we gebruiken om fouten mathematisch weer te geven is word error rate (WER). De formule voor WER is:

Waar:
- S is het aantal substituties (woorden die in de voorspelde tekst zijn veranderd om overeen te komen met de referentietekst)
- D is het aantal verwijderingen (woorden die ontbreken in de uitvoer, vergeleken met de referentietekst)
- I is het aantal invoegingen (extra woorden in de uitvoer, vergeleken met de referentietekst)
- N is het totale aantal woorden in de referentie
Dus stel dat de referentie "de kat zat" is.
- Als het model aangeeft "de kat zonk", dan is dat een vervanging.
- Als het model "kat zat" aangeeft, is dat een verwijdering.
- Als de uitgang "de kat heeft gezeten" is, is dat een invoeging.
Wat zijn de toepassingen van ASR?
ASR is een handig hulpmiddel.
Het heeft ons ook geholpen onze levenskwaliteit te verbeteren door verbeterde veiligheid, toegankelijkheid en efficiëntie in cruciale sectoren.
Gezondheidszorg
Als ik artsen vertel dat ik onderzoek doe naar spraakherkenning, zeggen ze "oh, zoals Dragon".
Voordat we generatieve AI in de gezondheidszorg hadden, maakten artsen verbale aantekeningen met 30 woorden per minuut en een beperkte woordenschat.
ASR is enorm succesvol geweest in het indammen van de wijdverspreide burn-out die artsen ervaren.
Artsen balanceren bergen papierwerk met de noodzaak om hun patiënten bij te staan. Al in 2018 pleitten onderzoekers voor het gebruik van digitale transcriptie bij consulten om artsen beter in staat te stellen zorg te verlenen.
Dat komt omdat het achteraf moeten documenteren van consulten niet alleen ten koste gaat van de face-time met patiënten, maar het is ook veel minder nauwkeurig dan samenvattingen van transcripties van daadwerkelijke consulten.
Slimme huizen
Ik maak deze grap.
Als ik het licht uit wil doen maar geen zin heb om op te staan, klap ik twee keer snel achter elkaar - alsof ik een klepel heb.
Mijn partner lacht nooit.
Spraakgestuurde smart-homes voelen zowel futuristisch als beschamend toegeeflijk. Of zo lijkt het toch.
Natuurlijk, ze zijn handig, maar in veel gevallen maken ze het mogelijk om dingen te doen die anders niet mogelijk zijn.
Een goed voorbeeld is energieverbruik: kleine aanpassingen maken aan verlichting en thermostaat zou de hele dag door ondoenlijk zijn als je zou moeten opstaan om met een draaiknop te spelen.
Dankzij stemactivering zijn die kleine aanpassingen niet alleen gemakkelijker te maken, maar wordt ook de nuance van menselijke spraak gelezen.
Je zegt bijvoorbeeld "kan het een beetje koeler?". De assistent gebruikt natuurlijke taalverwerking om je vraag te vertalen in een verandering van temperatuur, rekening houdend met een hele reeks andere gegevens: de huidige temperatuur, de weersvoorspelling, de gebruiksgegevens van de thermostaat van andere gebruikers, enz.
Jij doet het menselijke gedeelte en laat het computerwerk over aan de computer.
Ik zou zeggen dat dat veel gemakkelijker is dan te moeten raden hoeveel graden je de verwarming lager moet zetten op basis van je gevoel.
En het is energiezuiniger: er zijn meldingen van gezinnen die 80% minder energie verbruiken met spraakgestuurde slimme verlichting, om maar een voorbeeld te noemen.
Klantenservice
We hebben het hierover gehad in de gezondheidszorg, maar transcriberen en samenvatten is veel effectiever dan mensen die achteraf samenvattingen geven van interacties.
Nogmaals, het bespaart tijd en het is nauwkeuriger. Wat we keer op keer leren is dat automatiseringen tijd vrijmaken zodat mensen hun werk beter kunnen doen.
En nergens is dat meer waar dan bij de klantenservice, waar ASR-verbeterde klantenservice een 25% hoger oplossingspercentage bij de eerste oproep heeft.
Transcriptie en samenvatting helpen bij het automatiseren van het vinden van een oplossing op basis van het gevoel en de vraag van de klant.
Assistenten in de auto
We haken hier in op de thuisassistenten, maar het is het vermelden waard.
Spraakherkenning vermindert de cognitieve belasting en visuele afleiding voor bestuurders.
En omdat afleiding verantwoordelijk is voor 30% van de aanrijdingen, is het implementeren van de technologie een no-brainer op het gebied van veiligheid.
Spraakpathologie
ASR wordt al lang gebruikt als hulpmiddel bij het beoordelen en behandelen van spraakpathologieën.
Het is handig om te onthouden dat machines niet alleen taken automatiseren, maar ook dingen doen die mensen niet kunnen.
Spraakherkenning kan subtiliteiten in spraak detecteren die bijna onwaarneembaar zijn voor het menselijk oor, waardoor specifieke kenmerken van aangetaste spraak worden opgemerkt die anders onopgemerkt zouden blijven.
De toekomst van ASR
STT is goed genoeg geworden om er niet meer aan te denken.
Maar achter de schermen zijn onderzoekers hard aan het werk om het nog krachtiger en toegankelijker te maken - en minder opvallend.
Ik heb een aantal opwindende trends uitgekozen die gebruik maken van de vooruitgang in ASR, en ik heb er een paar van mijn eigen gedachten aan toegevoegd.
Spraakherkenning op het apparaat
De meeste ASR-oplossingen draaien in de cloud. Dat heb je vast wel eens gehoord. Dat betekent dat het model op een externe computer draait, ergens anders.
Ze doen dit omdat de kleine processor van je telefoon niet per se hun enorme model kan draaien, anders zou het een eeuwigheid duren om iets te transcriberen.
In plaats daarvan wordt je audio via het internet naar een externe server gestuurd met een GPU die veel te zwaar is om in je zak mee te nemen. De GPU voert het ASR-model uit en stuurt de transcriptie terug naar je apparaat.

Om redenen van energie-efficiëntie en veiligheid (niet iedereen wil dat zijn persoonlijke gegevens in cyberspace rondzwerven) is er veel onderzoek gedaan naar het maken van modellen die compact genoeg zijn om direct op je apparaat te draaien, of dat nu een telefoon, computer of browser is.
Ondergetekende schreef een proefschrift over het kwantiseren van ASR-modellen zodat ze op een apparaat kunnen draaien. Picovoice is een Canadees bedrijf dat spraak-AI bouwt met lage latentie op apparaten en ze lijken cool.
On-device ASR maakt transcriptie beschikbaar tegen lagere kosten, met het potentieel om gemeenschappen met lage inkomens te bedienen.
UI voor afschrift
De kloof tussen audio en transcripties wordt kleiner. Wat betekent dat?
Met videobewerkingsprogramma's zoals Premiere Pro en Descript kun je door je opnames navigeren via een transcript: klik op een woord en je komt bij de tijdstempel.
Moest je een paar takes doen? Kies je favoriet en wis de anderen, in teksteditorstijl. De video wordt automatisch voor je bijgesneden.
Het is erg frustrerend om dat soort bewerkingen uit te voeren met alleen een golfvorm, maar het is erg gemakkelijk als je op transcript gebaseerde editors hebt.
Ook berichtendiensten zoals WhatsApp transcriberen je spraaknotities en laten je ze doornemen via de tekst. Schuif je vinger over een woord en je gaat naar dat deel van de opname.

Grappig verhaal: Ik heb iets dergelijks gebouwd ongeveer een week voordat Apple een soortgelijke functie aankondigde.
Deze voorbeelden laten zien hoe complexe technologieën onder de motorkap eenvoud en intuïtiviteit brengen in toepassingen voor eindgebruikers.
Gelijkheid, inclusie en talen met weinig middelen
De strijd is nog niet gewonnen.
ASR werkt geweldig in het Engels en andere veelgebruikte talen met een goede bron. Dat is niet noodzakelijk het geval voor talen met weinig bronnen.
Er is een gat in dialectminderheden, aangetaste spraak en andere problemen met gelijkheid in spraaktechnologie.
Sorry dat ik de goede sfeer verstoor. Deze sectie heet de "toekomst" van ASR. En ik kies ervoor om vooruit te kijken naar een toekomst waar we trots op kunnen zijn.
Als we vooruitgang willen boeken, moeten we dat samen doen, anders lopen we het risico dat de maatschappelijke ongelijkheid toeneemt.
Gebruik ASR vandaag nog
Ongeacht je bedrijf is het gebruik van ASR een no-brainer - behalve dat je je waarschijnlijk afvraagt hoe je moet beginnen. Hoe implementeer je ASR? Hoe geef je die gegevens door aan andere tools?
Botpress wordt geleverd met gebruiksvriendelijke transcriptiekaarten. Ze kunnen worden geïntegreerd in een drag-and-drop flow, aangevuld met tientallen integraties tussen applicaties en communicatiekanalen.
Begin vandaag nog met bouwen. Het is gratis.
FAQs
Hoe nauwkeurig is moderne ASR voor verschillende accenten en lawaaierige omgevingen?
Moderne ASR-systemen zijn indrukwekkend accuraat voor veel voorkomende accenten in de belangrijkste talen, met woordfoutenpercentages (WER) onder 10% onder normale omstandigheden, maar de nauwkeurigheid daalt aanzienlijk bij zware accenten, dialecten of veel achtergrondgeluid. Leveranciers zoals Google en Microsoft trainen modellen op diverse spraakdata, maar perfecte transcriptie in lawaaiige omgevingen blijft nog steeds een uitdaging.
Is ASR betrouwbaar voor het transcriberen van vakjargon of industriespecifieke termen?
ASR is out-of-the-box minder betrouwbaar voor vakjargon of industriespecifieke termen omdat de trainingsgegevens meestal neigen naar algemene spraak; onbekende woorden kunnen verkeerd worden weergegeven of weggelaten. Bedrijfsoplossingen maken echter aangepaste vocabulaires, domeinspecifieke taalmodellen en uitspraakwoordenboeken mogelijk om de herkenning van technische termen in vakgebieden als gezondheidszorg, recht of techniek te verbeteren.
Wat is het verschil tussen gratis ASR-tools en oplossingen van enterprisekwaliteit?
Het verschil tussen gratis ASR-tools en oplossingen van enterprisekwaliteit ligt in nauwkeurigheid, schaalbaarheid, aanpassing en privacycontroles: gratis tools hebben vaak hogere foutpercentages, beperkte taalondersteuning en gebruikslimieten, terwijl oplossingen van enterprisekwaliteit een lagere WER, domeinspecifieke aanpassing, integraties, service-level agreements (SLA's) en robuuste beveiligingsfuncties voor de verwerking van gevoelige gegevens bieden.
Hoe beschermt ASR de privacy van gebruikers en gevoelige informatie tijdens het transcriberen?
ASR beschermt de privacy van gebruikers door encryptie tijdens de gegevensoverdracht en biedt opties zoals het uitvoeren van modellen op het apparaat om te voorkomen dat spraakgegevens naar externe servers worden gestuurd. Veel zakelijke aanbieders voldoen ook aan privacyregels zoals GDPR of HIPAA en kunnen gegevens anonimiseren om gevoelige informatie te beschermen.
Hoe duur zijn cloud-gebaseerde ASR-diensten versus on-device oplossingen?
Cloud-gebaseerde ASR-diensten rekenen meestal per audiominuut of per gebruiksmoment, met kosten variërend van $0,03-$1,00+ per minuut afhankelijk van nauwkeurigheid en functies, terwijl on-device oplossingen ontwikkelingskosten en licentiekosten met zich meebrengen.