- ASR wandelt Sprache mithilfe von maschinellem Lernen in Text um und ermöglicht so Sprachbefehle und Echtzeit-Transkription.
- Moderne ASR-Systeme sind von separaten Phonemmodellen (HMM-GMM) zu Deep-Learning-Modellen übergegangen, die ganze Wörter vorhersagen.
- Die ASR-Leistung wird anhand der Wortfehlerrate (Word Error Rate, WER) gemessen, wobei die Fehler durch Ersetzungen, Löschungen oder Einfügungen entstehen; eine niedrigere WER bedeutet eine bessere Transkriptionsqualität.
- Die Zukunft der ASR konzentriert sich auf die geräteinterne Verarbeitung zum Schutz der Privatsphäre und die Unterstützung von Sprachen mit geringen Ressourcen.
Wann haben Sie sich das letzte Mal etwas ohne Untertitel angeschaut?
Früher waren sie optional, aber heute laufen sie bei Kurzvideos ständig mit, ob wir sie wollen oder nicht. Die Untertitel sind so in den Inhalt eingebettet, dass man sie vergisst.
Die automatische Spracherkennung (ASR) - die Fähigkeit, gesprochene Worte schnell und präzise in Text umzuwandeln - ist die Technologie, die diesen Wandel vorantreibt.
Wenn wir an einen KI-Sprachassistenten denken, denken wir an seine Wortwahl, seine Ausdrucksweise und die Stimme, mit der er spricht.
Aber man vergisst leicht, dass die Flüssigkeit unserer Interaktionen davon abhängt, dass der Bot uns versteht. Und diesen Punkt zu erreichen - dass der Bot Sie durch "um "s und "ah "s in einer lauten Umgebung versteht - war kein Spaziergang im Park.
Heute werden wir über die Technologie sprechen, die diese Untertitel ermöglicht: die automatische Spracherkennung (ASR).
Erlauben Sie mir, mich vorzustellen: Ich habe einen Master in Sprachtechnologie, und in meiner Freizeit informiere ich mich gerne über die neuesten Entwicklungen im Bereich ASR und baue sogar selbst etwas.
Ich erkläre Ihnen die Grundlagen der ASR, werfe einen Blick unter die Haube der Technologie und wage eine Prognose, wohin sich die Technologie entwickeln könnte.
Was ist ASR?
Automatische Spracherkennung (ASR) oder Sprache-zu-Text (STT) ist der Prozess der Umwandlung von Sprache in geschriebenen Text durch den Einsatz von maschineller Lerntechnologie.
Technologien, die mit Sprache zu tun haben, integrieren oft ASR in irgendeiner Form, z. B. für Videobeschriftungen, die Transkription von Kundensupport-Interaktionen zur Analyse oder als Teil einer Sprachassistenten-Interaktion.
Sprache-zu-Text-Algorithmen
Die zugrundeliegenden Technologien haben sich im Laufe der Jahre geändert, aber alle Iterationen bestanden in der einen oder anderen Form aus zwei Komponenten: Daten und einem Modell.
Im Falle von ASR handelt es sich bei den Daten um beschriftete Sprache - Audiodateien gesprochener Sprache und ihre entsprechenden Transkriptionen.
Das Modell ist der Algorithmus, der zur Vorhersage der Transkription aus den Audiodaten verwendet wird. Die markierten Daten werden verwendet, um das Modell zu trainieren, so dass es über ungesehene Sprachbeispiele verallgemeinert werden kann.

Das ist so ähnlich, wie wenn man eine Reihe von Wörtern versteht, auch wenn man sie noch nie in dieser Reihenfolge gehört hat oder sie von einem Fremden gesprochen wurden.
Auch hier haben sich die Arten von Modellen und ihre Besonderheiten im Laufe der Zeit verändert, und alle Fortschritte in Bezug auf Geschwindigkeit und Genauigkeit sind auf den Umfang und die Spezifikationen der Datensätze und Modelle zurückzuführen.
Kurzer Hinweis: Merkmalsextraktion
In meinem Artikel über Text-to-Speech habe ich über Merkmale oder Repräsentationen gesprochen. Sie werden in früheren und aktuellen ASR-Modellen verwendet.
Die Merkmalsextraktion - die Umwandlung von Sprache in Merkmale - ist der erste Schritt in so gut wie allen ASR-Pipelines.
Kurz gesagt sind diese Merkmale, oft Spektrogramme, das Ergebnis einer mathematischen Berechnung, die mit der Sprache durchgeführt wird, und sie wandeln die Sprache in ein Format um, das die Ähnlichkeiten innerhalb einer Äußerung hervorhebt und die Unterschiede zwischen den Sprechern minimiert.
Das bedeutet, dass die gleiche Äußerung, die von zwei verschiedenen Sprechern gesprochen wird, ähnliche Spektrogramme aufweist, unabhängig davon, wie unterschiedlich ihre Stimmen sind.
Ich weise Sie darauf hin, dass ich über Modelle sprechen werde, die "Transkripte aus Sprache vorhersagen". Das ist technisch gesehen nicht richtig; Modelle machen Vorhersagen anhand von Merkmalen. Aber Sie können die Komponente der Merkmalsextraktion als Teil des Modells betrachten.
Frühe ASR: HMM-GMM
Hidden-Markov-Modelle (HMMs) und Gaußsche Mischmodelle (GMMs ) sind Vorhersagemodelle aus der Zeit, bevor tiefe neuronale Netze die Oberhand gewannen.
Bis vor kurzem dominierten HMMs die ASR.
Bei einer Audiodatei würde das HMM die Dauer eines Phonems vorhersagen, und das GMM würde das Phonem selbst vorhersagen.
Das klingt rückwärtsgewandt, und das ist es auch irgendwie:
- HMM: "Die ersten 0,2 Sekunden sind ein Phonem".
- GMM: "Das Phonem ist ein G, wie in Gary."
Die Umwandlung eines Audioclips in Text würde einige zusätzliche Komponenten erfordern, nämlich
- Ein Aussprachewörterbuch: eine erschöpfende Liste der im Wortschatz enthaltenen Wörter mit ihrer entsprechenden Aussprache.
- Ein Sprachmodell: Kombinationen von Wörtern aus dem Wortschatz und deren Wahrscheinlichkeit des gemeinsamen Auftretens.
Selbst wenn das GMM also /f/ gegenüber /s/ vorhersagt, weiß das Sprachmodell, dass es viel wahrscheinlicher ist, dass der Sprecher "einen Penny für deine Gedanken" gesagt hat und nicht foughts.
Wir hatten all diese Teile, denn, um es ganz offen zu sagen, kein Teil dieser Pipeline war außergewöhnlich gut.
Das HMM würde Ausrichtungen falsch vorhersagen, das GMM würde ähnliche Laute verwechseln: /s/ und /f/, /p/ und /t/, und von den Vokalen will ich gar nicht erst anfangen.
Und dann würde das Sprachmodell das Durcheinander der inkohärenten Phoneme in etwas Sprachähnlicheres umwandeln.
End-to-End ASR mit Deep Learning
Viele Teile einer ASR-Pipeline sind inzwischen konsolidiert worden.

Anstatt separate Modelle für Rechtschreibung, Ausrichtung und Aussprache zu trainieren, nimmt ein einziges Modell die Sprache auf und gibt (hoffentlich) korrekt geschriebene Wörter und heutzutage auch Zeitstempel aus.
(Obwohl Implementierungen diese Ausgabe oft korrigieren oder mit einem zusätzlichen Sprachmodell "neu bewerten").
Das soll nicht heißen, dass andere Faktoren - wie Ausrichtung und Rechtschreibung - keine besondere Aufmerksamkeit erhalten. Es gibt nach wie vor Berge von Literatur, die sich mit der Behebung ganz bestimmter Probleme befasst.
Das heißt, die Forscher finden Wege, die Architektur eines Modells zu verändern, um bestimmte Faktoren seiner Leistung zu verbessern:
- Ein RNN-Transducer-Dekoder, der auf früheren Ausgaben basiert, um die Rechtschreibung zu verbessern.
- Convolutional Downsampling zur Begrenzung von Leerstellen und Verbesserung der Ausrichtung.
Ich weiß, dass das Unsinn ist. Ich will nur meinem Chef zuvorkommen, der fragt: "Können Sie ein einfaches Beispiel nennen?"
Die Antwort ist nein.
Nein, das kann ich nicht.
Wie wird die Leistung in ASR gemessen?
Wenn ASR schlechte Arbeit leistet, wissen Sie das.
Ich habe gesehen, wie Karamellisierung als kommunistische Asiaten umschrieben wurde. Knusprigkeit an Chris p - Sie verstehen schon.
Die Metrik, die wir verwenden, um Fehler mathematisch zu erfassen, ist die Wortfehlerrate (WER). Die Formel für WER lautet:

Wo:
- S ist die Anzahl der Substitutionen (Wörter, die im vorhergesagten Text geändert wurden, um mit dem Referenztext übereinzustimmen)
- D ist die Anzahl der Streichungen (Wörter, die in der Ausgabe im Vergleich zum Referenztext fehlen)
- I ist die Anzahl der Einschübe (zusätzliche Wörter in der Ausgabe, verglichen mit dem Referenztext)
- N ist die Gesamtzahl der Wörter in der Referenz
Sagen wir also, die Referenz ist "die Katze saß".
- Wenn das Modell "die Katze ist gesunken" ausgibt, ist das eine Substitution.
- Wenn das Modell "cat sat" ausgibt, ist das eine Löschung.
- Wenn er ausgibt "die Katze hat gesessen", ist das ein Einschub.
Was sind die Anwendungen von ASR?
ASR ist ein nützliches Werkzeug.
Sie hat uns auch geholfen, unsere Lebensqualität zu verbessern, indem sie die Sicherheit, Zugänglichkeit und Effizienz in wichtigen Branchen erhöht hat.
Gesundheitswesen
Wenn ich Ärzten erzähle, dass ich mich mit Spracherkennung beschäftige, sagen sie "Oh, wie Dragon".
Bevor es generative KI im Gesundheitswesen gab, machten Ärzte mündliche Notizen mit 30 Wörtern pro Minute und einem begrenzten Wortschatz.
Die ASR hat sich als äußerst erfolgreich erwiesen, wenn es darum geht, das weit verbreitete Burnout bei Ärzten einzudämmen.
Ärzte müssen Berge von Papierkram mit der Notwendigkeit, sich um ihre Patienten zu kümmern, in Einklang bringen. Bereits 2018 plädierten Forscher für den Einsatz der digitalen Transkription in Konsultationen, um die Fähigkeit der Ärzte zu verbessern, ihre Patienten zu versorgen.
Das liegt daran, dass die nachträgliche Dokumentation von Konsultationen nicht nur die persönliche Zeit mit den Patienten beeinträchtigt, sondern auch wesentlich ungenauer ist als Zusammenfassungen von Transkriptionen der tatsächlichen Konsultationen.
Intelligente Häuser
Ich habe diesen Witz, den ich mache.
Wenn ich das Licht ausschalten will, aber keine Lust habe, aufzustehen, klatsche ich zweimal kurz hintereinander - als hätte ich einen Klöppel.
Mein Partner lacht nie.
Sprachgesteuerte Smart-Homes wirken futuristisch und gleichzeitig beschämend nachsichtig. Zumindest scheint es so.
Sicher, sie sind praktisch, aber in vielen Fällen ermöglichen sie Dinge, die sonst nicht möglich wären.
Ein gutes Beispiel dafür ist der Energieverbrauch: Geringfügige Änderungen an der Beleuchtung und dem Thermostat wären den ganzen Tag über nicht möglich, wenn man aufstehen und an einem Regler herumspielen müsste.
Durch die Sprachaktivierung sind diese kleinen Änderungen nicht nur einfacher zu bewerkstelligen, sondern es werden auch die Nuancen der menschlichen Sprache erkannt.
Sie sagen zum Beispiel: "Kannst du es etwas kühler machen?" Der Assistent nutzt die Verarbeitung natürlicher Sprache, um Ihre Anfrage in eine Temperaturänderung zu übersetzen. Dabei berücksichtigt er eine ganze Reihe anderer Daten: die aktuelle Temperatur, die Wettervorhersage, die Daten zur Thermostatnutzung anderer Nutzer usw.
Sie übernehmen den menschlichen Teil und überlassen den computertechnischen Teil dem Computer.
Ich würde sagen, das ist viel einfacher, als wenn Sie nach Gefühl schätzen müssten, um wie viel Grad Sie die Heizung herunterdrehen müssen.
Und sie ist energieeffizienter: Es gibt Berichte über Familien, die mit sprachgesteuerter intelligenter Beleuchtung den Energieverbrauch um 80 % senken, um nur ein Beispiel zu nennen.
Kundenbetreuung
Wir haben darüber im Zusammenhang mit der Gesundheitsfürsorge gesprochen, aber das Transkribieren und Zusammenfassen ist viel effektiver als das nachträgliche Zusammenfassen von Interaktionen.
Auch das spart Zeit und ist präziser. Wir lernen immer wieder, dass Automatisierungen den Menschen Zeit verschaffen, damit sie ihre Arbeit besser machen können.
Und nirgendwo trifft das mehr zu als im Kundensupport, wo ASR-gestützter Kundensupport eine um 25 % höhere Lösungsquote beim ersten Anruf aufweist.
Die Transkription und Zusammenfassung hilft dabei, den Prozess der Lösungsfindung auf der Grundlage des Gefühls und der Anfrage eines Kunden zu automatisieren.
In-Car-Assistenten
Wir nehmen hier die Assistenten aus dem eigenen Land in Schutz, aber es ist eine Erwähnung wert.
Die Spracherkennung verringert die kognitive Belastung und die visuelle Ablenkung der Fahrer.
Und da bis zu 30 % der Kollisionen auf Ablenkung zurückzuführen sind, ist die Einführung dieser Technologie ein Muss für die Sicherheit.
Sprachpathologie
Die ASR wird seit langem als Instrument zur Beurteilung und Behandlung von Sprachpathologien eingesetzt.
Es ist hilfreich, sich daran zu erinnern, dass Maschinen nicht nur Aufgaben automatisieren, sondern auch Dinge tun, die Menschen nicht tun können.
Die Spracherkennung kann Feinheiten in der Sprache erkennen, die für das menschliche Ohr kaum wahrnehmbar sind, und Besonderheiten der betroffenen Sprache erfassen, die sonst unter dem Radar verschwinden würden.
Die Zukunft der ASR
STT ist so gut geworden, dass wir nicht mehr darüber nachdenken.
Aber hinter den Kulissen arbeiten die Forscher hart daran, sie noch leistungsfähiger und zugänglicher zu machen - und unauffälliger.
Ich habe einige aufregende Trends herausgesucht, die die Fortschritte in der ASR nutzen, und einige meiner eigenen Gedanken mit einfließen lassen.
On-Device-Spracherkennung
Die meisten ASR-Lösungen laufen in der Cloud. Ich bin sicher, Sie haben das schon einmal gehört. Das bedeutet, dass das Modell auf einem entfernten Computer läuft, irgendwo anders.
Sie tun dies, weil der kleine Prozessor Ihres Telefons nicht unbedingt das riesige Modell ausführen kann, sonst würde es ewig dauern, etwas zu transkribieren.
Stattdessen wird Ihr Audiomaterial über das Internet an einen entfernten Server gesendet, auf dem eine GPU läuft, die viel zu schwer ist, um sie in der Tasche zu tragen. Die GPU führt das ASR-Modell aus und sendet die Transkription an Ihr Gerät.

Aus Gründen der Energieeffizienz und der Sicherheit (nicht jeder möchte, dass seine persönlichen Daten im Cyberspace herumfliegen) wurde viel Forschung in die Entwicklung von Modellen gesteckt, die kompakt genug sind, um direkt auf Ihrem Gerät zu laufen, sei es ein Telefon, ein Computer oder eine Browser-Engine.
Meine Wenigkeit hat eine Dissertation über die Quantisierung von ASR-Modellen geschrieben, damit sie auf dem Gerät laufen können. Picovoice ist ein kanadisches Unternehmen, das Sprach-KI mit niedriger Latenz auf dem Gerät entwickelt, und sie scheinen cool zu sein.
Die geräteinterne ASR macht die Transkription zu geringeren Kosten verfügbar und hat das Potenzial, auch einkommensschwache Gemeinden zu bedienen.
Transcript-First UI
Die Kluft zwischen Audio und Transkription wird immer kleiner. Was bedeutet das?
Mit Videobearbeitungsprogrammen wie Premiere Pro und Descript können Sie in Ihren Aufnahmen durch ein Transkript navigieren: Klicken Sie auf ein Wort und Sie gelangen zum Zeitstempel.
Sie mussten mehrere Aufnahmen machen? Wählen Sie Ihren Favoriten aus und löschen Sie die anderen, wie in einem Textverarbeitungsprogramm. Das Video wird automatisch für Sie zurechtgeschnitten.
Es ist sehr frustrierend, diese Art der Bearbeitung nur mit einer Wellenform durchzuführen, aber verdammt einfach, wenn man transkriptbasierte Editoren hat.
In ähnlicher Weise transkribieren Messaging-Dienste wie WhatsApp Ihre Sprachnotizen und ermöglichen es Ihnen, sie über den Text zu lesen. Streichen Sie mit dem Finger über ein Wort, und Sie gelangen zu dem entsprechenden Teil der Aufnahme.

Lustige Geschichte: Ich habe etwas Ähnliches etwa eine Woche vor der Ankündigung einer ähnlichen Funktion durch Apple gebaut.
Diese Beispiele zeigen, wie komplexe "Under-the-Hood"-Technologien die Anwendungen für den Endbenutzer einfacher und intuitiver machen.
Gleichberechtigung, Eingliederung und ressourcenschwache Sprachen
Die Schlacht ist noch nicht gewonnen.
ASR funktioniert hervorragend im Englischen und in anderen gängigen, gut ausgestatteten Sprachen. Das ist bei Sprachen mit geringen Ressourcen nicht unbedingt der Fall.
Es gibt eine Lücke bei dialektalen Minderheiten, betroffener Sprache und anderen Fragen der Gleichberechtigung in der Sprachtechnologie.
Entschuldigung, dass ich die gute Stimmung störe. Dieser Abschnitt nennt sich die "Zukunft" der ASR. Und ich möchte mich auf eine Zukunft freuen, auf die wir stolz sein können.
Wenn wir vorankommen wollen, sollten wir es gemeinsam tun, oder wir riskieren, dass die gesellschaftliche Ungleichheit zunimmt.
Beginnen Sie noch heute mit ASR
Unabhängig von Ihrem Unternehmen ist der Einsatz von ASR ein Kinderspiel - nur fragen Sie sich wahrscheinlich, wie Sie anfangen sollen. Wie implementieren Sie ASR? Wie geben Sie diese Daten an andere Tools weiter?
Botpress wird mit einfach zu verwendenden Transkriptionskarten geliefert. Sie können in einen Drag-and-Drop-Flow integriert werden, der durch Dutzende von Integrationen in Anwendungen und Kommunikationskanälen ergänzt wird.
Beginnen Sie noch heute mit dem Bau. Es ist kostenlos.
FAQs
Wie genau ist die moderne ASR für verschiedene Akzente und laute Umgebungen?
Moderne ASR-Systeme sind bei gängigen Akzenten in den wichtigsten Sprachen beeindruckend genau und erreichen unter sauberen Bedingungen Wortfehlerraten (WER) von unter 10 %, aber die Genauigkeit nimmt bei starken Akzenten, Dialekten oder erheblichen Hintergrundgeräuschen merklich ab. Anbieter wie Google und Microsoft trainieren ihre Modelle mit verschiedenen Sprachdaten, aber die perfekte Transkription in lauten Umgebungen bleibt eine Herausforderung.
Ist ASR zuverlässig bei der Transkription von Fachjargon oder branchenspezifischen Begriffen?
ASR ist bei Fachjargon oder branchenspezifischen Begriffen weniger zuverlässig, da die Trainingsdaten in der Regel eher allgemeinsprachlich sind; unbekannte Wörter können falsch umgeschrieben oder ausgelassen werden. Unternehmenslösungen ermöglichen jedoch benutzerdefinierte Vokabulare, domänenspezifische Sprachmodelle und Aussprachewörterbücher, um die Erkennung von Fachbegriffen in Bereichen wie Gesundheitswesen, Recht oder Technik zu verbessern.
Was ist der Unterschied zwischen kostenlosen ASR-Tools und Lösungen für Unternehmen?
Der Unterschied zwischen kostenlosen ASR-Tools und Unternehmenslösungen liegt in der Genauigkeit, der Skalierbarkeit, der Anpassung und den Datenschutzkontrollen: Kostenlose Tools haben oft höhere Fehlerraten, eine begrenzte Sprachunterstützung und Nutzungsbeschränkungen, während Unternehmenslösungen einen niedrigeren WER, eine domänenspezifische Anpassung, Integrationen, Service-Level-Agreements (SLAs) und robuste Sicherheitsfunktionen für die Verarbeitung sensibler Daten bieten.
Wie schützt ASR die Privatsphäre der Nutzer und sensible Informationen während der Transkription?
ASR schützt die Privatsphäre der Nutzer durch Verschlüsselung während der Datenübertragung und bietet Optionen wie die Ausführung von Modellen auf dem Gerät, um das Senden von Sprachdaten an externe Server zu vermeiden. Viele Unternehmensanbieter erfüllen auch Datenschutzbestimmungen wie GDPR oder HIPAA und können Daten anonymisieren, um sensible Informationen zu schützen.
Wie teuer sind Cloud-basierte ASR-Dienste im Vergleich zu geräteinternen Lösungen?
Cloud-basierte ASR-Dienste werden in der Regel pro Audiominute oder nach Nutzungsstufen abgerechnet, wobei die Kosten je nach Genauigkeit und Funktionen zwischen 0,03 und 1,00 US-Dollar pro Minute liegen, während bei gerätebasierten Lösungen Entwicklungs- und Lizenzkosten anfallen.