- Text-to-Speech (TTS) wandelt Text in lebensechte Sprache um, wobei neuronale Netze für eine natürliche Prosodie und Sprachqualität sorgen.
- TTS-Pipelines verarbeiten Text, analysieren Linguistik, erzeugen Spektrogramme und synthetisieren Audio mit Vocodern.
- TTS ist die Grundlage für Chatbots, Navigationssysteme, Unterhaltung, Gesundheitsfürsorge und integrative Bildung.
- Qualitativ hochwertiges TTS verbessert die Klarheit, die Markensprache, die Zugänglichkeit und das Vertrauen der Nutzer in allen Branchen.
Der niederländische ChatGPT spricht (manchmal)mit einem deutschen Akzent. Wenn es absichtlich ist, ist es gemein. Wenn nicht, dann ist es faszinierend.
So oder so, man kann mit Sicherheit sagen, dass KI-Sprachassistenten seit Microsofts Sam einen weiten Weg zurückgelegt haben. Seit ich vor einigen Jahren Sprachtechnologie studiert habe, sind sie sogar ziemlich weit gekommen.
Und ich bin hier, um Ihnen zu sagen, wo wir gelandet sind.
Spätestens seit 1968, seit dem Erscheinen des Roboters HAL in 2001: Odyssee im Weltraum, haben wir die synthetische Sprache zum Mythos erhoben.

Das ist nicht mehr prestigeträchtig und futuristisch, sondern inzwischen Standard: 89 % der Verbraucher machen die Wahl ihres Geräts davon abhängig, ob es über Sprachunterstützung verfügt oder nicht.
Mit anderen Worten: "Helfen Sie mir nicht nur, sondern reden Sie mit mir".
In diesem Artikel gehe ich auf Text-to-Speech ein - die Umwandlung von Text in gesprochenes Audio. Ich werde darüber sprechen, was unter der Haube vor sich geht und wie diese Technologie in verschiedenen Branchen eingesetzt wird.
Was ist Text-to-Speech?
TTS ist der Prozess der Umwandlung von Text in synthetisch gesprochenes Audio. Frühe Versionen basierten auf der mechanischen Annäherung an den menschlichen Vokaltrakt und dem Zusammenfügen von Audioaufnahmen. Heutzutage verwenden TTS-Systeme tiefe neuronale Netzwerkalgorithmen, um dynamische, menschenähnliche Äußerungen zu liefern.
Je nach Anwendungsfall gibt es verschiedene Modelle, z. B. die Echtzeitgenerierung für Gesprächsmodelle, kontrollierbare Mimik und die Fähigkeit, eine Stimme zu replizieren.
Wie funktioniert Text-to-Speech?
TTS besteht aus drei Hauptschritten: Zunächst wird der eingegebene Text verarbeitet, um Symbole, Ausdrücke und Abkürzungen zu buchstabieren. Der verarbeitete Text wird dann durch neuronale Netze geleitet, die ihn in eine akustische Darstellung (Spektrogramm) umwandeln. Schließlich wird die Darstellung in Sprache umgewandelt.
Wie ich bereits erwähnt habe, haben Forscher eine Reihe von Ansätzen für TTS entwickelt. Derjenige, bei dem wir gelandet sind (und bei dem wir wohl auch noch eine Weile bleiben werden), ist die Sprachsynthese auf der Grundlage neuronaler Netze.
Die Modellierung der verschiedenen sprachlichen Phänomene, die eine Äußerung beeinflussen - Aussprache, Geschwindigkeit, Intonation - ist eine komplexe Aufgabe.

Selbst mit den quasi magischen Black-Box-Fähigkeiten neuronaler Netze ist ein TTS-System auf eine Reihe von Komponenten angewiesen, um Sprache zu approximieren.
Es ist schwierig, eine genaue Pipeline festzulegen; neue Technologien tauchen von links nach rechts auf und drohen ihre Vorgänger überflüssig zu machen.
Es gibt ein paar allgemeine Komponenten, die in den meisten TTS-Systemen in der einen oder anderen Form vorhanden sind.
1. Textverarbeitung
Die Textverarbeitung ist der Schritt, bei dem das TTS-System bestimmt, welche Wörter gesprochen werden. Abkürzungen, Datumsangaben und Währungssymbole werden buchstabiert, und Satzzeichen werden entfernt.
Das ist nicht immer trivial. Bedeutet "Dr." Arzt oder Fahrer? Wie steht es mit CAD? Kanadischer Dollar oder computergestütztes Design?
Die Verarbeitung natürlicher Sprache(Natural Language Processing, NLP) kann bei der Textverarbeitung eingesetzt werden, um die richtige Interpretation auf der Grundlage des umgebenden Kontexts vorherzusagen. Sie bewertet, wie der mehrdeutige Begriff (z. B. "Dr.") in den Satz als Ganzes passt. In der Formulierung "Dr. Perron riet davon ab" würde NLP also "Dr." in "Doktor" auflösen.
2. Linguistische Analyse
Sobald der Text verarbeitet ist, verschiebt sich das Modell von "Was soll ich sagen?" zu "Wie soll ich es sagen?".
Die linguistische Analyse ist der Teil von TTS, der dafür verantwortlich ist, zu interpretieren, wie ein Satz in Bezug auf Tonhöhe, Klang und Dauer vorgetragen werden sollte. Mit anderen Worten:
- Wie lang sollte jeder Laut, jede Silbe oder jedes Wort sein?
- Soll die Intonation steigen? Fallen?
- Welches Wort wird hervorgehoben?
- Wie kann die Veränderung der Lautstärke die beabsichtigte Emotion widerspiegeln?
Warum Prosodie wichtig ist
Zeit für eine Geschichte: Ich hatte einen kurzen Auftrag als Berater für ein Team, das TTS-Modelle entwickelt. Dabei wurde mir klar, wie sehr die Prosodie die Verständlichkeit eines Satzes bestimmt oder zerstört. Ich werde Ihnen zeigen, was ich meine.
Es folgen 3 Übertragungen des Satzes "Wow, hast du das erwartet?"
Die erste ist großartig. Die Pause nach "Whoa", der aufwärts gerichtete Tonfall auf der zweiten Silbe von "expecting" (ex-PEC-ting). 10/10.
Das zweite Wort fängt die Fragequalität gerade noch ein, indem es beim letzten Wort nach oben gebeugt wird ("... in Erwartung von DAS"). Ansonsten sind die restlichen Silben mehr oder weniger gleich lang und weisen keine Unterschiede in der Lautstärke oder Tonhöhe auf. Ich würde meinen Kunden sagen, sie sollen sich ans Reißbrett setzen.
Der letzte ist ein interessanter Fall: Das "whoah" ist großartig - laut, lang und mit einer fallenden Kontur. Der ansteigende Tonfall der Frage erfolgt im Verlauf von "were you" und hält im Grunde eine gleichbleibende Tonhöhe.
Das ist der Punkt, an dem viele mittelmäßige TTS-Systeme aufhören: einfach genug mit einer plausiblen Darstellung. Das Problem ist, dass es nicht so ist, wie man es sagen würde - zumindest nicht in den meisten Kontexten.
In älteren Systemen wurden diese Eigenschaften von separaten Komponenten vorhergesagt: Ein Modell berechnete, wie lange jeder Ton dauern sollte, ein anderes, wie die Tonhöhe steigen und fallen sollte.
Heutzutage sind die Dinge unschärfer.
Neuronale Netze neigen dazu, diese Muster selbst zu erlernen, indem sie die feinen Feinheiten riesiger Trainingsdatensätze verinnerlichen.
3. Akustische Modellierung
Bei der akustischen Modellierung wird der normalisierte Text (und ggf. die vorhergesagten linguistischen Merkmale) durch ein neuronales Netz geleitet, das eine Zwischendarstellung ausgibt.
Spektrogramme und Sprachdarstellungen
Die Zwischendarstellung ist in der Regel ein Spektrogramm - die Frequenz-Zeit-Darstellung eines Audiosignals - aber das ändert sich.
Hier ist die Darstellung, die ein TTS-Modell aus unserem Eingabetext "Wow, hast du das erwartet?" erzeugt:

Dieses zweidimensionale Bild besteht aus 146 vertikalen Schnitten, die jeweils 80 Frequenzen enthalten. Die stärkeren Frequenzen sind heller, die schwächeren sind dunkel.
So sieht der 10. Zeitschritt (oder die Spalte) aus, um 90 Grad nach rechts gedreht:

Sie können die einzelnen Frequenzen und ihre Energien sehen.
Auf den ersten Blick sieht das Spektrogramm nicht nach viel aus, aber es gibt einige klare linguistische Phänomene:
- Diese Wellen mit klar definierten Linien sind Vokale oder vokalähnliche Laute wie /w/, /r/ und /l/.
- Dunkle Flecken stehen für Stille. Das könnten Pausen zur Interpunktion sein.
- Energieklumpen in der Höhe stellen Geräusche dar, wie das Geräusch, das man in /s/, /sh/ und /f/ hört.
Wenn Sie genau hinschauen, können Sie die Wörter sogar im Spektrogramm ausmachen.

Spektrogramme in ihren verschiedenen Formen sind in der Sprachtechnologie weit verbreitet, da sie ein sehr gutes Bindeglied zwischen Rohsprache und Text darstellen.
Zwei Aufnahmen desselben Satzes, der von verschiedenen Sprechern gesprochen wird, haben sehr unterschiedliche Wellenformen, aber sehr ähnliche Spektrogramme.
4. Audio-Synthese (Vocoding)
In der Synthesestufe wird das Spektrogramm in Audio umgewandelt.
Die Technologie, die diese Umwandlung vornimmt, wird Vocoder genannt. Es handelt sich um neuronale Netzwerkmodelle, die darauf trainiert sind, Sprachsignale auf der Grundlage ihrer Spektrogrammdarstellungen zu rekonstruieren.
Der Grund für die Aufteilung der Repräsentation und der Sprachsignalmodellierung in getrennte Module liegt in der Kontrolle: Im ersten Modul geht es um die genaue Modellierung der Aussprache und des Vortrags von Wörtern, im zweiten um den Stil und die Realitätsnähe des Vortrags.
Mit einem Spektrogramm können wir zwischen /s/ und /sh/ oder /ee/ (wie in heat) und /ih/ (wie in hit) unterscheiden, aber der Stil und die Persönlichkeit entstehen durch die feinen Details, die der Vocoder erzeugt.
Hier ist ein Vergleich von Kombinationen zwischen verschiedenen akustischen Modellen und Vocodern. Er veranschaulicht, wie Forscher akustische Modelle und Vocoder kombinieren und für das beste Gesamtergebnis optimieren.
Aber auch hier gilt, wie bei allen anderen Komponenten, dass die Spektrogramme zugunsten von All-in-One-Modellen auslaufen.
Was sind die Anwendungsfälle von TTS?
Die Fähigkeit, dynamisch gesprochene Sprache zu erzeugen, ist in allen Branchen ein wichtiges Instrument.
Es geht nicht nur um ausgeklügelte Roboterdiener - sie helfen uns, Effizienz, Zugänglichkeit und Sicherheit zu erreichen.
Chatbots und Sprachassistenten
Du wusstest, dass ich es sagen würde 😉
Zwischen dem Verstehen Ihrer Befehle, dem Aktualisieren Ihrer Einkaufslisten und dem Festlegen von Terminen ist es leicht, die Raffinesse - und die Bedeutung - der synthetisierten Sprache in KI-Agenten als selbstverständlich anzusehen.
Ein guter (d. h. ein brauchbarer ) Agent muss eine Stimme haben, die zu ihm passt: einladend genug, um Befehle zu erfragen, und menschlich genug, um dem Benutzer zu vermitteln, dass er sie ausführen kann.
Es bedarf einer Menge Forschung und Technik, um die Nutzer in dem Bruchteil einer Sekunde zu überzeugen, der nötig ist, um zu entscheiden, ob ein KI-Assistent "richtig" klingt oder nicht.
Auf der geschäftlichen Seite der Dinge: Ihr Chatbot repräsentiert Ihre Marke. Verbesserungen in der TTS-Technologie bedeuten Optionen für ein besseres Voice Branding und einen effektiveren Kundenservice.
Schifffahrt und Verkehr
Nichts macht Ihnen die Bedeutung eines guten TTS so deutlich wie eine unverständliche Falschaussprache eines Straßennamens durch Ihr GPS während der Fahrt.
Die GPS-Navigation ist ein hervorragendes Beispiel dafür, wie TTS funktioniert: Unsere Augen sind beschäftigt, und die Bereitstellung akustischer Informationen ist nicht nur bequem, sondern auch sicherheitsrelevant.
Dies gilt auch für Flughäfen und öffentliche Verkehrssysteme. Für kompliziert gestaltete Systeme mit hohem Verkehrsaufkommen wie Bahnhöfe und Flughafenterminals ist synthetische Sprache von entscheidender Bedeutung.
Ohne TTS sind wir auf Live-Durchsagen angewiesen, die oft hastig und unverständlich sind, oder auf zusammengestückelte Aufnahmen von Namen, Terminals, Zeiten usw., die offen gesagt schwer zu verstehen sind.
Studien haben gezeigt, dass ein enger Zusammenhang zwischen Natürlichkeit und Verständlichkeit besteht, so dass ein hochwertiges TTS ein Muss für eine robuste Transportindustrie ist.
Unterhaltung und Medien
Mit der Verbesserung der synthetischen Sprachtechnologie sind Sprecher und mehrsprachige Medien besser verfügbar geworden.
Die Sprachtechnologie ersetzt nicht das Talent, sondern unterstützt die dramatischen Darbietungen.
Val Kilmer, der seine Stimme durch Kehlkopfkrebs verloren hatte, lieferte mit seiner Originalstimme eine herzergreifende Vorstellung in Top Gun: Maverick (2022) dank der künstlichen Intelligenz.
TTS ermöglicht es Spieleentwicklern auch, nicht spielbaren Charakteren (NPCs) vielfältige, ausdrucksstarke Äußerungen zu verleihen, was sonst nicht möglich wäre.
Gesundheitswesen
Verbesserungen bei TTS bedeuten eine Verbesserung der Zugänglichkeit in allen Bereichen.
Technologien für die Altenpflege bieten gleichzeitig Begleitung und Unterstützung. Diese Technologie stützt sich auf die Anpassungsfähigkeit, die TTS bietet: einfühlsame Töne, variable Geschwindigkeiten und eine sorgfältige Intonation sind Teil einer wirksamen und würdevollen Unterstützung.
TTS wird auch eingesetzt, um die Zugänglichkeit für jüngere Menschen zu verbessern.
Acapela Group entwickelt u.a. Technologien für Kinder mit Sprachproduktionsstörungen. Synthetische Sprache verbessert ihre Ausdrucksfähigkeit und Unabhängigkeit, während ihre stimmlichen Eigenschaften erhalten bleiben.
Bildung und inklusives Lernen
Wir haben synthetische Sprache in Sprachlern-Apps kennengelernt. Aber das ist nur die Spitze des Eisbergs.
Eine Einstiegshürde für selbständiges Lernen ist zum Beispiel die Fähigkeit zu lesen. Für Kinder, Menschen mit Sehbehinderungen und bestimmten Lernschwächen ist das nicht unbedingt möglich. Dies stellt eine große Belastung für überlastete Lehrer in überfüllten Klassenzimmern dar.
Ein Schulbezirk in Kalifornien hat TTS eingeführt, um ein integrativeres Lernumfeld für Schüler mit besonderen Bedürfnissen zu schaffen.
Ähnlich wie bei der Pflege älterer Menschen ist die Bildungstechnologie auf mitfühlende Stimmen angewiesen, die mit unverfälschter Klarheit und Nachdruck vortragen. Veränderbare Parameter ermöglichen es Lehrkräften, diese Technologien in ihren Unterricht zu integrieren, damit sich die Schüler besser einbezogen fühlen.
Holen Sie sich das beste TTS für Ihre Bedürfnisse
Unabhängig von Ihrer Branche kann man mit Sicherheit sagen, dass Sprach-KI relevant ist. Und die TTS, die Sie implementieren, spricht buchstäblich für Ihr Unternehmen, daher muss sie zuverlässig und anpassbar sein.
Mit Botpress können Sie leistungsstarke, hochgradig anpassbare Bots mit einer Reihe von Integrationen und Einsatzmöglichkeiten für alle gängigen Kommunikationskanäle erstellen. Ihr Sprachagent wird nicht nur beeindrucken, sondern auch funktionieren.
Beginnen Sie noch heute mit dem Bau. Es ist kostenlos.
FAQs
Gibt es Sprachen oder Dialekte, die TTS-Systeme nur schwer unterstützen können?
Ja, es gibt Sprachen und Dialekte, die von TTS-Systemen nur schwer unterstützt werden können, vor allem ressourcenarme Sprachen, für die es keine großen Datensätze mit aufgezeichneter Sprache und Text gibt. Variationen wie regionale Dialekte, tonale Sprachen und indigene Sprachen stellen oft eine Herausforderung dar, weil sie nuancierte Ausspracheregeln und Prosodie erfordern, für die Standardmodelle nicht trainiert wurden. Selbst bei weit verbreiteten Sprachen können dialektale Unterschiede zu falscher Aussprache oder unnatürlich klingender Sprache führen.
Wie anpassbar sind TTS-Stimmen in Bezug auf Tonhöhe, Geschwindigkeit und Emotionen?
TTS-Stimmen sind heute dank moderner neuronaler Netzwerkarchitekturen, die eine feinkörnige Steuerung von Prosodie und Stil ermöglichen, in Tonhöhe, Geschwindigkeit und Emotion in hohem Maße anpassbar. Bei vielen kommerziellen TTS-Systemen können die Benutzer die Sprechgeschwindigkeit, die Intonationsmuster, die Lautstärke und den ausdrucksstarken Tonfall an verschiedene Kontexte anpassen, z. B. für ruhige Erzählungen, aufgeregte Ankündigungen oder einfühlsame Dialoge. Der Grad der Kontrolle variiert jedoch von Anbieter zu Anbieter - einige bieten nur einfache Schieberegler für Geschwindigkeit und Tonhöhe, während andere detaillierte Parameter für den emotionalen Ausdruck und die Klangfarbe der Stimme bereitstellen.
Wie sicher sind die von TTS-Systemen verarbeiteten Sprachdaten?
Die Sicherheit der von TTS-Systemen verarbeiteten Sprachdaten hängt stark vom Anbieter und der Bereitstellungsmethode ab. Cloud-basierte TTS-Dienste verschlüsseln die Daten in der Regel während der Übertragung und im Ruhezustand, aber das Senden sensibler Informationen an externe Server kann immer noch Datenschutzrisiken bergen, wenn keine angemessenen Vereinbarungen und Compliance-Maßnahmen wie GDPR oder HIPAA vorhanden sind. Vor-Ort- oder Edge-Bereitstellungen bieten eine höhere Sicherheit, da Audio- und Textdaten die Infrastruktur des Unternehmens nicht verlassen und somit weniger Angriffsfläche für Dritte bieten.
Wie teuer ist es, hochwertige TTS-Lösungen für Unternehmen zu implementieren?
Die Implementierung hochwertiger TTS-Lösungen für Unternehmen kann von einigen Hundert dollars pro Monat für Cloud-basierte APIs mit mäßiger Nutzung bis hin zu Zehn- oder Hunderttausenden für die Entwicklung individueller Sprachlösungen oder den Einsatz in Unternehmen vor Ort reichen. Zu den Kosten gehören in der Regel Lizenzgebühren, Kosten für die Nutzung pro Zeichen oder pro Minute, Integrations- und Entwicklungsaufwand und möglicherweise Honorare für Sprecher, wenn eine eigene Stimme erstellt wird. Kleine Unternehmen beginnen oft mit abonnementbasierten Diensten, während größere Unternehmen aus Gründen der Markenkonsistenz und des Datenschutzes möglicherweise in maßgeschneiderte Lösungen investieren.
Wie viele Trainingsdaten sind nötig, um eine hochwertige TTS-Stimme zu erstellen?
Die Erstellung einer qualitativ hochwertigen TTS-Stimme erfordert in der Regel mehrere Stunden bis Dutzende von Stunden sauberer, professionell aufgezeichneter Sprache, idealerweise von demselben Sprecher und unter gleichbleibenden Aufnahmebedingungen. Moderne neuronale TTS-Systeme wie Tacotron oder FastSpeech können bereits mit 2 bis 5 Stunden Daten eine annehmbare Qualität erreichen, aber für sehr natürliche, ausdrucksstarke und robuste Stimmen sind oft 10 bis 20 Stunden oder mehr erforderlich. Für das Klonen von Stimmen oder sehr ausdrucksstarke Stimmen werden sogar noch größere Datensätze und vielfältige Aufnahmen benötigt, die verschiedene Stile, Emotionen und Kontexte abdecken.