- L'ASR transforme la parole en texte grâce à l'apprentissage automatique, ce qui permet des commandes vocales et une transcription en temps réel.
- Les systèmes modernes d'ASR sont passés de modèles de phonèmes séparés (HMM-GMM) à des modèles d'apprentissage profond qui prédisent des mots entiers.
- La performance de la RPA est mesurée par le taux d'erreur sur les mots (WER), les erreurs provenant de substitutions, de suppressions ou d'insertions ; un WER plus faible = une meilleure qualité de transcription.
- L'avenir de la RAS est axé sur le traitement sur l'appareil pour la protection de la vie privée et la prise en charge des langues à faibles ressources.
À quand remonte la dernière fois que vous avez regardé quelque chose sans sous-titres ?
Auparavant, les sous-titres étaient facultatifs, mais aujourd'hui, ils sont omniprésents dans les vidéos de courte durée, qu'on le veuille ou non. Les sous-titres sont tellement intégrés au contenu qu'on les oublie.
La reconnaissance automatique de la parole (ASR) - la capacité d'automatiser rapidement et avec précision la conversion des mots prononcés en texte - est la technologie à l'origine de cette évolution.
Lorsque nous pensons à un agent vocal d'IA, nous pensons à son choix de mots, à son débit et à la voix qu'il utilise.
Mais il est facile d'oublier que la fluidité de nos interactions dépend de la capacité du robot à nous comprendre. Et arriver à ce stade - le robot qui vous comprend par des "hum" et des "ah" dans un environnement bruyant - n'a pas été une promenade de santé.
Aujourd'hui, nous allons parler de la technologie qui alimente ces sous-titres : la reconnaissance automatique de la parole (ASR).
Permettez-moi de me présenter : Je suis titulaire d'une maîtrise en technologie vocale et, pendant mon temps libre, j'aime me documenter sur les dernières nouveautés en matière de RPA, et même construire des choses.
Je vous expliquerai les bases de la RBA, je jetterai un coup d'œil sous le capot de la technologie et j'émettrai une hypothèse sur l'évolution future de la technologie.
Qu'est-ce que l'ASR ?
La reconnaissance automatique de la parole (ASR), ou speech-to-text (STT), est le processus de conversion de la parole en texte écrit grâce à l'utilisation d'une technologie d'apprentissage automatique.
Les technologies qui font appel à la parole intègrent souvent la RPA d'une manière ou d'une autre, que ce soit pour le sous-titrage vidéo, la transcription des interactions avec le service d'assistance à la clientèle à des fins d'analyse ou une partie de l'interaction avec un assistant vocal, pour n'en citer que quelques-unes.
Algorithmes de synthèse vocale
Les technologies sous-jacentes ont changé au fil des ans, mais toutes les itérations ont consisté en deux composants sous une forme ou une autre : les données et un modèle.
Dans le cas de l'ASR, les données sont des discours étiquetés - des fichiers audio de la langue parlée et leurs transcriptions correspondantes.
Le modèle est l'algorithme utilisé pour prédire la transcription à partir de l'audio. Les données étiquetées sont utilisées pour entraîner le modèle, afin qu'il puisse se généraliser à des exemples de discours non vus.

C'est un peu comme si vous pouviez comprendre une série de mots, même si vous ne les avez jamais entendus dans cet ordre particulier, ou s'ils sont prononcés par un étranger.
Là encore, les types de modèles et leurs spécificités ont évolué au fil du temps, et toutes les avancées en termes de rapidité et de précision sont liées à la taille et aux spécifications des ensembles de données et des modèles.
Aperçu rapide : Extraction de caractéristiques
J'ai parlé des caractéristiques, ou représentations, dans mon article sur la synthèse vocale. Elles sont utilisées dans les modèles de RPA d'hier et d'aujourd'hui.
L'extraction de caractéristiques, c'est-à-dire la conversion de la parole en caractéristiques, est la première étape de la plupart des pipelines ASR.
En bref, ces caractéristiques, souvent des spectrogrammes, sont le résultat d'un calcul mathématique effectué sur la parole, et convertissent la parole dans un format qui met l'accent sur les similitudes entre les énoncés et minimise les différences entre les locuteurs.
Ainsi, le même énoncé prononcé par deux locuteurs différents aura des spectrogrammes similaires, quelle que soit la différence entre leurs voix.
Je vous signale que je parlerai de modèles "prédisant les transcriptions à partir de la parole". Ce n'est pas techniquement vrai ; les modèles prédisent à partir de caractéristiques. Mais vous pouvez considérer le composant d'extraction des caractéristiques comme faisant partie du modèle.
ASR précoce : HMM-GMM
Les modèles de Markov cachés (HMM) et les modèles de mélange gaussien (GMM) sont des modèles prédictifs qui existaient avant que les réseaux neuronaux profonds ne prennent le relais.
Les HMM ont dominé l'ASR jusqu'à récemment.
À partir d'un fichier audio, le HMM prédit la durée d'un phonème et le GMM prédit le phonème lui-même.
Cela sonne à l'envers, et c'est un peu le cas :
- HMM : "Les 0,2 premières secondes sont un phonème".
- GMM : "Ce phonème est un G, comme dans Gary".
La transformation d'un clip audio en texte nécessiterait quelques éléments supplémentaires, à savoir
- Un dictionnaire de prononciation : une liste exhaustive des mots du vocabulaire, avec leurs prononciations correspondantes.
- Un modèle linguistique : Combinaisons de mots dans le vocabulaire et leurs probabilités de cooccurrence.
Ainsi, même si le GMM prédit /f/ plutôt que /s/, le modèle de langage sait qu'il est beaucoup plus probable que le locuteur ait dit "un penny pour vos pensées", et non des foughts.
Nous avions toutes ces pièces parce que, pour dire les choses franchement, aucune pièce de cette filière n'était exceptionnellement bonne.
Le HMM aurait mal prédit les alignements, le GMM aurait confondu les sons similaires : /s/ et /f/, /p/ et /t/, sans parler des voyelles.
Ensuite, le modèle linguistique nettoiera le désordre des phonèmes incohérents pour en faire quelque chose de plus proche de la langue.
ASR de bout en bout avec apprentissage profond
De nombreuses parties d'un pipeline ASR ont depuis été consolidées.

Au lieu de former des modèles distincts pour gérer l'orthographe, l'alignement et la prononciation, un modèle unique prend en compte la parole et produit (avec un peu de chance) des mots correctement orthographiés et, de nos jours, des horodatages.
(Bien que les implémentations corrigent souvent, ou "recalent" cette sortie avec un modèle linguistique supplémentaire).
Cela ne veut pas dire que d'autres facteurs, comme l'alignement et l'orthographe, ne font pas l'objet d'une attention particulière. Il existe encore des montagnes d'ouvrages consacrés à la mise en œuvre de solutions à des problèmes très ciblés.
En d'autres termes, les chercheurs trouvent des moyens de modifier l'architecture d'un modèle en ciblant des facteurs spécifiques de sa performance, comme par exemple :
- Un décodeur RNN-Transducteur conditionné par les sorties précédentes pour améliorer l'orthographe.
- Le sous-échantillonnage convolutif permet de limiter les sorties vierges et d'améliorer l'alignement.
Je sais que c'est absurde. J'anticipe juste le fait que mon patron me dira : "Pouvez-vous donner un exemple en langage clair ?"
La réponse est non.
Non, je ne peux pas.
Quelles sont les applications de la RBA ?
L'ASR est un outil intéressant.
Elle nous a également aidés à améliorer notre qualité de vie en renforçant la sécurité, l'accessibilité et l'efficacité dans des secteurs cruciaux.
Soins de santé
Lorsque je dis aux médecins que je fais des recherches sur la reconnaissance vocale, ils me répondent "oh, comme Dragon".
Avant l'arrivée de l'IA générative dans le secteur de la santé, les médecins prenaient des notes orales à la vitesse de 30 mots par minute, avec un vocabulaire limité.
L'ASR a permis de réduire considérablement l'épuisement professionnel généralisé des médecins.
Les médecins concilient des montagnes de paperasse avec la nécessité de s'occuper de leurs patients. Dès 2018, des chercheurs ont plaidé pour l'utilisation de la transcription numérique lors des consultations afin d'améliorer la capacité des médecins à prodiguer des soins.
En effet, le fait de devoir documenter rétroactivement les consultations non seulement réduit le temps passé avec les patients, mais est également beaucoup moins précis que les résumés ou les transcriptions des consultations réelles.
Maisons intelligentes
J'ai une blague que je fais.
Lorsque je veux éteindre la lumière mais que je n'ai pas envie de me lever, j'applaudis deux fois de suite, comme si j'avais un clapet.
Mon partenaire ne rit jamais.
Les maisons intelligentes à commande vocale semblent à la fois futuristes et honteusement indulgentes. C'est du moins ce qu'il semble.
Certes, ils sont pratiques, mais dans de nombreux cas, ils permettent de faire des choses qui ne sont pas disponibles autrement.
La consommation d'énergie en est un bon exemple : il serait impossible d'apporter des modifications mineures à l'éclairage et au thermostat tout au long de la journée s'il fallait se lever pour jouer avec un cadran.
Grâce à l'activation vocale, il est non seulement plus facile de procéder à ces petites modifications, mais aussi de lire les nuances de la parole humaine.
Par exemple, vous dites : "Pouvez-vous baisser un peu la température ?" L'assistant utilise le traitement du langage naturel pour traduire votre demande en un changement de température, en tenant compte de toute une série d'autres données : la température actuelle, les prévisions météorologiques, les données relatives à l'utilisation du thermostat par d'autres utilisateurs, etc.
Vous vous occupez de la partie humaine et laissez à l'ordinateur le soin de s'occuper des aspects informatiques.
Je dirais que c'est beaucoup plus facile que de devoir deviner de combien de degrés il faut baisser le chauffage en fonction de son ressenti.
De plus, il est plus efficace sur le plan énergétique : des familles auraient réduit leur consommation d'énergie de 80 % grâce à l'éclairage intelligent à commande vocale, pour ne citer qu'un exemple.
Soutien à la clientèle
Nous en avons parlé avec les soins de santé, mais la transcription et le résumé sont beaucoup plus efficaces que les résumés rétroactifs des interactions.
Là encore, cela permet de gagner du temps et d'être plus précis. Ce que nous apprenons sans cesse, c'est que l'automatisation libère du temps pour que les gens puissent mieux faire leur travail.
Et cela n'est nulle part plus vrai que dans le domaine de l'assistance à la clientèle, où le taux de résolution au premier appel est supérieur de 25 % grâce à l'utilisation des ASR.
La transcription et le résumé permettent d'automatiser le processus de recherche d'une solution en fonction du sentiment et de la demande du client.
Assistants embarqués
Nous nous appuyons ici sur les assistants à domicile, mais cela vaut la peine d'être mentionné.
La reconnaissance vocale réduit la charge cognitive et les distractions visuelles des conducteurs.
Les distractions étant à l'origine de 30 % des collisions, la mise en œuvre de cette technologie est une évidence en matière de sécurité.
Orthophonie
La RPA est depuis longtemps utilisée comme outil d'évaluation et de traitement des pathologies de la parole.
Il est utile de rappeler que les machines ne se contentent pas d'automatiser des tâches, elles font des choses que les humains ne peuvent pas faire.
La reconnaissance vocale peut détecter des subtilités dans la parole qui sont presque imperceptibles à l'oreille humaine, en repérant les spécificités de la parole affectée qui, autrement, passeraient inaperçues.
L'avenir de la RBA
STT est devenu suffisamment bon pour que nous n'y pensions plus.
Mais en coulisses, les chercheurs travaillent d'arrache-pied pour la rendre encore plus puissante et accessible - et moins perceptible.
J'ai sélectionné quelques tendances intéressantes qui s'appuient sur les progrès réalisés dans le domaine de la RPA, et j'y ai ajouté mes propres réflexions.
Reconnaissance vocale sur l'appareil
La plupart des solutions ASR fonctionnent dans le nuage. Je suis sûr que vous avez déjà entendu cela. Cela signifie que le modèle fonctionne sur un ordinateur distant, ailleurs.
Ils le font parce que le petit processeur de votre téléphone ne peut pas nécessairement faire tourner leur énorme modèle, sinon cela prendrait une éternité pour transcrire quoi que ce soit.
Au lieu de cela, votre audio est envoyé, via Internet, à un serveur distant équipé d'un GPU bien trop lourd pour être transporté dans votre poche. Le GPU exécute le modèle ASR et renvoie la transcription à votre appareil.

Pour des raisons d'efficacité énergétique et de sécurité (tout le monde ne souhaite pas voir ses données personnelles flotter dans le cyberespace), de nombreuses recherches ont été menées pour fabriquer des modèles suffisamment compacts pour fonctionner directement sur votre appareil, qu'il s'agisse d'un téléphone, d'un ordinateur ou d'un moteur de navigation.
Votre serviteur a rédigé une thèse sur la quantification des modèles ASR afin qu'ils puissent fonctionner sur l'appareil. Picovoice est une entreprise canadienne qui construit une IA vocale à faible latence sur l'appareil, et elle semble cool.
La RPA sur appareil rend la transcription disponible à moindre coût, avec la possibilité de desservir les communautés à faible revenu.
L'interface utilisateur de la transcription
L'écart entre l'audio et les transcriptions se réduit. Qu'est-ce que cela signifie ?
Les éditeurs vidéo tels que Premiere Pro et Descript vous permettent de naviguer dans vos enregistrements par le biais d'une transcription : cliquez sur un mot et vous accéderez à l'horodatage.
Vous avez dû faire plusieurs prises ? Choisissez votre prise préférée et effacez les autres, à la manière d'un éditeur de texte. La vidéo est automatiquement découpée pour vous.
Il est très frustrant de faire ce genre d'édition avec une simple forme d'onde, mais c'est très facile avec les éditeurs basés sur les transcriptions.
De même, des services de messagerie comme WhatsApp transcrivent vos notes vocales et vous permettent de les parcourir via le texte. Faites glisser votre doigt sur un mot pour accéder à cette partie de l'enregistrement.

C'est une histoire amusante : J'ai construit quelque chose de ce type environ une semaine avant qu'Apple n'annonce une fonction similaire.
Ces exemples montrent comment des technologies complexes sous le capot apportent simplicité et intuitivité aux applications des utilisateurs finaux.
Équité, inclusion et langues à faibles ressources
La bataille n'est pas encore gagnée.
La RPA fonctionne très bien en anglais et dans d'autres langues courantes et bien dotées en ressources. Ce n'est pas nécessairement le cas pour les langues à faibles ressources.
Il existe un fossé entre les minorités dialectales, les troubles de la parole et d'autres problèmes d'équité dans la technologie vocale.
Désolé d'entraver les bonnes vibrations. Cette section s'appelle "l'avenir" d'ASR. Et j'ai choisi de me tourner vers un avenir dont nous pouvons être fiers.
Si nous voulons progresser, nous devons le faire ensemble, sous peine d'accroître les inégalités sociales.
Commencez à utiliser ASR dès aujourd'hui
Quelle que soit votre activité, l'utilisation de la RPA est une évidence - sauf que vous vous demandez probablement comment commencer. Comment mettre en œuvre la RPA ? Comment transmettre ces données à d'autres outils ?
Botpress est livré avec des cartes de transcription faciles à utiliser. Elles peuvent être intégrées dans un flux "drag-and-drop", augmenté par des douzaines d'intégrations à travers les applications et les canaux de communication.
Commencez à construire dès aujourd'hui. C'est gratuit.
FAQ
Quelle est la précision de la RPA moderne en fonction des accents et des environnements bruyants ?
Les systèmes modernes de reconnaissance vocale sont d'une précision impressionnante pour les accents courants dans les principales langues, atteignant des taux d'erreurs de mots (WER) inférieurs à 10 % dans des conditions propres, mais la précision diminue sensiblement avec les accents forts, les dialectes ou les bruits de fond importants. Des fournisseurs comme Google et Microsoft entraînent des modèles sur diverses données vocales, mais une transcription parfaite dans des environnements bruyants reste un défi.
La RPA est-elle fiable pour transcrire du jargon spécialisé ou des termes propres à un secteur d'activité ?
La RPA est moins fiable en l'état pour le jargon spécialisé ou les termes propres à un secteur d'activité, car les données d'apprentissage sont généralement orientées vers le discours général ; les mots non familiers peuvent être mal transcrits ou omis. Toutefois, les solutions d'entreprise permettent d'utiliser des vocabulaires personnalisés, des modèles linguistiques spécifiques à un domaine et des dictionnaires de prononciation pour améliorer la reconnaissance des termes techniques dans des domaines tels que la santé, le droit ou l'ingénierie.
Quelle est la différence entre les outils gratuits de RBA et les solutions d'entreprise ?
La différence entre les outils gratuits de DAS et les solutions d'entreprise réside dans la précision, l'évolutivité, la personnalisation et les contrôles de confidentialité : les outils gratuits ont souvent des taux d'erreur plus élevés, une prise en charge linguistique limitée et des plafonds d'utilisation, tandis que les solutions d'entreprise offrent un taux d'erreur plus faible, une personnalisation spécifique au domaine, des intégrations, des accords de niveau de service (SLA) et des fonctions de sécurité robustes pour le traitement des données sensibles.
Comment la RPA protège-t-elle la vie privée des utilisateurs et les informations sensibles pendant la transcription ?
La RPA protège la confidentialité des utilisateurs grâce au cryptage lors de la transmission des données et offre des options telles que l'exécution de modèles sur l'appareil pour éviter d'envoyer les données vocales à des serveurs externes. De nombreux fournisseurs d'entreprise se conforment également aux réglementations en matière de confidentialité telles que GDPR ou HIPAA et peuvent anonymiser les données pour protéger les informations sensibles.
Quel est le coût des services ASR basés sur l'informatique en nuage par rapport aux solutions sur appareil ?
Les services de RPA en nuage sont généralement facturés à la minute audio ou par paliers d'utilisation, avec des coûts allant de 0,03 à plus de 1,00 $ par minute en fonction de la précision et des fonctionnalités, tandis que les solutions sur appareil impliquent des coûts de développement initiaux et des frais de licence.
Comment les performances sont-elles mesurées dans le cadre de l'ASR ?
Lorsque ASR fait un mauvais travail, vous le savez.
J'ai vu la caramélisation transcrite comme des Asiatiques communistes. Crispiness to Chris p - vous voyez l'idée.
La mesure que nous utilisons pour refléter mathématiquement les erreurs est le taux d'erreurs de mots (WER). La formule du WER est la suivante :
Où ?
Disons que la référence est "le chat s'est assis".