Qu'est-ce qu'un assistant vocal ?
Un assistant vocal est un logiciel capable de comprendre et de répondre à des commandes exprimées en langage naturel. Ils peuvent également être appelés assistants intelligents, ce qui est peut-être une description plus précise car, dans de nombreux cas, ils peuvent être interfacés avec du texte par le biais d'un chat. Bien entendu, ils sont également connus sous le nom de "bots".
Ces dernières années, l'adoption des assistants vocaux a décollé, notamment sous la forme d'assistants domestiques à commande vocale tels qu'Alexa et Google Home.
Ces produits permettent aux utilisateurs d'ordonner à des logiciels de faire des choses simplement avec leur voix. Par exemple, un utilisateur peut écouter de la musique sur Spotify ou lire une vidéo sur Youtube en commandant simplement à l'assistant vocal intelligent de le faire.
L'assistant personnel a été rendu possible grâce à des percées dans le domaine de l'intelligence artificielle, et plus particulièrement dans celui du traitement du langage naturel.
Comment les assistants vocaux utilisent-ils la PNL pour la reconnaissance vocale ?
Le traitement du langage naturel est une technologie qui permet aux ordinateurs de comprendre l'intention qui se cache derrière une phrase prononcée. Cette technologie diffère de la reconnaissance vocale, qui transcrit les mots prononcés en texte. La reconnaissance vocale est bien sûr également nécessaire pour les assistants numériques à commande vocale. La reconnaissance vocale transcrit les mots prononcés en texte et le traitement du langage naturel détermine l'intention de l'utilisateur derrière le texte.
Le traitement du langage naturel est important et utile car les humains donnent des instructions aux assistants vocaux en utilisant différentes phrases qui ont la même signification. Par exemple, il peut dire "Jouez X sur Youtube", ou "Trouvez X sur Youtube et jouez-le" ou "Jouez la chanson X sur Youtube", etc.
La PNL peut détecter que toutes ces phrases ont la même signification. Cela est utile pour les humains, outre le fait qu'ils peuvent interagir avec l'appareil uniquement par la voix, car ils n'ont pas besoin de se souvenir d'une commande ou d'une syntaxe exacte pour faire fonctionner l'appareil. La PNL est également étonnamment facile à mettre en place pour les développeurs et c'est pour cette raison qu'elle constitue une partie importante de tout cadre de bot.
Les assistants vocaux : avantages et inconvénients
Tous ceux qui ont déjà essayé d'utiliser un assistant vocal vous le diront : ils sont utiles pour certaines choses, mais ils ne sont pas parfaits. Par exemple, il n'est pas possible d'avoir avec eux une conversation semblable à celle d'un être humain. La conversation s'interrompt rapidement si vous essayez.
Il est également difficile de savoir ce qu'ils peuvent ou ne peuvent pas faire simplement en interagissant avec eux. Voice s'avère être une interface médiocre pour récupérer rapidement un grand nombre d'informations. Le balayage d'une page web, par exemple, est un bien meilleur moyen d'obtenir rapidement des informations.
Ce qu'ils savent faire, ce sont des commandes ou des questions uniques. Elles fonctionnent bien surtout lorsque l'utilisateur connaît exactement le résultat qu'il souhaite, par exemple lorsqu'il veut lire une vidéo spécifique sur YouTube dont il connaît le nom et lorsque la réponse à une question est une simple phrase, comme la réponse à la question "quelle est la température dans ma ville ?
Nous oublions souvent que les assistants vocaux sont simplement une autre interface logicielle. Nous les appelons assistants parce que nous pouvons leur parler et qu'il est donc facile de les concevoir comme ayant une sorte de qualité humaine. Cette idée est encore renforcée par le fait que nous devons les appeler par leur nom avec un mot clé, "Hey Google", "Alexa", "Siri" pour les activer. Si nous n'avions pas de mot clé, ils ne sauraient pas quand on leur parle et donc quand répondre. Le mot-clé nous fait subir un lavage de cerveau en nous incitant à considérer l'assistant vocal davantage comme un assistant presque humain que comme une interface logicielle. Et il lave le cerveau des jeunes enfants en leur faisant croire que Google ou Alexa sont des sortes de Dieties, ce qui pourrait leur causer des dommages durables lorsqu'ils découvriront qu'il s'agit d'entreprises qui dominent le monde.
En réalité, les assistants vocaux ne sont qu'une autre interface logicielle, c'est-à-dire l'équivalent d'une interface graphique, par exemple. Une interface graphique joue un rôle similaire à celui d'une interface vocale, mais elle ne peut pas être humanisée de la même manière.
Les interfaces vocales sont évidemment utilisées différemment des interfaces graphiques. Il s'avère que les interfaces vocales sont normalement utilisées en complément des interfaces graphiques et non l'inverse.
Cela s'explique en partie par le fait que les interfaces graphiques ont déjà été conçues pour la plupart des applications et que l'ajout d'une interface vocale permet aux utilisateurs d'interagir d'une autre manière avec le logiciel. Par exemple, demander à un assistant vocal de lire une vidéo YouTube. Vous pourriez lire la vidéo à l'aide de l'interface graphique, mais ce serait plus lent.
On peut également soutenir que l'interface graphique est plus complète que l'interface vocale, car il serait très difficile d'effectuer à l'aide de la voix des tâches qui peuvent être facilement réalisées sur une interface graphique. Pour comprendre ce point, imaginez que vous essayez de demander à votre collègue de construire une feuille de calcul pour vous en lui donnant des instructions par téléphone, plutôt que de construire la feuille de calcul vous-même à l'aide de l'interface graphique.
Bien que les interfaces vocales ne soient généralement pas indispensables, elles offrent un nouveau niveau de commodité dans certaines situations. Il s'agit généralement d'un confort dont vous pouvez vous passer si nécessaire, sauf dans les rares circonstances où l'interaction mains libres est essentielle.
L'avenir des assistants vocaux
Compte tenu de leurs limites, la question est de savoir si les assistants vocaux vont gagner en importance à l'avenir ou s'ils resteront un produit marginal.
Il est clair que les assistants vocaux vont devenir beaucoup plus populaires et largement utilisés à l'avenir, et ce pour une seule raison : ils seront totalement intégrés aux interfaces graphiques.
S'il est difficile de remplacer les interfaces graphiques par la voix, il est tout à fait possible de combiner une interface vocale et une interface graphique. C'est ce qui se fait actuellement, dans une mesure très limitée, avec Google Assistant (qui permet à une page web de fournir un contexte) et Bixby.
La prochaine génération d'interfaces, que nous appellerons interfaces "combinées", intégrera des graphiques, du texte et de la voix pour offrir la meilleure expérience possible à l'utilisateur. Non seulement cela permettra aux utilisateurs d'accomplir des tâches plus rapidement et avec une courbe d'apprentissage moins importante (parce que la voix permet aux utilisateurs d'interagir avec le logiciel sans connaître les commandes exactes), mais l'IA surveillant les interactions permettra aux interfaces d'évoluer et de s'améliorer d'elles-mêmes.
Une instruction vocale au moment du lancement de l'application fonctionnera différemment une fois que l'application aura appris, grâce à des milliers d'interactions, quelle est la meilleure ligne de conduite à adopter.
Il est également intéressant de constater que pour que la voix soit pleinement adoptée, il faudra que le comportement des utilisateurs change. À l'heure actuelle, les gens tapent du texte et utilisent des interfaces graphiques sur leurs smartphones bien plus qu'ils ne parlent dans leurs téléphones et n'utilisent des assistants vocaux.
En effet, la technologie de reconnaissance vocale n'est pas parfaite. Depuis des décennies, il existe des raccourcis vocaux sur les téléphones et les ordinateurs, mais ces raccourcis n'ont pas été largement utilisés parce que les taux d'erreur étaient si élevés que la douleur liée à la prise en compte de l'erreur l'emportait sur le bénéfice de la commodité une fois l'effet de nouveauté passé.
Imaginez que la reconnaissance vocale soit parfaite et qu'il n'y ait pas de taux d'erreur.
Dans ce cas, il serait beaucoup plus rapide de "taper" un courriel, par exemple, à l'aide de la voix que de le taper sur son smartphone. Une fois ce point critique atteint, l'assistance vocale sera omniprésente pour ce type de tâches.
Pour que les robots décollent, il faut que les technologies de reconnaissance vocale et de traitement de la langue maternelle fonctionnent à un niveau élevé. Si la reconnaissance vocale fonctionne déjà très bien, le NLP, comme nous l'avons vu, ne fonctionne bien que dans des domaines restreints.
Le point intéressant ici est que la reconnaissance vocale fonctionne beaucoup mieux dans les domaines restreints pour des raisons évidentes, car il y a beaucoup moins de mots possibles que l'utilisateur pourrait prononcer.
Cela signifie que nous sommes déjà en mesure de créer des sites chatbots qui sont presque parfaits dans un domaine étroit. Il suffit d'écouter les démonstrations de Google Duplex.
Cela conduira à l'adoption extrêmement rapide de la technologie vocale une fois que les problèmes de découverte et les questions connexes auront été résolus.
La voix d'abord
L'idée est que la voix soit le premier point d'appel lorsque quelqu'un a besoin d'aide.
Dans un monde "Voice First", les appareils deviendront plus invisibles, car les gens n'auront besoin de les regarder que pour les tâches qu'ils ne peuvent pas effectuer par la voix.
Les gens n'auront plus seulement un appareil dans leur salon, ils auront un appareil vocal bon marché dans chaque pièce. Ces appareils seront connectés les uns aux autres, aux appareils IoT, aux smartphones et aux ordinateurs. Certains de ces appareils pourront projeter des images sur les murs.
Les gens pourront poser des questions ou donner des ordres pendant qu'ils sont sous la douche ou qu'ils se brossent les dents. Ils n'auront plus à se souvenir des choses à dire au robot vocal en bas de chez eux.
Il y aura de bien meilleurs moyens de découvrir les fonctionnalités et de "former" les humains à l'utilisation efficace des robots.
Si les assistants vocaux posent actuellement de nombreux problèmes, la plupart d'entre eux sont liés à la manière dont ils sont utilisés plutôt qu'à la technologie sous-jacente. Nous pensons que, dans un court laps de temps, les applications les plus performantes pour la voix vont émerger et que cela changera la façon dont les logiciels sont utilisés. Cela nécessitera également une certaine normalisation des technologies et des protocoles vocaux, mais ce sont des obstacles qui n'entraveront pas longtemps le progrès.
Nous nous réjouissons de l'avènement d'un monde de commodité ultime où les dispositifs vocaux sont prêts à apporter leur aide en tout lieu et à tout moment.
Table des matières
Restez au courant des dernières nouveautés en matière d'agents d'IA
Partager ce message sur :