Meilleur chatbot portugais

Un « chatbot » en portugais est un programme capable de comprendre et d’analyser une conversation dans cette langue. Aujourd’hui, ces chatbots peuvent dialoguer très naturellement entre humains et ordinateurs.
‍
Les récents progrès en traitement du langage naturel (PLN, ou NLP en anglais) permettent de créer des chatbots en portugais prenant en compte les spécificités de la langue. Ces avancées utilisent le machine learning (ML) pour comprendre non seulement la structure, mais aussi le sens des mots et leur contexte.

Créer un chatbot en portugais avec IA

Le portugais est la sixième langue la plus parlée au monde, la moitié des locuteurs vivant au Brésil. Bien qu'elle soit proche de toutes les langues latines, elle présente deux particularités marquantes :

Il existe de nombreux faux amis, des mots qui se ressemblent mais n'ont pas le même sens. En pt_PT, propina signifie paiement mensuel, en pt_BR c'est un pot-de-vin. Même au Brésil, le sens des mots peut varier : dans le nord-est, « cabra » désigne un homme, ailleurs seulement l'animal.
L’utilisation intensive des contextes complique fortement l’interprétation d’un chatbot en portugais. Le mot « chega » peut désigner un verbe (« ela chega amanhã ») ou une demande d’arrêt (« chega dessa conversa »).

De plus, il existe des expressions idiomatiques totalement différentes selon les pays, ce qui complique parfois la compréhension de phrases entières.
‍
Ces particularités rendent-elles difficile la création d’un chatbot en portugais ? Sans surprise, la réponse est oui.

Chatbot en portugais : défis du TALN

Ce qui précède pose des défis pour le TALN dans les chatbots en portugais. La première étape de tout algorithme de Traitement Automatique du Langage Naturel est de comprendre la langue, c’est-à-dire d’analyser les phrases en petites unités de sens, ou « tokens ». Cette tâche s’appelle la « tokenisation » (d’ailleurs, une caractéristique du portugais brésilien est d’utiliser des mots étrangers et de les « brésilianiser »). Ainsi, plus la langue est systématique et ordonnée, plus la tokenisation est facile.
‍
Avant de comprendre ce que signifient les dernières avancées du TALN, il faut savoir comment les modèles de compréhension du TALN ont été créés.

Dans le passé

D'une certaine manière, comprendre comment un chatbot en portugais (ou dans n'importe quelle langue) est conçu, c'est faire un voyage dans le temps.
‍
Les premières recherches pour gérer l'imprévisibilité du langage remontent aux années 1940, avec les travaux du neuroanatomiste et psychiatre Warren McCulloch du MIT et du mathématicien Walter Pitts de l'Université de l'Illinois. Ils ont posé les bases théoriques qui ont permis à John von Neumann d'écrire « The General and Logical Theory of Automata », à la fin des années 1940.
‍
Les progrès qui ont permis aux ordinateurs d'avoir une puissance de calcul croissante ont constitué l'autre pilier qui a fait passer la recherche en traitement du langage naturel (PLN) des laboratoires scientifiques aux entreprises et organismes gouvernementaux cherchant à appliquer ces technologies au quotidien.
‍
L'histoire du PLN commence véritablement dans les années 1950, quand Alan Turing publie « Computing Machinery and Intelligence », proposant ce qui est aujourd'hui appelé le test de Turing comme critère d'intelligence.
‍
À partir de la fin des années 1980, une révolution a eu lieu dans le PLN avec l'introduction d'algorithmes d'apprentissage automatique pour le traitement du langage. Cela s'explique à la fois par l'augmentation de la puissance de calcul et par le recul progressif des théories linguistiques « chomskyennes », dont les fondements théoriques freinaient l'utilisation de corpus linguistiques, essentiels à l'apprentissage automatique. Cette automatisation passait par la division des phrases en unités plus petites et l'application de règles statistiques pour cataloguer et identifier les relations entre ces unités. Ce processus, appelé « tokenisation », a déjà été détaillé ci-dessus.
‍
Cependant, le travail de tokenisation d'une langue nécessitait beaucoup d'interventions manuelles de la part des chercheurs en PLN. Chaque langue devait être tokenisée de façon indépendante et essentiellement à la main.
‍
Ce travail était particulièrement difficile pour les robots traitant des langues très contextuelles, comme on peut l'imaginer.
‍
Une fois la langue tokenisée, les algorithmes d'IA pouvaient être appliqués pour comprendre la langue, c'est-à-dire établir une carte sémantique des relations entre les mots.
‍
Cette étape de compréhension pouvait être automatisée si la tokenisation était fiable. Le problème, c'est que la tokenisation était complexe, donc même les algorithmes de compréhension devaient être configurés manuellement avec la tokenisation.
‍
Le résultat final n'était pas satisfaisant. Par exemple, le niveau de compréhension du portugais, comparé à l'anglais, restait moyen. Il y a toujours eu plus de recherches sur l'anglais que sur le portugais, mais la difficulté à gérer la contextualisation du portugais compliquait l'obtention de bons résultats.
‍
Comme le font naturellement les chercheurs en IA, ils se sont demandé si la tokenisation elle-même pouvait être automatisée par l'apprentissage automatique. Cela permettrait aux algorithmes de tokenisation et de compréhension d'être indépendants de la langue (agnostiques), rendant l'entraînement de l'IA beaucoup plus rapide et efficace.

Progrès récents en intelligence artificielle

Et c’est à ce moment-là qu’une innovation a eu lieu fin 2018 : l’IA pouvait être entraînée en portugais sans intervention manuelle, ce qui a nettement amélioré les performances du NLP.
‍
Les plateformes d’IA pour chatbot en portugais sont ainsi devenues instantanément bien meilleures, et la compréhension du portugais a atteint un niveau comparable à celui d’autres langues.
‍
Cela ne signifie pas pour autant que la qualité globale des chatbots en portugais s’est immédiatement améliorée. Pour que les clients en bénéficient, la première étape pour les plateformes de chatbot IA a été de mettre à jour leurs algorithmes pour utiliser les technologies les plus récentes.
‍
Étant donné l’investissement dans l’ancienne technologie, ce n’est pas une transition qui s’est faite rapidement.

Plateforme multilingue

Travailler avec plusieurs langues sur différentes plateformes peut être complexe. Certaines imposent de créer un bot distinct pour chaque langue, ce qui n’est pas efficace pour la maintenance et la montée en charge.
‍
Une bonne plateforme sera donc vraiment multilingue et permettra plusieurs traductions du même contenu dans l’interface utilisateur.
‍
De plus, la langue doit être définie comme une variable de la conversation, afin que l’IA puisse la détecter précisément et que les concepteurs conversationnels puissent adapter la logique en conséquence.
‍
Au-delà des fonctionnalités liées à la langue, pour créer un excellent chatbot dans n’importe quelle langue, la plateforme doit être performante sur l’ensemble de ses fonctionnalités. Deux grandes catégories sont essentielles.

La première composante est la technologie générale de compréhension du langage naturel (ou, comme mentionné plus haut, l’algorithme de NLP). Une bonne plateforme sera non seulement indépendante de la langue, mais utilisera aussi les technologies NLP les plus récentes et offrira de bonnes performances globales. Il est important que la plateforme propose des fonctionnalités liées au NLP, comme le remplissage de « slots » (extraction d’informations d’un contexte pour constituer un ensemble clé/valeur) et la reconnaissance d’intentions adaptée au contexte du dialogue.
La deuxième catégorie concerne la fonctionnalité générale de la plateforme. Elle doit permettre aux concepteurs de créer facilement des expériences chatbot très satisfaisantes pour les utilisateurs finaux, y compris une intégration simple avec les systèmes existants et tiers. Si cette fonctionnalité n’existe pas ou n’est pas facile à utiliser, peu importe qu’elle soit en portugais ou non.

Au final, la qualité de l’expérience chatbot offerte à l’utilisateur final dépend directement de la puissance de l’outil utilisé pour la créer, de la compréhension de la langue à l’approche de l’interface graphique ou textuelle.

Construire le meilleur chatbot en portugais

Même avec une bonne plateforme, créer un chatbot en portugais reste un défi. Il existe peu d’études en portugais dans le domaine de l’IA, ce qui rend difficile de trouver les bonnes ressources pour un projet.
‍
Il n’est pas nécessaire de développer soi-même les algorithmes de NLP, car ils sont fournis d’emblée, mais il peut être compliqué de trouver des designers compétents qui comprennent les différences idiomatiques entre les divers groupes d’utilisateurs visés par le chatbot en portugais. C’est particulièrement vrai pour la langue portugaise, qui utilise de nombreuses expressions idiomatiques contextuelles.
‍
Il est donc important que la plateforme de chatbot permette de mettre à jour et de maintenir facilement le contenu et les traductions, même pour des non-techniciens, car il est probable que designers et développeurs ne maîtrisent pas tous les aspects culturels des différentes variantes du portugais.
‍
Évidemment, le fait que les chatbots portugais de qualité deviennent plus précis signifie que l’adoption de cette technologie va augmenter dans les prochaines années. Cette adoption croissante résoudra les problèmes de ressources et permettra aux acheteurs potentiels de mieux cerner les meilleures pratiques pour obtenir les meilleurs résultats.

Résumé

Les innovations en technologie de traitement du langage naturel (PLN) ne concernent pas seulement les chatbots en portugais, mais aussi d’autres applications d’IA. Aujourd’hui, on voit apparaître des systèmes multifonctions qui utilisent l’IA en portugais de différentes façons : analyse de sentiments dans les actualités et commentaires, résumé ou génération de textes auparavant réservés aux humains. En général, un chatbot en portugais sert d’interface utilisateur non seulement pour différentes technologies d’IA, mais aussi pour aider les utilisateurs finaux à utiliser d’autres systèmes, comme des sites web ou des applications, ou encore à conseiller pour des achats ou des décisions.
‍
Bien sûr, même si le PLN en portugais a fait un bond en avant, il y a toujours des progrès à faire. La recherche continue d’améliorer les moteurs de PLN et de nouveaux progrès sont à prévoir. Tant que le PLN n’atteindra pas le niveau humain, il restera du travail.
‍
La prochaine étape pour tous les moteurs PLN, quelle que soit la langue, est d’améliorer la gestion des dialogues à plusieurs tours. Cela signifie permettre à un humain d’avoir une conversation en plusieurs étapes avec le bot sur un sujet précis, et pas seulement de donner des ordres ou poser des questions. Et pour les plateformes de chatbot, il s’agit de faciliter la création de dialogues à plusieurs tours.
‍
Le dialogue à plusieurs tours est particulièrement important pour les interfaces vocales comme Alexa ou les appareils Google Home.
‍
Bien que nous ayons parlé des avancées dans la tokenisation basée sur l’apprentissage automatique et des implications pour le PLN en portugais, un sujet connexe est la transcription de la parole en texte en portugais. Cette transcription évolue encore par rapport à d’autres langues, même si les écarts de performance se réduisent vite. On espère que les progrès du PLN décrits ici et réalisés dans le monde entier aideront à combler cet écart dans un avenir proche.