Ein „Chatbot“ auf Portugiesisch ist ein Programm, das Gespräche auf Portugiesisch verstehen und analysieren kann. Heutzutage können solche Chatbots sehr flüssig einen Dialog zwischen Mensch und Computer führen.

Fortschritte im Bereich der natürlichen Sprachverarbeitung (NLP, im Englischen – hier als PLN bezeichnet) ermöglichen die Entwicklung von portugiesischsprachigen Chatbots, die die Besonderheiten der Sprache berücksichtigen. Diese Fortschritte nutzen maschinelles Lernen (ML), um nicht nur die Sprachstruktur, sondern auch die Bedeutung von Wörtern und deren Kontext zu erfassen.

Einen Chatbot auf Portugiesisch mit KI erstellen

Portugiesisch ist die sechstmeistgesprochene Sprache der Welt, die Hälfte davon in Brasilien, und obwohl sie eng mit anderen romanischen Sprachen verwandt ist, gibt es zwei markante Besonderheiten:

  • Es gibt zahlreiche falsche Freunde – Wörter, die ähnlich aussehen, aber unterschiedliche Bedeutungen haben. Im europäischen Portugiesisch bedeutet propina Monatszahlung, im brasilianischen Portugiesisch Bestechung. Selbst in Brasilien können Wörter je nach Region variieren: Im Nordosten steht „cabra“ für einen Mann, im Rest des Landes nur für das Tier.
  • Die intensive Nutzung von Kontexten erschwert die Interpretation eines Chatbots auf Portugiesisch erheblich. Das Wort „chega“ kann ein Verb sein („ela chega amanhã“) oder eine Aufforderung zum Abbruch („chega dessa conversa“).

Außerdem gibt es völlig unterschiedliche Redewendungen in den verschiedenen Ländern, was das Verständnis – manchmal ganzer Sätze – erheblich erschwert.

Machen diese Besonderheiten die Arbeit eines portugiesischen Chats schwierig? Wenig überraschend lautet die Antwort: Ja.

Portugiesischer Chatbot: Herausforderungen der NLP

Das oben Beschriebene stellt Herausforderungen für NLP bei Chatbots auf Portugiesisch dar. Der erste Schritt für jeden Algorithmus zur Verarbeitung natürlicher Sprache ist das Verstehen der Sprache, also das Zerlegen von Sätzen in kleine Bedeutungseinheiten oder „Tokens“. Diese Aufgabe nennt man „Tokenisierung“ (übrigens ist es typisch für brasilianisches Portugiesisch, Fremdwörter zu übernehmen und zu „brasilianisieren“). Je systematischer und geordneter die Sprache ist, desto leichter lässt sie sich tokenisieren.

Bevor wir verstehen können, was die neuesten Fortschritte im NLP bedeuten, müssen wir nachvollziehen, wie die Modelle für das Sprachverständnis entwickelt wurden.

In der Vergangenheit

In gewisser Weise ist das Verständnis, wie ein Chatbot auf Portugiesisch (oder in jeder anderen Sprache) entwickelt wird, eine Reise durch die Zeit.

Die ersten Forschungen, um mit der Unvorhersehbarkeit von Sprache umzugehen, stammen aus den 1940er Jahren – mit Arbeiten des Neuroanatom und Psychiaters Warren McCulloch vom MIT und des Mathematikers Walter Pitts von der University of Illinois. Sie legten die theoretischen Grundlagen, die es John von Neumann ermöglichten, Ende der 1940er Jahre „The General and Logical Theory of Automata“ zu schreiben.

Die Fortschritte, die Computern immer mehr Rechenleistung verschafften, bildeten die zweite Säule, die die Forschung zur natürlichen Sprachverarbeitung (NLP) aus den wissenschaftlichen Laboren in die Labore von Unternehmen und Behörden brachte, die sich mit dem alltäglichen Einsatz neuer Technologien beschäftigen.

Die Geschichte der NLP beginnt im engeren Sinne in den 1950er Jahren, als Alan Turing den Artikel „Computing Machinery and Intelligence“ veröffentlichte, in dem er das heute als Turing-Test bekannte Kriterium für Intelligenz vorschlug.

Ab Ende der 1980er Jahre gab es jedoch eine Revolution im NLP durch die Einführung von Machine-Learning-Algorithmen für die Sprachverarbeitung. Dies lag sowohl am stetig steigenden Rechenpotenzial als auch am allmählichen Rückgang der Dominanz der „chomskyanischen“ Linguistiktheorien, deren theoretische Grundlagen die Art von Sprachkorpus, die dem Machine-Learning-Ansatz zugrunde liegt, eher behinderten. Diese Automatisierung wurde erreicht, indem Sätze in kleinere Einheiten zerlegt und statistische Regeln angewendet wurden, um die Beziehungen zwischen diesen Einheiten zu katalogisieren und zu identifizieren. Dieser Prozess wird als „Tokenisierung“ bezeichnet, wie oben bereits erläutert.

Die Tokenisierung einer Sprache erforderte jedoch viel manuelle Arbeit durch NLP-Forscher. Jede Sprache musste unabhängig und im Wesentlichen manuell tokenisiert werden.

Diese Arbeit war besonders schwierig für Bots, die mit stark kontextabhängigen Sprachen umgehen mussten, wie Sie sich vorstellen können.

Nachdem die Sprache tokenisiert war, konnten KI-Algorithmen angewendet werden, um die Sprache zu verstehen, also eine Bedeutungslandkarte zu erstellen, wie die Wörter der Sprache miteinander in Beziehung stehen.

Dieser Schritt des Sprachverständnisses konnte automatisiert werden, wenn die Tokenisierung zuverlässig war. Das Problem war jedoch, dass die Tokenisierung kompliziert war und daher auch die Verständnisalgorithmen manuell zusammen mit der Tokenisierung konfiguriert werden mussten.

Das Endergebnis war nicht überzeugend. Zum Beispiel war das Verständnisniveau für Portugiesisch im Vergleich zu Englisch nur mittelmäßig. Natürlich lag der Forschungsschwerpunkt immer viel stärker auf Englisch als auf Portugiesisch, aber die Schwierigkeit, mit den Kontextualisierungsszenarien des Portugiesischen umzugehen, erschwerte gute Ergebnisse.

Wie es KI-Forscher nun einmal tun, fragten sie sich, ob die Tokenisierung selbst nicht durch maschinelles Lernen erfolgen könnte. Dadurch könnten Tokenisierungs- und Verständnisalgorithmen sprachunabhängig (sogenannt sprachagnostisch) werden und das Training der KI für eine Sprache viel schneller und besser machen.

Jüngste Fortschritte in der Künstlichen Intelligenz

Und genau an diesem Punkt kam es Ende 2018 zum Durchbruch: Die KI konnte auf Portugiesisch trainiert werden, ganz ohne manuelle Eingriffe, und dadurch wurde die Leistung der NLP-Technologie deutlich besser.

KI-Plattformen für portugiesische Chatbots konnten dadurch sofort deutlich verbessert werden, und das Verständnis auf Portugiesisch erreichte das Niveau anderer Sprachen.

Das bedeutet aber nicht, dass die Qualität aller portugiesischen Chatbots sofort gestiegen ist. Damit Kunden davon profitieren, mussten die KI-basierten Chatbot-Plattformen ihre Algorithmen auf die neuesten Technologien umstellen.

Angesichts der bisherigen Investitionen in ältere Technologien geschah das nicht über Nacht.

Außerdem gibt es Funktionen, die Plattformen implementieren müssen, um eine gute Nutzererfahrung zu gewährleisten. Zum Beispiel müssen Synonymblöcke und deren Einsatz in verschiedenen Kontexten aufgebaut werden, damit der Chatbot die Bedeutung einer Vokabel richtig erkennt und nicht aus dem Zusammenhang reißt.

Mehrsprachige Plattform

Mit mehreren Sprachen auf verschiedenen Plattformen zu arbeiten, kann eine Herausforderung sein. Manche Plattformen verlangen, dass Chatbots für verschiedene Sprachen als separate Bots gebaut werden – das ist natürlich weder skalierbar noch wartungsfreundlich.

Eine gute Plattform ist daher wirklich mehrsprachig und ermöglicht es, denselben Inhalt in mehreren Übersetzungen in der Benutzeroberfläche bereitzustellen.

Außerdem sollte die Sprache als Variable im Gespräch definiert werden, damit die KI sie zuverlässig erkennen kann und Conversation Designer die Logik darauf aufbauen können.

Abgesehen von sprachspezifischen Funktionen muss die allgemeine Funktionalität der Chatbot-Plattform hervorragend sein, um einen großartigen Chatbot in jeder Sprache zu erstellen. Es gibt zwei wichtige Funktionskategorien.

  • Der erste Aspekt ist die allgemeine Technologie zur natürlichen Sprachverarbeitung (NLP). Eine leistungsfähige Plattform ist nicht nur sprachunabhängig, sondern nutzt auch moderne NLP-Technologien und funktioniert insgesamt zuverlässig. Wichtig sind Funktionen wie Slot-Filling (Informationsextraktion im Schlüssel/Wert-Format) und kontextbasierte Intent-Erkennung.
  • Die zweite Kategorie betrifft die allgemeine Funktionalität der Plattform. Sie sollte es Designern ermöglichen, besonders zufriedenstellende Chatbot-Erlebnisse für Endnutzer einfach zu gestalten – einschließlich der einfachen Integration mit Altsystemen und Drittanbietern. Fehlt diese Funktionalität oder ist sie schwer zu bedienen, ist es irrelevant, ob sie portugiesischsprachig ist oder nicht.

Letztlich hängt die Qualität der Chatbot-Erfahrung für den Endnutzer direkt von der Leistungsfähigkeit des verwendeten Tools ab – vom Sprachverständnis bis hin zum grafischen oder textbasierten Interface.

Den besten portugiesischen Chatbot bauen

Auch mit einer guten Plattform gibt es weiterhin Herausforderungen beim Erstellen eines Chatbots auf Portugiesisch. Es gibt weltweit nur wenige Studien zu Portugiesisch im KI-Bereich, daher kann es aufwendig sein, die richtigen Ressourcen für ein Projekt zu finden.

Man muss zwar keine Ressourcen finden, um die zugrundeliegenden NLP-Algorithmen zu schreiben, da diese direkt bereitgestellt werden, aber es kann schwierig sein, kompetente Designer zu finden, die die idiomatischen Unterschiede zwischen den verschiedenen Zielgruppen eines portugiesischen Chatbots verstehen. Das gilt besonders für Portugiesisch, da der kontextbasierte Gebrauch von Redewendungen sehr ausgeprägt ist.

Daher ist es wichtig, dass die Chatbot-Plattform es ermöglicht, Inhalte und Übersetzungen einfach und ohne technisches Wissen zu aktualisieren und zu pflegen, da Designer und Entwickler die kulturellen Besonderheiten der verschiedenen portugiesischen Varianten meist nicht beherrschen.

Natürlich sorgt die zunehmende Genauigkeit hochwertiger portugiesischer Chatbots dafür, dass die Akzeptanz dieser Technologie in den nächsten Jahren steigen wird. Diese wachsende Verbreitung wird die Ressourcenprobleme lösen und potenziellen Käufern einen klaren Überblick über Best Practices für optimale Ergebnisse geben.

Zusammenfassung

Innovationen in der NLP-Technologie betreffen nicht nur portugiesische Chatbots, sondern auch andere KI-Anwendungen. Mittlerweile gibt es vielseitige Systeme, die KI im Portugiesischen unterschiedlich nutzen – von der Sentiment-Analyse in Nachrichten und Kommentaren bis hin zur Zusammenfassung oder Erstellung von Texten, die früher nur Menschen leisten konnten. Ein portugiesischer Chatbot dient meist nicht nur als Benutzeroberfläche für verschiedene KI-Technologien, sondern hilft Endnutzern auch bei der Bedienung anderer Systeme wie Websites oder Web-Apps oder fungiert als Einkaufsberater und Entscheidungshilfe.

Obwohl die NLP-Leistung im Portugiesischen deutlich gestiegen ist, gibt es immer noch Verbesserungspotenzial. Die Forschung arbeitet weiter an besseren NLP-Engines, und neue Fortschritte werden sicher folgen. Bis NLP menschliches Niveau erreicht, bleibt noch einiges zu tun.

Der nächste Schritt für alle NLP-Engines, unabhängig von der Sprache, ist eine bessere Handhabung von mehrstufigen Dialogen. Das bedeutet, dass ein Mensch mit dem Bot ein mehrstufiges Gespräch zu einem bestimmten Thema führen kann, statt nur Befehle oder Fragen zu stellen. Und für Chatbot-Plattformen ist der nächste Schritt, die Erstellung solcher Dialoge zu erleichtern.

Mehrstufige Dialoge sind besonders für Sprachschnittstellen wie Alexa oder Geräte wie Google Home wichtig.

Neben Fortschritten beim maschinellen Lernen und der Tokenisierung für NLP im Portugiesischen ist auch die Umwandlung von Sprache in Text ein relevantes Thema. Die Spracherkennung für Portugiesisch entwickelt sich zwar noch im Vergleich zu anderen Sprachen, aber die Leistungsunterschiede werden schnell kleiner. Wir hoffen, dass die hier beschriebenen NLP-Fortschritte dazu beitragen, diese Lücke in naher Zukunft weiter zu schließen.