Was ist ein Sprachassistent?
Ein Sprachassistent ist eine Software, die in natürlicher Sprache gesprochene Befehle verstehen und darauf reagieren kann. Man kann sie auch als intelligente Assistenten bezeichnen, und das ist vielleicht die genauere Beschreibung, denn in vielen Fällen können sie über einen Chat mit Text verbunden werden. Natürlich sind sie auch als Bots bekannt.
In den letzten Jahren hat die Einführung von Sprachassistenten stark zugenommen, insbesondere in Form von sprachgesteuerten Heimassistenten wie Alexa und Google Home.
Diese Produkte ermöglichen es den Nutzern, Software zu befehlen, Dinge nur mit ihrer Stimme zu tun. So kann ein Nutzer beispielsweise Musik auf Spotify abspielen oder ein Video auf Youtube abspielen, indem er dem intelligenten Sprachassistenten einen entsprechenden Befehl gibt.
Der persönliche Assistent wurde durch Durchbrüche in der künstlichen Intelligenz ermöglicht, insbesondere im Bereich der natürlichen Sprachverarbeitung.
Wie nutzen Sprachassistenten NLP für die Spracherkennung?
Natürliche Sprachverarbeitung ist eine Technologie, die es Computern ermöglicht, die Absicht hinter einem gesprochenen Satz zu verstehen. Dies unterscheidet sich von der Spracherkennung, die gesprochene Worte in Text umwandelt. Die Spracherkennung wird natürlich auch für sprachgesteuerte digitale Assistenten benötigt. Bei der Spracherkennung werden die gesprochenen Worte in Text umgewandelt, und die Verarbeitung natürlicher Sprache bestimmt die Absicht des Benutzers hinter dem Text.
Die Verarbeitung natürlicher Sprache ist wichtig und nützlich, weil Menschen den Sprachassistenten mit verschiedenen Phrasen anweisen, die die gleiche Bedeutung haben. Sie könnten zum Beispiel sagen: "Spielen Sie X auf Youtube ab" oder "Bitte suchen Sie X auf Youtube und spielen Sie es ab" oder "Spielen Sie auf Youtube bitte Lied X ab" usw.
Das NLP kann erkennen, dass alle diese Sätze die gleiche Bedeutung haben. Dies ist für Menschen nützlich, abgesehen von der Tatsache, dass sie mit dem Gerät nur über die Stimme interagieren können, da sie sich nicht an einen genauen Befehl oder eine Syntax erinnern müssen, um das Gerät zu bedienen. NLP ist auch für Entwickler erstaunlich einfach zu erlernen und daher ein wichtiger Bestandteil eines jeden Bot-Frameworks.
Sprachassistenten Pro und Kontra
Jeder, der schon einmal versucht hat, einen Sprachassistenten zu benutzen, wird Ihnen sagen, dass sie für einige Dinge gut sind, aber nicht perfekt. Man kann zum Beispiel keine menschenähnliche Unterhaltung mit ihnen führen. Das Gespräch wird schnell abgebrochen, wenn man es versucht.
Es ist auch schwierig herauszufinden, was sie können und was nicht, wenn man nur mit ihnen interagiert. Die Stimme ist eine schlechte Schnittstelle, um schnell viele Informationen abzurufen. Das Scannen einer Webseite zum Beispiel ist eine viel bessere Methode, um schnell an Informationen zu gelangen.
Was sie sehr gut können, sind einzelne Befehle oder Fragen. Sie funktionieren vor allem dann gut, wenn der Nutzer das gewünschte Ergebnis genau kennt, z. B. wenn er ein bestimmtes Video auf YouTube abspielen möchte, dessen Namen er kennt, oder wenn die Antwort auf eine Frage ein einfacher Satz ist, z. B. die Antwort auf die Frage "Wie hoch ist die Temperatur in meiner Stadt".
Wir vergessen oft, dass Sprachassistenten nur eine weitere Software-Schnittstelle sind. Wir nennen sie Assistenten, weil man mit ihnen sprechen kann und es daher leicht ist, sich vorzustellen, dass sie eine Art von menschenähnlicher Qualität haben. Diese Vorstellung wird noch durch die Tatsache verstärkt, dass wir sie mit einem Hotword wie "Hey Google", "Alexa" oder "Siri" ansprechen müssen, um sie zu aktivieren. Hätten wir kein Hotword, wüssten sie nicht, wann sie angesprochen werden und daher auch nicht, wann sie reagieren sollen. Das Stichwort führt dazu, dass wir den Sprachassistenten eher als eine Art denkenden, fast menschlichen Assistenten denn als eine Software-Schnittstelle betrachten. Und es führt dazu, dass junge Kinder glauben, dass Google oder Alexa eine Art Diäties sind, was ihnen einen bleibenden Schaden zufügen könnte, wenn sie entdecken, dass es sich um weltbeherrschende Unternehmen handelt.
In Wirklichkeit sind Sprachassistenten nur eine weitere Softwareschnittstelle, d. h. ein Äquivalent beispielsweise zu einer grafischen Schnittstelle. Eine grafische Schnittstelle hat eine ähnliche Funktion wie eine Sprachschnittstelle, aber sie kann nicht auf dieselbe Weise vermenschlicht werden.
Sprachschnittstellen werden natürlich anders genutzt als grafische Schnittstellen. Es stellt sich heraus, dass Sprachschnittstellen normalerweise zusätzlich zu grafischen Schnittstellen verwendet werden und nicht umgekehrt.
Dies liegt zum Teil daran, dass für die meisten Anwendungen bereits grafische Schnittstellen entwickelt wurden, so dass das Hinzufügen einer Sprachschnittstelle den Nutzern eine weitere Möglichkeit der Interaktion mit der Software bietet. Zum Beispiel kann man einen Sprachassistenten bitten, ein Youtube-Video abzuspielen. Man könnte das Video auch über die grafische Oberfläche abspielen, aber das wäre langsamer.
Man kann auch argumentieren, dass die grafische Schnittstelle vollständiger ist als eine Sprachschnittstelle, da es sehr schwierig wäre, einige Aufgaben per Sprache zu erledigen, die auf einer grafischen Schnittstelle leicht zu erledigen sind. Um diesen Punkt zu verstehen, stellen Sie sich vor, Sie versuchen, Ihren Kollegen dazu zu bringen, eine Kalkulationstabelle für Sie zu erstellen, indem Sie ihm per Telefon Anweisungen geben, während Sie die Tabelle selbst über die grafische Schnittstelle erstellen.
Sprachgesteuerte Schnittstellen sind zwar in der Regel nicht unverzichtbar, bieten aber in bestimmten Situationen eine neue Ebene der Bequemlichkeit. In der Regel ist dies ein Komfort, auf den man notfalls verzichten kann, außer in den seltenen Fällen, in denen eine freihändige Interaktion unerlässlich ist.
Die Zukunft der Sprachassistenten
Angesichts ihrer Grenzen stellt sich die Frage, ob Sprachassistenten in Zukunft an Bedeutung gewinnen werden oder ob sie ein Randprodukt bleiben.
Es ist uns klar, dass Sprachassistenten in Zukunft viel beliebter und häufiger genutzt werden, und zwar aus einem Grund: Sie werden vollständig in grafische Benutzeroberflächen integriert sein.
Es ist zwar schwierig, grafische Benutzeroberflächen durch Sprache zu ersetzen, aber es ist sehr wohl möglich, eine Sprach- und eine grafische Schnittstelle zu kombinieren. Dies wird derzeit in sehr begrenztem Umfang mit Google Assistant (der es ermöglicht, eine Webseite mit Kontext zu versehen) und Bixby umgesetzt.
Die nächste Generation von Schnittstellen, die wir als "Kombinationsschnittstellen" bezeichnen werden, wird Grafik, Text und Sprache zu einem optimalen Erlebnis für den Nutzer verbinden. Dies wird es den Nutzern nicht nur ermöglichen, Aufgaben schneller und mit geringerem Lernaufwand zu erledigen (da die Stimme es den Nutzern ermöglicht, mit der Software zu interagieren, ohne die genauen Befehle zu kennen), sondern die KI, die die Interaktionen überwacht, wird es den Schnittstellen ermöglichen, sich weiterzuentwickeln und von selbst besser zu werden.
Eine Sprachanweisung beim ersten Start der App wird anders funktionieren, wenn die App aus Tausenden von Interaktionen gelernt hat, was die beste Vorgehensweise ist.
Interessant ist auch die Überlegung, dass sich das Nutzerverhalten ändern muss, damit die Sprachsteuerung vollständig angenommen wird. Derzeit tippen die Menschen viel mehr Text und nutzen grafische Oberflächen auf ihren Smartphones, als dass sie in ihre Telefone sprechen und Sprachassistenten verwenden.
Das liegt daran, dass die Spracherkennungstechnologie nicht perfekt ist. Seit Jahrzehnten gibt es auf Telefonen und Computern Sprachkürzel, die jedoch nicht weit verbreitet waren, weil die Fehlerquote so hoch war, dass der Aufwand für die Fehlersuche den Nutzen der Bequemlichkeit überstieg, nachdem der Reiz der Neuheit nachgelassen hatte.
Stellen Sie sich vor, die Spracherkennung wäre perfekt und es gäbe keine Fehlerquote.
In diesem Fall wäre es für die Menschen viel schneller, z. B. eine E-Mail per Sprache zu "tippen" als auf ihrem Smartphone. Sobald dieser kritische Punkt erreicht ist, wird die Sprachunterstützung für diese Art von Aufgaben allgegenwärtig sein.
Damit sich Bots durchsetzen können, müssen sowohl die NLP- als auch die Spracherkennungstechnologie auf einem hohen Niveau arbeiten. Während die Spracherkennung bereits sehr gut funktioniert, funktioniert NLP, wie wir bereits erörtert haben, nur in engen Bereichen gut.
Interessant ist hier, dass die Spracherkennung in engen Bereichen aus offensichtlichen Gründen viel besser funktioniert, da es viel weniger mögliche Wörter gibt, die der Benutzer sagen könnte.
Das bedeutet, dass wir bereits jetzt in der Lage sind, chatbots zu erstellen, die in einem engen Bereich nahezu perfekt sind. Hören Sie sich einfach die Google Duplex Demos an.
Dies wird dazu führen, dass die Sprachkommunikation sehr schnell angenommen wird, sobald die Erkennungs- und damit verbundenen Probleme gelöst sind.
Stimme zuerst
Die Idee ist, dass die Stimme die erste Anlaufstelle sein wird, wenn jemand Hilfe braucht.
In einer "Voice First"-Welt werden die Geräte unsichtbarer werden, da die Menschen sie nur noch für Aufgaben ansehen müssen, die sie nicht per Sprache erledigen können.
Die Menschen werden nicht nur ein Gerät in ihrem Wohnzimmer haben, sondern ein billiges Sprachgerät in jedem Raum. Diese Geräte werden untereinander, mit IoT-Geräten und mit Smartphones und Computern verbunden sein. Einige dieser Geräte werden in der Lage sein, Bilder an die Wände zu projizieren.
Die Menschen werden in der Lage sein, Fragen zu stellen oder Befehle zu geben, während sie unter der Dusche stehen oder sich die Zähne putzen. Sie werden sich nicht mehr an Dinge erinnern müssen, die sie dem Sprachroboter unten sagen sollen.
Es wird viel bessere Möglichkeiten geben, Funktionen zu entdecken und Menschen darin zu "schulen", wie sie die Bots effizient nutzen können.
Zwar gibt es derzeit viele Probleme mit Sprachassistenten, doch die meisten dieser Probleme haben eher mit der Art und Weise zu tun, wie sie genutzt werden, als mit der zugrunde liegenden Technologie. Wir glauben, dass in kurzer Zeit die "Killer-Apps" für die Sprachsteuerung auftauchen werden, und das wird die Art und Weise, wie die Software genutzt wird, grundlegend verändern. Dies wird auch eine gewisse Standardisierung von Sprachtechnologien und -protokollen erfordern, aber das sind Hindernisse, die den Fortschritt nicht lange aufhalten werden.
Wir freuen uns auf eine Welt der ultimativen Bequemlichkeit, in der sprachgesteuerte Geräte an fast jedem Ort und zu jeder Zeit bereit sind, zu helfen.
Inhaltsübersicht
Bleiben Sie auf dem Laufenden mit den neuesten Informationen über KI-Agenten
Teilen Sie dies auf: