Was bedeutet GPT-4o für Chatbots?

Geschrieben von

Sarah Chudleigh

Forscher und Leiter für KI-Inhalte

Inhaltsübersicht

Schritt 1. Der Titel des Schritts steht hier wie erwartet

Zusammenfassung

GPT ist doppelt so schnell und kostet nur halb so viel wie GPT Turbo, was den Preis drastisch senkt und die Reaktionszeiten für KI-Chatbots beschleunigt.
Das neue Modell ermöglicht fortschrittliche multimodale Funktionen - einschließlich Sprache, Video, Echtzeitübersetzung und Bildverarbeitung -, die innovative Anwendungsfälle für Chatbots jenseits von Text eröffnen.
Effizienzsteigerungen bei der Tokenisierung, insbesondere für Sprachen mit nicht-römischem Alphabet, bedeuten erhebliche Kosteneinsparungen für globale Chatbot-Einsätze.
Geschwindigkeitsverbesserungen verbessern direkt das Nutzererlebnis und verringern die Wartezeiten, die Chatbot-Nutzer traditionell frustrieren.

Doppelt so schnell und halb so teuer - was bedeutet GPT-4o für KI-Chatbots?

Nach einer geheimnisvollen Ankündigung hat OpenAI die neueste Version seines Flaggschiffs vorgestellt: GPT-4o.

Das neueste Modell hat nicht nur einen auffälligen Aufschwung bei den multimodalen Fähigkeiten erhalten. Es ist schneller und billiger als das GPT Turbo. Während die Mainstream-Medien von den Video- und Sprachfähigkeiten des neuen Flaggschiffmodells für ChatGPTsind die neuen Kosten und die Geschwindigkeit für diejenigen, die GPT für ihre Anwendungen nutzen, genauso wichtig.

Weiße Schrift auf einem indigoblauen Hintergrund. Ein Zitat von Botpress Software Engineer Lead Patrick Hamelin , das lautet: "Die Verfügbarkeit von 4o hat das Potenzial, sowohl den Bauherrn als auch die Benutzererfahrung erheblich zu verbessern. Die Auswirkungen sind weitreichender als wir denken."

"Die Verfügbarkeit von 4o hat das Potenzial, sowohl den Bauherrn als auch die Nutzererfahrung erheblich zu verbessern", sagte Patrick Hamelin, ein leitender Softwareingenieur bei Botpress. "Die Auswirkungen sind weitreichender als wir denken."

Schauen wir uns also an, wie das neue Modell die KI aufrütteln wird chatbots.

AI aufbauen Chatbots

Erstellen Sie benutzerdefinierte agenturische Chatbots

Jetzt anfangen

Modell-Fähigkeiten

Sagen Sie hallo zu GPT-4o

Das neue Flaggschiff verfügt über eine Reihe von Updates und neuen Funktionen: verbesserte Sprach- und Videofunktionen, Echtzeitübersetzung, mehr natürliche Sprachfähigkeiten. Es kann Bilder analysieren, eine größere Vielfalt an Audioeingaben verstehen, Zusammenfassungen erstellen, Echtzeitübersetzungen ermöglichen und Diagramme erstellen. Die Benutzer können Dateien hochladen und eine Konversation von Sprache zu Sprache führen. Es gibt sogar eine Desktop-App.

In einer Reihe von Einführungsvideos demonstrieren Mitarbeiter von OpenAI (und Partner wie Sal Khan von der Khan Academy), wie die neueste Version von GPT einen Benutzer auf ein Vorstellungsgespräch vorbereitet, singt, menschliche Emotionen durch Gesichtsausdrücke erkennt, geschriebene mathematische Gleichungen löst und sogar mit einem anderen ChatGPT-4o interagiert.

Die Einführung veranschaulichte eine neue Realität, in der ein KI-Modell in der Lage ist, das Geschriebene im Notizbuch Ihres Kindes zu analysieren und darauf zu reagieren. Es könnte das Konzept der Addition von Brüchen zum ersten Mal erklären und den Tonfall und die Taktik je nach Verständnis des Kindes ändern - es könnte die Grenze vom Chatbot zum persönlichen Tutor überschreiten.

Ein Video-Screenshot eines GPT-4o Demo-Videos mit dem Kan Academy Schöpfer Sal Khan und seinem Sohn. — *Sal Khan, der Erfinder von Khan Academy, und sein Sohn demonstrieren die Fähigkeit von GPT-4o, Nachhilfe in Geometrie zu geben.*

Was bedeutet GPT-4o für LLM Chatbots?

KI-Chatbots, die auf LLMs laufen, erhalten jedes Mal ein Update, wenn Unternehmen wie OpenAI ihre Modelle aktualisieren. Wenn ein LLM mit einer Bot-Building-Plattform wie Botpress verbunden ist, erhält er alle Vorteile des neuesten GPT in seinen eigenen Chatbots.

Mit der Veröffentlichung von GPT-4o können KI-Chatbots nun auf dem erweiterten Modell laufen, wodurch sich ihre Fähigkeiten, ihr Preis und ihre Geschwindigkeit ändern. Das neue Modell hat 5x höhere Ratenlimits als GPT-4 Turbo und kann bis zu 10 Millionen Token pro Minute verarbeiten.

Für Bots, die Audiointegrationen wie Twilio auf Botpress nutzen, ist eine neue Welt der sprachgesteuerten Interaktion entstanden. Anstatt sich auf die Audioverarbeitung von früher zu beschränken, ist chatbots einen Schritt näher an der Nachahmung menschlicher Interaktion.

Am wichtigsten sind vielleicht die niedrigeren Kosten für zahlende Nutzer. Der Betrieb eines ähnlich leistungsfähigen Chatbots für die Hälfte der Kosten kann den Zugang und die Erschwinglichkeit weltweit drastisch erhöhen. Und die Nutzer von Botpress zahlen keine zusätzlichen KI-Ausgaben für ihre Bots - diese Einsparungen gehen also direkt an die Bauherren.

Und auf der Nutzerseite bedeutet GPT-4o eine weitaus bessere Nutzererfahrung. Keiner wartet gerne. Kürzere Antwortzeiten bedeuten eine höhere Nutzerzufriedenheit für KI-Chatbot-Nutzer.

*Im Botpress Studio können Benutzer verschiedene Versionen von GPT für verschiedene Teile des Arbeitsablaufs ihres Bots auswählen.*

Benutzer lieben Geschwindigkeit

Ein wichtiger Punkt bei der Einführung von Chatbots ist die Verbesserung der Nutzererfahrung. Und was verbessert das Nutzererlebnis mehr als die Verkürzung von Wartezeiten?

"Es wird sicher eine bessere Erfahrung sein", sagte Hamelin. "Das Letzte, was man will, ist, auf jemanden zu warten."

Menschen hassen das Warten. Schon 2003 wurde in einer Studie festgestellt, dass die Menschen nur etwa 2 Sekunden warten, bis eine Webseite geladen ist. Unsere Geduld hat sich seither sicherlich nicht verbessert.

Und jeder hasst das Warten

Es gibt eine Fülle von UX-Tipps, um die gefühlte Wartezeit zu verkürzen. Oft können wir die Geschwindigkeit von Ereignissen nicht verbessern, also konzentrieren wir uns darauf, wie wir den Benutzern das Gefühl geben können, dass die Zeit schneller vergeht. Visuelles Feedback, wie ein Ladebalken, kann die gefühlte Wartezeit verkürzen.

In einer berühmten Geschichte über die Wartezeiten von Aufzügen gab es in einem alten New Yorker Gebäude eine Flut von Beschwerden. Die Bewohner mussten 1-2 Minuten warten, bis der Aufzug ankam. Das Gebäude war nicht in der Lage, den Aufzug auf ein neueres Modell umzurüsten, und die Bewohner drohten, ihre Mietverträge zu kündigen.

Ein neuer Mitarbeiter mit psychologischer Ausbildung fand heraus, dass das eigentliche Problem nicht die zwei Minuten verlorene Zeit waren, sondern die Langeweile. Er schlug vor, Spiegel anzubringen, damit die Bewohner sich selbst oder andere beim Warten betrachten konnten. Die Beschwerden über den Aufzug hörten auf, und heute sind Spiegel in Aufzugshallen gang und gäbe.

Anstatt Abkürzungen zu nehmen, um das Benutzererlebnis zu verbessern - wie z. B. visuelles Feedback - hat OpenAI das Erlebnis an der Quelle verbessert. Geschwindigkeit ist für das Benutzererlebnis von zentraler Bedeutung, und es gibt keinen Trick, der die Zufriedenheit einer effizienten Interaktion übertrifft.

Sparen für alle

Die Nutzung dieses neuen KI-Modells zur Ausführung von Anwendungen wurde plötzlich billiger. Sehr viel billiger.

Der Betrieb eines KI-Chatbots in großem Maßstab kann teuer werden. Die LLM , von der Ihr Bot angetrieben wird, bestimmt, wie viel Sie für jede Benutzerinteraktion in größerem Umfang bezahlen (zumindest bei Botpress, wo wir die KI-Ausgaben 1:1 mit den Kosten für LLM abgleichen).

Und diese Einsparungen gelten nicht nur für Entwickler, die API verwenden. ChatGPT-4o ist die neueste kostenlose Version von LLM, neben GPT-3.5. Kostenlose Nutzer können die App ChatGPT kostenlos nutzen.

Bessere Tokenisierung

Wenn Sie mit dem Modell in einer Sprache interagieren, die nicht das römische Alphabet verwendet, senkt GPT-4o Ihre API-Kosten noch weiter.

Eine Visualisierung, die zeigt, wie viel effizienter die Tokenisierung mit GPT-4o im Vergleich zu Turbo ist. Indoarische Sprachen wie Hindi und Gujarati haben eine durchschnittliche Tokenisierungsreduktion von 2,9-4,4. Arabisch hat eine 2-fache Reduktion und ostasiatische Sprachen wie Japanisch, Koreanisch und Chinesisch haben eine 1,4-1,x Reduktion. — *Wie viel effizienter ist die GPT-4o Tokenisierung? Das hängt von der Sprache ab.*

Das neue Modell verfügt über verbesserte Nutzungsgrenzen. Es bietet einen deutlichen Sprung in der Tokenisierungseffizienz, der sich weitgehend auf bestimmte nicht-englische Sprachen konzentriert.

Das neue Tokenisierungsmodell erfordert weniger Token zur Verarbeitung von Eingabetext. Es ist weitaus effizienter für logografische Sprachen (d. h. Sprachen, die Symbole und Zeichen anstelle von einzelnen Buchstaben verwenden).

Diese Vorteile konzentrieren sich weitgehend auf die Sprachen, die nicht das lateinische Alphabet verwenden. Die Einsparungen wurden wie folgt geschätzt:

Indische Sprachen wie Hindi, Tamil oder Gujarati weisen eine 2,9- bis 4,4-fache Reduzierung der Token auf.
Arabisch hat eine ~2x geringere Anzahl von Token
Ostasiatische Sprachen wie Chinesisch, Japanisch und Vietnamesisch weisen eine 1,4- bis 1,7-fache Reduzierung der Token auf.

Einsatz von KI-Agenten?

Lesen Sie unseren Leitfaden für die Implementierung von AI-Agenten

Jetzt lesen

Überwindung der digitalen Kluft bei KI

Das digitale Zeitalter hat eine Ausweitung des uralten, gut dokumentierten Wohlstandsgefälles mit sich gebracht - die digitale Kluft. Genauso wie der Zugang zu Wohlstand und einer starken Infrastruktur nur bestimmten Bevölkerungsgruppen vorbehalten ist, gilt dies auch für den Zugang zu KI und den damit verbundenen Möglichkeiten und Vorteilen.

Robert Opp, Chief Digital Officer beim Entwicklungsprogramm der Vereinten Nationen (UNDP), erklärte, dass das Vorhandensein von KI-Plattformen die Fähigkeit hat, die Entwicklungskennzahlen eines ganzen Landes zu beeinflussen:

"Eine große Sorge, die wir haben, ist, dass Länder, die besser ausgestattet sind und mehr Erfahrung mit KI-Plattformen haben, sowohl in Bezug auf die Entwicklung als auch auf die Nutzung, einen viel schnelleren Entwicklungsprozess haben könnten, während Länder, die nicht über diese Fähigkeiten und Kapazitäten verfügen, zurückbleiben werden."

Eine hell geschmückte Bühne mit vier Personen in weißen Sesseln. Opp sitzt ganz rechts und spricht in ein Mikrofon. — *Robert Opp, Chief Digital Officer beim UNDP, spricht auf dem Global Digital Public Infrastructure Summit in Indien (2024). Foto von* *UNDP Digital X*.

Mit der Halbierung der Kosten für GPT-4o und der Einführung einer kostenlosen Version unternimmt OpenAI einen entscheidenden Schritt, um eines der größten Probleme im Bereich der KI zu neutralisieren - und die Ungleichheit, die Politiker und Wirtschaftswissenschaftler beschäftigt, direkt anzugehen.

Ein positiver PR-Schritt für große KI ist notwendiger, als Enthusiasten vielleicht denken. Da KI in unserem Alltag immer präsenter wird, haben Befürworter und Skeptiker gleichermaßen gefragt, wie wir KI "für das Gute" nutzen können.

Weiße Schrift auf indigoblauem Hintergrund. Ein Zitat des KI-Pädagogen Louis Bouchard lautet: "KI zugänglich zu machen, ist eine, wenn nicht die beste Möglichkeit, KI 'für das Gute' zu nutzen."

Laut dem KI-Doktoranden und Pädagogen Louis Bouchard können wir genau das erreichen, indem wir den Zugang zu KI verbreitern: "KI zugänglich zu machen ist eine, wenn nicht die beste Möglichkeit, KI 'für das Gute' zu nutzen." Seine Argumentation? Wenn wir schon nicht in der Lage sind, die positiven und negativen Auswirkungen der KI-Technologie vollständig zu kontrollieren - zumindest in ihrer Anfangsphase - können wir stattdessen einen gleichberechtigten Zugang zu ihren potenziellen Vorteilen sicherstellen.

Erweitertes multimodales Potenzial

Die gängige Art, mit einem Chatbot eines Unternehmens zu interagieren, ist über Text, aber die erweiterten multimodalen Fähigkeiten des neuen KI-Modells von OpenAIlassen vermuten, dass sich dies in Zukunft ändern könnte.

Im kommenden Jahr werden wir wahrscheinlich eine Flut von Entwicklern erleben, die neue Anwendungen auf den Markt bringen, die die neu zugänglichen Audio-, Bild- und Videofunktionen optimal nutzen.

Zum Beispiel könnten Chatbots mit GPT die Fähigkeit haben,:

Bitten Sie die Kunden um ein Bild des Artikels, den sie zurückgeben, um das Produkt zu identifizieren und sicherzustellen, dass es nicht beschädigt ist.
Audioübersetzung von Gesprächen in Echtzeit unter Berücksichtigung regionalspezifischer Dialekte
Erkennen Sie anhand des Bildes in der Pfanne, ob Ihr Steak durchgebraten ist
Funktion als kostenloser persönlicher Fremdenführer, der anhand eines Bildes einer alten Kathedrale historische Zusammenhänge aufzeigt, Übersetzungen in Echtzeit liefert und eine maßgeschneiderte Sprachtour anbietet, die Rückfragen und Kommunikation ermöglicht
eine Anwendung zum Erlernen von Sprachen, die auf Audio-Eingaben hört, Feedback zur Aussprache auf der Grundlage eines Videos Ihrer Mundbewegungen gibt oder Gebärdensprache durch Bilder und Videos vermittelt
Unterstützung bei nicht dringenden psychischen Problemen durch die Kombination von Audio- und Videointerpretation, die eine kostengünstige Gesprächstherapie ermöglicht

Mit KI-Modellen, die Bilder und Audiosignale interpretieren können, erweitert sich unser Verständnis davon, wie LLMs uns helfen kann, rasch.

Multimodalität bedeutet Zugänglichkeit

Wir haben bereits gesehen, wie die erweiterten multimodalen Funktionen für soziale Zwecke eingesetzt werden. Ein perfektes Beispiel ist die Partnerschaft vonOpenAImit Be My Eyes.

Be My Eyes ist ein dänisches Start-up, das sehbehinderte Nutzer mit sehenden Freiwilligen zusammenbringt. Wenn ein Nutzer Hilfe benötigt - etwa beim Aussuchen der richtigen Konserven im Supermarkt oder beim Erkennen der Farbe eines T-Shirts -, verbindet ihn die App per Video über sein Smartphone mit einem sehenden Freiwilligen auf der ganzen Welt.

Eine hellblaue Ankündigung für "Be My AI" mit der Aufschrift "Rolling out out". Auf der rechten Seite ist das Bild eines Smartphones zu sehen, das einen verlassenen Weg am Meer zeigt, mit einer von der KI generierten Beschreibung des Bildes. — *Die Partnerschaft und Produktankündigung für Be My Eyes x OpenAI.*

OpenAIDie neue Sehfähigkeit von Be My Eyes kann den Nutzern ein noch hilfreicheres Erlebnis bieten. Anstatt sich auf einen menschlichen Freiwilligen zu verlassen, der ein Bild oder Video in Echtzeit visuell entschlüsselt, können blinde Nutzer ein Bild oder Video an ihr Gerät senden, auf das das Modell mit Audioinformationen reagieren kann.

OpenAI und Be My Eyes, jetzt vertrauensvolle Partner, ebnen den Weg zu mehr Unabhängigkeit für gesetzlich blinde Menschen auf der ganzen Welt. Michael Buckley, CEO von Be My Eyes, erklärt, was das bedeutet:

"In der kurzen Zeit, in der wir Zugang hatten, haben wir eine Leistung gesehen, die mit keinem anderen Bild-zu-Text-Objekterkennungstool auf dem Markt vergleichbar ist. Die Auswirkungen auf die globale Barrierefreiheit sind tiefgreifend. In nicht allzu ferner Zukunft werden Blinde und Sehbehinderte diese Hilfsmittel nicht nur für eine Vielzahl visueller Interpretationen nutzen, sondern auch, um ein größeres Maß an Unabhängigkeit in ihrem Leben zu erlangen."

Drei Bilder von Smartphones, die Be My Eyes verwenden. Eines zeigt eine Reihe von gemusterten Krawatten, eines zeigt einen Nutzer, der eine Flasche Sonnencreme in die Kamera hält, und eines zeigt kleine, bunte Häuser. — *Be My Eyes bringt sehbehinderte Nutzer mit sehenden Freiwilligen zusammen, um visuelle Aufgaben zu erledigen. Fotos von Be My Eyes.*

Be My Eyes Zugänglichkeit mit GPT-4o

Der neue Dienst wird bald, im Sommer 2024, zum ersten Mal eingeführt. Nutzer mit frühem Zugang haben die neuen Seh-, Video- und Audiofunktionen bereits in der Beta-Version getestet und waren begeistert. Während die Auswirkungen der künstlichen Intelligenz bei Skeptikern Besorgnis hervorrufen können, ist diese Partnerschaft ein klares Zeichen für die positiven Auswirkungen, die sie mit sich bringen kann. Das Verständnis für den sozialen Nutzen fortschrittlicher KI ist ein entscheidender Schritt für ihre PR.

Wie werden wir künftige LLM Modelle beurteilen?

Da sich die Wettbewerber weiterhin in einem Wettlauf nach unten befinden - um die billigste, schnellste LLM - stellt sich die Frage: Wie werden wir die KI-Modelle von morgen beurteilen?

Irgendwann in der Zukunft werden die großen Hersteller von LLM (wahrscheinlich OpenAI und Google) ein Plateau erreichen, wenn es darum geht, wie schnell ihre Modelle laufen und wie billig sie den Zugang anbieten können. Wie werden wir das marktführende Modell krönen, sobald wir Stabilität bei Kosten und Geschwindigkeit erreicht haben?

Was wird das neue Zeichen der Zeit sein? Ob es sich um die verfügbaren Persönlichkeiten Ihres Modells der künstlichen Intelligenz, die Möglichkeiten der Videoverbesserung, die für kostenlose Nutzer verfügbaren Funktionen oder brandneue Messgrößen jenseits unseres derzeitigen Verständnisses handelt, die nächste Generation von LLMs steht vor unserer Tür.

AI Chatbots leicht gemacht

Was wäre, wenn sich Ihr KI-Chatbot automatisch mit jedem GPT -Update synchronisieren würde?

Botpress bietet seit 2017 anpassbare KI-Chatbot-Lösungen an und stellt Entwicklern die Tools zur Verfügung, die sie benötigen, um Chatbots mit der Leistung der neuesten LLMs zu erstellen. Botpress Chatbots können auf benutzerdefinierten Wissensquellen - wie Ihrer Website oder Ihrem Produktkatalog - trainiert werden und sich nahtlos in Geschäftssysteme integrieren.

Die einzige Plattform, die von der Einrichtung ohne Code bis zur endlosen Anpassbarkeit und Erweiterbarkeit reicht, Botpress ermöglicht es Ihnen, automatisch die Leistung der neuesten GPT Version auf Ihrem Chatbot zu erhalten - ohne jeglichen Aufwand.

‍Beginnen Sienoch heute mit demBau. Es ist kostenlos.

AI aufbauen Chatbots

Erstellen Sie benutzerdefinierte agenturische Chatbots

Jetzt anfangen

FAQs

1. Wie kann ich meinen bestehenden Chatbot auf GPT auf Botpress umstellen?

Um Ihren bestehenden Chatbot auf GPT auf Botpress umzustellen, gehen Sie zum Botpress Studio, navigieren Sie zu den LLM Ihres Assistenten und wählen Sie GPT aus dem verfügbaren Modell-Dropdown. Die Änderung wird sofort übernommen, ohne dass Codeänderungen erforderlich sind.

2. Gibt es Voraussetzungen für die Verwendung von GPT innerhalb der Botpress (z. B. SDKs, API-Versionen)?

Nein, es gibt keine Voraussetzungen für die Verwendung von GPT in Botpress. Die Plattform verwaltet alle SDKs, API-Updates und Backend-Abhängigkeiten automatisch, sodass Sie GPT nur in den Einstellungen auswählen müssen, um es zu aktivieren.

3. Kann GPT über Botpress auf bestimmte Geschäftsfälle abgestimmt oder angepasst werden?

GPT kann zwar nicht im herkömmlichen Sinne innerhalb von Botpress feinabgestimmt werden, aber Sie können seine Antworten und sein Verhalten mithilfe von Prompt Engineering, Workflow-Logik, Wissensdatenbanken und Variablen anpassen. So kann sich GPT kontextabhängig an Ihre geschäftlichen Anforderungen anpassen, ohne dass das Modell neu geschult werden muss.

4. Gibt es Einschränkungen bei der Nutzung multimodaler Funktionen (Sprache, Sehen) in Botpress ?

Ja, Botpress unterstützt derzeit Sprachfunktionen durch Integrationen wie Twilio oder Dialogflow Voice Gateway, aber multimodale Funktionen wie die Verarbeitung von Bildern oder Videos werden noch nicht vollständig unterstützt. Vision-basierte Eingaben werden noch geprüft oder erfordern Workarounds.

5. Gibt es versteckte Kosten für die Nutzung der erweiterten Funktionen des GPT wie Echtzeit-Übersetzung oder Bildverarbeitung?

Nein, es gibt keine versteckten Kosten für die Nutzung der erweiterten Funktionen von GPT in Botpress. Die Geschwindigkeits- und Effizienzvorteile von GPT sind in Ihrem bestehenden Botpress enthalten, und die LLM werden von Botpress abgedeckt - es fallen also keine zusätzlichen Kosten für die Nutzung der GPT an.