Doppelt so schnell und halb so teuer - was bedeutet GPT-4o für KI-Chatbots?
Nach einer geheimnisvollen Ankündigung hat OpenAI die neueste Version seines Flaggschiffs vorgestellt: GPT-4o.
Das neueste Modell wurde nicht nur in Bezug auf seine multimodalen Fähigkeiten aufgepeppt. Es ist schneller und billiger als GPT-4 Turbo. Während die Mainstream-Medien von den Video- und Sprachfunktionen des neuen Flaggschiffs begeistert sind, sind die neuen Kosten und die Geschwindigkeit für diejenigen, die GPT für ihre Anwendungen nutzen, genauso wichtig.
"Die Verfügbarkeit von 4o hat das Potenzial, sowohl den Bauherrn als auch die Nutzererfahrung erheblich zu verbessern", sagte Patrick Hamelin, ein leitender Softwareingenieur bei Botpress. "Die Auswirkungen sind weitreichender als wir denken."
Schauen wir uns also an, wie das neue Modell die KI aufrütteln wird chatbots.
Modell-Fähigkeiten
Das neue Flaggschiff verfügt über eine Reihe von Updates und neuen Funktionen: verbesserte Sprach- und Videofunktionen, Echtzeitübersetzung, mehr natürliche Sprachfähigkeiten. Es kann Bilder analysieren, eine größere Vielfalt an Audioeingaben verstehen, Zusammenfassungen erstellen, Echtzeitübersetzungen ermöglichen und Diagramme erstellen. Die Benutzer können Dateien hochladen und eine Konversation von Sprache zu Sprache führen. Es gibt sogar eine Desktop-App.
In einer Reihe von Einführungsvideos demonstrieren Mitarbeiter von OpenAI (und Partner wie Sal Khan von der Khan Academy), wie die neueste Version von GPT einen Benutzer auf ein Vorstellungsgespräch vorbereitet, singt, menschliche Emotionen durch Gesichtsausdrücke erkennt, geschriebene mathematische Gleichungen löst und sogar mit einem anderen ChatGPT-4o interagiert.
Die Einführung veranschaulichte eine neue Realität, in der ein KI-Modell in der Lage ist, das Geschriebene im Notizbuch Ihres Kindes zu analysieren und darauf zu reagieren. Es könnte das Konzept der Addition von Brüchen zum ersten Mal erklären und den Tonfall und die Taktik je nach Verständnis des Kindes ändern - es könnte die Grenze vom Chatbot zum persönlichen Tutor überschreiten.
Was bedeutet GPT-4o für LLM Chatbots?
KI-Chatbots, die auf LLMs laufen, erhalten jedes Mal ein Update, wenn Unternehmen wie OpenAI ihre Modelle aktualisieren. Wenn ein Chatbot mit einer Bot-Building-Plattform wie Botpress verbunden ist, erhalten sie alle Vorteile des neuesten GPT Modells in ihren eigenen Chatbots.
Mit der Veröffentlichung von GPT-4o können KI-Chatbots nun auf dem erweiterten Modell laufen, wodurch sich ihre Fähigkeiten, ihr Preis und ihre Geschwindigkeit ändern. Das neue Modell hat 5x höhere Ratenlimits als GPT-4 Turbo und kann bis zu 10 Millionen Token pro Minute verarbeiten.
Für Bots, die Audiointegrationen wie Twilio auf Botpress nutzen, ist eine neue Welt der sprachgesteuerten Interaktion entstanden. Anstatt sich auf die Audioverarbeitung von früher zu beschränken, ist chatbots einen Schritt näher an der Nachahmung menschlicher Interaktion.
Am wichtigsten sind vielleicht die niedrigeren Kosten für zahlende Nutzer. Der Betrieb eines ähnlich leistungsfähigen Chatbots für die Hälfte der Kosten kann den Zugang und die Erschwinglichkeit weltweit drastisch erhöhen. Und die Nutzer von Botpress zahlen keine zusätzlichen KI-Ausgaben für ihre Bots - diese Einsparungen gehen also direkt an die Bauherren.
Und auf der Nutzerseite bedeutet GPT-4o eine weitaus bessere Nutzererfahrung. Keiner wartet gerne. Kürzere Antwortzeiten bedeuten eine höhere Nutzerzufriedenheit für KI-Chatbot-Nutzer.
Benutzer lieben Geschwindigkeit
Ein wichtiger Punkt bei der Einführung von Chatbots ist die Verbesserung der Nutzererfahrung. Und was verbessert das Nutzererlebnis mehr als die Verkürzung von Wartezeiten?
"Es wird sicher eine bessere Erfahrung sein", sagte Hamelin. "Das Letzte, was man will, ist, auf jemanden zu warten."
Menschen hassen das Warten. Schon 2003 wurde in einer Studie festgestellt, dass die Menschen nur etwa 2 Sekunden warten, bis eine Webseite geladen ist. Unsere Geduld hat sich seither sicherlich nicht verbessert.
Und jeder hasst das Warten
Es gibt eine Fülle von UX-Tipps, um die gefühlte Wartezeit zu verkürzen. Oft können wir die Geschwindigkeit von Ereignissen nicht verbessern, also konzentrieren wir uns darauf, wie wir den Benutzern das Gefühl geben können, dass die Zeit schneller vergeht. Visuelles Feedback, wie ein Ladebalken, kann die gefühlte Wartezeit verkürzen.
In einer berühmten Geschichte über die Wartezeiten von Aufzügen gab es in einem alten New Yorker Gebäude eine Flut von Beschwerden. Die Bewohner mussten 1-2 Minuten warten, bis der Aufzug ankam. Das Gebäude war nicht in der Lage, den Aufzug auf ein neueres Modell umzurüsten, und die Bewohner drohten, ihre Mietverträge zu kündigen.
Ein neuer Mitarbeiter mit psychologischer Ausbildung fand heraus, dass das eigentliche Problem nicht die zwei Minuten verlorene Zeit waren, sondern die Langeweile. Er schlug vor, Spiegel anzubringen, damit die Bewohner sich selbst oder andere beim Warten betrachten konnten. Die Beschwerden über den Aufzug hörten auf, und heute sind Spiegel in Aufzugshallen gang und gäbe.
Anstatt Abkürzungen zu nehmen, um das Benutzererlebnis zu verbessern - wie z. B. visuelles Feedback - hat OpenAI das Erlebnis an der Quelle verbessert. Geschwindigkeit ist für das Benutzererlebnis von zentraler Bedeutung, und es gibt keinen Trick, der die Zufriedenheit einer effizienten Interaktion übertrifft.
Sparen für alle
Die Nutzung dieses neuen KI-Modells zur Ausführung von Anwendungen wurde plötzlich billiger. Sehr viel billiger.
Der Betrieb eines KI-Chatbots in großem Maßstab kann teuer werden. Die LLM , von der Ihr Bot angetrieben wird, bestimmt, wie viel Sie für jede Benutzerinteraktion in größerem Umfang bezahlen (zumindest bei Botpress, wo wir die KI-Ausgaben 1:1 mit den Kosten für LLM abgleichen).
Und diese Einsparungen gelten nicht nur für Entwickler, die API verwenden. ChatGPT-4o ist die neueste kostenlose Version von LLM, neben GPT-3.5. Kostenlose Nutzer können die App ChatGPT kostenlos nutzen.
Bessere Tokenisierung
Wenn Sie mit dem Modell in einer Sprache interagieren, die nicht das römische Alphabet verwendet, senkt GPT-4o Ihre API-Kosten noch weiter.
Das neue Modell verfügt über verbesserte Nutzungsgrenzen. Es bietet einen deutlichen Sprung in der Tokenisierungseffizienz, der sich weitgehend auf bestimmte nicht-englische Sprachen konzentriert.
Das neue Tokenisierungsmodell erfordert weniger Token zur Verarbeitung von Eingabetext. Es ist weitaus effizienter für logografische Sprachen (d. h. Sprachen, die Symbole und Zeichen anstelle von einzelnen Buchstaben verwenden).
Diese Vorteile konzentrieren sich weitgehend auf die Sprachen, die nicht das lateinische Alphabet verwenden. Die Einsparungen wurden wie folgt geschätzt:
- Indische Sprachen wie Hindi, Tamil oder Gujarati weisen eine 2,9- bis 4,4-fache Reduzierung der Token auf.
- Arabisch hat eine ~2x geringere Anzahl von Token
- Ostasiatische Sprachen wie Chinesisch, Japanisch und Vietnamesisch weisen eine 1,4- bis 1,7-fache Reduzierung der Token auf.
Überwindung der digitalen Kluft bei KI
Das digitale Zeitalter hat eine Ausweitung des uralten, gut dokumentierten Wohlstandsgefälles mit sich gebracht - die digitale Kluft. Genauso wie der Zugang zu Wohlstand und einer starken Infrastruktur nur bestimmten Bevölkerungsgruppen vorbehalten ist, gilt dies auch für den Zugang zu KI und den damit verbundenen Möglichkeiten und Vorteilen.
Robert Opp, Chief Digital Officer beim Entwicklungsprogramm der Vereinten Nationen (UNDP), erklärte, dass das Vorhandensein von KI-Plattformen die Fähigkeit hat, die Entwicklungskennzahlen eines ganzen Landes zu beeinflussen:
Mit der Halbierung der Kosten für GPT-4o und der Einführung einer kostenlosen Version unternimmt OpenAI einen entscheidenden Schritt, um eines der größten Probleme im Bereich der KI zu neutralisieren - und die Ungleichheit, die Politiker und Wirtschaftswissenschaftler beschäftigt, direkt anzugehen.
Ein positiver PR-Schritt für große KI ist notwendiger, als Enthusiasten vielleicht denken. Da KI in unserem Alltag immer präsenter wird, haben Befürworter und Skeptiker gleichermaßen gefragt, wie wir KI "für das Gute" nutzen können.
Laut dem KI-Doktoranden und Pädagogen Louis Bouchard können wir genau das erreichen, indem wir den Zugang zu KI verbreitern: "KI zugänglich zu machen ist eine, wenn nicht die beste Möglichkeit, KI 'für das Gute' zu nutzen." Seine Argumentation? Wenn wir schon nicht in der Lage sind, die positiven und negativen Auswirkungen der KI-Technologie vollständig zu kontrollieren - zumindest in ihrer Anfangsphase - können wir stattdessen einen gleichberechtigten Zugang zu ihren potenziellen Vorteilen sicherstellen.
Erweitertes multimodales Potenzial
Die gängige Art, mit einem Chatbot eines Unternehmens zu interagieren, ist über Text, aber die erweiterten multimodalen Fähigkeiten des neuen KI-Modells von OpenAIlassen vermuten, dass sich dies in Zukunft ändern könnte.
Im kommenden Jahr werden wir wahrscheinlich eine Flut von Entwicklern erleben, die neue Anwendungen auf den Markt bringen, die die neu zugänglichen Audio-, Bild- und Videofunktionen optimal nutzen.
Zum Beispiel könnten Chatbots mit GPT die Fähigkeit haben,:
- Bitten Sie die Kunden um ein Bild des Artikels, den sie zurückgeben, um das Produkt zu identifizieren und sicherzustellen, dass es nicht beschädigt ist.
- Audioübersetzung von Gesprächen in Echtzeit unter Berücksichtigung regionalspezifischer Dialekte
- Erkennen Sie anhand des Bildes in der Pfanne, ob Ihr Steak durchgebraten ist
- Funktion als kostenloser persönlicher Fremdenführer, der anhand eines Bildes einer alten Kathedrale historische Zusammenhänge aufzeigt, Übersetzungen in Echtzeit liefert und eine maßgeschneiderte Sprachtour anbietet, die Rückfragen und Kommunikation ermöglicht
- eine Anwendung zum Erlernen von Sprachen, die auf Audio-Eingaben hört, Feedback zur Aussprache auf der Grundlage eines Videos Ihrer Mundbewegungen gibt oder Gebärdensprache durch Bilder und Videos vermittelt
- Unterstützung bei nicht dringenden psychischen Problemen durch die Kombination von Audio- und Videointerpretation, die eine kostengünstige Gesprächstherapie ermöglicht
Mit KI-Modellen, die Bilder und Audiosignale interpretieren können, erweitert sich unser Verständnis davon, wie LLMs uns helfen kann, rasch.
Multimodalität bedeutet Zugänglichkeit
Wir haben bereits gesehen, wie die erweiterten multimodalen Funktionen für soziale Zwecke eingesetzt werden. Ein perfektes Beispiel ist die Partnerschaft vonOpenAImit Be My Eyes.
Be My Eyes ist ein dänisches Start-up, das sehbehinderte Nutzer mit sehenden Freiwilligen zusammenbringt. Wenn ein Nutzer Hilfe benötigt - etwa beim Aussuchen der richtigen Konserven im Supermarkt oder beim Erkennen der Farbe eines T-Shirts -, verbindet ihn die App per Video über sein Smartphone mit einem sehenden Freiwilligen auf der ganzen Welt.
OpenAIDie neue Sehfähigkeit von Be My Eyes kann den Nutzern ein noch hilfreicheres Erlebnis bieten. Anstatt sich auf einen menschlichen Freiwilligen zu verlassen, der ein Bild oder Video in Echtzeit visuell entschlüsselt, können blinde Nutzer ein Bild oder Video an ihr Gerät senden, auf das das Modell mit Audioinformationen reagieren kann.
OpenAI und Be My Eyes, jetzt vertrauensvolle Partner, ebnen den Weg zu mehr Unabhängigkeit für gesetzlich blinde Menschen auf der ganzen Welt. Michael Buckley, CEO von Be My Eyes, erklärt, was das bedeutet:
Der neue Dienst wird bald, im Sommer 2024, zum ersten Mal eingeführt. Nutzer mit frühem Zugang haben die neuen Seh-, Video- und Audiofunktionen bereits in der Beta-Version getestet und waren begeistert. Während die Auswirkungen der künstlichen Intelligenz bei Skeptikern Besorgnis hervorrufen können, ist diese Partnerschaft ein klares Zeichen für die positiven Auswirkungen, die sie mit sich bringen kann. Das Verständnis für den sozialen Nutzen fortschrittlicher KI ist ein entscheidender Schritt für ihre PR.
Wie werden wir künftige LLM Modelle beurteilen?
Da sich die Wettbewerber weiterhin in einem Wettlauf nach unten befinden - um die billigste, schnellste LLM - stellt sich die Frage: Wie werden wir die KI-Modelle von morgen beurteilen?
Irgendwann in der Zukunft werden die großen Hersteller von LLM (wahrscheinlich OpenAI und Google) ein Plateau erreichen, wenn es darum geht, wie schnell ihre Modelle laufen und wie billig sie den Zugang anbieten können. Wie werden wir das marktführende Modell krönen, sobald wir Stabilität bei Kosten und Geschwindigkeit erreicht haben?
Was wird das neue Zeichen der Zeit sein? Ob es sich um die verfügbaren Persönlichkeiten Ihres Modells der künstlichen Intelligenz, die Möglichkeiten der Videoverbesserung, die für kostenlose Nutzer verfügbaren Funktionen oder brandneue Messgrößen jenseits unseres derzeitigen Verständnisses handelt, die nächste Generation von LLMs steht vor unserer Tür.
AI Chatbots leicht gemacht
Was wäre, wenn sich Ihr KI-Chatbot automatisch mit jedem GPT -Update synchronisieren würde?
Botpress bietet seit 2017 anpassbare KI-Chatbot-Lösungen an und stellt Entwicklern die Tools zur Verfügung, die sie benötigen, um Chatbots mit der Leistung der neuesten LLMs zu erstellen. Botpress Chatbots können auf benutzerdefinierten Wissensquellen - wie Ihrer Website oder Ihrem Produktkatalog - trainiert werden und sich nahtlos in Geschäftssysteme integrieren.
Die einzige Plattform, die von der Einrichtung ohne Code bis zur endlosen Anpassbarkeit und Erweiterbarkeit reicht, Botpress ermöglicht es Ihnen, automatisch die Leistung der neuesten GPT Version auf Ihrem Chatbot zu erhalten - ohne jeglichen Aufwand.
Beginnen Sienoch heute mit demBau. Es ist kostenlos.
Inhaltsübersicht
Bleiben Sie auf dem Laufenden mit den neuesten Informationen über KI-Agenten
Teilen Sie dies auf: