Dwa razy szybszy i o połowę tańszy - co oznacza GPT-4o dla chatbotów AI?
Zgodnie z tajemniczą zapowiedzią, OpenAI wprowadził na rynek najnowszą wersję swojego flagowego modelu: GPT-4o.
Najnowszy model nie tylko otrzymał krzykliwy blask możliwości multimodalnych. Jest szybszy i tańszy niż GPT-4 Turbo. Podczas gdy media głównego nurtu zachwycają się możliwościami wideo i głosowymi nowego flagowego modelu, nowy koszt i szybkość są równie ważne dla tych, którzy używają GPT do zasilania swoich aplikacji.
"Dostępność 4o może znacznie poprawić zarówno doświadczenie konstruktora, jak i użytkownika", powiedział Patrick Hamelin, inżynier oprogramowania w firmie Botpress. "Wpływ jest dalej idący niż nam się wydaje".
Przyjrzyjmy się zatem, w jaki sposób nowy model wstrząśnie sztuczną inteligencją chatbots.
Możliwości modelu
Nowy flagowy model zawiera ekscytującą listę aktualizacji i nowych funkcji: ulepszone funkcje głosowe i wideo, tłumaczenie w czasie rzeczywistym, więcej możliwości języka naturalnego. Może analizować obrazy, rozumieć szerszą gamę wejść audio, zapewniać pomoc w podsumowywaniu, ułatwiać tłumaczenie w czasie rzeczywistym i tworzyć wykresy. Użytkownicy mogą przesyłać pliki i prowadzić rozmowy głosowe. Posiada nawet aplikację komputerową.
W serii premierowych filmów pracownicy OpenAI (i współpracownicy, tacy jak Sal Khan z Khan Academy) demonstrują najnowszą wersję GPT , przygotowując użytkownika do rozmowy kwalifikacyjnej, śpiewając, identyfikując ludzkie emocje poprzez mimikę twarzy, rozwiązując pisemne równania matematyczne, a nawet wchodząc w interakcję z innym ChatGPT-4o.
Premiera zilustrowała nową rzeczywistość, w której model sztucznej inteligencji jest w stanie analizować pismo w zeszycie dziecka i być w stanie odpowiedzieć. Może wyjaśnić koncepcję dodawania ułamków po raz pierwszy, zmieniając ton i taktykę w oparciu o zrozumienie dziecka - może przekroczyć granicę od chatbota do osobistego nauczyciela.
Co oznacza GPT-4o dla LLM Chatbots?
Chatboty AI działające na LLMs otrzymują aktualizację za każdym razem, gdy firmy takie jak OpenAI aktualizują swoje modele. Jeśli chatbot jest połączony z platformą do tworzenia botów, taką jak Botpress, otrzymuje wszystkie zalety najnowszego modelu GPT we własnych chatbotach.
Wraz z wydaniem GPT-4o, chatboty AI mogą teraz zdecydować się na uruchomienie w modelu zaawansowanym, zmieniając ich możliwości, cenę i szybkość. Nowy model ma 5-krotnie wyższe limity szybkości od GPT-4 Turbo, z możliwością przetwarzania do 10 milionów tokenów na minutę.
Dla botów korzystających z integracji audio, takich jak Twilio na Botpress, pojawił się nowy świat interakcji głosowych. Zamiast ograniczać się do przetwarzania dźwięku z przeszłości, chatbots jest o krok bliżej do naśladowania ludzkiej interakcji.
Być może najważniejszy jest niższy koszt dla płatnych użytkowników. Uruchomienie chatbota o podobnych możliwościach za połowę ceny może drastycznie zwiększyć dostęp i przystępność cenową na całym świecie. Użytkownicy Botpress nie ponoszą żadnych dodatkowych wydatków na sztuczną inteligencję swoich botów - więc te oszczędności trafiają bezpośrednio do twórców.
A po stronie użytkownika, GPT-4o oznacza znacznie lepsze wrażenia użytkownika. Nikt nie lubi czekać. Krótszy czas odpowiedzi oznacza większą satysfakcję użytkowników chatbotów AI.
Użytkownicy uwielbiają szybkość
Kluczowym elementem wdrażania chatbotów jest poprawa doświadczenia użytkownika. A co poprawia doświadczenie użytkownika bardziej niż skrócenie czasu oczekiwania?
"Z pewnością będzie to lepsze doświadczenie" - powiedział Hamelin. "Ostatnią rzeczą, jaką chcesz robić, jest czekanie na kogoś".
Ludzie nienawidzą czekać. Nawet w 2003 roku badanie wykazało, że ludzie byli skłonni czekać tylko około 2 sekund na załadowanie strony internetowej. Nasza cierpliwość z pewnością nie wzrosła od tego czasu.
I wszyscy nienawidzą czekać
Istnieje mnóstwo wskazówek UX, aby skrócić postrzegany czas oczekiwania. Często nie jesteśmy w stanie poprawić szybkości zdarzeń, więc skupiamy się na tym, jak sprawić, by użytkownicy czuli, że czas mija szybciej. Wizualne informacje zwrotne, takie jak obraz paska ładowania, pozwalają skrócić postrzegany czas oczekiwania.
W słynnej historii o czasie oczekiwania na windę, stary nowojorski budynek był przedmiotem wielu skarg. Mieszkańcy musieli czekać 1-2 minuty na przyjazd windy. Budynek nie był w stanie zmodernizować windy do nowszego modelu, a mieszkańcy grozili zerwaniem umów najmu.
Nowy pracownik, przeszkolony w dziedzinie psychologii, doszedł do wniosku, że prawdziwym problemem nie były dwie minuty straconego czasu, ale nuda. Zasugerował zainstalowanie luster, aby mieszkańcy mogli patrzeć na siebie lub innych podczas oczekiwania. Skargi na windy ustały, a teraz lustra w holach windowych są na porządku dziennym.
Zamiast iść na skróty, aby poprawić wrażenia użytkownika - takie jak wizualne informacje zwrotne - OpenAI poprawił doświadczenie u źródła. Szybkość ma kluczowe znaczenie dla doświadczenia użytkownika i nie ma sztuczki, która dorówna satysfakcji z wydajnej interakcji.
Oszczędności dla każdego
Korzystanie z tego nowego modelu sztucznej inteligencji do uruchamiania aplikacji nagle stało się tańsze. Dużo tańsze.
Prowadzenie chatbota AI na dużą skalę może być kosztowne. Strona LLM , na której działa twój bot, określa, ile zapłacisz za każdą interakcję z użytkownikiem na większą skalę (przynajmniej w Botpress, gdzie dopasowujemy wydatki na sztuczną inteligencję 1: 1 do kosztów LLM ).
Oszczędności te dotyczą nie tylko deweloperów korzystających z API. ChatGPT-4o to najnowsza darmowa wersja LLM, obok GPT-3.5. Bezpłatni użytkownicy mogą korzystać z aplikacji ChatGPT bez żadnych kosztów.
Lepsza tokenizacja
W przypadku interakcji z modelem w języku, który nie używa alfabetu łacińskiego, GPT-4o jeszcze bardziej obniża koszty API.
Nowy model posiada ulepszone limity użytkowania. Zapewnia znaczny skok wydajności tokenizacji, w dużej mierze skoncentrowany na niektórych językach innych niż angielski.
Nowy model tokenizacji wymaga mniejszej liczby tokenów do przetworzenia tekstu wejściowego. Jest on znacznie bardziej wydajny w przypadku języków logograficznych (tj. języków, które używają symboli i znaków zamiast pojedynczych liter).
Korzyści te są w dużej mierze skoncentrowane na językach, które nie używają alfabetu łacińskiego. Redukcje oszczędności oszacowano następująco:
- Języki indyjskie, takie jak hindi, tamilski czy gudżarati, charakteryzują się 2,9-4,4-krotną redukcją liczby tokenów.
- Arabski ma ~2x mniej tokenów
- Języki wschodnioazjatyckie, takie jak chiński, japoński i wietnamski, charakteryzują się 1,4-1,7-krotną redukcją liczby tokenów.
Zmniejszanie przepaści cyfrowej w zakresie sztucznej inteligencji
Era cyfrowa przyniosła ze sobą rozszerzenie odwiecznej, dobrze udokumentowanej przepaści majątkowej - przepaści cyfrowej. Podobnie jak dostęp do bogactwa i silnej infrastruktury jest zarezerwowany dla niektórych populacji, tak samo jest z dostępem do sztucznej inteligencji oraz możliwości i korzyści, które jej towarzyszą.
Robert Opp, Chief Digital Officer w Programie Narodów Zjednoczonych ds. Rozwoju (UNDP), wyjaśnił, że obecność platform AI może wpłynąć na wskaźniki rozwoju całego kraju:
Obniżając o połowę koszt GPT-4o i wprowadzając bezpłatny poziom, OpenAI robi kluczowy krok w kierunku zneutralizowania jednego z największych problemów w sztucznej inteligencji - i bezpośrednio odnosi się do nierówności w umysłach decydentów i ekonomistów.
Pozytywny ruch PR dla dużej sztucznej inteligencji jest bardziej potrzebny, niż mogłoby się wydawać entuzjastom. W miarę jak sztuczna inteligencja staje się coraz bardziej obecna w naszym codziennym życiu, zarówno zwolennicy, jak i sceptycy pytają, w jaki sposób możemy wykorzystać ją "na dobre".
Według doktora sztucznej inteligencji i edukatora Louisa Boucharda, rozpowszechnianie szerszego dostępu do sztucznej inteligencji jest sposobem, w jaki możemy to zrobić: "Udostępnienie sztucznej inteligencji jest jednym ze sposobów, jeśli nie najlepszym, na wykorzystanie jej 'na dobre'". Jego rozumowanie? Jeśli nie jesteśmy w stanie w pełni kontrolować pozytywnych i negatywnych skutków technologii AI - przynajmniej na początku jej istnienia - możemy zamiast tego zapewnić równy dostęp do jej potencjalnych korzyści.
Rozszerzony potencjał multimodalny
Popularnym sposobem interakcji z chatbotem firmy jest tekst, ale ulepszone możliwości multimodalne nowego modelu sztucznej inteligencji OpenAIsugerują, że może się to zmienić w przyszłości.
W nadchodzącym roku prawdopodobnie zobaczymy falę deweloperów wprowadzających nowe aplikacje, które w pełni wykorzystują nowo dostępne możliwości audio, wideo i wizji.
Na przykład, chatboty oparte na GPT mogą mieć możliwość
- Poproś klientów o zdjęcie przedmiotu, który zwracają, aby zidentyfikować produkt i upewnić się, że nie jest uszkodzony.
- Zapewnienie tłumaczenia audio w konwersacji w czasie rzeczywistym, uwzględniającego dialekty specyficzne dla danego regionu.
- Na podstawie obrazu steku na patelni można stwierdzić, czy jest on upieczony.
- Działa jako niedrogi osobisty przewodnik turystyczny, zapewniając kontekst historyczny oparty na obrazie starej katedry, zapewniając tłumaczenie w czasie rzeczywistym i zapewniając spersonalizowaną wycieczkę głosową, która umożliwia komunikację zwrotną i zadawanie pytań.
- Aplikacja do nauki języków obcych, która słucha dźwięku, może przekazywać informacje zwrotne na temat wymowy na podstawie wideo z ruchami ust lub uczyć języka migowego za pomocą obrazów i wideo.
- Zapewnia wsparcie w zakresie zdrowia psychicznego, łącząc swoją zdolność do interpretacji audio i wideo, umożliwiając tanią terapię rozmową.
Dzięki modelom sztucznej inteligencji, które mogą interpretować obrazy i dźwięk, nasze zrozumienie tego, w jaki sposób LLMs może nam służyć, szybko się rozwija.
Multimodalność oznacza dostępność
Widzieliśmy już, jak ulepszone funkcje multimodalne służą dobru społecznemu. Doskonałym przykładem jest partnerstwoOpenAIz Be My Eyes.
Be My Eyes to duński start-up, który łączy niedowidzących użytkowników z widzącymi wolontariuszami. Gdy użytkownik potrzebuje pomocy - na przykład przy wyborze odpowiednich konserw w supermarkecie lub rozpoznaniu koloru koszulki - aplikacja łączy go z widzącym wolontariuszem na całym świecie za pośrednictwem wideo na smartfonie.
OpenAImoże zapewnić jeszcze bardziej pomocne doświadczenie dla użytkowników Be My Eyes. Zamiast polegać na ludzkim ochotniku, który wizualnie odszyfrowuje obraz lub wideo w czasie rzeczywistym, niewidomi użytkownicy mogą przekazywać obraz lub wideo do swojego urządzenia, na które model może reagować za pomocą informacji dźwiękowych.
OpenAI i Be My Eyes, obecnie zaufani partnerzy, torują drogę do większej niezależności osobom niewidomym na całym świecie. Dyrektor generalny Be My Eyes, Michael Buckley, wyjaśnia jego wpływ:
Nowa usługa zostanie udostępniona po raz pierwszy już wkrótce, latem 2024 roku. Użytkownicy korzystający z wczesnego dostępu testowali w wersji beta nowe funkcje wizyjne, wideo i audio, zbierając entuzjastyczne recenzje. Podczas gdy wpływ sztucznej inteligencji może budzić obawy sceptyków, partnerstwo to jest wyraźnym znakiem pozytywnego wpływu, jaki może ona przynieść. Zrozumienie dobra społecznego, które wiąże się z zaawansowaną sztuczną inteligencją, jest kluczowym krokiem dla jej PR.
Jak będziemy oceniać przyszłe modele LLM ?
Ponieważ konkurenci kontynuują wyścig w dół - aby stworzyć najtańszy, najszybszy LLM - nasuwa się pytanie: jak będziemy oceniać modele AI jutra?
W pewnym momencie w przyszłości główni twórcy LLM (prawdopodobnie OpenAI i Google) osiągną plateau w zakresie szybkości działania swoich modeli i tego, jak tanio mogą zapewnić dostęp. Kiedy osiągniemy stabilność w zakresie kosztów i szybkości, w jaki sposób ukoronujemy wiodący na rynku model?
Co stanie się nowym znakiem czasów? Niezależnie od tego, czy chodzi o dostępne osobowości modelu sztucznej inteligencji, możliwości ulepszania wideo, funkcje dostępne dla bezpłatnych użytkowników, czy też zupełnie nowe wskaźniki wykraczające poza nasze obecne zrozumienie, następna generacja LLMs jest na wyciągnięcie ręki.
AI Chatbots Made Easy
A gdyby Twój chatbot AI automatycznie synchronizował się z każdą aktualizacją GPT ?
Botpress dostarcza konfigurowalne rozwiązania AI chatbot od 2017 roku, zapewniając programistom narzędzia potrzebne do łatwego tworzenia chatbotów z mocą najnowszego LLMs. Botpress chatboty można szkolić na niestandardowych źródłach wiedzy - takich jak strona internetowa lub katalog produktów - i płynnie integrować z systemami biznesowymi.
Botpress to jedyna platforma, która nie wymaga konfiguracji kodu, a jej możliwości dostosowywania i rozszerzania są nieskończone. pozwala automatycznie uzyskać moc najnowszej wersji GPT na swoim chatbocie - bez żadnego wysiłku.
Zacznijbudować już dziś. To nic nie kosztuje.
Spis treści
Bądź na bieżąco z najnowszymi informacjami na temat agentów AI
Udostępnij to na: