Are there hidden costs to using GPT-4o’s advanced features like real-time translation or vision input?

Nie, korzystanie z zaawansowanych funkcji GPT w Botpress nie wiąże się z żadnymi ukrytymi kosztami. Korzyści związane z szybkością i wydajnością GPT są zawarte w istniejącym planie Botpress , a koszty LLM są pokrywane przez Botpressużytkownicy nie ponoszą dodatkowych opłat za korzystanie z ulepszeń GPT.

Co oznacza GPT-4o dla chatbotów?

Napisany przez

Sarah Chudleigh

Badacz i lider ds. treści AI

Spis treści

Krok 1. Tytuł kroku znajduje się tutaj zgodnie z oczekiwaniami.

Podsumowanie

GPT jest dwukrotnie szybszy i o połowę tańszy od GPT Turbo, drastycznie obniżając cenę i przyspieszając czas reakcji chatbotów AI.
Nowy model umożliwia zaawansowane możliwości multimodalne - w tym głos, wideo, tłumaczenie w czasie rzeczywistym i wizję - co otwiera innowacyjne przypadki użycia chatbotów wykraczające poza tekst.
Wzrost wydajności tokenizacji, zwłaszcza w przypadku języków innych niż alfabet rzymski, oznacza znaczne oszczędności kosztów w przypadku globalnych wdrożeń chatbotów.
Ulepszenia prędkości bezpośrednio zwiększają komfort użytkowania, skracając czas oczekiwania, który tradycyjnie frustruje użytkowników chatbotów.

Dwa razy szybszy i o połowę tańszy - co oznacza GPT-4o dla chatbotów AI?

Zgodnie z tajemniczą zapowiedzią, OpenAI wprowadził na rynek najnowszą wersję swojego flagowego modelu: GPT-4o.

Najnowszy model nie tylko otrzymał błyszczący blask multimodalnych możliwości. Jest szybszy i tańszy niż GPT Turbo. Podczas gdy media głównego nurtu są zachwycone możliwościami wideo i głosowymi nowego flagowego modelu dla ChatGPTto nowy koszt i szybkość są równie ważne dla tych, którzy używają GPT do zasilania swoich aplikacji.

Biały napis na indygo tle. Cytat od inżyniera oprogramowania Botpress prowadzącego Patrick Hamelin , który brzmi następująco: "Dostępność 4o ma moc znacznego ulepszenia zarówno budowniczego, jak i doświadczenia użytkownika. Wpływ jest dalej idący niż nam się wydaje".

"Dostępność 4o może znacznie poprawić zarówno doświadczenie konstruktora, jak i użytkownika", powiedział Patrick Hamelin, inżynier oprogramowania w firmie Botpress. "Wpływ jest dalej idący niż nam się wydaje".

Przyjrzyjmy się zatem, w jaki sposób nowy model wstrząśnie sztuczną inteligencją chatbots.

Budowanie sztucznej inteligencji Chatbots

Tworzenie niestandardowych chatbotów agentowych

Zacznij teraz

Możliwości modelu

Przywitaj się z GPT-4o

Nowy flagowy model zawiera ekscytującą listę aktualizacji i nowych funkcji: ulepszone funkcje głosowe i wideo, tłumaczenie w czasie rzeczywistym, więcej możliwości języka naturalnego. Może analizować obrazy, rozumieć szerszą gamę wejść audio, zapewniać pomoc w podsumowywaniu, ułatwiać tłumaczenie w czasie rzeczywistym i tworzyć wykresy. Użytkownicy mogą przesyłać pliki i prowadzić rozmowy głosowe. Posiada nawet aplikację komputerową.

W serii premierowych filmów pracownicy OpenAI (i współpracownicy, tacy jak Sal Khan z Khan Academy) demonstrują najnowszą wersję GPT , przygotowując użytkownika do rozmowy kwalifikacyjnej, śpiewając, identyfikując ludzkie emocje poprzez mimikę twarzy, rozwiązując pisemne równania matematyczne, a nawet wchodząc w interakcję z innym ChatGPT-4o.

Premiera zilustrowała nową rzeczywistość, w której model sztucznej inteligencji jest w stanie analizować pismo w zeszycie dziecka i być w stanie odpowiedzieć. Może wyjaśnić koncepcję dodawania ułamków po raz pierwszy, zmieniając ton i taktykę w oparciu o zrozumienie dziecka - może przekroczyć granicę od chatbota do osobistego nauczyciela.

Zrzut ekranu z filmu demonstracyjnego GPT-4o z udziałem twórcy Kan Academy Sala Khana i jego syna. — *Sal Khan, twórca Khan Academy, i jego syn demonstrują zdolność GPT-4o do udzielania korepetycji z geometrii.*

Co oznacza GPT-4o dla LLM Chatbots?

Chatboty AI działające na LLMs otrzymują aktualizację za każdym razem, gdy firmy takie jak OpenAI aktualizują swoje modele. Jeśli agent LLM jest połączony z platformą do tworzenia botów, taką jak Botpress, otrzymuje wszystkie korzyści płynące z najnowszego modelu GPT w swoich własnych chatbotach.

Wraz z wydaniem GPT-4o, chatboty AI mogą teraz zdecydować się na uruchomienie w modelu zaawansowanym, zmieniając ich możliwości, cenę i szybkość. Nowy model ma 5-krotnie wyższe limity szybkości od GPT-4 Turbo, z możliwością przetwarzania do 10 milionów tokenów na minutę.

Dla botów korzystających z integracji audio, takich jak Twilio na Botpress, pojawił się nowy świat interakcji głosowych. Zamiast ograniczać się do przetwarzania dźwięku z przeszłości, chatbots jest o krok bliżej do naśladowania ludzkiej interakcji.

Być może najważniejszy jest niższy koszt dla płatnych użytkowników. Uruchomienie chatbota o podobnych możliwościach za połowę ceny może drastycznie zwiększyć dostęp i przystępność cenową na całym świecie. Użytkownicy Botpress nie ponoszą żadnych dodatkowych wydatków na sztuczną inteligencję swoich botów - więc te oszczędności trafiają bezpośrednio do twórców.

A po stronie użytkownika, GPT-4o oznacza znacznie lepsze wrażenia użytkownika. Nikt nie lubi czekać. Krótszy czas odpowiedzi oznacza większą satysfakcję użytkowników chatbotów AI.

*W studiu Botpress użytkownicy mogą wybrać różne wersje GPT dla różnych części przepływu pracy bota.*

Użytkownicy kochają szybkość

Kluczowym elementem wdrażania chatbotów jest poprawa doświadczenia użytkownika. A co poprawia doświadczenie użytkownika bardziej niż skrócenie czasu oczekiwania?

"Z pewnością będzie to lepsze doświadczenie" - powiedział Hamelin. "Ostatnią rzeczą, jaką chcesz robić, jest czekanie na kogoś".

Ludzie nienawidzą czekać. Nawet w 2003 roku badanie wykazało, że ludzie byli skłonni czekać tylko około 2 sekund na załadowanie strony internetowej. Nasza cierpliwość z pewnością nie wzrosła od tego czasu.

I wszyscy nienawidzą czekać

Istnieje mnóstwo wskazówek UX, aby skrócić postrzegany czas oczekiwania. Często nie jesteśmy w stanie poprawić szybkości zdarzeń, więc skupiamy się na tym, jak sprawić, by użytkownicy czuli, że czas mija szybciej. Wizualne informacje zwrotne, takie jak obraz paska ładowania, pozwalają skrócić postrzegany czas oczekiwania.

W słynnej historii o czasie oczekiwania na windę, stary nowojorski budynek był przedmiotem wielu skarg. Mieszkańcy musieli czekać 1-2 minuty na przyjazd windy. Budynek nie był w stanie zmodernizować windy do nowszego modelu, a mieszkańcy grozili zerwaniem umów najmu.

Nowy pracownik, przeszkolony w dziedzinie psychologii, doszedł do wniosku, że prawdziwym problemem nie były dwie minuty straconego czasu, ale nuda. Zasugerował zainstalowanie luster, aby mieszkańcy mogli patrzeć na siebie lub innych podczas oczekiwania. Skargi na windy ustały, a teraz lustra w holach windowych są na porządku dziennym.

Zamiast iść na skróty, aby poprawić wrażenia użytkownika - takie jak wizualne informacje zwrotne - OpenAI poprawił doświadczenie u źródła. Szybkość ma kluczowe znaczenie dla doświadczenia użytkownika i nie ma sztuczki, która dorówna satysfakcji z wydajnej interakcji.

Oszczędności dla każdego

Korzystanie z tego nowego modelu sztucznej inteligencji do uruchamiania aplikacji nagle stało się tańsze. Dużo tańsze.

Prowadzenie chatbota AI na dużą skalę może być kosztowne. Strona LLM , na której działa twój bot, określa, ile zapłacisz za każdą interakcję z użytkownikiem na większą skalę (przynajmniej w Botpress, gdzie dopasowujemy wydatki na sztuczną inteligencję 1: 1 do kosztów LLM ).

Oszczędności te dotyczą nie tylko deweloperów korzystających z API. ChatGPT-4o to najnowsza darmowa wersja LLM, obok GPT-3.5. Bezpłatni użytkownicy mogą korzystać z aplikacji ChatGPT bez żadnych kosztów.

Lepsza tokenizacja

W przypadku interakcji z modelem w języku, który nie używa alfabetu łacińskiego, GPT-4o jeszcze bardziej obniża koszty API.

Wizualizacja o ile bardziej wydajna jest tokenizacja z GPT-4o w porównaniu do Turbo. Języki indoaryjskie, takie jak hindi i gudżarati, mają średnią redukcję tokenizacji na poziomie 2,9-4,4. Arabski ma redukcję 2x, a języki wschodnioazjatyckie, takie jak japoński, koreański i chiński, mają redukcję 1,4-1,x. — *O ile bardziej wydajna jest tokenizacja GPT-4o? To zależy od języka.*

Nowy model posiada ulepszone limity użytkowania. Zapewnia znaczny skok wydajności tokenizacji, w dużej mierze skoncentrowany na niektórych językach innych niż angielski.

Nowy model tokenizacji wymaga mniejszej liczby tokenów do przetworzenia tekstu wejściowego. Jest on znacznie bardziej wydajny w przypadku języków logograficznych (tj. języków, które używają symboli i znaków zamiast pojedynczych liter).

Korzyści te są w dużej mierze skoncentrowane na językach, które nie używają alfabetu łacińskiego. Redukcje oszczędności oszacowano następująco:

Języki indyjskie, takie jak hindi, tamilski czy gudżarati, charakteryzują się 2,9-4,4-krotną redukcją liczby tokenów.
Arabski ma ~2x mniej tokenów
Języki wschodnioazjatyckie, takie jak chiński, japoński i wietnamski, charakteryzują się 1,4-1,7-krotną redukcją liczby tokenów.

Wdrażanie agentów AI?

Przeczytaj nasz plan wdrożenia agenta AI

Czytaj teraz

Zmniejszanie przepaści cyfrowej w zakresie sztucznej inteligencji

Era cyfrowa przyniosła ze sobą rozszerzenie odwiecznej, dobrze udokumentowanej przepaści majątkowej - przepaści cyfrowej. Podobnie jak dostęp do bogactwa i silnej infrastruktury jest zarezerwowany dla niektórych populacji, tak samo jest z dostępem do sztucznej inteligencji oraz możliwości i korzyści, które jej towarzyszą.

Robert Opp, Chief Digital Officer w Programie Narodów Zjednoczonych ds. Rozwoju (UNDP), wyjaśnił, że obecność platform AI może wpłynąć na wskaźniki rozwoju całego kraju:

"Jedną z naszych głównych obaw jest to, że kraje, które są lepiej wyposażone i wykwalifikowane w zakresie platform sztucznej inteligencji, zarówno pod względem rozwoju, jak i użytkowania, mogą mieć znacznie szybszy proces rozwoju, a kraje, które nie mają takich umiejętności i możliwości, pozostaną w tyle".

Jasno udekorowana scena z czterema osobami w białych fotelach. Opp siedzi po prawej stronie i mówi do mikrofonu. — *Robert Opp, Chief Digital Officer w UNDP, przemawia podczas Globalnego Szczytu Cyfrowej Infrastruktury Publicznej w Indiach (2024). Zdjęcie z* *UNDP Digital X*.

Obniżając o połowę koszt GPT-4o i wprowadzając bezpłatny poziom, OpenAI robi kluczowy krok w kierunku zneutralizowania jednego z największych problemów w sztucznej inteligencji - i bezpośrednio odnosi się do nierówności w umysłach decydentów i ekonomistów.

Pozytywny ruch PR dla dużej sztucznej inteligencji jest bardziej potrzebny, niż mogłoby się wydawać entuzjastom. W miarę jak sztuczna inteligencja staje się coraz bardziej obecna w naszym codziennym życiu, zarówno zwolennicy, jak i sceptycy pytają, w jaki sposób możemy wykorzystać ją "na dobre".

Biały napis na indygo tle. Cytat z edukatora AI Louisa Boucharda brzmi: "Udostępnienie AI jest jednym ze sposobów, jeśli nie najlepszym, na wykorzystanie AI 'na dobre'".

Według doktora sztucznej inteligencji i edukatora Louisa Boucharda, rozpowszechnianie szerszego dostępu do sztucznej inteligencji jest sposobem, w jaki możemy to zrobić: "Udostępnienie sztucznej inteligencji jest jednym ze sposobów, jeśli nie najlepszym, na wykorzystanie jej 'na dobre'". Jego rozumowanie? Jeśli nie jesteśmy w stanie w pełni kontrolować pozytywnych i negatywnych skutków technologii AI - przynajmniej na początku jej istnienia - możemy zamiast tego zapewnić równy dostęp do jej potencjalnych korzyści.

Rozszerzony potencjał multimodalny

Popularnym sposobem interakcji z chatbotem firmy jest tekst, ale ulepszone możliwości multimodalne nowego modelu sztucznej inteligencji OpenAIsugerują, że może się to zmienić w przyszłości.

W nadchodzącym roku prawdopodobnie zobaczymy falę deweloperów wprowadzających nowe aplikacje, które w pełni wykorzystują nowo dostępne możliwości audio, wideo i wizji.

Na przykład, chatboty oparte na GPT mogą mieć możliwość

Poproś klientów o zdjęcie przedmiotu, który zwracają, aby zidentyfikować produkt i upewnić się, że nie jest uszkodzony.
Zapewnienie tłumaczenia audio w konwersacji w czasie rzeczywistym, uwzględniającego dialekty specyficzne dla danego regionu.
Na podstawie obrazu steku na patelni można stwierdzić, czy jest on upieczony.
Działa jako niedrogi osobisty przewodnik turystyczny, zapewniając kontekst historyczny oparty na obrazie starej katedry, zapewniając tłumaczenie w czasie rzeczywistym i zapewniając spersonalizowaną wycieczkę głosową, która umożliwia komunikację zwrotną i zadawanie pytań.
Aplikacja do nauki języków obcych, która słucha dźwięku, może przekazywać informacje zwrotne na temat wymowy na podstawie wideo z ruchami ust lub uczyć języka migowego za pomocą obrazów i wideo.
Zapewnia wsparcie w zakresie zdrowia psychicznego, łącząc swoją zdolność do interpretacji audio i wideo, umożliwiając tanią terapię rozmową.

Dzięki modelom sztucznej inteligencji, które mogą interpretować obrazy i dźwięk, nasze zrozumienie tego, w jaki sposób LLMs może nam służyć, szybko się rozwija.

Multimodalność oznacza dostępność

Widzieliśmy już, jak ulepszone funkcje multimodalne służą dobru społecznemu. Doskonałym przykładem jest partnerstwoOpenAIz Be My Eyes.

Be My Eyes to duński start-up, który łączy niedowidzących użytkowników z widzącymi wolontariuszami. Gdy użytkownik potrzebuje pomocy - na przykład przy wyborze odpowiednich konserw w supermarkecie lub rozpoznaniu koloru koszulki - aplikacja łączy go z widzącym wolontariuszem na całym świecie za pośrednictwem wideo na smartfonie.

Jasnoniebieskie ogłoszenie "Be My AI" z napisem "Rolling out". Po prawej stronie znajduje się obraz smartfona przedstawiający opuszczoną nadmorską ścieżkę z opisem wygenerowanym przez sztuczną inteligencję. — *Partnerstwo i ogłoszenie produktu Be My Eyes x OpenAI.*

OpenAImoże zapewnić jeszcze bardziej pomocne doświadczenie dla użytkowników Be My Eyes. Zamiast polegać na ludzkim ochotniku, który wizualnie odszyfrowuje obraz lub wideo w czasie rzeczywistym, niewidomi użytkownicy mogą przekazywać obraz lub wideo do swojego urządzenia, na które model może reagować za pomocą informacji dźwiękowych.

OpenAI i Be My Eyes, obecnie zaufani partnerzy, torują drogę do większej niezależności osobom niewidomym na całym świecie. Dyrektor generalny Be My Eyes, Michael Buckley, wyjaśnia jego wpływ:

"W krótkim czasie, gdy mieliśmy dostęp, zaobserwowaliśmy niezrównaną wydajność w porównaniu do jakiegokolwiek narzędzia do rozpoznawania obiektów z obrazu na tekst. Implikacje dla globalnej dostępności są głębokie. W niedalekiej przyszłości społeczność osób niewidomych i słabowidzących będzie wykorzystywać te narzędzia nie tylko do wielu potrzeb związanych z interpretacją wizualną, ale także do uzyskania większego stopnia niezależności w swoim życiu".

Trzy obrazy smartfonów korzystających z Be My Eyes. Jeden z nich skupia się na szeregu wzorzystych krawatów, drugi przedstawia użytkownika trzymającego butelkę z filtrem przeciwsłonecznym przy aparacie, a trzeci pokazuje małe, kolorowe domy. — *Be My Eyes łączy niedowidzących użytkowników z widzącymi wolontariuszami w celu wykonywania zadań wizualnych. Zdjęcia z Be My Eyes.*

Dostępność Be My Eyes z GPT-4o

Nowa usługa zostanie udostępniona po raz pierwszy już wkrótce, latem 2024 roku. Użytkownicy korzystający z wczesnego dostępu testowali w wersji beta nowe funkcje wizyjne, wideo i audio, zbierając entuzjastyczne recenzje. Podczas gdy wpływ sztucznej inteligencji może budzić obawy sceptyków, partnerstwo to jest wyraźnym znakiem pozytywnego wpływu, jaki może ona przynieść. Zrozumienie dobra społecznego, które wiąże się z zaawansowaną sztuczną inteligencją, jest kluczowym krokiem dla jej PR.

Jak będziemy oceniać przyszłe modele LLM ?

Ponieważ konkurenci kontynuują wyścig w dół - aby stworzyć najtańszy, najszybszy LLM - nasuwa się pytanie: jak będziemy oceniać modele AI jutra?

W pewnym momencie w przyszłości główni twórcy LLM (prawdopodobnie OpenAI i Google) osiągną plateau w zakresie szybkości działania swoich modeli i tego, jak tanio mogą zapewnić dostęp. Kiedy osiągniemy stabilność w zakresie kosztów i szybkości, w jaki sposób ukoronujemy wiodący na rynku model?

Co stanie się nowym znakiem czasów? Niezależnie od tego, czy chodzi o dostępne osobowości modelu sztucznej inteligencji, możliwości ulepszania wideo, funkcje dostępne dla bezpłatnych użytkowników, czy też zupełnie nowe wskaźniki wykraczające poza nasze obecne zrozumienie, następna generacja LLMs jest na wyciągnięcie ręki.

AI Chatbots Made Easy

A gdyby Twój chatbot AI automatycznie synchronizował się z każdą aktualizacją GPT ?

Botpress dostarcza konfigurowalne rozwiązania AI chatbot od 2017 roku, zapewniając programistom narzędzia potrzebne do łatwego tworzenia chatbotów z mocą najnowszego LLMs. Botpress chatboty można szkolić na niestandardowych źródłach wiedzy - takich jak strona internetowa lub katalog produktów - i płynnie integrować z systemami biznesowymi.

Botpress to jedyna platforma, która nie wymaga konfiguracji kodu, a jej możliwości dostosowywania i rozszerzania są nieskończone. pozwala automatycznie uzyskać moc najnowszej wersji GPT na swoim chatbocie - bez żadnego wysiłku.

Zacznijbudować już dziś. To nic nie kosztuje.

Budowanie sztucznej inteligencji Chatbots

Tworzenie niestandardowych chatbotów agentowych

Zacznij teraz

Najczęściej zadawane pytania

1. Jak przełączyć istniejącego chatbota na GPT na Botpress?

Aby przełączyć istniejącego chatbota na GPT w Botpress, przejdź do Botpress Studio, przejdź do ustawień LLM asystenta i wybierz GPT z rozwijanej listy dostępnych modeli. Zmiana zostanie zastosowana natychmiast, bez konieczności wprowadzania zmian w kodzie.

2. Czy istnieją warunki wstępne do korzystania z GPT na platformie Botpress (np. zestawy SDK, wersje API)?

Nie, nie ma żadnych wymagań wstępnych do korzystania z GPT w Botpress. Platforma automatycznie zarządza wszystkimi zestawami SDK, aktualizacjami API i zależnościami zaplecza, więc wystarczy wybrać GPT w ustawieniach, aby go aktywować.

3. Czy GPT można precyzyjnie dostroić lub dostosować do konkretnych przypadków użycia biznesowego za pomocą Botpress?

Podczas gdy GPT nie może być dostrojony w tradycyjnym sensie w Botpress, można dostosować jego reakcje i zachowanie za pomocą inżynierii podpowiedzi, logiki przepływu pracy, baz wiedzy i zmiennych. Pozwala to GPT zachowywać się kontekstowo zgodnie z potrzebami biznesowymi bez konieczności ponownego szkolenia modelu.

4. Czy istnieją ograniczenia w korzystaniu z funkcji multimodalnych (głos, wzrok) w przepływach pracy Botpress ?

Tak, Botpress obsługuje obecnie funkcje głosowe poprzez integracje takie jak Twilio lub Dialogflow Voice Gateway, ale funkcje multimodalne, takie jak przetwarzanie obrazów lub filmów, nie są jeszcze w pełni obsługiwane. Wprowadzanie danych oparte na wizji jest nadal rozważane lub wymaga obejść.

5. Czy korzystanie z zaawansowanych funkcji GPT, takich jak tłumaczenie w czasie rzeczywistym lub wprowadzanie danych wizyjnych, wiąże się z ukrytymi kosztami?

Nie, korzystanie z zaawansowanych funkcji GPT w Botpress nie wiąże się z żadnymi ukrytymi kosztami. Szybkość i wydajność GPT są zawarte w istniejącym planie Botpress , a koszty LLM są pokrywane przez Botpress - więc użytkownicy nie ponoszą dodatkowych opłat za korzystanie z ulepszeń GPT.