Il doppio della velocità e la metà del prezzo: cosa significa GPT-4o per i chatbot AI?
Dopo il misterioso annuncio, OpenAI ha lanciato l'ultima versione del suo modello di punta: GPT-4o.
L'ultimo modello non si è limitato a ricevere un vistoso bagliore nelle capacità multimodali. È più veloce e più economico di GPT-4 Turbo. Sebbene i media tradizionali siano entusiasti delle capacità video e vocali del nuovo modello di punta, il nuovo costo e la nuova velocità sono altrettanto importanti per chi utilizza GPT per alimentare le proprie applicazioni.
"La disponibilità di 4o ha il potere di migliorare in modo significativo sia il costruttore che l'esperienza dell'utente", ha dichiarato Patrick Hamelin, un software engineer lead di Botpress. "L'impatto è più ampio di quanto pensiamo".
Vediamo quindi come il nuovo modello darà una scossa all'AI chatbots.
Capacità del modello
Il nuovo modello di punta è dotato di un'entusiasmante lista di aggiornamenti e nuove funzionalità: capacità vocali e video migliorate, traduzione in tempo reale, maggiori capacità di linguaggio naturale. È in grado di analizzare le immagini, comprendere una più ampia varietà di input audio, fornire assistenza nella sintesi, facilitare la traduzione in tempo reale e creare grafici. Gli utenti possono caricare file e avere una conversazione voce a voce. È disponibile anche un'applicazione per desktop.
Nella serie di video di lancio, i dipendenti di OpenAI (e collaboratori come Sal Khan di Khan academy) dimostrano che l'ultima versione di GPT prepara un utente per un colloquio di lavoro, canta, identifica le emozioni umane attraverso le espressioni facciali, risolve equazioni matematiche scritte e interagisce persino con un altro ChatGPT-4o.
Il lancio ha illustrato una nuova realtà in cui un modello di intelligenza artificiale è in grado di analizzare la scrittura sul quaderno del bambino e di rispondere. Potrebbe spiegare per la prima volta il concetto di addizione delle frazioni, cambiando tono e tattica in base alla comprensione del bambino: potrebbe passare dal chatbot al tutor personale.
Cosa significa GPT-4o per i chatbot di LLM ?
I chatbot AI che funzionano su LLMs ricevono un aggiornamento ogni volta che aziende come OpenAI aggiornano i loro modelli. Se un chatbot è collegato a una piattaforma di costruzione di bot come Botpress, riceve tutti i vantaggi dell'ultimo modello GPT nei propri chatbot.
Con il rilascio di GPT-4o, i chatbot AI possono ora scegliere di funzionare con il modello avanzato, cambiando le loro capacità, il prezzo e la velocità. Il nuovo modello ha limiti di velocità 5 volte superiori a GPT-4 Turbo, con la possibilità di elaborare fino a 10 milioni di gettoni al minuto.
Per i bot che utilizzano integrazioni audio come Twilio su Botpress, è emerso un nuovo mondo di interazione a comando vocale. Invece di essere confinato all'elaborazione audio di un tempo, chatbots è un passo più vicino a imitare l'interazione umana.
L'aspetto forse più importante è la riduzione dei costi per gli utenti a pagamento. L'esecuzione di un chatbot di pari capacità alla metà del costo può aumentare drasticamente l'accesso e l'accessibilità in tutto il mondo. Inoltre, gli utenti di Botpress non pagano alcuna spesa aggiuntiva per l'intelligenza artificiale dei loro bot, quindi i risparmi vanno direttamente ai costruttori.
E per quanto riguarda l'utente, GPT-4o significa una migliore esperienza d'uso. A nessuno piace aspettare. Tempi di risposta più brevi significano maggiore soddisfazione per gli utenti di chatbot AI.
Gli utenti amano la velocità
Un elemento chiave dell'adozione dei chatbot è il miglioramento dell'esperienza dell'utente. E cosa migliora l'esperienza dell'utente più della riduzione dei tempi di attesa?
"Sarà sicuramente un'esperienza migliore", ha detto Hamelin. "L'ultima cosa che si vuole fare è aspettare qualcuno".
Gli esseri umani odiano l'attesa. Già nel 2003, uno studio ha rilevato che le persone erano disposte ad aspettare solo circa 2 secondi per il caricamento di una pagina web. Da allora la nostra pazienza non è certo aumentata.
E tutti odiano aspettare
Esiste una pletora di consigli UX per ridurre il tempo di attesa percepito. Spesso non siamo in grado di migliorare la velocità degli eventi, quindi ci concentriamo su come far percepire agli utenti che il tempo passa più velocemente. Il feedback visivo, come l'immagine di una barra di caricamento, esiste per ridurre il tempo di attesa percepito.
In una famosa storia sui tempi di attesa degli ascensori, un vecchio edificio di New York riceveva una valanga di lamentele. I residenti dovevano aspettare 1-2 minuti prima che l'ascensore arrivasse. L'edificio non era in grado di aggiornare l'ascensore con un modello più recente e i residenti minacciavano di rompere il contratto di locazione.
Un nuovo assunto, con una formazione in psicologia, capì che il vero problema non erano i due minuti di tempo persi, ma la noia. Suggerì di installare degli specchi in modo che i residenti potessero guardare se stessi o gli altri durante l'attesa. Le lamentele sull'ascensore cessarono e ora è normale vedere specchi nelle hall degli ascensori.
Invece di prendere scorciatoie per migliorare l'esperienza dell'utente, come il feedback visivo, OpenAI ha migliorato l'esperienza alla fonte. La velocità è fondamentale per l'esperienza dell'utente e non c'è trucco che possa eguagliare la soddisfazione di un'interazione efficiente.
Risparmio per tutti
L'utilizzo di questo nuovo modello di intelligenza artificiale per eseguire applicazioni è diventato improvvisamente più economico. Molto più economico.
Gestire un chatbot AI su scala può diventare costoso. Il sito LLM da cui è alimentato il vostro bot determina quanto pagherete per ogni interazione con l'utente su larga scala (almeno in Botpress, dove la spesa per l'IA corrisponde a 1:1 con i costi di LLM ).
E questi risparmi non sono solo per gli sviluppatori che utilizzano le API. ChatGPT-4o è l'ultima versione gratuita di LLM, insieme a GPT-3.5. Gli utenti gratuiti possono utilizzare l'applicazione ChatGPT senza alcun costo.
Migliore tokenizzazione
Se si interagisce con il modello in una lingua che non utilizza l'alfabeto romano, GPT-4o riduce ulteriormente i costi dell'API.
Il nuovo modello è dotato di limiti di utilizzo migliorati. Offre un salto significativo nell'efficienza della tokenizzazione, in gran parte concentrata su alcune lingue non inglesi.
Il nuovo modello di tokenizzazione richiede un numero inferiore di token per elaborare il testo in ingresso. È molto più efficiente per le lingue logografiche (cioè quelle che usano simboli e caratteri invece di singole lettere).
Questi benefici sono in gran parte concentrati nelle lingue che non utilizzano l'alfabeto romano. Le riduzioni dei risparmi sono state stimate come segue:
- Le lingue indiane, come l'hindi, il tamil o il gujarati, hanno una riduzione di 2,9-4,4 volte dei token.
- L'arabo ha una riduzione di ~2 volte dei token
- Le lingue dell'Asia orientale, come il cinese, il giapponese e il vietnamita, hanno una riduzione dei token di 1,4 - 1,7 volte.
Colmare il divario digitale dell'IA
L'era digitale ha portato con sé un'estensione dell'antico e ben documentato divario di ricchezza: il digital divide. Così come l'accesso alla ricchezza e a infrastrutture solide è esclusivo di alcune popolazioni, lo è anche l'accesso all'IA e alle opportunità e ai vantaggi che la accompagnano.
Robert Opp, Chief Digital Officer del Programma delle Nazioni Unite per lo Sviluppo (UNDP), ha spiegato che la presenza di piattaforme di intelligenza artificiale ha la capacità di far crescere o perdere le metriche di sviluppo di un intero Paese:
Dimezzando il costo di GPT-4o e introducendo un livello gratuito, OpenAI sta compiendo un passo cruciale verso la neutralizzazione di uno dei maggiori problemi dell'IA, affrontando direttamente la disuguaglianza che sta a cuore a politici ed economisti.
Una mossa di pubbliche relazioni positiva per le grandi IA è più necessaria di quanto gli appassionati possano pensare. Poiché l'IA è sempre più presente nella nostra vita quotidiana, i sostenitori e gli scettici si sono chiesti in che modo potremmo usare l'IA "a fin di bene".
Secondo il dottorando ed educatore Louis Bouchard, la distribuzione di un accesso più ampio all'IA è il modo per fare esattamente questo: "Rendere l'IA accessibile è un modo, se non il migliore, per usare l'IA "a fin di bene"". Il suo ragionamento? Se non siamo in grado di controllare completamente gli impatti positivi e negativi della tecnologia dell'IA - almeno nei primi tempi - possiamo invece garantire un accesso paritario ai suoi potenziali benefici.
Potenziale multimodale ampliato
Il modo più diffuso di interagire con un chatbot aziendale è il testo, ma le maggiori capacità multimodali del nuovo modello di AI di OpenAIsuggeriscono che questa situazione potrebbe cambiare in futuro.
Nel corso del prossimo anno assisteremo probabilmente a una marea di sviluppatori che realizzeranno nuove applicazioni in grado di sfruttare al meglio le nuove funzionalità audio, visive e video.
Ad esempio, i chatbot di GPT potrebbero essere in grado di:
- Chiedere ai clienti un'immagine dell'articolo che stanno restituendo per identificare il prodotto e assicurarsi che non sia danneggiato.
- Fornire una traduzione audio in tempo reale della conversazione che tenga conto dei dialetti specifici della regione
- Per sapere se la bistecca è cotta basta un'immagine della stessa in padella
- Funziona come una guida turistica personale e gratuita, che fornisce un contesto storico basato su un'immagine di un'antica cattedrale, fornisce traduzioni in tempo reale e offre un tour vocale personalizzato che consente di comunicare e porre domande.
- Un'applicazione per l'apprendimento delle lingue che ascolta l'input audio, può fornire un feedback sulla pronuncia in base a un video dei movimenti della bocca o insegnare il linguaggio dei segni attraverso immagini e video.
- Fornire un supporto non urgente per il benessere mentale combinando la capacità di interpretare audio e video, consentendo una terapia di conversazione a basso costo.
Grazie a modelli di intelligenza artificiale in grado di interpretare immagini e audio, la nostra comprensione di come LLMs possa servirci è in rapida espansione.
Multimodalità significa accessibilità
Abbiamo già visto che le funzioni multimodali potenziate vengono utilizzate per scopi sociali. Un esempio perfetto è la collaborazione diOpenAIcon Be My Eyes.
Be My Eyes è una start-up danese che mette in contatto utenti non vedenti con volontari vedenti. Quando un utente ha bisogno di assistenza, ad esempio per scegliere le scatolette giuste al supermercato o per identificare il colore di una maglietta, l'applicazione lo mette in contatto con un volontario vedente in tutto il mondo attraverso un video via smartphone.
OpenAILa nuova capacità di visione di Be My Eyes può fornire un'esperienza ancora più utile agli utenti. Invece di affidarsi a un volontario umano per decifrare visivamente un'immagine o un video in tempo reale, gli utenti non vedenti possono trasmettere al loro dispositivo un'immagine o un video a cui il modello può rispondere con informazioni audio.
OpenAI e Be My Eyes, ora partner fidati, stanno aprendo la strada a una maggiore indipendenza per le persone legalmente cieche di tutto il mondo. Il CEO di Be My Eyes, Michael Buckley, ne spiega l'impatto:
Il nuovo servizio sarà disponibile a breve, nell'estate del 2024, per la prima volta. Gli utenti con accesso anticipato hanno testato in beta le nuove funzioni di visione, video e audio con recensioni entusiastiche. Sebbene l'impatto dell'intelligenza artificiale possa destare preoccupazione negli scettici, questa partnership è un chiaro segno degli impatti positivi che può avere. La comprensione del bene sociale che deriva dall'IA avanzata è un passo fondamentale per le sue pubbliche relazioni.
Come giudicheremo i futuri modelli di LLM ?
Mentre i concorrenti continuano la loro corsa al ribasso per creare il sito LLM più economico e veloce, sorge spontanea la domanda: come giudicheremo i modelli di IA di domani?
A un certo punto, in futuro, i principali creatori di LLM (probabilmente OpenAI e Google) raggiungeranno un plateau per quanto riguarda la velocità di esecuzione dei loro modelli e l'economicità dell'accesso. Una volta raggiunta la stabilità in termini di costi e velocità, come si incoronerà il modello leader del mercato?
Quale sarà il nuovo segno dei tempi? Che si tratti delle personalità disponibili del modello di intelligenza artificiale, delle capacità di miglioramento dei video, delle funzionalità disponibili per gli utenti gratuiti o di metriche nuove di zecca che vanno oltre la nostra attuale comprensione, la prossima generazione di LLMs è alle nostre porte.
AI Chatbots è facile da usare
E se il vostro chatbot AI si sincronizzasse automaticamente con ogni aggiornamento di GPT ?
Botpress fornisce soluzioni di chatbot AI personalizzabili dal 2017, fornendo agli sviluppatori gli strumenti necessari per creare facilmente chatbot con la potenza del più recente LLMs. I chatbot di Botpress possono essere addestrati su fonti di conoscenza personalizzate, come il vostro sito web o il catalogo prodotti, e si integrano perfettamente con i sistemi aziendali.
L'unica piattaforma che spazia dall'assenza di codice alla personalizzazione e all'estendibilità infinite, Botpress vi permette di ottenere automaticamente la potenza dell'ultima versione di GPT sul vostro chatbot, senza alcuno sforzo.
Iniziare acostruire oggi. È gratis.
Indice dei contenuti
Rimanete aggiornati sulle ultime novità in materia di agenti AI
Condividi questo articolo su: