Cosa significa GPT-4o per i chatbot?

Scritto da

Sarah Chudleigh

Ricercatore e responsabile dei contenuti di intelligenza artificiale

Indice dei contenuti

Passo 1. il titolo del passo va qui, come previsto.

Sintesi

GPT è due volte più veloce e costa la metà di GPT Turbo, riducendo drasticamente il prezzo e accelerando i tempi di risposta per i chatbot AI.
Il nuovo modello consente funzionalità multimodali avanzate - tra cui voce, video, traduzione in tempo reale e visione - che aprono casi d'uso innovativi per i chatbot al di là del testo.
L'aumento dell'efficienza nella tokenizzazione, soprattutto per le lingue con alfabeto non romano, si traduce in un significativo risparmio sui costi per le implementazioni globali di chatbot.
I miglioramenti della velocità migliorano direttamente l'esperienza dell'utente, riducendo i tempi di attesa che tradizionalmente frustrano gli utenti dei chatbot.

Il doppio della velocità e la metà del prezzo: cosa significa GPT-4o per i chatbot AI?

Dopo il misterioso annuncio, OpenAI ha lanciato l'ultima versione del suo modello di punta: GPT-4o.

L'ultimo modello non si è limitato a ricevere un'appariscente spinta verso le capacità multimodali. È più veloce e più economico del GPT Turbo. Mentre i media mainstream sono entusiasti delle funzionalità video e vocali del nuovo modello di punta per ChatGPTil nuovo costo e la nuova velocità sono altrettanto importanti per chi utilizza GPT per le proprie applicazioni.

Scritte bianche su sfondo indaco. Una citazione del software engineer lead di Botpress Patrick Hamelin che recita: "La disponibilità di 4o ha il potere di migliorare significativamente sia il costruttore che l'esperienza dell'utente. L'impatto è più ampio di quanto pensiamo".

"La disponibilità di 4o ha il potere di migliorare in modo significativo sia il costruttore che l'esperienza dell'utente", ha dichiarato Patrick Hamelin, un software engineer lead di Botpress. "L'impatto è più ampio di quanto pensiamo".

Vediamo quindi come il nuovo modello darà una scossa all'AI chatbots.

Costruire l'intelligenza artificiale Chatbots

Costruire chatbot agenziali personalizzati

Iniziare ora

Capacità del modello

Salutate GPT-4o

Il nuovo modello di punta è dotato di un'entusiasmante lista di aggiornamenti e nuove funzionalità: capacità vocali e video migliorate, traduzione in tempo reale, maggiori capacità di linguaggio naturale. È in grado di analizzare le immagini, comprendere una più ampia varietà di input audio, fornire assistenza nella sintesi, facilitare la traduzione in tempo reale e creare grafici. Gli utenti possono caricare file e avere una conversazione voce a voce. È disponibile anche un'applicazione per desktop.

Nella serie di video di lancio, i dipendenti di OpenAI (e collaboratori come Sal Khan di Khan academy) dimostrano che l'ultima versione di GPT prepara un utente per un colloquio di lavoro, canta, identifica le emozioni umane attraverso le espressioni facciali, risolve equazioni matematiche scritte e interagisce persino con un altro ChatGPT-4o.

Il lancio ha illustrato una nuova realtà in cui un modello di intelligenza artificiale è in grado di analizzare la scrittura sul quaderno del bambino e di rispondere. Potrebbe spiegare per la prima volta il concetto di addizione delle frazioni, cambiando tono e tattica in base alla comprensione del bambino: potrebbe passare dal chatbot al tutor personale.

Una schermata di un video dimostrativo di GPT-4o con il creatore di Kan Academy Sal Khan e suo figlio. — *Sal Khan, creatore di Khan Academy, e suo figlio dimostrano la capacità di GPT-4o di fornire lezioni di geometria.*

Cosa significa GPT-4o per i chatbot di LLM ?

I chatbot AI che funzionano su LLMs ricevono un aggiornamento ogni volta che aziende come OpenAI aggiornano i loro modelli. Se un agenteLLM è collegato a una piattaforma di costruzione di bot come Botpress, riceve tutti i vantaggi dell'ultimo modello GPT nei propri chatbot.

Con il rilascio di GPT-4o, i chatbot AI possono ora scegliere di funzionare con il modello avanzato, cambiando le loro capacità, il prezzo e la velocità. Il nuovo modello ha limiti di velocità 5 volte superiori a GPT-4 Turbo, con la possibilità di elaborare fino a 10 milioni di gettoni al minuto.

Per i bot che utilizzano integrazioni audio come Twilio su Botpress, è emerso un nuovo mondo di interazione a comando vocale. Invece di essere confinato all'elaborazione audio di un tempo, chatbots è un passo più vicino a imitare l'interazione umana.

L'aspetto forse più importante è la riduzione dei costi per gli utenti a pagamento. L'esecuzione di un chatbot di pari capacità alla metà del costo può aumentare drasticamente l'accesso e l'accessibilità in tutto il mondo. Inoltre, gli utenti di Botpress non pagano alcuna spesa aggiuntiva per l'intelligenza artificiale dei loro bot, quindi i risparmi vanno direttamente ai costruttori.

E per quanto riguarda l'utente, GPT-4o significa una migliore esperienza d'uso. A nessuno piace aspettare. Tempi di risposta più brevi significano maggiore soddisfazione per gli utenti di chatbot AI.

*Nello studio Botpress , gli utenti possono selezionare diverse versioni di GPT per diverse parti del flusso di lavoro del bot.*

Gli utenti amano la velocità

Un elemento chiave dell'adozione dei chatbot è il miglioramento dell'esperienza dell'utente. E cosa migliora l'esperienza dell'utente più della riduzione dei tempi di attesa?

"Sarà sicuramente un'esperienza migliore", ha detto Hamelin. "L'ultima cosa che si vuole fare è aspettare qualcuno".

Gli esseri umani odiano l'attesa. Già nel 2003, uno studio ha rilevato che le persone erano disposte ad aspettare solo circa 2 secondi per il caricamento di una pagina web. Da allora la nostra pazienza non è certo aumentata.

E tutti odiano aspettare

Esiste una pletora di consigli UX per ridurre il tempo di attesa percepito. Spesso non siamo in grado di migliorare la velocità degli eventi, quindi ci concentriamo su come far percepire agli utenti che il tempo passa più velocemente. Il feedback visivo, come l'immagine di una barra di caricamento, esiste per ridurre il tempo di attesa percepito.

In una famosa storia sui tempi di attesa degli ascensori, un vecchio edificio di New York riceveva una valanga di lamentele. I residenti dovevano aspettare 1-2 minuti prima che l'ascensore arrivasse. L'edificio non era in grado di aggiornare l'ascensore con un modello più recente e i residenti minacciavano di rompere il contratto di locazione.

Un nuovo assunto, con una formazione in psicologia, capì che il vero problema non erano i due minuti di tempo persi, ma la noia. Suggerì di installare degli specchi in modo che i residenti potessero guardare se stessi o gli altri durante l'attesa. Le lamentele sull'ascensore cessarono e ora è normale vedere specchi nelle hall degli ascensori.

Invece di prendere scorciatoie per migliorare l'esperienza dell'utente, come il feedback visivo, OpenAI ha migliorato l'esperienza alla fonte. La velocità è fondamentale per l'esperienza dell'utente e non c'è trucco che possa eguagliare la soddisfazione di un'interazione efficiente.

Risparmio per tutti

L'utilizzo di questo nuovo modello di intelligenza artificiale per eseguire applicazioni è diventato improvvisamente più economico. Molto più economico.

Gestire un chatbot AI su scala può diventare costoso. Il sito LLM da cui è alimentato il vostro bot determina quanto pagherete per ogni interazione con l'utente su larga scala (almeno in Botpress, dove la spesa per l'IA corrisponde a 1:1 con i costi di LLM ).

E questi risparmi non sono solo per gli sviluppatori che utilizzano le API. ChatGPT-4o è l'ultima versione gratuita di LLM, insieme a GPT-3.5. Gli utenti gratuiti possono utilizzare l'applicazione ChatGPT senza alcun costo.

Migliore tokenizzazione

Se si interagisce con il modello in una lingua che non utilizza l'alfabeto romano, GPT-4o riduce ulteriormente i costi dell'API.

Una visualizzazione di quanto sia più efficiente la tokenizzazione con GPT-4o rispetto a Turbo. Le lingue indo-ariane come l'hindi e il gujarati hanno una riduzione media della tokenizzazione pari a 2,9-4,4. L'arabo ha una riduzione di 2 volte e le lingue dell'Asia orientale come il giapponese, il coreano e il cinese hanno una riduzione di 1,4-1,x. — *Quanto è più efficiente la tokenizzazione di GPT-4o? Dipende dalla lingua.*

Il nuovo modello è dotato di limiti di utilizzo migliorati. Offre un salto significativo nell'efficienza della tokenizzazione, in gran parte concentrata su alcune lingue non inglesi.

Il nuovo modello di tokenizzazione richiede un numero inferiore di token per elaborare il testo in ingresso. È molto più efficiente per le lingue logografiche (cioè quelle che usano simboli e caratteri invece di singole lettere).

Questi benefici sono in gran parte concentrati nelle lingue che non utilizzano l'alfabeto romano. Le riduzioni dei risparmi sono state stimate come segue:

Le lingue indiane, come l'hindi, il tamil o il gujarati, hanno una riduzione di 2,9-4,4 volte dei token.
L'arabo ha una riduzione di ~2 volte dei token
Le lingue dell'Asia orientale, come il cinese, il giapponese e il vietnamita, hanno una riduzione dei token di 1,4 - 1,7 volte.

Distribuire gli agenti di intelligenza artificiale?

Leggete il nostro progetto per l'implementazione dell'agente AI

Leggi ora

Colmare il divario digitale dell'IA

L'era digitale ha portato con sé un'estensione dell'antico e ben documentato divario di ricchezza: il digital divide. Così come l'accesso alla ricchezza e a infrastrutture solide è esclusivo di alcune popolazioni, lo è anche l'accesso all'IA e alle opportunità e ai vantaggi che la accompagnano.

Robert Opp, Chief Digital Officer del Programma delle Nazioni Unite per lo Sviluppo (UNDP), ha spiegato che la presenza di piattaforme di intelligenza artificiale ha la capacità di far crescere o perdere le metriche di sviluppo di un intero Paese:

"Una grande preoccupazione che abbiamo è che i Paesi che sono più attrezzati e competenti in materia di piattaforme AI, sia in termini di sviluppo che di utilizzo, potrebbero avere un processo di sviluppo molto più rapido, mentre i Paesi che non hanno le competenze e le capacità saranno lasciati indietro".

Un palcoscenico decorato in modo vivace con quattro persone in poltrone bianche. Opp siede all'estrema destra e parla in un microfono. — *Robert Opp, Chief Digital Officer dell'UNDP, interviene al Global Digital Public Infrastructure Summit in India (2024). Foto da* *UNDP Digital X*.

Dimezzando il costo di GPT-4o e introducendo un livello gratuito, OpenAI sta compiendo un passo cruciale verso la neutralizzazione di uno dei maggiori problemi dell'IA, affrontando direttamente la disuguaglianza che sta a cuore a politici ed economisti.

Una mossa di pubbliche relazioni positiva per le grandi IA è più necessaria di quanto gli appassionati possano pensare. Poiché l'IA è sempre più presente nella nostra vita quotidiana, i sostenitori e gli scettici si sono chiesti in che modo potremmo usare l'IA "a fin di bene".

Scritte bianche su sfondo indaco. Una citazione dell'educatore di IA Louis Bouchard recita: "Rendere l'IA accessibile è un modo, se non il migliore, per usare l'IA 'per il bene'".

Secondo il dottorando ed educatore Louis Bouchard, la distribuzione di un accesso più ampio all'IA è il modo per fare esattamente questo: "Rendere l'IA accessibile è un modo, se non il migliore, per usare l'IA "a fin di bene"". Il suo ragionamento? Se non siamo in grado di controllare completamente gli impatti positivi e negativi della tecnologia dell'IA - almeno nei primi tempi - possiamo invece garantire un accesso paritario ai suoi potenziali benefici.

Potenziale multimodale ampliato

Il modo più diffuso di interagire con un chatbot aziendale è il testo, ma le maggiori capacità multimodali del nuovo modello di AI di OpenAIsuggeriscono che questa situazione potrebbe cambiare in futuro.

Nel corso del prossimo anno assisteremo probabilmente a una marea di sviluppatori che realizzeranno nuove applicazioni in grado di sfruttare al meglio le nuove funzionalità audio, visive e video.

Ad esempio, i chatbot di GPT potrebbero essere in grado di:

Chiedere ai clienti un'immagine dell'articolo che stanno restituendo per identificare il prodotto e assicurarsi che non sia danneggiato.
Fornire una traduzione audio in tempo reale della conversazione che tenga conto dei dialetti specifici della regione
Per sapere se la bistecca è cotta basta un'immagine della stessa in padella
Funziona come una guida turistica personale e gratuita, che fornisce un contesto storico basato su un'immagine di un'antica cattedrale, fornisce traduzioni in tempo reale e offre un tour vocale personalizzato che consente di comunicare e porre domande.
Un'applicazione per l'apprendimento delle lingue che ascolta l'input audio, può fornire un feedback sulla pronuncia in base a un video dei movimenti della bocca o insegnare il linguaggio dei segni attraverso immagini e video.
Fornire un supporto non urgente per il benessere mentale combinando la capacità di interpretare audio e video, consentendo una terapia di conversazione a basso costo.

Grazie a modelli di intelligenza artificiale in grado di interpretare immagini e audio, la nostra comprensione di come LLMs possa servirci è in rapida espansione.

Multimodalità significa accessibilità

Abbiamo già visto che le funzioni multimodali potenziate vengono utilizzate per scopi sociali. Un esempio perfetto è la collaborazione diOpenAIcon Be My Eyes.

Be My Eyes è una start-up danese che mette in contatto utenti non vedenti con volontari vedenti. Quando un utente ha bisogno di assistenza, ad esempio per scegliere le scatolette giuste al supermercato o per identificare il colore di una maglietta, l'applicazione lo mette in contatto con un volontario vedente in tutto il mondo attraverso un video via smartphone.

Un annuncio blu brillante per "Be My AI" con la scritta "Rolling out out". Sul lato destro c'è l'immagine di uno smartphone che mostra un sentiero marino deserto con una descrizione dell'immagine generata dall'IA. — *L'annuncio della partnership e del prodotto Be My Eyes x OpenAI.*

OpenAILa nuova capacità di visione di Be My Eyes può fornire un'esperienza ancora più utile agli utenti. Invece di affidarsi a un volontario umano per decifrare visivamente un'immagine o un video in tempo reale, gli utenti non vedenti possono trasmettere al loro dispositivo un'immagine o un video a cui il modello può rispondere con informazioni audio.

OpenAI e Be My Eyes, ora partner fidati, stanno aprendo la strada a una maggiore indipendenza per le persone legalmente cieche di tutto il mondo. Il CEO di Be My Eyes, Michael Buckley, ne spiega l'impatto:

"Nel breve periodo di tempo in cui abbiamo avuto accesso, abbiamo riscontrato prestazioni ineguagliabili rispetto a qualsiasi altro strumento di riconoscimento di oggetti da immagine a testo. Le implicazioni per l'accessibilità globale sono profonde. In un futuro non molto lontano, la comunità dei ciechi e degli ipovedenti utilizzerà questi strumenti non solo per una serie di esigenze di interpretazione visiva, ma anche per avere un maggior grado di indipendenza nella propria vita".

Tre immagini di smartphone che utilizzano Be My Eyes. Una si concentra su una serie di cravatte a fantasia, una mostra un utente che tiene un flacone di crema solare verso la fotocamera e un'altra che mostra piccole case colorate. — *Be My Eyes mette in contatto utenti ipovedenti con volontari vedenti per completare compiti visivi. Foto di Be My Eyes.*

Be My Eyes Accessibilità con GPT-4o

Il nuovo servizio sarà disponibile a breve, nell'estate del 2024, per la prima volta. Gli utenti con accesso anticipato hanno testato in beta le nuove funzioni di visione, video e audio con recensioni entusiastiche. Sebbene l'impatto dell'intelligenza artificiale possa destare preoccupazione negli scettici, questa partnership è un chiaro segno degli impatti positivi che può avere. La comprensione del bene sociale che deriva dall'IA avanzata è un passo fondamentale per le sue pubbliche relazioni.

Come giudicheremo i futuri modelli di LLM ?

Mentre i concorrenti continuano la loro corsa al ribasso per creare il sito LLM più economico e veloce, sorge spontanea la domanda: come giudicheremo i modelli di IA di domani?

A un certo punto, in futuro, i principali creatori di LLM (probabilmente OpenAI e Google) raggiungeranno un plateau per quanto riguarda la velocità di esecuzione dei loro modelli e l'economicità dell'accesso. Una volta raggiunta la stabilità in termini di costi e velocità, come si incoronerà il modello leader del mercato?

Quale sarà il nuovo segno dei tempi? Che si tratti delle personalità disponibili del modello di intelligenza artificiale, delle capacità di miglioramento dei video, delle funzionalità disponibili per gli utenti gratuiti o di metriche nuove di zecca che vanno oltre la nostra attuale comprensione, la prossima generazione di LLMs è alle nostre porte.

AI Chatbots è facile da usare

E se il vostro chatbot AI si sincronizzasse automaticamente con ogni aggiornamento di GPT ?

Botpress fornisce soluzioni di chatbot AI personalizzabili dal 2017, fornendo agli sviluppatori gli strumenti necessari per creare facilmente chatbot con la potenza del più recente LLMs. I chatbot di Botpress possono essere addestrati su fonti di conoscenza personalizzate, come il vostro sito web o il catalogo prodotti, e si integrano perfettamente con i sistemi aziendali.

L'unica piattaforma che spazia dall'assenza di codice alla personalizzazione e all'estendibilità infinite, Botpress vi permette di ottenere automaticamente la potenza dell'ultima versione di GPT sul vostro chatbot, senza alcuno sforzo.

Iniziare acostruire oggi. È gratis.

Costruire l'intelligenza artificiale Chatbots

Costruire chatbot agenziali personalizzati

Iniziare ora

Domande frequenti

1. Come posso passare il mio chatbot esistente a GPT su Botpress?

Per passare il chatbot esistente a GPT su Botpress, accedere a Botpress Studio, navigare nelle impostazioni LLM dell'assistente e selezionare GPT dal menu a tendina dei modelli disponibili. La modifica si applica immediatamente senza richiedere modifiche al codice.

2. Esistono prerequisiti per l'utilizzo di GPT all'interno della piattaforma Botpress (ad esempio, SDK, versioni API)?

No, non ci sono prerequisiti per utilizzare GPT in Botpress. La piattaforma gestisce automaticamente tutti gli SDK, gli aggiornamenti delle API e le dipendenze del backend, quindi è sufficiente selezionare GPT nelle impostazioni per attivarlo.

3. Il GPT può essere perfezionato o personalizzato per specifici casi d'uso aziendali tramite Botpress?

Sebbene GPT non possa essere messo a punto in senso tradizionale all'interno di Botpress, è possibile personalizzare le sue risposte e il suo comportamento utilizzando l'ingegneria dei prompt, la logica dei flussi di lavoro, le basi di conoscenza e le variabili. Ciò consente a GPT di comportarsi in modo contestuale alle esigenze aziendali senza dover riqualificare il modello.

4. Esistono limitazioni all'uso di funzionalità multimodali (voce, visione) all'interno dei flussi di lavoro Botpress ?

Sì, Botpress supporta attualmente le funzioni vocali attraverso integrazioni come Twilio o Dialogflow Voice Gateway, ma le funzionalità multimodali come l'elaborazione di immagini o video non sono ancora pienamente supportate. L'input basato sulla visione è ancora in fase di studio o richiede soluzioni alternative.

5. Ci sono costi nascosti per l'utilizzo delle funzioni avanzate del GPT, come la traduzione in tempo reale o l'input visivo?

Non ci sono costi nascosti per l'utilizzo delle funzioni avanzate di GPT in Botpress. I vantaggi di GPT in termini di velocità ed efficienza sono inclusi nel piano Botpress esistente e i costi di LLM sono coperti da Botpress , quindi gli utenti non devono sostenere costi aggiuntivi per l'utilizzo dei miglioramenti di GPT.