LLMs stanno trasformando il modo in cui costruiamo le soluzioni di intelligenza artificiale. Vengono rilasciati continuamente nuovi e migliori modelli off-the-shelf.
Una domanda che mi viene spesso posta è perché qualcuno dovrebbe optare per un LLM personalizzato invece che per una soluzione già pronta?
Se si sta lavorando a un progetto di IA, come la costruzione di un agente di IA o di un chatbot di IA, si potrebbe scegliere di utilizzare un modello linguistico personalizzato di grandi dimensioni (LLM).
Ci sono molti motivi per usare un LLM personalizzato e molte opzioni a disposizione. In questo articolo, vi illustrerò i diversi modi per personalizzare un LLM per i progetti di intelligenza artificiale.
Perché utilizzare un sito LLM personalizzato?
Ci sono diversi motivi per utilizzare un sito LLM personalizzato:
- Si desidera ridurre i costi concentrandosi su una particolare attività importante per il caso d'uso aziendale, oppure ridurre al minimo la latenza.
- Potreste voler mantenere tutti i dati privati, oppure utilizzare il sito interno della vostra azienda LLM.
- Potreste voler migliorare la qualità delle risposte per un particolare compito.
Qualunque sia il motivo, la personalizzazione del sito LLM consente di ottimizzare le prestazioni, bilanciando precisione, velocità e costi in base alle esigenze aziendali.
Scegliere un LLM
LLMs hanno due qualità che influiscono sui progetti di IA: la loro dimensione (misurata dal numero di parametri) e la qualità delle risposte.
Si può pensare ai parametri come ai neuroni di un cervello. Un cervello più grande è spesso correlato all'intelligenza, ma non è sempre vero. E alcune parti del cervello possono essere altamente ottimizzate per determinati compiti, come la visione.
Per i progetti di IA, le dimensioni di solito influenzano la velocità di risposta e incidono notevolmente sul costo delle risposte. I progetti che richiedono una bassa latenza spesso utilizzano modelli più piccoli, ma a scapito della qualità delle risposte.
Cosa chiedere quando si sceglie un modello
Ecco un buon elenco di domande a cui rispondere quando si sceglie un modello:
- Posso utilizzare un sito LLM basato sul cloud o devo ospitarlo io stesso?
- Quanto devono essere veloci le risposte?
- Quanto devono essere precise le risposte?
- Quanti dollari risparmierà e/o genererà il mio progetto? Quindi, a quale prezzo dovrebbe scendere?
- Quanto devono essere lunghe le mie risposte?
In generale, è difficile accelerare un modello potente o ridurne i costi, mentre è più facile migliorare un modello meno accurato.
Tuttavia, è molto più veloce iniziare con un modello potente e, se soddisfa le esigenze del progetto, potrebbe non essere necessario un grande sforzo di progettazione (inoltre, è più facile da mantenere).
Scelta tra RAG, Fine-Tuning, N-Shot Learning e Prompt Engineering
Esistono cinque concetti generali che migliorano la qualità delle risposte di LLM :
- Partendo da un modello pre-addestrato
- RAG
- Sintonizzazione fine
- Richiesta di N-shot
- Ingegneria tempestiva
Questi aspetti non sono specifici per l'utilizzo di modelli personalizzati, ma dovrebbero essere presi in considerazione in ogni caso, in quanto funzionano a braccetto l'uno con l'altro.
Partendo da un modello
La prima cosa da fare è scegliere il modello di partenza. Ci sono molte classifiche online che mettono a confronto i diversi modelli.
Ad esempio:
- Hugging Face gestisce una classifica di modelli open source.
- Vellum ne ha uno eccellente per i modelli più diffusi.
Se la vostra azienda dispone di un modello interno, prendete in considerazione la possibilità di utilizzarlo per rispettare il vostro budget e mantenere i dati privati. Se dovete ospitare voi stessi il modello, prendete in considerazione un modello open-source.
Messa a punto
La messa a punto consiste nel fornire esempi al modello in modo che impari a svolgere bene un determinato compito. Se volete che eccella nel parlare del vostro prodotto, potreste fornire una serie di esempi delle migliori telefonate di vendita della vostra azienda.
Se il modello è open source, chiedetevi se il vostro team ha una capacità ingegneristica sufficiente per mettere a punto un modello.
Se il modello è closed source e viene fornito come servizio ( GPT-4 o Claude), di solito i vostri ingegneri possono mettere a punto i modelli personalizzati utilizzando le API. Il prezzo di solito aumenta notevolmente con questo metodo, ma la manutenzione è minima o nulla.
Ma per molti casi d'uso, la messa a punto non è il primo passo verso l'ottimizzazione del modello.
Un ottimo caso di messa a punto è la costruzione di un knowledge bot per le conoscenze statiche. Fornendo esempi di domande e risposte, dovrebbe essere in grado di rispondere in futuro senza cercare la risposta. Ma non è una soluzione pratica per le informazioni in tempo reale.
Generazione aumentata dal recupero
RAG è un nome elegante per una cosa semplice che abbiamo fatto tutti in ChatGPT: incollare del testo in ChatGPT e fare una domanda su di esso.
Un esempio tipico è la richiesta di sapere se un certo prodotto è in stock su un sito di e-commerce, e un chatbot cerca le informazioni in un catalogo di prodotti (invece che in Internet).
In termini di velocità di sviluppo e di informazioni in tempo reale, RAG è un must.
Di solito non influisce sul modello da scegliere, tuttavia nulla impedisce di creare un endpoint API LLM che interroga le informazioni e le risposte e di utilizzare questo endpoint come se fosse il proprio LLM.
L'utilizzo di RAG per un chatbot basato sulla conoscenza è spesso più facile da mantenere, in quanto non è necessario mettere a punto un modello e mantenerlo aggiornato, il che può anche ridurre i costi.
Apprendimento a N colpi
Il modo più rapido per iniziare a migliorare la qualità delle risposte è quello di fornire esempi in una singola chiamata API LLM .
Zero-shot - fornire zero esempi di ciò che si sta cercando in una risposta - è il modo in cui la maggior parte di noi usa ChatGPT. L'aggiunta di un solo esempio (o one-shot) è di solito sufficiente per vedere un miglioramento sostanziale nella qualità della risposta.
Più di un esempio è considerato n-shot. N-shot non cambia il modello, a differenza del fine-tuning. Si stanno semplicemente fornendo esempi appena prima di chiedere una risposta, ogni volta che si pone una domanda.
Ma questa strategia non può essere utilizzata in modo eccessivo: i modelli di LLM hanno una dimensione massima del contesto e vengono valutati in base alla dimensione del messaggio. La messa a punto può eliminare la necessità di n esempi, ma richiede più tempo per essere messa a punto.
Altre tecniche di ingegneria rapida
Esistono altre tecniche di prompt engineering, come la chain-of-thought, che costringono i modelli a pensare ad alta voce prima di trovare una risposta.
Questo aumenta la qualità della risposta, ma a costo della lunghezza, del costo e della velocità della risposta.
Il mio consiglio
Anche se ogni progetto avrà le sue esigenze specifiche, darò i miei due centesimi su un approccio forte.
Un buon punto di partenza è l'utilizzo di un modello standard che bilanci velocità e qualità, come GPT-4o Mini. Iniziate ad analizzare la qualità delle risposte, la velocità di risposta, il costo, le esigenze della finestra di contesto e decidete cosa migliorare.
Poi, con un caso d'uso ristretto, si può provare con un semplice prompt engineering, seguito da RAG e infine dalla messa a punto. Ogni modello che passa attraverso queste fasi avrà un aumento delle prestazioni, quindi può essere complicato capire cosa usare.
Considerazioni sulla privacy
In un mondo ideale, ogni LLM sarebbe al 100% sotto il vostro controllo e nulla sarebbe esposto da nessuna parte.
Purtroppo, questo non è ciò che osserviamo nella pratica, e per ottime ragioni.
Il primo è semplice: richiede che l'ingegneria ospiti e mantenga un modello personalizzato, il che è molto costoso. Quando il modello ospitato si ferma, le metriche aziendali ne risentono, quindi l'implementazione deve essere molto solida.
Un altro motivo è che i leader del settore, come OpenAI, Google e Anthropic, rilasciano costantemente modelli più nuovi, più capaci e più economici che rendono superfluo qualsiasi lavoro di messa a punto. Questa situazione si è verificata sin dal rilascio di ChatGPT 3.5 e non mostra segni di cambiamento.
Se il vostro caso d'uso prevede dati estremamente sensibili, ha senso utilizzare un modello e ottimizzarlo per il vostro caso d'uso. Se si pensa al GDPR, ci sono molti modelli già pronti che sono conformi al GDPR.
L'edificio dopo aver selezionato il vostro LLM
Una volta scelto LLM, si può iniziare a capire come costruire e mantenere il proprio progetto di IA. A titolo di esempio, prenderò il tipo di progetto che mi è più familiare: un agente di IA o un chatbot di IA.
Potete rispondere alle seguenti domande per definire l'ambito del vostro progetto:
- Dove vorrei che vivesse il mio agente AI? (Slack, WhatsApp, un widget del sito web, ecc.)
- Quale conoscenza dovrebbe avere, dove si trova questa conoscenza?
- Quali capacità dovrebbe avere, oltre a quella di rispondere alle domande, se ne ha?
- Dovrebbe attivarsi quando succede qualcosa da qualche parte nell'azienda?
Scaricare l'ingegneria per risparmiare denaro
Mantenere un budget ridotto è fondamentale per realizzare il vostro progetto. Uno dei modi per farlo è ridurre i tempi di progettazione disaccoppiando i requisiti.
Oggi abbiamo accesso a soluzioni low-code come Flutterflow, Shopify, che possono essere utilizzate da ruoli tradizionalmente non tecnici come i Product Manager. I chatbot non fanno eccezione, e alcune piattaforme di automazione dell'intelligenza artificiale consentono persino di utilizzare il proprio LLM.
È possibile incaricare gli ingegneri di concentrarsi sull'hosting di LLM e sulla configurazione della piattaforma di automazione. In questo modo si liberano gli analisti aziendali, i product manager e altri ruoli correlati per costruire agenti AI che soddisfino i requisiti aziendali.
Quando è necessario qualcosa di aggiuntivo, queste piattaforme hanno generalmente un modo per consentire agli ingegneri di aggiungere del codice. In questo modo, si mantengono i vantaggi di un modello personalizzato, guadagnando in flessibilità, velocità e convenienza.
Fornire libertà ingegneristica per risolvere i problemi aziendali
D'altra parte, a volte i problemi aziendali sono molto difficili da risolvere.
Stiamo parlando di applicazioni LLM completamente connesse alla rete, di applicazioni su dispositivo o di progetti che richiedono di dotare i chatbot di capacità estremamente avanzate che vanno oltre la sincronizzazione dei dati tra due piattaforme.
In questi casi, è opportuno lasciare agli ingegneri la libertà di utilizzare gli strumenti che preferiscono. Di solito si tratta solo di scrivere codice e gli stakeholder agiscono semplicemente come gestori del progetto.
Considerazioni strategiche per la personalizzazione di un LLM
La scelta di un sito LLM personalizzato per il vostro progetto di IA non si limita a scegliere il modello migliore, ma consiste nel prendere decisioni strategiche in linea con i vostri obiettivi.
I modelli personalizzati offrono flessibilità, controllo e la possibilità di ottimizzare per compiti specifici, ma comportano anche una maggiore complessità. Iniziate con un modello standard, sperimentate l'ingegneria rapida e perfezionatelo gradualmente.
Ricordate che il modello giusto deve essere adatto alle vostre esigenze aziendali, non solo alla vostra tecnologia stack.
Personalizzazione con piattaforme potenti
Siete pronti a dare una svolta al vostro progetto di intelligenza artificiale?
Botpress è una piattaforma di agenti AI completamente estensibile e flessibile. Il nostro stack consente agli sviluppatori di creare chatbot e agenti AI per qualsiasi caso d'uso possibile.
Disponiamo di una solida piattaforma educativa, Botpress Academy, oltre a un dettagliato canale YouTube. Il nostro sito Discord ospita oltre 20.000 costruttori di bot, in modo che possiate sempre ottenere il supporto di cui avete bisogno.
Iniziare acostruire oggi. È gratis.
Indice dei contenuti
Rimanete aggiornati sulle ultime novità in materia di agenti AI
Condividi questo articolo su: