Come scegliere un sito LLM personalizzato per il vostro progetto di IA

Scritto da

Patrick Hamelin

Direttore dell'ingegneria della crescita @ Botpress e Nerd AI certificato

Indice dei contenuti

Passo 1. il titolo del passo va qui, come previsto.

Sintesi

LLMs personalizzati consentono di ridurre i costi, proteggere i dati sensibili e migliorare le prestazioni specifiche delle attività, rendendoli strumenti strategici per soluzioni aziendali su misura.
Le dimensioni dell'LLM influenzano sia la qualità che i costi, quindi è necessario bilanciare la velocità di risposta, l'accuratezza e il budget prima di decidere se utilizzare modelli di grandi dimensioni come il GPT o opzioni più piccole e veloci.
Tecniche come RAG, fine-tuning, n-shot learning e prompt engineering sono strumenti essenziali per personalizzare il comportamento di LLM , ciascuno con compromessi in termini di costi, complessità e manutenzione.

LLMs stanno trasformando il modo in cui costruiamo le soluzioni di intelligenza artificiale. Vengono rilasciati continuamente nuovi e migliori modelli off-the-shelf.

Una domanda che mi viene spesso posta è perché qualcuno dovrebbe optare per un LLM personalizzato invece che per una soluzione già pronta?

Se si sta lavorando a un progetto di IA, come la costruzione di un agente di IA o di un chatbot di IA, si potrebbe scegliere di utilizzare un modello linguistico personalizzato di grandi dimensioni (LLM).

Ci sono molte ragioni per usare un LLM personalizzato per il vostro agenteLLM e molte opzioni a vostra disposizione. In questo articolo, vi illustrerò i diversi modi per personalizzare un LLM per i progetti di intelligenza artificiale.

Perché utilizzare un sito LLM personalizzato?

Ci sono diversi motivi per utilizzare un sito LLM personalizzato:

Si desidera ridurre i costi concentrandosi su una particolare attività importante per il caso d'uso aziendale, oppure ridurre al minimo la latenza.
Potreste voler mantenere tutti i dati privati, oppure utilizzare il sito interno della vostra azienda LLM.
Potreste voler migliorare la qualità delle risposte per un particolare compito.

Qualunque sia il motivo, la personalizzazione del sito LLM consente di ottimizzare le prestazioni, bilanciando precisione, velocità e costi in base alle esigenze aziendali.

Costruire l'intelligenza artificiale Chatbots

Costruire chatbot agenziali personalizzati

Iniziare ora

Scegliere un LLM

LLMs hanno due qualità che influiscono sui progetti di IA: la loro dimensione (misurata dal numero di parametri) e la qualità delle risposte.

Si può pensare ai parametri come ai neuroni di un cervello. Un cervello più grande è spesso correlato all'intelligenza, ma non è sempre vero. E alcune parti del cervello possono essere altamente ottimizzate per determinati compiti, come la visione.

Per i progetti di IA, le dimensioni di solito influenzano la velocità di risposta e incidono notevolmente sul costo delle risposte. I progetti che richiedono una bassa latenza spesso utilizzano modelli più piccoli, ma a scapito della qualità delle risposte.

Cosa chiedere quando si sceglie un modello

Ecco un buon elenco di domande a cui rispondere quando si sceglie un modello:

Posso utilizzare un sito LLM basato sul cloud o devo ospitarlo io stesso?
Quanto devono essere veloci le risposte?
Quanto devono essere precise le risposte?
Quanti dollari risparmierà e/o genererà il mio progetto? Quindi, a quale prezzo dovrebbe scendere?
Quanto devono essere lunghe le mie risposte?

In generale, è difficile accelerare un modello potente o ridurne i costi, mentre è più facile migliorare un modello meno accurato.

Tuttavia, è molto più veloce iniziare con un modello potente e, se soddisfa le esigenze del progetto, potrebbe non essere necessario un grande sforzo di progettazione (inoltre, è più facile da mantenere).

Scelta tra RAG, Fine-Tuning, N-Shot Learning e Prompt Engineering

Esistono cinque concetti generali che migliorano la qualità delle risposte di LLM :

Partendo da un modello pre-addestrato
RAG
Sintonizzazione fine
Richiesta di N-shot
Ingegneria tempestiva

Questi aspetti non sono specifici per l'utilizzo di modelli personalizzati, ma dovrebbero essere presi in considerazione in ogni caso, in quanto funzionano a braccetto l'uno con l'altro.

Partendo da un modello

La prima cosa da fare è scegliere il modello di partenza. Ci sono molte classifiche online che mettono a confronto i diversi modelli.

Ad esempio:

Hugging Face gestisce una classifica di modelli open source.
Vellum ne ha uno eccellente per i modelli più diffusi.

Se la vostra azienda dispone di un modello interno, prendete in considerazione la possibilità di utilizzarlo per rispettare il vostro budget e mantenere i dati privati. Se dovete ospitare voi stessi il modello, prendete in considerazione un modello open-source.

Un grafico che contiene 4 modi per personalizzare un LLM.

Messa a punto

La messa a punto consiste nel fornire esempi al modello in modo che impari a svolgere bene un determinato compito. Se volete che eccella nel parlare del vostro prodotto, potreste fornire una serie di esempi delle migliori telefonate di vendita della vostra azienda.

Se il modello è open source, chiedetevi se il vostro team ha una capacità ingegneristica sufficiente per mettere a punto un modello.

Se il modello è closed source e viene fornito come servizio ( GPT-4 o Claude), di solito i vostri ingegneri possono mettere a punto i modelli personalizzati utilizzando le API. Il prezzo di solito aumenta notevolmente con questo metodo, ma la manutenzione è minima o nulla.

Ma per molti casi d'uso, la messa a punto non è il primo passo verso l'ottimizzazione del modello.

Un ottimo caso di messa a punto è la costruzione di un knowledge bot per le conoscenze statiche. Fornendo esempi di domande e risposte, dovrebbe essere in grado di rispondere in futuro senza cercare la risposta. Ma non è una soluzione pratica per le informazioni in tempo reale.

Generazione aumentata dal recupero

RAG è un nome elegante per una cosa semplice che abbiamo fatto tutti in ChatGPT: incollare del testo in ChatGPT e fare una domanda su di esso.

Un esempio tipico è la richiesta di sapere se un certo prodotto è in stock su un sito di e-commerce, e un chatbot cerca le informazioni in un catalogo di prodotti (invece che in Internet).

In termini di velocità di sviluppo e di informazioni in tempo reale, RAG è un must.

Di solito non influisce sul modello da scegliere, tuttavia nulla impedisce di creare un endpoint API LLM che interroga le informazioni e le risposte e di utilizzare questo endpoint come se fosse il proprio LLM.

L'utilizzo di RAG per un chatbot basato sulla conoscenza è spesso più facile da mantenere, in quanto non è necessario mettere a punto un modello e mantenerlo aggiornato, il che può anche ridurre i costi.

Distribuire gli agenti di intelligenza artificiale?

Leggete il nostro progetto per l'implementazione dell'agente AI

Leggi ora

Apprendimento a N colpi

Il modo più rapido per iniziare a migliorare la qualità delle risposte è quello di fornire esempi in una singola chiamata API LLM .

Zero-shot - fornire zero esempi di ciò che si sta cercando in una risposta - è il modo in cui la maggior parte di noi usa ChatGPT. L'aggiunta di un solo esempio (o one-shot) è di solito sufficiente per vedere un miglioramento sostanziale nella qualità della risposta.

Più di un esempio è considerato n-shot. N-shot non cambia il modello, a differenza del fine-tuning. Si stanno semplicemente fornendo esempi appena prima di chiedere una risposta, ogni volta che si pone una domanda.

Ma questa strategia non può essere utilizzata in modo eccessivo: i modelli di LLM hanno una dimensione massima del contesto e vengono valutati in base alla dimensione del messaggio. La messa a punto può eliminare la necessità di n esempi, ma richiede più tempo per essere messa a punto.

Altre tecniche di ingegneria rapida

Esistono altre tecniche di prompt engineering, come la chain-of-thought, che costringono i modelli a pensare ad alta voce prima di trovare una risposta.

Questo aumenta la qualità della risposta, ma a costo della lunghezza, del costo e della velocità della risposta.

Il mio consiglio

Anche se ogni progetto avrà le sue esigenze specifiche, darò i miei due centesimi su un approccio forte.

Un buon punto di partenza è l'utilizzo di un modello standard che bilanci velocità e qualità, come GPT-4o Mini. Iniziate ad analizzare la qualità delle risposte, la velocità di risposta, il costo, le esigenze della finestra di contesto e decidete cosa migliorare.

Poi, con un caso d'uso ristretto, si può provare con un semplice prompt engineering, seguito da RAG e infine dalla messa a punto. Ogni modello che passa attraverso queste fasi avrà un aumento delle prestazioni, quindi può essere complicato capire cosa usare.

Considerazioni sulla privacy

In un mondo ideale, ogni LLM sarebbe al 100% sotto il vostro controllo e nulla sarebbe esposto da nessuna parte.

Purtroppo, questo non è ciò che osserviamo nella pratica, e per ottime ragioni.

Il primo è semplice: richiede che l'ingegneria ospiti e mantenga un modello personalizzato, il che è molto costoso. Quando il modello ospitato si ferma, le metriche aziendali ne risentono, quindi l'implementazione deve essere molto solida.

Un'altra ragione è che i leader del settore - come OpenAI, Google e Anthropic - rilasciano costantemente modelli più nuovi, più capaci e più economici che rendono superfluo qualsiasi lavoro di messa a punto. Questo accade sin dal rilascio di ChatGPT 3.5 e non mostra alcun segno di cambiamento.

Se il vostro caso d'uso prevede dati estremamente sensibili, ha senso utilizzare un modello e ottimizzarlo per il vostro caso d'uso. Se si pensa al GDPR, ci sono molti modelli già pronti che sono conformi al GDPR.

L'edificio dopo aver selezionato il vostro LLM

Una volta scelto LLM, si può iniziare a capire come costruire e mantenere il proprio progetto di IA. A titolo di esempio, prenderò il tipo di progetto che mi è più familiare: un agente di IA o un chatbot di IA.

Potete rispondere alle seguenti domande per definire l'ambito del vostro progetto:

Dove vorrei che vivesse il mio agente AI?Slack, WhatsApp, un widget del sito web, ecc.)
Quale conoscenza dovrebbe avere, dove si trova questa conoscenza?
Quali capacità dovrebbe avere, oltre a quella di rispondere alle domande, se ne ha?
Dovrebbe attivarsi quando succede qualcosa da qualche parte nell'azienda?

Scaricare l'ingegneria per risparmiare denaro

Mantenere un budget ridotto è fondamentale per realizzare il vostro progetto. Uno dei modi per farlo è ridurre i tempi di progettazione disaccoppiando i requisiti.

Oggi abbiamo accesso a soluzioni low-code come Flutterflow, Shopify, che possono essere utilizzate da ruoli tradizionalmente non tecnici come i Product Manager. I chatbot non fanno eccezione e alcune piattaforme di automazione dell'intelligenza artificiale consentono persino di utilizzare il proprio LLM.

È possibile incaricare gli ingegneri di concentrarsi sull'hosting dell'LLM e sulla configurazione della piattaforma di automazione. In questo modo si liberano gli analisti aziendali, i product manager e altri ruoli correlati per costruire agenti AI che soddisfino i requisiti aziendali.

Quando è necessario qualcosa di aggiuntivo, queste piattaforme hanno generalmente un modo per consentire agli ingegneri di aggiungere del codice. In questo modo, si mantengono i vantaggi di un modello personalizzato, guadagnando in flessibilità, velocità e convenienza.

Fornire libertà ingegneristica per risolvere i problemi aziendali

D'altra parte, a volte i problemi aziendali sono molto difficili da risolvere.

Stiamo parlando di applicazioni LLM completamente connesse alla rete, di applicazioni su dispositivo o di progetti che richiedono di dotare i chatbot di capacità estremamente avanzate che vanno oltre la sincronizzazione dei dati tra due piattaforme.

In questi casi, è opportuno lasciare agli ingegneri la libertà di utilizzare gli strumenti che preferiscono. Di solito si tratta solo di scrivere codice e gli stakeholder agiscono semplicemente come gestori del progetto.

Considerazioni strategiche per la personalizzazione di un LLM

La scelta di un sito LLM personalizzato per il vostro progetto di IA non si limita a scegliere il modello migliore, ma consiste nel prendere decisioni strategiche in linea con i vostri obiettivi.

I modelli personalizzati offrono flessibilità, controllo e la possibilità di ottimizzare per compiti specifici, ma comportano anche una maggiore complessità. Iniziate con un modello standard, sperimentate l'ingegneria rapida e perfezionatelo gradualmente.

Ricordate che il modello giusto deve essere adatto alle vostre esigenze aziendali, non solo alla vostra tecnologia stack.

Personalizzazione con piattaforme potenti

Siete pronti a dare una svolta al vostro progetto di intelligenza artificiale?

Botpress è una piattaforma di agenti AI completamente estensibile e flessibile. Il nostro stack consente agli sviluppatori di creare chatbot e agenti AI per qualsiasi caso d'uso possibile.

Disponiamo di una solida piattaforma educativa, Botpress Academy, oltre a un dettagliato canale YouTube. Il nostro sito Discord ospita oltre 20.000 costruttori di bot, in modo che possiate sempre ottenere il supporto di cui avete bisogno.

Iniziare acostruire oggi. È gratis.

Costruire l'intelligenza artificiale Chatbots

Costruire chatbot agenziali personalizzati

Iniziare ora

Domande frequenti

1. Come posso valutare il ROI di un investimento in un LLM personalizzato per la mia azienda?

Per valutare il ROI di un investimento in un LLM personalizzato per la vostra azienda, confrontate i costi totali (ad esempio, infrastruttura, tempo di sviluppo, messa a punto e hosting) con i guadagni misurabili, come la riduzione del lavoro e l'aumento delle conversioni.

2. Quali KPI devo monitorare per misurare l'efficacia di un LLM personalizzato?

È necessario tenere traccia di KPI quali l'accuratezza della risposta (precisione/richiamo o completamento dell'attività), la latenza (tempo medio di risposta), la soddisfazione dell'utente (CSAT/NPS), il tasso di contenimento o di risoluzione e il costo per interazione. Queste metriche riflettono le prestazioni tecniche del modello e il suo impatto sui risultati aziendali.

3. Come posso stimare il costo di manutenzione a lungo termine di una soluzione LLM personalizzata?

Per stimare i costi di manutenzione a lungo termine di una soluzione LLM personalizzata, includere le spese per l'infrastruttura (calcolo nel cloud, archiviazione), gli aggiornamenti tecnici, la frequenza di riqualificazione o messa a punto, gli strumenti di monitoraggio e l'adattamento alle modifiche normative. Se i dati aziendali si evolvono rapidamente, è necessario prevedere costi di riqualificazione e convalida più elevati nel tempo.

4. Come posso confrontare i diversi LLMs per il mio settore o ambito specifico?

Eseguite un benchmark di diversi LLMs testandoli con prompt rappresentativi e specifici del settore e confrontando le loro prestazioni in termini di accuratezza, chiarezza, tono e rilevanza del compito. A seconda del vostro settore, potete utilizzare i dataset interni o applicare benchmark di settore open source come FinancialQA o MedQA.

5. Quali standard di conformità deve soddisfare un LLM personalizzato se si trattano i dati degli utenti?

Se gestite i dati degli utenti, il vostro LLM personalizzato deve soddisfare standard come il GDPR (per la privacy dei dati dell'UE), il SOC 2 Tipo II (per la sicurezza operativa) e l'HIPAA (se gestite dati sanitari). Il fornitore di LLM deve offrire funzionalità come l'accesso basato sui ruoli, la crittografia dei dati in transito e a riposo, la registrazione delle verifiche e politiche chiare per la conservazione e l'eliminazione dei dati.