- RAG combina il reperimento di dati affidabili con la generazione di LLM , assicurando che le risposte dell'IA siano accurate, pertinenti e basate su conoscenze aziendali reali.
- A differenza dei LLMs puri, RAG riduce le allucinazioni ancorando le risposte a documenti specifici, database o contenuti approvati.
- RAG supporta informazioni aggiornate, consentendo ai sistemi di intelligenza artificiale di rispondere a domande su cambiamenti recenti o argomenti di nicchia al di là dei dati statici di formazione di un LLM.
- Il mantenimento di un sistema RAG implica il mantenimento dei dati, il monitoraggio dei risultati e l'affinamento dei metodi di recupero per ottenere le migliori prestazioni nel tempo.
RAG consente alle organizzazioni di mettere al lavoro l'IA, con meno rischi rispetto all'uso tradizionale di LLM .
La generazione aumentata del recupero sta diventando sempre più popolare man mano che un numero maggiore di aziende introduce soluzioni di IA. I primi chatbot aziendali hanno visto errori rischiosi e allucinazioni.
RAG consente alle aziende di sfruttare la potenza di LLMs e di fondare i risultati generativi sulle loro specifiche conoscenze aziendali.
Che cos'è la generazione aumentata dal recupero?
La RAG (Retrieval-augmented generation) nell'IA è una tecnica che combina a) il recupero di informazioni esterne rilevanti e b) risposte generate dall'IA, migliorando l'accuratezza e la pertinenza.

Invece di affidarsi alla generazione di modelli linguistici di grandi dimensioni (LLMs), le risposte dei modelli RAG sono informate da basi di conoscenza dettate dal costruttore dell'agente di intelligenza artificiale, come la pagina web di un'azienda o un documento sulle politiche del personale.
Il RAG opera in due fasi principali:
1. Recupero
Il modello cerca e recupera dati rilevanti da fonti strutturate o non strutturate (ad esempio, database, PDF, file HTML o altri documenti). Queste fonti possono essere strutturate (ad esempio, tabelle) o non strutturate (ad esempio, siti web approvati).
2. Generazione
Dopo il recupero, le informazioni vengono inserite in LLM. LLM utilizza le informazioni per generare una risposta in linguaggio naturale, combinando i dati approvati con le proprie capacità linguistiche per creare risposte accurate, simili a quelle umane e in linea con il marchio.
Esempi di casi d'uso di RAG
Qual è lo scopo del RAG? Consente alle organizzazioni di fornire risultati pertinenti, informativi e accurati.
Il RAG è un modo diretto per diminuire il rischio di un'emissione imprecisa di LLM o di allucinazioni.
Esempio 1: Studio legale
Uno studio legale potrebbe utilizzare un RAG in un sistema di intelligenza artificiale per:
- Cercare le leggi, i precedenti e le sentenze legali pertinenti nei database di documenti durante la ricerca.
- Generare sintesi dei casi estraendo i fatti chiave dai fascicoli e dalle sentenze passate.
- Fornite automaticamente ai dipendenti gli aggiornamenti normativi pertinenti.
Esempio 2: Agenzia immobiliare
Un'agenzia immobiliare potrebbe utilizzare un RAG in un sistema di intelligenza artificiale per:
- Riassumere i dati delle transazioni immobiliari e le statistiche sulla criminalità nel quartiere.
- Rispondere a domande legali sulle transazioni immobiliari citando le leggi e i regolamenti locali in materia.
- Semplificare i processi di valutazione estraendo i dati dai rapporti sulle condizioni degli immobili, dalle tendenze di mercato e dalle vendite storiche.
Esempio 3: negozio di e-commerce
Un e-commerce potrebbe utilizzare un RAG in un sistema di intelligenza artificiale per:
- Raccogliere informazioni, specifiche e recensioni sui prodotti dal database dell'azienda per fornire raccomandazioni personalizzate sui prodotti.
- Recuperare la cronologia degli ordini per generare esperienze di acquisto personalizzate in base alle preferenze dell'utente.
- Generare campagne e-mail mirate recuperando i dati di segmentazione dei clienti e combinandoli con i modelli di acquisto recenti.
Vantaggi di RAG

Come sanno tutti coloro che hanno consultato ChatGPT o Claude lo sa, LLMs ha delle salvaguardie minime.
Senza un'adeguata supervisione, possono produrre informazioni imprecise o addirittura dannose, rendendole inaffidabili per l'impiego nel mondo reale.
RAG offre una soluzione basando le risposte su fonti di dati affidabili e aggiornate, riducendo significativamente questi rischi.
Prevenire allucinazioni e imprecisioni
I modelli linguistici tradizionali spesso generano allucinazioni: risposte che sembrano convincenti ma che sono di fatto errate o irrilevanti.
Il RAG attenua le allucinazioni basando le risposte su fonti di dati affidabili e iper-rilevanti.
La fase di recupero assicura che il modello faccia riferimento a informazioni precise e aggiornate, riducendo in modo significativo la possibilità di allucinazioni e aumentando l'affidabilità.
Recuperare informazioni aggiornate
Sebbene LLMs sia uno strumento potente per molte attività, non è in grado di fornire informazioni accurate su informazioni rare o recenti, comprese le conoscenze aziendali specifiche.
Ma RAG permette al modello di recuperare informazioni in tempo reale da qualsiasi fonte, compresi siti web, tabelle o database.
Questo garantisce che, finché una fonte di verità viene aggiornata, il modello risponderà con informazioni aggiornate.
Comunicare in contesti complessi
Un'altra debolezza dell'uso tradizionale LLM è la perdita di informazioni contestuali.
LLMs faticano a mantenere il contesto in conversazioni lunghe o complesse. Ciò si traduce spesso in risposte incomplete o frammentarie.
Ma un modello RAG consente di conoscere il contesto attingendo informazioni direttamente da fonti di dati semanticamente collegate.
Con informazioni aggiuntive mirate specificamente alle esigenze degli utenti - come un chatbot di vendita dotato di un catalogo di prodotti - RAG consente agli agenti AI di partecipare a conversazioni contestuali.
Come funziona il RAG?

1. Caricamento del documento
Innanzitutto, il costruttore carica un documento o un file nella libreria del proprio agente AI. Il file può essere una pagina web, un PDF o un altro formato supportato, che entra a far parte della base di conoscenze dell'IA.
2. Conversione di documenti
Poiché esistono molti tipi di file (PDF, pagine web, ecc.), il sistema li converte in un formato di testo standardizzato. - il sistema converte questi file in un formato di testo standardizzato, facilitando l'elaborazione e il recupero delle informazioni rilevanti da parte dell'intelligenza artificiale.
3. Raggruppamento e archiviazione
Il documento convertito viene quindi suddiviso in pezzi più piccoli e gestibili, o chunks. Questi pezzi vengono memorizzati in un database, consentendo all'agente di intelligenza artificiale di cercare e recuperare in modo efficiente le sezioni pertinenti durante un'interrogazione.
4. Interrogazione dell'utente
Dopo la creazione delle basi di conoscenza, l'utente può porre una domanda all'agente AI. La domanda viene elaborata utilizzando l'elaborazione del linguaggio naturale (NLP) per capire cosa l'utente sta chiedendo.
5. Recupero della conoscenza
L'agente AI cerca tra i pezzi memorizzati, utilizzando algoritmi di recupero per trovare le informazioni più rilevanti tra i documenti caricati che possono rispondere alla domanda dell'utente.
6. Generazione
Infine, l'agente AI genererà una risposta combinando le informazioni recuperate con le sue capacità di modello linguistico, creando una risposta coerente e contestualmente accurata basata sulla domanda e sui dati recuperati.
Caratteristiche avanzate del RAG
Se non siete sviluppatori, potreste rimanere sorpresi nell'apprendere che non tutti i RAG sono uguali.
Sistemi diversi costruiranno modelli RAG diversi, a seconda delle esigenze, dei casi d'uso o delle capacità.
Alcune piattaforme di IA offrono funzioni RAG avanzate che possono migliorare ulteriormente la precisione e l'affidabilità del software di IA.
Chunking semantico e chunking ingenuo
Il chunking ingenuo consiste nel dividere un documento in pezzi di dimensioni fisse, come tagliare un testo in sezioni di 500 parole, indipendentemente dal significato o dal contesto.
Il chunking semantico, invece, suddivide il documento in sezioni significative in base al contenuto.
Considera le interruzioni naturali, come i paragrafi o gli argomenti, assicurando che ogni pezzo contenga un'informazione coerente.
Citazioni obbligatorie
Per i settori che automatizzano le conversazioni ad alto rischio con l'IA, come la finanza o la sanità, le citazioni possono contribuire a infondere fiducia negli utenti quando ricevono informazioni.
Gli sviluppatori possono indicare ai loro modelli RAG di fornire citazioni per qualsiasi informazione inviata.
Ad esempio, se un dipendente chiede a un chatbot AI informazioni sulle prestazioni sanitarie, il chatbot può rispondere e fornire un link al documento relativo alle prestazioni dei dipendenti.
Costruire un agente AI RAG personalizzato
Combinate la potenza del più recente LLMs con le vostre conoscenze aziendali esclusive.
Botpress è una piattaforma di chatbot AI flessibile e ampliabile all'infinito.
Permette agli utenti di costruire qualsiasi tipo di agente AI o chatbot per qualsiasi caso d'uso e offre il sistema RAG più avanzato del mercato.
Integrate il vostro chatbot in qualsiasi piattaforma o canale, oppure scegliete dalla nostra libreria di integrazioni precostituite. Iniziate con le esercitazioni del canale YouTube di Botpress o con i corsi gratuiti di Botpress Academy .
Iniziate a costruire oggi stesso. È gratuito.
Domande frequenti
1. In che modo la RAG è diversa dalla messa a punto di un LLM?
RAG consente di mantenere inalterato l'LLM di base e di inserire solo le informazioni pertinenti al momento dell'interrogazione, mentre la messa a punto modifica effettivamente il modello addestrandolo sui dati. RAG è molto più veloce e flessibile per gli aggiornamenti.
2. Quali tipi di fonti di dati non sono adatti al RAG?
Documenti disordinati, obsoleti o troppo complessi (come immagini scannerizzate o PDF non testuali) possono essere problematici, così come fonti con troppe ambiguità o informazioni contraddittorie.
3. Come si colloca il RAG rispetto alle tecniche di apprendimento in contesto come il prompt engineering?
L'ingegneria del prompt funziona inserendo esempi direttamente nel prompt, ma RAG è più scalabile grazie all'acquisizione di conoscenze esterne in modo dinamico, così non si raggiungono limiti di token così rapidamente e si può attingere a una base di informazioni molto più ampia.
4. È possibile utilizzare RAG con LLMs di terze parti come OpenAI, Anthropic o Mistral?
Assolutamente sì, è possibile collegare un sistema RAG ai più diffusi LLMs tramite le loro API. Si gestisce la parte di recupero e si invia solo il messaggio finale (con il contesto) al modello.
5. Come si configura la manutenzione continua per un agente AI abilitato al RAG?
Dovrete mantenere la vostra knowledge base fresca reindicizzando i nuovi documenti, monitorare le prestazioni per individuare le risposte errate o mancanti e, di tanto in tanto, modificare le impostazioni di chunking o di recupero per migliorare la pertinenza.