Che cos'è la retrieval-augmented generation (RAG) nell'IA?

Scritto da

Sarah Chudleigh

Ricercatore e responsabile dei contenuti di intelligenza artificiale

Indice dei contenuti

Passo 1. il titolo del passo va qui, come previsto.

Sintesi

RAG combina il reperimento di dati affidabili con la generazione di LLM , assicurando che le risposte dell'IA siano accurate, pertinenti e basate su conoscenze aziendali reali.
A differenza dei LLMs puri, RAG riduce le allucinazioni ancorando le risposte a documenti specifici, database o contenuti approvati.
RAG supporta informazioni aggiornate, consentendo ai sistemi di intelligenza artificiale di rispondere a domande su cambiamenti recenti o argomenti di nicchia al di là dei dati statici di formazione di un LLM.
Il mantenimento di un sistema RAG implica il mantenimento dei dati, il monitoraggio dei risultati e l'affinamento dei metodi di recupero per ottenere le migliori prestazioni nel tempo.

RAG consente alle organizzazioni di mettere al lavoro l'IA, con meno rischi rispetto all'uso tradizionale di LLM .

La generazione aumentata del recupero sta diventando sempre più popolare man mano che un numero maggiore di aziende introduce soluzioni di IA. I primi chatbot aziendali hanno visto errori rischiosi e allucinazioni.

RAG consente alle aziende di sfruttare la potenza di LLMs e di fondare i risultati generativi sulle loro specifiche conoscenze aziendali.

Costruire l'intelligenza artificiale Chatbots

Costruire chatbot agenziali personalizzati

Iniziare ora

Che cos'è la generazione aumentata dal recupero?

La RAG (Retrieval-augmented generation) nell'IA è una tecnica che combina a) il recupero di informazioni esterne rilevanti e b) risposte generate dall'IA, migliorando l'accuratezza e la pertinenza.

La generazione aumentata dal recupero è una combinazione di recupero e generazione.

Invece di affidarsi alla generazione di modelli linguistici di grandi dimensioni (LLMs), le risposte dei modelli RAG sono informate da basi di conoscenza dettate dal costruttore dell'agente di intelligenza artificiale, come la pagina web di un'azienda o un documento sulle politiche del personale.

Il RAG opera in due fasi principali:

1. Recupero

Il modello cerca e recupera dati rilevanti da fonti strutturate o non strutturate (ad esempio, database, PDF, file HTML o altri documenti). Queste fonti possono essere strutturate (ad esempio, tabelle) o non strutturate (ad esempio, siti web approvati).

2. Generazione

Dopo il recupero, le informazioni vengono inserite in LLM. LLM utilizza le informazioni per generare una risposta in linguaggio naturale, combinando i dati approvati con le proprie capacità linguistiche per creare risposte accurate, simili a quelle umane e in linea con il marchio.

Esempi di casi d'uso di RAG

Qual è lo scopo del RAG? Consente alle organizzazioni di fornire risultati pertinenti, informativi e accurati.

Il RAG è un modo diretto per diminuire il rischio di un'emissione imprecisa di LLM o di allucinazioni.

Esempio 1: Studio legale

Uno studio legale potrebbe utilizzare un RAG in un sistema di intelligenza artificiale per:

Cercare le leggi, i precedenti e le sentenze legali pertinenti nei database di documenti durante la ricerca.
Generare sintesi dei casi estraendo i fatti chiave dai fascicoli e dalle sentenze passate.
Fornite automaticamente ai dipendenti gli aggiornamenti normativi pertinenti.

Esempio 2: Agenzia immobiliare

Un'agenzia immobiliare potrebbe utilizzare un RAG in un sistema di intelligenza artificiale per:

Riassumere i dati delle transazioni immobiliari e le statistiche sulla criminalità nel quartiere.
Rispondere a domande legali sulle transazioni immobiliari citando le leggi e i regolamenti locali in materia.
Semplificare i processi di valutazione estraendo i dati dai rapporti sulle condizioni degli immobili, dalle tendenze di mercato e dalle vendite storiche.

Esempio 3: negozio di e-commerce

Un e-commerce potrebbe utilizzare un RAG in un sistema di intelligenza artificiale per:

Raccogliere informazioni, specifiche e recensioni sui prodotti dal database dell'azienda per fornire raccomandazioni personalizzate sui prodotti.
Recuperare la cronologia degli ordini per generare esperienze di acquisto personalizzate in base alle preferenze dell'utente.
Generare campagne e-mail mirate recuperando i dati di segmentazione dei clienti e combinandoli con i modelli di acquisto recenti.

Vantaggi di RAG

3 vantaggi del RAG: prevenire le allucinazioni, recuperare informazioni aggiornate, comunicare in contesti complessi

Come sanno tutti coloro che hanno consultato ChatGPT o Claude lo sa, LLMs ha delle salvaguardie minime.

Senza un'adeguata supervisione, possono produrre informazioni imprecise o addirittura dannose, rendendole inaffidabili per l'impiego nel mondo reale.

RAG offre una soluzione basando le risposte su fonti di dati affidabili e aggiornate, riducendo significativamente questi rischi.

Prevenire allucinazioni e imprecisioni

I modelli linguistici tradizionali spesso generano allucinazioni: risposte che sembrano convincenti ma che sono di fatto errate o irrilevanti.

Il RAG attenua le allucinazioni basando le risposte su fonti di dati affidabili e iper-rilevanti.

La fase di recupero assicura che il modello faccia riferimento a informazioni precise e aggiornate, riducendo in modo significativo la possibilità di allucinazioni e aumentando l'affidabilità.

Recuperare informazioni aggiornate

Sebbene LLMs sia uno strumento potente per molte attività, non è in grado di fornire informazioni accurate su informazioni rare o recenti, comprese le conoscenze aziendali specifiche.

Ma RAG permette al modello di recuperare informazioni in tempo reale da qualsiasi fonte, compresi siti web, tabelle o database.

Questo garantisce che, finché una fonte di verità viene aggiornata, il modello risponderà con informazioni aggiornate.

Comunicare in contesti complessi

Un'altra debolezza dell'uso tradizionale LLM è la perdita di informazioni contestuali.

LLMs faticano a mantenere il contesto in conversazioni lunghe o complesse. Ciò si traduce spesso in risposte incomplete o frammentarie.

Ma un modello RAG consente di conoscere il contesto attingendo informazioni direttamente da fonti di dati semanticamente collegate.

Con informazioni aggiuntive mirate specificamente alle esigenze degli utenti - come un chatbot di vendita dotato di un catalogo di prodotti - RAG consente agli agenti AI di partecipare a conversazioni contestuali.

Come funziona il RAG?

1. Caricamento del documento

Innanzitutto, il costruttore carica un documento o un file nella libreria del proprio agente AI. Il file può essere una pagina web, un PDF o un altro formato supportato, che entra a far parte della base di conoscenze dell'IA.

2. Conversione di documenti

Poiché esistono molti tipi di file (PDF, pagine web, ecc.), il sistema li converte in un formato di testo standardizzato. - il sistema converte questi file in un formato di testo standardizzato, facilitando l'elaborazione e il recupero delle informazioni rilevanti da parte dell'intelligenza artificiale.

Distribuire gli agenti di intelligenza artificiale?

Leggete il nostro progetto per l'implementazione dell'agente AI

Leggi ora

3. Raggruppamento e archiviazione

Il documento convertito viene quindi suddiviso in pezzi più piccoli e gestibili, o chunks. Questi pezzi vengono memorizzati in un database, consentendo all'agente di intelligenza artificiale di cercare e recuperare in modo efficiente le sezioni pertinenti durante un'interrogazione.

4. Interrogazione dell'utente

Dopo la creazione delle basi di conoscenza, l'utente può porre una domanda all'agente AI. La domanda viene elaborata utilizzando l'elaborazione del linguaggio naturale (NLP) per capire cosa l'utente sta chiedendo.

5. Recupero della conoscenza

L'agente AI cerca tra i pezzi memorizzati, utilizzando algoritmi di recupero per trovare le informazioni più rilevanti tra i documenti caricati che possono rispondere alla domanda dell'utente.

6. Generazione

Infine, l'agente AI genererà una risposta combinando le informazioni recuperate con le sue capacità di modello linguistico, creando una risposta coerente e contestualmente accurata basata sulla domanda e sui dati recuperati.

Caratteristiche avanzate del RAG

Se non siete sviluppatori, potreste rimanere sorpresi nell'apprendere che non tutti i RAG sono uguali.

Sistemi diversi costruiranno modelli RAG diversi, a seconda delle esigenze, dei casi d'uso o delle capacità.

Alcune piattaforme di IA offrono funzioni RAG avanzate che possono migliorare ulteriormente la precisione e l'affidabilità del software di IA.

Chunking semantico e chunking ingenuo

Il chunking ingenuo consiste nel dividere un documento in pezzi di dimensioni fisse, come tagliare un testo in sezioni di 500 parole, indipendentemente dal significato o dal contesto.

Il chunking semantico, invece, suddivide il documento in sezioni significative in base al contenuto.

Considera le interruzioni naturali, come i paragrafi o gli argomenti, assicurando che ogni pezzo contenga un'informazione coerente.

Citazioni obbligatorie

Per i settori che automatizzano le conversazioni ad alto rischio con l'IA, come la finanza o la sanità, le citazioni possono contribuire a infondere fiducia negli utenti quando ricevono informazioni.

Gli sviluppatori possono indicare ai loro modelli RAG di fornire citazioni per qualsiasi informazione inviata.

Ad esempio, se un dipendente chiede a un chatbot AI informazioni sulle prestazioni sanitarie, il chatbot può rispondere e fornire un link al documento relativo alle prestazioni dei dipendenti.

Costruire un agente AI RAG personalizzato

Combinate la potenza del più recente LLMs con le vostre conoscenze aziendali esclusive.

Botpress è una piattaforma di chatbot AI flessibile e ampliabile all'infinito.

Permette agli utenti di costruire qualsiasi tipo di agente AI o chatbot per qualsiasi caso d'uso e offre il sistema RAG più avanzato del mercato.

Integrate il vostro chatbot in qualsiasi piattaforma o canale, oppure scegliete dalla nostra libreria di integrazioni precostituite. Iniziate con le esercitazioni del canale YouTube di Botpress o con i corsi gratuiti di Botpress Academy .

Iniziate a costruire oggi stesso. È gratuito.

Costruire l'intelligenza artificiale Chatbots

Costruire chatbot agenziali personalizzati

Iniziare ora

Domande frequenti

1. In che modo la RAG è diversa dalla messa a punto di un LLM?

La RAG (Retrieval-Augmented Generation) è diversa dal fine-tuning perché mantiene inalterato l'LLM originale e inietta conoscenza esterna in fase di esecuzione recuperando documenti rilevanti. Il fine-tuning modifica i pesi del modello utilizzando i dati di addestramento, il che richiede più calcoli e deve essere ripetuto per ogni aggiornamento.

2. Quali tipi di fonti di dati non sono adatti al RAG?

Le fonti di dati non adatte alla RAG includono formati non testuali come documenti scansionati, PDF basati su immagini, file audio senza trascrizione e contenuti obsoleti o in conflitto. Questi tipi di dati riducono l'accuratezza del contesto recuperato.

3. Come si colloca il RAG rispetto alle tecniche di apprendimento in contesto come il prompt engineering?

RAG si differenzia dall'ingegneria dei prompt perché recupera i contenuti rilevanti da un'ampia base di conoscenza indicizzata al momento dell'interrogazione, anziché affidarsi a esempi statici inseriti manualmente nel prompt. Ciò consente a RAG di scalare meglio e di mantenere una conoscenza aggiornata senza bisogno di riqualificarsi.

4. È possibile utilizzare RAG con LLMs di terze parti come OpenAI, Anthropic o Mistral?

Sì, è possibile utilizzare RAG con LLMs di OpenAI, Anthropic, Mistral o altri gestendo la pipeline di recupero in modo indipendente e inviando il contesto recuperato al LLM tramite le sue API. RAG è indipendente dal modello, purché il LLM supporti la ricezione di input contestuali tramite prompt.

5. Come si configura la manutenzione continua per un agente AI abilitato al RAG?

La manutenzione continua di un agente AI abilitato alla RAG comprende l'aggiornamento della base di conoscenza con documenti nuovi o corretti, la reindicizzazione periodica dei contenuti, la valutazione della qualità del recupero, la messa a punto delle dimensioni dei chunk e dei metodi di incorporazione e il monitoraggio delle risposte dell'agente per individuare eventuali problemi di deriva o allucinazione.