Quando si preparano i dati per la RAG, ogni dettaglio nella formattazione e nella struttura dei documenti è importante. Cominciamo dalle basi: i tipi di file utilizzati.
Innanzitutto, assicuratevi che i vostri file siano in formati supportati. Si tratta di tipi comunemente usati come PDF, documenti Word, file HTML, Markdown e testo semplice. Botpress Studio supporta tutti questi formati di file. In generale, evitare di utilizzare tipi di file che non possono essere analizzati facilmente, come ad esempio documenti basati su immagini con formattazione complessa. Senza un'adeguata estrazione, questi file non possono essere letti da LLM, il che limita la capacità dell'agente di comprendere o rispondere con precisione.
Quando si carica un file da utilizzare come base di conoscenza di un agente in Botpress, il file viene automaticamente convertito in markdown. Se si vuole garantire che il proprio agente fornisca risposte sempre affidabili, è possibile caricare un file markdown grezzo oppure utilizzare il tipo di base di conoscenza Rich Text, che è anch'esso solo markdown.
Oltre al tipo di file, è altrettanto importante il modo in cui si organizza il contenuto del documento. La suddivisione dei file in una struttura chiara e logica, con sezioni, titoli, intestazioni e sottointestazioni distinte, può migliorare notevolmente la capacità dell'agente di comprendere e recuperare le informazioni. Prestate particolare attenzione alle intestazioni del vostro documento: con una chiara gerarchia delle informazioni designata attraverso le intestazioni, LLM può categorizzare meglio le informazioni, migliorando la sua capacità di recuperare le conoscenze pertinenti in base alle query degli utenti.
La teoria generale è quella di rendere il documento facilmente analizzabile. In altre parole, se doveste consegnare questo documento a qualcuno che non ha alcun contesto sul vostro settore o servizio, dovrebbe comunque essere in grado di capire le informazioni contenute.
Botpress utilizza un approccio semantico alle intestazioni e alle sottointestazioni, il che significa che durante la fase di vettorizzazione prestiamo attenzione ai segmenti logici dei vostri file che dovrebbero essere raggruppati per il recupero. Se il titolo viene analizzato come parte del corpo principale del testo, ciò causerà problemi nella capacità del vostro agente di recuperare in modo coerente le informazioni da questa sezione.
In breve, un po' di tempo dedicato all'organizzazione e alla standardizzazione dei file contribuisce a migliorare la capacità dell'agente di elaborare e recuperare informazioni accurate.