In questa lezione

Abbiamo parlato molto dell'ottimizzazione del testo, ma se i vostri documenti contengono immagini o tabelle, è importante fare qualche passo in più per garantire che anche questi elementi siano utilizzabili dal vostro agente. I contenuti non testuali come le immagini, i grafici e le tabelle possono contenere informazioni preziose, ma senza un'attenta preparazione, LLM può ignorare o interpretare male le informazioni che contengono.

Cominciamo con le immagini. Se i vostri documenti contengono immagini, ad esempio una foto di un prodotto o un testo molto stilizzato, è consigliabile convertirle in testo semplice prima di caricare il file. Botpress preelaborerà comunque i vostri file una volta caricati, quindi il modo migliore per ottenere risposte coerenti dai vostri file è convertirli da soli.

Prendiamo ad esempio questo menu stilizzato di un ristorante. Prima di convertirlo in un file di testo semplice, le informazioni su cui LLM deve lavorare hanno questo aspetto, dopo essere state analizzate. Se invece lo convertiamo in markdown prima di caricarlo (o se usiamo l'editor di testo ricco integrato di Botpress ), otteniamo risultati molto più affidabili.

Parliamo poi di tabelle e dati strutturati. Se includete tabelle nei vostri documenti, ricordate che prima di eseguire il RAG, i file vengono convertiti in markdown. In questo caso, si hanno due opzioni. Si può designare una tabella integrata in Botpress come base di conoscenza, in modo che le informazioni siano strutturate, oppure si può usare una tabella formattata in markdown come questa.

Ottimizzare i contenuti non testuali significa elaborare le immagini con l'OCR, aggiungere descrizioni per le immagini complesse e garantire che le tabelle siano presentate in modo tale da poter essere utilizzate dall'agente AI. In questo caso, il nostro obiettivo è quello di rendere l'intero set di dati, compresi i contenuti testuali e non testuali, di facile lettura per un LLM .

Sintesi
Convertite le immagini e i documenti stilizzati in testo semplice, ottimizzate le tabelle con formattazione strutturata o markdown ed elaborate i contenuti non testuali per garantire che il vostro agente AI possa interpretare e utilizzare con precisione tutte le informazioni contenute nel vostro set di dati.
tutte le lezioni di questo corso