5
rag
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
Lezione successiva
Lezione successiva
In questa lezione

Abbiamo parlato molto di ottimizzazione del testo, ma se i tuoi documenti contengono immagini o tabelle, è importante prendere qualche accorgimento in più per assicurarsi che anche questi elementi siano utilizzabili dall’agente. I contenuti non testuali come immagini, grafici e tabelle possono contenere informazioni preziose, ma senza una preparazione adeguata, un LLM può ignorare o fraintendere ciò che contengono.

Iniziamo dalle immagini. Se i tuoi documenti contengono immagini, che siano foto di prodotti o anche solo testo molto stilizzato, è consigliabile convertirle in testo semplice prima di caricare il file. Botpress pre-elaborerà comunque i tuoi file una volta caricati, quindi il modo migliore per ottenere risposte coerenti è convertire tu stesso le immagini.

Prendiamo ad esempio questo menu di ristorante stilizzato. Prima di convertirlo in un file di testo semplice, le informazioni a disposizione dell’LLM appaiono così, dopo la loro analisi. Invece, se lo convertiamo in markdown prima di caricarlo (o usando l’editor di testo avanzato di Botpress), otteniamo risultati molto più affidabili.

Parliamo ora di tabelle e dati strutturati. Se includi tabelle nei tuoi documenti, ricorda che prima di eseguire RAG i file vengono convertiti in markdown. Hai due opzioni: puoi usare una tabella integrata di Botpress come base di conoscenza, così i dati saranno strutturati, oppure puoi inserire una tabella formattata in markdown come questa.

Ottimizzare i contenuti non testuali significa elaborare immagini con OCR, aggiungere descrizioni a elementi visivi complessi e garantire che le tabelle siano presentate in modo che il tuo agente AI possa utilizzarle. Qui, l’obiettivo è rendere l’intero dataset—sia testuale che non—facile da leggere per un LLM.

Riepilogo
Converti immagini e documenti stilizzati in testo semplice, ottimizza tabelle con formattazione strutturata o markdown e gestisci contenuti non testuali per garantire che il tuo agente IA possa interpretare e utilizzare correttamente tutte le informazioni del tuo dataset.
tutte le lezioni di questo corso
Fresh green broccoli floret with thick stalks.