Academy
Bestanden optimaliseren voor RAG
Afbeeldingen en tabellen
5
rag
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
Volgende les
Volgende les
In deze les

We hebben het al veel gehad over het optimaliseren van tekst, maar als je documenten afbeeldingen of tabellen bevatten, is het belangrijk om een paar extra stappen te nemen zodat deze elementen ook bruikbaar zijn voor je agent. Niet-tekstuele inhoud zoals afbeeldingen, grafieken en tabellen kan waardevolle informatie bevatten, maar zonder goede voorbereiding kan een LLM deze informatie negeren of verkeerd begrijpen.

Laten we beginnen met afbeeldingen. Als je documenten afbeeldingen bevatten, bijvoorbeeld een foto van een product of sterk opgemaakte tekst, is het verstandig om deze eerst om te zetten naar platte tekst voordat je het bestand uploadt. Botpress verwerkt je bestanden sowieso na het uploaden, maar om consistente antwoorden uit je bestanden te halen, kun je ze het beste zelf omzetten.

Neem bijvoorbeeld dit opgemaakte restaurantmenu. Voordat we het omzetten naar platte tekst, ziet de informatie waar de LLM mee moet werken er zo uit, nadat het is geparseerd. Als we het daarentegen vóór het uploaden omzetten naar markdown (of de ingebouwde Botpress rich text editor gebruiken), krijgen we veel betrouwbaardere resultaten.

Dan nu tabellen en gestructureerde data. Als je tabellen toevoegt aan je documenten, houd er dan rekening mee dat je bestanden vóór RAG worden omgezet naar markdown. Je hebt hier twee opties: je kunt een ingebouwde Botpress-tabel als kennisbank instellen, zodat je informatie gestructureerd is, of je gebruikt een tabel in markdown-formaat zoals hieronder.

Niet-tekstuele inhoud optimaliseren betekent afbeeldingen verwerken met OCR, beschrijvingen toevoegen voor complexe visuals, en zorgen dat tabellen zo zijn weergegeven dat je AI-agent ze kan gebruiken. Het doel is om de hele dataset—zowel tekst als niet-tekstuele inhoud—makkelijk leesbaar te maken voor een LLM.

Samenvatting
Zet afbeeldingen en opgemaakte documenten om naar platte tekst, optimaliseer tabellen met gestructureerde opmaak of markdown, en verwerk niet-tekstuele inhoud zodat je AI-agent alle informatie in je dataset nauwkeurig kan interpreteren en gebruiken.
alle lessen in deze cursus
Fresh green broccoli floret with thick stalks.