Hoe bestanden optimaliseren voor RAG | Data structureren voor RAG

Cursussen

Beginner

Je eerste AI-agent

Studio-interface

Dashboard-interface

Gevorderd

Prijzen

Autonome knooppunten

Geavanceerd

Bestanden optimaliseren voor RAG

In deze les

Bij het voorbereiden van data voor RAG telt elk detail in de opmaak en structuur van je documenten. Laten we beginnen met de basis: de bestandstypen die je gebruikt.

Zorg er eerst voor dat je bestanden in ondersteunde formaten zijn. Dit omvat veelgebruikte types zoals PDF's, Word-documenten, HTML-bestanden, Markdown en platte tekst. Botpress Studio ondersteunt al deze bestandsformaten. Vermijd in het algemeen bestandstypen die lastig te verwerken zijn, zoals documenten op basis van afbeeldingen met complexe opmaak. Zonder goede extractie kunnen deze bestanden niet door een LLM worden gelezen, waardoor je agent informatie minder goed begrijpt of accuraat kan beantwoorden.

Wanneer je een bestand uploadt om als kennisbron voor een agent in Botpress te gebruiken, zetten we het bestand automatisch om naar markdown. Wil je dat je agent altijd betrouwbare antwoorden geeft, dan kun je zelf een ruwe markdown-bestand uploaden, of het Rich Text kennisbasistype gebruiken, dat ook gewoon markdown is.

Naast het bestandstype is ook de manier waarop je de inhoud van je document organiseert van groot belang. Door je bestanden op te delen in een duidelijke en logische structuur—met aparte secties, titels, koppen en subkoppen—verhoog je de kans dat je agent informatie goed begrijpt en terugvindt. Let vooral op de koppen in je document: met een heldere informatiehiërarchie via koppen kan een LLM informatie beter indelen, waardoor relevante kennis makkelijker wordt opgehaald bij gebruikersvragen.

Het belangrijkste uitgangspunt is dat je document makkelijk te verwerken moet zijn. Met andere woorden: als je dit document aan iemand zonder enige voorkennis van jouw branche of dienst geeft, moet diegene de informatie toch kunnen begrijpen.

Botpress gebruikt een semantische aanpak voor koppen en subkoppen. Dat betekent dat we tijdens het vectoriseren letten op logische segmenten in je bestanden die samen horen voor het terugvinden van informatie. We zijn daarbij afhankelijk van de structuur van je document: als je titel als onderdeel van de hoofdtekst wordt gezien, kan dat problemen geven bij het consequent ophalen van informatie uit dat gedeelte door je agent.

Kortom, een beetje tijd besteden aan het organiseren en standaardiseren van je bestanden zorgt ervoor dat je agent informatie beter kan verwerken en nauwkeuriger kan terugvinden.

Samenvatting

Kortom, een beetje tijd besteden aan het organiseren en standaardiseren van je bestanden zorgt ervoor dat je agent informatie beter kan verwerken en nauwkeuriger kan terugvinden.

alle lessen in deze cursus

Introductie van de cursus

2 min

Gegevens structureren voor RAG

1 min

Tekstvoorbewerking

2 min

Documentinhoud verbeteren

2 min

Afbeeldingen en tabellen

3 min

Onderhoud en validatie

2 min

Fresh green broccoli floret with thick stalks.