Bij het voorbereiden van gegevens voor RAG is elk detail in documentopmaak en -structuur van belang. Laten we beginnen met de basis: de bestandstypen die je gebruikt.
Zorg er eerst voor dat je bestanden ondersteunde formaten hebben. Hieronder vallen veelgebruikte typen zoals PDF's, Word-documenten, HTML-bestanden, Markdown en platte tekst. De Botpress Studio ondersteunt al deze bestandsindelingen. Vermijd in het algemeen het gebruik van bestandstypen die niet gemakkelijk kunnen worden geparseerd, zoals op afbeeldingen gebaseerde documenten met complexe opmaak. Zonder de juiste extractie kunnen deze bestanden niet worden gelezen door een LLM, wat het vermogen van uw agent om te begrijpen of accuraat te reageren beperkt.
Wanneer je een bestand uploadt om te gebruiken als kennisbank voor een agent in Botpress, converteren we het bestand automatisch naar markdown. Als je er zeker van wilt zijn dat je agent consistent betrouwbare antwoorden geeft, kun je zelf een ruw markdown-bestand uploaden of het Rich Text kennisbasistype gebruiken, dat ook gewoon markdown is.
Naast het bestandstype is de manier waarop je de inhoud van je document organiseert net zo belangrijk. Door je bestanden op te delen in een duidelijke en logische structuur - met verschillende secties, titels, koppen en subkoppen - kan je agent de informatie veel beter begrijpen en terugvinden. Besteed vooral aandacht aan de koppen in je document: met een duidelijke informatiehiërarchie in de vorm van koppen kan een LLM informatie beter categoriseren, waardoor het beter in staat is om relevante kennis op te halen op basis van gebruikersvragen.
De overkoepelende theorie hier is om je document gemakkelijk leesbaar te maken. Met andere woorden, als je dit document zou overhandigen aan iemand zonder enige context over je branche of service, dan zou diegene nog steeds in staat moeten zijn om de informatie die erin staat te begrijpen.
Botpress gebruikt een semantische benadering van koppen en subkoppen, wat betekent dat we tijdens de vectorisatiestap letten op logische segmenten van uw bestanden die gegroepeerd moeten worden voor het ophalen. Maar we vertrouwen op de structuur van uw document om dit nauwkeurig te doen: als uw titel wordt geparseerd als onderdeel van de hoofdtekst, zal dat problemen veroorzaken in het vermogen van uw agent om consistent informatie uit deze sectie op te halen.
Kortom, als je een beetje tijd besteedt aan het organiseren en standaardiseren van je bestanden, kun je het vermogen van je agent om accurate informatie te verwerken en op te halen al een heel stuk verbeteren.