Przygotowując dane do RAG, każdy szczegół w formatowaniu i strukturze dokumentu ma znaczenie. Zacznijmy od podstaw: od typów plików, których używasz.
Najpierw upewnij się, że Twoje pliki są w obsługiwanych formatach. Obejmuje to popularne typy, takie jak PDF, dokumenty Word, pliki HTML, Markdown oraz zwykły tekst. Botpress Studio obsługuje wszystkie te formaty plików. Ogólnie unikaj typów plików, których nie można łatwo przetworzyć, na przykład dokumentów obrazkowych o złożonym formatowaniu. Bez odpowiedniego wydobycia treści takie pliki nie mogą być odczytane przez LLM, co ogranicza możliwości agenta w zakresie rozumienia i udzielania trafnych odpowiedzi.
Gdy przesyłasz plik do wykorzystania jako baza wiedzy agenta w Botpress, automatycznie konwertujemy go na markdown. Jeśli chcesz mieć pewność, że Twój agent będzie udzielał spójnych i wiarygodnych odpowiedzi, możesz samodzielnie przesłać surowy plik markdown lub skorzystać z typu bazy wiedzy Rich Text, który również opiera się na markdown.
Poza typem pliku równie ważny jest sposób organizacji treści dokumentu. Podzielenie plików na czytelną i logiczną strukturę — z wyraźnymi sekcjami, tytułami, nagłówkami i podtytułami — znacząco zwiększa zdolność agenta do rozumienia i wyszukiwania informacji. Zwróć szczególną uwagę na nagłówki: dzięki przejrzystej hierarchii informacji oznaczonej nagłówkami, LLM może lepiej kategoryzować treści i skuteczniej wyszukiwać odpowiednią wiedzę na podstawie zapytań użytkownika.
Główna zasada jest taka, by dokument był łatwy do przetworzenia. Innymi słowy, jeśli wręczysz ten dokument osobie, która nie ma żadnego kontekstu dotyczącego Twojej branży lub usługi, powinna ona mimo to zrozumieć zawarte w nim informacje.
Botpress stosuje semantyczne podejście do nagłówków i podtytułów, co oznacza, że podczas etapu wektoryzacji zwracamy uwagę na logiczne segmenty plików, które powinny być grupowane do wyszukiwania. Jednak do dokładnego działania opieramy się na strukturze Twojego dokumentu: jeśli tytuł zostanie odczytany jako część głównej treści, może to powodować problemy z konsekwentnym wyszukiwaniem informacji przez agenta z tej sekcji.
Krótko mówiąc, poświęcenie chwili na uporządkowanie i ustandaryzowanie plików znacząco poprawia zdolność agenta do przetwarzania i wyszukiwania precyzyjnych informacji.
