Podczas przygotowywania danych dla RAG każdy szczegół formatowania i struktury dokumentu ma znaczenie. Zacznijmy od podstaw: typów plików, których używasz.
Po pierwsze, upewnij się, że Twoje pliki są w obsługiwanych formatach. Obejmuje to powszechnie używane typy, takie jak pliki PDF, dokumenty Word, pliki HTML, Markdown i zwykły tekst. Aplikacja Botpress Studio obsługuje wszystkie te formaty plików. Ogólnie rzecz biorąc, należy unikać używania typów plików, których nie można łatwo przeanalizować, takich jak dokumenty oparte na obrazach ze złożonym formatowaniem. Bez odpowiedniej ekstrakcji, pliki te nie mogą być odczytane przez LLM, co ogranicza zdolność agenta do zrozumienia lub dokładnej odpowiedzi.
Po przesłaniu pliku, który ma być używany jako baza wiedzy agenta w Botpress, automatycznie konwertujemy plik na markdown. Jeśli chcesz mieć pewność, że Twój agent udziela wiarygodnych odpowiedzi, możesz samodzielnie przesłać surowy plik markdown lub użyć typu bazy wiedzy Rich Text, który również jest tylko markdown.
Poza typem pliku, równie ważny jest sposób organizacji treści dokumentu. Podzielenie plików na przejrzystą i logiczną strukturę - z odrębnymi sekcjami, tytułami, nagłówkami i podtytułami - może znacznie zwiększyć zdolność agenta do zrozumienia i wyszukiwania informacji. Zwróć szczególną uwagę na nagłówki dokumentu: dzięki jasnej hierarchii informacji wyznaczonej przez nagłówki, LLM może lepiej kategoryzować informacje, poprawiając swoją zdolność do wyszukiwania odpowiedniej wiedzy na podstawie zapytań użytkowników.
Nadrzędną teorią jest to, aby dokument był łatwy do przeanalizowania. Innymi słowy, jeśli miałbyś przekazać ten dokument komuś, kto nie ma żadnego kontekstu na temat Twojej branży lub usługi, nadal powinien być w stanie zrozumieć zawarte w nim informacje.
Botpress wykorzystuje semantyczne podejście do nagłówków i podnagłówków, co oznacza, że podczas wektoryzacji zwracamy uwagę na logiczne segmenty plików, które powinny być grupowane w celu wyszukiwania. Polegamy jednak na strukturze dokumentu, aby zrobić to dokładnie: jeśli tytuł jest analizowany jako część głównej części tekstu, spowoduje to problemy w zdolności agenta do konsekwentnego pobierania informacji z tej sekcji.
Krótko mówiąc, odrobina czasu poświęcona na uporządkowanie i standaryzację plików może znacznie poprawić zdolność agenta do przetwarzania i wyszukiwania dokładnych informacji.