Dużo mówiliśmy o optymalizacji tekstu, ale jeśli dokumenty zawierają obrazy lub tabele, ważne jest, aby podjąć kilka dodatkowych kroków w celu zapewnienia, że te elementy są również użyteczne dla agenta. Treści nietekstowe, takie jak obrazy, wykresy i tabele, mogą zawierać cenne informacje, ale bez starannego przygotowania, LLM może zignorować lub błędnie zinterpretować zawarte w nich informacje.
Zacznijmy od obrazów. Jeśli dokumenty zawierają jakiekolwiek obrazy, które mogą być zdjęciem produktu lub nawet bardzo stylizowanym tekstem, dobrym pomysłem jest przekonwertowanie ich na zwykły tekst przed przesłaniem pliku. Botpress i tak wstępnie przetworzy pliki po ich przesłaniu, więc najlepszym sposobem na uzyskanie spójnych odpowiedzi z plików jest ich samodzielna konwersja.
Weźmy na przykład to stylizowane menu restauracji. Przed przekonwertowaniem go na zwykły plik tekstowy, informacje, z którymi musi pracować LLM , wyglądają tak, po ich przeanalizowaniu. Zamiast tego, jeśli przekonwertujemy go na markdown przed przesłaniem (lub za pomocą wbudowanego edytora tekstu sformatowanego Botpress ), uzyskamy znacznie bardziej wiarygodne wyniki.
Następnie porozmawiajmy o tabelach i danych strukturalnych. Jeśli zawierasz tabele w swoich dokumentach, pamiętaj, że przed wykonaniem RAG pliki są konwertowane na markdown. Tutaj masz dwie opcje. Możesz wyznaczyć wbudowaną tabelę Botpress jako bazę wiedzy, aby informacje były ustrukturyzowane, lub możesz użyć tabeli w formacie markdown, takiej jak ta.
Optymalizacja treści nietekstowych oznacza przetwarzanie obrazów za pomocą OCR, dodawanie opisów dla złożonych wizualizacji i zapewnienie, że tabele są prezentowane w sposób, z którego może korzystać agent AI. W tym przypadku naszym celem jest sprawienie, aby cały zbiór danych - w tym zarówno zawartość tekstowa, jak i nietekstowa - był łatwy do odczytania przez LLM .