Wir haben viel über die Optimierung von Text gesprochen, aber wenn Ihre Dokumente Bilder oder Tabellen enthalten, ist es wichtig, ein paar zusätzliche Schritte zu unternehmen, um sicherzustellen, dass diese Elemente auch von Ihrem Agenten genutzt werden können. Nicht-textliche Inhalte wie Bilder, Diagramme und Tabellen können wertvolle Informationen enthalten, aber ohne sorgfältige Vorbereitung kann ein LLM die darin enthaltenen Informationen ignorieren oder falsch interpretieren.
Beginnen wir mit Bildern. Wenn Ihre Dokumente Bilder enthalten, z. B. ein Produktfoto oder sogar stark stilisierten Text, sollten Sie diese vor dem Hochladen Ihrer Datei in reinen Text umwandeln. Botpress wird Ihre Dateien ohnehin vorverarbeiten, sobald Sie sie hochgeladen haben, so dass Sie sie am besten selbst umwandeln, um konsistente Antworten zu erhalten.
Nehmen wir zum Beispiel dieses stilisierte Restaurantmenü. Vor der Konvertierung in eine Klartextdatei sehen die Informationen, mit denen LLM arbeiten muss, so aus, nachdem sie geparst worden sind. Wenn wir sie stattdessen vor dem Hochladen in Markdown konvertieren (oder den integrierten Rich-Text-Editor Botpress verwenden), erhalten wir viel zuverlässigere Ergebnisse.
Lassen Sie uns nun über Tabellen und strukturierte Daten sprechen. Wenn Sie Tabellen in Ihre Dokumente aufnehmen, denken Sie daran, dass Ihre Dateien vor der Durchführung von RAG in Markdown konvertiert werden. Hier haben Sie zwei Möglichkeiten. Sie können eine integrierte Tabelle von Botpress als Wissensbasis festlegen, so dass Ihre Informationen strukturiert sind, oder Sie können eine Tabelle im Markdown-Format wie die folgende verwenden.
Die Optimierung von Nicht-Text-Inhalten bedeutet, dass Bilder mit OCR verarbeitet werden, Beschreibungen für komplexe visuelle Darstellungen hinzugefügt werden und sichergestellt wird, dass Tabellen so dargestellt werden, dass Ihr KI-Agent sie verwenden kann. Unser Ziel ist es, den gesamten Datensatz - einschließlich der Text- und Nicht-Text-Inhalte - für LLM leicht lesbar zu machen.