Bei der Aufbereitung von Daten für die RAG kommt es auf jedes Detail der Dokumentenformatierung und -struktur an. Beginnen wir mit den Grundlagen: die von Ihnen verwendeten Dateitypen.
Stellen Sie zunächst sicher, dass Ihre Dateien in unterstützten Formaten vorliegen. Dazu gehören häufig verwendete Formate wie PDFs, Word-Dokumente, HTML-Dateien, Markdown und einfacher Text. Das Botpress Studio unterstützt alle diese Dateiformate. Vermeiden Sie generell die Verwendung von Dateitypen, die nicht einfach geparst werden können, wie z. B. bildbasierte Dokumente mit komplexer Formatierung. Ohne eine ordnungsgemäße Extraktion können diese Dateien von LLM nicht gelesen werden, was die Fähigkeit Ihres Agenten einschränkt, den Inhalt zu verstehen oder genau zu antworten.
Wenn Sie eine Datei hochladen, die als Wissensdatenbank für einen Agenten in Botpress verwendet werden soll, konvertieren wir die Datei automatisch in Markdown. Wenn Sie sicherstellen möchten, dass Ihr Agent durchgängig zuverlässige Antworten liefert, können Sie selbst eine Markdown-Rohdatei hochladen oder den Wissensbanktyp Rich Text verwenden, der ebenfalls nur aus Markdown besteht.
Neben dem Dateityp ist die Art und Weise, wie Sie den Inhalt Ihres Dokuments organisieren, ebenso wichtig. Die Gliederung Ihrer Dateien in eine klare und logische Struktur - mit eindeutigen Abschnitten, Titeln, Überschriften und Zwischenüberschriften - kann die Fähigkeit Ihres Mitarbeiters, Informationen zu verstehen und abzurufen, erheblich verbessern. Achten Sie besonders auf die Überschriften Ihres Dokuments: Mit einer klaren Informationshierarchie, die durch Überschriften gekennzeichnet ist, kann LLM Informationen besser kategorisieren und so die Fähigkeit verbessern, relevantes Wissen auf der Grundlage von Benutzeranfragen abzurufen.
Die übergreifende Theorie dabei ist, dass Ihr Dokument leicht analysierbar sein muss. Mit anderen Worten: Wenn Sie dieses Dokument jemandem aushändigen, der keinerlei Kenntnisse über Ihre Branche oder Dienstleistung hat, sollte er dennoch in der Lage sein, die darin enthaltenen Informationen zu verstehen.
Botpress verwendet einen semantischen Ansatz für Überschriften und Unterüberschriften, was bedeutet, dass wir während des Vektorisierungsschritts auf logische Segmente Ihrer Dateien achten, die für den Abruf gruppiert werden sollten. Wir verlassen uns jedoch auf die Struktur Ihres Dokuments, um dies genau zu tun: Wenn Ihr Titel als Teil des Hauptteils Ihres Textes geparst wird, führt dies zu Problemen bei der Fähigkeit Ihres Agenten, Informationen aus diesem Abschnitt konsistent abzurufen.
Kurz gesagt, ein wenig Zeit, die Sie in die Organisation und Standardisierung Ihrer Dateien investieren, trägt wesentlich dazu bei, dass Ihr Sachbearbeiter genaue Informationen verarbeiten und abrufen kann.