Akademie
So optimieren Sie Dateien für RAG
Datenstrukturierung für RAG
2
rag
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
Nächste Lektion
Nächste Lektion
In dieser Lektion

Beim Vorbereiten von Daten für RAG zählt jedes Detail im Dokumentenformat und in der Struktur. Beginnen wir mit den Grundlagen: den Dateitypen, die Sie verwenden.

Stellen Sie zunächst sicher, dass Ihre Dateien in unterstützten Formaten vorliegen. Dazu gehören gängige Typen wie PDFs, Word-Dokumente, HTML-Dateien, Markdown und reiner Text. Botpress Studio unterstützt all diese Dateiformate. Vermeiden Sie im Allgemeinen Dateitypen, die sich nicht einfach auslesen lassen, wie beispielsweise bildbasierte Dokumente mit komplexem Layout. Ohne eine geeignete Extraktion können diese Dateien von einem LLM nicht gelesen werden, was die Fähigkeit Ihres Agents einschränkt, Inhalte zu verstehen oder korrekt zu beantworten.

Wenn Sie eine Datei hochladen, die als Wissensbasis für einen Agenten in Botpress dienen soll, wird diese automatisch in Markdown umgewandelt. Wenn Sie möchten, dass Ihr Agent durchgehend zuverlässige Antworten liefert, können Sie selbst eine reine Markdown-Datei hochladen oder den Rich Text-Wissensbasistyp verwenden, der ebenfalls auf Markdown basiert.

Neben dem Dateityp ist auch die Organisation der Inhalte in Ihrem Dokument entscheidend. Wenn Sie Ihre Dateien klar und logisch strukturieren – mit eigenen Abschnitten, Titeln, Überschriften und Unterüberschriften – verbessert das die Fähigkeit Ihres Agents, Informationen zu verstehen und abzurufen, erheblich. Achten Sie besonders auf die Überschriften: Mit einer klaren Informationshierarchie durch Überschriften kann ein LLM Inhalte besser kategorisieren und relevante Informationen gezielter auf Nutzeranfragen hin abrufen.

Das übergeordnete Ziel ist, Ihr Dokument leicht auslesbar zu machen. Anders gesagt: Wenn Sie dieses Dokument jemandem ohne jeglichen Kontext zu Ihrer Branche oder Ihrem Service geben, sollte die Person trotzdem die enthaltenen Informationen verstehen können.

Botpress verwendet einen semantischen Ansatz für Überschriften und Unterüberschriften. Das bedeutet, dass wir beim Vektorisieren auf logische Abschnitte in Ihren Dateien achten, die für den späteren Abruf zusammengefasst werden sollten. Wir sind dabei jedoch auf die Struktur Ihres Dokuments angewiesen: Wird Ihr Titel beispielsweise als Teil des Haupttextes erkannt, kann das die Fähigkeit Ihres Agents beeinträchtigen, Informationen aus diesem Abschnitt zuverlässig abzurufen.

Kurz gesagt: Ein wenig Zeit, die Sie in die Organisation und Standardisierung Ihrer Dateien investieren, verbessert erheblich die Fähigkeit Ihres Agents, Informationen korrekt zu verarbeiten und abzurufen.

Zusammenfassung
Kurz gesagt: Ein wenig Zeit, die Sie in die Organisation und Standardisierung Ihrer Dateien investieren, verbessert erheblich die Fähigkeit Ihres Agents, Informationen korrekt zu verarbeiten und abzurufen.
alle Lektionen in diesem Kurs
Fresh green broccoli floret with thick stalks.