RAG用のデータを準備する際は、ドキュメントの書式や構造の細部まで重要です。まずは基本となるファイル形式から見ていきましょう。
まず、ファイルが対応している形式であることを確認してください。一般的なPDF、Word文書、HTMLファイル、Markdown、プレーンテキストなどが含まれます。Botpress Studioはこれらすべてのファイル形式に対応しています。一般的に、複雑な書式の画像ベースのドキュメントなど、簡単に解析できないファイル形式は避けてください。適切な抽出ができない場合、これらのファイルはLLMで読み取ることができず、エージェントが正確に理解・応答する能力が制限されます。
Botpressでエージェントのナレッジベースとしてファイルをアップロードすると、自動的にそのファイルはMarkdownに変換されます。エージェントが常に信頼できる回答を提供できるようにしたい場合は、ご自身で生のMarkdownファイルをアップロードするか、リッチテキストのナレッジベースタイプ(これもMarkdownです)を利用できます。
ファイル形式だけでなく、ドキュメントの内容の整理方法も同じくらい重要です。ファイルを明確で論理的な構造に分け、セクションやタイトル、見出し、小見出しをはっきりと設けることで、エージェントが情報を理解しやすくなり、必要な情報を見つけやすくなります。特に見出しには注意を払いましょう。見出しによって情報の階層が明確になることで、LLMは情報をより適切に分類でき、ユーザーの質問に応じて関連する知識を取り出しやすくなります。
ここでの大きな考え方は、ドキュメントを簡単に解析できるようにすることです。つまり、業界やサービスについて全く知識がない人にこのドキュメントを渡しても、その内容が理解できるようにしておく必要があります。
Botpressでは、見出しや小見出しを意味的に扱っています。つまり、ベクトル化の段階で、取得のためにまとめるべき論理的なセグメントに注目しています。ただし、これを正確に行うためにはドキュメントの構造が重要です。もしタイトルが本文の一部として解析されてしまうと、そのセクションから情報を一貫して取得する際にエージェントの動作に問題が生じます。
要するに、ファイルの整理と標準化に少し手間をかけるだけで、エージェントが正確な情報を処理・取得する能力が大きく向上します。
