RAG用のデータを準備する際には、文書の書式と構造の細部までが重要です。基本的なことから始めましょう:使用しているファイルタイプです。
まず、ファイルがサポートされている形式であることを確認してください。これには、PDF、Word文書、HTMLファイル、Markdown、プレーンテキストなど、よく使われるタイプが含まれます。Botpress Studioは、これらのファイル形式をすべてサポートしています。一般的に、複雑な書式を持つ画像ベースの文書など、簡単に解析できないファイル形式の使用は避けてください。適切な抽出を行わないと、これらのファイルはLLM で読み取ることができず、エージェントの正確な理解や応答が制限されます。
Botpress でエージェントのナレッジベースとして使用するファイルをアップロードすると、自動的にマークダウンに変換されます。エージェントが一貫して信頼できる回答を提供できるようにしたい場合は、生のマークダウン・ファイルを自分でアップロードするか、マークダウンだけのリッチテキスト知識ベース・タイプを使用してください。
さて、ファイルの種類だけでなく、文書の内容の整理方法も同様に重要です。ファイルを明確で論理的な構造(明確なセクション、タイトル、見出し、小見出しなど)にすることで、エージェントの情報を理解し検索する能力が大幅に向上します。文書の見出しには特に注意してください。見出しによって指定された明確な情報階層があれば、LLM 、情報をよりよく分類することができ、ユーザーのクエリに基づいて関連する知識を検索する能力が向上します。
ここでの包括的なセオリーは、文書を簡単に解析できるようにすることです。言い換えれば、あなたの業界やサービスについて何の文脈も知らない人にこの文書を渡したとしても、その人はこの文書に含まれる情報を理解できるはずです。
Botpress つまり、ベクトル化の段階で、検索用にグループ化されるべきファイルの論理的なセグメントに注意を払います。タイトルが本文の一部として解析される場合、エージェントがこのセクションから一貫して情報を取得する能力に問題が生じます。
要するに、ファイルの整理と標準化に少し時間をかけるだけで、エージェントの正確な情報の処理と検索能力を向上させることができるのです。