このレッスンでは

ファイルの種類とフォーマットについて説明したところで、次はテキストの前処理について説明します。これは、エージェントが理解しやすく、適切な情報を取得しやすくするために、各ドキュメント内のコンテンツをクリーニングし、簡素化するステップです。

まず、無関係なデータを取り除くことが不可欠です。文書内の各コンテンツが、潜在的なユーザーの質問に答えるために有用かどうかを考えましょう。例えば、製品カタログに関する質問に答えたい場合、直接関係のない法的免責事項は問題を引き起こすかもしれません。これを削除することで、ノイズを大幅に減らし、データセットをよりクリーンで検索しやすくすることができます。また、余分なメタデータや、インデックス作成時に邪魔になるようなフッターやヘッダーを一掃するのも良いアイデアだ。

このプロセスのもう一つの重要な部分は、文章そのものを単純化することである。専門用語や専門的な言葉、複雑すぎる文章は、時に曖昧さをもたらすことがある。文書が複雑すぎると、処理が遅くなるだけでなく、回答が不明確になることもあります。よほど重要でない限りは、専門用語の多い箇所を言い換えたり、業界特有の用語を削除したりすることも検討しましょう。

文書に長い段落や複雑な文章が含まれている場合は、自動簡略化ツールを使うのも有効です。このようなツールは、濃い言葉をより短く明確な文に分解することができ、Botpress 、内容をチャンクして正確に解釈することが容易になります。

要するに、ここでの目標は、テキストをできるだけわかりやすく、適切なものにすることである。不必要なデータを取り除き、言葉を単純化することで、検索性能と精度を高める、合理的で焦点の絞られたデータセットを作成することになる。

覚えておいてほしいのは、AIエージェントは、あなたの製品、業界、ビジネスについて何の脈絡もない、真新しい同僚のように扱うのが良い経験則だということだ。

概要
AIエージェントのパフォーマンスと検索精度を向上させるために、無関係なデータを削除し、言語を簡素化して、クリーンでフォーカスされたデータセットを作成します。
このコースの全レッスン