RAGのためのファイル最適化方法｜画像と表

コース

初級

はじめてのAIエージェント

Studioインターフェース

中級

上級

このレッスンで

テキストの最適化については多く語ってきましたが、ドキュメントに画像や表が含まれている場合、これらの要素もエージェントが利用できるように追加の準備が必要です。非テキストコンテンツである画像やグラフ、表には重要な情報が含まれていることがありますが、適切に準備しないとLLMがその情報を無視したり誤解したりする可能性があります。

まずは画像について説明します。ドキュメント内に商品写真や装飾されたテキストなどの画像が含まれている場合は、ファイルをアップロードする前にそれをプレーンテキストに変換しておくのが効果的です。Botpressはファイルをアップロードした際に自動で前処理を行いますが、一貫した回答を得るためには自分で変換しておくのが最善です。

例えば、この装飾されたレストランのメニューを見てみましょう。プレーンテキストファイルに変換する前にLLMが扱う情報はこのように解析されます。しかし、アップロード前にMarkdownに変換する（またはBotpressのリッチテキストエディタを使う）ことで、より信頼性の高い結果が得られます。

次に、表や構造化データについて説明します。ドキュメントに表を含める場合、RAGを実行する前にファイルはMarkdownに変換されることを覚えておきましょう。ここで選択肢は2つあります。Botpressの組み込みテーブルをナレッジベースとして指定し、情報を構造化する方法、または次のようなMarkdown形式の表を使う方法です。

非テキストコンテンツの最適化とは、画像をOCRで処理したり、複雑なビジュアルには説明を追加したり、表をAIエージェントが利用しやすい形で提示することを意味します。ここでの目標は、テキストと非テキストの両方を含むデータセット全体をLLMが読み取りやすい状態にすることです。

‍

概要

画像や装飾されたドキュメントをプレーンテキストに変換し、表は構造化されたフォーマットやMarkdownで最適化し、非テキストコンテンツも処理することで、AIエージェントがデータセット内のすべての情報を正確に解釈・活用できるようにします。

このコースの全レッスン