これまでテキストの最適化について説明してきましたが、文書に画像や表が含まれている場合は、これらの要素もエージェントが使用できるように、いくつかの特別なステップを踏むことが重要です。画像や図表のような非テキストのコンテンツには貴重な情報が含まれている可能性がありますが、入念な準備がなければ、LLM 、それらに含まれる情報を無視したり、誤解したりする可能性があります。
まずは画像から。文書に画像が含まれている場合(商品の写真や非常にスタイル化されたテキストなど)、ファイルをアップロードする前にそれをプレーンテキストに変換することをお勧めします。Botpress 、ファイルをアップロードするといずれにせよ前処理が行われるため、ファイルから一貫した回答を得る最善の方法は、自分で変換することです。
例えば、この様式化されたレストランのメニューを見てみよう。プレーンテキストファイルに変換する前に、LLM 、解析された後の情報はこのようになる。その代わりに、アップロードする前にマークダウンに変換すれば(または内蔵のBotpress リッチテキストエディタを使えば)、より信頼性の高い結果が得られる。
次に、テーブルと構造化データについて説明しよう。ドキュメントにテーブルを含む場合、RAGを実行する前に、ファイルがマークダウンに変換されることを覚えておいてください。ここで、2つのオプションがあります。組み込みのBotpress テーブルをナレッジベースとして指定し、情報が構造化されるようにすることもできますし、このようにマークダウン形式のテーブルを使用することもできます。
非テキストコンテンツの最適化とは、OCRで画像を処理し、複雑なビジュアルの説明を追加し、AIエージェントが使用できる方法で表が表示されるようにすることです。ここでは、テキストと非テキストコンテンツの両方を含むデータセット全体を、LLM にとって読みやすくすることを目標としています。