- カスタムLLMを使うことでコスト削減、機密データの保護、タスク特化型のパフォーマンス向上が可能になり、ビジネスに合わせた戦略的なツールとなります。
- LLMのサイズは品質とコストの両方に影響するため、GPT-4のような大規模モデルを使うか、小型で高速なモデルを使うかを決める前に、応答速度・精度・予算のバランスを考えましょう。
- RAG、ファインチューニング、n-shot学習、プロンプトエンジニアリングなどの手法は、LLMの挙動をカスタマイズするための重要なツールであり、それぞれコスト・複雑さ・保守性にトレードオフがあります。
LLMはAIソリューションの構築方法を大きく変えています。より優れた既製モデルが次々と登場しています。
よく聞かれる質問のひとつが、「なぜ既製品ではなくカスタムLLMを選ぶべきなのか?」というものです。
もしAIエージェントやAIチャットボットの構築のようなAIプロジェクトに取り組んでいるなら、カスタマイズされた大規模言語モデル(LLM)を使う選択肢があります。
LLMエージェントにカスタムLLMを使う理由は多くあり、選択肢も豊富です。この記事では、AIプロジェクト向けにLLMをカスタマイズするさまざまな方法を解説します。
なぜカスタムLLMを使うのですか?
カスタムLLMを使用する理由はいくつかあります。
- ビジネス用途で重要な特定のタスクに集中することでコストを削減したい、または遅延を最小限に抑えたい場合。
- すべてのデータをプライベートに保ちたい、または自社の社内LLMを使いたい場合。
- 特定のタスクに対する回答の品質を向上させたい場合。
どんな理由であれ、LLMをカスタマイズすることで、精度・速度・コストのバランスを最適化し、ビジネスニーズに合わせたパフォーマンスを実現できます。
LLMの選び方
LLMには、AIプロジェクトに影響する2つの特性があります:パラメータ数(サイズ)と回答の品質です。
パラメータは脳のニューロンのようなものと考えられます。大きな脳は賢いことが多いですが、必ずしもそうとは限りません。また、脳の一部は視覚のような特定のタスクに最適化されていることもあります。
AIプロジェクトでは、サイズが応答速度に影響し、コストにも大きく関わります。低遅延が求められるプロジェクトでは小型モデルが使われることが多いですが、その分回答の品質が犠牲になることもあります。
モデル選定時に確認すべきこと
モデルを選ぶ際に答えられるべき質問リストを挙げます:
- クラウドベースのLLMを利用できますか、それとも自分でホストする必要がありますか?
- どれくらい速い応答が必要ですか?
- どれくらい正確な応答が必要ですか?
- このプロジェクトでどれくらいのコスト削減や収益が見込めますか?その場合、どの価格以下であるべきですか?
- どれくらい長い応答が必要か?
一般的に、強力なモデルの速度を上げたりコストを下げたりするのは難しく、精度が低いモデルを改善する方が簡単です。
ただし、強力なモデルを使えばすぐに始められ、プロジェクトの要件を満たすならエンジニアリングの手間も少なくて済みます(保守も簡単です)。
RAG、ファインチューニング、N-shot学習、プロンプトエンジニアリングの選び方
LLMの回答品質を向上させるための一般的な5つの考え方があります:
- 事前学習済みモデルから始める
- RAG
- ファインチューニング
- N-shotプロンプティング
- プロンプトエンジニアリング
これらはカスタムモデルに限らず、どのケースでも考慮すべきもので、互いに組み合わせて使うことができます。
モデル選定から始める
まず最初にやるべきことは、ベースとなるモデルを選ぶことです。さまざまなモデルを比較したリーダーボードがオンラインで多数公開されています。
例えば:
- Hugging Faceはオープンソースモデルのリーダーボードを運営しています。
- Vellumは人気モデル向けの優れたリーダーボードを提供しています。
自社に社内モデルがある場合は、それを使うことで予算に合わせたりデータをプライベートに保つことができます。自分でモデルをホストする必要がある場合は、オープンソースモデルを検討しましょう。

ファインチューニング
ファインチューニングは、モデルに例を与えて特定のタスクをうまくこなせるように学習させる方法です。自社製品について話すのが得意なモデルにしたい場合は、会社の優れた営業電話の例を多数与えると良いでしょう。
モデルがオープンソースの場合、チームにファインチューニングできる十分なエンジニアリソースがあるかを確認しましょう。
モデルがクローズドソースでサービス提供されている場合(GPT-4やClaudeなど)、エンジニアがAPIを使ってカスタムモデルをファインチューニングできることが多いです。この方法はコストが大幅に増えることが多いですが、保守はほとんど不要です。
ただし、多くのユースケースでは、ファインチューニングはモデル最適化の最初のステップではありません。
ファインチューニングが有効なのは、静的な知識用のナレッジボットを作る場合です。質問と回答の例を与えることで、今後は調べなくても答えられるようになります。ただし、リアルタイム情報には実用的な方法ではありません。
検索拡張生成(RAG)
RAGは、ChatGPTでよくやる「テキストを貼り付けて質問する」ことに名前が付いただけのシンプルな手法です。
典型的な例は、ECサイトで特定の商品が在庫にあるかを尋ね、チャットボットが商品カタログから情報を調べて回答する(インターネット全体ではなく)というものです。
開発のスピードやリアルタイム情報の取得という点で、RAGは必須の手法です。
RAGは通常、どのモデルを選ぶかには影響しませんが、情報を検索して回答するLLM APIエンドポイントを作成し、それを独自のLLMのように使うことも可能です。
ナレッジベース型チャットボットにRAGを使うと、モデルのファインチューニングや更新が不要になり、保守が簡単になりコスト削減にもつながります。
N-shot学習
回答品質をすぐに向上させる最も簡単な方法は、1回のLLM APIコールで例を与えることです。
ゼロショット(例を全く与えない)は、多くの人がChatGPTを使うときの方法です。1つ例を加える(ワンショット)だけで、回答品質が大きく向上することがよくあります。
2つ以上の例を与えるのがn-shotです。n-shotはファインチューニングと違い、モデル自体は変わりません。毎回質問の直前に例を与えるだけです。
ただし、この戦略は使いすぎに注意が必要です。LLMには最大コンテキストサイズがあり、メッセージのサイズによって料金も変わります。ファインチューニングを使えばn-shotの必要がなくなりますが、調整には時間がかかります。
その他のプロンプトエンジニアリング手法
chain-of-thoughtのように、モデルに答えを出す前に思考過程を明示させるプロンプトエンジニアリング手法もあります。
これにより回答の質は向上しますが、回答が長くなり、コストや速度にも影響します。
私のおすすめ
プロジェクトごとに最適な方法は異なりますが、私なりの有効なアプローチを紹介します。
まずは、GPT-4o Miniのような速度と品質のバランスが良い既製モデルを使うのが良いでしょう。回答の品質、応答速度、コスト、コンテキストウィンドウの要件を確認し、そこから改善すべき点を決めていきます。
その後、用途を絞って簡単なプロンプトエンジニアリング、次にRAG、最後にファインチューニングを試してみましょう。これらを経ることでどのモデルも性能が向上するため、何を使うか判断が難しい場合もあります。
プライバシーへの配慮
理想的には、すべてのLLMが完全に自分の管理下にあり、どこにも情報が漏れないのがベストです。
しかし、現実にはそうなっていないのが実情であり、それには正当な理由があります。
まず単純な理由として、カスタムモデルをホスト・運用するにはエンジニアリングが必要で、非常にコストがかかります。ホストしているモデルがダウンするとビジネス指標に影響するため、運用は堅牢でなければなりません。
もうひとつの理由は、OpenAIやGoogle、Anthropicのような業界リーダーが、より高性能で安価な新モデルを次々とリリースしており、ファインチューニングの手間が無駄になることが多いからです。これはChatGPT 3.5の登場以来続いており、今後も変わる兆しはありません。
もし非常に機密性の高いデータを扱う場合は、自社用にモデルを選び最適化するのが理にかなっています。GDPRが重要な場合は、GDPR準拠の既製モデルも多数あります。
LLMを選定した後の構築
LLMを選択したら、AIプロジェクトの構築と運用方法を検討し始めましょう。例として、私が最もよく知っているタイプのプロジェクト、つまりAIエージェントやAIチャットボットを取り上げます。
プロジェクトの範囲を決めるために、次の質問に答えてみましょう。
- AIエージェントをどこで使いたいですか?(Slack、WhatsApp、ウェブサイトのウィジェットなど)
- どんな知識を持たせたいか、その知識はどこにあるか?
- 知識の回答以外に、どんな機能が必要か?(もしあれば)
- ビジネスのどこかで何かが起きたときに自動で起動する必要がありますか?
エンジニアリング作業を減らしてコスト削減
予算を抑えることは、プロジェクトを実現する上で非常に重要です。そのための方法の一つが、要件を切り離してエンジニアリング作業を減らすことです。
現在ではFlutterflowやShopifyのようなローコードソリューションがあり、プロダクトマネージャーのような非技術職でも利用できます。チャットボットも例外ではなく、一部のAI自動化プラットフォームでは独自のLLMを利用することも可能です。
エンジニアにはLLMのホスティングや自動化プラットフォームとの連携に集中してもらうことができます。これにより、ビジネスアナリストやプロダクトマネージャーなどが、ビジネス要件を満たすAIエージェントを構築できるようになります。
追加で何かが必要な場合でも、これらのプラットフォームにはエンジニアがコードを追加できる仕組みが用意されていることが多いです。これにより、カスタムモデルの利点を維持しつつ、柔軟性やスピード、コスト面でもメリットがあります。
エンジニアにビジネス課題解決の自由度を与える
一方で、ビジネス課題が非常に難しい場合もあります。
完全にネットワークから隔離されたLLMアプリケーションや、デバイス上で動作するアプリ、あるいは2つのプラットフォーム間のデータ同期以上の高度な機能をチャットボットに持たせるプロジェクトなどが該当します。
こうした場合は、エンジニアが最も得意なツールを自由に使えるようにするのが理にかなっています。通常はコードを書くことになり、関係者はプロジェクトマネージャーとして関わります。
LLMカスタマイズのための戦略的な検討事項
AIプロジェクトにカスタムLLMを選ぶ際は、単に最適なモデルを選ぶだけでなく、自分たちの目標に合った戦略的な判断が必要です。
カスタムモデルは柔軟性や制御性、特定タスクへの最適化の可能性を提供しますが、その分複雑さも増します。まずは既製モデルから始め、プロンプトエンジニアリングで試行し、徐々に調整していくのが良いでしょう。
重要なのは、選ぶモデルが自社のビジネスニーズに合っていることです。技術スタックに合わせるだけではありません。
強力なプラットフォームでカスタマイズ
AIプロジェクトをさらにレベルアップしたいですか?
Botpressは、完全に拡張可能で柔軟なAIエージェントプラットフォームです。このスタックにより、開発者はあらゆる用途に対応したチャットボットやAIエージェントを構築できます。
充実した教育プラットフォームBotpress Academyや、詳細なYouTubeチャンネルもご用意。Discordには2万人以上のボット開発者が参加しており、いつでもサポートを受けられます。
今すぐ構築を始めましょう。無料です。
よくある質問
1. カスタムLLMへの投資のROIはどのように評価できますか?
カスタムLLMへの投資のROIを評価するには、インフラ費用、開発者の工数、ファインチューニングやホスティングなどの総コストと、人件費削減やコンバージョン率向上などの具体的な成果を比較します。
2. カスタムLLMの効果測定にはどんなKPIを追跡すべきですか?
KPIとしては、応答の正確性(精度・再現率やタスク完了率)、遅延(平均応答時間)、ユーザー満足度(CSAT/NPS)、自己解決率や解決率、1回あたりのコストなどを追跡しましょう。これらの指標はモデルの技術的な性能とビジネス成果への影響を反映します。
3. カスタムLLMソリューションの長期的な保守コストはどう見積もればよいですか?
カスタムLLMソリューションの長期的な保守コストを見積もるには、インフラ(クラウド計算・ストレージ)、エンジニアリングの更新、再学習やファインチューニングの頻度、監視ツール、規制対応のためのコストを含めて考えます。ビジネスデータの変化が早い場合は、再学習や検証の負担が今後増えることも想定しましょう。
4. 自分の業界や分野に合ったLLMをどうやってベンチマークできますか?
代表的で業界特有のプロンプトを使って各LLMをテストし、正確性、明瞭さ、トーン、タスク適合性などの観点で比較しましょう。社内データセットを使うか、FinancialQAやMedQAなど業界向けのオープンソースベンチマークを活用することもできます。
5. ユーザーデータを扱う場合、カスタムLLMはどんなコンプライアンス基準を満たすべきですか?
ユーザーデータを扱う場合、カスタムLLMはGDPR(EUのデータプライバシー)、SOC 2 Type II(運用セキュリティ)、HIPAA(医療データを扱う場合)などの基準を満たす必要があります。LLMプロバイダーは、役割ベースのアクセス制御、データの暗号化(転送時・保存時)、監査ログ、データ保持・削除の明確なポリシーなどの機能を提供しているべきです。





.webp)
