GPT-4oはチャットボットにとって何を意味するのか？

執筆者

Sarah Chudleigh

研究者＆AIコンテンツリーダー

ステップ1。ステップのタイトルは、予想通りここに入る。

概要

GPT GPT Turboの2倍の速度と半分のコストで、価格を大幅に引き下げ、AIチャットボットの応答時間を短縮します。
新しいモデルは、音声、ビデオ、リアルタイム翻訳、視覚を含む高度なマルチモーダル機能を可能にし、テキスト以外のチャットボットの革新的なユースケースを切り開く。
トークン化の効率化、特にローマ字以外の言語の効率化は、グローバルなチャットボットの展開において大幅なコスト削減を意味します。
スピードの向上はユーザーエクスペリエンスの向上に直結し、従来チャットボットユーザーをイライラさせていた待ち時間を短縮する。

スピードは2倍、価格は半分 - AIチャットボットにとってGPT-4oは何を意味するのか？

謎に包まれた発表に続き、OpenAI 、フラッグシップモデルの最新バージョンが発表された：GPT-4o.

最新型は、マルチモダル機能で派手に光り輝いただけではない。GPTターボより速く、安いのだ。主流メディアの報道は、新しいフラッグシップ・モデルのビデオと音声機能に夢中になっているが ChatGPTGPT -4Turboは、GPT さらに高速になりました。

藍色の背景に白い文字。Botpress ソフトウェア・エンジニア・リードPatrick Hamelin からの引用：「4oの利用可能性は、ビルダーとユーザーエクスペリエンスの両方を大幅に改善する力を持っています。その影響は、我々が考えている以上に広範囲に及ぶ。"

Patrick Hamelin「4oは、ビルダーとユーザーエクスペリエンスの両方を大幅に改善する力を持っています。 Botpress.「その影響は、私たちが考えている以上に広範囲に及びます。

それでは、新モデルがAIをどのように揺るがすのか、見てみようchatbots 。

ビルドAIChatbots

カスタムエージェントチャットボットの構築

今すぐ始める

モデルの能力

GPT-4o

新しいフラッグシップモデルには、音声とビデオ機能の強化、リアルタイム翻訳、より自然な言語能力など、エキサイティングなアップデートと新機能が搭載されている。画像を分析し、より多様な音声入力を理解し、要約を支援し、リアルタイム翻訳を促進し、グラフを作成することができます。ユーザーはファイルをアップロードし、音声対音声で会話することができる。デスクトップアプリもある。

OpenAI （そしてKhan academyのSal Khanのようなアソシエイト）の社員が、最新バージョンのGPT 、就職面接の準備、歌、表情による人間の感情の識別、書かれた数学の方程式の解答、さらには別のChatGPT-4oとの対話まで実演している。

この発表では、AIモデルがあなたの子供のノートに書かれた文章を分析し、対応することができるという新しい現実が示された。初めて分数の足し算の概念を説明し、子供の理解度によって口調や戦術を変えることができる。

KanAcademy のクリエイター、サル・カーンと彼の息子が出演するGPT-4o のデモビデオのスクリーンショット。 — *カーンAcademy の生みの親であるサル・カーンとその息子。GPT-4oの幾何学チューター機能を実演。*

LLM チャットボットにとって、GPT-4oは何を意味するのか？

LLMs 上で動作するAIチャットボットは、OpenAI ような企業がモデルを更新するたびに、アップデートを受けることができます。LLM エージェントが Botpressようなボット構築プラットフォームに接続されている場合、彼らは自分のチャットボットに最新のGPT モデルのすべての利点を受け取ることができます。

GPT-4oのリリースにより、AIチャットボットはアドバンスト・モデルでの実行を選択できるようになり、その機能、価格、速度が変更された。新モデルは、GPT-4 Turboの5倍のレート制限を持ち、1分あたり最大1,000万トークンを処理できる。

Botpress のTwilio のような音声統合を利用したボットにとって、音声を利用したインタラクションの新しい世界が出現した。かつての音声処理にとらわれることなく、chatbots 、人間とのインタラクションを模倣することに一歩近づいている。

おそらく最も重要なのは、有料ユーザーのコストが低いことだ。同じような機能を持つチャットボットを半分のコストで運用することで、世界的なアクセスと手頃な価格を劇的に向上させることができる。また、Botpress ユーザーは、ボットに追加のAI費用を支払う必要がないため、これらの節約は直接ビルダーに還元される。

また、ユーザー側にとっても、GPT-4oははるかに優れたユーザー体験を意味する。誰だって待たされるのは好きではありません。応答時間の短縮は、AIチャットボットのユーザーにとって、より高いユーザー満足度を意味する。

*Botpress スタジオでは、ユーザーはボットのワークフローのさまざまな部分に対して、GPT の異なるバージョンを選択することができます。*

ユーザーはスピードが好き

チャットボット導入の鍵となるのは、ユーザーエクスペリエンスの向上です。そして、待ち時間の短縮以上にユーザー体験を向上させるものは何でしょうか？

「より良い経験になるのは間違いない。"最後にしたいことは、誰かを待つことだ"

人間は待つことを嫌う。2003年の調査でも、ウェブページが読み込まれるまで約2秒しか待たないという結果が出ている。それ以来、私たちの忍耐力は確実に向上していない。

そして、誰もが待つことを嫌う

待ち時間を短縮するためのUXのヒントは、世の中に溢れています。多くの場合、イベントのスピードを改善することはできないので、私たちはユーザーに時間が早く過ぎているように感じさせる方法に焦点を当てる。ローディングバーの画像のような視覚的フィードバックは、知覚される待ち時間を短縮するために存在する。

エレベーターの待ち時間に関する有名なエピソードがある。住民はエレベーターが来るまで1～2分待たなければならなかった。ビルはエレベーターを新型にアップグレードすることができず、住民は賃貸契約を破棄すると脅していた。

心理学の訓練を受けた新入社員は、本当の問題は2分間の時間ロスではなく、退屈さであることを突き止めた。彼は、住民が待ち時間に自分や他人を見ることができるように鏡を設置することを提案した。エレベーターに関する苦情はなくなり、今ではエレベーターのロビーに鏡があるのは当たり前になっている。

視覚的なフィードバックのように、ユーザー体験を向上させるために近道をする代わりに、OpenAI 。スピードはユーザー・エクスペリエンスの中心であり、効率的なインタラクションの満足度に匹敵するトリックはない。

すべての人に貯蓄を

この新しいAIモデルを使ってアプリケーションを実行すると、突然安くなった。かなり安くなった。

AIチャットボットを大規模に運用すると、高額になる可能性があります。あなたのボットが搭載されているLLM 、大規模なユーザーとの対話ごとに支払う金額が決まります（少なくともBotpress では、AIの費用とLLM の費用を1:1で比較しています）。

また、こうした節約はAPIを使う開発者だけのものではない。ChatGPT4oは、GPT-3.5と並んで、LLM の最新無料バージョンである。無料ユーザーは、ChatGPT アプリを無料で利用できる。

より良いトークン化

ローマ字を使わない言語でモデルを操作する場合、GPT-4oはAPIコストをさらに削減します。

GPT-4oを使用すると、トークン化の効率がTurboに比べてどれだけ向上するかを視覚化したもの。ヒンディー語やグジャラート語などのインド・アーリア系言語では、トークン化の平均削減率が2.9～4.4である。アラビア語は2倍の削減、日本語、韓国語、中国語などの東アジア言語は1.4～1.xの削減。 — *GPT-4oトークン化はどのくらい効率的ですか？それは言語によります。*

新モデルでは、使用制限が改善された。トークン化の効率が飛躍的に向上し、英語以外の特定の言語に特化しています。

新しいトークン化モデルでは、入力テキストを処理するのに必要なトークンの数が少なくなります。対訳言語（個々の文字の代わりに記号や文字を使う言語）にとっては、はるかに効率的だ。

これらのメリットは、ローマ字を使わない言語に集中している。貯蓄の削減額は以下のように見積もられている：

ヒンディー語、タミル語、グジャラート語などのインド言語では、トークンが2.9～4.4倍減少する。
アラビア語はトークンが約2倍減少
中国語、日本語、ベトナム語などの東アジア言語では、トークンが1.4倍から1.7倍に減少している。

AIエージェントの導入？

AIエージェント導入の青写真を読む

今すぐ読む

AIのデジタルデバイドを解消する

デジタル時代は、古くからよく知られている貧富の差、すなわちデジタルデバイドの拡大をもたらした。富や強力なインフラへのアクセスが特定の人々だけのものであるように、AIへのアクセスやそれに伴う機会や恩恵もまた、特定の人々だけのものである。

国連開発計画（UNDP）のチーフ・デジタル・オフィサーであるロバート・オップ氏は、AIプラットフォームの存在は国全体の開発指標を左右する力があると説明した：

「私たちが抱いている大きな懸念のひとつは、AIプラットフォームの開発と利用の両面で、より設備が整い、熟練している国々は、はるかに速い開発プロセスを持つことができ、スキルや能力を持たない国々は取り残されるということです」。

明るく装飾されたステージに、白いアームチェアに座った4人の人物。オップは右端に座り、マイクに向かって話す。 — *インドで開催された世界デジタル公共インフラサミットで講演するUNDPのロバート・オップ最高デジタル責任者（2024年）。写真は* *UNDPデジタルX*.

GPT-4oのコストを半額にし、無料ティアを導入することで、OpenAI 、AIにおける最大の問題のひとつを中和するための重要な一歩を踏み出し、政策立案者や経済学者が頭を悩ませている不平等に直接取り組んでいる。

大型AIの積極的なPRは、愛好家が考える以上に必要だ。AIが私たちの日常生活により深く入り込んでくるにつれて、擁護派も懐疑派も同様に、AIを「良いこと」に使うにはどうしたらよいかを問うてきた。

藍色の背景に白い文字。AI教育者ルイ・ブシャールの言葉には、「AIを利用しやすくすることは、AIを "善のために "利用する最善の方法ではないにせよ、ひとつの方法である」とある。

AI博士であり教育者でもあるルイ・ブシャールによれば、AIに広くアクセスできるようにすることが、まさにその方法だという：AIにアクセスしやすくすることは、AIを "善のために "使うための最善の方法ではないにせよ、一つの方法である」。その理由は？もし我々がAI技術のプラスとマイナスの影響を完全にコントロールすることができないのであれば（少なくともその初期においては）、代わりにその潜在的な恩恵への平等なアクセスを保証することができる。

拡大するマルチモーダルの可能性

企業のチャットボットと対話する一般的な方法はテキストであるが、OpenAI'の新しいAIモデルの強化されたマルチモーダル機能は、今後これが変わるかもしれないことを示唆している。

来年は、新たに利用可能になったオーディオ、ビジョン、ビデオ機能を最大限に活用する新しいアプリケーションを展開する開発者が続出するだろう。

例えば、GPT を搭載したチャットボットには以下のような機能がある：

返品する商品を特定し、破損していないことを確認するため、顧客に商品の画像を求める。
地域特有の方言を考慮した音声翻訳をリアルタイムで提供する。
ステーキが焼けているかどうかは、フライパンの中の画像で判断できる。
古い大聖堂のイメージに基づいた歴史的背景を提供し、リアルタイムで通訳を行い、前後のコミュニケーションや質問を可能にするカスタマイズされた音声ツアーを行う、費用のかからない個人ツアーガイドとして機能する。
音声入力を聞いたり、口の動きのビデオに基づいて発音をフィードバックしたり、画像やビデオを通じて手話を教えたりできる言語学習アプリケーションを提供する。
音声やビデオを解釈する機能を組み合わせることで、緊急性のないメンタルヘルスのサポートを提供し、低コストのトークセラピーを可能にする。

画像や音声を解釈できるAIモデルによって、LLMs 、どのように私たちの役に立つことができるかについての理解は急速に広がっている。

マルチモダリティはアクセシビリティを意味する

私たちはすでに、強化されたマルチモーダル機能が社会貢献のために使われているのを目にしている。その好例が、OpenAI「Be My Eyes」とのパートナーシップだ。

Be My Eyesはデンマークのスタートアップ企業で、視覚に障害のあるユーザーを目の見えるボランティアと結びつける。スーパーマーケットで正しい缶詰を選んだり、Tシャツの色を見分けたりといった支援が必要なとき、このアプリはスマートフォンを介して世界中の視覚ボランティアとビデオでつなぐ。

展開中」と書かれた「Be My AI」の真っ青な告知。右側には、荒れ果てた海辺の小道を示すスマートフォンの画像と、AIが生成した画像の説明文。 — *ビー・マイ・アイズ×OpenAI のパートナーシップと商品発表。*

OpenAIの新しい視覚能力は、ビー・マイ・アイズのユーザーにさらに役立つ体験を提供できる。画像やビデオをリアルタイムで視覚的に解読する人間のボランティアに頼る代わりに、目の不自由なユーザーは、モデルが音声情報で応答できる画像やビデオをデバイスに伝えることができる。

OpenAI とビーマイ・アイズは現在、信頼できるパートナーとして、世界中の法的に目の不自由な人々の自立への道を切り開いています。ビー・マイ・アイズCEOのマイケル・バックリーがその影響について説明している：

「私たちがアクセスできるようになってからの短期間では、画像からテキストへのオブジェクト認識ツールとしては、他に類を見ないほどのパフォーマンスを見てきました。世界的なアクセシビリティへの影響は甚大です。そう遠くない将来、視覚障害者やロービジョンのコミュニティは、視覚通訳のニーズのためにこれらのツールを利用するだけでなく、彼らの生活においてより高度な自立をするために利用するようになるでしょう。"

Be My Eyesを使用したスマートフォンの画像3点。1枚は柄物のネクタイの数々、1枚は日焼け止めのボトルをカメラに向けるユーザー、そして1枚はカメラを構えてカラフルな小さな家を映し出す。 — *ビー・マイ・アイズは、視覚障害のあるユーザーを視覚ボランティアとつなぎ、視覚的なタスクを完了させる。写真はビーマイ・アイズより。*

ビー・マイ・アイズアクセシビリティGPT-4o

新サービスは間もなく、2024年夏に初めて展開される。アーリーアクセスのユーザーは、新しいビジョン、ビデオ、オーディオ機能をベータテストし、絶賛されている。AIの影響は懐疑的な人々に懸念を引き起こす可能性があるが、このパートナーシップは、AIがもたらすポジティブな影響の明確な兆候である。高度なAIがもたらす社会的利益を理解することは、そのPRにとって極めて重要なステップである。

今後のLLM 。

競合他社が最安値、最速LLM 、底辺への競争を続ける中、我々は明日のAIモデルをどのように判断するのだろうか？

将来のある時点で、主要なLLM クリエイター（おそらくOpenAI とグーグル）は、そのモデルがいかに速く、いかに安くアクセスを提供できるかで頭打ちになるだろう。コストとスピードが安定したら、市場をリードするモデルをどのように戴冠するのだろうか。

何が新しい時代のサインになるのだろうか？人工知能モデルのパーソナリティ、ビデオエンハンスメント機能、無料ユーザーが利用できる機能、あるいは現在の理解を超えたまったく新しい指標など、次世代のLLMs 。

AIChatbots 簡単

もしあなたのAIチャットボットが、GPT のアップデートのたびに自動的に同期するとしたらどうだろう？

Botpress は、2017年以来、カスタマイズ可能なAIチャットボットソリューションを提供しており、開発者が最新のLLMs のパワーでチャットボットを簡単に構築するために必要なツールを提供しています。Botpress チャットボットは、ウェブサイトや製品カタログのようなカスタムナレッジソースで学習させることができ、ビジネスシステムとシームレスに統合することができます。

コードのセットアップが不要で、無限のカスタマイズと拡張が可能な唯一のプラットフォーム、Botpress は、あなたのチャットボットに自動的に最新のGPT バージョンのパワーを提供します。

今日から始めよう。無料です。

ビルドAIChatbots

カスタムエージェントチャットボットの構築

今すぐ始める

よくあるご質問

1.既存のチャットボットをBotpress GPT切り替えるにはどうすればいいですか？

既存のチャットボットをBotpress GPT切り替えるには、Botpress Studioに移動し、アシスタントのLLM 設定に移動し、使用可能なモデルのドロップダウンからGPT選択します。この変更はコードを変更することなく即座に適用されます。

2.Botpress プラットフォームでGPT使用するための前提条件（SDKやAPIのバージョンなど）はありますか？

いいえ、Botpress GPT使用するための前提条件はありません。プラットフォームはすべてのSDK、APIの更新、バックエンドの依存関係を自動的に管理しますので、設定でGPT選択するだけで有効になります。

3.GPT、Botpress特定のビジネスユースケース向けに微調整やカスタマイズができますか？

GPT、従来のBotpressような微調整はできませんが、プロンプトエンジニアリング、ワークフローロジック、ナレッジベース、変数を使用して、GPToの応答や動作をカスタマイズすることができます。これにより、GPTモデルを再トレーニングすることなく、お客様のビジネスニーズに合わせた文脈に沿った動作をすることができます。

4.Botpress ワークフローにおいて、マルチモーダル機能（音声、視覚）の使用に制限はありますか？

はい、Botpress 現在、Twilio Dialogflow Voice Gatewayのような統合を通じて音声機能をサポートしていますが、画像やビデオの処理のようなマルチモーダル機能はまだ完全にはサポートされていません。視覚ベースの入力はまだ検討中であるか、回避策が必要です。

5.リアルタイム翻訳やビジョン入力のようなGPT高度な機能を使うのに、隠れたコストはありますか？

いいえ、GPT高度な機能をBotpress使用するための隠れたコストはありません。GPTスピードと効率性の利点は、既存のBotpress プランに含まれており、LLM コストはBotpress 負担します - そのため、ユーザーはGPT拡張機能を使用するために追加料金が発生することはありません。