スピードは2倍、価格は半分 - AIチャットボットにとってGPT-4oは何を意味するのか?
謎に包まれた発表に続き、OpenAI 、フラッグシップモデルの最新バージョンが発表された:GPT-4o.
最新モデルは、マルチモーダル機能で派手に輝きを増しただけではない。GPT-4 Turboよりも速く、安いのだ。主要メディアの報道は、新しいフラッグシップモデルのビデオと音声機能に夢中になっているが、新しいコストとスピードは、GPT を使ってアプリを動かしている人々にとっても同じようにインパクトがある。
Patrick Hamelin「4oは、ビルダーとユーザーエクスペリエンスの両方を大幅に改善する力を持っています。 Botpress.「その影響は、私たちが考えている以上に広範囲に及びます。
それでは、新モデルがAIをどのように揺るがすのか、見てみようchatbots 。
モデルの能力
新しいフラッグシップモデルには、音声とビデオ機能の強化、リアルタイム翻訳、より自然な言語能力など、エキサイティングなアップデートと新機能が搭載されている。画像を分析し、より多様な音声入力を理解し、要約を支援し、リアルタイム翻訳を促進し、グラフを作成することができます。ユーザーはファイルをアップロードし、音声対音声で会話することができる。デスクトップアプリもある。
OpenAI (そしてKhan academyのSal Khanのようなアソシエイト)の社員が、最新バージョンのGPT 、就職面接の準備、歌、表情による人間の感情の識別、書かれた数学の方程式の解答、さらには別のChatGPT-4oとの対話まで実演している。
この発表では、AIモデルがあなたの子供のノートに書かれた文章を分析し、対応することができるという新しい現実が示された。初めて分数の足し算の概念を説明し、子供の理解度によって口調や戦術を変えることができる。
LLM チャットボットにとって、GPT-4oは何を意味するのか?
LLMs 上で動作するAIチャットボットは、OpenAI のような企業がモデルを更新するたびにアップデートを贈られる。チャットボットがBotpress のようなボット構築プラットフォームに接続されている場合、最新のGPT モデルのすべての利点を自社のチャットボットで受けることができる。
GPT-4oのリリースにより、AIチャットボットはアドバンスト・モデルでの実行を選択できるようになり、その機能、価格、速度が変更された。新モデルは、GPT-4 Turboの5倍のレート制限を持ち、1分あたり最大1,000万トークンを処理できる。
Botpress のTwilio のような音声統合を利用したボットにとって、音声を利用したインタラクションの新しい世界が出現した。かつての音声処理にとらわれることなく、chatbots 、人間とのインタラクションを模倣することに一歩近づいている。
おそらく最も重要なのは、有料ユーザーのコストが低いことだ。同じような機能を持つチャットボットを半分のコストで運用することで、世界的なアクセスと手頃な価格を劇的に向上させることができる。また、Botpress ユーザーは、ボットに追加のAI費用を支払う必要がないため、これらの節約は直接ビルダーに還元される。
また、ユーザー側にとっても、GPT-4oははるかに優れたユーザー体験を意味する。誰だって待たされるのは好きではありません。応答時間の短縮は、AIチャットボットのユーザーにとって、より高いユーザー満足度を意味する。
ユーザーはスピードが好き
チャットボット導入の鍵となるのは、ユーザーエクスペリエンスの向上です。そして、待ち時間の短縮以上にユーザー体験を向上させるものは何でしょうか?
「より良い経験になるのは間違いない。"最後にしたいことは、誰かを待つことだ"
人間は待つことを嫌う。2003年の調査でも、ウェブページが読み込まれるまで約2秒しか待たないという結果が出ている。それ以来、私たちの忍耐力は確実に向上していない。
そして、誰もが待つことを嫌う
待ち時間を短縮するためのUXのヒントは、世の中に溢れています。多くの場合、イベントのスピードを改善することはできないので、私たちはユーザーに時間が早く過ぎているように感じさせる方法に焦点を当てる。ローディングバーの画像のような視覚的フィードバックは、知覚される待ち時間を短縮するために存在する。
エレベーターの待ち時間に関する有名なエピソードがある。住民はエレベーターが来るまで1~2分待たなければならなかった。ビルはエレベーターを新型にアップグレードすることができず、住民は賃貸契約を破棄すると脅していた。
心理学の訓練を受けた新入社員は、本当の問題は2分間の時間ロスではなく、退屈さであることを突き止めた。彼は、住民が待ち時間に自分や他人を見ることができるように鏡を設置することを提案した。エレベーターに関する苦情はなくなり、今ではエレベーターのロビーに鏡があるのは当たり前になっている。
視覚的なフィードバックのように、ユーザー体験を向上させるために近道をする代わりに、OpenAI 。スピードはユーザー・エクスペリエンスの中心であり、効率的なインタラクションの満足度に匹敵するトリックはない。
すべての人に貯蓄を
この新しいAIモデルを使ってアプリケーションを実行すると、突然安くなった。かなり安くなった。
AIチャットボットを大規模に運用すると、高額になる可能性があります。あなたのボットが搭載されているLLM 、大規模なユーザーとの対話ごとに支払う金額が決まります(少なくともBotpress では、AIの費用とLLM の費用を1:1で比較しています)。
また、こうした節約はAPIを使う開発者だけのものではない。ChatGPT4oは、GPT-3.5と並んで、LLM の最新無料バージョンである。無料ユーザーは、ChatGPT アプリを無料で利用できる。
より良いトークン化
ローマ字を使わない言語でモデルを操作する場合、GPT-4oはAPIコストをさらに削減します。
新モデルでは、使用制限が改善された。トークン化の効率が飛躍的に向上し、英語以外の特定の言語に特化しています。
新しいトークン化モデルでは、入力テキストを処理するのに必要なトークンの数が少なくなります。対訳言語(個々の文字の代わりに記号や文字を使う言語)にとっては、はるかに効率的だ。
これらのメリットは、ローマ字を使わない言語に集中している。貯蓄の削減額は以下のように見積もられている:
- ヒンディー語、タミル語、グジャラート語などのインド言語では、トークンが2.9~4.4倍減少する。
- アラビア語はトークンが約2倍減少
- 中国語、日本語、ベトナム語などの東アジア言語では、トークンが1.4倍から1.7倍に減少している。
AIのデジタルデバイドを解消する
デジタル時代は、古くからよく知られている貧富の差、すなわちデジタルデバイドの拡大をもたらした。富や強力なインフラへのアクセスが特定の人々だけのものであるように、AIへのアクセスやそれに伴う機会や恩恵もまた、特定の人々だけのものである。
国連開発計画(UNDP)のチーフ・デジタル・オフィサーであるロバート・オップ氏は、AIプラットフォームの存在は国全体の開発指標を左右する力があると説明した:
GPT-4oのコストを半額にし、無料ティアを導入することで、OpenAI 、AIにおける最大の問題のひとつを中和するための重要な一歩を踏み出し、政策立案者や経済学者が頭を悩ませている不平等に直接取り組んでいる。
大型AIの積極的なPRは、愛好家が考える以上に必要だ。AIが私たちの日常生活により深く入り込んでくるにつれて、擁護派も懐疑派も同様に、AIを「良いこと」に使うにはどうしたらよいかを問うてきた。
AI博士であり教育者でもあるルイ・ブシャールによれば、AIに広くアクセスできるようにすることが、まさにその方法だという:AIにアクセスしやすくすることは、AIを "善のために "使うための最善の方法ではないにせよ、一つの方法である」。その理由は?もし我々がAI技術のプラスとマイナスの影響を完全にコントロールすることができないのであれば(少なくともその初期においては)、代わりにその潜在的な恩恵への平等なアクセスを保証することができる。
拡大するマルチモーダルの可能性
企業のチャットボットと対話する一般的な方法はテキストであるが、OpenAI'の新しいAIモデルの強化されたマルチモーダル機能は、今後これが変わるかもしれないことを示唆している。
来年は、新たに利用可能になったオーディオ、ビジョン、ビデオ機能を最大限に活用する新しいアプリケーションを展開する開発者が続出するだろう。
例えば、GPT を搭載したチャットボットには以下のような機能がある:
- 返品する商品を特定し、破損していないことを確認するため、顧客に商品の画像を求める。
- 地域特有の方言を考慮した音声翻訳をリアルタイムで提供する。
- ステーキが焼けているかどうかは、フライパンの中の画像で判断できる。
- 古い大聖堂のイメージに基づいた歴史的背景を提供し、リアルタイムで通訳を行い、前後のコミュニケーションや質問を可能にするカスタマイズされた音声ツアーを行う、費用のかからない個人ツアーガイドとして機能する。
- 音声入力を聞いたり、口の動きのビデオに基づいて発音をフィードバックしたり、画像やビデオを通じて手話を教えたりできる言語学習アプリケーションを提供する。
- 音声やビデオを解釈する機能を組み合わせることで、緊急性のないメンタルヘルスのサポートを提供し、低コストのトークセラピーを可能にする。
画像や音声を解釈できるAIモデルによって、LLMs 、どのように私たちの役に立つことができるかについての理解は急速に広がっている。
マルチモダリティはアクセシビリティを意味する
私たちはすでに、強化されたマルチモーダル機能が社会貢献のために使われているのを目にしている。その好例が、OpenAI「Be My Eyes」とのパートナーシップだ。
Be My Eyesはデンマークのスタートアップ企業で、視覚に障害のあるユーザーを目の見えるボランティアと結びつける。スーパーマーケットで正しい缶詰を選んだり、Tシャツの色を見分けたりといった支援が必要なとき、このアプリはスマートフォンを介して世界中の視覚ボランティアとビデオでつなぐ。
OpenAIの新しい視覚能力は、ビー・マイ・アイズのユーザーにさらに役立つ体験を提供できる。画像やビデオをリアルタイムで視覚的に解読する人間のボランティアに頼る代わりに、目の不自由なユーザーは、モデルが音声情報で応答できる画像やビデオをデバイスに伝えることができる。
OpenAI とビーマイ・アイズは現在、信頼できるパートナーとして、世界中の法的に目の不自由な人々の自立への道を切り開いています。ビー・マイ・アイズCEOのマイケル・バックリーがその影響について説明している:
新サービスは間もなく、2024年夏に初めて展開される。アーリーアクセスのユーザーは、新しいビジョン、ビデオ、オーディオ機能をベータテストし、絶賛されている。AIの影響は懐疑的な人々に懸念を引き起こす可能性があるが、このパートナーシップは、AIがもたらすポジティブな影響の明確な兆候である。高度なAIがもたらす社会的利益を理解することは、そのPRにとって極めて重要なステップである。
今後のLLM 。
競合他社が最安値、最速LLM 、底辺への競争を続ける中、我々は明日のAIモデルをどのように判断するのだろうか?
将来のある時点で、主要なLLM クリエイター(おそらくOpenAI とグーグル)は、そのモデルがいかに速く、いかに安くアクセスを提供できるかで頭打ちになるだろう。コストとスピードが安定したら、市場をリードするモデルをどのように戴冠するのだろうか。
何が新しい時代のサインになるのだろうか?人工知能モデルのパーソナリティ、ビデオエンハンスメント機能、無料ユーザーが利用できる機能、あるいは現在の理解を超えたまったく新しい指標など、次世代のLLMs 。
AIChatbots 簡単
もしあなたのAIチャットボットが、GPT のアップデートのたびに自動的に同期するとしたらどうだろう?
Botpress は、2017年以来、カスタマイズ可能なAIチャットボットソリューションを提供しており、開発者が最新のLLMs のパワーでチャットボットを簡単に構築するために必要なツールを提供しています。Botpress チャットボットは、ウェブサイトや製品カタログのようなカスタムナレッジソースで学習させることができ、ビジネスシステムとシームレスに統合することができます。
コードのセットアップが不要で、無限のカスタマイズと拡張が可能な唯一のプラットフォーム、Botpress は、あなたのチャットボットに自動的に最新のGPT バージョンのパワーを提供します。
今日から始めよう。無料です。