- GPT-4o 的速度是 GPT-4 Turbo 的兩倍,成本則減半,大幅降低了 AI 聊天機器人的價格並加快了回應速度。
- 這個新模型具備先進的多模態能力,包括語音、影像、即時翻譯與視覺辨識,讓聊天機器人的應用場景從文字擴展到更多創新用途。
- 在分詞效率上的提升,尤其對非羅馬字母語言來說,意味著全球部署聊天機器人時能大幅節省成本。
- 速度提升直接改善使用者體驗,縮短等待時間,減少過去常見的聊天機器人等待困擾。
速度加倍、價格減半——GPT-4o 對 AI 聊天機器人意味著什麼?
在一則神秘預告後,OpenAI 推出了他們旗艦模型的最新版本:GPT-4o。
這個最新模型不僅僅是多模態能力的華麗升級,它比 GPT-4 Turbo 更快、更便宜。雖然主流媒體多聚焦於新旗艦模型在 ChatGPT 上的影像與語音功能,但對於用 GPT 來驅動應用程式的開發者來說,價格與速度的提升同樣具有重大影響。

「4o 的問世能大幅提升開發者與使用者體驗,」Botpress 軟體工程主管 Patrick Hamelin 表示。「其影響遠超我們的想像。」
那麼,讓我們深入探討這個新模型將如何顛覆 AI 聊天機器人。
模型能力
這款新旗艦模型帶來一系列令人期待的更新與新功能:強化的語音與影像能力、即時翻譯、更自然的語言處理。它能分析圖片、理解更多元的音訊輸入、協助摘要、即時翻譯,甚至能製作圖表。使用者可以上傳檔案,並進行語音對語音的對話。還推出了桌面應用程式。
在一系列發表影片中,OpenAI 員工(以及像可汗學院創辦人 Sal Khan 這樣的合作夥伴)展示了最新 GPT 版本如何協助使用者準備面試、唱歌、透過表情辨識人類情緒、解答手寫數學題,甚至與另一個 ChatGPT-4o 互動。
這次發表展示了一個新現實:AI 模型能夠分析你孩子筆記本上的內容並做出回應。它可以首次解釋分數加法的概念,根據孩子的理解調整語氣與教學方式——AI 聊天機器人正逐步跨越成為個人家教的界線。

GPT-4o 對 LLM 聊天機器人意味著什麼?
每當像 OpenAI 這樣的公司更新模型時,運行在 LLM 上的 AI 聊天機器人就能獲得升級。如果 LLM agent 連接到像 Botpress 這樣的機器人開發平台,他們的聊天機器人就能享有最新 GPT 模型的所有優勢。
隨著 GPT-4o 的推出,AI 聊天機器人現在可以選擇運行在這個先進模型上,改變其功能、價格與速度。新模型的速率限制是 GPT-4 Turbo 的 5 倍,每分鐘最多可處理 1,000 萬個 token。
對於在 Botpress 上使用 Twilio 等語音整合的機器人來說,語音互動的新世界已經展開。聊天機器人不再受限於過去的音訊處理技術,更接近模擬人類互動。
或許最重要的是,付費用戶的成本更低。以一半的成本運行同等能力的聊天機器人,能大幅提升全球的可及性與負擔能力。而 Botpress 用戶無需為機器人額外支付 AI 費用——這些節省直接回饋給開發者。
對於使用者來說,GPT-4o 意味著更佳的體驗。沒有人喜歡等待。回應時間縮短,AI 聊天機器人的用戶滿意度自然提升。

用戶愛速度
提升用戶體驗是聊天機器人普及的關鍵。而還有什麼比縮短等待時間更能提升體驗?
「這肯定會帶來更好的體驗,」Hamelin 說。「沒有人想等別人。」
人類討厭等待。早在 2003 年,一項研究就發現人們只願意等網頁載入約 2 秒。我們的耐心至今肯定沒有增加。
大家都討厭等待
市面上有許多 UX 技巧用來減少用戶感受到的等待時間。當我們無法加快事件本身的速度時,會想辦法讓用戶覺得時間過得更快。像載入條這類視覺回饋,就是為了縮短用戶的主觀等待感。
在 一則著名的電梯等待故事中,紐約一棟老舊大樓不斷收到住戶抱怨,因為等電梯要 1-2 分鐘。大樓無法升級電梯,住戶甚至威脅要解約。
一位受過心理學訓練的新進員工發現,問題不在於兩分鐘的時間損失,而是無聊。他建議安裝鏡子,讓住戶在等待時可以照鏡子或觀察他人。結果抱怨聲消失,現在電梯大廳裝鏡子已成常態。
OpenAI 並非用視覺回饋等技巧來提升體驗,而是從根本改善了體驗。速度是用戶體驗的核心,沒有任何花招能比得上高效率互動帶來的滿足感。
人人都能省
用這個新 AI 模型來運行應用程式,突然變得更便宜——而且便宜很多。
大規模運行 AI 聊天機器人可能會很花錢。你機器人所用的 LLM 會決定每位用戶互動時你要付多少費用(至少在 Botpress 上,我們的 AI 支出與 LLM 成本 1:1 匹配)。
而且這些節省不僅限於用 API 的開發者。ChatGPT-4o 是最新的免費 LLM 版本,與 GPT-3.5 並列。免費用戶可以無需付費使用 ChatGPT 應用程式。
更佳的分詞
如果你用非羅馬字母語言與模型互動,GPT-4o 還能進一步降低你的 API 成本。

新模型提升了使用限制,在分詞效率上有重大突破,尤其集中在某些非英語語言。
新的分詞模型處理輸入文字時所需的 token 更少。對於表意文字語言(即使用符號或字元而非字母的語言)來說,效率大幅提升。
這些優勢主要集中在不使用羅馬字母的語言。節省幅度 預估如下:
- 印度語言,如印地語、泰米爾語、古吉拉特語,token 減少 2.9 – 4.4 倍
- 阿拉伯語約減少 2 倍 token
- 東亞語言,如中文、日語、越南語,token 減少 1.4 – 1.7 倍
縮小 AI 數位落差
數位時代帶來了延續已久、廣為人知的貧富差距——數位落差。就像財富與基礎建設只屬於特定族群,AI 及其帶來的機會與好處也並非人人可得。
聯合國開發計劃署(UNDP)首席數位長 Robert Opp 說明,AI 平台的出現能決定一個國家發展指標的成敗:

OpenAI 將 GPT-4o 的成本減半並推出免費方案,這是解決 AI 最大問題之一的重要一步,也直接回應了政策制定者與經濟學家對不平等的關注。
對大型 AI 企業來說,正面的公關行動比愛好者想像的還要重要。隨著 AI 日益融入我們的日常生活,支持者與懷疑者都在思考,如何善用 AI 來造福社會。

根據 AI 博士與教育者 Louis Bouchard 的說法,擴大 AI 的普及正是實現這個目標的方法:「讓 AI 更易取得,是善用 AI 的一種方式,甚至可能是最佳方式。」他的理由是:如果我們無法完全掌控 AI 技術的正負面影響——至少在初期——那麼我們可以確保大家都能平等享有其潛在好處。
多模態潛力大幅提升
目前與企業聊天機器人互動的主流方式是文字,但 OpenAI 新 AI 模型的多模態功能提升,預示著未來這種情況可能會改變。
在未來一年,我們很可能會看到開發者大量推出新應用,充分利用新開放的語音、影像與影片功能。
例如,GPT 驅動的聊天機器人可能具備以下能力:
- 請顧客拍攝退貨商品的照片,以辨識產品並確認其未受損
- 在即時對話中提供語音翻譯,並考量地區方言
- 根據鍋中牛排的照片判斷熟度
- 作為免費的個人導遊,根據老教堂的照片提供歷史背景、即時翻譯,並以語音進行客製化導覽,讓使用者能隨時提問互動
- 支援語言學習應用程式,能聆聽語音輸入,根據嘴型影片提供發音回饋,或透過影像與影片教學手語
- 結合影像與語音辨識能力,提供非緊急的心理健康支持,讓低成本談話治療成為可能
隨著 AI 模型能理解影像與語音,我們對大型語言模型(LLM)服務方式的想像正快速擴展。
多模態即是無障礙
我們已經看到多模態功能被善用於社會公益。最好的例子就是 OpenAI 與 Be My Eyes 的合作。
Be My Eyes 是一家丹麥新創公司,連結視障者與有視力的志工。當用戶需要協助——例如在超市挑選罐頭或辨識 T 恤顏色時——該應用程式會透過智慧型手機的視訊,將他們與全球的志工連線。

OpenAI 的新視覺功能能為 Be My Eyes 用戶帶來更實用的體驗。視障者無需再依賴真人志工即時解讀影像或影片,只要將圖片或影片傳送至裝置,模型就能以語音回應相關資訊。
OpenAI 與 Be My Eyes 現已成為值得信賴的合作夥伴,正為全球視障人士開創更自主的生活。Be My Eyes 執行長 Michael Buckley 說明其影響:

這項新服務將於 2024 年夏季首次推出。早期體驗用戶已經對新視覺、影片與語音功能給予高度好評。雖然 AI 的影響讓部分人感到憂慮,但這項合作明確展現了 AI 能帶來的正面效益。了解 AI 進步帶來的社會公益,是其公關推廣的重要一步。
未來我們該如何評價 LLM 模型?
隨著競爭者持續追求更便宜、更快的 LLM,問題來了:未來我們該如何評價 AI 模型?
未來某個時點,主要的 LLM 開發者(很可能是 OpenAI 與 Google)在模型速度與成本上將趨於穩定。當成本與速度達到平衡後,市場領先的模型又該如何產生?
什麼會成為新時代的指標?是 AI 模型可選擇的人格、影片增強功能、免費用戶可用的特色,還是我們目前尚未理解的全新指標?下一代 LLM 已經近在咫尺。
輕鬆打造 AI 聊天機器人
如果你的 AI 聊天機器人能自動同步每次 GPT 更新,會怎樣?
自 2017 年以來,Botpress 一直提供可自訂的 AI 聊天機器人解決方案,協助開發者輕鬆運用最新 LLM 技術打造聊天機器人。Botpress 聊天機器人可根據自訂知識來源(如你的網站或產品目錄)訓練,並無縫整合企業系統。
Botpress 是唯一同時支援零程式碼設定與高度自訂擴充的平台,讓你的聊天機器人自動獲得最新 GPT 版本的強大能力,無需額外操作。
立即開始打造,完全免費。
常見問題
1. 如何將現有聊天機器人切換到 Botpress 的 GPT-4o?
要將現有聊天機器人切換到 Botpress 的 GPT-4o,請進入 Botpress Studio,前往助理的 LLM 設定,並在可用模型下拉選單中選擇 GPT-4o。更改會立即生效,無需修改程式碼。
2. 在 Botpress 平台上使用 GPT-4o 是否有任何先決條件(例如 SDK、API 版本)?
沒有,在 Botpress 使用 GPT-4o 不需要任何前置需求。平台會自動管理所有 SDK、API 更新與後端相依性,你只需在設定中選擇 GPT-4o 即可啟用。
3. 可以透過 Botpress 將 GPT-4o 微調或自訂以符合特定商業應用嗎?
雖然在 Botpress 中無法以傳統方式微調 GPT-4o,但你可以透過提示設計、流程邏輯、知識庫與變數來自訂其回應與行為。這讓 GPT-4o 能根據你的業務需求做出情境化回應,無需重新訓練模型。
4. 在 Botpress 工作流程中使用多模態功能(語音、影像)是否有限制?
有,目前 Botpress 透過 Twilio 或 Dialogflow Voice Gateway 等整合支援語音功能,但影像或影片等多模態功能尚未完全支援。視覺輸入仍在評估中,或需額外解決方案。
5. 使用 GPT-4o 進階功能(如即時翻譯或影像輸入)是否有隱藏費用?
沒有,在 Botpress 使用 GPT-4o 的進階功能沒有隱藏費用。GPT-4o 的速度與效能優勢已包含在你現有的 Botpress 方案中,LLM 成本由 Botpress 吸收,使用者不會因為使用 GPT-4o 的新功能而產生額外費用。







