How do I switch my existing chatbot to GPT-4o on Botpress?

To switch your existing chatbot to GPT-4o on Botpress, go to the Botpress Studio, navigate to your assistant’s LLM settings, and select GPT-4o from the available model dropdown. The change applies instantly without requiring code changes.

Are there prerequisites to using GPT-4o within the Botpress platform (e.g., SDKs, API versions)?

No, there are no prerequisites to using GPT-4o in Botpress. The platform manages all SDKs, API updates, and backend dependencies automatically, so you only need to select GPT-4o in the settings to activate it.

Can GPT-4o be fine-tuned or customized for specific business use cases via Botpress?

While GPT-4o cannot be fine-tuned in the traditional sense within Botpress, you can customize its responses and behavior using prompt engineering, workflow logic, knowledge bases, and variables. This allows GPT-4o to behave contextually for your business needs without retraining the model.

Are there limitations on the use of multimodal features (voice, vision) within Botpress workflows?

Yes, Botpress currently supports voice features through integrations like Twilio or Dialogflow Voice Gateway, but multimodal capabilities like processing images or videos are not fully supported yet. Vision-based input is still under consideration or requires workarounds.

Are there hidden costs to using GPT-4o’s advanced features like real-time translation or vision input?

No, there are no hidden costs to using GPT-4o’s advanced features in Botpress. GPT-4o’s speed and efficiency benefits are included in your existing Botpress plan, and LLM costs are covered by Botpress—so users don’t incur extra fees for using GPT-4o’s enhancements.

GPT-4o 對聊天機器人有什麼影響？

作者

Sarah Chudleigh

研究員暨AI內容負責人

摘要

GPT-4o 的速度是 GPT-4 Turbo 的兩倍，成本則減半，大幅降低了 AI 聊天機器人的價格並加快了回應速度。
這個新模型具備先進的多模態能力，包括語音、影像、即時翻譯與視覺辨識，讓聊天機器人的應用場景從文字擴展到更多創新用途。
在分詞效率上的提升，尤其對非羅馬字母語言來說，意味著全球部署聊天機器人時能大幅節省成本。
速度提升直接改善使用者體驗，縮短等待時間，減少過去常見的聊天機器人等待困擾。

速度加倍、價格減半——GPT-4o 對 AI 聊天機器人意味著什麼？

在一則神秘預告後，OpenAI 推出了他們旗艦模型的最新版本：GPT-4o。

這個最新模型不僅僅是多模態能力的華麗升級，它比 GPT-4 Turbo 更快、更便宜。雖然主流媒體多聚焦於新旗艦模型在 ChatGPT 上的影像與語音功能，但對於用 GPT 來驅動應用程式的開發者來說，價格與速度的提升同樣具有重大影響。

White lettering on an indigo background. A quote from Botpress software engineer lead Patrick Hamelin that reads: "The availability of 4o has the power to significantly improv both the builder and the user experience. The impact is further-reaching than we think."

「4o 的問世能大幅提升開發者與使用者體驗，」Botpress 軟體工程主管 Patrick Hamelin 表示。「其影響遠超我們的想像。」

那麼，讓我們深入探討這個新模型將如何顛覆 AI 聊天機器人。

打造AI聊天機器人

建立自訂型智能聊天機器人

立即開始

模型能力

迎接 GPT-4o

這款新旗艦模型帶來一系列令人期待的更新與新功能：強化的語音與影像能力、即時翻譯、更自然的語言處理。它能分析圖片、理解更多元的音訊輸入、協助摘要、即時翻譯，甚至能製作圖表。使用者可以上傳檔案，並進行語音對語音的對話。還推出了桌面應用程式。

在一系列發表影片中，OpenAI 員工（以及像可汗學院創辦人 Sal Khan 這樣的合作夥伴）展示了最新 GPT 版本如何協助使用者準備面試、唱歌、透過表情辨識人類情緒、解答手寫數學題，甚至與另一個 ChatGPT-4o 互動。

這次發表展示了一個新現實：AI 模型能夠分析你孩子筆記本上的內容並做出回應。它可以首次解釋分數加法的概念，根據孩子的理解調整語氣與教學方式——AI 聊天機器人正逐步跨越成為個人家教的界線。

A video screenshot of a GPT-4o demo video featuring Kan Academy creator Sal Khan and his son. — *可汗學院創辦人 Sal Khan 與兒子示範 GPT-4o 提供幾何輔導的能力。*

GPT-4o 對 LLM 聊天機器人意味著什麼？

每當像 OpenAI 這樣的公司更新模型時，運行在 LLM 上的 AI 聊天機器人就能獲得升級。如果 LLM agent 連接到像 Botpress 這樣的機器人開發平台，他們的聊天機器人就能享有最新 GPT 模型的所有優勢。

隨著 GPT-4o 的推出，AI 聊天機器人現在可以選擇運行在這個先進模型上，改變其功能、價格與速度。新模型的速率限制是 GPT-4 Turbo 的 5 倍，每分鐘最多可處理 1,000 萬個 token。

對於在 Botpress 上使用 Twilio 等語音整合的機器人來說，語音互動的新世界已經展開。聊天機器人不再受限於過去的音訊處理技術，更接近模擬人類互動。

或許最重要的是，付費用戶的成本更低。以一半的成本運行同等能力的聊天機器人，能大幅提升全球的可及性與負擔能力。而 Botpress 用戶無需為機器人額外支付 AI 費用——這些節省直接回饋給開發者。

對於使用者來說，GPT-4o 意味著更佳的體驗。沒有人喜歡等待。回應時間縮短，AI 聊天機器人的用戶滿意度自然提升。

*在 Botpress Studio 中，使用者可以為機器人流程的不同部分選擇不同版本的 GPT。*

用戶愛速度

提升用戶體驗是聊天機器人普及的關鍵。而還有什麼比縮短等待時間更能提升體驗？

「這肯定會帶來更好的體驗，」Hamelin 說。「沒有人想等別人。」

人類討厭等待。早在 2003 年，一項研究就發現人們只願意等網頁載入約 2 秒。我們的耐心至今肯定沒有增加。

大家都討厭等待

市面上有許多 UX 技巧用來減少用戶感受到的等待時間。當我們無法加快事件本身的速度時，會想辦法讓用戶覺得時間過得更快。像載入條這類視覺回饋，就是為了縮短用戶的主觀等待感。

在一則著名的電梯等待故事中，紐約一棟老舊大樓不斷收到住戶抱怨，因為等電梯要 1-2 分鐘。大樓無法升級電梯，住戶甚至威脅要解約。

一位受過心理學訓練的新進員工發現，問題不在於兩分鐘的時間損失，而是無聊。他建議安裝鏡子，讓住戶在等待時可以照鏡子或觀察他人。結果抱怨聲消失，現在電梯大廳裝鏡子已成常態。

OpenAI 並非用視覺回饋等技巧來提升體驗，而是從根本改善了體驗。速度是用戶體驗的核心，沒有任何花招能比得上高效率互動帶來的滿足感。

人人都能省

用這個新 AI 模型來運行應用程式，突然變得更便宜——而且便宜很多。

大規模運行 AI 聊天機器人可能會很花錢。你機器人所用的 LLM 會決定每位用戶互動時你要付多少費用（至少在 Botpress 上，我們的 AI 支出與 LLM 成本 1:1 匹配）。

而且這些節省不僅限於用 API 的開發者。ChatGPT-4o 是最新的免費 LLM 版本，與 GPT-3.5 並列。免費用戶可以無需付費使用 ChatGPT 應用程式。

更佳的分詞

如果你用非羅馬字母語言與模型互動，GPT-4o 還能進一步降低你的 API 成本。

A visualization of how much more efficient tokenization is with GPT-4o compared to Turbo. Indo-Aryan languages like Hindi and Gujarati have a 2.9-4.4 average tokenization reduction. Arabic has a 2x reduction and East Asian languages like Japanese, Korean, and Chinese have a 1.4-1.x reduction. — *GPT-4o 的分詞效率提升多少？這取決於語言。*

新模型提升了使用限制，在分詞效率上有重大突破，尤其集中在某些非英語語言。

新的分詞模型處理輸入文字時所需的 token 更少。對於表意文字語言（即使用符號或字元而非字母的語言）來說，效率大幅提升。

這些優勢主要集中在不使用羅馬字母的語言。節省幅度預估如下：

印度語言，如印地語、泰米爾語、古吉拉特語，token 減少 2.9 – 4.4 倍
阿拉伯語約減少 2 倍 token
東亞語言，如中文、日語、越南語，token 減少 1.4 – 1.7 倍

正在部署 AI 智能代理？

閱讀我們的 AI 智能代理人導入藍圖

立即閱讀

縮小 AI 數位落差

數位時代帶來了延續已久、廣為人知的貧富差距——數位落差。就像財富與基礎建設只屬於特定族群，AI 及其帶來的機會與好處也並非人人可得。

聯合國開發計劃署（UNDP）首席數位長 Robert Opp 說明，AI 平台的出現能決定一個國家發展指標的成敗：

「我們最大的擔憂之一，是那些在 AI 平台開發與應用上具備更多資源與技術的國家，可能會發展得更快，而缺乏相關能力的國家則會被遠遠拋在後面。」

A brightly-decorated stage with four individuals in white armchairs. Opp sits on the far right and speaks into a microphone. — *聯合國開發計劃署（UNDP）首席數位長 Robert Opp 在印度舉行的全球數位公共基礎建設高峰會（2024）發表演說。照片來源* *UNDP Digital X*。

OpenAI 將 GPT-4o 的成本減半並推出免費方案，這是解決 AI 最大問題之一的重要一步，也直接回應了政策制定者與經濟學家對不平等的關注。

對大型 AI 企業來說，正面的公關行動比愛好者想像的還要重要。隨著 AI 日益融入我們的日常生活，支持者與懷疑者都在思考，如何善用 AI 來造福社會。

White lettering on an indigo background. A quote from AI educator Louis Bouchard reads “Making AI accessible is one way, if not the best, to use AI ‘for good.’”

根據 AI 博士與教育者 Louis Bouchard 的說法，擴大 AI 的普及正是實現這個目標的方法：「讓 AI 更易取得，是善用 AI 的一種方式，甚至可能是最佳方式。」他的理由是：如果我們無法完全掌控 AI 技術的正負面影響——至少在初期——那麼我們可以確保大家都能平等享有其潛在好處。

多模態潛力大幅提升

目前與企業聊天機器人互動的主流方式是文字，但 OpenAI 新 AI 模型的多模態功能提升，預示著未來這種情況可能會改變。

在未來一年，我們很可能會看到開發者大量推出新應用，充分利用新開放的語音、影像與影片功能。

例如，GPT 驅動的聊天機器人可能具備以下能力：

請顧客拍攝退貨商品的照片，以辨識產品並確認其未受損
在即時對話中提供語音翻譯，並考量地區方言
根據鍋中牛排的照片判斷熟度
作為免費的個人導遊，根據老教堂的照片提供歷史背景、即時翻譯，並以語音進行客製化導覽，讓使用者能隨時提問互動
支援語言學習應用程式，能聆聽語音輸入，根據嘴型影片提供發音回饋，或透過影像與影片教學手語
結合影像與語音辨識能力，提供非緊急的心理健康支持，讓低成本談話治療成為可能

隨著 AI 模型能理解影像與語音，我們對大型語言模型（LLM）服務方式的想像正快速擴展。

多模態即是無障礙

我們已經看到多模態功能被善用於社會公益。最好的例子就是 OpenAI 與 Be My Eyes 的合作。

Be My Eyes 是一家丹麥新創公司，連結視障者與有視力的志工。當用戶需要協助——例如在超市挑選罐頭或辨識 T 恤顏色時——該應用程式會透過智慧型手機的視訊，將他們與全球的志工連線。

A bright blue announcement for 'Be My AI' that reads 'Rolling out out'. On the right side is an image of a smartphone showing a deserted seaside pathway with an AI-generated description of the picture. — *Be My Eyes 與 OpenAI 合作的產品發表公告。*

OpenAI 的新視覺功能能為 Be My Eyes 用戶帶來更實用的體驗。視障者無需再依賴真人志工即時解讀影像或影片，只要將圖片或影片傳送至裝置，模型就能以語音回應相關資訊。

OpenAI 與 Be My Eyes 現已成為值得信賴的合作夥伴，正為全球視障人士開創更自主的生活。Be My Eyes 執行長 Michael Buckley 說明其影響：

「在短短的試用期間，我們已見證其表現遠超市面上任何影像轉文字的物件辨識工具。這對全球無障礙環境的意義重大。不久的將來，視障與低視力社群將不僅用這些工具來滿足各種視覺解讀需求，更能大幅提升生活自主性。」

Three images of smartphones using Be My Eyes. One focuses on an array of patterned neckties, one features a user holding a bottle of sunscreen to the camera, and one holds the camera to show small, colorful houses. — *Be My Eyes 連結視障者與志工，協助完成視覺任務。照片來源：Be My Eyes。*

Be My Eyes 與 GPT-4o 的無障礙應用

這項新服務將於 2024 年夏季首次推出。早期體驗用戶已經對新視覺、影片與語音功能給予高度好評。雖然 AI 的影響讓部分人感到憂慮，但這項合作明確展現了 AI 能帶來的正面效益。了解 AI 進步帶來的社會公益，是其公關推廣的重要一步。

未來我們該如何評價 LLM 模型？

隨著競爭者持續追求更便宜、更快的 LLM，問題來了：未來我們該如何評價 AI 模型？

未來某個時點，主要的 LLM 開發者（很可能是 OpenAI 與 Google）在模型速度與成本上將趨於穩定。當成本與速度達到平衡後，市場領先的模型又該如何產生？

什麼會成為新時代的指標？是 AI 模型可選擇的人格、影片增強功能、免費用戶可用的特色，還是我們目前尚未理解的全新指標？下一代 LLM 已經近在咫尺。

輕鬆打造 AI 聊天機器人

如果你的 AI 聊天機器人能自動同步每次 GPT 更新，會怎樣？

自 2017 年以來，Botpress 一直提供可自訂的 AI 聊天機器人解決方案，協助開發者輕鬆運用最新 LLM 技術打造聊天機器人。Botpress 聊天機器人可根據自訂知識來源（如你的網站或產品目錄）訓練，並無縫整合企業系統。

Botpress 是唯一同時支援零程式碼設定與高度自訂擴充的平台，讓你的聊天機器人自動獲得最新 GPT 版本的強大能力，無需額外操作。

立即開始打造，完全免費。

打造AI聊天機器人

建立自訂型智能聊天機器人

立即開始

常見問題

1. 如何將現有聊天機器人切換到 Botpress 的 GPT-4o？

要將現有聊天機器人切換到 Botpress 的 GPT-4o，請進入 Botpress Studio，前往助理的 LLM 設定，並在可用模型下拉選單中選擇 GPT-4o。更改會立即生效，無需修改程式碼。

2. 在 Botpress 平台上使用 GPT-4o 是否有任何先決條件（例如 SDK、API 版本）？

沒有，在 Botpress 使用 GPT-4o 不需要任何前置需求。平台會自動管理所有 SDK、API 更新與後端相依性，你只需在設定中選擇 GPT-4o 即可啟用。

3. 可以透過 Botpress 將 GPT-4o 微調或自訂以符合特定商業應用嗎？

雖然在 Botpress 中無法以傳統方式微調 GPT-4o，但你可以透過提示設計、流程邏輯、知識庫與變數來自訂其回應與行為。這讓 GPT-4o 能根據你的業務需求做出情境化回應，無需重新訓練模型。

4. 在 Botpress 工作流程中使用多模態功能（語音、影像）是否有限制？

有，目前 Botpress 透過 Twilio 或 Dialogflow Voice Gateway 等整合支援語音功能，但影像或影片等多模態功能尚未完全支援。視覺輸入仍在評估中，或需額外解決方案。

5. 使用 GPT-4o 進階功能（如即時翻譯或影像輸入）是否有隱藏費用？

沒有，在 Botpress 使用 GPT-4o 的進階功能沒有隱藏費用。GPT-4o 的速度與效能優勢已包含在你現有的 Botpress 方案中，LLM 成本由 Botpress 吸收，使用者不會因為使用 GPT-4o 的新功能而產生額外費用。