- GPT-4o的速度是GPT-4 Turbo的两倍,成本仅为一半,大幅降低了AI聊天机器人的价格并加快了响应速度。
- 新模型具备先进的多模态能力,包括语音、视频、实时翻译和视觉功能,这让聊天机器人在文本之外拥有了创新的应用场景。
- 在分词效率上的提升,尤其对非拉丁字母语言来说,意味着全球聊天机器人部署的成本将大幅降低。
- 速度提升直接改善了用户体验,减少了传统上让聊天机器人用户感到沮丧的等待时间。
速度翻倍,价格减半——GPT-4o对AI聊天机器人意味着什么?
在一则神秘预告后,OpenAI发布了其旗舰模型的最新版本:GPT-4o。
最新模型不仅在多模态能力上焕然一新,还比GPT-4 Turbo更快、更便宜。虽然主流媒体关注新旗舰模型在ChatGPT上的视频和语音能力,但对于用GPT驱动应用的用户来说,新模型的成本和速度同样具有重大影响。

“4o的可用性有能力显著提升开发者和用户体验。”Botpress的软件工程师负责人Patrick Hamelin表示,“其影响比我们想象的更深远。”
那么,让我们深入了解新模型将如何改变AI聊天机器人。
模型能力
这款全新旗舰模型带来了一系列令人兴奋的更新和新功能:增强的语音和视频能力、实时翻译、更自然的语言处理能力。它可以分析图片,理解更多类型的音频输入,协助总结内容,支持实时翻译,还能生成图表。用户可以上传文件并进行语音对话,甚至还推出了桌面应用。
在一系列发布视频中,OpenAI员工(以及像可汗学院Sal Khan这样的合作伙伴)展示了最新版本GPT如何为用户准备面试、唱歌、通过面部表情识别人类情绪、解答书面数学题,甚至与另一个ChatGPT-4o互动。
此次发布展示了一个新现实:AI模型能够分析你孩子笔记本上的书写内容并作出回应。它可以首次讲解分数相加的概念,并根据你孩子的理解调整语气和方法——它甚至可以从聊天机器人变成私人导师。

GPT-4o对大语言模型聊天机器人意味着什么?
每当OpenAI等公司更新其模型时,基于大语言模型的AI聊天机器人都会获得一次升级。如果大语言模型代理连接到像Botpress这样的机器人构建平台,它们的聊天机器人就能享受到最新GPT模型带来的所有优势。
随着GPT-4o的发布,AI聊天机器人现在可以选择运行在这一先进模型上,从而改变其能力、价格和速度。新模型的速率限制是GPT-4 Turbo的5倍,每分钟可处理多达1000万个token。
对于在Botpress上使用Twilio等音频集成的机器人来说,语音交互的新世界已经开启。聊天机器人不再局限于过去的音频处理,距离模拟人类互动又近了一步。
也许最重要的是,付费用户的成本更低了。以一半的成本运行同等能力的聊天机器人,可以极大提升全球的可及性和经济性。而Botpress用户无需为其机器人额外支付AI费用——这些节省将直接惠及开发者。
而对于用户来说,GPT-4o意味着更好的使用体验。没人喜欢等待。响应时间更短,AI聊天机器人的用户满意度就越高。

用户喜欢速度
聊天机器人普及的关键在于提升用户体验。而还有什么比减少等待时间更能提升体验呢?
“体验肯定会更好。”Hamelin说,“你最不想做的事情就是等别人。”
人类讨厌等待。早在2003年,一项研究就发现人们只愿意为网页加载等待大约2秒。我们的耐心从那以后肯定没有增加。
每个人都讨厌等待
有大量用户体验建议旨在减少用户感知的等待时间。很多时候我们无法提升事件本身的速度,于是就专注于让用户感觉时间过得更快。比如加载条等视觉反馈,就是为了缩短用户的感知等待时间。
在一则著名的电梯等待故事中,纽约一栋老楼屡遭投诉。居民需等待1-2分钟电梯才到。大楼无法升级电梯,居民甚至威胁要解约。
一位受过心理学训练的新员工发现,真正的问题不是两分钟的时间损失,而是无聊。他建议安装镜子,让居民在等待时可以照镜子或观察他人。此后,关于电梯的投诉消失了,如今在电梯大厅看到镜子已很常见。
OpenAI没有采用视觉反馈等“捷径”来提升用户体验,而是从根本上提升了体验。速度是用户体验的核心,没有什么技巧能比高效的交互更让人满意。
人人都能省钱
使用这个新AI模型运行应用程序的成本突然降低了,而且降幅很大。
你的机器人所用的大语言模型决定了在大规模下每次用户交互的费用(至少在Botpress,我们的AI支出与大语言模型成本1:1匹配)。
而这些节省不仅限于使用API的开发者。ChatGPT-4o是最新的免费大语言模型版本,与GPT-3.5并列。免费用户可以免费使用ChatGPT应用。
更好的分词
如果你用非拉丁字母的语言与模型交互,GPT-4o还能进一步降低你的API成本。

新模型带来了更高的使用上限。它在分词效率上实现了重大飞跃,主要集中在某些非英语语言。
新分词模型处理输入文本所需的token更少。对于表意文字(即使用符号和字符而非单个字母的语言)来说,效率大大提升。
这些优势主要集中在不使用拉丁字母的语言。节省幅度估算如下:
- 印度语言,如印地语、泰米尔语或古吉拉特语,token减少2.9 – 4.4倍
- 阿拉伯语token减少约2倍
- 东亚语言,如中文、日语和越南语,token减少1.4 – 1.7倍
弥合AI数字鸿沟
数字时代带来了长期存在且有据可查的贫富差距的延伸——数字鸿沟。正如财富和完善基础设施只属于特定人群,AI及其带来的机遇和益处的获取同样如此。
联合国开发计划署(UNDP)首席数字官Robert Opp解释,AI平台的存在有能力决定一个国家的发展指标能否实现突破:

OpenAI通过将GPT-4o的成本减半并推出免费套餐,正在关键性地缓解AI领域最大的问题之一——并直接回应政策制定者和经济学家关注的不平等问题。
对于大型AI公司来说,积极的公关举措比爱好者想象的更为必要。随着AI在我们日常生活中变得越来越普及,支持者和怀疑者都在思考,如何才能真正实现AI“造福社会”。

据AI博士、教育者Louis Bouchard所说,扩大AI的可及性正是实现这一目标的方法:“让AI更易获取,是实现AI‘造福社会’的一种方式,甚至可能是最佳方式。”他的理由是:如果我们无法完全控制AI技术的正负影响——至少在早期阶段——那么我们可以确保人人平等地享受其潜在益处。
多模态能力的扩展
目前与企业聊天机器人互动的主流方式是文本,但OpenAI新AI模型增强的多模态能力,预示着未来这一方式可能会发生变化。
在接下来的一年里,我们很可能会看到开发者们推出大量新应用,充分利用新开放的音频、视觉和视频功能。
例如,基于GPT的聊天机器人可能具备以下能力:
- 要求客户上传退货商品的图片,以识别产品并确保其未损坏
- 在实时对话中提供考虑地区方言的音频翻译
- 通过锅中牛排的图片判断其熟度
- 作为免费的私人导游,根据老教堂的图片提供历史背景,实时翻译,并通过定制语音讲解实现互动问答
- 为语言学习应用提供支持,能够听取音频输入,根据口型视频反馈发音,或通过图片和视频教授手语
- 通过结合音频和视频解读能力,低成本地为用户提供非紧急心理健康支持
随着AI模型能够解读图片和音频,我们对大型语言模型(LLM)服务能力的理解正迅速拓展。
多模态意味着可及性
我们已经看到多模态功能在社会公益领域的应用。一个典型例子是OpenAI与Be My Eyes的合作。
Be My Eyes是一家丹麦初创公司,致力于将视障用户与有视力的志愿者连接起来。当用户需要帮助——比如在超市挑选罐头或辨认T恤颜色时——该应用会通过智能手机视频,将他们与全球的有视力志愿者连接。

OpenAI的新视觉能力能为Be My Eyes用户带来更有帮助的体验。视障用户无需依赖真人志愿者实时解读图片或视频,只需将图片或视频传送到设备上,模型即可通过音频信息进行反馈。
OpenAI与Be My Eyes现已成为值得信赖的合作伙伴,正在为全球法定盲人群体带来更多独立性。Be My Eyes首席执行官Michael Buckley解释了其影响:

这项新服务将于2024年夏季首次推出。早期体验用户已对新视觉、视频和音频功能进行了测试,并给予高度评价。尽管AI的影响令部分人担忧,但这项合作无疑展示了AI带来的积极作用。理解先进AI带来的社会价值,是其公关推广的关键一步。
我们将如何评判未来的大型语言模型?
随着竞争者不断争夺最低成本和最快速度,问题随之而来:我们将如何评判未来的AI模型?
未来某个阶段,主要的大型语言模型开发者(很可能是OpenAI和Google)在模型运行速度和访问成本上将趋于稳定。一旦成本和速度达到平衡,我们又该如何评选市场领先的模型?
什么将成为新的时代标志?是AI模型可选的人格、视频增强能力、免费用户可用的功能,还是超越我们当前认知的全新指标?下一代大型语言模型已近在眼前。
轻松打造AI聊天机器人
如果你的AI聊天机器人能自动同步每一次GPT更新,会怎样?
自2017年以来,Botpress一直为开发者提供可定制的AI聊天机器人解决方案,帮助他们轻松利用最新大型语言模型的强大能力构建聊天机器人。Botpress聊天机器人可基于自定义知识源(如你的网站或产品目录)进行训练,并无缝集成到业务系统中。
Botpress是唯一覆盖零代码搭建到无限定制和扩展的平台,让你的聊天机器人自动获得最新GPT版本的能力——无需额外操作。
立即开始构建。 免费使用。
常见问题
1. 如何将现有聊天机器人切换到Botpress上的GPT-4o?
要在Botpress上将现有聊天机器人切换到GPT-4o,请进入Botpress Studio,找到助手的LLM设置,并在可选模型下拉菜单中选择GPT-4o。更改会立即生效,无需修改代码。
2. 在 Botpress 平台中使用 GPT-4o 是否有前置条件(如 SDK、API 版本等)?
没有,在Botpress中使用GPT-4o无需任何前置要求。平台会自动管理所有SDK、API更新和后端依赖,你只需在设置中选择GPT-4o即可启用。
3. 可以通过 Botpress 对 GPT-4o 进行微调或定制,以满足特定业务场景吗?
虽然在Botpress中无法以传统方式微调GPT-4o,但你可以通过提示工程、流程逻辑、知识库和变量等方式定制其回复和行为。这使GPT-4o能够根据你的业务需求进行上下文响应,无需重新训练模型。
4. 在 Botpress 工作流中使用多模态功能(语音、视觉)是否有限制?
有,目前Botpress通过如Twilio或Dialogflow Voice Gateway等集成支持语音功能,但对图片或视频等多模态能力的支持尚未完全实现。基于视觉的输入仍在评估中,或需采用变通方案。
5. 使用 GPT-4o 的高级功能(如实时翻译或视觉输入)是否有隐藏费用?
没有,在Botpress中使用GPT-4o的高级功能没有隐藏费用。GPT-4o的速度和效率优势已包含在你现有的Botpress套餐中,LLM相关费用由Botpress承担,用户无需为GPT-4o的增强功能额外付费。







