Are there hidden costs to using GPT-4o’s advanced features like real-time translation or vision input?

不，在Botpress中使用GPT的高级功能没有任何隐藏费用。GPT的速度和效率优势已包含在您现有的Botpress 计划中，LLM 费用由Botpress承担，Botpress用户不会因为使用GPT的增强功能而产生额外费用。

GPT-4o 对聊天机器人意味着什么？

撰写人

Sarah Chudleigh

研究员兼人工智能内容主管

步骤 1：该步骤的标题如期出现在这里

摘要

GPT 的速度是GPT Turbo 的两倍，成本仅为GPT Turbo 的一半，大大降低了人工智能聊天机器人的价格并加快了响应速度。
新模式实现了先进的多模态功能，包括语音、视频、实时翻译和视觉，为聊天机器人开辟了文本以外的创新用例。
标记化效率的提高，尤其是非罗马字母语言的标记化效率提高，意味着全球聊天机器人部署的成本大大降低。
速度的提升直接增强了用户体验，减少了传统上令聊天机器人用户沮丧的等待时间。

两倍的速度和一半的价格--GPT-4o对人工智能聊天机器人意味着什么？

继神秘发布之后，OpenAI 又推出了其旗舰机型的最新版本：GPT-4o.

最新型号不仅在多模态功能方面大放异彩，而且比 GPT-4 Turbo 更快、更便宜。它比GPT Turbo 更快、更便宜。虽然主流媒体对新旗舰机型的视频和语音功能赞不绝口，但对于 ChatGPT的视频和语音功能时，新的成本和速度对使用GPT 支持其应用程序的用户同样具有影响力。

靛蓝色背景上的白色字体。Botpress 软件工程师Patrick Hamelin 的一段话："4o的可用性能够显著改善建筑商和用户的体验。其影响比我们想象的还要深远"。

"Patrick Hamelin 说："4o 的可用性能够显著改善建筑商和用户体验。 Botpress."其影响比我们想象的还要深远"。

因此，让我们深入探讨新模式将如何撼动人工智能chatbots 。

构建人工智能Chatbots

构建自定义代理聊天机器人

现在开始

模型功能

向GPT 问好 -4o

新的旗舰机型拥有一系列令人兴奋的更新和新功能：增强的语音和视频功能、实时翻译和更多的自然语言能力。它可以分析图像、理解更多种类的音频输入、提供摘要帮助、促进实时翻译和创建图表。用户可以上传文件并进行语音对话。它甚至还配有桌面应用程序。

在一系列发布视频中，OpenAI 员工（以及可汗学院的萨尔-可汗等同事）演示了最新版GPT 为用户准备求职面试、唱歌、通过面部表情识别人类情绪、求解书面数学公式，甚至与另一个ChatGPT-4o 进行互动。

这次发布会展示了一种新的现实，即人工智能模型能够分析孩子笔记本上的文字并做出回应。它可以第一次解释分数加法的概念，根据孩子的理解改变语气和策略--它可以跨越从聊天机器人到私人教师的界限。

GPT-4o 演示视频截图，视频主角是 KanAcademy 的创作者萨尔-汗和他的儿子。 — *可汗Academy 的创建者萨尔-可汗和他的儿子演示GPT-4o 提供几何辅导的能力。*

GPT-4o 对LLM 聊天机器人意味着什么？

在LLMs 上运行的人工智能聊天机器人会在OpenAI 等公司每次更新模型时获得更新。如果LLM 代理连接到Botpress 等机器人构建平台，他们就能在自己的聊天机器人中获得最新GPT 模型的所有优势。

随着GPT-4o 的发布，人工智能聊天机器人现在可以选择在高级模型上运行，从而改变其能力、价格和速度。新模式的速率限制比GPT-4 Turbo 高 5 倍，每分钟可处理多达 1000 万个代币。

对于使用音频集成（如Twilio onBotpress ）的机器人来说，一个语音交互的新世界已经出现。chatbots 不再局限于过去的音频处理，而是在模仿人类交互方面更进一步。

也许最重要的是降低了付费用户的成本。只需花费一半的成本就能运行一个功能类似的聊天机器人，这将大大提高全球范围内的可访问性和可负担性。Botpress 用户无需为机器人支付额外的人工智能费用，因此这些节省下来的费用将直接用于建设者。

在用户方面，GPT-4o 意味着更好的用户体验。没有人喜欢等待。对于人工智能聊天机器人用户来说，更短的响应时间意味着更高的用户满意度。

*在Botpress studio 中，用户可以为机器人工作流程的不同部分选择不同版本的GPT 。*

用户喜欢速度

采用聊天机器人的一个关键因素是改善用户体验。有什么能比缩短等待时间更能改善用户体验呢？

"肯定会有更好的体验，"哈梅林说。"你最不想做的事就是等待别人"。

人类讨厌等待。甚至早在 2003 年，一项研究就发现，人们只愿意等待大约 2 秒钟来加载网页。从那时起，我们的耐心肯定没有增加。

每个人都讨厌等待

有大量用户体验技巧可以缩短用户感知到的等待时间。我们通常无法提高事件发生的速度，因此我们把重点放在如何让用户感觉时间过得更快上。视觉反馈（如加载条图像）可以缩短感知等待时间。

在一个关于电梯等候时间的著名故事中，纽约的一栋老楼收到了大量投诉。居民们需要等待 1-2 分钟才能等到电梯。大楼无法将电梯升级到更新的型号，居民们威胁要毁约。

一位接受过心理学培训的新员工发现，真正的问题不在于损失的两分钟时间，而在于无聊。他建议安装镜子，这样住户在等待时就可以看看自己或他人。于是，关于电梯的抱怨声停止了，现在，在电梯大厅里看到镜子已经是司空见惯的事了。

OpenAI 没有采取视觉反馈等捷径来提升用户体验，而是从源头上改善了用户体验。速度是用户体验的核心，没有什么技巧能与高效交互带来的满足感相媲美。

为每个人节省开支

使用这种新的人工智能模型来运行应用程序突然变得便宜了。便宜了很多。

大规模运行人工智能聊天机器人会很昂贵。您的机器人由LLM 提供支持，这决定了您在更大规模上为每次用户互动支付多少费用（至少在Botpress ，我们的人工智能支出与LLM 的成本是 1:1）。

这些节省不仅适用于使用 API 的开发人员。ChatGPT-4o 是LLM 的最新免费版本，与GPT-3.5 同时推出。免费用户可以免费使用ChatGPT 应用程序。

更好的标记化

如果您使用不使用罗马字母的语言与模型交互，GPT-4o 甚至可以进一步降低您的应用程序接口成本。

GPT-4o 的标记化效率比 Turbo 高出多少的可视化效果。印度-雅利安语（如印地语和古吉拉特语）的平均标记化减少率为 2.9-4.4。阿拉伯语减少了 2 倍，日语、韩语和中文等东亚语言减少了 1.4-1.x。 — *GPT-4o 标记化的效率有多高？这取决于语言。*

新模式改进了使用限制。它大大提高了标记化效率，主要集中于某些非英语语言。

新的标记化模式在处理输入文本时需要的标记更少。对于逻辑语言（即使用符号和字符而不是单个字母的语言）来说，这种模式的效率要高得多。

这些好处主要集中在不使用罗马字母的语言上。据估计，减少的节余如下：

印度语言（如印地语、泰米尔语或古吉拉特语）的词库减少了 2.9 - 4.4 倍
阿拉伯语的标记减少了 ~2 倍
东亚语言，如汉语、日语和越南语的词库减少了 1.4 - 1.7 倍

部署人工智能代理？

阅读我们的人工智能代理实施蓝图

立即阅读

缩小人工智能数字鸿沟

数字时代带来了历史悠久、有据可查的贫富差距的延伸--数字鸿沟。正如获得财富和强大的基础设施是某些人群的专利一样，获得人工智能及其带来的机遇和好处也是如此。

联合国开发计划署（UNDP）首席数字官罗伯特-奥普解释说，人工智能平台的存在能够决定整个国家发展指标的成败：

"我们有一个很大的担忧，那就是在人工智能平台方面，无论是在开发还是使用方面，装备和技能都更强的国家，它们的发展进程可能会更快，而不具备技能和能力的国家则会被甩在后面。"

装饰明亮的舞台上，四个人坐在白色扶手椅上。奥普坐在最右边，对着麦克风讲话。 — *联合国开发计划署首席数字官罗伯特-奥普在印度举行的全球数字公共基础设施峰会（2024 年）上发言。图片来自* *联合国开发计划署数字 X*.

通过将GPT-4o 的成本减半并推出免费层级，OpenAI 向消除人工智能领域最大的问题之一迈出了关键的一步，并直接解决了政策制定者和经济学家所关注的不平等问题。

大型人工智能的积极公关举措比爱好者们想象的更有必要。随着人工智能越来越多地出现在我们的日常生活中，支持者和怀疑者都在问，我们如何才能利用人工智能 "做好事"。

靛蓝色背景上的白色字体。人工智能教育家路易斯-布沙尔（Louis Bouchard）的一段话写道："让人工智能变得平易近人，是利用人工智能'做好事'的一种方式，甚至是最好的方式"。

人工智能博士和教育家路易斯-布沙尔认为，让更多人接触人工智能正是我们实现这一目标的途径："让更多人可以接触到人工智能是利用人工智能'做好事'的一种方式，甚至是最好的方式"。他的理由是什么？如果我们无法完全控制人工智能技术的正面和负面影响--至少在其发展初期是如此--那么我们倒是可以确保平等地获取其潜在的好处。

扩大多式联运的潜力

与企业聊天机器人进行互动的流行方式是通过文本，但OpenAI的新人工智能模型增强了多模态功能，这表明未来这种情况可能会发生变化。

在未来的一年里，我们可能会看到开发者们纷纷推出新的应用程序，充分利用新接入的音频、视觉和视频功能。

例如，由GPT 支持的聊天机器人能够

要求客户提供退货商品的图片，以识别商品并确保商品没有损坏
在实时对话中提供语音翻译，并考虑到特定地区的方言
从牛排在平底锅中的图像判断牛排是否熟透
充当免费的个人导游，根据古老大教堂的图像提供历史背景，提供实时翻译，并提供定制的语音导览，允许来回交流和提问
为语言学习应用程序提供动力，该应用程序可聆听音频输入，根据您的口腔动作视频提供发音反馈，或通过图像和视频教授手语
结合音频和视频解读能力，提供非紧急心理健康支持，实现低成本谈话治疗

有了能解读图像和音频的人工智能模型，我们对LLMs 如何为我们服务的理解正在迅速扩展。

多模态意味着无障碍

我们已经看到增强的多模态功能被用于社会公益事业。OpenAI与 Be My Eyes 的合作就是一个很好的例子。

Be My Eyes 是一家丹麦初创公司，它将视力受损的用户与看得见的志愿者联系起来。当用户需要帮助时，比如在超市挑选合适的罐头或辨别一件 T 恤衫的颜色，该应用程序就会通过智能手机视频将他们与世界各地的视觉志愿者联系起来。

亮蓝色的 "Be My AI "公告，上面写着 "Rolling out out"。右侧是一张智能手机的图片，显示的是一条荒芜的海边小路，并配有人工智能生成的图片说明。 — *Be My Eyes xOpenAI 的合作伙伴关系和产品公告。*

OpenAI新的视觉能力可以为 Be My Eyes 用户提供更有帮助的体验。盲人用户可以将图像或视频转发到他们的设备上，而不是依赖人类志愿者来实时解译图像或视频，模型可以通过音频信息对图像或视频做出响应。

OpenAI 和 Be My Eyes 现在是值得信赖的合作伙伴，它们正在为世界各地的失明人士实现更多独立铺平道路。Be My Eyes 首席执行官迈克尔-巴克利（Michael Buckley）解释了其影响：

"在短短的使用时间内，我们就看到了与任何图像到文本对象识别工具相比都无与伦比的性能。这对全球无障碍环境的影响是深远的。在不远的将来，盲人和低视力群体将利用这些工具不仅满足大量的视觉解读需求，还能在生活中获得更大程度的独立。

三张智能手机使用 Be My Eyes 的图片。其中一张聚焦于各种图案的领带，一张是一位用户拿着一瓶防晒霜对着相机，还有一张是拿着相机展示五颜六色的小房子。 — *Be My Eyes 将视力受损的用户与视力正常的志愿者联系起来，共同完成视觉任务。Be My Eyes 的照片。*

Be My Eyes 可访问GPT-4o

新服务即将于 2024 年夏天首次推出。早期用户已经对新的视觉、视频和音频功能进行了测试，好评如潮。虽然人工智能的影响可能会引起怀疑论者的担忧，但这次合作清楚地表明了人工智能可能带来的积极影响。了解先进的人工智能所带来的社会效益是其公关的关键一步。

我们将如何评判未来的LLM 模型？

随着竞争者继续竞相创造最便宜、最快的LLM ，我们不禁要问：我们将如何评判未来的人工智能模型？

在未来的某个时间点，主要的LLM 创建者（可能是OpenAI 和谷歌）将在其模型的运行速度和提供访问的廉价程度上趋于稳定。一旦我们在成本和速度上达到稳定，我们将如何为市场领先的模式加冕？

什么将成为新的时代标志？无论是人工智能模型的可用个性、视频增强功能、免费用户可用的功能，还是超出我们目前理解范围的全新指标，下一代LLMs 就在我们眼前。

人工智能Chatbots 轻松搞定

如果您的人工智能聊天机器人能自动同步GPT 的每次更新呢？

Botpress LLMs Botpress 聊天机器人可以根据自定义知识源（如您的网站或产品目录）进行训练，并与业务系统无缝集成。

Botpress 是唯一一个从无需代码设置到无尽的可定制性和可扩展性的平台，它允许您在聊天机器人上自动获得最新GPT 版本的强大功能--无需任何努力。

‍今天就开始建设。免费。

构建人工智能Chatbots

构建自定义代理聊天机器人

现在开始

常见问题

1.如何将我现有的聊天机器人切换到Botpress 上的GPT？

要在Botpress 上将现有聊天机器人切换为GPT，请转到Botpress Studio，导航到助手的LLM 设置，然后从可用模型下拉菜单中选择GPT。这一更改会立即生效，无需修改代码。

2.在Botpress 平台上使用GPT 是否有先决条件（如 SDK、API 版本）？

不，在Botpress中使用GPT没有任何先决条件。平台会自动管理所有 SDK、API 更新和后端依赖关系，因此您只需在设置中选择GPT 即可激活。

3.GPT 能否通过Botpress 针对特定业务用例进行微调或定制？

虽然GPT 无法在Botpress 中进行传统意义上的微调，但您可以使用提示工程、工作流程逻辑、知识库和变量来定制其响应和行为。这样，GPT 就能根据您的业务需求进行行为调整，而无需重新培训模型。

4.在Botpress 工作流程中使用多模态功能（语音、视觉）是否有限制？

是的，Botpress 目前通过Twilio 或Dialogflow Voice Gateway 等集成支持语音功能，但还不完全支持处理图像或视频等多模态功能。基于视觉的输入仍在考虑中或需要变通方法。

5.使用GPT 的高级功能（如实时翻译或视觉输入）是否有隐藏费用？

不，在Botpress中使用GPT的高级功能没有任何隐藏费用。GPT的速度和效率优势已包含在您现有的Botpress 计划中，LLM 费用也由Botpress 承担，因此用户不会因为使用GPT的增强功能而产生额外费用。