两倍的速度和一半的价格--GPT-4o对人工智能聊天机器人意味着什么?
继神秘发布之后,OpenAI 又推出了其旗舰机型的最新版本:GPT-4o.
最新机型不仅在多模态功能方面大放异彩。它比GPT-4 Turbo 更快、更便宜。虽然主流媒体对新旗舰机型的视频和语音功能赞不绝口,但对于使用GPT 为应用程序提供动力的用户来说,新的成本和速度同样具有影响力。
"Patrick Hamelin 说:"4o 的可用性能够显著改善建筑商和用户体验。 Botpress."其影响比我们想象的还要深远"。
因此,让我们深入探讨新模式将如何撼动人工智能chatbots 。
模型功能
新的旗舰机型拥有一系列令人兴奋的更新和新功能:增强的语音和视频功能、实时翻译和更多的自然语言能力。它可以分析图像、理解更多种类的音频输入、提供摘要帮助、促进实时翻译和创建图表。用户可以上传文件并进行语音对话。它甚至还配有桌面应用程序。
在一系列发布视频中,OpenAI 员工(以及可汗学院的萨尔-可汗等同事)演示了最新版GPT 为用户准备求职面试、唱歌、通过面部表情识别人类情绪、求解书面数学公式,甚至与另一个ChatGPT-4o 进行互动。
这次发布会展示了一种新的现实,即人工智能模型能够分析孩子笔记本上的文字并做出回应。它可以第一次解释分数加法的概念,根据孩子的理解改变语气和策略--它可以跨越从聊天机器人到私人教师的界限。
GPT-4o 对LLM 聊天机器人意味着什么?
在LLMs 上运行的人工智能聊天机器人每次都会获得更新,比如OpenAI 更新模型。如果聊天机器人连接到Botpress 这样的机器人构建平台,它们就能在自己的聊天机器人中获得最新GPT 模型的所有好处。
随着GPT-4o 的发布,人工智能聊天机器人现在可以选择在高级模型上运行,从而改变其能力、价格和速度。新模式的速率限制比GPT-4 Turbo 高 5 倍,每分钟可处理多达 1000 万个代币。
对于使用音频集成(如Twilio onBotpress )的机器人来说,一个语音交互的新世界已经出现。chatbots 不再局限于过去的音频处理,而是在模仿人类交互方面更进一步。
也许最重要的是降低了付费用户的成本。只需花费一半的成本就能运行一个功能类似的聊天机器人,这将大大提高全球范围内的可访问性和可负担性。Botpress 用户无需为机器人支付额外的人工智能费用,因此这些节省下来的费用将直接用于建设者。
在用户方面,GPT-4o 意味着更好的用户体验。没有人喜欢等待。对于人工智能聊天机器人用户来说,更短的响应时间意味着更高的用户满意度。
用户喜欢速度
采用聊天机器人的一个关键因素是改善用户体验。有什么能比缩短等待时间更能改善用户体验呢?
"肯定会有更好的体验,"哈梅林说。"你最不想做的事就是等待别人"。
人类讨厌等待。甚至早在 2003 年,一项研究就发现,人们只愿意等待大约 2 秒钟来加载网页。从那时起,我们的耐心肯定没有增加。
每个人都讨厌等待
有大量用户体验技巧可以缩短用户感知到的等待时间。我们通常无法提高事件发生的速度,因此我们把重点放在如何让用户感觉时间过得更快上。视觉反馈(如加载条图像)可以缩短感知等待时间。
在一个关于电梯等候时间的著名故事中,纽约的一栋老楼收到了大量投诉。居民们需要等待 1-2 分钟才能等到电梯。大楼无法将电梯升级到更新的型号,居民们威胁要毁约。
一位接受过心理学培训的新员工发现,真正的问题不在于损失的两分钟时间,而在于无聊。他建议安装镜子,这样住户在等待时就可以看看自己或他人。于是,关于电梯的抱怨声停止了,现在,在电梯大厅里看到镜子已经是司空见惯的事了。
OpenAI 没有采取视觉反馈等捷径来提升用户体验,而是从源头上改善了用户体验。速度是用户体验的核心,没有什么技巧能与高效交互带来的满足感相媲美。
为每个人节省开支
使用这种新的人工智能模型来运行应用程序突然变得便宜了。便宜了很多。
大规模运行人工智能聊天机器人会很昂贵。您的机器人由LLM 提供支持,这决定了您在更大规模上为每次用户互动支付多少费用(至少在Botpress ,我们的人工智能支出与LLM 的成本是 1:1)。
这些节省不仅适用于使用 API 的开发人员。ChatGPT-4o 是LLM 的最新免费版本,与GPT-3.5 同时推出。免费用户可以免费使用ChatGPT 应用程序。
更好的标记化
如果您使用不使用罗马字母的语言与模型交互,GPT-4o 甚至可以进一步降低您的应用程序接口成本。
新模式改进了使用限制。它大大提高了标记化效率,主要集中于某些非英语语言。
新的标记化模式在处理输入文本时需要的标记更少。对于逻辑语言(即使用符号和字符而不是单个字母的语言)来说,这种模式的效率要高得多。
这些好处主要集中在不使用罗马字母的语言上。据估计,减少的节余如下:
- 印度语言(如印地语、泰米尔语或古吉拉特语)的词库减少了 2.9 - 4.4 倍
- 阿拉伯语的标记减少了 ~2 倍
- 东亚语言,如汉语、日语和越南语的词库减少了 1.4 - 1.7 倍
缩小人工智能数字鸿沟
数字时代带来了历史悠久、有据可查的贫富差距的延伸--数字鸿沟。正如获得财富和强大的基础设施是某些人群的专利一样,获得人工智能及其带来的机遇和好处也是如此。
联合国开发计划署(UNDP)首席数字官罗伯特-奥普解释说,人工智能平台的存在能够决定整个国家发展指标的成败:
通过将GPT-4o 的成本减半并推出免费层级,OpenAI 向消除人工智能领域最大的问题之一迈出了关键的一步,并直接解决了政策制定者和经济学家所关注的不平等问题。
大型人工智能的积极公关举措比爱好者们想象的更有必要。随着人工智能越来越多地出现在我们的日常生活中,支持者和怀疑者都在问,我们如何才能利用人工智能 "做好事"。
人工智能博士和教育家路易斯-布沙尔认为,让更多人接触人工智能正是我们实现这一目标的途径:"让更多人可以接触到人工智能是利用人工智能'做好事'的一种方式,甚至是最好的方式"。他的理由是什么?如果我们无法完全控制人工智能技术的正面和负面影响--至少在其发展初期是如此--那么我们倒是可以确保平等地获取其潜在的好处。
扩大多式联运的潜力
与企业聊天机器人进行互动的流行方式是通过文本,但OpenAI的新人工智能模型增强了多模态功能,这表明未来这种情况可能会发生变化。
在未来的一年里,我们可能会看到开发者们纷纷推出新的应用程序,充分利用新接入的音频、视觉和视频功能。
例如,由GPT 支持的聊天机器人能够
- 要求客户提供退货商品的图片,以识别商品并确保商品没有损坏
- 在实时对话中提供语音翻译,并考虑到特定地区的方言
- 从牛排在平底锅中的图像判断牛排是否熟透
- 充当免费的个人导游,根据古老大教堂的图像提供历史背景,提供实时翻译,并提供定制的语音导览,允许来回交流和提问
- 为语言学习应用程序提供动力,该应用程序可聆听音频输入,根据您的口腔动作视频提供发音反馈,或通过图像和视频教授手语
- 结合音频和视频解读能力,提供非紧急心理健康支持,实现低成本谈话治疗
有了能解读图像和音频的人工智能模型,我们对LLMs 如何为我们服务的理解正在迅速扩展。
多模态意味着无障碍
我们已经看到增强的多模态功能被用于社会公益事业。OpenAI与 Be My Eyes 的合作就是一个很好的例子。
Be My Eyes 是一家丹麦初创公司,它将视力受损的用户与看得见的志愿者联系起来。当用户需要帮助时,比如在超市挑选合适的罐头或辨别一件 T 恤衫的颜色,该应用程序就会通过智能手机视频将他们与世界各地的视觉志愿者联系起来。
OpenAI新的视觉能力可以为 Be My Eyes 用户提供更有帮助的体验。盲人用户可以将图像或视频转发到他们的设备上,而不是依赖人类志愿者来实时解译图像或视频,模型可以通过音频信息对图像或视频做出响应。
OpenAI 和 Be My Eyes 现在是值得信赖的合作伙伴,它们正在为世界各地的失明人士实现更多独立铺平道路。Be My Eyes 首席执行官迈克尔-巴克利(Michael Buckley)解释了其影响:
新服务即将于 2024 年夏天首次推出。早期用户已经对新的视觉、视频和音频功能进行了测试,好评如潮。虽然人工智能的影响可能会引起怀疑论者的担忧,但这次合作清楚地表明了人工智能可能带来的积极影响。了解先进的人工智能所带来的社会效益是其公关的关键一步。
我们将如何评判未来的LLM 模型?
随着竞争者继续竞相创造最便宜、最快的LLM ,我们不禁要问:我们将如何评判未来的人工智能模型?
在未来的某个时间点,主要的LLM 创建者(可能是OpenAI 和谷歌)将在其模型的运行速度和提供访问的廉价程度上趋于稳定。一旦我们在成本和速度上达到稳定,我们将如何为市场领先的模式加冕?
什么将成为新的时代标志?无论是人工智能模型的可用个性、视频增强功能、免费用户可用的功能,还是超出我们目前理解范围的全新指标,下一代LLMs 就在我们眼前。
人工智能Chatbots 轻松搞定
如果您的人工智能聊天机器人能自动同步GPT 的每次更新呢?
Botpress LLMs Botpress 聊天机器人可以根据自定义知识源(如您的网站或产品目录)进行训练,并与业务系统无缝集成。
Botpress 是唯一一个从无需代码设置到无尽的可定制性和可扩展性的平台,它允许您在聊天机器人上自动获得最新GPT 版本的强大功能--无需任何努力。