Are there hidden costs to using GPT-4o’s advanced features like real-time translation or vision input?

No, no hay costes ocultos por utilizar las funciones avanzadas de GPT en Botpress. Los beneficios de velocidad y eficiencia de GPT están incluidos en su plan Botpress existente, y los costos de LLM están cubiertos por Botpresslos usuarios no incurren en cargos adicionales por el uso de las mejoras de GPT.

¿Qué significa GPT-4o para los chatbots?

Escrito por

Sarah Chudleigh

Investigador y responsable de contenido de IA

Índice

Paso 1. el título del paso va aquí como se esperaba

Resumen

GPT es el doble de rápido y cuesta la mitad que GPT Turbo, lo que reduce drásticamente el precio y acelera los tiempos de respuesta de los chatbots de IA.
El nuevo modelo permite funciones multimodales avanzadas -como voz, vídeo, traducción en tiempo real y visión- que abren a los chatbots casos de uso innovadores más allá del texto.
El aumento de la eficiencia en la tokenización, especialmente en idiomas con alfabeto no romano, supone un importante ahorro de costes para las implantaciones globales de chatbot.
Las mejoras en la velocidad mejoran directamente la experiencia del usuario, reduciendo los tiempos de espera que tradicionalmente frustran a los usuarios de chatbot.

El doble de velocidad y la mitad de precio: ¿qué significa GPT-4o para los chatbots de inteligencia artificial?

Tras su misterioso anuncio, OpenAI lanzó la última versión de su modelo estrella: GPT-4o.

El último modelo no sólo ha recibido una llamativa mejora en sus capacidades multimodales. Es más rápido y barato que GPT Turbo. Aunque la cobertura de los medios de comunicación generalistas está enamorada de las capacidades de vídeo y voz del nuevo modelo insignia de ChatGPTel nuevo coste y la velocidad son igual de importantes para quienes utilizan GPT para sus aplicaciones.

Letras blancas sobre fondo añil. Una cita del jefe de ingeniería de software de Botpress Patrick Hamelin que dice: "La disponibilidad de 4o tiene el poder de mejorar significativamente tanto la experiencia del constructor como la del usuario. El impacto es mayor de lo que pensamos".

"La disponibilidad de 4o tiene el poder de mejorar significativamente tanto la experiencia del constructor como la del usuario", dijo Patrick Hamelin, ingeniero jefe de software en Botpress. "El impacto es más amplio de lo que pensamos".

Veamos cómo el nuevo modelo sacudirá la IA chatbots.

Crea Chatbots de IA

Crea chatbots agénticos personalizados

Empezar ahora

Capacidades del modelo

Saluda a GPT-4o

El nuevo modelo insignia viene con una interesante lista de actualizaciones y nuevas funciones: funciones mejoradas de voz y vídeo, traducción en tiempo real y más capacidades de lenguaje natural. Puede analizar imágenes, comprender una mayor variedad de entradas de audio, proporcionar asistencia para resumir, facilitar la traducción en tiempo real y crear gráficos. Los usuarios pueden cargar archivos y mantener conversaciones de voz a voz. Incluso incluye una aplicación de escritorio.

En su serie de vídeos de lanzamiento, los empleados de OpenAI (y asociados como Sal Khan, de la academia Khan) muestran la última versión de GPT preparando a un usuario para una entrevista de trabajo, cantando, identificando emociones humanas a través de expresiones faciales, resolviendo ecuaciones matemáticas escritas e incluso interactuando con otro ChatGPT-4o.

El lanzamiento ilustró una nueva realidad en la que un modelo de IA es capaz de analizar la escritura en el cuaderno de tu hijo y ser capaz de responder. Podría explicar el concepto de sumar fracciones por primera vez, cambiando el tono y la táctica en función de la comprensión de tu hijo: podría cruzar la línea que separa el chatbot del tutor personal.

Captura de pantalla de un vídeo de demostración de GPT-4o en el que aparecen Sal Khan, creador de Kan Academy , y su hijo. — *Sal Khan, creador de Khan Academy, y su hijo demostrando la capacidad de GPT-4o para impartir clases de geometría.*

¿Qué significa GPT-4o para LLM Chatbots?

Los chatbots de IA que funcionan con LLMs reciben una actualización cada vez que empresas como OpenAI actualizan sus modelos. Si un agenteLLM está conectado a una plataforma de creación de bots como Botpress, recibe todas las ventajas del último modelo GPT en sus propios chatbots.

Con el lanzamiento de GPT-4o, los chatbots de IA ahora pueden optar por ejecutarse en el modelo avanzado, cambiando sus capacidades, precio y velocidad. El nuevo modelo tiene límites de velocidad 5 veces superiores a los de GPT-4 Turbo, con capacidad para procesar hasta 10 millones de tokens por minuto.

Para los bots que utilizan integraciones de audio como Twilio en Botpress, ha surgido un nuevo mundo de interacción potenciada por la voz. En lugar de limitarse al procesamiento de audio de antaño, chatbots está un paso más cerca de imitar la interacción humana.

Quizá lo más importante sea el menor coste para los usuarios de pago. Contar con un chatbot de capacidad similar por la mitad del coste puede aumentar drásticamente el acceso y la asequibilidad en todo el mundo. Además, los usuarios de Botpress no tienen que pagar más por la IA de sus bots, por lo que el ahorro va directamente a los constructores.

Y en el lado del usuario de la ecuación, GPT-4o significa una experiencia de usuario mucho mejor. A nadie le gusta esperar. Tiempos de respuesta más cortos significan mayor satisfacción para los usuarios de chatbot de IA.

*En el estudio Botpress , los usuarios pueden seleccionar diferentes versiones de GPT para las distintas partes del flujo de trabajo de su bot.*

A los usuarios les encanta la velocidad

Un factor clave para la adopción de chatbots es mejorar la experiencia del usuario. Y, ¿qué mejora más la experiencia del usuario que reducir los tiempos de espera?

"Seguro que será una experiencia mejor", afirma Hamelin. "Lo último que quieres es esperar a alguien".

El ser humano odia esperar. Incluso en 2003, un estudio reveló que la gente sólo estaba dispuesta a esperar unos 2 segundos a que se cargara una página web. Nuestra paciencia no ha aumentado desde entonces.

Y todo el mundo odia esperar

Existe una plétora de consejos de UX para reducir el tiempo de espera percibido. A menudo no podemos mejorar la velocidad de los acontecimientos, así que nos centramos en cómo hacer que los usuarios sientan que el tiempo pasa más rápido. La retroalimentación visual, como la imagen de una barra de carga, existe para acortar el tiempo de espera percibido.

En una famosa historia sobre los tiempos de espera de los ascensores, un viejo edificio de Nueva York recibía un aluvión de quejas. Los residentes tenían que esperar 1-2 minutos a que llegara el ascensor. El edificio no podía actualizar el ascensor a un modelo más nuevo y los residentes amenazaban con romper sus contratos de alquiler.

Un nuevo empleado, formado en psicología, se dio cuenta de que el verdadero problema no eran los dos minutos perdidos, sino el aburrimiento. Sugirió instalar espejos para que los residentes pudieran mirarse a sí mismos o a los demás mientras esperaban. Las quejas sobre el ascensor cesaron, y ahora es habitual ver espejos en los vestíbulos de los ascensores.

En lugar de tomar atajos para mejorar la experiencia del usuario -como el feedback visual-, OpenAI ha mejorado la experiencia en su origen. La velocidad es fundamental para la experiencia del usuario, y no hay truco que iguale la satisfacción de una interacción eficiente.

Ahorro para todos

Utilizar este nuevo modelo de IA para ejecutar aplicaciones se ha vuelto de repente más barato. Mucho más barato.

Ejecutar un chatbot de IA a gran escala puede salir caro. La dirección LLM que utiliza tu bot determina cuánto pagarás por cada interacción con el usuario a gran escala (al menos en Botpress, donde comparamos el gasto en IA 1:1 con los costes de LLM ).

Y este ahorro no es sólo para los desarrolladores que utilizan API. ChatGPT-4o es la última versión gratuita de LLM, junto con GPT-3.5. Los usuarios gratuitos pueden utilizar la aplicación ChatGPT sin coste alguno.

Mejor tokenización

Si interactúa con el modelo en un idioma que no utiliza el alfabeto romano, GPT-4o reduce aún más sus costes de API.

Visualización de la eficacia de la tokenización con GPT-4o en comparación con Turbo. Las lenguas indoarias como el hindi y el gujarati tienen una reducción media de tokenización de 2,9-4,4. El árabe tiene una reducción de 2x. El árabe tiene una reducción de 2x y las lenguas de Asia Oriental como el japonés, el coreano y el chino tienen una reducción de 1,4-1,x. — *¿Cuánto más eficaz es la tokenización GPT-4o? Depende del idioma.*

El nuevo modelo viene con límites de uso mejorados. Proporciona un salto significativo en la eficiencia de la tokenización, concentrado en gran medida a ciertos idiomas no ingleses.

El nuevo modelo de tokenización requiere menos tokens para procesar el texto de entrada. Es mucho más eficaz para las lenguas logográficas (es decir, las que utilizan símbolos y caracteres en lugar de letras sueltas).

Estos beneficios se concentran en gran medida en las lenguas que no utilizan el alfabeto romano. Las reducciones de ahorro se han estimado como sigue:

Las lenguas indias, como el hindi, el tamil o el gujarati, tienen una reducción de tokens de 2,9 a 4,4 veces.
El árabe tiene una reducción de ~2x en fichas
Las lenguas de Asia Oriental, como el chino, el japonés y el vietnamita, tienen una reducción de tokens de 1,4 a 1,7 veces.

¿Despliegue de agentes de IA?

Lea nuestro Plan para la implantación de agentes de IA

Leer ahora

Cerrar la brecha digital de la IA

La era digital ha traído consigo una ampliación de la antigua y bien documentada brecha de riqueza: la brecha digital. Al igual que el acceso a la riqueza y a infraestructuras sólidas es exclusivo de determinadas poblaciones, también lo es el acceso a la IA y a las oportunidades y beneficios que la acompañan.

Robert Opp, director digital del Programa de las Naciones Unidas para el Desarrollo (PNUD), explicó que la presencia de plataformas de IA tiene la capacidad de hacer o deshacer las métricas de desarrollo de todo un país:

"Una gran preocupación que tenemos, es que los países que están más equipados y capacitados en plataformas de IA, tanto en términos de desarrollo como de uso, podrían tener un proceso de desarrollo mucho más rápido y los países que no tienen las habilidades y capacidades se van a quedar atrás."

Un escenario decorado con colores vivos y cuatro personas sentadas en sillones blancos. Opp se sienta en el extremo derecho y habla por un micrófono. — *Robert Opp, Oficial Jefe Digital del PNUD, habla en la Cumbre Mundial sobre Infraestructura Pública Digital en la India (2024). Foto de* *PNUD Digital X*.

Al reducir a la mitad el coste de GPT-4o e introducir un nivel gratuito, OpenAI está dando un paso crucial para neutralizar uno de los mayores problemas de la IA y abordar directamente la desigualdad que preocupa a responsables políticos y economistas.

Un movimiento positivo de relaciones públicas para la gran IA es más necesario de lo que los entusiastas podrían pensar. A medida que la IA se ha ido haciendo cada vez más presente en nuestra vida cotidiana, tanto defensores como escépticos se han preguntado cómo podríamos utilizarla "para el bien".

Letras blancas sobre fondo añil. Una cita del educador en IA Louis Bouchard dice "Hacer accesible la IA es una forma, si no la mejor, de usar la IA "para el bien"".

Según el doctor en AI y educador Louis Bouchard, distribuyendo un acceso más amplio a la IA es como podemos hacer exactamente eso: "Hacer accesible la IA es una forma, si no la mejor, de usar la IA 'para el bien'". ¿Su razonamiento? Si no podemos controlar totalmente los efectos positivos y negativos de la tecnología de IA -al menos en sus inicios-, podemos garantizar un acceso equitativo a sus beneficios potenciales.

Potencial multimodal ampliado

La forma más habitual de interactuar con el chatbot de una empresa es a través de texto, pero las capacidades multimodales mejoradas del nuevo modelo de IA de OpenAIsugieren que esto podría cambiar en el futuro.

El año que viene, es probable que veamos una marea de desarrolladores lanzando nuevas aplicaciones que aprovechen al máximo las nuevas funciones de audio, visión y vídeo.

Por ejemplo, los chatbots de GPT podrían ser capaces de:

Pedir a los clientes una imagen del artículo que devuelven para identificar el producto y asegurarse de que no está dañado.
Ofrecer traducción de audio en conversaciones en tiempo real que tengan en cuenta los dialectos específicos de cada región.
Diga si su filete está hecho a partir de una imagen de él en la sartén
Funcionar como un guía turístico personal sin coste alguno, proporcionando contexto histórico basado en una imagen de una catedral antigua, traduciendo en tiempo real y ofreciendo un recorrido de voz personalizado que permite la comunicación y las preguntas.
Potencie una aplicación de aprendizaje de idiomas que escuche la entrada de audio, pueda proporcionar comentarios sobre la pronunciación basándose en un vídeo de los movimientos de su boca, o enseñe el lenguaje de signos a través de imágenes y vídeo.
Proporcionar apoyo de bienestar mental no urgente combinando su capacidad de interpretar audio y vídeos, lo que permite una terapia de conversación de bajo coste.

Con modelos de IA capaces de interpretar imágenes y audio, nuestra comprensión de cómo LLMs puede servirnos se está ampliando rápidamente.

Multimodalidad significa accesibilidad

Ya hemos visto cómo las funciones multimodales mejoradas se han puesto al servicio del bien social. Un ejemplo perfecto es la colaboración deOpenAIcon Be My Eyes.

Be My Eyes es una start-up danesa que pone en contacto a usuarios con problemas de visión con voluntarios videntes. Cuando un usuario necesita ayuda -por ejemplo, para elegir los productos enlatados adecuados en el supermercado o identificar el color de una camiseta-, la aplicación le pone en contacto con un voluntario vidente de todo el mundo a través de un teléfono inteligente.

Un anuncio azul brillante de "Be My AI" en el que se lee "Rolling out out". A la derecha, la imagen de un smartphone que muestra un camino costero desierto con una descripción de la imagen generada por la IA. — *El anuncio de la colaboración y el producto Be My Eyes x OpenAI.*

OpenAIpuede ofrecer una experiencia aún más útil a los usuarios de Be My Eyes. En lugar de depender de un voluntario humano para descifrar visualmente una imagen o un vídeo en tiempo real, los usuarios ciegos pueden transmitir una imagen o un vídeo a su dispositivo al que el modelo puede responder con información de audio.

OpenAI y Be My Eyes, ahora socios de confianza, están allanando el camino hacia una mayor independencia para las personas legalmente ciegas de todo el mundo. Michael Buckley, Director General de Be My Eyes, explica su impacto:

"En el poco tiempo que hemos tenido acceso, hemos observado un rendimiento incomparable al de cualquier herramienta de reconocimiento de objetos de imagen a texto existente. Las implicaciones para la accesibilidad global son profundas. En un futuro no muy lejano, la comunidad de ciegos y deficientes visuales utilizará estas herramientas no sólo para un sinfín de necesidades de interpretación visual, sino también para tener un mayor grado de independencia en sus vidas."

Tres imágenes de teléfonos inteligentes que utilizan Be My Eyes. Una se centra en un conjunto de corbatas estampadas, otra muestra a un usuario acercando a la cámara un bote de crema solar, y otra sostiene la cámara para mostrar pequeñas casas de colores. — *Be My Eyes conecta a usuarios con problemas de visión con voluntarios videntes para realizar tareas visuales. Fotos de Be My Eyes.*

Be My Eyes Accesibilidad con GPT-4o

El nuevo servicio se desplegará pronto, en el verano de 2024, por primera vez. Los usuarios de acceso anticipado han estado probando las nuevas funciones de visión, vídeo y audio con críticas muy favorables. Aunque los efectos de la inteligencia artificial pueden preocupar a los escépticos, esta asociación es una clara señal de los efectos positivos que puede tener. Comprender el bien social que conlleva la IA avanzada es un paso crucial para sus relaciones públicas.

¿Cómo juzgaremos los futuros modelos de LLM ?

Mientras los competidores siguen en una carrera a la baja -para crear el LLM más barato y rápido-, surge la pregunta: ¿cómo juzgaremos los modelos de IA del mañana?

En algún momento del futuro, los principales creadores de LLM (probablemente OpenAI y Google) se estancarán en cuanto a la velocidad a la que pueden funcionar sus modelos y lo barato que pueden ofrecer el acceso. Una vez alcanzada la estabilidad en coste y velocidad, ¿cómo coronaremos al modelo líder del mercado?

¿Qué se convertirá en el nuevo signo de los tiempos? Ya se trate de las personalidades disponibles de su modelo de inteligencia artificial, de las capacidades de mejora del vídeo, de las funciones disponibles para los usuarios gratuitos o de métricas totalmente nuevas que escapan a nuestra comprensión actual, la próxima generación de LLMs está a nuestras puertas.

AI Chatbots Fácil de usar

¿Y si tu chatbot de IA se sincronizara automáticamente con cada actualización de GPT ?

Botpress ha proporcionado soluciones de chatbot de IA personalizables desde 2017, proporcionando a los desarrolladores las herramientas que necesitan para crear fácilmente chatbots con la potencia de la última LLMs. Los chatbots de Botpress pueden entrenarse en fuentes de conocimiento personalizadas -como su sitio web o catálogo de productos- e integrarse perfectamente con los sistemas empresariales.

Botpress , la única plataforma que va desde la configuración sin código hasta la personalización y ampliación infinitas, le permite obtener automáticamente la potencia de la última versión de GPT en su chatbot, sin esfuerzo.

‍Empieza aconstruir hoy mismo. Es gratis.

Crea Chatbots de IA

Crea chatbots agénticos personalizados

Empezar ahora

Preguntas frecuentes

1. ¿Cómo cambio mi chatbot existente a GPT en Botpress?

Para cambiar tu chatbot existente a GPT en Botpress, ve a Botpress Studio, navega hasta la configuración LLM de tu asistente y selecciona GPT en el desplegable de modelos disponibles. El cambio se aplica instantáneamente sin necesidad de modificar el código.

2. ¿Existen requisitos previos para utilizar GPT dentro de la plataforma Botpress (por ejemplo, SDK, versiones de API)?

No, no hay requisitos previos para utilizar GPT en Botpress. La plataforma gestiona todos los SDK, actualizaciones de API y dependencias de backend automáticamente, por lo que solo tienes que seleccionar GPT en la configuración para activarlo.

3. ¿Puede GPT ajustarse o personalizarse para casos de uso empresarial específicos a través de Botpress?

Mientras que GPT no puede ser ajustado en el sentido tradicional dentro de Botpress, puede personalizar sus respuestas y el comportamiento mediante la ingeniería de aviso, la lógica de flujo de trabajo, bases de conocimiento y variables. Esto permite que GPT se comporte contextualmente para las necesidades de su negocio sin necesidad de reentrenar el modelo.

4. ¿Existen limitaciones en el uso de funciones multimodales (voz, visión) en los flujos de trabajo Botpress ?

Sí, Botpress admite actualmente funciones de voz a través de integraciones como Twilio o Dialogflow Voice Gateway, pero las capacidades multimodales como el procesamiento de imágenes o vídeos aún no son totalmente compatibles. La entrada basada en la visión aún está en estudio o requiere soluciones.

5. ¿Existen costes ocultos por utilizar las funciones avanzadas de GPT, como la traducción en tiempo real o la entrada de visión?

No, no hay costes ocultos por utilizar las funciones avanzadas de GPT en Botpress. Los beneficios de velocidad y eficiencia de GPT están incluidos en su plan existente de Botpress , y los costos de LLM están cubiertos por Botpress - por lo que los usuarios no incurren en cargos adicionales por el uso de las mejoras de GPT.