- GPT-4o es el doble de rápido y cuesta la mitad que GPT-4 Turbo, lo que reduce drásticamente el precio y acelera los tiempos de respuesta de los chatbots de IA.
- El nuevo modelo permite capacidades multimodales avanzadas, incluyendo voz, video, traducción en tiempo real y visión, lo que abre casos de uso innovadores para chatbots más allá del texto.
- Las mejoras en la eficiencia de la tokenización, especialmente para idiomas con alfabetos no romanos, suponen un ahorro significativo de costos en el despliegue global de chatbots.
- Las mejoras de velocidad impactan directamente en la experiencia del usuario, reduciendo los tiempos de espera que tradicionalmente frustran a quienes usan chatbots.
El doble de velocidad y la mitad de precio: ¿qué implica GPT-4o para los chatbots de IA?
Tras un misterioso anuncio, OpenAI lanzó la última versión de su modelo principal: GPT-4o.
El nuevo modelo no solo recibió una mejora llamativa en capacidades multimodales. Es más rápido y económico que GPT-4 Turbo. Aunque los medios destacan las funciones de video y voz para ChatGPT, el nuevo precio y velocidad son igual de relevantes para quienes usan GPT en sus aplicaciones.

“La disponibilidad de 4o tiene el poder de mejorar significativamente tanto la experiencia del creador como la del usuario”, dijo Patrick Hamelin, líder de ingeniería de software en Botpress. “El impacto es más amplio de lo que pensamos.”
Veamos cómo este nuevo modelo revolucionará los chatbots de IA.
Capacidades del modelo
El nuevo modelo principal llega con una lista emocionante de novedades y mejoras: capacidades avanzadas de voz y video, traducción en tiempo real, habilidades de lenguaje más naturales. Puede analizar imágenes, comprender una mayor variedad de entradas de audio, ayudar a resumir, facilitar la traducción en tiempo real y crear gráficos. Los usuarios pueden subir archivos y mantener una conversación de voz a voz. Incluso incluye una aplicación de escritorio.
En sus videos de lanzamiento, empleados de OpenAI (y colaboradores como Sal Khan de Khan Academy) muestran la última versión de GPT preparando a un usuario para una entrevista de trabajo, cantando, identificando emociones humanas a través de expresiones faciales, resolviendo ecuaciones matemáticas escritas e incluso interactuando con otro ChatGPT-4o.
El lanzamiento mostró una nueva realidad en la que un modelo de IA es capaz de analizar lo que tu hijo escribe en su cuaderno y responder. Puede explicar por primera vez el concepto de sumar fracciones, cambiando el tono y la estrategia según la comprensión del niño: puede pasar de chatbot a tutor personal.

¿Qué significa GPT-4o para los chatbots LLM?
Los chatbots de IA que funcionan con LLM reciben una actualización cada vez que empresas como OpenAI mejoran sus modelos. Si un agente LLM está conectado a una plataforma de creación de bots como Botpress, obtiene todos los beneficios del último modelo GPT en sus propios chatbots.
Con el lanzamiento de GPT-4o, los chatbots de IA ahora pueden elegir funcionar con el modelo avanzado, cambiando sus capacidades, precio y velocidad. El nuevo modelo tiene límites de uso 5 veces mayores que GPT-4 Turbo, con capacidad para procesar hasta 10 millones de tokens por minuto.
Para los bots que usan integraciones de audio como Twilio en Botpress, surge un nuevo mundo de interacción por voz. En vez de estar limitados al procesamiento de audio tradicional, los chatbots están un paso más cerca de imitar la interacción humana.
Quizás lo más importante es el menor costo para los usuarios de pago. Ejecutar un chatbot con capacidades similares por la mitad del precio puede aumentar drásticamente el acceso y la asequibilidad a nivel mundial. Y los usuarios de Botpress no pagan gastos adicionales de IA en sus bots, así que estos ahorros van directamente a los creadores.
Y para los usuarios, GPT-4o significa una experiencia mucho mejor. A nadie le gusta esperar. Tiempos de respuesta más cortos se traducen en mayor satisfacción para quienes usan chatbots de IA.

A los usuarios les encanta la velocidad
Un principio clave para la adopción de chatbots es mejorar la experiencia del usuario. ¿Y qué mejora más la experiencia que reducir los tiempos de espera?
“Definitivamente será una mejor experiencia”, dijo Hamelin. “Lo último que quieres es esperar a alguien.”
A los humanos no les gusta esperar. Incluso en 2003, un estudio mostró que la gente solo estaba dispuesta a esperar unos 2 segundos para que cargara una página web. Nuestra paciencia no ha aumentado desde entonces.
Y a nadie le gusta esperar
Existen muchos consejos de UX para reducir el tiempo de espera percibido. A menudo no podemos mejorar la velocidad real, así que nos enfocamos en que el usuario sienta que el tiempo pasa más rápido. Retroalimentación visual, como una barra de carga, existe para acortar la espera percibida.
En una historia famosa sobre los tiempos de espera del ascensor, un antiguo edificio de Nueva York recibía muchas quejas. Los residentes debían esperar 1-2 minutos por el ascensor. No podían actualizar el ascensor y los residentes amenazaban con romper sus contratos de alquiler.
Un nuevo empleado, formado en psicología, se dio cuenta de que el verdadero problema no eran los dos minutos perdidos, sino el aburrimiento. Sugirió instalar espejos para que los residentes pudieran mirarse a sí mismos o a otros mientras esperaban. Las quejas cesaron, y ahora es común ver espejos en los vestíbulos de ascensores.
En vez de recurrir a atajos para mejorar la experiencia del usuario, como retroalimentación visual, OpenAI ha mejorado la experiencia en su origen. La velocidad es clave en la experiencia del usuario, y no hay truco que iguale la satisfacción de una interacción eficiente.
Ahorros para todos
Usar este nuevo modelo de IA para ejecutar aplicaciones de repente se volvió más barato. Mucho más barato.
Ejecutar un chatbot de IA a gran escala puede ser costoso. El LLM que impulsa tu bot determina cuánto pagarás por cada interacción de usuario cuando operas a gran escala (al menos en Botpress, donde igualamos el gasto en IA con el costo del LLM).
Y estos ahorros no son solo para desarrolladores que usan la API. ChatGPT-4o es la última versión gratuita del LLM, junto con GPT-3.5. Los usuarios gratuitos pueden usar la app de ChatGPT sin costo.
Mejor tokenización
Si interactúas con el modelo en un idioma que no usa el alfabeto romano, GPT-4o reduce aún más tus costos de API.

El nuevo modelo tiene límites de uso mejorados. Ofrece un gran salto en eficiencia de tokenización, especialmente en ciertos idiomas no ingleses.
El nuevo modelo de tokenización requiere menos tokens para procesar el texto de entrada. Es mucho más eficiente para lenguas logográficas (es decir, aquellas que usan símbolos y caracteres en vez de letras individuales).
Estos beneficios se concentran principalmente en idiomas que no usan el alfabeto romano. Las reducciones estimadas son las siguientes:
- Idiomas indios, como hindi, tamil o gujarati, tienen una reducción de entre 2,9 y 4,4 veces en tokens
- El árabe tiene una reducción de aproximadamente 2 veces en tokens
- Idiomas de Asia oriental, como chino, japonés y vietnamita, tienen una reducción de entre 1,4 y 1,7 veces en tokens
Cerrando la brecha digital de la IA
La era digital ha traído consigo una extensión de la antigua y bien documentada brecha de riqueza: la brecha digital. Así como el acceso a la riqueza y a una infraestructura sólida es exclusivo de ciertas poblaciones, también lo es el acceso a la IA y a las oportunidades y beneficios que conlleva.
Robert Opp, Director Digital del Programa de las Naciones Unidas para el Desarrollo (PNUD), explicó que la presencia de plataformas de IA puede determinar el éxito o fracaso de los indicadores de desarrollo de un país:

Al reducir a la mitad el costo de GPT-4o e introducir una versión gratuita, OpenAI da un paso clave para neutralizar uno de los mayores problemas de la IA y abordar directamente la desigualdad que preocupa a responsables políticos y economistas.
Un movimiento positivo de relaciones públicas para la gran IA es más necesario de lo que muchos entusiastas creen. A medida que la IA se vuelve cada vez más presente en nuestra vida diaria, tanto defensores como escépticos se preguntan cómo podemos usar la IA para el bien.

Según el doctor en IA y educador Louis Bouchard, ampliar el acceso a la IA es precisamente cómo logramos ese objetivo: “Hacer que la IA sea accesible es una forma, si no la mejor, de usar la IA para el bien.” ¿Su argumento? Si no podemos controlar completamente los efectos positivos y negativos de la tecnología de IA —al menos en sus primeras etapas—, sí podemos asegurar que sus beneficios estén al alcance de todos.
Potencial multimodal ampliado
La forma más común de interactuar con el chatbot de una empresa es mediante texto, pero las capacidades multimodales mejoradas del nuevo modelo de IA de OpenAI sugieren que esto podría cambiar pronto.
En el próximo año, probablemente veremos una oleada de desarrolladores lanzando nuevas aplicaciones que aprovechen las funciones de audio, visión y video ahora disponibles.
Por ejemplo, los chatbots impulsados por GPT podrían ser capaces de:
- Pedir a los clientes una foto del artículo que desean devolver para identificar el producto y comprobar que no esté dañado
- Ofrecer traducción de audio en tiempo real durante una conversación, teniendo en cuenta los dialectos regionales
- Decir si tu filete está en su punto a partir de una imagen en la sartén
- Servir como guía turístico personal sin coste, proporcionando contexto histórico a partir de una imagen de una catedral antigua, ofreciendo traducción en tiempo real y un recorrido personalizado por voz que permita comunicación bidireccional y preguntas
- Impulsar una aplicación para aprender idiomas que escuche el audio del usuario, dé retroalimentación sobre la pronunciación mediante un video de los movimientos de la boca, o enseñe lengua de señas a través de imágenes y videos
- Ofrecer apoyo para el bienestar mental no urgente combinando la interpretación de audio y video, permitiendo sesiones de conversación a bajo costo
Con modelos de IA capaces de interpretar imágenes y audio, nuestra comprensión de cómo los LLM pueden ayudarnos está creciendo rápidamente.
La multimodalidad es sinónimo de accesibilidad
Ya hemos visto cómo las funciones multimodales mejoradas pueden tener un impacto social positivo. Un ejemplo perfecto es la colaboración de OpenAI con Be My Eyes.
Be My Eyes es una start-up danesa que conecta a personas con discapacidad visual con voluntarios videntes. Cuando un usuario necesita ayuda —como elegir la lata correcta en el supermercado o identificar el color de una camiseta—, la app lo conecta por video con un voluntario en cualquier parte del mundo a través del smartphone.

La nueva capacidad de visión de OpenAI puede ofrecer una experiencia aún más útil para los usuarios de Be My Eyes. En vez de depender de un voluntario humano para interpretar imágenes o videos en tiempo real, los usuarios ciegos pueden enviar una imagen o video a su dispositivo y el modelo responde con información en audio.
OpenAI y Be My Eyes, ahora socios de confianza, están abriendo el camino hacia una mayor independencia para personas legalmente ciegas en todo el mundo. El CEO de Be My Eyes, Michael Buckley, explica su impacto:

El nuevo servicio se lanzará pronto, en el verano de 2024, por primera vez. Los usuarios con acceso anticipado han estado probando las nuevas funciones de visión, video y audio con excelentes comentarios. Aunque los efectos de la IA pueden generar dudas entre los escépticos, esta colaboración es una clara muestra del impacto positivo que puede tener. Comprender el beneficio social de la IA avanzada es clave para su imagen pública.
¿Cómo evaluaremos los futuros modelos LLM?
A medida que los competidores siguen compitiendo por crear el LLM más rápido y económico, surge la pregunta: ¿cómo evaluaremos los modelos de IA del futuro?
En algún momento, los principales creadores de LLM (probablemente OpenAI y Google) alcanzarán un límite en la velocidad de sus modelos y en el costo de acceso. Cuando lleguemos a esa estabilidad en precio y velocidad, ¿cómo determinaremos cuál es el modelo líder del mercado?
¿Cuál será el nuevo indicador de la época? Ya sea la variedad de personalidades disponibles en tu modelo de inteligencia artificial, las capacidades de mejora de video, las funciones para usuarios gratuitos o métricas completamente nuevas, la próxima generación de LLM está a la vuelta de la esquina.
Chatbots de IA fáciles de usar
¿Y si tu chatbot de IA se sincronizara automáticamente con cada actualización de GPT?
Desde 2017, Botpress ofrece soluciones personalizables de chatbots de IA, brindando a los desarrolladores las herramientas necesarias para crear chatbots fácilmente con el poder de los LLM más recientes. Los chatbots de Botpress pueden entrenarse con fuentes de conocimiento personalizadas —como tu sitio web o catálogo de productos— e integrarse sin problemas con los sistemas empresariales.
La única plataforma que abarca desde la configuración sin código hasta la personalización y ampliación ilimitadas, Botpress te permite aprovechar automáticamente la última versión de GPT en tu chatbot, sin esfuerzo adicional.
Empieza a construir hoy. Es gratis.
Preguntas frecuentes
1. ¿Cómo cambio mi chatbot actual a GPT-4o en Botpress?
Para cambiar tu chatbot actual a GPT-4o en Botpress, accede a Botpress Studio, ve a la configuración LLM de tu asistente y selecciona GPT-4o en el menú de modelos disponibles. El cambio se aplica al instante, sin necesidad de modificar el código.
2. ¿Existen requisitos previos para usar GPT-4o dentro de la plataforma Botpress (por ejemplo, SDKs, versiones de API)?
No, no hay requisitos previos para usar GPT-4o en Botpress. La plataforma gestiona automáticamente todos los SDK, actualizaciones de API y dependencias del backend, así que solo tienes que seleccionar GPT-4o en la configuración para activarlo.
3. ¿Se puede ajustar o personalizar GPT-4o para casos de uso empresariales específicos a través de Botpress?
Aunque GPT-4o no puede personalizarse mediante ajuste fino tradicional en Botpress, sí puedes adaptar sus respuestas y comportamiento usando ingeniería de prompts, lógica de flujos, bases de conocimiento y variables. Esto permite que GPT-4o se adapte al contexto de tu negocio sin necesidad de reentrenar el modelo.
4. ¿Existen limitaciones en el uso de funciones multimodales (voz, visión) dentro de los flujos de trabajo de Botpress?
Sí, actualmente Botpress admite funciones de voz mediante integraciones como Twilio o Dialogflow Voice Gateway, pero las capacidades multimodales como el procesamiento de imágenes o videos aún no están totalmente soportadas. El ingreso de datos por visión sigue en evaluación o requiere soluciones alternativas.
5. ¿Hay costos ocultos al utilizar funciones avanzadas de GPT-4o como la traducción en tiempo real o la entrada por visión?
No, no hay costos ocultos al usar las funciones avanzadas de GPT-4o en Botpress. Las ventajas de velocidad y eficiencia de GPT-4o están incluidas en tu plan actual de Botpress, y los costos de LLM los cubre Botpress, por lo que los usuarios no pagan tarifas adicionales por las mejoras de GPT-4o.





.webp)
