El doble de velocidad y la mitad de precio: ¿qué significa GPT-4o para los chatbots de inteligencia artificial?
Tras su misterioso anuncio, OpenAI lanzó la última versión de su modelo estrella: GPT-4o.
El último modelo no sólo ha recibido una llamativa mejora en sus capacidades multimodales. Es más rápido y barato que GPT-4 Turbo. Aunque los principales medios de comunicación están encantados con las capacidades de vídeo y voz del nuevo modelo insignia, el nuevo coste y la nueva velocidad tienen el mismo impacto para quienes utilizan GPT para impulsar sus aplicaciones.
"La disponibilidad de 4o tiene el poder de mejorar significativamente tanto la experiencia del constructor como la del usuario", dijo Patrick Hamelin, ingeniero jefe de software en Botpress. "El impacto es más amplio de lo que pensamos".
Veamos cómo el nuevo modelo sacudirá la IA chatbots.
Capacidades del modelo
El nuevo modelo insignia viene con una interesante lista de actualizaciones y nuevas funciones: funciones mejoradas de voz y vídeo, traducción en tiempo real y más capacidades de lenguaje natural. Puede analizar imágenes, comprender una mayor variedad de entradas de audio, proporcionar asistencia para resumir, facilitar la traducción en tiempo real y crear gráficos. Los usuarios pueden cargar archivos y mantener conversaciones de voz a voz. Incluso incluye una aplicación de escritorio.
En su serie de vídeos de lanzamiento, los empleados de OpenAI (y asociados como Sal Khan, de la academia Khan) muestran la última versión de GPT preparando a un usuario para una entrevista de trabajo, cantando, identificando emociones humanas a través de expresiones faciales, resolviendo ecuaciones matemáticas escritas e incluso interactuando con otro ChatGPT-4o.
El lanzamiento ilustró una nueva realidad en la que un modelo de IA es capaz de analizar la escritura en el cuaderno de tu hijo y ser capaz de responder. Podría explicar el concepto de sumar fracciones por primera vez, cambiando el tono y la táctica en función de la comprensión de tu hijo: podría cruzar la línea que separa el chatbot del tutor personal.
¿Qué significa GPT-4o para LLM Chatbots?
Los chatbots de IA que funcionan con LLMs reciben una actualización cada vez que empresas como OpenAI actualizan sus modelos. Si un chatbot está conectado a una plataforma de creación de bots como Botpress, recibe todas las ventajas del último modelo GPT en sus propios chatbots.
Con el lanzamiento de GPT-4o, los chatbots de IA ahora pueden optar por ejecutarse en el modelo avanzado, cambiando sus capacidades, precio y velocidad. El nuevo modelo tiene límites de velocidad 5 veces superiores a los de GPT-4 Turbo, con capacidad para procesar hasta 10 millones de tokens por minuto.
Para los bots que utilizan integraciones de audio como Twilio en Botpress, ha surgido un nuevo mundo de interacción potenciada por la voz. En lugar de limitarse al procesamiento de audio de antaño, chatbots está un paso más cerca de imitar la interacción humana.
Quizá lo más importante sea el menor coste para los usuarios de pago. Contar con un chatbot de capacidad similar por la mitad del coste puede aumentar drásticamente el acceso y la asequibilidad en todo el mundo. Además, los usuarios de Botpress no tienen que pagar más por la IA de sus bots, por lo que el ahorro va directamente a los constructores.
Y en el lado del usuario de la ecuación, GPT-4o significa una experiencia de usuario mucho mejor. A nadie le gusta esperar. Tiempos de respuesta más cortos significan mayor satisfacción para los usuarios de chatbot de IA.
A los usuarios les encanta la velocidad
Un factor clave para la adopción de chatbots es mejorar la experiencia del usuario. Y, ¿qué mejora más la experiencia del usuario que reducir los tiempos de espera?
"Seguro que será una experiencia mejor", afirma Hamelin. "Lo último que quieres es esperar a alguien".
El ser humano odia esperar. Incluso en 2003, un estudio reveló que la gente sólo estaba dispuesta a esperar unos 2 segundos a que se cargara una página web. Nuestra paciencia no ha aumentado desde entonces.
Y todo el mundo odia esperar
Existe una plétora de consejos de UX para reducir el tiempo de espera percibido. A menudo no podemos mejorar la velocidad de los acontecimientos, así que nos centramos en cómo hacer que los usuarios sientan que el tiempo pasa más rápido. La retroalimentación visual, como la imagen de una barra de carga, existe para acortar el tiempo de espera percibido.
En una famosa historia sobre los tiempos de espera de los ascensores, un viejo edificio de Nueva York recibía un aluvión de quejas. Los residentes tenían que esperar 1-2 minutos a que llegara el ascensor. El edificio no podía actualizar el ascensor a un modelo más nuevo y los residentes amenazaban con romper sus contratos de alquiler.
Un nuevo empleado, formado en psicología, se dio cuenta de que el verdadero problema no eran los dos minutos perdidos, sino el aburrimiento. Sugirió instalar espejos para que los residentes pudieran mirarse a sí mismos o a los demás mientras esperaban. Las quejas sobre el ascensor cesaron, y ahora es habitual ver espejos en los vestíbulos de los ascensores.
En lugar de tomar atajos para mejorar la experiencia del usuario -como el feedback visual-, OpenAI ha mejorado la experiencia en su origen. La velocidad es fundamental para la experiencia del usuario, y no hay truco que iguale la satisfacción de una interacción eficiente.
Ahorro para todos
Utilizar este nuevo modelo de IA para ejecutar aplicaciones se ha vuelto de repente más barato. Mucho más barato.
Ejecutar un chatbot de IA a gran escala puede salir caro. La dirección LLM que utiliza tu bot determina cuánto pagarás por cada interacción con el usuario a gran escala (al menos en Botpress, donde comparamos el gasto en IA 1:1 con los costes de LLM ).
Y este ahorro no es sólo para los desarrolladores que utilizan API. ChatGPT-4o es la última versión gratuita de LLM, junto con GPT-3.5. Los usuarios gratuitos pueden utilizar la aplicación ChatGPT sin coste alguno.
Mejor tokenización
Si interactúa con el modelo en un idioma que no utiliza el alfabeto romano, GPT-4o reduce aún más sus costes de API.
El nuevo modelo viene con límites de uso mejorados. Proporciona un salto significativo en la eficiencia de la tokenización, concentrado en gran medida a ciertos idiomas no ingleses.
El nuevo modelo de tokenización requiere menos tokens para procesar el texto de entrada. Es mucho más eficaz para las lenguas logográficas (es decir, las que utilizan símbolos y caracteres en lugar de letras sueltas).
Estos beneficios se concentran en gran medida en las lenguas que no utilizan el alfabeto romano. Las reducciones de ahorro se han estimado como sigue:
- Las lenguas indias, como el hindi, el tamil o el gujarati, tienen una reducción de tokens de 2,9 a 4,4 veces.
- El árabe tiene una reducción de ~2x en fichas
- Las lenguas de Asia Oriental, como el chino, el japonés y el vietnamita, tienen una reducción de tokens de 1,4 a 1,7 veces.
Cerrar la brecha digital de la IA
La era digital ha traído consigo una ampliación de la antigua y bien documentada brecha de riqueza: la brecha digital. Al igual que el acceso a la riqueza y a infraestructuras sólidas es exclusivo de determinadas poblaciones, también lo es el acceso a la IA y a las oportunidades y beneficios que la acompañan.
Robert Opp, director digital del Programa de las Naciones Unidas para el Desarrollo (PNUD), explicó que la presencia de plataformas de IA tiene la capacidad de hacer o deshacer las métricas de desarrollo de todo un país:
Al reducir a la mitad el coste de GPT-4o e introducir un nivel gratuito, OpenAI está dando un paso crucial para neutralizar uno de los mayores problemas de la IA y abordar directamente la desigualdad que preocupa a responsables políticos y economistas.
Un movimiento positivo de relaciones públicas para la gran IA es más necesario de lo que los entusiastas podrían pensar. A medida que la IA se ha ido haciendo cada vez más presente en nuestra vida cotidiana, tanto defensores como escépticos se han preguntado cómo podríamos utilizarla "para el bien".
Según el doctor en AI y educador Louis Bouchard, distribuyendo un acceso más amplio a la IA es como podemos hacer exactamente eso: "Hacer accesible la IA es una forma, si no la mejor, de usar la IA 'para el bien'". ¿Su razonamiento? Si no podemos controlar totalmente los efectos positivos y negativos de la tecnología de IA -al menos en sus inicios-, podemos garantizar un acceso equitativo a sus beneficios potenciales.
Potencial multimodal ampliado
La forma más habitual de interactuar con el chatbot de una empresa es a través de texto, pero las capacidades multimodales mejoradas del nuevo modelo de IA de OpenAIsugieren que esto podría cambiar en el futuro.
El año que viene, es probable que veamos una marea de desarrolladores lanzando nuevas aplicaciones que aprovechen al máximo las nuevas funciones de audio, visión y vídeo.
Por ejemplo, los chatbots de GPT podrían ser capaces de:
- Pedir a los clientes una imagen del artículo que devuelven para identificar el producto y asegurarse de que no está dañado.
- Ofrecer traducción de audio en conversaciones en tiempo real que tengan en cuenta los dialectos específicos de cada región.
- Diga si su filete está hecho a partir de una imagen de él en la sartén
- Funcionar como un guía turístico personal sin coste alguno, proporcionando contexto histórico basado en una imagen de una catedral antigua, traduciendo en tiempo real y ofreciendo un recorrido de voz personalizado que permite la comunicación y las preguntas.
- Potencie una aplicación de aprendizaje de idiomas que escuche la entrada de audio, pueda proporcionar comentarios sobre la pronunciación basándose en un vídeo de los movimientos de su boca, o enseñe el lenguaje de signos a través de imágenes y vídeo.
- Proporcionar apoyo de bienestar mental no urgente combinando su capacidad de interpretar audio y vídeos, lo que permite una terapia de conversación de bajo coste.
Con modelos de IA capaces de interpretar imágenes y audio, nuestra comprensión de cómo LLMs puede servirnos se está ampliando rápidamente.
Multimodalidad significa accesibilidad
Ya hemos visto cómo las funciones multimodales mejoradas se han puesto al servicio del bien social. Un ejemplo perfecto es la colaboración deOpenAIcon Be My Eyes.
Be My Eyes es una start-up danesa que pone en contacto a usuarios con problemas de visión con voluntarios videntes. Cuando un usuario necesita ayuda -por ejemplo, para elegir los productos enlatados adecuados en el supermercado o identificar el color de una camiseta-, la aplicación le pone en contacto con un voluntario vidente de todo el mundo a través de un teléfono inteligente.
OpenAIpuede ofrecer una experiencia aún más útil a los usuarios de Be My Eyes. En lugar de depender de un voluntario humano para descifrar visualmente una imagen o un vídeo en tiempo real, los usuarios ciegos pueden transmitir una imagen o un vídeo a su dispositivo al que el modelo puede responder con información de audio.
OpenAI y Be My Eyes, ahora socios de confianza, están allanando el camino hacia una mayor independencia para las personas legalmente ciegas de todo el mundo. Michael Buckley, Director General de Be My Eyes, explica su impacto:
El nuevo servicio se desplegará pronto, en el verano de 2024, por primera vez. Los usuarios de acceso anticipado han estado probando las nuevas funciones de visión, vídeo y audio con críticas muy favorables. Aunque los efectos de la inteligencia artificial pueden preocupar a los escépticos, esta asociación es una clara señal de los efectos positivos que puede tener. Comprender el bien social que conlleva la IA avanzada es un paso crucial para sus relaciones públicas.
¿Cómo juzgaremos los futuros modelos de LLM ?
Mientras los competidores siguen en una carrera a la baja -para crear el LLM más barato y rápido-, surge la pregunta: ¿cómo juzgaremos los modelos de IA del mañana?
En algún momento del futuro, los principales creadores de LLM (probablemente OpenAI y Google) se estancarán en cuanto a la velocidad a la que pueden funcionar sus modelos y lo barato que pueden ofrecer el acceso. Una vez alcanzada la estabilidad en coste y velocidad, ¿cómo coronaremos al modelo líder del mercado?
¿Qué se convertirá en el nuevo signo de los tiempos? Ya se trate de las personalidades disponibles de su modelo de inteligencia artificial, de las capacidades de mejora del vídeo, de las funciones disponibles para los usuarios gratuitos o de métricas totalmente nuevas que escapan a nuestra comprensión actual, la próxima generación de LLMs está a nuestras puertas.
AI Chatbots Fácil de usar
¿Y si tu chatbot de IA se sincronizara automáticamente con cada actualización de GPT ?
Botpress ha proporcionado soluciones de chatbot de IA personalizables desde 2017, proporcionando a los desarrolladores las herramientas que necesitan para crear fácilmente chatbots con la potencia de la última LLMs. Los chatbots de Botpress pueden entrenarse en fuentes de conocimiento personalizadas -como su sitio web o catálogo de productos- e integrarse perfectamente con los sistemas empresariales.
Botpress , la única plataforma que va desde la configuración sin código hasta la personalización y ampliación infinitas, le permite obtener automáticamente la potencia de la última versión de GPT en su chatbot, sin esfuerzo.
Empieza aconstruir hoy mismo. Es gratis.
Índice
Manténgase al día sobre lo último en agentes de IA
Comparte esto en: