LLMs están transformando la forma de crear soluciones de IA. Cada vez aparecen modelos más nuevos y mejores.
Una pregunta que me hacen a menudo es por qué alguien debería optar por un LLM personalizado en lugar de una solución ya hecha.
Si está trabajando en un proyecto de IA, como la creación de un agente de IA o un chatbot de IA, puede optar por utilizar un gran modelo de lenguaje personalizado (LLM).
Hay muchas razones para utilizar un LLM personalizado, y muchas opciones a tu disposición. En este artículo, te guiaré a través de las diferentes formas de personalizar un LLM para proyectos de IA.
¿Por qué utilizar un sitio LLM personalizado?
Hay varias razones para utilizar un sitio web personalizado LLM:
- Quiere reducir costes centrándose en una tarea concreta que es importante para su caso de uso empresarial, o minimizar la latencia.
- Puede que quiera mantener todos los datos en privado, o utilizar el sitio web interno de su empresa LLM.
- Es posible que desee mejorar la calidad de las respuestas para una tarea concreta.
Sea cual sea el motivo, la personalización de su LLM le permite optimizar el rendimiento, equilibrando la precisión, la velocidad y el coste para adaptarse a las necesidades de su empresa.
Elegir un LLM
LLMs tienen dos cualidades que influyen en los proyectos de IA: su tamaño (medido por el número de parámetros) y la calidad de las respuestas.
Se puede pensar en los parámetros como en las neuronas de un cerebro. Un cerebro más grande suele estar relacionado con la inteligencia, pero no siempre es así. Y algunas partes del cerebro pueden estar muy optimizadas para determinadas tareas, como la visión.
En los proyectos de IA, el tamaño suele afectar a la velocidad de respuesta, y afecta mucho al coste de las respuestas. Los proyectos que requieren baja latencia suelen utilizar modelos más pequeños, pero a costa de la calidad de las respuestas.
Qué preguntar al elegir un modelo
Aquí tienes una buena lista de preguntas a las que debes responder cuando elijas un modelo:
- ¿Puedo utilizar un sitio LLM basado en la nube o tengo que alojar uno yo mismo?
- ¿Cómo de rápidas necesito que sean las respuestas?
- ¿Qué grado de precisión necesito en las respuestas?
- ¿Cuánto dinero ahorrará o generará mi proyecto? Entonces, ¿por debajo de qué precio debería situarse?
- ¿Cuánto tiempo necesito que duren mis respuestas?
En general, es difícil acelerar un modelo potente o reducir sus costes, y es más fácil mejorar un modelo menos preciso.
Sin embargo, es mucho más rápido empezar con un modelo potente y, si satisface las necesidades de su proyecto, puede que no necesite tanto esfuerzo de ingeniería (además, es más fácil de mantener).
Elegir entre RAG, Ajuste, Aprendizaje N-Shot e Ingeniería Prompt
Hay cinco conceptos generales que mejoran la calidad de las respuestas de LLM :
- A partir de un modelo preentrenado
- RAG
- Ajuste fino
- N-shot prompting
- Ingeniería rápida
No son específicos del uso de modelos personalizados, pero deberías tenerlos en cuenta, ya que van de la mano.
A partir de un modelo
Lo primero que debes hacer es elegir un modelo inicial. Hay un montón de tablas de clasificación en línea que comparan los diferentes modelos.
Por ejemplo:
- Hugging Face mantiene una clasificación de modelos de código abierto.
- Vellum tiene una excelente para los modelos más populares.
Si su empresa dispone de un modelo interno, considere la posibilidad de utilizarlo para ajustarse a su presupuesto y mantener la privacidad de los datos. Si necesita alojar el modelo usted mismo, considere un modelo de código abierto.
Puesta a punto
El perfeccionamiento consiste en dar ejemplos al modelo para que aprenda a hacer bien una determinada tarea. Si quiere que destaque hablando de su producto, puede proporcionarle una serie de ejemplos de las mejores llamadas de ventas de su empresa.
Si el modelo es de código abierto, pregúntese si su equipo tiene suficiente capacidad de ingeniería para afinar un modelo.
Si el modelo es de código cerrado y se ofrece como un servicio - GPT-4 o Claude -, normalmente puede hacer que sus ingenieros ajusten los modelos personalizados mediante API. El precio suele aumentar sustancialmente con este método, pero el mantenimiento es escaso o nulo.
Pero para muchos casos de uso, el ajuste fino no es el primer paso hacia la optimización de su modelo.
Un gran caso para el ajuste fino es la construcción de un robot de conocimiento para el conocimiento estático. Al dar ejemplos de preguntas y respuestas, debería ser capaz de responderlas en el futuro sin tener que buscar la respuesta. Pero no es una solución práctica para la información en tiempo real.
Generación mejorada por recuperación
RAG es un nombre elegante para una cosa sencilla que todos hemos hecho en ChatGPT: pegar un texto en ChatGPT y hacer una pregunta sobre él.
Un ejemplo típico es preguntar si un determinado producto está en stock en un sitio de comercio electrónico, y que un chatbot busque la información en un catálogo de productos (en lugar de en Internet).
En términos de velocidad de desarrollo y obtención de información en tiempo real, RAG es imprescindible.
No suele afectar al modelo que elija, sin embargo nada le impide crear un punto final de la API LLM que consulte información y respuestas y utilizar este punto final como si fuera su propio LLM.
Utilizar RAG para un chatbot basado en el conocimiento suele ser más fácil de mantener, ya que no es necesario ajustar un modelo y mantenerlo actualizado, lo que también puede reducir costes.
Aprendizaje N-shot
La forma más rápida de empezar a mejorar la calidad de las respuestas es proporcionar ejemplos en una única llamada a la API LLM .
La mayoría de nosotros utilizamos ChatGPT para dar cero ejemplos de lo que buscamos en una respuesta. Añadir un ejemplo (o one-shot) suele bastar para ver una mejora sustancial en la calidad de la respuesta.
Más de un ejemplo se considera n-shot. N-shot no cambia el modelo, a diferencia del ajuste fino. Simplemente estás dando ejemplos justo antes de pedir una respuesta, cada vez que haces una pregunta.
Pero no se puede abusar de esta estrategia: los modelos de LLM tienen un tamaño máximo de contexto y su precio depende del tamaño del mensaje. El ajuste fino puede eliminar la necesidad de ejemplos n-shot, pero lleva más tiempo hacerlo bien.
Otras técnicas de ingeniería rápida
Existen otras técnicas de ingeniería de avisos, como la cadena de pensamiento, que obligan a los modelos a pensar en voz alta antes de dar con una respuesta.
Esto aumenta la calidad de la respuesta, pero a costa de la duración, el coste y la rapidez de la misma.
Mi recomendación
Aunque cada proyecto tendrá sus propias necesidades, voy a dar mi opinión sobre un enfoque sólido.
Un buen punto de partida es utilizar un modelo estándar que equilibre velocidad y calidad, como GPT-4o Mini. Empieza por fijarte en la calidad de las respuestas, la velocidad de respuesta, el coste, las necesidades de la ventana contextual y decide qué hay que mejorar a partir de ahí.
A continuación, con un caso de uso limitado, puedes probar la ingeniería de avisos sencilla, seguida de la RAG y, por último, el ajuste fino. Todos los modelos que pasen por estos procesos mejorarán su rendimiento, por lo que puede resultar complicado decidir qué utilizar.
Consideraciones sobre privacidad
En un mundo ideal, cada LLM estaría 100% bajo tu propio control, y nada quedaría expuesto en ninguna parte.
Por desgracia, esto no es lo que observamos en la práctica, y por muy buenas razones.
La primera es sencilla: requiere ingeniería para alojar y mantener un modelo personalizado, lo que es muy costoso. Cuando el modelo alojado experimenta un tiempo de inactividad, las métricas de negocio se ven afectadas, por lo que el despliegue debe ser muy robusto.
Otra razón es que los líderes del sector -como OpenAI, Google y Anthropic- lanzan constantemente modelos más nuevos, más capaces y más baratos que hacen superfluo cualquier trabajo de puesta a punto. Esto es así desde el lanzamiento de ChatGPT 3.5 y no parece que vaya a cambiar.
Si su caso de uso tiene datos extremadamente sensibles, tiene sentido utilizar un modelo y optimizarlo para su caso de uso. Si el GDPR es una prioridad, hay muchos modelos disponibles que cumplen con el GDPR.
Edificio después de seleccionar su LLM
Una vez que hayas seleccionado LLM, puedes empezar a averiguar cómo construirás y mantendrás tu proyecto de IA. Como ejemplo, tomaré el tipo de proyecto con el que estoy más familiarizado: un agente de IA o chatbot de IA.
Puede responder a las siguientes preguntas para delimitar el alcance de su proyecto:
- ¿Dónde me gustaría que viviera mi agente de IA? (Slack, WhatsApp, un widget de sitio web, etc.)
- ¿Qué conocimientos debe tener, dónde están esos conocimientos?
- ¿Qué otras funciones debería tener, aparte de la de responder a preguntas sobre conocimientos?
- ¿Debe activarse cuando ocurre algo en alguna parte de la empresa?
Descargar la ingeniería para ahorrar dinero
Mantener un presupuesto ajustado es fundamental para hacer realidad su proyecto. Una de las formas de conseguirlo es reducir el tiempo de ingeniería disociando los requisitos.
Hoy en día tenemos acceso a soluciones de bajo código como Flutterflow, Shopify, que pueden ser utilizadas por roles tradicionalmente no técnicos como los Product Managers. Los chatbots no son una excepción, y algunas plataformas de automatización de IA incluso te permiten utilizar tu propio LLM.
Puede encargar a los ingenieros que se centren en alojar el sitio LLM y en la configuración con la plataforma de automatización. De este modo, los analistas de negocio, los gestores de productos y otras funciones relacionadas quedan libres para crear agentes de IA que satisfagan los requisitos empresariales.
Cuando se necesita algo adicional, estas plataformas suelen tener una forma de que los ingenieros añadan algo de código. De este modo, se mantienen las ventajas de un modelo personalizado y se gana en flexibilidad, rapidez y asequibilidad.
Proporcionar libertad de ingeniería para resolver problemas empresariales
Por otra parte, a veces los problemas empresariales son muy difíciles de resolver.
Estamos hablando de aplicaciones totalmente conectadas a la red LLM , aplicaciones en dispositivos o proyectos que requieren dotar a los chatbots de capacidades extremadamente avanzadas que van más allá de la sincronización de datos entre dos plataformas.
En esos casos, tiene sentido dejar libertad a los ingenieros para que utilicen las herramientas con las que se sientan más cómodos. Normalmente se trata solo de escribir código, y las partes interesadas se limitan a actuar como gestores del proyecto.
Consideraciones estratégicas para personalizar un LLM
Elegir un LLM personalizado para su proyecto de IA no consiste sólo en escoger el mejor modelo, sino en tomar decisiones estratégicas que se ajusten a sus objetivos.
Los modelos personalizados ofrecen flexibilidad, control y la posibilidad de optimizar tareas específicas, pero también conllevan una complejidad añadida. Empieza con un modelo estándar, experimenta con ingeniería rápida y ve perfeccionándolo poco a poco.
Recuerde que el modelo adecuado debe ajustarse a las necesidades de su empresa, no sólo a su tecnología stack.
Personalización con potentes plataformas
¿Listo para dar un paso más en su proyecto de IA?
Botpress es una plataforma de agentes de IA totalmente extensible y flexible. Nuestra stack permite a los desarrolladores crear chatbots y agentes de IA para cualquier caso de uso posible.
Contamos con una sólida plataforma educativa, Botpress Academyasí como un detallado canal de YouTube. Nuestro Discord alberga a más de 20.000 creadores de bots, por lo que siempre podrás obtener la ayuda que necesites.
Empieza aconstruir hoy mismo. Es gratis.
Índice
Manténgase al día sobre lo último en agentes de IA
Comparte esto en: