Como otimizar o custo com IA no Botpress

Escrito por

Bassam Tantawi

Engenheiro Sênior de Soluções em IA

Índice

Resumo

O Botpress oferece preços transparentes, sem taxas ocultas de IA, permitindo que seus custos reflitam apenas o uso real.
Fazer cache das respostas de IA pode reduzir o custo das consultas em cerca de 30% sem prejudicar a experiência do usuário.
Escolher o modelo de IA adequado, como começar com o GPT-3.5 Turbo em vez do GPT-4, é fundamental para equilibrar custo e qualidade.

Muitas empresas enfrentam o desafio de aproveitar o potencial das tecnologias de IA sem gastar demais. Sabemos da importância desse equilíbrio e estamos comprometidos em oferecer soluções que permitam aos nossos usuários aproveitar a IA de forma econômica.

Crie Chatbots de IA

Crie chatbots agentivos personalizados

Comece agora

Nossa abordagem para o custo de IA

Primeiro, é importante entender dois pontos principais de como reduzimos os custos relacionados à IA para nossos usuários, sem abrir mão dos benefícios dessa tecnologia.

Preços transparentes: sem taxas ocultas

Não adicionamos margem em tarefas relacionadas à IA. Ou seja, o custo com IA está diretamente ligado ao seu uso real, sem taxas extras da nossa parte.

Cacheamento de respostas de IA

O cache de respostas de IA é uma das estratégias mais eficazes para reduzir o custo dos bots. Ao armazenar respostas, diminuímos o número de requisições ao provedor do LLM, o que pode cortar o custo das consultas em aproximadamente 30%, economizando sem comprometer a qualidade das interações.

Dicas para otimizar o custo com IA

Agora que você já conhece duas das nossas abordagens para reduzir o custo de IA, veja dicas para aplicar durante a construção do seu bot e economizar ainda mais.

Otimize suas Bases de Conhecimento

Otimizar suas Bases de Conhecimento (KBs) pode impactar bastante o custo com IA, já que elas costumam ser o principal fator de custo em projetos Botpress.

Dica 1: Escolha o modelo de IA certo

A escolha do modelo de IA impacta diretamente o custo. Como o GPT-3.5 Turbo é mais rápido e barato que o GPT-4 Turbo, recomendamos testar seu projeto com o GPT-3.5 Turbo antes de pensar em versões mais avançadas.

O modo híbrido do nosso Agente de KB é uma ótima solução intermediária: usamos primeiro o GPT-3.5 Turbo para tentar responder e só recorremos ao GPT-4 Turbo se necessário.

Dica 2: Proteja sua KB

Você pode reduzir o custo de IA protegendo sua KB de perguntas frequentes simples que não precisam de IA ou respostas inteligentes, usando o cartão Find Records. Funciona assim: se você sabe que os usuários costumam fazer certas perguntas e tem 50 perguntas e respostas conhecidas, pode adicioná-las a uma tabela e consultar essa tabela com o cartão Find Records. Só se não encontrar resposta, a busca segue para a KB.

Dica 3: Escopo adequado para suas KBs

Dependendo do tipo e quantidade de informação que deseja adicionar à KB, o ideal é seguir duas práticas em paralelo para reduzir custos: primeiro, organize as informações em KBs menores, cada uma focada em um produto, recurso ou tema específico; segundo, conduza o usuário por um fluxo com perguntas para direcionar a busca à KB certa. Isso reduz custos e melhora os resultados.

Dica 4: Fonte de dados da KB do site vs. Buscar na Web

Se você usa um site como fonte de dados da KB, mas não faz alterações frequentes que precisem ser refletidas em tempo real no bot, uma alternativa mais econômica é usar a opção Buscar na Web como fonte de dados da KB. Antes de mudar, teste se o desempenho nas perguntas esperadas não será prejudicado.

Implantando agentes de IA?

Leia nosso Guia para Implementação de Agentes de IA

Leia agora

Dica 5: Consultar tabelas com Find Records ou Execute Code

Se você tem uma tabela com dados para consultar, prefira usar o cartão Find Records em vez de incluir a tabela em uma KB. Para quem tem conhecimento técnico, executar código pode ser ainda mais econômico: basta consultar a tabela diretamente pelo cartão Execute Code e salvar o resultado em uma variável do fluxo para usar depois.

Dica 6: Controle os Chunks

Por "chunks" me refiro à quantidade de trechos recuperados da Base de Conhecimento para gerar uma resposta. Quanto mais chunks, maior a precisão — mas também aumenta o tempo e o custo em tokens de IA. Teste o tamanho dos chunks para encontrar o menor valor que ainda garanta respostas precisas.

Use o cartão Execute Code para reduzir custos com IA

O cartão Execute Code pode substituir, de forma econômica, alguns cartões de IA. Veja alguns cenários em que vale a pena usá-lo:

Alternativas inteligentes para mensagens

Se você quer que o bot envie uma resposta diferente da IA para a mesma pergunta a cada vez, é preciso evitar o cache (veja o Apêndice para saber como). Em alguns casos, o aumento do custo de IA pode ser justificado pela melhora na experiência da conversa. Mas nem sempre vale a pena.

Pense, por exemplo, em uma saudação simples gerada por LLMs. Cada saudação gera um custo extra de IA. Vale a pena? Provavelmente não. Uma alternativa econômica é usar um array com várias respostas e uma função simples para sortear uma delas.

Dependendo do volume de conversas, a economia com esse método pode compensar bastante.

Veja mais detalhes sobre como implementar mensagens alternativas aqui.

Execução de código para tarefas simples

Para tarefas simples, como reformatar dados ou extrair informações de dados estruturados, o cartão Execute Code é mais eficiente, barato e rápido do que depender de um LLM.

Alternativas ao Summary Agent

Você pode usar cartões Execute Code para criar seu próprio histórico de conversas. Basta posicionar o cartão onde quiser registrar as mensagens do usuário e do bot em um array. Depois, use esse array como contexto para sua KB.

Simplifique sempre que possível

Prefira métodos de interação mais simples que alcancem o mesmo objetivo sem prejudicar a experiência do usuário. Por exemplo, para coletar feedback, um sistema de estrelas com comentários é mais econômico do que usar IA para obter as mesmas informações.

Dicas para Tarefas de IA, Geração de Texto e Traduções

Escolha o modelo de IA certo

Sim, escolher o modelo de IA é tão importante que vale repetir. Assim como nas KBs, a escolha do modelo impacta bastante o custo nas Tarefas de IA. Prefira o GPT-3.5 Turbo para instruções menos complexas. Antes de pensar em versões mais avançadas, teste bem seu projeto com esse modelo. Lembre-se: o GPT-4 Turbo custa 20 vezes mais que o GPT-3.5 Turbo. Só use se o resultado for muito melhor.

Além disso, você pode economizar tokens reduzindo a quantidade consumida em cada execução de Tarefa de IA.

Minha recomendação é ter atenção ao diminuir esse número, pois tokens extras serão cortados. Por exemplo, se limitar para 2000 tokens e seu prompt mais a resposta ultrapassarem esse valor, o input será truncado.

Tarefa de IA vs. Geração de Texto com IA

Para respostas de texto simples, o cartão AI Generate Text consome menos tokens e é mais fácil de configurar do que o cartão AI Task. Para tarefas que envolvem análise de informações, o cartão AI Task é mais eficiente do que o AI Generate Text.

Portanto, recomendo usar o cartão AI Task quando quiser que a IA processe informações (por exemplo, detectar intenção do usuário ou analisar o input). Mas, se a ideia é gerar texto, use o AI Generate Text (por exemplo, expandir uma resposta da KB ou criar uma pergunta de forma criativa).

Para entender melhor as diferenças entre AI Task e AI Generate Text, saiba mais aqui.

Traduções

Se o seu bot vai lidar com muitos diálogos em vários idiomas, considere integrar hooks com serviços externos de tradução para uma opção mais econômica.

Veja mais informações sobre hooks aqui.

Conclusão

Com essas estratégias e dicas, você poderá otimizar seus gastos com IA no Botpress. Entender o impacto de cada tarefa e escolher os métodos mais eficientes para suas necessidades vai reduzir seus custos com IA sem comprometer o desempenho.

Nossa equipe está aqui para ajudar você a navegar por essas opções e garantir que seu bot ofereça a melhor experiência possível para seus usuários com o custo mais eficiente. Visite nossa página de Preços para mais informações ou acesse nosso servidor no Discord para obter ajuda.

Crie Chatbots de IA

Crie chatbots agentivos personalizados

Comece agora

Apêndice

Como Evitar Cache

Se você deseja evitar o cache para sempre obter resultados em tempo real, você pode seguir uma das opções abaixo:

Para evitar o cache de forma permanente: adicione `And discard:{{Date.now()}}` em todos os seus cards relacionados à IA (por exemplo, nos prompts de Tarefa de IA, no contexto da Base de Conhecimento, etc.).
Para evitar o cache temporariamente: publique seu bot e teste em uma janela anônima.

Cursos Recomendados

‍ChatGPT Prompt Engineering para Desenvolvedores (apesar do título mencionar desenvolvedores, pessoas que não são desenvolvedoras também vão se beneficiar!)
‍Construindo Sistemas com a API do ChatGPT