OpenAIA tão esperada série de modelos o1 da Apple fez manchetes pela sua capacidade avançada de raciocínio, um avanço significativo na inteligência artificial.
As capacidades de raciocínio do o1 não são diferentes de uma funcionalidade familiar aos utilizadores do Botpress - o Nó Autónomo. Lançado em julho de 2024, o Nó Autónomo foi o primeiro do seu género entre as plataformas de agentes de IA.
Sylvain PerronCEO da Botpress e arquiteto-chefe por detrás dos nós autónomos da plataforma, sentou-se para explicar as semelhanças e as diferenças entre as duas entidades de raciocínio.
Botpress CEO Sylvain Perron compara OpenAI o1 e o Nó Autónomo
Existem algumas semelhanças importantes entre o novo modelo o1 do OpenAIe os nós autónomos do Botpress , correto?
Há, de facto. Foi muito engraçado ver o o1 a sair. Mas é importante notar que não estamos a comparar maçãs com maçãs.
OpenAI o1 é, obviamente, um LLM, enquanto os Nós Autónomos são uma caraterística da plataforma. Pode mesmo ligar o1 a Botpress e utilizá-lo com os seus Nós Autónomos.
Mas ambos utilizam o raciocínio em cadeia, uma abordagem de baixo para cima para chegar a conclusões sobre o que fazer e o que dizer.
Pode explicar o raciocínio em cadeia e a sua diferença em relação à forma como os modelos linguísticos geram normalmente as respostas?
Claro - a maioria dos LLMs gera respostas prevendo a palavra seguinte com base na anterior - geram a primeira palavra, depois usam-na para gerar a seguinte, e assim sucessivamente. Isto funciona para responder a perguntas simples, mas falha redondamente em tarefas mais complexas com raciocínio em várias etapas.
O raciocínio em cadeia, por outro lado, é quando uma IA divide uma tarefa em passos mais pequenos e raciocina explicitamente em cada um deles antes de avançar para o seguinte. É semelhante à forma como se pede aos alunos que cheguem a uma resposta num problema de exame STEM.
Por exemplo, se uma IA estiver a criar uma pista num CRM - onde precisa de verificar se há duplicados, atribuir a pista, etc. - precisa de utilizar o raciocínio em cadeia para pensar em cada passo e planear uma sequência completa de acções antes de começar a executar. Não começa a preencher um formulário antes de se aperceber que se trata de um duplicado, sabe antes de começar.
Assim, o sistema pode lidar com tarefas mais complexas com múltiplas dependências, mas isso também o torna mais lento porque tem de fazer uma pausa e pensar, em vez de gerar imediatamente.
Tanto o1 como os nós autónomos utilizam o raciocínio em cadeia - é o mesmo processo em ambos ou há diferenças entre os dois?
Existem algumas semelhanças e algumas diferenças. Continuamos a utilizar o raciocínio em cadeia, mas como estamos a construir para clientes do mundo real, optimizamos a velocidade e a eficiência de algumas formas diferentes.
Com os nós autónomos, concebemos o sistema para lidar com várias acções numa única chamada para LLM . A ideia é pensar e agir dentro do mesmo processo, para não perdermos tempo.
Os nós autónomos pensam e fornecem actualizações ao utilizador, para que este não fique simplesmente à espera que o seu processo de pensamento termine. Isto é mais semelhante às conversas naturais, em que uma pessoa não fica à espera durante mais de 30 segundos. Os programadores podem ver os pensamentos ocultos do LLM e resolver o que correu mal.
Por outro lado, o1 devolve uma resposta e a visibilidade do seu processo de pensamento é limitada. OpenAI fornece um resumo da cadeia de pensamento sem a mostrar, o que torna mais difícil a resolução de problemas.
Existem outras diferenças entre os dois?
o1 requer um programador ou uma plataforma para alojar funções que chamem chamadas de ferramentas. Cada passo requer uma chamada API separada, o que significa que o modelo tem de pedir uma ação, esperar pelo resultado e depois pedir a próxima. E é necessário chamar isto recursivamente uma e outra vez. Isto torna a barreira à sua utilização mais elevada, uma vez que é necessário fornecer a arquitetura de execução da função subjacente.
Os nós autónomos fazem-no automaticamente em segundo plano.
Como é que a o1 se compara em termos de custo e velocidade?
Digamos que está a utilizar um agente de IA ou LLM para ajudar nas tarefas da Hubspot, como conversar com os visitantes do site como forma de gerar leads de IA.
Se pedisse a o1 que preenchesse um formulário de contacto na Hubspot - isto é, partindo do princípio de que era possível ligá-lo sem um conetor de terceiros - demoraria 12 segundos e custaria 5 vezes mais do que se o fizesse em Botpress.
Parte da velocidade deve-se ao facto de a nossa plataforma ser baseada em esquemas, o que significa que o sistema sabe antecipadamente quais os dados necessários e qual a estrutura desses dados.
Assim, quando se trabalha com uma ferramenta como o HubSpot ou o Salesforce, o sistema já tem um esquema JSON predefinido que lhe diz quais os dados necessários - coisas como o nome próprio, o endereço de correio eletrónico, o nome da empresa, etc.
Isto permite que os nós autónomos raciocinem sobre toda a tarefa desde o início, sem terem de parar e pedir mais informações em cada passo.
É possível reduzir a velocidade e os passos fornecendo o contexto, mas à custa de gastar mais tempo a construir uma aplicação baseada em o1. Portanto, isso também é uma questão de aumento do custo de manutenção.
Menciona uma maior fiabilidade. O que torna os nós autónomos mais fiáveis do que o1?
A principal forma de tornar o resultado mais fiável foi misturar o raciocínio em cadeia com a chamada da ferramenta de protocolo que criámos.
O que fizemos foi essencialmente criar um ambiente onde ele pode pensar - e tudo em código, não em texto simples. Honestamente, é mais rápido e mais fiável do que a versão OpenAI , por algumas razões.
Uma delas é que pode falar simultaneamente, ao longo de toda a sequência de acções. Isso é algo que o modelo OpenAI não faz.
Outra razão é que a IA conhece o esquema de saída. Sabe que tipo de JSON deve ser emitido com base na consulta que recebe.
E é algo que os programadores podem ajustar eles próprios. Se estiverem a utilizar isto e estiverem a receber uma tonelada de perguntas semelhantes dos utilizadores, como acontece com a maioria, podem afinar a IA para que dê sempre a melhor e mais adequada resposta.
Utiliza JSON em que parte do processo?
O inglês simples não é fiável, certo? Não é suficientemente formal. Não é suficientemente rigoroso.
A linguagem de programação é uma linguagem, mas é formal. É uma linguagem específica de um domínio; só pode ser utilizada dentro de certos limites e funções de sintaxe.
Assim, a nossa ferramenta chama a resposta em JSON em vez de inglês. É uma saída JSON com um esquema JSON em vez de texto simples.
Quando se faz um pedido para criar um formulário de lead no Hubspot, este é escrito em JSON, e o esquema - também em JSON - fornece todas as propriedades que precisa de incluir, como nome, empresa, etc.
Quais são as principais diferenças entre a chamada de ferramentas entre nós autónomos e o modelo o1?
A nossa chamada de ferramenta é altamente sensível ao contexto. Compreende todos os seus sistemas, todas as acções que pode realizar e como esses dados podem ser introduzidos na ferramenta seguinte. E podemos gerar um bloco de código que fornece tudo isso junto, além de dar uma resposta, tudo em uma chamada LLM .
Em teoria, é possível utilizar a API o1 para chamar a ferramenta, mas existem restrições quanto ao que se pode chamar à ferramenta. Mas Botpress foi construído para isso. Nós temos guardrails em cima de outros LLMs, incluindo GPT.
Os nós autónomos também podem falar em simultâneo enquanto chamam ferramentas, o que não é algo que o OpenAI suporte atualmente. Isto poupa uma viagem de ida e volta ao servidor e proporciona uma melhor experiência de conversação, uma vez que os utilizadores são informados antes de uma tarefa de longa duração ser iniciada.
A maioria das organizações é avisada contra a utilização do ChatGPT com dados de trabalho seguros. Existem menos preocupações para os nós autónomos?
A nossa plataforma foi concebida para ambientes de elevado volume e baixa latência, e concebemo-la tendo em conta as necessidades práticas das empresas.
A vantagem dos nós autónomos não é o facto de termos criado um tipo de IA completamente novo - é o facto de termos pegado na tecnologia existente e aplicado uma engenharia inteligente para a fazer funcionar melhor para as necessidades das empresas.
Temos caixas de areia seguras para a comunicação geradora de IA. Quando se utiliza um Nó Autónomo, este executa estas sandboxes secretas gratuitamente. São seguras, são escaláveis. E depois, a caixa de areia é destruída.
Trata-se de um isolamento virtual com dois níveis - check-in e check-out. É bastante complicado. Mas significa que podemos executar código gerado em LLM em grande escala com riscos mínimos de segurança.
Se os programadores ou entusiastas da IA quiserem experimentar o Nó Autónomo, o que têm de fazer?
Temos um nível gratuito generoso. Todos os nossos utilizadores podem experimentá-los. Achámos que era uma funcionalidade demasiado fixe para ser cancelada. Por isso, sim, basta criar uma conta gratuita em Botpress e pode ver por si próprio.
Perfeito. Muito obrigado por se sentar para ligar os pontos entre as duas funcionalidades. o1 está a fazer muitas manchetes; é ótimo compreender melhor como está ligado ao que Botpress está a desenvolver.
Índice
Mantenha-se atualizado com as últimas novidades sobre agentes de IA
Partilhar isto em: