O que é que GPT-4o significa para os Chatbots?

Q: Are there hidden costs to using GPT-4o’s advanced features like real-time translation or vision input?

Não, não há custos ocultos para usar os recursos avançados do GPT no Botpress. Os benefícios de velocidade e eficiência do GPT estão incluídos no seu plano Botpress existente, e os custos LLM são cobertos pelo Botpressos utilizadores não incorrem em taxas extras para usar as melhorias do GPT.

Escrito por

Sarah Chudleigh

Investigador e Líder de Conteúdo de IA

Índice

Etapa 1. o título da etapa aparece aqui, como previsto

Resumo

GPT é duas vezes mais rápido e tem metade do custo do GPT Turbo, baixando drasticamente o preço e acelerando os tempos de resposta dos chatbots de IA.
O novo modelo permite capacidades multimodais avançadas - incluindo voz, vídeo, tradução em tempo real e visão - o que abre casos de utilização inovadores para chatbots para além do texto.
Os ganhos de eficiência na tokenização, especialmente para idiomas de alfabeto não romano, significam poupanças de custos significativas para implementações globais de chatbots.
As melhorias de velocidade melhoram diretamente a experiência do utilizador, reduzindo os tempos de espera que tradicionalmente frustram os utilizadores de chatbots.

O dobro da velocidade e metade do preço - o que significa GPT-4o para os chatbots de IA?

Na sequência do seu misterioso anúncio, a OpenAI lançou a última versão do seu modelo principal: GPT-4o.

O modelo mais recente não recebeu apenas um brilho vistoso nas capacidades multimodais. É mais rápido e mais barato do que GPT Turbo. Embora a cobertura dos principais meios de comunicação social esteja encantada com as capacidades de vídeo e voz do novo modelo principal para ChatGPTo novo custo e a nova velocidade têm o mesmo impacto para quem usa GPT para alimentar as suas aplicações.

Letras brancas sobre um fundo índigo. Uma citação de Botpress , engenheiro de software líder Patrick Hamelin , que diz: "A disponibilidade do 4o tem o poder de melhorar significativamente tanto a experiência do construtor como a do utilizador. O impacto é mais abrangente do que pensamos".

"A disponibilidade do 4o tem o poder de melhorar significativamente a experiência do construtor e do utilizador", afirmou Patrick Hamelin, um engenheiro de software líder na Botpress. "O impacto é mais abrangente do que pensamos."

Vamos então ver como é que o novo modelo vai abanar a IA chatbots.

Criar IA Chatbots

Criar chatbots agênticos personalizados

Começar agora

Capacidades do modelo

Diga olá a GPT-4o

O novo modelo topo de gama inclui uma lista interessante de actualizações e novas funcionalidades: capacidades melhoradas de voz e vídeo, tradução em tempo real, mais capacidades de linguagem natural. Pode analisar imagens, compreender uma maior variedade de entradas de áudio, fornecer resumos de assistência, facilitar a tradução em tempo real e criar gráficos. Os utilizadores podem carregar ficheiros e ter uma conversa de voz para voz. Inclui ainda uma aplicação para computador.

Na sua série de vídeos de lançamento, os funcionários do OpenAI (e associados como Sal Khan da Khan academy) demonstram a versão mais recente do GPT a preparar um utilizador para uma entrevista de emprego, a cantar, a identificar emoções humanas através de expressões faciais, a resolver equações matemáticas escritas e até a interagir com outro ChatGPT-4o.

O lançamento ilustrou uma nova realidade em que um modelo de IA é capaz de analisar a escrita no caderno do seu filho e ser capaz de responder. Pode explicar o conceito de adição de fracções pela primeira vez, mudando o tom e as tácticas com base na compreensão do seu filho - pode passar de chatbot a explicador pessoal.

Captura de ecrã de um vídeo de demonstração de GPT-4o com o criador de Kan Academy , Sal Khan, e o seu filho. — *Sal Khan, criador do Khan Academy, e o seu filho demonstram a capacidade do GPT-4o para fornecer explicações de geometria.*

O que é que GPT-4o significa para LLM Chatbots?

Os chatbots de IA que funcionam com LLMs recebem uma atualização sempre que empresas como OpenAI actualizam os seus modelos. Se um agenteLLM estiver ligado a uma plataforma de criação de bots como o Botpress, recebe todas as vantagens do modelo GPT mais recente nos seus próprios chatbots.

Com o lançamento do GPT-4o, os chatbots de IA podem agora optar por correr no modelo avançado, alterando as suas capacidades, preço e velocidade. O novo modelo tem limites de taxa 5x mais altos do que o GPT-4 Turbo, com a capacidade de processar até 10 milhões de tokens por minuto.

Para os bots que utilizam integrações de áudio como Twilio em Botpress, surgiu um novo mundo de interação por voz. Em vez de ficar confinado ao processamento de áudio de antigamente, o chatbots está um passo mais próximo de imitar a interação humana.

Talvez o mais importante seja o custo mais baixo para os utilizadores pagos. Executar um chatbot com capacidade semelhante por metade do custo pode aumentar drasticamente o acesso e a acessibilidade em todo o mundo. E os utilizadores de Botpress não pagam qualquer despesa adicional de IA nos seus bots - pelo que estas poupanças vão diretamente para os construtores.

E do lado do utilizador da equação, GPT-4o significa uma experiência de utilizador muito melhor. Ninguém gosta de esperar. Tempos de resposta mais curtos significam maior satisfação para os utilizadores de chatbots com IA.

*No estúdio Botpress , os utilizadores podem selecionar diferentes versões de GPT para diferentes partes do fluxo de trabalho do seu bot.*

Os utilizadores adoram a velocidade

Um dos principais elementos da adoção do chatbot é a melhoria da experiência do utilizador. E o que melhora mais a experiência do utilizador do que reduzir os tempos de espera?

"Será uma experiência melhor, com certeza", disse Hamelin. "A última coisa que se quer fazer é esperar por alguém."

Os seres humanos detestam esperar. Já em 2003, um estudo revelou que as pessoas só estavam dispostas a esperar cerca de 2 segundos pelo carregamento de uma página Web. A nossa paciência certamente não aumentou desde então.

E toda a gente odeia esperar

Há uma infinidade de dicas de experiência do utilizador para reduzir o tempo de espera percebido. Muitas vezes, não conseguimos melhorar a velocidade dos eventos, por isso concentramo-nos em como fazer com que os utilizadores sintam que o tempo está a passar mais depressa. O feedback visual, como a imagem de uma barra de carregamento, existe para reduzir o tempo de espera percebido.

Numa célebre história sobre os tempos de espera dos elevadores, um antigo edifício de Nova Iorque estava a ser alvo de uma enxurrada de queixas. Os moradores tinham de esperar 1 a 2 minutos pela chegada do elevador. O edifício não tinha capacidade para atualizar o elevador para um modelo mais recente e os moradores ameaçavam rescindir os seus contratos de arrendamento.

Um novo contratado, com formação em psicologia, descobriu que o verdadeiro problema não eram os dois minutos de tempo perdido - era o tédio. Sugeriu a instalação de espelhos para que os residentes pudessem olhar para si próprios ou para os outros enquanto esperavam. As queixas sobre o elevador cessaram e, atualmente, é comum ver espelhos nos átrios dos elevadores.

Em vez de utilizar atalhos para melhorar a experiência do utilizador - como o feedback visual - o OpenAI melhorou a experiência na sua origem. A velocidade é fundamental para a experiência do utilizador, e não há truque que iguale a satisfação de uma interação eficiente.

Poupança para todos

A utilização deste novo modelo de IA para executar aplicações ficou subitamente mais barata. Muito mais barato.

Executar um chatbot de IA em escala pode ficar caro. O LLM com que o seu bot é alimentado determina quanto pagará por cada interação com o utilizador a uma escala maior (pelo menos em Botpress, onde fazemos corresponder os gastos com IA 1:1 com os custos de LLM ).

E estas poupanças não são apenas para os programadores que utilizam a API. ChatGPT O -4o é a versão gratuita mais recente do LLM, juntamente com o GPT-3.5. Os utilizadores gratuitos podem utilizar a aplicação ChatGPT sem qualquer custo.

Melhor tokenização

Se interagir com o modelo numa língua que não utilize o alfabeto romano, GPT-4o diminui ainda mais os seus custos de API.

Uma visualização de quão mais eficiente é a tokenização com GPT-4o em comparação com o Turbo. As línguas indo-arianas, como o hindi e o gujarati, têm uma redução média de tokenização de 2,9 a 4,4. O árabe tem uma redução de 2x e as línguas do leste asiático, como japonês, coreano e chinês, têm uma redução de 1,4-1,x. — *Quão mais eficiente é a tokenização GPT-4o? Depende da língua.*

O novo modelo vem com limites de utilização melhorados. Proporciona um salto significativo na eficiência da tokenização, concentrada em grande parte em certos idiomas que não o inglês.

O novo modelo de tokenização requer menos tokens para processar o texto de entrada. É muito mais eficiente para linguagens logográficas (ou seja, linguagens que usam símbolos e caracteres em vez de letras individuais).

Estes benefícios concentram-se em grande medida nas línguas que não utilizam o alfabeto romano. As reduções de poupança foram estimadas da seguinte forma:

As línguas indianas, como o hindi, o tâmil ou o gujarati, têm uma redução de 2,9 a 4,4 vezes nos tokens
O árabe tem uma redução de ~2x nos tokens
As línguas do Leste Asiático, como o chinês, o japonês e o vietnamita, têm uma redução de 1,4 a 1,7 vezes no número de tokens

Implantação de agentes de IA?

Leia o nosso projeto de implementação de agentes de IA

Ler agora

Eliminar o fosso digital da IA

A era digital trouxe consigo uma extensão do antigo e bem documentado fosso de riqueza - o fosso digital. Tal como o acesso à riqueza e a infra-estruturas sólidas é exclusivo de certas populações, também o é o acesso à IA e às oportunidades e benefícios que a acompanham.

Robert Opp, Chief Digital Officer do Programa das Nações Unidas para o Desenvolvimento (PNUD), explicou que a presença de plataformas de IA tem a capacidade de fazer ou quebrar as métricas de desenvolvimento de um país inteiro:

"Uma grande preocupação que temos é que os países que estão mais equipados e têm mais competências nas plataformas de IA, tanto em termos de desenvolvimento como de utilização, podem ter um processo de desenvolvimento muito mais rápido e os países que não têm as competências e capacidades vão ficar para trás."

Um palco bem decorado com quatro pessoas em cadeirões brancos. Opp senta-se na extrema direita e fala para um microfone. — *Robert Opp, responsável digital do PNUD, discursa na Cimeira Mundial das Infra-estruturas Públicas Digitais, na Índia (2024). Foto de* *PNUD Digital X*.

Ao reduzir para metade o custo do GPT-4o e ao introduzir um nível gratuito, o OpenAI está a dar um passo crucial no sentido de neutralizar um dos maiores problemas da IA - e de abordar diretamente a desigualdade que preocupa os decisores políticos e os economistas.

Uma ação de relações públicas positiva para a grande IA é mais necessária do que os entusiastas possam pensar. À medida que a IA se torna cada vez mais presente no nosso quotidiano, tanto os defensores como os cépticos têm perguntado como poderemos utilizar a IA "para o bem".

Letras brancas sobre um fundo índigo. Uma citação do educador de IA Louis Bouchard diz: "Tornar a IA acessível é uma forma, se não a melhor, de utilizar a IA 'para o bem'".

De acordo com o doutor em IA e educador Louis Bouchard, a distribuição de um acesso mais alargado à IA é a forma de fazer exatamente isso: "Tornar a IA acessível é uma forma, se não a melhor, de a utilizar 'para o bem'". O seu raciocínio? Se não formos capazes de controlar totalmente os impactos positivos e negativos da tecnologia de IA - pelo menos nos seus primórdios - podemos, em vez disso, garantir a igualdade de acesso aos seus potenciais benefícios.

Potencial multimodal alargado

A forma mais comum de interagir com um chatbot de uma empresa é através de texto, mas as capacidades multimodais melhoradas do novo modelo de IA do OpenAIsugerem que esta situação poderá mudar no futuro.

No próximo ano, é provável que vejamos uma maré de programadores a lançar novas aplicações que aproveitam ao máximo as novas capacidades de áudio, visão e vídeo acessíveis.

Por exemplo, os chatbots com tecnologia GPT podem ter a capacidade de:

Pedir aos clientes uma imagem do artigo que estão a devolver para identificar o produto e garantir que não está danificado
Fornecer tradução áudio em conversação em tempo real que tenha em conta os dialectos específicos da região
Saber se o seu bife está cozinhado a partir de uma imagem do mesmo na frigideira
Funciona como um guia turístico pessoal sem custos, fornecendo o contexto histórico com base numa imagem de uma catedral antiga, fornecendo tradução em tempo real e dando uma visita personalizada por voz que permite a comunicação e as perguntas
Potenciar uma aplicação de aprendizagem de línguas que ouça o áudio, possa dar feedback sobre a pronúncia com base num vídeo dos movimentos da boca ou ensine linguagem gestual através de imagens e vídeo
Prestar apoio não urgente ao bem-estar mental, combinando a sua capacidade de interpretar áudio e vídeos, permitindo uma terapia de conversação de baixo custo

Com modelos de IA capazes de interpretar imagens e áudio, a nossa compreensão de como o LLMs nos pode servir está a expandir-se rapidamente.

Multimodalidade significa acessibilidade

Já vimos as funcionalidades multimodais melhoradas serem utilizadas para fins sociais. Um exemplo perfeito é a parceria doOpenAIcom a Be My Eyes.

A Be My Eyes é uma start-up dinamarquesa que liga utilizadores com deficiência visual a voluntários videntes. Quando um utilizador precisa de ajuda - como escolher os produtos enlatados certos no supermercado ou identificar a cor de uma t-shirt - a aplicação liga-o a um voluntário vidente em todo o mundo através de vídeo via smartphone.

Um anúncio azul brilhante de "Be My AI" onde se lê "Rolling out out". No lado direito, uma imagem de um smartphone que mostra um caminho à beira-mar deserto com uma descrição da imagem gerada por IA. — *A parceria e o anúncio do produto Be My Eyes x OpenAI.*

OpenAIA nova capacidade de visão da Be My Eyes pode proporcionar uma experiência ainda mais útil aos utilizadores. Em vez de dependerem de um voluntário humano para decifrar visualmente uma imagem ou um vídeo em tempo real, os utilizadores cegos podem transmitir uma imagem ou um vídeo para o seu dispositivo, ao qual o modelo pode responder com informações áudio.

OpenAI e a Be My Eyes, agora parceiros de confiança, estão a preparar o caminho para uma maior independência das pessoas legalmente cegas em todo o mundo. O Diretor Executivo da Be My Eyes, Michael Buckley, explica o seu impacto:

"No curto espaço de tempo em que tivemos acesso, verificámos um desempenho sem paralelo em relação a qualquer ferramenta de reconhecimento de objectos de imagem para texto existente. As implicações para a acessibilidade global são profundas. Num futuro não muito distante, a comunidade cega e com baixa visão utilizará estas ferramentas não só para uma série de necessidades de interpretação visual, mas também para ter um maior grau de independência nas suas vidas."

Três imagens de smartphones a utilizar o Be My Eyes. Uma foca uma série de gravatas com padrões, outra apresenta um utilizador a segurar um frasco de protetor solar para a câmara e outra segura a câmara para mostrar pequenas casas coloridas. — *A Be My Eyes liga utilizadores com deficiência visual a voluntários que vêem para realizar tarefas visuais. Fotos de Be My Eyes.*

Be My Eyes Acessibilidade com GPT-4o

O novo serviço será lançado em breve, no verão de 2024, pela primeira vez. Os utilizadores com acesso antecipado têm vindo a testar a versão beta das novas funcionalidades de visão, vídeo e áudio com excelentes críticas. Embora os impactos da IA possam ser motivo de preocupação para os cépticos, esta parceria é um sinal claro dos impactos positivos que pode trazer. Compreender o bem social que advém da IA avançada é um passo crucial para as suas relações públicas.

Como é que vamos avaliar os futuros modelos LLM ?

À medida que os concorrentes continuam numa corrida para o fundo do poço - para criar o LLM mais barato e mais rápido - coloca-se a questão: como é que vamos avaliar os modelos de IA de amanhã?

A dada altura no futuro, os principais criadores de LLM (provavelmente OpenAI e Google) atingirão um patamar na rapidez com que os seus modelos podem ser executados e no preço que podem oferecer. Quando atingirmos a estabilidade em termos de custo e velocidade, como é que vamos coroar o modelo líder de mercado?

Qual será o novo sinal dos tempos? Quer se trate das personalidades disponíveis do seu modelo de inteligência artificial, das capacidades de melhoramento de vídeo, das funcionalidades disponíveis para utilizadores gratuitos ou de novas métricas que ultrapassam a nossa compreensão atual, a próxima geração de LLMs está à nossa porta.

IA Chatbots Made Easy

E se o seu chatbot de IA se sincronizasse automaticamente com cada atualização de GPT ?

Botpress fornece soluções de chatbot de IA personalizáveis desde 2017, proporcionando aos programadores as ferramentas de que necessitam para criar facilmente chatbots com o poder da mais recente LLMs. Os chatbots Botpress podem ser treinados em fontes de conhecimento personalizadas - como o seu sítio Web ou catálogo de produtos - e integrar-se perfeitamente nos sistemas empresariais.

A única plataforma que vai desde a configuração sem código até à personalização e extensão infinitas, Botpress permite-lhe obter automaticamente o poder da versão mais recente de GPT no seu chatbot - sem necessidade de esforço.

‍Comece aconstruir hoje. É grátis.

Criar IA Chatbots

Criar chatbots agênticos personalizados

Começar agora

FAQs

1. Como é que mudo o meu chatbot existente para o GPT no Botpress?

Para mudar o seu chatbot existente para GPT no Botpress, aceda ao Botpress Studio, navegue até às definições LLM do seu assistente e selecione GPT no menu pendente de modelos disponíveis. A alteração é aplicada instantaneamente sem exigir alterações no código.

2. Existem pré-requisitos para usar GPT na plataforma Botpress (por exemplo, SDKs, versões de API)?

Não, não há pré-requisitos para usar GPT no Botpress. A plataforma gerencia todos os SDKs, atualizações de API e dependências de back-end automaticamente, então você só precisa selecionar GPT nas configurações para ativá-lo.

3. GPT pode ser ajustado ou personalizado para casos específicos de utilização comercial através do Botpress?

Embora GPT não possa ser ajustado no sentido tradicional dentro do Botpress, é possível personalizar suas respostas e comportamento usando engenharia de prompt, lógica de fluxo de trabalho, bases de conhecimento e variáveis. Isso permite que GPT se comporte contextualmente de acordo com suas necessidades comerciais sem precisar treinar novamente o modelo.

4. Existem limitações à utilização de funcionalidades multimodais (voz, visão) nos fluxos de trabalho Botpress ?

Sim, Botpress suporta atualmente funcionalidades de voz através de integrações como o Twilio ou o Dialogflow Voice Gateway, mas as capacidades multimodais, como o processamento de imagens ou vídeos, ainda não são totalmente suportadas. A entrada baseada em visão ainda está a ser considerada ou requer soluções alternativas.

5. Existem custos ocultos na utilização das funcionalidades avançadas do GPT, como a tradução em tempo real ou a introdução de dados visuais?

Não, não há custos ocultos para usar as caraterísticas avançadas do GPT no Botpress. Os benefícios de velocidade e eficiência do GPT estão incluídos no seu plano Botpress existente, e os custos LLM são cobertos pelo Botpress - para que os utilizadores não incorram em taxas extras para usar as melhorias do GPT.