O dobro da velocidade e metade do preço - o que significa GPT-4o para os chatbots de IA?
Na sequência do seu misterioso anúncio, a OpenAI lançou a última versão do seu modelo principal: GPT-4o.
O modelo mais recente não recebeu apenas um brilho vistoso em termos de capacidades multimodais. É mais rápido e mais barato do que o GPT-4 Turbo. Embora a cobertura dos principais meios de comunicação social esteja encantada com as capacidades de vídeo e voz do novo modelo principal, o novo custo e a nova velocidade têm o mesmo impacto para quem utiliza o GPT para alimentar as suas aplicações.
"A disponibilidade do 4o tem o poder de melhorar significativamente a experiência do construtor e do utilizador", afirmou Patrick Hamelin, um engenheiro de software líder na Botpress. "O impacto é mais abrangente do que pensamos."
Vamos então ver como é que o novo modelo vai abanar a IA chatbots.
Capacidades do modelo
O novo modelo topo de gama inclui uma lista interessante de actualizações e novas funcionalidades: capacidades melhoradas de voz e vídeo, tradução em tempo real, mais capacidades de linguagem natural. Pode analisar imagens, compreender uma maior variedade de entradas de áudio, fornecer resumos de assistência, facilitar a tradução em tempo real e criar gráficos. Os utilizadores podem carregar ficheiros e ter uma conversa de voz para voz. Inclui ainda uma aplicação para computador.
Na sua série de vídeos de lançamento, os funcionários do OpenAI (e associados como Sal Khan da Khan academy) demonstram a versão mais recente do GPT a preparar um utilizador para uma entrevista de emprego, a cantar, a identificar emoções humanas através de expressões faciais, a resolver equações matemáticas escritas e até a interagir com outro ChatGPT-4o.
O lançamento ilustrou uma nova realidade em que um modelo de IA é capaz de analisar a escrita no caderno do seu filho e ser capaz de responder. Pode explicar o conceito de adição de fracções pela primeira vez, mudando o tom e as tácticas com base na compreensão do seu filho - pode passar de chatbot a explicador pessoal.
O que é que GPT-4o significa para LLM Chatbots?
Os chatbots de IA que funcionam em LLMs recebem uma atualização sempre que empresas como OpenAI actualizam os seus modelos. Se um chatbot estiver ligado a uma plataforma de criação de bots como Botpress, recebe todos os benefícios do modelo mais recente de GPT nos seus próprios chatbots.
Com o lançamento do GPT-4o, os chatbots de IA podem agora optar por correr no modelo avançado, alterando as suas capacidades, preço e velocidade. O novo modelo tem limites de taxa 5x mais altos do que o GPT-4 Turbo, com a capacidade de processar até 10 milhões de tokens por minuto.
Para os bots que utilizam integrações de áudio como Twilio em Botpress, surgiu um novo mundo de interação por voz. Em vez de ficar confinado ao processamento de áudio de antigamente, o chatbots está um passo mais próximo de imitar a interação humana.
Talvez o mais importante seja o custo mais baixo para os utilizadores pagos. Executar um chatbot com capacidade semelhante por metade do custo pode aumentar drasticamente o acesso e a acessibilidade em todo o mundo. E os utilizadores de Botpress não pagam qualquer despesa adicional de IA nos seus bots - pelo que estas poupanças vão diretamente para os construtores.
E do lado do utilizador da equação, GPT-4o significa uma experiência de utilizador muito melhor. Ninguém gosta de esperar. Tempos de resposta mais curtos significam maior satisfação para os utilizadores de chatbots com IA.
Os utilizadores adoram a velocidade
Um dos principais elementos da adoção do chatbot é a melhoria da experiência do utilizador. E o que melhora mais a experiência do utilizador do que reduzir os tempos de espera?
"Será uma experiência melhor, com certeza", disse Hamelin. "A última coisa que se quer fazer é esperar por alguém."
Os seres humanos detestam esperar. Já em 2003, um estudo revelou que as pessoas só estavam dispostas a esperar cerca de 2 segundos pelo carregamento de uma página Web. A nossa paciência certamente não aumentou desde então.
E toda a gente odeia esperar
Há uma infinidade de dicas de experiência do utilizador para reduzir o tempo de espera percebido. Muitas vezes, não conseguimos melhorar a velocidade dos eventos, por isso concentramo-nos em como fazer com que os utilizadores sintam que o tempo está a passar mais depressa. O feedback visual, como a imagem de uma barra de carregamento, existe para reduzir o tempo de espera percebido.
Numa célebre história sobre os tempos de espera dos elevadores, um antigo edifício de Nova Iorque estava a ser alvo de uma enxurrada de queixas. Os moradores tinham de esperar 1 a 2 minutos pela chegada do elevador. O edifício não tinha capacidade para atualizar o elevador para um modelo mais recente e os moradores ameaçavam rescindir os seus contratos de arrendamento.
Um novo contratado, com formação em psicologia, descobriu que o verdadeiro problema não eram os dois minutos de tempo perdido - era o tédio. Sugeriu a instalação de espelhos para que os residentes pudessem olhar para si próprios ou para os outros enquanto esperavam. As queixas sobre o elevador cessaram e, atualmente, é comum ver espelhos nos átrios dos elevadores.
Em vez de utilizar atalhos para melhorar a experiência do utilizador - como o feedback visual - o OpenAI melhorou a experiência na sua origem. A velocidade é fundamental para a experiência do utilizador, e não há truque que iguale a satisfação de uma interação eficiente.
Poupança para todos
A utilização deste novo modelo de IA para executar aplicações ficou subitamente mais barata. Muito mais barato.
Executar um chatbot de IA em escala pode ficar caro. O LLM com que o seu bot é alimentado determina quanto pagará por cada interação com o utilizador a uma escala maior (pelo menos em Botpress, onde fazemos corresponder os gastos com IA 1:1 com os custos de LLM ).
E estas poupanças não são apenas para os programadores que utilizam a API. ChatGPT O -4o é a versão gratuita mais recente do LLM, juntamente com o GPT-3.5. Os utilizadores gratuitos podem utilizar a aplicação ChatGPT sem qualquer custo.
Melhor tokenização
Se interagir com o modelo numa língua que não utilize o alfabeto romano, GPT-4o diminui ainda mais os seus custos de API.
O novo modelo vem com limites de utilização melhorados. Proporciona um salto significativo na eficiência da tokenização, concentrada em grande parte em certos idiomas que não o inglês.
O novo modelo de tokenização requer menos tokens para processar o texto de entrada. É muito mais eficiente para linguagens logográficas (ou seja, linguagens que usam símbolos e caracteres em vez de letras individuais).
Estes benefícios concentram-se em grande medida nas línguas que não utilizam o alfabeto romano. As reduções de poupança foram estimadas da seguinte forma:
- As línguas indianas, como o hindi, o tâmil ou o gujarati, têm uma redução de 2,9 a 4,4 vezes nos tokens
- O árabe tem uma redução de ~2x nos tokens
- As línguas do Leste Asiático, como o chinês, o japonês e o vietnamita, têm uma redução de 1,4 a 1,7 vezes no número de tokens
Eliminar o fosso digital da IA
A era digital trouxe consigo uma extensão do antigo e bem documentado fosso de riqueza - o fosso digital. Tal como o acesso à riqueza e a infra-estruturas sólidas é exclusivo de certas populações, também o é o acesso à IA e às oportunidades e benefícios que a acompanham.
Robert Opp, Chief Digital Officer do Programa das Nações Unidas para o Desenvolvimento (PNUD), explicou que a presença de plataformas de IA tem a capacidade de fazer ou quebrar as métricas de desenvolvimento de um país inteiro:
Ao reduzir para metade o custo do GPT-4o e ao introduzir um nível gratuito, o OpenAI está a dar um passo crucial no sentido de neutralizar um dos maiores problemas da IA - e de abordar diretamente a desigualdade que preocupa os decisores políticos e os economistas.
Uma ação de relações públicas positiva para a grande IA é mais necessária do que os entusiastas possam pensar. À medida que a IA se torna cada vez mais presente no nosso quotidiano, tanto os defensores como os cépticos têm perguntado como poderemos utilizar a IA "para o bem".
De acordo com o doutor em IA e educador Louis Bouchard, a distribuição de um acesso mais alargado à IA é a forma de fazer exatamente isso: "Tornar a IA acessível é uma forma, se não a melhor, de a utilizar 'para o bem'". O seu raciocínio? Se não formos capazes de controlar totalmente os impactos positivos e negativos da tecnologia de IA - pelo menos nos seus primórdios - podemos, em vez disso, garantir a igualdade de acesso aos seus potenciais benefícios.
Potencial multimodal alargado
A forma mais comum de interagir com um chatbot de uma empresa é através de texto, mas as capacidades multimodais melhoradas do novo modelo de IA do OpenAIsugerem que esta situação poderá mudar no futuro.
No próximo ano, é provável que vejamos uma maré de programadores a lançar novas aplicações que aproveitam ao máximo as novas capacidades de áudio, visão e vídeo acessíveis.
Por exemplo, os chatbots com tecnologia GPT podem ter a capacidade de:
- Pedir aos clientes uma imagem do artigo que estão a devolver para identificar o produto e garantir que não está danificado
- Fornecer tradução áudio em conversação em tempo real que tenha em conta os dialectos específicos da região
- Saber se o seu bife está cozinhado a partir de uma imagem do mesmo na frigideira
- Funciona como um guia turístico pessoal sem custos, fornecendo o contexto histórico com base numa imagem de uma catedral antiga, fornecendo tradução em tempo real e dando uma visita personalizada por voz que permite a comunicação e as perguntas
- Potenciar uma aplicação de aprendizagem de línguas que ouça o áudio, possa dar feedback sobre a pronúncia com base num vídeo dos movimentos da boca ou ensine linguagem gestual através de imagens e vídeo
- Prestar apoio não urgente ao bem-estar mental, combinando a sua capacidade de interpretar áudio e vídeos, permitindo uma terapia de conversação de baixo custo
Com modelos de IA capazes de interpretar imagens e áudio, a nossa compreensão de como o LLMs nos pode servir está a expandir-se rapidamente.
Multimodalidade significa acessibilidade
Já vimos as funcionalidades multimodais melhoradas serem utilizadas para fins sociais. Um exemplo perfeito é a parceria doOpenAIcom a Be My Eyes.
A Be My Eyes é uma start-up dinamarquesa que liga utilizadores com deficiência visual a voluntários videntes. Quando um utilizador precisa de ajuda - como escolher os produtos enlatados certos no supermercado ou identificar a cor de uma t-shirt - a aplicação liga-o a um voluntário vidente em todo o mundo através de vídeo via smartphone.
OpenAIA nova capacidade de visão da Be My Eyes pode proporcionar uma experiência ainda mais útil aos utilizadores. Em vez de dependerem de um voluntário humano para decifrar visualmente uma imagem ou um vídeo em tempo real, os utilizadores cegos podem transmitir uma imagem ou um vídeo para o seu dispositivo, ao qual o modelo pode responder com informações áudio.
OpenAI e a Be My Eyes, agora parceiros de confiança, estão a preparar o caminho para uma maior independência das pessoas legalmente cegas em todo o mundo. O Diretor Executivo da Be My Eyes, Michael Buckley, explica o seu impacto:
O novo serviço será lançado em breve, no verão de 2024, pela primeira vez. Os utilizadores com acesso antecipado têm vindo a testar a versão beta das novas funcionalidades de visão, vídeo e áudio com excelentes críticas. Embora os impactos da IA possam ser motivo de preocupação para os cépticos, esta parceria é um sinal claro dos impactos positivos que pode trazer. Compreender o bem social que advém da IA avançada é um passo crucial para as suas relações públicas.
Como é que vamos avaliar os futuros modelos LLM ?
À medida que os concorrentes continuam numa corrida para o fundo do poço - para criar o LLM mais barato e mais rápido - coloca-se a questão: como é que vamos avaliar os modelos de IA de amanhã?
A dada altura no futuro, os principais criadores de LLM (provavelmente OpenAI e Google) atingirão um patamar na rapidez com que os seus modelos podem ser executados e no preço que podem oferecer. Quando atingirmos a estabilidade em termos de custo e velocidade, como é que vamos coroar o modelo líder de mercado?
Qual será o novo sinal dos tempos? Quer se trate das personalidades disponíveis do seu modelo de inteligência artificial, das capacidades de melhoramento de vídeo, das funcionalidades disponíveis para utilizadores gratuitos ou de novas métricas que ultrapassam a nossa compreensão atual, a próxima geração de LLMs está à nossa porta.
IA Chatbots Made Easy
E se o seu chatbot de IA se sincronizasse automaticamente com cada atualização de GPT ?
Botpress fornece soluções de chatbot de IA personalizáveis desde 2017, proporcionando aos programadores as ferramentas de que necessitam para criar facilmente chatbots com o poder da mais recente LLMs. Os chatbots Botpress podem ser treinados em fontes de conhecimento personalizadas - como o seu sítio Web ou catálogo de produtos - e integrar-se perfeitamente nos sistemas empresariais.
A única plataforma que vai desde a configuração sem código até à personalização e extensão infinitas, Botpress permite-lhe obter automaticamente o poder da versão mais recente de GPT no seu chatbot - sem necessidade de esforço.
Comece aconstruir hoje. É grátis.
Índice
Mantenha-se atualizado com as últimas novidades sobre agentes de IA
Partilhar isto em: