- O GPT-4o é duas vezes mais rápido e custa metade do preço do GPT-4 Turbo, reduzindo drasticamente o custo e acelerando o tempo de resposta dos chatbots de IA.
- O novo modelo permite recursos multimodais avançados — incluindo voz, vídeo, tradução em tempo real e visão — o que abre novas possibilidades de uso para chatbots além do texto.
- Ganhos de eficiência na tokenização, especialmente para idiomas que não usam o alfabeto romano, significam uma economia significativa para implantações globais de chatbots.
- As melhorias de velocidade impactam diretamente a experiência do usuário, reduzindo o tempo de espera que tradicionalmente frustra quem usa chatbots.
Duas vezes mais rápido e metade do preço – o que o GPT-4o representa para chatbots de IA?
Após um anúncio misterioso, a OpenAI lançou a versão mais recente do seu modelo principal: o GPT-4o.
O novo modelo não recebeu apenas melhorias chamativas em recursos multimodais. Ele está mais rápido e mais barato que o GPT-4 Turbo. Enquanto a mídia tradicional destaca as capacidades de vídeo e voz do novo modelo para o ChatGPT, o novo custo e velocidade são igualmente impactantes para quem utiliza o GPT para alimentar seus aplicativos.

“A disponibilidade do 4o tem o poder de melhorar significativamente tanto a experiência de quem constrói quanto de quem usa”, disse Patrick Hamelin, líder de engenharia de software na Botpress. “O impacto é maior do que imaginamos.”
Vamos então analisar como o novo modelo vai transformar os chatbots de IA.
Capacidades do modelo
O novo modelo principal traz uma lista empolgante de atualizações e novos recursos: voz e vídeo aprimorados, tradução em tempo real, linguagem mais natural. Ele pode analisar imagens, entender uma variedade maior de áudios, ajudar a resumir, facilitar traduções em tempo real e criar gráficos. Usuários podem enviar arquivos e ter conversas de voz. Ele até conta com um aplicativo para desktop.
Nos vídeos de lançamento, funcionários da OpenAI (e parceiros como Sal Khan, da Khan Academy) mostram o GPT preparando um usuário para uma entrevista de emprego, cantando, identificando emoções humanas por expressões faciais, resolvendo equações matemáticas escritas e até interagindo com outro ChatGPT-4o.
O lançamento mostrou uma nova realidade em que um modelo de IA é capaz de analisar o que está escrito no caderno do seu filho e responder. Ele pode explicar o conceito de frações pela primeira vez, mudando o tom e a abordagem conforme a compreensão da criança — pode ir além de chatbot e se tornar um tutor pessoal.

O que o GPT-4o representa para chatbots baseados em LLM?
Chatbots de IA que usam LLMs recebem uma atualização toda vez que empresas como a OpenAI atualizam seus modelos. Se um agente LLM está conectado a uma plataforma de criação de bots como a Botpress, ele recebe todos os benefícios do modelo GPT mais recente em seus próprios chatbots.
Com o lançamento do GPT-4o, chatbots de IA agora podem optar por rodar no modelo avançado, mudando suas capacidades, preço e velocidade. O novo modelo tem limites de uso 5 vezes maiores que o GPT-4 Turbo, podendo processar até 10 milhões de tokens por minuto.
Para bots que usam integrações de áudio como Twilio na Botpress, surge um novo mundo de interação por voz. Em vez de ficarem limitados ao processamento de áudio antigo, os chatbots estão mais próximos de imitar a interação humana.
Talvez o mais importante seja o custo reduzido para usuários pagantes. Rodar um chatbot com as mesmas capacidades por metade do preço pode aumentar drasticamente o acesso e a acessibilidade em todo o mundo. E usuários da Botpress não pagam custos extras de IA em seus bots — então essa economia vai direto para quem constrói.
E para quem usa, o GPT-4o significa uma experiência muito melhor. Ninguém gosta de esperar. Respostas mais rápidas aumentam a satisfação dos usuários de chatbots de IA.

Usuários adoram velocidade
Um dos principais pilares para adoção de chatbots é melhorar a experiência do usuário. E o que melhora mais a experiência do que reduzir o tempo de espera?
“Com certeza será uma experiência melhor”, disse Hamelin. “A última coisa que você quer é ficar esperando alguém.”
Ninguém gosta de esperar. Já em 2003, um estudo mostrou que as pessoas estavam dispostas a esperar apenas cerca de 2 segundos para uma página carregar. Nossa paciência certamente não aumentou desde então.
E todo mundo odeia esperar
Existem inúmeras dicas de UX para reduzir o tempo de espera percebido. Muitas vezes não conseguimos acelerar os eventos, então focamos em fazer o usuário sentir que o tempo passa mais rápido. Feedback visual, como uma barra de carregamento, existe para diminuir a sensação de espera.
Em uma história famosa sobre o tempo de espera do elevador, um antigo prédio em Nova York recebia inúmeras reclamações. Os moradores tinham que esperar 1 a 2 minutos pelo elevador. O prédio não podia trocar o elevador por um modelo novo e os moradores ameaçavam romper o contrato de aluguel.
Um novo funcionário, formado em psicologia, percebeu que o problema real não eram os dois minutos perdidos — era o tédio. Ele sugeriu instalar espelhos para que os moradores pudessem se olhar ou observar outros enquanto esperavam. As reclamações acabaram, e hoje é comum ver espelhos em halls de elevador.
Em vez de recorrer a atalhos para melhorar a experiência — como feedbacks visuais — a OpenAI melhorou a experiência na raiz. A velocidade é central para a experiência do usuário, e não há truque que supere a satisfação de uma interação eficiente.
Economia para todos
Usar esse novo modelo de IA para rodar aplicações ficou de repente mais barato. Muito mais barato.
Rodar um chatbot de IA em larga escala pode sair caro. O LLM que alimenta seu bot determina quanto você vai pagar por cada interação em grande escala (pelo menos na Botpress, onde igualamos o gasto de IA ao custo do LLM).
E essa economia não é só para desenvolvedores que usam API. O ChatGPT-4o é a versão gratuita mais recente do LLM, junto com o GPT-3.5. Usuários gratuitos podem usar o app do ChatGPT sem custo.
Tokenização melhorada
Se você interage com o modelo em um idioma que não usa o alfabeto romano, o GPT-4o reduz ainda mais seus custos de API.

O novo modelo traz limites de uso aprimorados. Ele representa um grande avanço em eficiência de tokenização, especialmente em certos idiomas que não são o inglês.
O novo modelo de tokenização exige menos tokens para processar o texto de entrada. É muito mais eficiente para idiomas logográficos (ou seja, que usam símbolos e caracteres em vez de letras individuais).
Esses benefícios são especialmente relevantes para idiomas que não usam o alfabeto romano. As reduções estimadas foram as seguintes:
- Idiomas indianos, como hindi, tâmil ou gujarati, têm redução de 2,9 a 4,4 vezes no número de tokens
- Árabe tem redução de cerca de 2 vezes no número de tokens
- Idiomas do leste asiático, como chinês, japonês e vietnamita, têm redução de 1,4 a 1,7 vezes no número de tokens
Fechando a divisão digital da IA
A era digital trouxe uma extensão da antiga e bem documentada desigualdade de riqueza — a divisão digital. Assim como o acesso à riqueza e infraestrutura é exclusivo para algumas populações, o acesso à IA e às oportunidades e benefícios que ela traz também é.
Robert Opp, Diretor Digital do Programa das Nações Unidas para o Desenvolvimento (PNUD), explicou que a presença de plataformas de IA pode determinar o sucesso ou fracasso dos indicadores de desenvolvimento de um país:

Ao reduzir pela metade o custo do GPT-4o e lançar uma versão gratuita, a OpenAI está dando um passo importante para neutralizar um dos maiores problemas da IA – e enfrentando diretamente a desigualdade que preocupa formuladores de políticas e economistas.
Uma ação positiva de relações públicas para grandes empresas de IA é mais necessária do que os entusiastas imaginam. Com a IA cada vez mais presente no nosso dia a dia, tanto defensores quanto céticos questionam como podemos usar a IA 'para o bem'.

Segundo o doutor em IA e educador Louis Bouchard, ampliar o acesso à IA é justamente como fazemos isso: “Tornar a IA acessível é uma das formas, senão a melhor, de usar a IA 'para o bem'.” O motivo? Se não conseguimos controlar totalmente os impactos positivos e negativos da tecnologia de IA – pelo menos nos primeiros anos – podemos garantir acesso igualitário aos seus benefícios.
Potencial Multimodal Ampliado
A forma mais comum de interagir com chatbots de empresas é por texto, mas as capacidades multimodais aprimoradas do novo modelo de IA da OpenAI sugerem que isso pode mudar daqui para frente.
No próximo ano, provavelmente veremos uma onda de desenvolvedores lançando novos aplicativos que aproveitam ao máximo os recursos de áudio, visão e vídeo agora acessíveis.
Por exemplo, chatbots com GPT podem ser capazes de:
- Pedir ao cliente uma foto do item que está devolvendo para identificar o produto e garantir que não está danificado
- Oferecer tradução de áudio em tempo real durante conversas, levando em conta dialetos regionais
- Dizer se seu bife está no ponto a partir de uma foto dele na frigideira
- Funcionar como um guia turístico pessoal gratuito, fornecendo contexto histórico a partir da imagem de uma catedral antiga, traduzindo em tempo real e oferecendo um tour personalizado por voz com interação e perguntas
- Impulsionar um aplicativo de aprendizado de idiomas que escuta o áudio do usuário, dá feedback sobre pronúncia com base em vídeo dos movimentos da boca ou ensina linguagem de sinais por imagens e vídeos
- Oferecer suporte de bem-estar mental não urgente ao combinar a interpretação de áudio e vídeo, possibilitando terapia conversacional de baixo custo
Com modelos de IA capazes de interpretar imagens e áudio, nossa compreensão sobre como LLMs podem nos servir está se expandindo rapidamente.
Multimodalidade é acessibilidade
Já vimos recursos multimodais sendo usados para o bem social. Um exemplo perfeito é a parceria da OpenAI com o Be My Eyes.
Be My Eyes é uma startup dinamarquesa que conecta pessoas com deficiência visual a voluntários videntes. Quando o usuário precisa de ajuda – como escolher o produto certo no supermercado ou identificar a cor de uma camiseta – o app conecta com um voluntário do mundo todo por vídeo via smartphone.

A nova capacidade de visão da OpenAI pode oferecer uma experiência ainda mais útil para usuários do Be My Eyes. Em vez de depender de um voluntário humano para interpretar imagens ou vídeos em tempo real, usuários cegos podem enviar uma imagem ou vídeo para o dispositivo e o modelo responde com informações em áudio.
OpenAI e Be My Eyes, agora parceiros de confiança, estão abrindo caminho para mais independência de pessoas com deficiência visual em todo o mundo. O CEO do Be My Eyes, Michael Buckley, explica o impacto:

O novo serviço será lançado em breve, no verão de 2024, pela primeira vez. Usuários de acesso antecipado já estão testando os novos recursos de visão, vídeo e áudio e recebendo avaliações muito positivas. Embora os impactos da IA possam gerar preocupação entre céticos, essa parceria é uma prova clara dos benefícios positivos que ela pode trazer. Compreender o bem social proporcionado por IA avançada é um passo fundamental para sua aceitação pública.
Como avaliaremos os futuros modelos LLM?
Com os concorrentes disputando para criar o LLM mais barato e rápido, surge a questão: como avaliaremos os modelos de IA do futuro?
Em algum momento, os principais criadores de LLM (provavelmente OpenAI e Google) vão atingir um limite de velocidade e custo de acesso. Quando houver estabilidade nesses quesitos, como definiremos o modelo líder do mercado?
O que será o novo diferencial? Seja a variedade de personalidades do seu modelo de inteligência artificial, as capacidades de aprimoramento de vídeo, os recursos disponíveis para usuários gratuitos ou métricas totalmente novas, a próxima geração de LLMs já está chegando.
Chatbots de IA sem complicação
E se seu chatbot de IA sincronizasse automaticamente com cada atualização do GPT?
Desde 2017, a Botpress oferece soluções personalizáveis de chatbots de IA, dando aos desenvolvedores as ferramentas necessárias para criar chatbots facilmente com o poder dos LLMs mais recentes. Os chatbots da Botpress podem ser treinados com fontes de conhecimento personalizadas – como seu site ou catálogo de produtos – e se integram facilmente a sistemas empresariais.
Sendo a única plataforma que vai da configuração sem código até personalização e extensibilidade ilimitadas, a Botpress permite que você tenha automaticamente o poder da versão mais recente do GPT no seu chatbot – sem esforço.
Comece a construir hoje mesmo. É grátis.
Perguntas frequentes
1. Como faço para mudar meu chatbot atual para GPT-4o na Botpress?
Para mudar seu chatbot atual para GPT-4o na Botpress, acesse o Botpress Studio, vá até as configurações de LLM do seu assistente e selecione GPT-4o na lista de modelos disponíveis. A alteração é aplicada instantaneamente, sem necessidade de alteração de código.
2. Existem pré-requisitos para usar o GPT-4o na plataforma Botpress (por exemplo, SDKs, versões de API)?
Não, não há pré-requisitos para usar o GPT-4o na Botpress. A plataforma gerencia automaticamente todos os SDKs, atualizações de API e dependências de backend, então basta selecionar o GPT-4o nas configurações para ativá-lo.
3. O GPT-4o pode ser ajustado ou personalizado para casos de uso específicos de negócios através do Botpress?
Embora o GPT-4o não possa ser ajustado no sentido tradicional dentro da Botpress, você pode personalizar suas respostas e comportamento usando engenharia de prompts, lógica de fluxo, bases de conhecimento e variáveis. Isso permite que o GPT-4o atue de forma contextual para as necessidades do seu negócio sem retreinar o modelo.
4. Existem limitações no uso de recursos multimodais (voz, visão) nos fluxos de trabalho do Botpress?
Sim, atualmente a Botpress oferece suporte a recursos de voz por meio de integrações como Twilio ou Dialogflow Voice Gateway, mas capacidades multimodais como processamento de imagens ou vídeos ainda não são totalmente suportadas. O uso de entradas baseadas em visão ainda está em análise ou requer soluções alternativas.
5. Existem custos ocultos ao utilizar recursos avançados do GPT-4o, como tradução em tempo real ou entrada por visão?
Não, não há custos ocultos para usar os recursos avançados do GPT-4o na Botpress. Os benefícios de velocidade e eficiência do GPT-4o já estão incluídos no seu plano Botpress, e os custos do LLM são cobertos pela Botpress – ou seja, os usuários não pagam taxas extras para usar as melhorias do GPT-4o.





.webp)
