Sob os Refletores, Por Trás da Cortina: O Gigante Que Não Veio
No eco das comemorações no Twitter, transmissões técnicas ao vivo e análises no YouTube que irromperam em 5 de abril, uma verdade permaneceu silenciosa nas sombras: o modelo de linguagem grande mais importante da Meta, Llama 4 Behemoth, ainda não chegou. Enquanto o mundo aplaudia o lançamento do Llama 4 Scout e Maverick, o carro-chefe da Meta — sua resposta à crescente rivalidade com OpenAI, Anthropic e Google — permanece inédito, ainda em treinamento e possivelmente atrasado.
A Meta declarou o lançamento de "uma nova era da IA multimodal", mas por baixo da engenharia elegante e das afirmações ousadas, especialistas descrevem uma crescente panela de pressão — uma corrida frenética para se manter à frente enquanto os concorrentes preparam sua próxima onda de modelos de código aberto.
"Precisávamos mostrar algo — especialmente depois que vocês noticiaram nosso atraso — qualquer coisa, na verdade. Antes que os novos lançamentos dos concorrentes matem nosso novo bebê também", disse-nos hoje um engenheiro de IA Generativa da Meta.
Esta é a história não contada por trás do Llama 4.
Os Modelos Que Foram Lançados: Scout e Maverick
No papel, o lançamento do Llama 4 Scout e Llama 4 Maverick é um marco para a comunidade de código aberto. Esses modelos, construídos em arquiteturas de mixture-of-experts, ampliam a fronteira da eficiência de inferência, extensão do contexto e capacidade multimodal. O Scout — um modelo ágil de 17 bilhões de parâmetros ativos com 16 experts — possui uma janela de contexto sem precedentes de 10 milhões de tokens, um feito inigualável por qualquer modelo lançado atualmente. Ele roda em uma única GPU H100, visando pesquisadores, desenvolvedores e equipes de produto de pequena escala.
O Maverick, por outro lado, é o cavalo de batalha: mesmo tamanho ativo, mas alimentado por 128 experts e 400 bilhões de parâmetros totais. Ele compete diretamente com o DeepSeek V3, Gemini 2.0 Flash e GPT-4o, oferecendo desempenho semelhante a custos de inferência mais baixos.
"Esta é a melhor relação custo-benefício do mercado agora", diz um analista de benchmark de IA. "Se você estiver construindo com o Llama 4 Maverick, não está apenas obtendo o raciocínio de nível OpenAI — está fazendo isso por uma fração dos ciclos de GPU."
As primeiras métricas comprovam isso: o Maverick já marcou 1417 no LM Arena (CTOL Editor Ken: Não confiamos muito no LM Arena, mas é o único disponível até agora), colocando-o no escalão superior, embora com um amplo intervalo de confiança devido a votos limitados.
No entanto, por mais impressionantes que sejam esses modelos, eles não eram a atração principal que a Meta havia planejado originalmente.
O Fantasma do Lançamento: Behemoth Permanece nas Coxias
Por trás do espetáculo de Scout e Maverick, o Llama 4 Behemoth está visivelmente ausente. Com 288 bilhões de parâmetros ativos, 16 experts e um tamanho total que se aproxima de 2 trilhões de parâmetros, ele é projetado não apenas para igualar, mas para eclipsar o GPT-o3 mini, Claude Sonnet 3.7 e Gemini 2.5 Pro em benchmarks técnicos. Internamente, ele é considerado o primeiro "Modelo de Fronteira" da Meta — aquele com o QI bruto para mudar a tabela de classificação de LLMs.
Mas o treinamento do Behemoth está em andamento. Sua data de lançamento permanece vaga. E esse silêncio é revelador.
"O processo de treinamento está consumindo muitos recursos", disse-nos o engenheiro da Meta. "Não está tranquilo. Pessoalmente, não tenho certeza de onde ele vai se situar em relação aos três primeiros agora — Gemini 2.5 Pro, Claude 3.7, O3 Mini."
Embora a Meta tenha provocado vitórias de benchmark em domínios STEM como MATH-500 e GPQA Diamond, eles estão notavelmente silenciosos sobre o desempenho generalista ou conversacional — uma bandeira vermelha para muitos analistas de IA.
Um engenheiro sênior de machine learning em uma empresa de infraestrutura de IA especulou que "gargalos de recursos e escalonamento instável de pipelines de RL nessa contagem de parâmetros" podem estar por trás dos atrasos. Outros apontam para a estratégia: "A Meta não queria arriscar lançar o Behemoth até que pudesse garantir resultados de primeira linha — há muito em jogo."
Isso inclui não apenas o prestígio, mas uma aposta existencial mais profunda: se o Llama 4 Behemoth não conseguir superar claramente o Claude ou o Gemini, a Meta corre o risco de ceder sua posição na corrida armamentista do domínio da IA, mesmo no reino de código aberto que ajudou a definir.
Maverick e Scout: Engenharia Elegante, Jogada Tática
O que Maverick e Scout oferecem é a melhor inovação da categoria no segmento de peso médio. A escolha da Meta pela arquitetura MoE — há muito descartada como muito complexa para ajustar ou implantar — agora se tornou seu trunfo.
No Scout, cada token é roteado apenas para um dos 16 experts mais uma camada compartilhada, permitindo eficiência computacional sem sacrificar a qualidade. Seu comprimento de contexto de 10 milhões de tokens não é apenas uma maravilha técnica — pode ser uma mudança de paradigma.
"Você está falando sobre resumir repositórios de código inteiros, raciocínio multidocumental ou memória persistente para agentes", disse um pesquisador. "É uma revolução funcional."
O Maverick, por outro lado, traz essa eficiência para o nível de um único host, ostentando 400 bilhões de parâmetros totais, roteamento mixture-of-experts e fluência multimodal aprimorada. Ele suporta entrada de texto+imagem e domina em QA visual e benchmarks de codificação como ChartQA e LiveCodeBench.
Seu processo de treinamento não foi menos rigoroso. Usando um pipeline de pós-treinamento baseado em currículo progressivo, a Meta removeu "dados fáceis", filtrou prompts usando modelos de julgamento internos e fez um loop de aprendizado por reforço com seleção de prompt apenas difícil — uma receita brutal, mas eficaz, para melhorar o desempenho.
Scout e Maverick foram ambos destilados do Behemoth — o que a Meta chama de "codestilação". Mas as implicações completas desse modelo de professor ainda são desconhecidas.
Falha no Teste Inicial contra Modelos Líderes: Llama 4 Maverick vs. Claude 3.7 Sonnet
Em um teste de lógica inicial frente a frente, o Llama 4 Maverick da Meta lutou para igualar o desempenho do Claude 3.7 Sonnet. Ambos os modelos foram incumbidos de resolver um quebra-cabeça de raciocínio de matriz 4×7 personalizado envolvendo elementos de fantasia e 15 pistas complexas. Enquanto Claude completou a tarefa rapidamente e entregou uma solução consistente e verificável na primeira tentativa, o Maverick exigiu várias continuações e repetidamente falhou nas verificações de verificação — inicialmente atribuindo artefatos duplicados a um personagem e mais tarde reconhecendo "contradições fatais" em sua lógica. Mesmo após várias passagens de correção, ele continuou a perder pistas e introduzir novas inconsistências. O testador observou que o estilo informal do Maverick, incluindo emojis e abreviações, obscureceu ainda mais seu raciocínio. Embora este seja apenas um teste, ele levanta preocupações iniciais sobre a confiabilidade do Maverick na resolução de problemas estruturados, particularmente quando a Meta ainda não lançou seu modelo Behemoth principal. E, novamente, a Meta precisa lançar um modelo Behemoth sólido para se manter relevante contra os principais modelos.
Código Aberto com um Asterisco
A Meta há muito posiciona o Llama como a ponta de lança da IA de código aberto. Mas a licença para o Llama 4 atraiu críticas. A cláusula "700 milhões de MAU" proíbe o uso por qualquer entidade com mais de 700 milhões de usuários ativos mensais — efetivamente impedindo que gigantes da tecnologia o adotem livremente.
"É uma contradição", disse um defensor da IA. "Você não pode chamá-lo de aberto se ele for armado para seus concorrentes."
Pior, a distribuição é limitada: para baixar, os usuários devem preencher um formulário, receber um link com tempo limitado e são permitidos cinco downloads em 48 horas.
Essas restrições artificiais estão frustrando muitos desenvolvedores. Nas palavras de um construtor de comunidade que teve acesso antecipado ao Scout:
"É o melhor modelo pequeno que já usei. Mas o lançamento? Pareceu mais solicitar um passaporte do que baixar um modelo de código aberto."
As Apostas: Estratégia de IA em 2025
Por que a ausência do Behemoth é importante?
Porque agora estamos na era da guerra de IA de código aberto, onde latência, custo por token e desempenho em tarefas de raciocínio difíceis definem não apenas a viabilidade do produto — mas a estratégia nacional.
Os modelos Scout e Maverick da Meta superam o Gemini 2.0 Flash na maioria das métricas. Mas eles não superam o Claude 3.7 Sonnet Thinking ou o Gemini 2.5 Pro. Apenas o Behemoth tem chance disso.
E a concorrência não está esperando.
Há rumores de que a DeepSeek lançará sua próxima geração de modelo de código aberto com recursos completos de raciocínio de código no início de maio. A OpenAI estaria preparando seu primeiro modelo de código aberto.
Se a Meta não conseguir lançar o Behemoth antes desses lançamentos, a onda de hype do Llama 4 pode se dissipar antes que possa solidificar o domínio do mercado.
O Que Vem a Seguir: Behemoth, LlamaCon e a Fronteira Real
A Meta está fazendo suas apostas em 29 de abril, quando sediará a LlamaCon, prometendo mais detalhes técnicos e — possivelmente — uma janela de lançamento para o Behemoth. Observadores da indústria dizem que este pode ser um momento decisivo para o roteiro de IA da empresa.
Até então, temos Scout e Maverick: tecnicamente brilhantes, lançados publicamente, mas estrategicamente interinos.
Como disse um analista:
"O Llama 4 é o movimento de abertura da Meta — mas o final do jogo depende do Behemoth."
O futuro da IA não está sendo construído apenas em público. Está sendo treinado, nos bastidores, em 32K GPUs, com cada hora, cada token, uma corrida contra o tempo.
Resumo:
- Llama 4 Scout: Um modelo de 17 bilhões de parâmetros, janela de contexto de 10M que cabe em uma única GPU H100. É o melhor da categoria para modelos multimodais compactos.
- Llama 4 Maverick: Modelo maior, de 400 bilhões de parâmetros com 128 experts. Supera o Gemini 2.0 Flash na maioria das métricas com impressionante custo-desempenho.
- Llama 4 Behemoth: Ainda em treinamento. Com 2T parâmetros, ele visa desafiar o Gemini 2.5 Pro, Claude 3.7 e O3 Mini — mas enfrenta dúvidas internas.
- Scout e Maverick são produtos de gama média e não conseguem superar os principais modelos como Claude Sonnet 3.7 ou Gemini 2.5 Pro
- Questões de abertura: Restrições de licenciamento e restrições de download geraram críticas da comunidade de código aberto.
- 29 de abril no LlamaCon: Todos os olhos se voltam para se a Meta pode finalmente revelar o Behemoth — e se valerá a pena esperar.
A história não acabou. Mas, por enquanto, o palco está montado. O Scout é rápido. O Maverick é forte. E o Behemoth? Ainda está nas sombras, ainda treinando, ainda incerto.