O Gigante Desaparecido da Meta: O Colosso Llama 4 Ainda Sumido Enquanto os Rivais se Aproximam

Sob os Refletores, Por Trás da Cortina: O Gigante Que Não Veio

No eco das comemorações no Twitter, transmissões técnicas ao vivo e análises no YouTube que irromperam em 5 de abril, uma verdade permaneceu silenciosa nas sombras: o modelo de linguagem grande mais importante da Meta, Llama 4 Behemoth, ainda não chegou. Enquanto o mundo aplaudia o lançamento do Llama 4 Scout e Maverick, o carro-chefe da Meta — sua resposta à crescente rivalidade com OpenAI, Anthropic e Google — permanece inédito, ainda em treinamento e possivelmente atrasado.

A Meta declarou o lançamento de "uma nova era da IA multimodal", mas por baixo da engenharia elegante e das afirmações ousadas, especialistas descrevem uma crescente panela de pressão — uma corrida frenética para se manter à frente enquanto os concorrentes preparam sua próxima onda de modelos de código aberto.

"Precisávamos mostrar algo — especialmente depois que vocês noticiaram nosso atraso — qualquer coisa, na verdade. Antes que os novos lançamentos dos concorrentes matem nosso novo bebê também", disse-nos hoje um engenheiro de IA Generativa da Meta.

Esta é a história não contada por trás do Llama 4.

Os Modelos Que Foram Lançados: Scout e Maverick

No papel, o lançamento do Llama 4 Scout e Llama 4 Maverick é um marco para a comunidade de código aberto. Esses modelos, construídos em arquiteturas de mixture-of-experts, ampliam a fronteira da eficiência de inferência, extensão do contexto e capacidade multimodal. O Scout — um modelo ágil de 17 bilhões de parâmetros ativos com 16 experts — possui uma janela de contexto sem precedentes de 10 milhões de tokens, um feito inigualável por qualquer modelo lançado atualmente. Ele roda em uma única GPU H100, visando pesquisadores, desenvolvedores e equipes de produto de pequena escala.

O Maverick, por outro lado, é o cavalo de batalha: mesmo tamanho ativo, mas alimentado por 128 experts e 400 bilhões de parâmetros totais. Ele compete diretamente com o DeepSeek V3, Gemini 2.0 Flash e GPT-4o, oferecendo desempenho semelhante a custos de inferência mais baixos.

"Esta é a melhor relação custo-benefício do mercado agora", diz um analista de benchmark de IA. "Se você estiver construindo com o Llama 4 Maverick, não está apenas obtendo o raciocínio de nível OpenAI — está fazendo isso por uma fração dos ciclos de GPU."

As primeiras métricas comprovam isso: o Maverick já marcou 1417 no LM Arena (CTOL Editor Ken: Não confiamos muito no LM Arena, mas é o único disponível até agora), colocando-o no escalão superior, embora com um amplo intervalo de confiança devido a votos limitados.

No entanto, por mais impressionantes que sejam esses modelos, eles não eram a atração principal que a Meta havia planejado originalmente.

Llama 4 Maverick Official Benchmark Result

O Fantasma do Lançamento: Behemoth Permanece nas Coxias

Por trás do espetáculo de Scout e Maverick, o Llama 4 Behemoth está visivelmente ausente. Com 288 bilhões de parâmetros ativos, 16 experts e um tamanho total que se aproxima de 2 trilhões de parâmetros, ele é projetado não apenas para igualar, mas para eclipsar o GPT-o3 mini, Claude Sonnet 3.7 e Gemini 2.5 Pro em benchmarks técnicos. Internamente, ele é considerado o primeiro "Modelo de Fronteira" da Meta — aquele com o QI bruto para mudar a tabela de classificação de LLMs.

Mas o treinamento do Behemoth está em andamento. Sua data de lançamento permanece vaga. E esse silêncio é revelador.

"O processo de treinamento está consumindo muitos recursos", disse-nos o engenheiro da Meta. "Não está tranquilo. Pessoalmente, não tenho certeza de onde ele vai se situar em relação aos três primeiros agora — Gemini 2.5 Pro, Claude 3.7, O3 Mini."

Embora a Meta tenha provocado vitórias de benchmark em domínios STEM como MATH-500 e GPQA Diamond, eles estão notavelmente silenciosos sobre o desempenho generalista ou conversacional — uma bandeira vermelha para muitos analistas de IA.

Um engenheiro sênior de machine learning em uma empresa de infraestrutura de IA especulou que "gargalos de recursos e escalonamento instável de pipelines de RL nessa contagem de parâmetros" podem estar por trás dos atrasos. Outros apontam para a estratégia: "A Meta não queria arriscar lançar o Behemoth até que pudesse garantir resultados de primeira linha — há muito em jogo."

Isso inclui não apenas o prestígio, mas uma aposta existencial mais profunda: se o Llama 4 Behemoth não conseguir superar claramente o Claude ou o Gemini, a Meta corre o risco de ceder sua posição na corrida armamentista do domínio da IA, mesmo no reino de código aberto que ajudou a definir.

Maverick e Scout: Engenharia Elegante, Jogada Tática

O que Maverick e Scout oferecem é a melhor inovação da categoria no segmento de peso médio. A escolha da Meta pela arquitetura MoE — há muito descartada como muito complexa para ajustar ou implantar — agora se tornou seu trunfo.

No Scout, cada token é roteado apenas para um dos 16 experts mais uma camada compartilhada, permitindo eficiência computacional sem sacrificar a qualidade. Seu comprimento de contexto de 10 milhões de tokens não é apenas uma maravilha técnica — pode ser uma mudança de paradigma.

"Você está falando sobre resumir repositórios de código inteiros, raciocínio multidocumental ou memória persistente para agentes", disse um pesquisador. "É uma revolução funcional."

O Maverick, por outro lado, traz essa eficiência para o nível de um único host, ostentando 400 bilhões de parâmetros totais, roteamento mixture-of-experts e fluência multimodal aprimorada. Ele suporta entrada de texto+imagem e domina em QA visual e benchmarks de codificação como ChartQA e LiveCodeBench.

Seu processo de treinamento não foi menos rigoroso. Usando um pipeline de pós-treinamento baseado em currículo progressivo, a Meta removeu "dados fáceis", filtrou prompts usando modelos de julgamento internos e fez um loop de aprendizado por reforço com seleção de prompt apenas difícil — uma receita brutal, mas eficaz, para melhorar o desempenho.

Scout e Maverick foram ambos destilados do Behemoth — o que a Meta chama de "codestilação". Mas as implicações completas desse modelo de professor ainda são desconhecidas.

Falha no Teste Inicial contra Modelos Líderes: Llama 4 Maverick vs. Claude 3.7 Sonnet

Em um teste de lógica inicial frente a frente, o Llama 4 Maverick da Meta lutou para igualar o desempenho do Claude 3.7 Sonnet. Ambos os modelos foram incumbidos de resolver um quebra-cabeça de raciocínio de matriz 4×7 personalizado envolvendo elementos de fantasia e 15 pistas complexas. Enquanto Claude completou a tarefa rapidamente e entregou uma solução consistente e verificável na primeira tentativa, o Maverick exigiu várias continuações e repetidamente falhou nas verificações de verificação — inicialmente atribuindo artefatos duplicados a um personagem e mais tarde reconhecendo "contradições fatais" em sua lógica. Mesmo após várias passagens de correção, ele continuou a perder pistas e introduzir novas inconsistências. O testador observou que o estilo informal do Maverick, incluindo emojis e abreviações, obscureceu ainda mais seu raciocínio. Embora este seja apenas um teste, ele levanta preocupações iniciais sobre a confiabilidade do Maverick na resolução de problemas estruturados, particularmente quando a Meta ainda não lançou seu modelo Behemoth principal. E, novamente, a Meta precisa lançar um modelo Behemoth sólido para se manter relevante contra os principais modelos.

Código Aberto com um Asterisco

A Meta há muito posiciona o Llama como a ponta de lança da IA de código aberto. Mas a licença para o Llama 4 atraiu críticas. A cláusula "700 milhões de MAU" proíbe o uso por qualquer entidade com mais de 700 milhões de usuários ativos mensais — efetivamente impedindo que gigantes da tecnologia o adotem livremente.

"É uma contradição", disse um defensor da IA. "Você não pode chamá-lo de aberto se ele for armado para seus concorrentes."

Pior, a distribuição é limitada: para baixar, os usuários devem preencher um formulário, receber um link com tempo limitado e são permitidos cinco downloads em 48 horas.

Essas restrições artificiais estão frustrando muitos desenvolvedores. Nas palavras de um construtor de comunidade que teve acesso antecipado ao Scout:

"É o melhor modelo pequeno que já usei. Mas o lançamento? Pareceu mais solicitar um passaporte do que baixar um modelo de código aberto."

As Apostas: Estratégia de IA em 2025

Por que a ausência do Behemoth é importante?

Porque agora estamos na era da guerra de IA de código aberto, onde latência, custo por token e desempenho em tarefas de raciocínio difíceis definem não apenas a viabilidade do produto — mas a estratégia nacional.

Os modelos Scout e Maverick da Meta superam o Gemini 2.0 Flash na maioria das métricas. Mas eles não superam o Claude 3.7 Sonnet Thinking ou o Gemini 2.5 Pro. Apenas o Behemoth tem chance disso.

E a concorrência não está esperando.

Há rumores de que a DeepSeek lançará sua próxima geração de modelo de código aberto com recursos completos de raciocínio de código no início de maio. A OpenAI estaria preparando seu primeiro modelo de código aberto.

Se a Meta não conseguir lançar o Behemoth antes desses lançamentos, a onda de hype do Llama 4 pode se dissipar antes que possa solidificar o domínio do mercado.

O Que Vem a Seguir: Behemoth, LlamaCon e a Fronteira Real

A Meta está fazendo suas apostas em 29 de abril, quando sediará a LlamaCon, prometendo mais detalhes técnicos e — possivelmente — uma janela de lançamento para o Behemoth. Observadores da indústria dizem que este pode ser um momento decisivo para o roteiro de IA da empresa.

Até então, temos Scout e Maverick: tecnicamente brilhantes, lançados publicamente, mas estrategicamente interinos.

Como disse um analista:

"O Llama 4 é o movimento de abertura da Meta — mas o final do jogo depende do Behemoth."

O futuro da IA não está sendo construído apenas em público. Está sendo treinado, nos bastidores, em 32K GPUs, com cada hora, cada token, uma corrida contra o tempo.

Resumo:

Llama 4 Scout: Um modelo de 17 bilhões de parâmetros, janela de contexto de 10M que cabe em uma única GPU H100. É o melhor da categoria para modelos multimodais compactos.
Llama 4 Maverick: Modelo maior, de 400 bilhões de parâmetros com 128 experts. Supera o Gemini 2.0 Flash na maioria das métricas com impressionante custo-desempenho.
Llama 4 Behemoth: Ainda em treinamento. Com 2T parâmetros, ele visa desafiar o Gemini 2.5 Pro, Claude 3.7 e O3 Mini — mas enfrenta dúvidas internas.
Scout e Maverick são produtos de gama média e não conseguem superar os principais modelos como Claude Sonnet 3.7 ou Gemini 2.5 Pro
Questões de abertura: Restrições de licenciamento e restrições de download geraram críticas da comunidade de código aberto.
29 de abril no LlamaCon: Todos os olhos se voltam para se a Meta pode finalmente revelar o Behemoth — e se valerá a pena esperar.

A história não acabou. Mas, por enquanto, o palco está montado. O Scout é rápido. O Maverick é forte. E o Behemoth? Ainda está nas sombras, ainda treinando, ainda incerto.