Arma Secreta do DeepSeek-V3 Revelada - Como uma IA de 671 Bilhões de Parâmetros Roda em Apenas 2.048 GPUs

Por
Lang Wang
5 min de leitura

A Arma Secreta do DeepSeek-V3: Como uma IA de 671B de Parâmetros Roda com Apenas 2.048 GPUs

A inovação em IA não é mais só sobre modelos maiores — é sobre construir sistemas mais inteligentes. Enquanto gigantes da tecnologia correm para escalar modelos de bilhões de parâmetros, a pesquisa mais recente da DeepSeek entrega uma contra-narrativa que está ganhando atenção pelos motivos certos: performance sem excesso. O artigo recém-publicado, “Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures”, revela não apenas como o DeepSeek-V3 alcança benchmarks de ponta, mas por que ele pode fazer isso de forma mais econômica do que qualquer modelo de larga escala comparável.

E isso não é jogada de marketing. É um roteiro de como a co-concepção hardware-software está mudando o jogo da IA — e cortando custos de infraestrutura no processo.


Parte I: A Estratégia de Arquitetura da DeepSeek — Por que 37B > 405B

No centro da performance e vantagem de custo do DeepSeek-V3 está sua arquitetura Mixture-of-Experts (MoE). Dos seus massivos 671 bilhões de parâmetros totais, apenas 37 bilhões são ativados por token. Essa escolha de design reduz drasticamente os requisitos de processamento por passagem direta:

  • 250 GFLOPs/token contra 394 GFLOPs/token para modelos densos de 72B
  • Mais de 10× mais eficiente que modelos densos de 405B (2.448 GFLOPs/token)

A mensagem é clara: a ativação esparsa, quando executada corretamente, escala melhor — não apenas na teoria, mas em hardware real. Esse design torna o DeepSeek-V3 eficiente em custo para treinar e implementar, mesmo em escala sem precedentes.


Parte II: Inovações Conscientes de Hardware Que Reduzem Custos em Cada Camada

Os insights mais convincentes do artigo vêm da otimização conjunta sistemática de hardware e modelo que os engenheiros da DeepSeek incorporaram no processo de treinamento. Não são ajustes superficiais; representam um repensar profundo de como os LLMs interagem com a infraestrutura física.

1. Multi-Head Latent Attention (MLA)

O MLA compacta caches Chave-Valor (KV) em representações latentes compactas, reduzindo drasticamente o uso de memória:

  • Tamanho do cache KV: 70 KB por token, uma redução de 327–516 KB
  • Permite janelas de contexto mais longas e escalonamento de hardware mais eficiente

Isso não só melhora o throughput (vazão) por GPU, mas também torna o modelo viável para ambientes com menos memória.

2. Treinamento de Precisão Mista FP8

O uso de precisão FP8 granular pela DeepSeek reduz significativamente a sobrecarga de memória e processamento:

  • Reduz pela metade a memória de ativação
  • Mantém a degradação da precisão mínima
  • Permite que um modelo MoE de 671B seja treinado com apenas 2.048 GPUs NVIDIA H800

Isso é uma fração do que é usado para treinar modelos como o GPT-4, e reduz os custos de treinamento das centenas de milhões para menos de 6 milhões de dólares.

3. Predição Especulativa Multi-Token

Essa nova estratégia de decodificação prediz e verifica múltiplos tokens em paralelo, levando a:

  • Aumento de 1,8x no throughput (vazão)
  • Inferência significativamente mais rápida sem comprometer a qualidade da saída.

É uma mudança arquitetônica simples que tem grandes implicações para o custo e latência de serviço.

4. Otimização de Comunicação e Rede

Desde sobrepor a comunicação MoE com o processamento até implementar a compressão de rede FP8, cada parte da infraestrutura do DeepSeek-V3 é projetada para eficiência:

  • Redução de 50% na largura de banda de comunicação
  • Interconexão personalizada de dois níveis (fat-tree) reduz o custo de hardware mantendo baixa latência
  • Eficiente o suficiente para escalar para mais de 16.000 GPUs

Essas decisões refletem a realidade de treinar modelos grandes em ambientes restritos, sejam laboratórios acadêmicos ou startups.


Parte III: Impacto no Mundo Real e Implicações Estratégicas

Embora o modelo já tenha sido reconhecido por sua performance — superando até o GPT-4.5 em tarefas como matemática e geração de código — as decisões de nível de infraestrutura reveladas neste artigo são as que carregam valor estratégico de longo prazo.

Para Investidores e Provedores de Nuvem

  • Liderança em Custo: O custo de treinamento do DeepSeek de 5,576 milhões de dólares contrasta fortemente com as centenas de milhões da OpenAI.
  • Economia Unitária: Com um custo de inferência tão baixo quanto 2,19 dólares por milhão de tokens de saída, o DeepSeek é mais de 90% mais barato que a OpenAI (60,00 dólares).
  • Disrupção de Mercado: Este modelo de precificação contribuiu para uma correção global nas ações de IA e uma queda de 18% no preço das ações da Nvidia no início deste ano.

Para Empresas

  • Viabilidade de Implementação em Edge: O MoE esparso torna viável rodar modelos poderosos em GPUs de consumo ou dispositivos edge locais.
  • Adoção por Empresas: O DeepSeek foi integrado em equipes de desenvolvimento, com reduções de 35% no tempo de codificação rotineira relatadas em uso de campo.

Para Comunidades de Código Aberto

  • Acesso e Extensibilidade: O DeepSeek-V3 está disponível via OpenRouter, Hugging Face e APIs — totalmente de código aberto e para ajuste fino.
  • Resposta da Comunidade: Mais de 15.000 estrelas no GitHub, mais de 3.000 versões ajustadas, e um ecossistema crescendo rapidamente na Ásia, Europa e América do Norte.

Parte IV: O Que Há de Novo no DeepSeek-V3-0324?

Embora o DeepSeek-V3 esteja disponível há meses, a atualização de março de 2025 (V3-0324) adiciona força significativa:

  • Contagem de parâmetros aumentada para 685B
  • Ganhos importantes em benchmarks:
    • MMLU-Pro: 75.9 → 81.2
    • AIME: 39.6 → 59.4
    • GPQA: 59.1 → 68.4
  • Melhoria na geração de código e frontend
  • Performance mais forte em PLN (Processamento de Linguagem Natural) em chinês e chamada de função
  • Continua a superar modelos proprietários líderes em tarefas multilíngues e de raciocínio.

Mais crucialmente ainda, o artigo documenta frameworks FP8 de código aberto, recomendações de layout de hardware e métodos de compressão que servem como um roteiro para qualquer pessoa que queira construir LLMs de forma eficiente.


Conclusão: O Que Isso Significa Para o Futuro do Escalonamento de IA

DeepSeek-V3 é mais do que um modelo poderoso — é um estudo de caso em escalonamento de IA sustentável. O artigo técnico recém-lançado desmistifica como a DeepSeek alcançou paridade de performance com líderes de mercado a uma fração do custo de infraestrutura. É um chamado de atenção para a indústria: simplesmente jogar GPUs em um problema não é mais uma vantagem competitiva viável.

Em resumo:

  • MoE + FP8 + MLA = processamento massivamente eficiente
  • A relação custo-performance se tornou o novo campo de batalha
  • DeepSeek oferece um manual para startups e laboratórios desafiarem a "Grande IA" nos seus próprios termos

Agora a pergunta é: outros seguirão o roteiro — ou continuarão escalando da maneira antiga até a conta chegar?


Você Também Pode Gostar

Este artigo foi enviado por nosso usuário sob as Regras e Diretrizes para Submissão de Notícias. A foto de capa é uma arte gerada por computador apenas para fins ilustrativos; não indicativa de conteúdo factual. Se você acredita que este artigo viola direitos autorais, não hesite em denunciá-lo enviando um e-mail para nós. Sua vigilância e cooperação são inestimáveis para nos ajudar a manter uma comunidade respeitosa e em conformidade legal.

Inscreva-se na Nossa Newsletter

Receba as últimas novidades em negócios e tecnologia com uma prévia exclusiva das nossas novas ofertas

Utilizamos cookies em nosso site para habilitar certas funções, fornecer informações mais relevantes para você e otimizar sua experiência em nosso site. Mais informações podem ser encontradas em nossa Política de Privacidade e em nossos Termos de Serviço . Informações obrigatórias podem ser encontradas no aviso legal