Sistema CloudMatrix da Huawei Marca um Grande Passo Rumo à Independência da China em IA Generativa

Por
Lang Wang
4 min de leitura

Huawei Apresenta Sistema CloudMatrix para Inferência de Modelos de IA em Larga Escala

A Huawei divulgou documentação técnica detalhando seu sistema CloudMatrix384, uma plataforma de computação especializada construída em torno de 384 unidades de processamento neural Ascend-910C, projetada para a inferência de grandes modelos de IA. O sistema inclui o CloudMatrix-Infer, uma pilha de serviços otimizada para modelos de linguagem Mixture-of-Experts muito grandes, como o DeepSeek-R1, com 671 bilhões de parâmetros.

Arquitetura Técnica e Inovações

O sistema CloudMatrix implementa diversas inovações técnicas cruciais em sua arquitetura. Um elemento central do projeto é uma rede mesh Unified-Bus que permite a comunicação direta entre todas as NPUs e CPUs com sobrecarga mínima de latência. De acordo com o relatório técnico, essa interconexão adiciona menos de 3% de perda de largura de banda e menos de 1 microssegundo de latência durante a comunicação entre nós.

O sistema emprega uma abordagem desagregada para inferência de IA, separando o processo em três pools de recursos distintos: NPUs de pré-preenchimento (prefill), NPUs de decodificação (decode) e um cluster de cache com suporte DRAM. Esses componentes acessam-se diretamente através do Unified-Bus, eliminando a necessidade de agendadores sensíveis à localidade e permitindo uma utilização de recursos mais eficiente.

"Essa abordagem achata efetivamente a hierarquia de memória, permitindo agendadores stateless mais simples e caches agrupados", explica a documentação técnica, que observa que o projeto permite que a DRAM ociosa em qualquer lugar do sistema se torne disponível para caching de chave-valor ou modelo.

Métricas de Desempenho e Comparações

Dados de desempenho incluídos no relatório indicam que o sistema CloudMatrix atinge 6.688 tokens por segundo por NPU durante operações de pré-preenchimento com prompts de 4K tokens, o que se traduz em 4,45 tokens por segundo por TFLOPS. Para operações de decodificação, o sistema entrega 1.943 tokens por segundo por NPU com um tempo total de sobrecarga de processamento abaixo de 50 milissegundos ao operar com um tamanho de lote (batch size) de 96.

O relatório afirma que essas métricas de eficiência excedem os números publicados para sistemas comparáveis rodando em hardware NVIDIA H100 e H800. Quando limitado a requisitos de latência mais rigorosos de 15 milissegundos, o sistema mantém uma taxa de transferência de 538 tokens por segundo, ajustando automaticamente os tamanhos de lote.

Técnicas de quantização implementadas no sistema permitem a precisão INT8 quando apropriado, mantendo a precisão BF16/FP32 para operações sensíveis. O relatório indica que essa abordagem de precisão mista preserva a precisão do modelo, reduzindo substancialmente os requisitos de memória, com resultados de benchmark mostrando o modelo INT8 igualando ou quase igualando o desempenho da linha de base FP em conjuntos de avaliação de Inglês, Código, Matemática e Chinês.

Considerações Econômicas

A documentação técnica inclui estimativas de custo aproximadas para o sistema. Um rack completo do CloudMatrix384 é estimado em aproximadamente ¥ 50 milhões (cerca de US$ 6,9 milhões), com chips Ascend 910C individuais custando aproximadamente ¥ 150.000. Com base nas medições de taxa de transferência, isso se traduz em um custo estimado de aproximadamente ¥ 2 por milhão de tokens gerados.

O Serviço de Memória Elástica do sistema oferece benefícios adicionais de eficiência operacional, permitindo a troca de modelos em aproximadamente 5 segundos, contra 281 segundos com abordagens tradicionais de DRAM local no nó, enquanto exige apenas 1x o espaço de memória DRAM em comparação com 8x para abordagens convencionais.

Detalhes da Implementação Técnica

Várias técnicas especializadas contribuem para as características de desempenho do sistema:

  1. Paralelismo de Especialistas em Larga Escala – O sistema implementa paralelismo de especialistas para até 320 especialistas, distribuindo exatamente um especialista por chip NPU, enquanto usa paralelismo de dados para camadas densas.

  2. Pipelining Híbrido e de Micro-lotes – Para operações de pré-preenchimento, o sistema usa paralelismo de tensor híbrido e paralelismo de especialistas para Atenção Latente Multi-Head com pipelining de dois micro-lotes. As operações de decodificação usam atenção sobreposta e streams MoE por micro-lote.

  3. Predição de Múltiplos Tokens – O sistema gera dois tokens por passo com validação especulativa, proporcionando entre 6-49% de taxa de transferência adicional na decodificação, dependendo do tamanho do lote.

  4. Kernels Nativos Ascend – Implementações personalizadas de GEMM INT8 e operadores fundidos (fused operators) projetados especificamente para os motores de cubo/vetor/DMA da arquitetura Ascend ajudam a manter o desempenho com a estratégia de paralelismo escolhida.

Implicações de Mercado

O sistema CloudMatrix representa uma solução de computação de IA totalmente doméstica chinesa, desde o silício NPU até o software do sistema. O relatório técnico observa que, com as capacidades de fabricação da China, o sistema tem potencial para produção em massa.

A estratégia do modelo DeepSeek de fornecer pesos abertos para adoção pela comunidade, ao mesmo tempo em que oferece complementos comerciais para implementações privadas, alinha-se com o que o relatório descreve como o foco da política de Pequim no valor da aplicação, em vez da contagem bruta de parâmetros.

Para organizações que trabalham com modelos de IA em larga escala, o sistema potencialmente oferece uma abordagem econômica para inferência, particularmente para tarefas intensivas em dados, como destilação de modelos ou auto-treinamento sem extensas operações de rotulagem.

Desenvolvimentos Futuros

A documentação técnica descreve várias áreas para desenvolvimento futuro, incluindo interconexões ópticas mais densas e algoritmos de agendamento mais sofisticados. Os autores sugerem que a arquitetura atual poderia escalar para configurações ainda maiores do que a implementação de 384 NPUs detalhada no relatório.


Nota: Esta análise é baseada em informações técnicas fornecidas na documentação. Potenciais investidores devem realizar suas próprias pesquisas e consultar consultores financeiros antes de tomar decisões de investimento.

Você Também Pode Gostar

Este artigo foi enviado por nosso usuário sob as Regras e Diretrizes para Submissão de Notícias. A foto de capa é uma arte gerada por computador apenas para fins ilustrativos; não indicativa de conteúdo factual. Se você acredita que este artigo viola direitos autorais, não hesite em denunciá-lo enviando um e-mail para nós. Sua vigilância e cooperação são inestimáveis para nos ajudar a manter uma comunidade respeitosa e em conformidade legal.

Inscreva-se na Nossa Newsletter

Receba as últimas novidades em negócios e tecnologia com uma prévia exclusiva das nossas novas ofertas

Utilizamos cookies em nosso site para habilitar certas funções, fornecer informações mais relevantes para você e otimizar sua experiência em nosso site. Mais informações podem ser encontradas em nossa Política de Privacidade e em nossos Termos de Serviço . Informações obrigatórias podem ser encontradas no aviso legal