
Startup de IA Modular Arrecada US$ 250 Milhões para Desafiar o Domínio da NVIDIA no Poder de Computação
Startup do Vale do Silício Aposta US$ 250 Milhões para Quebrar o Domínio da NVIDIA na IA
Financiamento recorde da Modular revela crescente resistência contra a dependência de fornecedor, enquanto a demanda por IA dispara
Algo grande está mudando nas fazendas de servidores do Vale do Silício. À medida que as cargas de trabalho de IA consomem cada vez mais poder de computação, uma jovem startup acaba de garantir um cofre de guerra de US$ 250 milhões para enfrentar uma das forças mais dominantes da tecnologia: o controle absoluto da NVIDIA sobre a infraestrutura de IA.
Essa startup, a Modular, co-fundada pelo pioneiro em linguagens de programação Chris Lattner, anunciou na quarta-feira que garantiu uma rodada Série C liderada pelo fundo US Innovative Technology de Thomas Tull. A captação de recursos quase triplicou a avaliação de mercado da Modular para US$ 1,6 bilhão e elevou seu montante total desde o lançamento em 2022 para US$ 380 milhões. Ela agora está na linha de frente entre os desafiantes que buscam reescrever as regras da computação de IA.
Mas, por trás do alarde, a história é mais profunda. A indústria não está apenas em busca de chips mais rápidos; ela está lutando com uma realidade desconfortável: a demanda por computação está explodindo, mas grandes porções da capacidade atual permanecem ociosas devido a pilhas de software fragmentadas e específicas de fornecedor.
A Crise Silenciosa: Computação Desperdiçada em um Mundo Sedento por Poder
O apetite da IA por poder de processamento parece infinito. Data centers se erguem como catedrais de vidro, mas pessoas de dentro sussurram sobre as ineficiências escondidas à vista de todos. O problema não é o hardware em si – são os ecossistemas fechados que o envolvem.
A NVIDIA tem o CUDA. A AMD oferece o ROCm. A Apple protege seu próprio conjunto de frameworks. Cada um força os desenvolvedores para seu silo, deixando-os a jurar lealdade a um único fornecedor ou a gerenciar múltiplas bases de código a um custo exorbitante. Um analista chama isso de “imposto sobre a inovação”.
Esse imposto não é pequeno. O treinamento de modelos de IA fica mais caro a cada mês, mesmo com a queda dos custos de inferência. Empresas gastam quantias recordes em computação, mas grande parte desse gasto não entrega resultados devido a gargalos de software. Imagine uma frota de carros de corrida todos presos na primeira marcha – essa é a imagem que muitos engenheiros descrevem.
A Aposta da Modular: Construindo o “Sistema Operacional” da IA
A Modular acredita ter a solução. A empresa está se posicionando como o equivalente da VMware para a IA, a empresa que uma vez abstraiu o hardware de servidor e mudou a TI empresarial para sempre.
Sua plataforma conecta três grandes componentes. No topo está o Mammoth, um sistema de orquestração nativo do Kubernetes, otimizado para IA. Ao contrário da orquestração genérica, o Mammoth conhece as peculiaridades da inferência em larga escala – coisas como rotear requisições por tipo de carga de trabalho, separar o processamento do cache para uma alocação mais inteligente e gerenciar múltiplos modelos no mesmo hardware.
Em seguida, vem o MAX, a camada de serviço. Aqui, a Modular incluiu otimizações como decodificação especulativa e fusões em nível de operador. Também promete algo pragmático: compatibilidade. O MAX suporta PyTorch e modelos proprietários, enquanto expõe endpoints que se alinham com a API da OpenAI.
E na base está o Mojo, uma nova linguagem de sistemas que combina a facilidade do Python com a velocidade bruta do C++. Ao ser proprietária da própria linguagem, a Modular espera alcançar o mesmo tipo de aprisionamento tecnológico que o CUDA deu à NVIDIA – exceto que, desta vez, em todos os fornecedores.
Os primeiros benchmarks parecem promissores. A Modular afirma que sua pilha oferece um desempenho 20–50% melhor do que frameworks como vLLM e SGLang em hardware moderno, com reduções de latência de até 70% e economia de custos de até 80% para os parceiros.
Construindo Aliados em um Mercado Tudo ou Nada
A Modular não está entrando nessa batalha sozinha. Sua rodada de financiamento revelou uma aliança que se estende de provedores de nuvem a fabricantes de chips. Oracle, AWS, Lambda Labs e Tensorwave aderiram. Os parceiros de hardware incluem tanto a AMD quanto, curiosamente, a própria NVIDIA. Os clientes variam de startups como a Inworld a grandes empresas como a Jane Street.
Para as plataformas de nuvem, apoiar a Modular faz sentido. Uma camada de software unificada diminui sua dependência de qualquer fornecedor de chips e pode aumentar as taxas de utilização. Para a AMD e outros rivais, é uma chance de nivelar o campo de jogo com a NVIDIA, diminuindo os obstáculos de adoção.
O investidor Thomas Tull foi direto: “A implementação estratégica de IA é o fator competitivo mais importante na economia atual.” O subtexto é claro – quem controlar a camada de software pode moldar não apenas os mercados, mas também a competitividade nacional.
O momento não poderia ser melhor para os desafiantes. Os mais recentes chips MI350 da AMD igualam o desempenho da NVIDIA em muitas cargas de trabalho de IA, enquanto startups como Cerebras e Groq impulsionam arquiteturas especializadas que se destacam em casos de uso específicos. A camada de abstração da Modular poderia dar a essas alternativas uma chance de competir.
O Contra-ataque da NVIDIA
É claro, a NVIDIA não está parada. Sua plataforma NIM (NVIDIA Inference Microservices) empacota a implantação baseada em CUDA em contêineres simples. Para clientes satisfeitos dentro do mundo NVIDIA, esse modelo pronto para uso oferece simplicidade e desempenho imbatíveis.
Isso coloca a Modular em um clássico dilema do inovador. Ela deve convencer os desenvolvedores de que a flexibilidade e a liberdade multiplataforma superam o refinamento e a velocidade do ecossistema fechado da NVIDIA. Enquanto isso, concorrentes de código aberto como vLLM, SGLang e ONNX Runtime já contam com uma adesão significativa de desenvolvedores.
E as forças de mercado podem ditar os resultados tanto quanto a tecnologia. Com a demanda por GPUs superando a oferta, muitas organizações não podem escolher seu chip favorito. Elas aceitarão o que estiver disponível. Essa dinâmica por si só pode impulsionar a adoção de soluções neutras em relação ao fornecedor como a da Modular.
Por que os Investidores se Importam
Essa aposta de US$ 250 milhões destaca uma mudança na forma como o capital de risco vê a IA. Startups de modelos chamativas roubam as manchetes, mas players de infraestrutura são cada vez mais vistos como investimentos mais seguros e duradouros. Eles não precisam vencer a corrida armamentista da IA; eles lucram com ela, não importa quem construa os melhores modelos.
Com US$ 1,6 bilhão, a avaliação da Modular sugere que os investidores a veem como mais do que uma startup de software. Eles estão apostando que ela pode se tornar uma camada fundamental – como um pedágio pelo qual todo projeto de IA deve passar. Esse é o tipo de posicionamento que torna gigantes da nuvem ou fornecedores de hardware ávidos candidatos a aquisição.
O Caminho Adiante
Mesmo assim, o desafio da Modular é enorme. Não se trata apenas de construir uma linguagem ou um framework; é de abordar linguagem, runtime e orquestração ao mesmo tempo. Poucas empresas sobrevivem a esse tipo de escalada íngreme.
A história oferece tanto esperança quanto cautela. A VMware conseguiu e remodelou a TI. Muitos outros tentaram feitos semelhantes e falharam devido a compromissos de desempenho ou resistência de players estabelecidos. A Modular deve entregar uma velocidade que seja “boa o suficiente” em diferentes hardwares, enquanto oferece uma facilidade operacional que justifique a mudança.
O tempo está correndo. O ecossistema da NVIDIA se fortalece a cada dia, e os concorrentes de código aberto avançam rapidamente. A chance da Modular de fincar sua bandeira não ficará aberta para sempre.
Para o mundo da IA, as apostas são altas. Se a Modular for bem-sucedida, poderá inaugurar um futuro de opções de hardware diversas e competitivas, e preços mais justos. Se falhar, o domínio da NVIDIA poderá se solidificar em algo próximo do permanente.
Uma coisa é certa: à medida que os custos de computação de IA disparam e a oferta se torna mais escassa, o apelo da infraestrutura agnóstica de fornecedor só ficará mais forte. Se a Modular conseguirá transformar essa fome em sucesso duradouro pode decidir não apenas seu destino, mas também a forma da infraestrutura de IA para os próximos anos.
Tese de Investimento da Casa
| Aspecto | Resumo |
|---|---|
| Tese Central | Uma camada unificada de computação de IA é uma tendência real e de alta convicção, impulsionada pelo pluralismo de hardware e pela fadiga de aprisionamento de fornecedor. No entanto, seu sucesso depende de provar paridade de desempenho e simplicidade operacional contra a contra-ofensiva da NVIDIA (NIM, TensorRT-LLM). |
| Sinal Chave: Captação de Recursos da Modular | US$ 250M com avaliação de US$ 1,6B. Posicionada como a "VMware para IA", oferecendo uma pilha unificada (serviço compatível com OpenAI, plano de controle K8s, DSL de kernel) para abstrair CUDA/ROCm/ASICs para nuvens, empresas e ISVs. |
| Sinal Chave: Contra-ataque da NVIDIA | Os microsserviços NIM e o TensorRT-LLM oferecem um caminho pronto para uso e de alto desempenho dentro do ecossistema CUDA, criando um “botão fácil” convincente que desafia a necessidade de unificadores de terceiros. |
| Impulsionadores de Mercado (Causas Raiz) | 1. Fadiga de Aprisionamento de Fornecedor: Desejo por poder de precificação em relação à NVIDIA. 2. Pluralismo de Hardware: Alternativas críveis (AMD MI350, Groq, Gaudi, Apple MLX). 3. Complexidade Operacional: Necessidade de roteamento de preenchimento, quantização, etc., prontos para uso. 4. Movimentações de Capital: Neonuvens/nuvens precisam de utilização e portabilidade para um melhor ROIC. |
| Cenário Competitivo | Unificadores Horizontais: Modular (pilha completa), ONNX Runtime (pragmático), OpenXLA/IREE (IRs de compilador). Motores de Serviço: vLLM (padrão OSS), SGLang (player ágil), NVIDIA NIM/TRT-LLM (facilidade do incumbente), Hugging Face TGI (empresarial). Verticais de Hardware: NVIDIA (poço de gravidade), AMD (ganhando credibilidade), Groq (narrativa de velocidade). |
| Caminho para a Vitória (para Modular/Unificadores) | 1. Distribuição: Pré-instalações OEM em imagens de nuvem/neonuem. 2. Co-desenvolvimento com Fornecedores de Chips: Suporte no dia zero e paridade de desempenho em hardware não-NVIDIA. 3. Vitórias Operacionais: Entrega de recursos avançados (roteamento de preenchimento, multi-tenancy) por padrão. 4. Atração de Desenvolvedores: Sucesso da linguagem Mojo ou forte interoperabilidade de API PyTorch/OpenAI. |
| Principais Riscos / Modos de Falha | 1. Conveniência da NVIDIA: Se o NIM for “bom o suficiente”, a portabilidade perde o apelo. 2. Atraso de Desempenho: Ser mais lento (5-20%) em hardware comum desestimula a migração. 3. Risco de Excesso de Construção: O escopo de linguagem+runtime+plano de controle é muito grande. 4. Padrões Abertos: A maturação de ONNX/OpenXLA/vLLM poderia tornar uma nova camada redundante. |
| Foco da Due Diligence (para VCs) | 1. Prova de Portabilidade: SLOs de produção (TTFT, p95, US$/1M tokens) em B200 vs. MI350 vs. Gaudi. 2. Distribuição: Incorporação como opção padrão em marketplaces de nuvem. 3. Primitivos Operacionais: Paridade de recursos com o NIM (roteamento, cache, serviço de múltiplos modelos). 4. Ecossistema: Suporte a modelos, compatibilidade de API, benchmark vs. vLLM/SGLang. 5. Margens: Economia unitária da monetização “por tarefa”. |
| Oportunidades para Fundadores | 1. Observabilidade de LLM: Rastreamento em nível de token, atribuição de custos. 2. Cadeias de Ferramentas de Quantização: Limites de precisão comprováveis, teste A/B automático. 3. Segurança e Política Multi-tenant: Guardrails em nível de infraestrutura. 4. Unificação de Borda: Conectando ExecuTorch/MLX/NPUs com a malha da nuvem. |
| Implicações se a Camada Unificada Vencer | 1. Diversificação acelerada de chips (AMD/Gaudi/Groq ganham participação). 2. Nuvens/neonovens recuperam influência sobre a NVIDIA; melhoria na utilização/ROIC. 3. Padrões (ONNX, OpenXLA) se tornam mais poderosos. |
| Implicações se Falhar | A hegemonia do CUDA se aprofunda com o NIM; a adoção de hardware não-NVIDIA desacelera. |
| Previsões para 12-24 Meses | 1. Mundo de duas pilhas: Pilhas “NVIDIA-first” vs. “Unified-first” coexistem. 2. F&A: Um hiperescalador/neonuem adquire um unificador. 3. Participação da AMD aumenta em inferência à medida que runtimes unificados amadurecem. 4. Motores de serviço se consolidam; a competição muda para a operabilidade em vez de pequenas diferenças de desempenho. |
| KPIs para Acompanhar | 1. Custo: US$/1M tokens de saída @ p95 em B200 vs. MI350. 2. Velocidade: Tempo até a produção vs. NIM. 3. Cobertura: Suporte a chips/fornecedores e prontidão no dia zero. 4. Eficiência: Taxa de acerto do roteamento de preenchimento, reutilização de cache KV. 5. Distribuição: Imagens de marketplace e pré-empacotamento OEM. |
NÃO É CONSELHO DE INVESTIMENTO