A Guerra de Preços: A Aposta Radical da DeepSeek em IA Mais Barata
A DeepSeek mais uma vez reduziu os custos de IA em até 75%, forçando rivais a repensarem suas estratégias e possivelmente abrindo as portas para um acesso mais amplo a tecnologias avançadas.
PEQUIM — Construir inteligência artificial sempre veio com uma dolorosa compensação: mais poder significa mais gastos. Mas o novo lançamento da DeepSeek, da China, acabou de quebrar essa regra mais uma vez, e os efeitos em cascata podem remodelar toda a indústria.
Pouco antes do feriado nacional da China — um momento que se tornou uma piada interna entre engenheiros que observam o ciclo implacável de lançamentos da empresa — a DeepSeek lançou seu modelo mais recente, o V3.2-Exp. Ao contrário de atualizações passadas, este não afirma superar seu predecessor. Em vez disso, faz uma aposta diferente: entregar aproximadamente o mesmo desempenho por uma fração do custo.
A economia é dramática. Para um contexto de 128 mil tokens — aproximadamente o tamanho de um romance completo —, o sistema agora processa a entrada (cache miss) por apenas US$ 0,28 por milhão de tokens, uma queda de US$ 0,56, e para cache hit, US$ 0,028, uma queda de US$ 0,07 por milhão de tokens, uma redução de preço chocante de 60%. Gerar saída, que geralmente custa muito mais, despencou: de US$ 2,20 para apenas US$ 1,68 por milhão de tokens. A API da empresa reflete essa realidade, com custos de entrada cortados pela metade e custos de saída reduzidos em três quartos.
"Este é um nível de 'açougueiro' de preços", brincou um engenheiro. Outros previram que a medida encurralaria os concorrentes e potencialmente eliminaria laboratórios mais fracos, incapazes de igualar a economia.
O Truque Inteligente Por Trás Disso
No coração do novo sistema da DeepSeek reside uma ideia enganosamente simples: nem toda palavra em um documento gigante precisa prestar atenção a todas as outras palavras.
Pense em um estudante escrevendo um trabalho acadêmico. Se ele tivesse que reler o livro didático inteiro toda vez que escrevesse uma frase, o processo levaria uma eternidade. É assim que os LLMs tradicionais se comportam — eficientes o suficiente para textos curtos, mas absurdamente caros para os documentos massivos que as aplicações atuais exigem.
A solução da DeepSeek, chamada DeepSeek Sparse Attention, introduz um atalho inteligente. Um "Lightning Indexer" escaneia rapidamente todos os tokens anteriores e pontua sua importância. Então, em vez de processar todo o contexto, o modelo aplica atenção total apenas aos 2.048 tokens mais relevantes.
A genialidade reside na leveza desse indexador. Ele usa operações matemáticas simples — como ReLU em vez de funções exponenciais pesadas — e roda em aritmética FP8 de baixa precisão. O resultado: cada token é "tocado", mas o trabalho pesado é reservado para os mais úteis.
"É como perguntar a um bibliotecário quais capítulos importam, em vez de ler o livro inteiro de capa a capa", explicou um pesquisador que estudou a arquitetura. "O bibliotecário não é perfeito, mas é bom o suficiente para economizar uma montanha de tempo."
Essa mudança faz com que a parte mais cara da computação cresça em linha reta, em vez de uma curva acentuada. De repente, tarefas que antes pareciam muito caras — analisar bases de código inteiras, documentos jurídicos ou artigos científicos — parecem financeiramente realistas.
Treinando o Modelo para Identificar o Que Importa
A DeepSeek não jogou esse indexador "no mundo" sem mais nem menos. Eles o ensinaram o que importava.
Primeiro, eles "congelaram" seu modelo existente e o executaram com atenção total para gerar pontuações de importância "padrão-ouro". O indexador aprendeu imitando essas pontuações, efetivamente pegando emprestada a sabedoria do sistema de peso pesado. Somente depois de dominar o básico é que a DeepSeek ativou a configuração de atenção esparsa e treinou tudo junto.
"Não se constrói algo assim do zero facilmente", escreveu um engenheiro em um tópico técnico. "Usar um modelo denso para 'ensinar' um esparso funciona incrivelmente bem — e outros copiarão essa estratégia."
O Desempenho é Tão Bom Quanto?
A DeepSeek insiste que o novo sistema mantém seu desempenho. Testes de benchmark em raciocínio, codificação e tarefas multiagente mostram quase paridade, com pequenas vitórias e derrotas alternadas.
Ainda assim, céticos permanecem. Um revisor aprofundado elogiou a economia de custos, mas relatou desvantagens perceptíveis: desempenho ligeiramente mais fraco em raciocínio multi-etapas, matemática menos confiável e uma tendência a desistir de problemas difíceis usando atalhos.
"Noventa por cento do desempenho por 25 por cento do preço", escreveu o revisor. "Se o custo importa, é um ótimo negócio."
Isso levanta uma questão maior: agora que os modelos já se aproximam do desempenho em nível humano em muitas áreas, a próxima fronteira é a capacidade bruta — ou a eficiência? A DeepSeek está claramente apostando na última.
O Debate Aberto
O lançamento provocou uma discussão acalorada entre engenheiros. Alguns argumentam que mesmo a pontuação leve de cada token ainda é uma sobrecarga. Outros se perguntam por que a DeepSeek não misturou atenção esparsa e completa entre as camadas, combinando precisão e eficiência.
Há também a questão prática de como essa abordagem se comporta com a infraestrutura de IA moderna — batching, peculiaridades de GPU, atenção paginada. A DeepSeek tentou facilitar o caminho ao abrir o código de prototipagem e os kernels CUDA de alto desempenho, e a comunidade já o adaptou para NPUs Ascend da Huawei e outros chips domésticos. O suporte imediato a múltiplos fornecedores parece menos coincidência e mais estratégia, especialmente à medida que a China busca independência do hardware de IA estrangeiro.
Por enquanto, a DeepSeek manterá ambas as versões ativas até 15 de outubro de 2025, dando aos desenvolvedores a chance de fazer testes A/B por si mesmos.
Cenário Geral
O lançamento não está acontecendo isoladamente. Com os controles de exportação ocidentais sufocando o acesso a chips de IA de ponta, as empresas chinesas precisam extrair mais desempenho do que têm. O modelo da DeepSeek prova que algoritmos inteligentes podem compensar parcialmente as desvantagens de hardware.
Para as empresas, essa mudança é enorme. Assistentes de IA que precisam lembrar conversas extensas, auxiliares de código que devem ler repositórios inteiros e analisadores de documentos para relatórios extensos — tudo isso de repente se torna acessível em escala.
"A era dos agentes ainda precisa de mais velocidade", comentou um desenvolvedor, resumindo o clima. O custo mais baixo abre novas possibilidades, mas também mostra o quanto a tecnologia ainda precisa avançar.
Observadores descrevem a DeepSeek como constante, discreta e genuinamente inovadora — longe de ser chamativa, mas consistente em entregar avanços. O hábito de lançar grandes versões pouco antes dos feriados até se tornou uma piada corrente: engenheiros brincam que a empresa "acaba com as férias uma versão por vez".
O Que Vem Por Aí?
Para desenvolvedores que trabalham com contextos longos — de 32 mil a 128 mil tokens — a mensagem é clara: testem o V3.2-Exp agora. A economia potencial é grande demais para ser ignorada, mesmo com algumas pequenas imperfeições.
Para a indústria, o experimento da DeepSeek pode marcar um ponto de virada. Se a atenção esparsa se mostrar competitiva, outros laboratórios enfrentarão uma escolha difícil: adotar o método ou cortar preços. De qualquer forma, a suposição de que os custos de inferência são fixos acaba de ser quebrada.
E para o mundo em geral, a inferência mais barata pode importar tanto quanto modelos mais inteligentes. Se empresas menores e desenvolvedores individuais puderem finalmente pagar para construir em escala, o ritmo da inovação poderá acelerar em direções inesperadas.
NÃO É UM CONSELHO DE INVESTIMENTO
