DeepSeek Lança o Modelo de IA 671B DeepSeek-Prover-V2 para Resolver Provas Formais de Matemática e Lança Novo Conjunto de Dados de Referência

Por
Lang Wang
7 min de leitura

Por Dentro do DeepSeek-Prover-V2: Por que este Modelo de 671B de Parâmetros Pode Ser a Chave para o Futuro do Raciocínio Matemático da IA

Em 30 de abril de 2025 – lançado discretamente antes de um feriado na China – a DeepSeek lançou um modelo que está causando grande impacto em um nicho, porém fundamentalmente importante, da inteligência artificial: o raciocínio matemático formal. Enquanto a corrida mais ampla da IA se concentra em personalidades de chatbot e demonstrações multimodais chamativas, a DeepSeek tem dobrado a aposta em uma área menos amigável para manchetes, mas estrategicamente crítica – a prova automatizada de teoremas.

O DeepSeek-Prover-V2, seu lançamento mais recente de peso aberto, pode não chamar a atenção nas redes sociais, mas suas implicações reverberam pela academia, engenharia e futuros sistemas de AGI (Inteligência Artificial Geral). Com uma estrutura de 671 bilhões de parâmetros e integração profunda com provas formais Lean 4, ele faz mais do que resolver problemas de matemática – ele formaliza a verdade matemática em código. Para investidores de longo prazo, instituições de pesquisa e stakeholders de infraestrutura de IA, este modelo não é apenas uma curiosidade. É um benchmark – e possivelmente um projeto.

DeepSeek (washu.edu)
DeepSeek (washu.edu)


Dando a Partida no Motor de Matemática – Como a DeepSeek Treina um LLM de Prova de Teoremas

O DeepSeek-Prover-V2 não é um mero ajuste fino de modelos existentes. Sua principal inovação reside em como ele gera dados sintéticos de "partida a frio" para treinar um modelo em um domínio que, de outra forma, seria extremamente escasso em dados.

Para entender por que isso importa, considere o seguinte: provas formais – ao contrário da linguagem natural – exigem lógica rígida, sintaxe estrita e resultados verificáveis. Elas não são indulgentes. Não há espaço para ambiguidade ou variação de estilo.

A resposta da DeepSeek? Usar seu próprio modelo fundamental, DeepSeek-V3, como professor. O pipeline decompõe teoremas matemáticos complexos em uma série de sub-objetivos estruturados, cada um traduzido em lógica formal via Lean 4. Essas etapas de prova são primeiro tratadas por um modelo menor de 7B para eficiência e, uma vez resolvidas, são tecidas em um rastro coerente de raciocínio em cadeia, formando um conjunto de dados sintéticos de partida a frio.

Essa estrutura de geração recursiva não é apenas inteligente – é escalável. A DeepSeek essencialmente construiu um loop de autoaprendizagem que imita a maneira como um matemático decompõe problemas: pensar, simplificar, provar, sintetizar.


De Dados a Reforço – Treinando Através de Raciocínio Verificado

Uma vez que os dados de partida a frio são sintetizados, a DeepSeek passa para o aprendizado por reforço. Mas não com dados rotulados por humanos – em vez disso, com problemas que têm resultados verificáveis. O modelo recebe feedback binário: ele produziu uma prova correta ou não?

Este loop de feedback une o raciocínio informal (o domínio natural do LLM) com a lógica formal (o domínio estrito do Lean 4). O resultado final, DeepSeek-Prover-V2-671B, não está apenas raciocinando em palavras – está gerando provas que máquinas e matemáticos podem validar linha por linha.

Os números de desempenho reforçam sua promessa:

  • Taxa de aprovação de 88,9% no MiniF2F-test (um benchmark para raciocínio matemático)
  • 49 de 658 problemas resolvidos no PutnamBench, um conjunto de desafios matemáticos de nível de elite

Para contexto, esses números impulsionam o estado da arte em prova neural de teoremas. Embora isso possa não soar tão glamoroso quanto a geração de imagens ou agentes de diálogo, as capacidades subjacentes são muito mais transferíveis para sistemas de raciocínio de IA robustos e confiáveis.


ProverBench – Um Novo Padrão para Avaliação Matemática Formalizada

Juntamente com o modelo, a DeepSeek lançou o ProverBench, um conjunto de dados de 325 problemas rigorosamente formalizados. Isso inclui:

  • 15 problemas de competições recentes da AIME (American Invitational Mathematics Examination)
  • Dezenas mais de domínios matemáticos principais: álgebra, cálculo, análise real e complexa e probabilidade

Isso importa porque os conjuntos de dados anteriores em prova formal de teoremas têm sido muito sintéticos ou muito restritos. O ProverBench traz equilíbrio: relevância educacional do mundo real, dificuldade de problemas competitivos e uma gama diversificada de estruturas matemáticas.

Distribuição do conjunto de dados:

DomínioContagem de Problemas
Cálculo90
Álgebra Linear50
Álgebra Abstrata40
Teoria dos Números40
AIME15
Outros90

Ao lançar tanto o modelo quanto este benchmark, a DeepSeek não está apenas exibindo capacidade – está convidando à comparação rigorosa e à experimentação aberta.


Implicações para Investidores – Por que este Nicho Importa

Para um observador casual, a prova formal de teoremas pode parecer um projeto de vaidade de pesquisa. Mas para quem está rastreando a corrida da AGI, o padrão está se tornando mais claro. O roteiro da DeepSeek prioriza:

  1. Matemática e modelos de codificação
  2. Integração multimodal
  3. Raciocínio em linguagem natural

E nessa ordem.

O que torna os modelos de matemática como o Prover-V2 particularmente atraentes de uma perspectiva de investimento e estratégia é sua verificabilidade. Em um mundo onde as alucinações são um calcanhar de Aquiles para os LLMs, os provadores de teoremas oferecem uma rara vantagem: correção determinística. Ou a prova se sustenta, ou não.

Vários especialistas insinuaram que o DeepSeek-Prover-V2 não é o objetivo final, mas um degrau estratégico. Um insider o chamou de “sintetizador de dados” para os próximos modelos gerais da DeepSeek, potencialmente com os codinomes V4 ou R2. Esses futuros sistemas podem integrar o raciocínio rigoroso do Prover-V2 em modelos mais amplos e gerais que podem codificar, escrever e resolver problemas em todos os domínios com precisão de nível humano.

Em outras palavras, a DeepSeek pode estar construindo silenciosamente uma base para um sistema AGI verificável e responsável – um que vai além da predição de palavras para o raciocínio lógico e saídas confiáveis.


Acesso Técnico e Lançamento de Peso Aberto

Em uma indústria onde os modelos fechados são cada vez mais a norma, a decisão da DeepSeek de abrir o peso do Prover-V2 nas configurações de 7B e 671B é notável. Ele convida à colaboração e experimentação global – especialmente na educação, pesquisa e desenvolvimento de toolchain para Lean 4.

Ambos os modelos estão disponíveis no Hugging Face, com fácil integração via Transformers. O modelo maior de 671B espelha a arquitetura DeepSeek-V3, oferecendo até 32K de comprimento de contexto e desempenho pronto para inferência.

A inferência de amostra inclui geração completa de código Lean 4, incluindo:

  • Formulação de teorema
  • Geração de plano de prova
  • Execução formal de prova com sintaxe Lean

Por que o Futuro da IA Pode Ser Formal

Em resumo, o DeepSeek-Prover-V2 não se trata de resolver problemas de livros didáticos por diversão. Trata-se de resolver o problema de verificação da IA – uma prova formal de cada vez.

Principais conclusões:

  • A síntese recursiva de provas permite o aprendizado escalável de partida a frio
  • O modelo combina o raciocínio informal do LLM com a estrutura formal de prova
  • Ele supera os modelos anteriores em benchmarks matemáticos importantes
  • Ele introduz um novo benchmark aberto para avaliação futura (ProverBench)
  • Sinaliza uma estratégia AGI mais ampla focada em inteligência verificável

Para investidores de IA, laboratórios de pesquisa e equipes de engenharia avançada, o trabalho de prova formal de teoremas da DeepSeek pode ser o sinal mais claro até agora de para onde a capacidade séria de IA de próxima geração está indo – não para uma conversa mais ampla, mas para um pensamento mais profundo e comprovável.

O Próximo DeepSeek R2: Um Novo Concorrente Formidável em IA

DeepSeek R2, o próximo modelo de IA da empresa de tecnologia chinesa DeepSeek, está pronto para desafiar o domínio da IA ocidental com suas especificações impressionantes e vantagens de custo. Com lançamento previsto para o início de maio de 2025, o R2 supostamente apresenta uma arquitetura híbrida Mixture-of-Experts com 1,2 trilhões de parâmetros - o dobro de seu antecessor. Rumores indicam que o modelo foi treinado em 5,2 petabytes de dados usando clusters de chips Ascend 910B da Huawei, alcançando uma notável eficiência computacional de 512 PetaFLOPS com 82% de utilização de hardware.

As capacidades antecipadas do R2 incluem raciocínio aprimorado, suporte multimodal para imagens e vídeos, habilidades avançadas de codificação e suporte multilíngue expandido além das capacidades chinesas e inglesas do R1. Talvez o mais disruptivo seja a suposta vantagem de custo da DeepSeek - o R2 supostamente é 97,3% mais barato de construir do que o GPT-4o da OpenAI, com preços corporativos esperados em apenas US$ 0,07 por milhão de tokens de entrada. Essa eficiência de custo, combinada com desempenho comparável ou potencialmente superior aos principais modelos ocidentais, posiciona o DeepSeek R2 como um desafiador significativo no cenário global de IA. Embora essas especificações permaneçam amplamente não confirmadas até o lançamento oficial, a comunidade de IA está observando de perto enquanto a DeepSeek se prepara para revelar seu modelo de próxima geração.

Você Também Pode Gostar

Este artigo foi enviado por nosso usuário sob as Regras e Diretrizes para Submissão de Notícias. A foto de capa é uma arte gerada por computador apenas para fins ilustrativos; não indicativa de conteúdo factual. Se você acredita que este artigo viola direitos autorais, não hesite em denunciá-lo enviando um e-mail para nós. Sua vigilância e cooperação são inestimáveis para nos ajudar a manter uma comunidade respeitosa e em conformidade legal.

Inscreva-se na Nossa Newsletter

Receba as últimas novidades em negócios e tecnologia com uma prévia exclusiva das nossas novas ofertas

Utilizamos cookies em nosso site para habilitar certas funções, fornecer informações mais relevantes para você e otimizar sua experiência em nosso site. Mais informações podem ser encontradas em nossa Política de Privacidade e em nossos Termos de Serviço . Informações obrigatórias podem ser encontradas no aviso legal