Pesquisadores da Thinking Machines Desvendam Por Que Modelos de Linguagem Respondem Diferente a Perguntas Idênticas, Mas a Correção Reduz o Desempenho em 60%

Por
CTOL Editors - Lang Wang
6 min de leitura

Pesquisadores de IA Solucionam Antiga Crise de Reprodutibilidade em Modelos de Linguagem

Nova técnica alcança consistência perfeita em respostas de IA, mas levanta questões sobre compensações de desempenho e prioridades de pesquisa

11 de setembro de 2025 — Uma equipe do Thinking Machines Lab publicou uma pesquisa abordando um dos desafios técnicos mais persistentes da inteligência artificial: a incapacidade de grandes modelos de linguagem de produzir saídas idênticas quando recebem entradas idênticas, mesmo sob condições supostamente determinísticas.

O trabalho, detalhado em "Derrotando o Não-Determinismo na Inferência de LLM", identifica a causa raiz da inconsistência da IA e apresenta uma solução que alcança reprodutibilidade perfeita — embora com um custo computacional significativo. As descobertas provocaram debate dentro da comunidade de IA sobre se isso representa um avanço fundamental ou uma engenharia sofisticada que aborda um problema de nicho.

Desvendando o Verdadeiro Culpado

Por anos, pesquisadores atribuíam o não-determinismo da IA à aritmética de ponto flutuante combinada com o processamento paralelo de GPU — uma explicação que a equipe do Thinking Machines sistematicamente desmistificou. Através de experimentação cuidadosa, eles demonstraram que as operações individuais de matriz são, na verdade, determinísticas em diferentes execuções.

A verdadeira causa, eles descobriram, reside na "invariância de lote" (batch invariance) — como os sistemas de IA agrupam as solicitações dos usuários para eficiência de processamento. Operações centrais como RMSNorm, multiplicação de matrizes e mecanismos de atenção alteram suas estratégias de computação internas com base no tamanho do lote, produzindo resultados diferentes para entradas idênticas, dependendo da carga do servidor.

"A mesma pergunta pode gerar respostas diferentes não por imprecisão matemática, mas por quantos outros usuários enviaram solicitações simultaneamente", explica a pesquisa. Esta revelação expõe como consultas de IA aparentemente idênticas se tornam dependentes de um contexto computacional não relacionado.

Projetando uma Solução Determinística

Em vez de aceitar essa limitação, a equipe projetou "kernels invariantes de lote" — rotinas computacionais modificadas que mantêm um comportamento consistente, independentemente do tamanho do lote. A solução exigiu reimaginar três operações fundamentais:

RMSNorm: Implementação de estratégias consistentes de redução paralela de dados em todos os tamanhos de lote, evitando abordagens de "redução dividida" otimizadas para desempenho que variam com as dimensões do lote.

Multiplicação de Matrizes: Eliminação de estratégias "Split-K" que se ajustam dinamicamente com base no tamanho da entrada, utilizando, em vez disso, configurações fixas de kernel com tamanhos de tile consistentes.

Mecanismos de Atenção: A modificação mais complexa, envolvendo estratégias de tamanho de divisão fixo em vez de divisão variável, garantindo padrões de redução idênticos, independentemente do comprimento da sequência.

Resultados Impressionantes com Custos Significativos

Testes em um modelo de 235 bilhões de parâmetros produziram resultados dramáticos. A implementação padrão do vLLM gerou 80 conclusões únicas a partir de 1.000 solicitações idênticas. A abordagem invariante de lote alcançou reprodutibilidade perfeita — todas as 1.000 conclusões foram idênticas bit a bit.

No entanto, esse determinismo veio com um custo computacional substancial: aproximadamente 60% de aumento na latência em comparação com implementações otimizadas. Os pesquisadores reconhecem que sua implementação ainda não está otimizada, mas a penalidade de desempenho levanta questões sobre cenários de implantação prática.

Avanço no Aprendizado por Reforço

A contribuição mais significativa da pesquisa pode residir nas aplicações de aprendizado por reforço. A equipe demonstrou que a divergência numérica entre as fases de inferência e treinamento converte implicitamente algoritmos on-policy em off-policy, exigindo medidas corretivas complexas e introduzindo instabilidades de treinamento.

Ao garantir a identidade bit a bit entre amostragem e treinamento, sua abordagem permite um "verdadeiro aprendizado por reforço on-policy", eliminando a divergência KL entre políticas e potencialmente estabilizando processos de treinamento de IA que há muito intrigam pesquisadores.

Avaliações Divergentes de Especialistas

O trabalho gerou avaliações fortemente contrastantes dentro da comunidade de IA. Revisores acadêmicos elogiam a pesquisa como "trabalho fundamental" e "precisão diagnóstica excepcional", comparando-a a transformar a IA de "arte empírica em disciplina de engenharia rigorosa".

Uma avaliação acadêmica detalhada descreve a descoberta da invariância de lote como "raciocínio dedutivo brilhante" e chama a estratégia de tamanho de divisão fixo para atenção de "particularmente perspicaz". A avaliação enfatiza implicações profundas para o aprendizado por reforço, sugerindo que o trabalho "desvenda e resolve um bug pernicioso de baixo nível que provavelmente tem sido uma variável de confusão em inúmeros experimentos".

No entanto, perspectivas mais céticas questionam o significado mais amplo da pesquisa. Observadores da indústria notam que, embora tecnicamente sólido, o trabalho aborda problemas principalmente relevantes para pesquisadores e engenheiros, e não para usuários finais. Alguns veem o foco no determinismo como indicativo de um campo "ficando sem fronteiras reais".

"Para um laboratório com linhagem OpenAI destacar o determinismo como sua mensagem de estreia parece estranhamente decepcionante", observa uma análise da indústria. "O trabalho é sólido, mas como uma declaração emblemática, parece mais uma nota de laboratório meticulosa do que uma visão mobilizadora."

Aplicações Práticas e Limitações

A abordagem determinística mostra valor claro em domínios específicos que exigem consistência absoluta: reprodutibilidade da pesquisa científica, conformidade regulatória, modelagem financeira e aplicações de missão crítica onde ter "quase a mesma resposta" é inaceitável.

Para aplicações de consumo otimizadas para velocidade e custo-benefício, a penalidade de desempenho de 60% apresenta barreiras significativas. A equipe de pesquisa sugere que a lacuna pode diminuir com engenharia de kernel otimizada, mas compromissos fundamentais entre o pico de desempenho e a invariância de lote podem persistir.

Implicações de Mercado e Investimento

Clientes corporativos em setores regulamentados podem impulsionar a demanda por serviços de IA determinísticos, potencialmente criando segmentos de mercado premium para provedores de nuvem. No entanto, os custos de desempenho podem limitar uma adoção mais ampla fora de casos de uso especializados.

Fabricantes de hardware podem explorar chips especializados otimizados para operações invariantes de lote, embora tais desenvolvimentos permaneçam altamente especulativos, dadas as atuais penalidades de desempenho. O impacto mais imediato provavelmente se concentra em empresas de infraestrutura de IA que podem oferecer inferência determinística como níveis de serviço diferenciados.

Analistas de investimento sugerem que o significado do trabalho depende em grande parte das melhorias de implementação e se a lacuna de desempenho pode ser substancialmente reduzida através de engenharia avançada de kernel.

Maturidade Técnica vs. Inovação

A pesquisa destaca uma tensão fundamental no desenvolvimento da IA entre ampliar os limites de desempenho e garantir a confiabilidade do sistema. Embora a solução de invariância de lote demonstre impressionante disciplina de engenharia, permanecem questões sobre se uma otimização tão meticulosa representa a alocação mais produtiva de recursos de pesquisa.

O trabalho indubitavelmente avança a confiabilidade dos sistemas de IA e fornece as bases para um aprendizado por reforço mais estável. Se isso constitui uma inovação disruptiva ou uma resolução de problemas sofisticada em um domínio especializado, permanece uma questão de perspectiva e contexto de aplicação.

Para organizações que exigem consistência de IA comprovável, a pesquisa oferece um caminho claro a seguir. Para o ecossistema de IA mais amplo, focado na expansão de capacidades e ganhos de eficiência, a relevância permanece mais limitada. A conquista técnica é inegável; seu potencial transformador depende muito de futuros esforços de otimização e dos requisitos de mercado em evolução para o determinismo da IA.

Isenção de Responsabilidade de Investimento: A análise apresentada representa uma avaliação informada baseada em pesquisa técnica e não deve constituir aconselhamento de investimento específico. Investimentos em tecnologia de IA apresentam riscos inerentes, e o desempenho passado não garante resultados futuros. Os leitores devem consultar assessores financeiros qualificados antes de tomar decisões de investimento.

Você Também Pode Gostar

Este artigo foi enviado por nosso usuário sob as Regras e Diretrizes para Submissão de Notícias. A foto de capa é uma arte gerada por computador apenas para fins ilustrativos; não indicativa de conteúdo factual. Se você acredita que este artigo viola direitos autorais, não hesite em denunciá-lo enviando um e-mail para nós. Sua vigilância e cooperação são inestimáveis para nos ajudar a manter uma comunidade respeitosa e em conformidade legal.

Inscreva-se na Nossa Newsletter

Receba as últimas novidades em negócios e tecnologia com uma prévia exclusiva das nossas novas ofertas

Utilizamos cookies em nosso site para habilitar certas funções, fornecer informações mais relevantes para você e otimizar sua experiência em nosso site. Mais informações podem ser encontradas em nossa Política de Privacidade e em nossos Termos de Serviço . Informações obrigatórias podem ser encontradas no aviso legal