Anthropic Apresenta Claude Sonnet 4.5: Mais Rápido, Mais Inteligente, mas Ainda em Segundo Lugar na Corrida de Programação

Por
CTOL Editors - Ken
5 min de leitura

Anthropic Apresenta Claude Sonnet 4.5: Mais Rápido, Mais Inteligente, Mas Ainda em Segundo Lugar na Corrida do Código

O novo LLM mostra progresso real em tarefas longas e complexas e suporte à codificação, mas ainda tem dificuldades para igualar o GPT-5 Codex nos problemas mais difíceis.

SAN FRANCISCO — A Anthropic lançou seu mais recente modelo de IA, Claude Sonnet 4.5, na segunda-feira com declarações ousadas. A empresa o chamou de “o melhor modelo de codificação do mundo.” Mas uma análise mais detalhada revela uma história diferente. Sim, o modelo é mais rápido e mais resiliente que seus predecessores. No entanto, testes independentes mostram que ele ainda fica aquém do GPT-5 Codex da OpenAI em áreas cruciais que mais importam para desenvolvedores profissionais.

O lançamento ocorreu apenas quatro meses após o Sonnet 4, um lembrete de quão rapidamente as empresas de IA estão competindo para superar umas às outras. Anthropic e OpenAI agora lançam grandes atualizações quase a cada trimestre. Observadores notaram que a Anthropic frequentemente sincroniza seus anúncios para ofuscar a OpenAI. Por exemplo, o Opus 4.1 da Anthropic foi lançado pouco antes do GPT-5 em agosto.

Construído para Resistência, Não Apenas Velocidade

A Anthropic está apostando alto na resistência. De acordo com os testes da empresa, o Sonnet 4.5 consegue lidar com projetos de codificação complexos por mais de 30 horas consecutivas sem perder o foco. Isso representa um avanço em relação a modelos mais antigos, que tendiam a se desviar da tarefa durante sessões longas.

Os números comprovam isso. No SWE-bench Verified — um benchmark que mede o desempenho de engenharia de software no mundo real — o Sonnet 4.5 obteve uma pontuação mais alta do que qualquer modelo anterior da Anthropic. No OSWorld, que testa a capacidade da IA de lidar com sistemas de computador completos, ele saltou de 42,2% em junho para 61,4% hoje.

SWE Bench Verified (anthropic.com)
SWE Bench Verified (anthropic.com)

Na prática, isso significa que o modelo agora pode fazer mais do que apenas escrever código. Ele pode navegar em navegadores da web, preencher planilhas e até mesmo completar formulários online extensos usando a extensão para Chrome da Anthropic. Os desenvolvedores também recebem novas ferramentas como pontos de verificação (checkpoints) no Claude Code, que permitem salvar o progresso sem Git, um terminal mais elegante e integração nativa com o Visual Studio Code.

O Confronto com a Realidade

Engenheiros da nossa equipe de engenharia da CTOL.digital elogiaram sua velocidade e confiabilidade para o trabalho diário — tarefas como revisar pull requests, depurar e gerenciar projetos com múltiplos arquivos. O recurso de checkpoint, em particular, recebeu muitos elogios.

Mas a lua de mel terminou quando eles pediram para o modelo lidar com desafios mais difíceis. Trabalhos complexos de front-end o fizeram tropeçar. Em alguns casos, ele ignorou a estrutura existente de um projeto ou a configuração de autenticação, o que pode quebrar aplicativos de maneiras que nenhum desenvolvedor deseja.

“Para codificação diária, é excelente”, explicou um engenheiro da nossa equipe de engenharia. “Mas quando estamos diante de quebra-cabeças lógicos complexos ou bugs de produção espinhosos, o GPT-5 Codex ainda é nossa primeira escolha.”

A conclusão? Muitos membros da equipe se veem usando um sistema de dois modelos: utilizando o Sonnet 4.5 para tarefas rotineiras e entregando as tarefas mais difíceis ao GPT-5. Essa abordagem poderia equilibrar custos e produtividade até que a Anthropic diminua a diferença.

Construindo para o Futuro dos Agentes

Além do próprio modelo, a Anthropic está discretamente preparando o terreno para algo maior. A empresa acaba de lançar o Claude Agent SDK, o mesmo kit de ferramentas por trás do Claude Code. Com ele, os desenvolvedores podem construir agentes autônomos que lidam com tarefas de longa duração, gerenciam permissões e coordenam-se entre múltiplos subagentes.

A Anthropic também está realizando uma demonstração de cinco dias, “Imagine com Claude”, para usuários premium. Nela, o Sonnet 4.5 constrói software real e funcional do zero, ao vivo e sem roteiro. Embora posicionado como um experimento, isso sugere a ambição da empresa de ir além dos assistentes de codificação e em direção a colaboradores de IA completos.

Os preços permanecem os mesmos — US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída — mantendo o Claude firmemente no nível premium, enquanto os concorrentes cortam as tarifas.

Segurança Ainda em Destaque

A Anthropic não esqueceu o alinhamento. O Sonnet 4.5 é apresentado como seu modelo mais seguro até agora, mostrando menos sinais de lisonja, engano ou outros comportamentos de risco. Ele também resiste melhor a ataques de injeção de prompt do que antes, o que é crucial quando os agentes operam dentro de sistemas reais.

O modelo vem com proteções de Nível 3 de Segurança da IA, incluindo filtros que detectam entradas perigosas relacionadas ao desenvolvimento de armas. Esses filtros às vezes bloqueiam material inofensivo, mas a Anthropic afirma que os alarmes falsos diminuíram dez vezes desde as versões anteriores.

Pressão de Todos os Lados

A sobrevivência da Anthropic parece menos precária após este lançamento, mas a ameaça permanece. Ela já perdeu sua posição de joia da coroa como o melhor LLM de codificação — nossos problemas mais difíceis agora são solucionáveis apenas com o GPT-5 High/Pro. Neste ponto, a Anthropic só pode competir em preço e casos de uso diários. Mas se o Gemini 3 superar o Sonnet 4.5 em codificação e também for mais barato — permanecendo na fronteira de Pareto — a Anthropic poderá estar em sérios apuros, já que a maior vantagem de seus modelos até agora tem sido em tarefas de codificação diárias.

Investidores, Atenção

Para os investidores, a mensagem é clara: o mercado de grandes modelos de linguagem está amadurecendo rapidamente. Os ganhos agora são incrementais, e a verdadeira diferenciação pode em breve vir da integração, do bloqueio do ecossistema (ecosystem lock-in) ou do ajuste fino (fine-tuning) específico da indústria — não do poder bruto.

Os desenvolvedores, enquanto isso, dificilmente se limitarão a um único fornecedor. A jogada mais inteligente é misturar e combinar modelos dependendo da tarefa. Isso poderia espremer os lucros dos criadores de modelos, mas criar oportunidades para empresas que desenvolvem ferramentas de orquestração.

O risco é mais acentuado para as empresas que vendem apenas modelos de base (foundation models). À medida que os recursos convergem e os clientes mudam facilmente, o poder de precificação pode entrar em colapso muito antes que os custos operacionais o façam. Hyperscalers, com seus bolsos fundos e pacotes de nuvem, poderiam acelerar essa tendência.

Aviso: Este artigo reflete as condições atuais e os padrões de mercado. Resultados passados não garantem desempenho futuro. Os leitores devem procurar aconselhamento financeiro independente antes de tomar decisões de investimento.

Você Também Pode Gostar

Este artigo foi enviado por nosso usuário sob as Regras e Diretrizes para Submissão de Notícias. A foto de capa é uma arte gerada por computador apenas para fins ilustrativos; não indicativa de conteúdo factual. Se você acredita que este artigo viola direitos autorais, não hesite em denunciá-lo enviando um e-mail para nós. Sua vigilância e cooperação são inestimáveis para nos ajudar a manter uma comunidade respeitosa e em conformidade legal.

Inscreva-se na Nossa Newsletter

Receba as últimas novidades em negócios e tecnologia com uma prévia exclusiva das nossas novas ofertas

Utilizamos cookies em nosso site para habilitar certas funções, fornecer informações mais relevantes para você e otimizar sua experiência em nosso site. Mais informações podem ser encontradas em nossa Política de Privacidade e em nossos Termos de Serviço . Informações obrigatórias podem ser encontradas no aviso legal