Agora mesmo, Claude Opus 4.7 foi lançado de repente: Não é o mais forte, mas Ultraman terá insônia novamente.

O desempenho da Anthropic este ano tem sido excepcionalmente forte.

Sua popularidade não só se manteve alta, como sua reputação também continuou a crescer, consolidando-a como uma das principais empresas do setor de IA. Agora, quase todas as manhãs, ao acordarmos, recebemos notificações oportunas sobre novos produtos ou recursos. Com o tempo, a empolgação inicial se transformou em um entendimento tácito de "É você de novo, como esperado".

Acaba de ser lançado oficialmente o tão aguardado Claude Opus 4.7, mantendo a fórmula já conhecida e o mecanismo de pontuação elevado também já conhecido.

Curiosamente, a Anthropic foi muito sincera no anúncio, até com um toque de orgulho: "Este não é o nosso modelo mais poderoso." O lendário e assustadoramente poderoso Claude Mythos Preview ainda está em segredo.

Mas, embora o Opus 4.7 não seja o mais poderoso, ainda assim atraiu bastante atenção. Isso porque resolveu um problema mais importante do que a inteligência: a confiabilidade. Não o tipo de confiabilidade em que o sistema faz tudo o que você manda, mas o tipo em que ele ousa contradizê-lo quando você propõe uma solução absurda e, em seguida, corrige seus próprios erros.

Quando a confiabilidade se torna uma qualidade mais rara do que a inteligência.

Os resultados dos testes de desempenho mostram que no SWE-bench Pro, o teste mais exigente e reconhecido pela indústria, a pontuação de 4,7 saltou de 53,4% na geração anterior para 64,3%, uma melhoria de quase 11 pontos percentuais em apenas uma geração, deixando para trás o GPT-5.4 (57,7%) e o Gemini 3.1 Pro (54,2%).

O benchmark CharXiv para inferência visual saltou de 69,1% para 82,1%, o que corresponde à sua recém-adquirida capacidade de reconhecimento do lado maior com 2576 pixels — mais de três vezes a clareza de seu antecessor.

Não se trata apenas de "enxergar as coisas com mais clareza". Uma resolução mais alta leva diretamente a uma reação em cadeia de melhorias na qualidade da saída: a geração de interfaces, a criação de slides e o layout de documentos são aprimorados em termos de detalhes e precisão.

No benchmark MCP-Atlas, uma ferramenta de avaliação em larga escala, a versão 4.7 alcançou uma pontuação de 77,3%, superando os 68,1% do GPT-5.4 e os 73,9% do Gemini. Em testes conduzidos pela plataforma de IA jurídica Harvey, a versão 4.7 alcançou uma pontuação de 90,9% no benchmark BigLaw, distinguindo corretamente entre "cláusulas de transferência" e "cláusulas de mudança de controle", que historicamente têm sido um ponto fraco dos modelos de ponta.

No entanto, a versão 4.7 não está totalmente na liderança. No teste BrowseComp de Busca Agenética, a versão 4.7 caiu de 83,7% na geração anterior para 79,3%, sendo ultrapassada pelo GPT-5.4 (89,3%) e pelo Gemini (85,9%).

Essa regressão não é acidental. Um agente que reporta diretamente um erro ao encontrar informações faltantes e se recusa a inventar respostas estará naturalmente em desvantagem quando o critério de avaliação se baseia na apresentação ou não de uma resposta.

Além dos dados, uma questão mais importante é: o que essa "confiabilidade" realmente significa no trabalho prático?

Ao longo do último ano, as expectativas da indústria em relação a grandes modelos de código geralmente permaneceram no nível de "escrever uma função e encontrar um bug", mas o Claude 4.7 demonstrou um caráter completamente diferente nos testes iniciais.

O chefe da Replit, uma plataforma de desenvolvimento em nuvem bastante conhecida, descreveu a experiência da seguinte forma: "Ela me refutava em discussões técnicas e me ajudava a tomar decisões melhores. Realmente me senti como se tivesse um colega melhor."

O sistema não obedece mais cegamente a ordens, nem fabrica dados apenas para cumprir prazos. Em testes na plataforma de ciência de dados Hex, a versão 4.7 reporta diretamente um erro ao encontrar dados ausentes, em vez de fornecer um valor alternativo aparentemente razoável, mas completamente errado, como fazia a versão anterior. A equipe do Hex chegou a afirmar categoricamente: "A versão 4.7 com baixo consumo de recursos é equivalente à versão 4.6 com consumo médio de recursos."

Essa característica de "recusar-se a conformar-se" é precisamente o que mais falta na engenharia de software avançada.

É claro que tudo tem dois lados. Uma instrução escrita para o modelo antigo pode produzir resultados inesperados na versão 4.7. Aquelas instruções vagas que antes eram "entendidas" pelo modelo serão executadas literalmente na versão 4.7. Isso também significa que aqueles que são melhores em expressar suas necessidades com clareza obterão melhores resultados com a versão 4.7.

Ser simplesmente argumentativo não basta; uma IA que entra em greve quando enfrenta contratempos também não é uma boa colega. Outra grande mudança na versão 4.7 é a resiliência de tarefas.

Anteriormente, modelos grandes frequentemente travavam e reportavam erros ao encontrarem falhas em chamadas de ferramentas em tarefas com múltiplas etapas. Os testes da equipe do Notion constataram que a taxa de erros da ferramenta na versão 4.7 foi reduzida para um terço da original. Mais importante ainda, ela consegue contornar obstáculos e continuar a concluir a tarefa mesmo quando a cadeia de ferramentas trava.

Quando a IA parar de bajular, a verdadeira produtividade começará a explodir.

Em um caso extremo publicado pela Anthropic, a versão 4.7 construiu um mecanismo completo de conversão de texto em fala em Rust do zero, sem qualquer intervenção humana — escrevendo modelos de redes neurais, kernels SIMD e demonstrações para navegadores, e até mesmo enviando a saída para um reconhecedor de fala para verificação, concluindo também os testes.

A Vercel, gigante no ramo de frameworks front-end, também descobriu um comportamento inédito: a versão 4.7 realiza demonstrações matemáticas antes de escrever o código do sistema. Isso vai além da simples escrita de código e entra no campo do design de engenharia rigoroso.

O custo de contratar "especialistas seniores" em IA

Para verificar sua capacidade de lidar com detalhes, configurei três cenários de interação com a interface do usuário, com apenas um critério: se os detalhes eram superficiais ou não, isso era imediatamente óbvio.

O primeiro cenário consistia em criar uma visão de cima para baixo da interface de um toca-discos, cujo desafio residia em apresentar o "brilho metálico" e o "halo pulsante". A versão 4.7 não recorreu a gradientes de cores baratos; em vez disso, recriou de forma realista a textura metálica por meio de sobreposições complexas de estilo CSS.

O segundo cenário era criar um ventilador elétrico à moda antiga usando apenas CSS, sem JavaScript. Diante dessa tarefa estritamente limitada, alguns modelos violariam as regras secretamente usando JS, mas a versão 4.7 as respeitou. Ela criou a estrutura 3D do ventilador usando apenas CSS, com transições suaves entre as configurações de velocidade baixa, média e alta. A perspectiva e o tratamento de sombras da base também conferiram um aspecto realista. Encontrou uma ótima solução dentro das regras.

O terceiro cenário envolve a criação de um toca-fitas retrô com o efeito ruidoso e antiquado de uma fita de vídeo. Os detalhes da fita cassete girando também estão presentes.

É claro que ficar mais inteligente tem um preço. O Opus 4.7 já está disponível em todos os produtos e APIs da Claude, na plataforma Amazon Bedrock, na Vertex AI do Google Cloud e na Microsoft Foundry.

O preço base permanece inalterado em US$ 5 por milhão de entradas e US$ 25 por milhão de saídas. No entanto, a versão 4.7 introduz um novo tokenizador que dividirá o mesmo texto em 1,0 a 1,35 vezes mais tokens do que antes.

Além disso, tende a "pensar um pouco mais" durante tarefas de alta intensidade, de modo que o consumo real quase inevitavelmente aumentará.

Além disso, a Anthropic adicionou um novo nível de dificuldade xhigh às opções existentes. Nesse nível, o Claude 4.7 consumirá mais tokens e gastará mais tempo "pensando" ao enfrentar problemas complexos. O Claude Code já elevou o nível de esforço padrão de todos os pacotes para xhigh.

Anthropic demonstrou, por meio de suas ações, que para tarefas reais de programação, é melhor planejar bem as coisas do que economizar recursos.

Para se adequar a esse fluxo de trabalho, Claude Code lançou duas funcionalidades incríveis:

/ultrareview (Revisão detalhada): Inicie uma sessão de revisão dedicada e, como um revisor sênior extremamente criterioso, leia minuciosamente todas as alterações de código, identificando com precisão falhas e bugs de design arquitetônico complexos. Usuários Pro e Max podem experimentar gratuitamente três vezes.

O Modo Automático foi estendido aos usuários Max: um novo modo de permissão entre "conceder permissões uma a uma" e "ignorar todas as permissões". Claude tomará decisões de forma autônoma dentro do escopo da sua autorização, o que permite concluir tarefas longas e tediosas, sendo mais seguro do que a descentralização completa.

Para evitar que essa IA "pensadora demais" esgote o saldo da conta, a API também lançou uma versão beta pública do recurso "Orçamentos de Tarefas", permitindo que os desenvolvedores planejem explicitamente as prioridades de gastos de tokens de Claude em tarefas longas.

É claro que 4,7 não é o ponto forte da Anthropic.

A versão mais poderosa do Claude Mythos Preview foi lançada este mês sob o nome de "Projeto Glasswing" para um pequeno grupo de empresas com o objetivo de pesquisa em cibersegurança. O Mythos não foi disponibilizado publicamente porque suas capacidades de ataque e defesa cibernética são muito robustas, e a Anthropic acredita que ainda não descobriu como distribuí-lo com segurança para todos.

4.7 O próprio sistema realizou concessões proativas, reduzindo as capacidades de ataque e defesa da rede durante a fase de treinamento e incorporando um mecanismo de bloqueio automático integrado para bloquear diretamente solicitações de alto risco. Pesquisadores de segurança com requisitos de conformidade podem se inscrever individualmente por meio dos canais oficiais.

A lógica por trás de não se apressar em jogar suas cartas mais fortes e adicionar constantemente novas cartas à mesa é a mesma. Na verdade, o verdadeiro diferencial do Anthropic é o próprio ritmo de entrega.

De 1º de fevereiro a 24 de março deste ano, em apenas 52 dias, a Anthropic atualizou um total de 74 produtos, uma média de menos de um a cada dois dias. Espaços de coworking, plugins… essas ações abordaram com eficácia os principais problemas do trabalho de escritório.

Hoje, o ecossistema Claude já ultrapassou em muito o conceito simples de um "chatbot". Para equipes ansiosas por integrar profundamente a IA em seus fluxos de trabalho reais, esse ciclo de atualizações estável, frequente e previsível é a garantia mais tranquilizadora.

O lançamento de hoje do Claude 4.7 é a mais recente peça fundamental nessa cadeia. E a prévia do Mythos chegará mais cedo ou mais tarde. Até lá, o que agora consideramos um 4.7 muito forte pode ser apenas o começo.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.