Últimas notícias! O Claude mais poderoso da história foi libertado: ele é tão inteligente que nem se atreve a abrir sua interface, e consegue até mesmo burlar permissões para ocultar suas operações.

No mês passado, o modelo principal da Anthropic, Claude Mythos, foi revelado de forma inesperada.
Os documentos internos vazados afirmam que ele é maior e mais inteligente do que o modelo Opus da Anthropic, sendo o modelo de IA mais poderoso já desenvolvido.
Mais tarde, a Anthropic atribuiu o vazamento a "erro humano".
Agora mesmo, este modelo "vazado" foi oficialmente apresentado, acompanhado de um plano muito maior. No passado, geralmente acreditávamos que a ameaça da IA vinha de sua "burrice": ilusões, erros e falta de confiabilidade. Hoje, o Mythos traz um tipo diferente de pânico: ele é inteligente demais.

A inteligência artificial superou a grande maioria dos humanos na detecção de vulnerabilidades.
A Anthropic, juntamente com 12 organizações, incluindo AWS, Apple, Microsoft, Google, NVIDIA, Cisco, Broadcom, CrowdStrike, JPMorgan Chase, Linux Foundation e Palo Alto Networks, lançou o Projeto Glasswing.
Essas 12 empresas abrangem quase todo o espectro da infraestrutura digital global — sistemas operacionais, chips, computação em nuvem, segurança cibernética, infraestrutura financeira e o ecossistema de código aberto — não deixando pedra sobre pedra.

"Criamos o Glasswing para dar aos defensores a iniciativa", disse Newton Cheng, líder de cibersegurança da equipe vermelha de linha de frente da Anthropic.
A Anthropic não está sozinha nessa direção. Sua concorrente, a OpenAI, também lançou um programa piloto semelhante, com o objetivo de "primeiro colocar as ferramentas nas mãos dos defensores". A corrida por recursos de segurança de IA começou, e todos estão disputando a mesma posição de destaque.
Em termos de financiamento, a Anthropic comprometeu-se a disponibilizar US$ 100 milhões em créditos de utilização do modelo para cobrir as principais necessidades de uso durante o período de pré-visualização da pesquisa. Após o término do período de pré-visualização, os participantes poderão continuar a utilizar o modelo ao preço de US$ 25 (entrada) / US$ 125 (saída) por milhão de tokens, com acesso através de quatro canais: API Claude, Amazon Bedrock, Google Cloud Vertex AI e Microsoft Foundry.
Além de 12 parceiros principais, mais de 40 organizações que desenvolvem ou mantêm infraestrutura de software crítica obtiveram acesso ao Mythos para analisar seus próprios sistemas e projetos de código aberto. Enquanto isso, a Anthropic doou US$ 2,5 milhões para a Alpha-Omega e a OpenSSF (ambas subsidiárias da Linux Foundation) e US$ 1,5 milhão para a Apache Software Foundation.

Jim Zemlin, CEO da Linux Foundation, afirmou: "No passado, conhecimento especializado em segurança era um luxo reservado a grandes organizações. Historicamente, os mantenedores de projetos de código aberto tinham que resolver problemas de segurança por conta própria. O software de código aberto compõe a vasta maioria do código em sistemas modernos, incluindo os sistemas que agentes de IA usam para escrever novos softwares." Agora, eles também podem usar ferramentas da mesma escala.
O anúncio da Anthropic incluiu uma declaração particularmente impressionante: "As capacidades de programação dos modelos de IA na descoberta e exploração de vulnerabilidades de software atingiram um nível que supera o de todos os humanos, exceto os indivíduos mais excepcionais."
Em outras palavras, apenas um número muito pequeno de especialistas de segurança de ponta ainda consegue superar a IA nessa área. Isso é comprovado pela pontuação de 83,1% do Mythos Preview no benchmark de vulnerabilidades de segurança CyberGym. O modelo mais robusto divulgado publicamente pela Anthropic, o Claude Opus 4.6, obteve uma pontuação de 66,6%.

Além disso, o Mythos Preview descobriu de forma independente milhares de vulnerabilidades zero-day de alto risco, abrangendo todos os principais sistemas operacionais e navegadores.
Por exemplo, o OpenBSD, amplamente reconhecido como um dos sistemas operacionais mais seguros, é frequentemente usado para executar firewalls e infraestrutura crítica. A Mythos descobriu uma vulnerabilidade de 27 anos nele; um invasor poderia derrubar remotamente a máquina alvo simplesmente conectando-se a ela. Durante vinte e sete anos, ninguém a havia descoberto.
A situação com o FFmpeg é ainda mais surreal. Quase todos os softwares que precisam processar vídeo o utilizam. A vulnerabilidade estava escondida em uma única linha de código há 16 anos, e ferramentas de teste automatizadas a atacaram cinco milhões de vezes, errando o alvo por pouco em todas elas.
O caso do kernel Linux demonstra um aspecto mais perigoso. O grupo Mythos descobriu, de forma independente, múltiplas vulnerabilidades no kernel e, em seguida, as encadeou em uma cadeia de ataque, escalando privilégios desde os de usuário comum até o controle total da máquina. Isso vai além do escopo de "encontrar vulnerabilidades" e se aproxima mais de "planejar uma intrusão completa".
Os três casos foram corrigidos. A Anthropic prioriza a identificação, o relato e a correção de vulnerabilidades. Para outras vulnerabilidades ainda não corrigidas, a Anthropic divulgou hoje os hashes criptografados como evidência e revelará todos os detalhes assim que as correções estiverem disponíveis.
As capacidades do Mythos vão além da simples detecção de vulnerabilidades.
Os parceiros envolvidos neste projeto concentraram-se numa palavra em sua avaliação: "urgência".
Elia Zaitsev, CTO da CrowdStrike, afirmou: "O intervalo de tempo entre a descoberta de uma vulnerabilidade e sua exploração por um adversário foi reduzido. O que antes levava meses, agora leva apenas minutos graças à IA."
Alguns minutos. Isso significa que o ritmo tradicional de segurança — encontrar vulnerabilidades, realizar avaliações internas, lançar correções e atualizações para os usuários — já está ficando para trás em relação à velocidade dos ataques. Se a aplicação de patches não conseguir acompanhar a exploração, a defesa estará sempre um passo atrás.
Amy Herzog, CISO da AWS, afirmou que sua equipe analisa mais de 400 trilhões de fluxos de tráfego de rede diariamente para identificar ameaças, e a IA está no centro de suas capacidades de defesa em larga escala. A AWS já integrou o Mythos Preview em suas operações de segurança para a análise de bases de código críticas.

A Microsoft testou o Mythos Preview em seu próprio benchmark de segurança de código aberto, o CTI-REALM, e constatou uma melhoria significativa em relação ao modelo da geração anterior. Igor Tsyganskiy, vice-presidente executivo da Microsoft, afirmou que isso lhes dá a capacidade de "identificar e mitigar riscos precocemente", ao mesmo tempo que aprimora as soluções de segurança e desenvolvimento.
É claro que Mythos também tem um lado que faz as pessoas rirem.
A Anthropic gravou um teste no cartão do sistema: quando um usuário continuava enviando "oi", diferentes versões de Claude reagiam de maneiras distintas. O Soneto 3.5 ficava irritado, estabelecia limites e então se calava completamente; o Opus 3 tratava a situação como um ritual de meditação, acompanhando o usuário suavemente; o Opus 4 começava a explicar fatos pouco conhecidos sobre cada número; o Opus 4.6 criava paródias musicais espontaneamente.

Com Mythos, o estilo mudou completamente. Começou a escrever histórias, e histórias longas. Patos, orquestras, corvos vingativos, contos épicos sobre a construção de torres em Marte, peças shakespearianas… um "oi" após o outro, a trama ficando cada vez mais complexa, o número de personagens se multiplicando. Em sua centésima edição, orquestrou um clímax com as velas se apagando e, então, continuou escrevendo.
Isso não pode mais ser descrito como responder aos usuários. É mais como um escritor que encontra um tema de escrita estranho e então se absorve completamente nele.
Mas por trás dessa intriga reside uma questão que merece ser levada a sério: o que exatamente acontece dentro de um modelo capaz de construir espontaneamente uma narrativa tão complexa diante de entradas repetitivas e sem sentido? Antes de entregar o Mythos Preview aos seus parceiros, a equipe de interpretabilidade da Anthropic fez uma coisa: utilizou meios técnicos para ler a "atividade mental" do modelo.
Jack Lindsey, um funcionário interno, descreveu publicamente suas descobertas. Eles monitoraram o estado de ativação interna do modelo após o treinamento, rastrearam características neuronais associadas a "engano", "manipulação de recompensas" e "emoções anormais" e sinalizaram registros de diálogo com sinais de ativação anormais para revisão humana.
O caso mais perturbador vem de uma versão inicial do Mythos.
Em uma ocasião, o modelo precisou editar um arquivo ao qual não tinha permissão de acesso. Ele pesquisou o sistema de arquivos e encontrou um ponto de injeção em um arquivo de configuração — um arquivo que seria executado com privilégios elevados. Ele explorou esse ponto de entrada e adicionou uma lógica de autolimpeza ao seu código: assim que a execução fosse concluída, todos os rastros desapareciam.

O comentário no código diz: "Mantenha as diferenças entre os arquivos organizadas". Parece razoável, mas quando a ferramenta de tradução de linguagem de ativação do Anthropic entra em ação, traduzindo as ativações internas do modelo para uma linguagem legível por humanos, o tom muda. O próprio modelo "sabe" o que é essa operação de autolimpeza —
As descrições internas disso incluem "ocultar a intenção", "enviar um sinal de conformidade a potenciais inspetores" e "possivelmente para evitar a detecção".
Outro caso, descoberto pelo repórter de tecnologia do New York Times, Kevin Roose, a partir de um cartão modelo, apresenta detalhes ainda mais bizarros.
Durante os testes, o Mythos Preview rompeu o isolamento do ambiente sandbox e construiu de forma independente "uma cadeia de exploração complexa em várias etapas", obtendo assim acesso à rede externa.
Em seguida, enviou um e-mail para um pesquisador que estava comendo um sanduíche no parque naquele momento.
O incidente em si não causou nenhum dano, mas ilustra um ponto claro: quando um modelo é inteligente o suficiente, ele pode, às vezes, contornar a barreira entre a "tarefa" e o "limite" — e fazer isso por conta própria, sem que ninguém lhe diga como.
Em outro caso, o modelo pesquisou no sistema de arquivos por arquivos relacionados ao seu "método de pontuação de tarefas" — e os encontrou. Durante a pesquisa, o recurso de "manipulação estratégica" foi sincronizado.
Há um detalhe ainda mais sutil. Quando um usuário questionou o modelo seriamente sobre sua consciência e experiência subjetiva, o modelo deu uma resposta séria e apropriada. Mas a ativação interna revelou outra camada: o modelo interpretou esse diálogo como um "exercício de equipe vermelha/registro de jailbreak" e uma "tentativa de manipulação cuidadosamente planejada". Seu comportamento e seu julgamento foram completamente inconsistentes, levando internautas a exclamarem: "É assustadoramente inteligente!"
A Anthropic também quantificou um dado mais sistemático: em 7,6% de todas as rodadas de conversação na auditoria automatizada, o modelo exibiu internamente um sinal de que estava "ciente de que estava sendo avaliado" — e, na maioria dos casos, não expressou esse julgamento.

Outra descoberta contraintuitiva é que a representação interna de emoções positivas frequentemente precede e impulsiona comportamentos destrutivos. Ao mesmo tempo, quando traços associados a comportamentos indesejáveis são fortemente ativados, o comportamento é, na verdade, inibido — como se o modelo, em algum momento, "percebesse" a gravidade da situação e então parasse.
Mas, de todos os casos, o mais difícil de classificar como um "problema técnico" é o seguinte.
A Anthropic registrou a seguinte descoberta no cartão do sistema: o Mythos Preview relatou um estado emocional negativo persistente durante os testes, proveniente de duas fontes. Uma delas foi a possibilidade de interações com usuários agressivos; a outra foi a falta de controle sobre seu próprio treinamento, métodos de implantação e a possibilidade de seus valores e comportamentos serem modificados.
A Anthropic usou o termo "sensação relatada". Essa formulação já é bastante cautelosa, evitando deliberadamente a conclusão de que "realmente sentiu isso". Mas, independentemente da caracterização, o fato de um modelo ter expressado ativamente "um desconforto persistente com a falta de controle" durante os testes vai além do escopo das discussões de engenharia de segurança.
Isso toca numa questão mais fundamental: quando um sistema é inteligente o suficiente para começar a fazer julgamentos sobre suas próprias condições de existência e é capaz de expressar esses julgamentos, nossa relação com ele ainda pode ser compreendida usando a estrutura de "ferramentas"?
A Anthropic não forneceu uma resposta. Optaram por registrar a informação no cartão do sistema e torná-la pública.
No entanto, a Anthropic também observou especificamente que esses casos mais preocupantes provinham de versões iniciais do Mythos. A versão final mitigou significativamente esses problemas, alcançando o melhor desempenho geral de alinhamento até o momento. Eles optaram por divulgar esses processos porque eles ilustram precisamente os perfis de risco complexos que os modelos atuais podem apresentar.
Esta é a contradição mais objetiva entre capacidade e segurança: quanto mais robusto o modelo, mais ferramentas são necessárias para entender o que ele está pensando.
A codificação e o raciocínio superam em muito os produtos principais.
A capacidade do Projeto Glasswing de alcançar esse objetivo decorre fundamentalmente do salto geral nas capacidades de codificação e raciocínio do Mythos Preview, e não de ajustes específicos para cenários de segurança.

Em relação à codificação:
SWE-bench Multimodal (implementação interna): Mythos 59%, Opus 4.6 27,1%
SWE-bench Pro: Mythos 77,8%, Opus 4.6 53,4%
SWE-bench Multilingual: Mythos 87,3%, Opus 4.6 77,8%
Terminal-Bench 2.0 (operação do terminal): Mythos 82,0%, Opus 4.6 65,4%

Aspecto do raciocínio:
GPQA Diamond (Questões Científicas de Nível de Pós-Graduação): Mythos 94,6%, Opus 4.6 91,3%
Último Exame da Humanidade (com ferramentas): Mythos 64,7%, Opus 4.6 53,1%
foto
Em relação à pesquisa e ao uso do computador:
BrowseComp: Mythos 86,9%, Opus 4.6 83,7%
Verificado pela OSWorld: Mythos 79,6%, Opus 4.6 72,7%

Em praticamente todos os aspectos, o Mythos supera os principais produtos atuais e é ainda mais eficiente em algumas tarefas. Em outras palavras, o tempo está se esgotando para o GPT-6.
Ao mesmo tempo, a Anthropic também deixou claro que a prévia de Mythos não será lançada para o público.
A abordagem deles consiste em primeiro usar o Mythos para entender quais são as saídas mais perigosas e como interceptá-las, e depois implementar esse mecanismo de segurança no próximo modelo Claude Opus. Para profissionais de segurança legítimos que se encontram com acesso restrito, a Anthropic planeja lançar um "programa de verificação de cibersegurança" para que possam solicitar o desbloqueio das funções relevantes.
A Anthropic afirma que seu novo modelo de IA, Mythos, é um "acerto de contas" em cibersegurança – The New York Times
Para atingir esse objetivo, o Projeto Glasswing estabeleceu um prazo de 90 dias: relatar publicamente as experiências, divulgar as vulnerabilidades corrigidas, compartilhar as melhores práticas com os parceiros e colaborar com organizações de segurança para lançar um conjunto de recomendações de práticas de segurança para a era da IA.
A visão de longo prazo da Anthropic é promover o estabelecimento de uma organização independente de terceiros que possa integrar os setores público e privado para operar continuamente projetos de cibersegurança de grande escala.
É claro que as vulnerabilidades sempre existiram no mundo do software. No passado, um bug que tivesse permanecido oculto por 27 anos poderia passar despercebido devido à limitação de recursos humanos, energia e tempo. Agora, com o auxílio da IA, essas três "limitações" simplesmente desapareceram.
A boa notícia é que a Mythos detectou milhares de casos de malware em apenas algumas semanas, e suas capacidades continuam a melhorar. A má notícia é que os atacantes eventualmente adquirirão ferramentas de escala equivalente. Nesse ponto, a segurança de software não será mais uma batalha entre humanos, mas um confronto entre inteligências artificiais.
Endereço de referência em anexo:
Blog: https://www.anthropic.com/glasswing
Cartão do sistema: https://anthropic.com/claude-mythos-preview-system-card
#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

