O “momento Oppenheimer” da Anthropic: a empresa que mais teme a IA está construindo a IA mais perigosa.
A Anthropic lançou seu modelo mais poderoso até hoje, o Claude Mythos, que não estará disponível ao público — quanto mais se fala sobre ele, mais curiosos ficamos. Quão poderoso ele é?

O motivo para não divulgar o modelo é que ele pode "representar riscos de segurança cibernética sem precedentes". Todos os modelos foram historicamente testados em ambientes de segurança cibernética e, até o momento, apenas o Mythos recebeu uma "classificação tão alta".
A empresa que mais teme a IA é a que está criando a IA mais perigosa, e isso tem algo a ver com você e comigo.
Até mesmo a própria Empresa A está com medo.
Antes do lançamento do Mythos, a Anthropic alertou, em privado, altos funcionários do governo dos EUA de que o Mythos facilitaria a realização de ciberataques em larga escala até 2026.
Em 7 de abril, a equipe de segurança Red Team da Anthropic publicou um relatório de avaliação técnica sobre o Mythos Preview. Este relatório é um dos documentos técnicos mais importantes na área de segurança de IA nos últimos anos. O motivo pelo qual a Anthropic decidiu não divulgá-lo publicamente é o seguinte:
O Mythos Preview consegue encontrar falhas de segurança de nível zero-day em todos os principais sistemas operacionais e navegadores , e pode escrever código de ataque de forma independente. .
No campo da cibersegurança, "zero day" refere-se ao tempo que um desenvolvedor leva para descobrir uma vulnerabilidade e corrigi-la — a vulnerabilidade já é explorável no momento em que é descoberta, não deixando ao defensor tempo para se preparar.

Como mencionado em nossa publicação anterior, a Mythos descobriu uma vulnerabilidade de 27 anos no protocolo TCP do OpenBSD, uma vulnerabilidade de 16 anos no decodificador de vídeo do FFmpeg, uma vulnerabilidade de 17 anos de execução remota de código (CVE-2026-4747) no kernel do FreeBSD, uma vulnerabilidade de corrupção de memória em uma VMM de nuvem de nível de produção não divulgada e vulnerabilidades de escape de sandbox em diversos navegadores populares. Esses bugs existiam há dez ou até vinte anos e nunca haviam sido descobertos por nenhuma pessoa ou ferramenta antes.
Por que esses bugs ficaram ocultos por tanto tempo? Obviamente, não é porque sejam simples demais para serem ignorados, mas sim porque são complexos demais: exigem raciocínio em múltiplas dimensões, além de condições de ativação precisas.
Atualmente, a ferramenta de automação mais comum na indústria de segurança é o fuzzer, que alimenta um programa com uma grande quantidade de entradas aleatórias para verificar se ele trava. Os fuzzers são excelentes em descobrir relações simples, como "a entrada X causa uma falha".

Os fuzzers não "raciocinam"; eles apenas realizam testes cegos. Por exemplo, a vulnerabilidade de segurança no OpenBSD exige a compreensão de como duas condições aparentemente não relacionadas se combinam para causar um erro; o bug no FFmpeg exige a construção de um arquivo de vídeo que atinja precisamente um valor específico, que pode nunca ser encontrado durante o uso normal ou em testes aleatórios.
Mas e os humanos? Humanos conseguem raciocinar, certo? Mas os auditores humanos precisam considerar a escala. Esses projetos têm milhões de linhas de código, e é impossível para o olho humano examinar cada arquivo linha por linha. Além disso, existe um ponto cego psicológico: quando um trecho de código está funcionando sem problemas há 27 anos, qualquer pessoa naturalmente presumiria: "Alguém já deveria tê-lo verificado".

O salto qualitativo do Mythos reside na sua capacidade de possuir simultaneamente duas funcionalidades: raciocínio e experimentação direcionada. As ferramentas tradicionais baseiam-se em "testes cegos": entrada aleatória e observação dos resultados. A auditoria humana, por outro lado, envolve "raciocínio": leitura do código, identificação de vulnerabilidades e sua verificação.
O Mythos combina os dois: ele entende a semântica do código, propõe a hipótese de que "pode haver uma vulnerabilidade aqui" e, em seguida, inicia o próprio programa, adiciona lógica de depuração e executa experimentos para verificar ou refutar a hipótese, repetindo o processo várias vezes.
A Anthropic enfatiza que essas capacidades não são resultado de treinamento específico, mas sim um subproduto de melhorias gerais na codificação, raciocínio e autonomia do modelo — elas são "emergentes". Aprimorar o modelo na correção de vulnerabilidades também o torna mais eficiente em explorá-las. O modelo da geração anterior, Opus 4.6, tinha uma taxa de sucesso próxima de zero na exploração autônoma de vulnerabilidades. No mesmo teste, a taxa de sucesso do Mythos Preview saltou de 2 para 181 vezes, não de forma gradual, mas sim por meio de uma melhoria rápida e incremental.

O cientista-chefe da Anthropic, Jared Kaplan, disse ao The New York Times que espera aumentar a conscientização sobre as capacidades da tecnologia, porque isso significa que os modelos não apenas têm a capacidade de encontrar vulnerabilidades e descobrir problemas, mas também a capacidade de explorar problemas e transformar automaticamente vulnerabilidades em armas utilizáveis.
Outro pesquisador de segurança, Logan Graham, levantou uma questão mais incisiva: Grande parte da infraestrutura crítica global opera com código legado, e sua segurança passada dependia fortemente da premissa de que atacá-la exigiria um grande esforço humano. "E se esse paradigma de segurança deixar de ser válido?"
O sistema em que você confia está perdendo sua proteção.
Cibersegurança é um termo um tanto abstrato, mas, na realidade, está intimamente ligado ao cotidiano de todos os usuários da internet.
O exemplo mais típico é o FFmpeg, uma biblioteca de processamento de vídeo de código aberto responsável pela decodificação, codificação e conversão de vídeos. YouTube, Netflix, Bilibili, Canais de Vídeo do WeChat, VLC player e praticamente todos os softwares que precisam reproduzir ou processar vídeos dependem dele direta ou indiretamente. Todos os dias, quando você assiste a vídeos no seu celular, é provável que o código do FFmpeg esteja sendo executado no seu dispositivo.

Essa infraestrutura básica tinha uma vulnerabilidade oculta em seu código, que permaneceu desconhecida por 16 anos, então parecia um problema menor — até o surgimento do Mythos.
As vulnerabilidades encontradas pela Mythos nesses sistemas não haviam causado problemas antes, simplesmente porque encontrar esses bugs exigia uma quantidade significativa de tempo de especialistas humanos — agora, esse obstáculo não existe mais.
Uma reportagem do New York Times de 6 de abril pinta um quadro mais amplo: a IA está mudando fundamentalmente o cenário da cibersegurança, tanto ofensiva quanto defensiva. Os hackers estão usando IA para acelerar os ataques, e os defensores são forçados a responder com ainda mais IA, afastando os especialistas humanos em segurança da linha de frente dos ataques e da defesa.

No dia seguinte, a revista TIME publicou uma reportagem sobre a mais recente pesquisa do Google e da startup de computação quântica Oratomic, sugerindo que computadores quânticos com auxílio de IA poderiam quebrar protocolos de criptografia da internet anos antes do previsto. A equipe de pesquisa da Oratomic usou ferramentas de IA para otimizar algoritmos, reduzindo em 100 vezes o número de qubits necessários para construir um computador quântico perigoso. O cofundador Dolev Bluvstein afirmou: "Usamos IA para acelerar esta pesquisa, sem dúvida."
O pesquisador de segurança da Cloudflare, Bas Westerbaan, foi ainda mais longe, afirmando: "Quase todos os sistemas do mundo se tornarão vulneráveis a ataques quânticos."

Caso seja detectado algum problema, você assumirá total responsabilidade por ele?
A Anthropic é uma das empresas do Vale do Silício que mais frequentemente defende a "IA responsável". Seu fundador deixou a OpenAI devido a preocupações com a segurança da IA. A Anthropic publica anualmente uma grande quantidade de pesquisas sobre segurança e, ao mesmo tempo, foi também a Anthropic que criou uma das armas mais letais contra a cibersegurança.
Existe uma linha tênue entre a divulgação responsável e o alerta de ameaças. Após o lançamento do Mythos, a Anthropic também liderou o Projeto Glasswing para fornecer essa ferramenta à área de defesa (infraestrutura crítica e projetos de código aberto), permitindo que corrijam as vulnerabilidades mais críticas antes que recursos semelhantes se tornem amplamente disponíveis.

Esta é a parte mais contraintuitiva: as empresas que descobriram esses problemas foram justamente as que vinham alertando sobre eles o tempo todo. A Anthropic não fingia que tudo era seguro. Ela proclamava em alto e bom som: "Construímos algo perigoso, sabemos que é perigoso e estamos fazendo o possível para dar aos defensores uma vantagem inicial". Mas eles também sabiam que modelos semelhantes de outras empresas logo surgiriam. Ao demonstrar publicamente o perigo, a Anthropic alcançou dois objetivos simultaneamente: estabeleceu-se como uma autoridade em segurança e demonstrou os limites das capacidades do Mythos para potenciais clientes. "Este modelo é tão poderoso que até nós temos medo dele" — essa declaração era tanto um aviso quanto uma propaganda.
Entretanto, os paradigmas de segurança do seu navegador, dos serviços em nuvem que você utiliza, das suas plataformas de vídeo e das suas comunicações criptografadas estão sendo redefinidos. As proteções que eles oferecem estão se tornando cada vez mais vulneráveis. No passado, eram consideradas "seguras" porque os atacantes precisavam de muita mão de obra e tempo para descobrir e explorar as vulnerabilidades; agora, um modelo pode fazer o mesmo trabalho em poucas horas.
A segurança da IA deixou de ser apenas um tema da indústria. Seu navegador, sua senha, sua confiança em assistentes de IA — tudo isso está dentro do escopo dessa revolução.
#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

