Defeitos silenciosos em chips podem estar corrompendo dados em computadores modernos.
A computação é frequentemente celebrada por sua precisão e velocidade. Mas pesquisadores e operadores de data centers de hiperescala estão alertando para uma ameaça crescente que desafia uma das principais promessas da computação: a correção. O problema é conhecido como corrupção silenciosa de dados (SDC, na sigla em inglês) – um fenômeno no qual defeitos de hardware fazem com que os programas produzam resultados incorretos sem travar, gerar um erro ou deixar qualquer rastro visível.
A ameaça invisível dentro dos chips modernos
A principal preocupação reside nos defeitos de silício em CPUs, GPUs e aceleradores de IA. Esses defeitos podem ter origem durante o projeto ou fabricação do chip, ou mesmo surgir posteriormente devido ao envelhecimento ou a fatores ambientais. Embora os fabricantes realizem triagens para a maioria das falhas, mesmo os testes de produção mais rigorosos conseguem detectar apenas cerca de 95% a 99% dos defeitos modelados. Alguns chips defeituosos inevitavelmente chegam ao mercado.
Em certos casos, esses defeitos levam a falhas visíveis, como travamentos do sistema. Mas ainda mais preocupantes são os erros silenciosos. Nesses casos, uma porta lógica ou unidade aritmética defeituosa pode produzir um valor incorreto durante a execução. Se esse valor se propagar pelo programa sem acionar os mecanismos de detecção, o sistema conclui a tarefa e retorna uma saída incorreta – sem qualquer indicação de que algo deu errado.
Durante décadas, muitos acreditaram que as Corrupções Silenciosas de Dados (SDCs) eram eventos raros, quase míticos. No entanto, grandes operadores de hiperescala, incluindo Meta, Google e Alibaba, revelaram que aproximadamente uma em cada 1.000 CPUs em seus parques de servidores pode apresentar corrupções silenciosas sob certas condições. Preocupações semelhantes foram relatadas em GPUs e aceleradores de IA.
A exatidão é uma propriedade fundamental da computação. Seja processando transações financeiras, executando inferência de IA ou gerenciando infraestrutura, espera-se que os sistemas forneçam resultados precisos dentro de prazos rigorosos.
A corrupção silenciosa mina essa confiança. Ao contrário das falhas, que são imediatamente visíveis e exigem investigação imediata, os SDCs alteram silenciosamente os resultados. Em centros de dados com milhões de núcleos, mesmo uma pequena taxa de defeitos pode se traduzir em centenas de resultados incorretos de programas por dia.
A escala da computação moderna intensifica o problema.
Arquiteturas massivamente paralelas, como GPUs e aceleradores de IA, contêm milhares de unidades aritméticas. Quanto mais componentes um sistema inclui, maior a probabilidade estatística de que alguns apresentem defeitos.
Medir SDCs diretamente é praticamente impossível – por definição, eles são silenciosos. Portanto, a indústria precisa estimar suas taxas e avaliar o custo da prevenção. Mecanismos de detecção e correção existem, mas podem aumentar significativamente a área de silício, o consumo de energia e a sobrecarga de desempenho.
Os pesquisadores defendem soluções multicamadas, incluindo testes de fabricação aprimorados, monitoramento em nível de frota em data centers, modelos de estimativa de falhas mais inteligentes e abordagens de codesign de hardware e software que contenham erros antes que se propaguem.
À medida que os sistemas computacionais crescem e se tornam mais rápidos, o desafio é claro: manter a velocidade e a precisão sem custos insustentáveis. Naquilo que alguns descrevem como a "Era de Ouro da Complexidade", garantir que a computação permaneça confiável pode se tornar uma das batalhas de engenharia mais importantes do setor.
O artigo "Defeitos silenciosos em chips podem estar corrompendo dados em computadores modernos" foi publicado originalmente no Digital Trends .

