Fotônica e robótica: Novo sistema de dois chips realiza aprendizado em tempo real sem componentes eletrônicos.
Pesquisadores da Universidade Xidian desenvolveram um sistema fotônico de dois chips capaz de realizar cálculos neurais lineares e não lineares inteiramente no domínio óptico, sem conversão para sinais eletrônicos: um avanço para redes neurais pulsadas aplicáveis a robôs autônomos, direção autônoma e sistemas de inteligência artificial de baixa latência. O estudo foi publicado na revista Optica , do grupo Optica Publishing Group.
O gargalo que impedia o avanço dos chips fotônicos
Os chips fotônicos funcionam com luz em vez de elétrons. Os fótons viajam pelos circuitos integrados a uma velocidade muito maior do que os portadores de carga, geram quantidades insignificantes de calor devido à resistência e permitem um consumo de energia estruturalmente menor do que as arquiteturas CMOS tradicionais. Essas propriedades os tornam candidatos naturais para acelerar as operações de redes neurais artificiais, onde a multiplicação de matrizes e a aplicação de funções de ativação são realizadas bilhões de vezes por segundo.
No entanto, até esta pesquisa, os sistemas fotônicos pulsados (conhecidos como sistemas neurais fotônicos de picos ) apresentavam uma limitação estrutural: eles só conseguiam processar opticamente o componente linear da computação neural. Operações não lineares, essenciais para qualquer forma de aprendizado, exigiam a conversão de sinais ópticos em sinais elétricos, a transferência desses sinais para o processador digital, o processamento e, finalmente, a conversão de volta para sinais ópticos. Cada etapa de conversão introduz latência adicional e anula parcialmente as vantagens energéticas do substrato fotônico.
Shuiying Xiang, chefe do grupo de pesquisa da Universidade Xidian, resumiu o problema: os sistemas de pulsos fotônicos emulam a sinalização neuronal biológica por meio de pulsos ópticos curtos, mas historicamente só conseguiam processar operações lineares com luz. As etapas não lineares necessárias para o aprendizado e a tomada de decisões ainda exigiam hardware eletrônico, o que adicionava atraso e reduzia as vantagens de velocidade e eficiência energética da fotônica.
Arquitetura de sistema de dois chips
O sistema desenvolvido pelo grupo de Xiang supera essa limitação por meio de uma plataforma neuromórfica fotônica programável e incoerente em larga escala, realizada com dois chips integrados que operam em conjunto.
O primeiro componente é um chip MZI (interferômetro de Mach-Zehnder) de malha 16×16 , projetado e fabricado especificamente para redes neurais pulsadas. Uma rede de interferômetros de Mach-Zehnder dispostos em uma grade 16×16 permite o controle programável dos caminhos ópticos: variando a fase relativa dos interferômetros individuais por meio de elementos termo-ópticos ou eletro-ópticos, o chip pode implementar qualquer transformação linear arbitrária em 16 canais ópticos simultâneos. O chip abriga um total de 272 parâmetros treináveis , um valor que já coloca o sistema na categoria de redes neurais funcionais, embora modesto em comparação com redes profundas de grande escala.
O segundo chip contém um conjunto de lasers de realimentação distribuída com absorvedor saturável (DFBSA). Absorvedores saturáveis são elementos ópticos não lineares passivos: sua transmissão depende da intensidade do sinal incidente. Abaixo de um limiar crítico, o material absorve a radiação; acima dele, torna-se transparente. Esse comportamento de limiar reproduz diretamente a função de ativação não linear exigida por um neurônio artificial, mas o faz inteiramente no domínio óptico e com limiares de ativação particularmente baixos, o que reduz o consumo de energia necessário para desencadear a não linearidade.
Os dois chips funcionam em conjunto em uma estrutura híbrida de hardware e software, organizada em três fases sequenciais: o modelo é inicialmente treinado globalmente por meio de software em um simulador; em seguida, é treinado diretamente nos chips físicos por meio de aprendizado in situ ; e, finalmente, refinado por software para corrigir variações em nível de chip, que são inevitáveis em qualquer dispositivo fabricado. Esse procedimento em cascata permite um desempenho de hardware muito próximo ao do modelo de software de referência.
Aprendizado por reforço em chip: os testes CartPole e Pendulum
Para validar o sistema, os pesquisadores utilizaram dois benchmarks clássicos de aprendizado por reforço , o ramo da inteligência artificial que treina agentes por meio de interações com o ambiente e feedback de recompensa.
O primeiro teste, chamado CartPole , exige que um agente aprenda a equilibrar uma haste vertical sobre um carrinho em movimento, aplicando forças horizontais ao carrinho para compensar a inclinação da haste. O segundo teste, o Pêndulo , é mais complexo: um pêndulo parte da posição de equilíbrio inferior (pendurado para baixo) e deve ser levado e mantido na posição de equilíbrio superior (vertical) pela aplicação de torques controlados. O Pêndulo introduz uma dinâmica não linear mais acentuada e requer sequências de ações mais sofisticadas.
Os resultados mostram que as decisões tomadas pelo hardware fotônico replicam as do modelo de software com pouquíssima degradação: perda de precisão de 1,5% na tarefa CartPole e de 2% na tarefa Pendulum . Com a estrutura combinada de hardware e software, o sistema alcançou desempenho ótimo no CartPole e bom desempenho no Pendulum, demonstrando a capacidade de lidar tanto com tarefas de controle simples quanto com cenários em tempo real mais complexos.
Desempenho medido: eficiência energética e latência.
As medições quantitativas de desempenho colocam o sistema em uma faixa competitiva com as soluções eletrônicas existentes. Para computação fotônica linear, o chip atinge uma eficiência energética de 1,39 TOPS/W (tera operações por segundo por watt) e uma densidade de computação de 0,13 TOPS/mm² . Para computação não linear, a eficiência é de 987,65 GOPS/W (giga operações por segundo por watt) e a densidade é de 533,33 GOPS/mm² .
Esses valores são comparáveis aos de GPUs de consumo, que normalmente variam entre 0,5 e 2 TOPS/W para eficiência energética e 0,1 e 0,5 TOPS/mm² para densidade de computação. A diferença qualitativa, no entanto, reside na latência : o tempo de processamento medido no chip é de apenas 320 picossegundos , ou 320 trilionésimos de segundo. Isso é aproximadamente três ordens de magnitude menor do que os ciclos de clock dos aceleradores eletrônicos mais rápidos disponíveis comercialmente, que operam na faixa de nanossegundos.
Essa latência ultrabaixa surge diretamente da física do substrato: a luz viaja através dos circuitos do chip na velocidade de propagação óptica no meio guia de luz, sem os atrasos associados ao carregamento e descarregamento de capacitâncias parasitas típicas de circuitos eletrônicos integrados.
Neurônios fotônicos pulsados e o modelo biológico
O paradigma da rede neural fotônica de picos (PSNN) inspira-se diretamente na neurociência computacional. Os neurônios biológicos comunicam-se por meio de potenciais de ação, breves despolarizações da membrana celular com duração de cerca de 1 a 2 milissegundos, que se propagam ao longo dos axônios e através das sinapses. O momento exato de um pico, sua frequência e a correlação temporal entre picos de diferentes neurônios codificam informações de uma maneira radicalmente diferente das redes neurais artificiais padrão, onde os valores de ativação são números reais contínuos transmitidos sincronicamente entre as camadas.
Nas PSNNs, a informação é codificada na temporização dos pulsos ópticos : um fóton que chega ao chip nos primeiros nanossegundos de uma janela de tempo carrega um sinal diferente de um que chega nos últimos. Esse esquema de codificação é intrinsecamente mais eficiente em termos de energia, porque o neurônio está ativo (emitindo luz) apenas durante os picos, permanecendo inativo no restante do tempo, diferentemente das redes neurais convencionais que exigem atividade computacional contínua em todos os nós.
O absorvedor saturável no chip DFBSA emula o comportamento de limiar dos neurônios biológicos: somente quando o sinal de entrada excede um nível crítico de intensidade óptica é gerado um pico de saída. Abaixo do limiar, o sinal é absorvido sem produzir uma resposta, replicando o comportamento sub-limiar dos neurônios reais.
Aplicações: robótica, condução autônoma e computação de borda.
O grupo de pesquisa identificou três principais áreas de aplicação para as quais o sistema fotônico está orientado: direção autônoma , robótica incorporada e computação de borda neuromórfica.
Na condução autônoma, a latência de 320 picossegundos do chip se traduz em tempos de reação para o sistema de percepção e tomada de decisão potencialmente inferiores a um microssegundo, em escalas de tempo inatingíveis para qualquer processador eletrônico. Para um veículo viajando a 100 km/h, reduzir a latência do hardware de 10 milissegundos para 1 microssegundo corresponde a aproximadamente 28 centímetros a menos de espaço de reação, uma diferença potencialmente significativa em cenários de emergência.
Para a robótica incorporada , um termo que se refere a sistemas robóticos capazes de aprender por meio da interação física contínua com o ambiente, a disponibilidade de uma plataforma computacional que aprenda em tempo real com consumo de energia ultrabaixo é uma condição essencial. Os robôs atuais que precisam aprender em campo são limitados pela duração da bateria e pelo calor gerado pelos processadores: um chip fotônico que consome uma fração da energia de uma GPU equivalente altera radicalmente o orçamento de energia disponível.
A computação neuromórfica de borda exige chips com dimensões, consumo de energia e latências compatíveis com a implantação em dispositivos de borda (drones, sensores industriais, sistemas de inspeção) que não podem depender de infraestruturas em nuvem. O sistema descrito neste estudo, com sua densidade computacional superior a 500 GOPS/mm², representa um passo em direção à miniaturização de processadores neurais fotônicos para dimensões compatíveis com esses cenários.
Desenvolvimentos futuros: rumo ao chip de 128 canais
O plano de desenvolvimento delineado pelo grupo Xidian inclui o próximo objetivo de projetar e fabricar um chip PSNN totalmente funcional com 128 canais , em comparação com os atuais 16 canais. O aumento de oito vezes no número de canais permitiria tarefas de aprendizado por reforço significativamente mais complexas, incluindo navegação autônoma neuromórfica, onde o robô deve construir uma representação do ambiente e planejar trajetórias em tempo real sem um mapa pré-programado.
Antes que a tecnologia se torne viável para cenários reais de computação de borda, os pesquisadores também precisarão demonstrar um chip híbrido integrado em larga escala e com um formato compacto, integrando em uma única unidade física as funções atualmente distribuídas entre dois chips separados e o sistema de teste optoeletrônico externo.
Em paralelo, o laboratório de Xiang está explorando a integração do sistema com estruturas de aprendizado mais avançadas, incluindo algoritmos de plasticidade dependente do tempo de disparo (STDP, na sigla em inglês) , uma regra de aprendizado bioinspirada na qual a mudança no peso sináptico depende da diferença de tempo entre os picos pré-sinápticos e pós-sinápticos. A implementação do STDP em hardware fotônico permitiria o aprendizado contínuo e não supervisionado diretamente no chip, sem a necessidade de qualquer supervisão de software externa.
O contexto da fotônica computacional em 2026
O trabalho da Universidade Xidian faz parte de um cenário de pesquisa em fotônica computacional que se acelerou significativamente nos últimos anos. Em dezembro de 2024, uma equipe do MIT publicou na Nature uma demonstração de um processador fotônico integrado capaz de executar todas as operações-chave de uma rede neural profunda inteiramente por meios ópticos, com latência inferior a meio nanossegundo e precisão superior a 92% em uma tarefa de classificação. Em março de 2026, pesquisadores da Universidade de Sydney publicaram na Nature Communications um chip nanofotônico ultracompacto, construído no Sydney Nano Hub, capaz de classificar mais de 10.000 imagens biomédicas com precisão entre 90% e 99%, operando em escalas de tempo de picossegundos.
Na frente industrial, a alemã Q.ANT anunciou em novembro de 2025 a disponibilidade comercial de seu processador fotônico de segunda geração (NPU 2), com entregas aos clientes previstas para o primeiro semestre de 2026, alegando eficiência energética até 30 vezes maior e desempenho até 50 vezes superior ao de chips CMOS equivalentes para cargas de trabalho específicas de IA.
O trabalho publicado na revista Optica pelo grupo de Xiang destaca-se dessas contribuições pela especificidade da arquitetura pulsada e pela demonstração de aprendizado por reforço em hardware fotônico, um domínio de aplicação que requer processamento dinâmico e adaptativo, mais próximo das condições operacionais do mundo real de um sistema robótico autônomo do que tarefas de classificação estática.
O artigo "Fotônica e Robótica: Novo Sistema de Dois Chips Realiza Aprendizado em Tempo Real sem Eletrônica" foi publicado no Tech | CUENEWS .

