A empresa de inteligência incorporada Independent Variable lançou seu modelo de robô WALL-B, que entrou em uma casa real 35 dias depois.

A maratona de robôs realizada em Yizhuang, Pequim, no último fim de semana, provou uma coisa: o robô humanoide mais rápido agora consegue superar até mesmo os melhores corredores humanos de maratona. No entanto, o motivo pelo qual isso não causou muita repercussão é que as pessoas têm expectativas muito altas em relação aos robôs, ou à indústria de inteligência incorporada.

O robô humanoide de Honor completou uma meia maratona em apenas 50 minutos, e o robô de Yushu consegue executar movimentos de artes marciais extremamente difíceis para humanos no palco do Festival da Primavera. Isso parece ser o esperado deles. Além disso, as pessoas ainda têm dúvidas: robôs inteligentes com corpos reais não deveriam parar de realizar esse tipo de tarefa e começar a trabalhar de verdade, como lavar a louça, recolher e dobrar roupas e varrer o chão?

Mas essas tarefas domésticas que pessoas comuns podem fazer são muito mais difíceis do que correr uma maratona ou executar movimentos de artes marciais, e muito mais difíceis do que trabalhar em uma linha de montagem em uma fábrica.

Quando os robôs realmente ajudarão as pessoas a limpar a bagunça em suas casas? Em 21 de abril, a Independent Variable Robots realizou uma coletiva de imprensa para lançar oficialmente sua nova geração de robôs com inteligência incorporada, o WALL-B, e anunciou que, em 35 dias, a nova geração de robôs equipados com esse modelo estará entrando no primeiro lote de residências reais.

Esta empresa acredita que o verdadeiro campo de atuação da indústria da robótica não está no palco ou no laboratório, mas sim em casa. O ambiente doméstico é muito mais complexo e imprevisível do que um ambiente fabril, muito mais do que uma demonstração pública: chinelos podem ser chutados para debaixo do sofá, uma criança pode jogar a mochila no chão, um gato pode pular na mesa de jantar e um copo d'água pode ser derramado no chão recém-lavado. Essas questões aparentemente triviais são justamente os problemas mais difíceis que os robôs ainda precisam resolver.

Por que precisamos reescrever o modelo do robô de WALL-A para WALL-B?

Na conferência de imprensa, Wang Qian, fundador e CEO da Independent Variable, começou descrevendo uma manhã comum: "Às sete horas da manhã, o despertador tocou. Você entrou na sala de estar e percebeu que seus chinelos haviam sumido, a louça na cozinha estava suja, a mochila do seu filho estava no chão e o gato havia derrubado um copo d'água."

A principal ideia subjacente a essa descrição é que a família é um ambiente aleatório, fragmentado e em constante mudança.

No passado, a maioria das demonstrações das capacidades dos robôs não ocorria em tais cenários. Cambalhotas, caligrafia e dança no palco geralmente dependem de trajetórias predefinidas e procedimentos de movimento fixos; robôs industriais em fábricas são construídos em um ambiente padronizado com alta repetição e baixa variabilidade.

Mas na família é o oposto. Cada ação pode ser diferente, cada obstáculo pode surgir inesperadamente e novas variáveis ​​podem ser introduzidas a cada segundo.

A variável independente argumenta que o gargalo atual na indústria da robótica não é mais o hardware em si, mas sim o "cérebro". O bipedalismo, as mãos hábeis e as articulações com controle de força estão se desenvolvendo rapidamente, mas a compreensão do ambiente, a avaliação de riscos, o gerenciamento de acidentes e o aprendizado contínuo permanecem os maiores obstáculos antes que os robôs possam entrar em nossas casas.

A variável independente lançou anteriormente o modelo incorporado de primeira geração WALL-A, que adota a arquitetura VLA (Visual-Language-Motion), comum na indústria.

A lógica básica desse tipo de modelo é:

  • A câmera vê algo (V, Visão).
  • O modelo compreende instruções de linguagem (L).
  • Regenerar a trajetória da ação para executar a tarefa (A, Ação).

Parece razoável, mas o problema também é óbvio: essas funcionalidades geralmente vêm de módulos diferentes e depois são reunidas.

Wang Hao, cofundador e diretor de tecnologia da Independent Variable, explicou:

O módulo de visão é responsável por reconhecer objetos, o módulo de linguagem compreende instruções e o módulo de ação gera trajetórias. A informação é transmitida entre os módulos em níveis sucessivos, e perdas e atrasos ocorrem sempre que a informação cruza uma fronteira.

Mais importante ainda, esses modelos são excelentes em imitação, mas não necessariamente compreendem o mundo. Um robô pode aprender a "pegar uma xícara", mas pode não saber por que a xícara cai; ele sabe colocar um prato na mesa, mas pode não saber que metade de um prato pendurado no ar significa que está prestes a quebrar.

Essa também é a razão para o surgimento do WALL-B. Em termos mais simples, seu objetivo é permitir que os robôs transcendam o pensamento modular e, em vez disso, percebam e ajam como um todo unificado. A analogia oficial é a arquitetura de memória unificada do Apple Silicon. Anteriormente, CPUs, GPUs e memória eram independentes, e a própria transferência de dados reduzia a eficiência; com uma arquitetura unificada, todas as funcionalidades compartilham os mesmos recursos, resultando em uma melhoria significativa de desempenho.

Os robôs operam com uma lógica semelhante.

Na arquitetura WUM (World Unified Model Architecture), capacidades como visão, linguagem, movimento, tato e previsão física são treinadas em conjunto na mesma rede, em vez de serem separadas e depois combinadas. Isso traz algumas mudanças importantes. Robôs tradicionais geralmente "reconhecem primeiro e depois agem", enquanto o WALL-B visa realizar a percepção e a tomada de decisão simultaneamente.

A variável independente é chamada de modelo. Desde o primeiro dia de treinamento, dados visuais, auditivos, linguísticos, táteis e de movimento são usados ​​simultaneamente para alcançar "entrada e saída multimodais". Simplificando: no momento em que vê a xícara, já está calculando como segurá-la; quando sente o peso, ajustará a força de acordo.

Wang Hao afirmou que o modelo começou a aprender leis físicas básicas como gravidade, inércia, atrito e velocidade. Por exemplo, se houver um prato semi-suspenso na borda de uma mesa, mesmo que o robô nunca tenha visto esse cenário específico antes, ele pode inferir que o prato pode cair e, portanto, empurrá-lo ativamente de volta para uma posição segura. Isso significa que os robôs não precisarão ser reprogramados para cada residência no futuro, porque, embora o layout dos cômodos possa variar, as leis físicas permanecem as mesmas.

No passado, muitos robôs simplesmente paravam de executar uma tarefa após falharem e aguardavam a intervenção humana. A ideia do WALL-B é tentar novamente após a falha e incorporar diretamente a experiência ao modelo em caso de sucesso. Wang Hao compara isso ao processo de aprendizado humano ao usar hashis:

Os pauzinhos caíram inúmeras vezes, mas cada falha me ajudou a ajustar meu método de controle e, eventualmente, desenvolvi uma habilidade estável.

Se esse mecanismo realmente funcionar, a velocidade de iteração do robô não dependerá mais inteiramente do treinamento em laboratório, mas sim do feedback contínuo do mundo real.

Em 35 dias, o robô estará realmente morando na casa do usuário.

Em relação aos dados de treinamento, as variáveis ​​independentes são descritas de forma muito vívida: os dados de laboratório são como "água com açúcar", enquanto os dados domésticos do mundo real são como "leite". Os primeiros são limpos, estáveis ​​e abundantes, mas seu valor nutricional é limitado; os últimos são complexos e ruidosos, mas estão mais próximos do mundo real.

Wang Hao revelou que, para obter esses dados, a equipe entrou em centenas de casas de voluntários para coletar amostras ambientais. Além disso, cada casa era diferente: a iluminação variava em termos de temperatura, o tipo de piso era diferente, brinquedos e chinelos estavam espalhados por toda parte, gatos pulavam repentinamente sobre a mesa e as crianças criavam novas situações caóticas…

Essas variáveis ​​são difíceis de simular completamente em laboratório, mas são realidades que os robôs enfrentarão diariamente ao entrarem em casa.

Este é também um novo consenso que está surgindo na indústria de inteligência incorporada: quem possui dados de cenários do mundo real tem maior probabilidade de construir uma vantagem competitiva a longo prazo. Mais concreto do que o lançamento do modelo é o cronograma fornecido pelas variáveis ​​independentes. Esta empresa anunciou que, em 35 dias, o robô de próxima geração estará nas casas dos primeiros usuários. Isso significa que ele não é mais apenas uma unidade de demonstração ou um dispositivo de teste fechado, mas está realmente começando a ser implantado em ambientes voltados para o consumidor.

É claro que a variável independente não retrata a situação como perfeita. Wang Qian admite francamente que o robô ainda está em sua "fase de estágio". Ele cometerá erros, talvez colocando chinelos na cozinha ou parando no meio da limpeza da mesa para pensar, e ainda precisará de assistência remota. Mas, por outro lado, ele pode trabalhar continuamente 24 horas por dia, acumulando novas experiências na operação diária. Essa lógica de "servir enquanto cresce" é muito semelhante ao método iterativo de produtos de software atuais, só que desta vez o agente é um robô.

Nos últimos anos, a indústria da robótica tem se destacado na criação de momentos espetaculares. Mas os produtos que realmente transformam vidas muitas vezes não são os de desempenho mais impressionante, e sim aqueles que melhor resolvem problemas do dia a dia.

O lançamento do WALL-B pela Independent Variable responde essencialmente a uma questão mais prática: será que os robôs podem primeiro realizar tarefas domésticas antes de falar sobre o futuro?

Em 35 dias, as respostas começarão a aparecer nas salas de estar do primeiro grupo de usuários.

A situação está estável e melhorando.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.