Mesmo sem acesso à internet, robôs finalmente “se livram” do controle humano! Google lança seu primeiro cérebro de IA offline, que pode ser usado para trabalhar com apenas uma frase.
Já vimos muitos robôs descontrolados em filmes e programas de TV. Também decoramos algumas das soluções: desconecte a internet, desconecte o cabo de energia e reinicie o robô, e ele será refeito com um clique.
Mas agora, esse processo pode não funcionar tão bem.
Hoje, o Google DeepMind lançou um novo modelo de controle de robôs: o Gemini Robotics On-Device. Este modelo grande pode ser executado localmente no robô e integra reconhecimento visual, compreensão de linguagem e execução de ações.
Seu maior destaque é que, mesmo quando completamente offline, ele consegue entender instruções humanas e concluir tarefas sem problemas.
Comparado com modelos grandes como o ChatGPT e o Gemini, que são bons para conversar, escrever e responder perguntas, o Gemini Robotics On-Device equipa o robô com um "cérebro" real, permitindo que ele tenha capacidades de compreensão e execução semelhantes.
É essencialmente um modelo básico do VLA, especialmente projetado para robôs de braço duplo. Como o nome sugere, a combinação de Visão + Linguagem + Ação significa que ele pode ver, ouvir, entender e se mover, que são suas qualidades básicas.
Por exemplo, você pode fazer um pedido ao robô: "Por favor, dobre esta peça de roupa, coloque-a na mochila e feche-a". Antigamente, isso exigia a criação de programas e a análise de ações com antecedência. Agora, o Gemini On-Device consegue entender diretamente o significado desta frase e executá-la passo a passo.
Então, por que se preocupar em executá-lo localmente quando ele pode ser executado pela internet? A resposta é nada mais do que velocidade e estabilidade.
Se o robô precisar transmitir dados para a nuvem, aguardar a análise do servidor e, em seguida, retornar os resultados, inevitavelmente haverá atrasos. Em tarefas como operações médicas, assistência em desastres e automação industrial, a tolerância a atrasos é quase zero. Além disso, na realidade, muitos locais têm redes precárias ou até mesmo inexistentes.
Na verdade, capacitar robôs para lidar com sucesso com tarefas complexas e dinâmicas do mundo real sempre foi um dos desafios mais difíceis de resolver no campo da IA.
Pelos vídeos públicos, podemos ver que o Gemini On-Device já é capaz de lidar com uma variedade de cenários comuns, como dobrar roupas, fechar zíperes, pegar objetos desconhecidos e colocá-los em locais designados. Tudo isso graças ao seu mecanismo de aprendizado.
▲Forte capacidade de generalização
Não requer treinamento de longo prazo do zero. Os desenvolvedores precisam apenas fornecer de 50 a 100 demonstrações manuais, como controlar pessoalmente o robô para dobrar roupas, e o modelo pode aprender e operar de forma independente rapidamente.
Em tarefas distribuídas mais desafiadoras ou execução complexa de instruções multietapas, o Gemini Robotics On-Device continua a superar outras alternativas locais atuais.
Além disso, é altamente adaptável.
Embora o Gemini Robotics On-Device tenha sido originalmente treinado na plataforma de robô de braço duplo ALOHA desenvolvida pelo Google, com uma pequena adaptação, ele também pode ser executado de forma estável no braço robótico industrial Franka FR3.
Até mesmo o robô humanoide Apollo, estruturalmente diferente, pode funcionar sem problemas, com o mesmo modelo geral se acostumando a formatos corporais completamente diferentes por meio de uma pequena quantidade de aprendizado.
Idealmente, os desenvolvedores não precisam retreinar uma IA para cada novo robô. Em vez disso, eles precisam treinar um modelo geral apenas uma vez e, em seguida, implementá-lo em diversas plataformas de robôs por meio de aprendizado de transferência leve. Espera-se que essa capacidade de "modelo único para múltiplos usos" acelere a popularização e a aplicação da tecnologia robótica.
Claro que, embora seja ideal, também tem suas deficiências.
À medida que os robôs se tornam mais inteligentes e autônomos, os requisitos de segurança também aumentam. Embora o Gemini On-Device possa executar ações, ele não consegue determinar se a tarefa que você atribui é segura. Portanto, um "parafuso de segurança" deve ser adicionado ao modelo.
A sugestão da DeepMind é que os desenvolvedores possam conectar o modelo à interface da Google Gemini Live API, permitindo que o sistema primeiro determine se a instrução é razoável e, então, decida se deve executá-la; ao mesmo tempo, defina restrições físicas no nível da ação, como força, ângulo e velocidade, para evitar acidentes.
Além disso, ainda há espaço para melhorias nos recursos de planejamento lógico multietapas do modelo.
Operações que exigem arranjo lógico e sequencial, como preparar sanduíches e organizar a mesa, ainda não estão em sua zona de conforto. Isso está relacionado à arquitetura Gemini 2.0 na qual se baseia. No futuro, com a atualização para a versão 2.5, essa parte da capacidade também poderá ser complementada.
Outro desafio prático são os dados.
Embora sejam necessárias apenas algumas dezenas de demonstrações para começar, a demonstração mais ideal são dados reais coletados por pessoas reais enquanto operam o robô, em vez de simulação virtual. Os resultados do treinamento com esse tipo de dados são mais rápidos, precisos e estáveis.
▲Endereço do relatório técnico: https://arxiv.org/pdf/2503.20020
De acordo com a líder do projeto, Carolina Parada, esta é a primeira vez que o Google lança um modelo de IA robótica que roda completamente independente da nuvem, e também é a primeira versão que os desenvolvedores podem ajustar de acordo com suas próprias necessidades.
Atualmente, a DeepMind disponibilizou o acesso ao SDK e ao modelo do Gemini Robotics On-Device para "testadores confiáveis". Se você é um desenvolvedor que trabalha com desenvolvimento de robôs, automação industrial ou pesquisa de sistemas inteligentes, pode se inscrever para um teste agora mesmo.
Anexe o link do aplicativo: https://docs.google.com/forms/d/1sM5GqcVMWv-KmKY3TOMpVtQ-lDFeAftQ-d9xQn92jCE/edit?ts=67cef986
#Bem-vindo a seguir a conta pública oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde mais conteúdo interessante será apresentado a você o mais breve possível.