O que acontece quando o ChatGPT é instalado no cão robô do Boston Dynamics?

abril 29, 2023 gurinho

O Spot "Big Yellow Dog" da Boston Dynamics pode ser considerado um modelo de robôs celebridades da Internet.

Spot pode patrulhar, mover tijolos e dançar. Desde o seu nascimento, Spot atraiu a atenção dos amantes de robôs em todo o mundo. Quem pode recusar um cão robô com movimentos flexíveis, postura simples e honesta e fofura.

Após anos de desenvolvimento, ser fofo não é mais o "negócio principal" do Spot. De acordo com a Boston Dynamics, o Spot agora pode ajudar os humanos a concluir tarefas em cenários específicos, como detectar instrumentos em navios transoceânicos e participar de levantamentos de terrenos complexos. Ou trabalhos de resgate e breve.

O que acontecerá se você der ao Spot um corpo tão flexível e um cérebro tão inteligente quanto o ChatGPT?

O especialista em inteligência artificial Santiago Valdarrama realmente fez tal Spot com o "cérebro mais forte".

Use o ChatGPT para simplificar muito a interação humano-computador

Santiago compartilhou no Twitter um vídeo dele interagindo com uma versão modificada do Spot, possivelmente o primeiro cachorro-robô falante de todos os tempos.

Como pode ser visto no vídeo de demonstração, o Spot não é tão simples quanto instalar um "Siri". Ao responder a perguntas humanas, seu corpo também balançará com o conteúdo e o tom da frase, que se parece com o The Wall-E de a ficção científica tornou-se realidade.

Quando você faz algumas perguntas simples de "Sim ou Não", ele também responderá com linguagem corporal como "acenar com a cabeça" e "balançar a cabeça" em vez de voz. Isso mostra que o Spot está longe de ser tão simples quanto ter um -no alto-falante inteligente.

Depois de acessar o ChatGPT, a maior mudança no Spot é que ele pode entender a fala humana e se comunicar com os usuários em linguagem natural.

Santiago demonstrou uma cena. Ele disse a Spot que a sala estava muito cheia porque estava atrapalhando. Deixe-a recuar um pouco. Assim que a voz caiu, Spot entendeu o que Santiago queria dizer e deu alguns passos para trás.

Que tal chamar robôs para trabalhar em filmes de ficção científica?

No passado, operar o Spot exigia um grande controle remoto semelhante a um drone ou um computador para inserir comandos complexos, mas agora a adição do ChatGPT deu ao Spot uma poderosa capacidade de compreensão da linguagem natural e pode interagir com robôs movendo sua boca.

Nesse processo, o ChatGPT atua como um tradutor entre humanos e robôs, transformando as "palavras humanas" inseridas pelos humanos em instruções que as máquinas podem entender e, em seguida, expressando o feedback do robô em comportamento real ou "palavras humanas".

Santiago informou que eles inseriram o arquivo Spot no ChatGPT e explicou a estrutura do arquivo e como ler o arquivo, realizando assim o diálogo de voz e a operação com o Spot.

A interação entre o operador e o Spot foi bastante simplificada. As pessoas podem perguntar diretamente: "Quanto poder você tem?" Então o Spot responderá por voz, que usa a tecnologia de conversão de texto em fala do Google. Fale a resposta do ChatGPT através A "boca" de Spot.

O Spot (ou o ChatGPT integrado) responderá a perguntas de acordo com a situação real, por exemplo, quando você perguntar qual tarefa concluir a seguir, ele responderá de acordo com a lista de tarefas definida, o que evita em grande parte Situações do ChatGPT que fabricam fatos.

Quando o operador der comandos ao Spot, como girar 90 graus e avançar 1 metro, o Spot conectará os sensores internos e o sistema de posicionamento para responder a esses comandos com precisão e não dirá que está fora de controle porque o "cérebro está muito desenvolvido".

Curiosamente, quando você fizer a pergunta "Quem é você?", Ele responderá "Eu sou OpenAI.", Não o cão robô Spot.

A empresa de Santiago, Levatas, é uma empresa de IA que coopera com a Boston Dynamics para ajudar as empresas a explorar como usar robôs para resolver problemas práticos.

Santiago acredita que o maior significado prático da instalação do ChatGPT on Spot é transformar dados complexos que apenas técnicos podem manipular em uma linguagem natural que qualquer pessoa possa entender e compreender.

Cada vez que um robô executa uma tarefa, ele deve inserir um longo conjunto de instruções; depois de terminar o trabalho, ele também gera uma grande quantidade de dados e apenas os técnicos mais profissionais podem analisar problemas a partir desses dados.

Mas agora através do ChatGPT, duas frases simples podem fazer isso.

Quando o limite operacional do robô se torna mais baixo, os cenários de uso do robô se tornam mais ricos.

O potencial de grandes modelos de IA não pode ser subestimado

A versão "mais poderosa do cérebro" do Spot não é alcançada da noite para o dia. Há um mês, Santiago lançou um vídeo apresentando um Spot que pode "entender a fala humana", que usa o Whisper, outro importante modelo de IA da OpenAI.

Nesta "primeira edição" do Smart Spot, Santiago explica os princípios com mais detalhes:

O sussurro pode converter com eficiência a fala em texto em tempo real, e a precisão e a velocidade da conversão são impressionantes. Ao combinar o Whisper com o SDK do Spot, ele pode extrair palavras-chave da fala humana e enviar comandos para o Spot por meio do SDK.

Você só precisa dizer uma palavra, pode fazer o Spot sair da doca de carregamento, levantar para verificar se há algum problema com o medidor, o que reduz muito o custo operacional dos humanos.

A prática de Santiago responde a uma questão amplamente discutida de uma boa perspectiva: Qual é o significado de um grande modelo de linguagem como o ChatGPT?

No início, as pessoas pensavam que o ChatGPT era uma IA puramente geradora de texto. Ele tinha uma capacidade de compreensão de linguagem natural relativamente forte e podia escrever artigos e relatórios. Embora não fosse tão confiável, ainda era incrível.

Mais tarde, as pessoas descobriram que, desde que o ChatGPT receba as instruções apropriadas, ele pode concluir automaticamente a programação ou o processamento de texto em vez de humanos, assim como um computador baseado em linguagem natural.

Depois que a OpenAI lançou a função de plug-in, o ChatGPT pode ser combinado com muitos aplicativos da Internet, integrando muitas operações de plataforma cruzada com diálogos e tornando-se uma nova entrada para a Internet.

O Copilot lançado pela Microsoft inspirou a imaginação das pessoas sobre o próximo estágio da interação humano-computador: a interface de operação gráfica nem sempre é um paradigma razoável e muitas operações às quais estamos acostumados podem ser substituídas por diálogo.

Quando voltamos ao Spot, podemos ver claramente o significado do grande modelo de linguagem: simplificar a interação humano-computador e dar aos robôs uma inteligência mais avançada.

Quer o ChatGPT seja usado como um novo portal de Internet ou como um controle remoto para controlar robôs industriais com capacidade de aprender, analisar problemas e executar operações de alta precisão, ele essencialmente transforma conjuntos de instruções complexas em linguagem natural, reduzindo os custos operacionais.

Essa capacitação permitirá que os futuros robôs industriais não apenas sejam ferramentas para execução de comandos, mas também tenham um nível de inteligência comparável ao do cérebro humano.

Assim como a interface gráfica transforma linhas de comando complexas em ícones intuitivos, e agora a complexa operação de clicar em diferentes ícones se tornou uma frase simples, os seres humanos estão passando da interface gráfica do usuário para um novo estágio: a interface do usuário em linguagem natural.

Nesta fase, o grande modelo de linguagem se tornará a tecnologia-chave dos robôs industriais, o que simplificará a interação humano-computador, melhorará a eficiência da produção e promoverá ainda mais o desenvolvimento tecnológico da sociedade humana.

E, em alguns casos, os modelos de linguagem podem até ter um desempenho melhor do que os humanos na compreensão da linguagem. Arvind Narayanan, professor da Universidade de Princeton, mencionou um caso pessoal em seu blog.

Arvind Narayanan conectou o ChatGPT à interação de voz para sua filha de quase quatro anos. Assim como todas as crianças, sua filha é cheia de curiosidade e frequentemente faz várias perguntas ao ChatGPT.

Para sua surpresa, quando ele disse ao ChatGPT que estava conversando com uma criança, o ChatGPT se tornou muito bom em expressar empatia.

Filha: "O que acontece quando as luzes são apagadas?"
ChatGPT: "Com as luzes apagadas, ficará muito escuro e pode ser um pouco assustador. Mas não se preocupe! Há muitas coisas que podem ajudá-lo a se sentir seguro e confortável no escuro."

O colunista da "Bloomberg", Parmy Olson, apontou que a Microsoft e o Google estão ocupados usando grandes modelos em mecanismos de busca, mas não acham que o ChatGPT seja mais adequado como companheiro emocional do que como provedor de fatos.

Olson também pediu ao ChatGPT para fazer um teste de inteligência emocional, que acabou sendo melhor do que ela e seus colegas. Só porque o ChatGPT é treinado com material de texto na Internet, haverá muita desinformação nos dados, mas isso também o torna melhor em imitar a empatia.

Esses casos demonstraram plenamente que a capacidade de grandes modelos de linguagem para entender a linguagem natural realmente tem um grande potencial de aplicação.

Com uma capacidade de compreensão tão poderosa, podemos usar o modelo de linguagem grande para realmente realizar outra inovação na interação humano-computador.Ao mesmo tempo, o surgimento do modelo de linguagem grande trouxe novas possibilidades para o desenvolvimento de robôs.

Modelos de linguagem grandes permitem que os robôs entendam e processem melhor as instruções, e aprendam e se adaptem a novas tarefas e ambientes mais rapidamente.

"The New Yorker" mencionou no artigo de capa "Dark Factory" (Dark Factory) que uma dificuldade comum em robôs industriais atualmente é projetar um "efetor final" como uma mão humana, para que o robô possa usar diferentes objetos Grasp de vários tamanhos e formas com grande força.

Se esse problema técnico for resolvido, os robôs podem fazer trabalhos mais delicados e o grau de automação em muitos campos será bastante aprimorado. Por exemplo, a colheita de várias frutas pode ser automatizada e a linha de montagem da Foxconn não precisa mais de tantos trabalhadores.

Os futuros robôs industriais devem ser não apenas uma ferramenta para execução de comandos, mas também ter um nível de inteligência comparável ao do cérebro humano, com capacidade de aprender, analisar problemas e realizar operações de alta precisão.

Na linha de produção industrial, os robôs industriais "musculares" são mais flexíveis e eficientes, capazes de lidar melhor com vários problemas de produção e melhorar a eficiência e a qualidade da produção. Por exemplo, no campo da fabricação de automóveis, grandes modelos de linguagem podem dotar os robôs de inteligência e capacidades cognitivas mais fortes, permitindo que concluam melhor diversas tarefas.

No campo da robótica médica, os robôs podem se comunicar com médicos e pacientes por meio da tecnologia de processamento de linguagem natural para fornecer melhores serviços médicos.

O modelo de linguagem grande trouxe um cérebro poderoso para a indústria de robôs e criou um cenário de aplicação mais geral para robôs, que provavelmente se tornará o núcleo técnico da quarta revolução industrial. A "versão de voz" Spot é a primeira centelha dessa mudança tecnológica.

Huang Zhijian

Chega de besteira.

Correspondência

#Bem-vindo a prestar atenção à conta pública oficial do WeChat de Aifaner: Aifaner (ID do WeChat: ifanr), conteúdo mais interessante será apresentado a você o mais rápido possível.

Ai Faner | Link Original · Ver comentários · Sina Weibo