Os gadgets de IA estão mortos

maio 20, 2024 gurinho

Gêmeos, ChatGPT, Humane Pin e Rabbit R1. — Tendências Digitais

Antes do Google I/O 2024 , havia poucas dúvidas de que o Google falaria sobre IA. O evento começou com uma nota apropriadamente turbulenta. A sensação do YouTube, Marc Rebillet, começou o show enfeitado com um roupão de banho depois de sair de um copo gigante.

A estrela da mídia social deu o tom para o resto do evento, pedindo ao público ideias musicais selvagens que ganharam vida por meio do software AI DJ do Google. O anfitrião não poderia ter pedido um começo melhor. Nas palavras do CEO Sundar Pichai, os executivos do Google pronunciaram a palavra “IA” 121 vezes.

Quando o evento terminou, fiquei com duas perguntas assustadoras. Primeiro: o Google está tentando resolver problemas que nem existem na vida de uma pessoa comum, forçando-a a comer o gelato Gemini? Dois: existe um mercado para hardware especializado de IA que vale algumas centenas de dólares quando a IA nos telefones está ganhando um conjunto alucinante de superpoderes?

O status das bugigangas de IA

O Rabbit R1 descansando em um banco. — Joe Maring/Tendências Digitais

Até agora, temos lindos gadgets de IA laranja, como o Rabbit R1, bem como algo tão bom quanto o Humane AI Pin . Uma marca está até fazendo um pingente de IA. Alguns deles apenas ouvem. Outros falam, gravam vídeos, fazem chamadas, acessam bots de IA tagarelas e até tentam entender o mundo ao seu redor.

Agora, não vou discutir o quão ruim esses dispositivos têm se saído até agora. Mas o editor da seção móvel da Digital Trends, Joe Maring, diz que o Rabbit R1 é um dos piores gadgets que ele já usou . A história do Humane AI Pin também não foi muito diferente. Ai! Tudo bem, todos esses dispositivos são de primeira geração desse tipo, então vamos dar uma folga a eles.

Mas aqui está a realidade. O futuro deles não parece brilhante, fácil para os bolsos ou mesmo conveniente. Em um espaço de dois dias, dois pesos pesados da IA – OpenAI e Google – defenderam esse ponto de forma quase conclusiva.

A IA agora está ciente do mundo

Usando a capacidade de visão de IA no aplicativo ChatGPT. — OpenAI

Vamos começar com a visão, um poder que permite que uma IA veja o mundo através das lentes de uma câmera e fale sobre o que vê. O Google apresentou algo chamado Gemini Live no I/O 2024. Um dia antes disso, a OpenAI revelou o GPT-4o , onde “o” significa omnimodal. Essa é apenas uma maneira elegante de dizer multimodal, o que significa que seu amigo IA pode lidar com texto, áudio e recursos visuais para entrada e saída. Mas o objetivo final é idêntico em ambos os produtos.

Você inicia a IA de sua escolha, aponta a câmera para praticamente qualquer coisa e a IA responderá às suas perguntas contextuais. Você pode ativar a câmera frontal e pedir à IA para fornecer comentários enquanto observa você jogando Pedra, Papel e Tesoura com um amigo. Pode dizer se a sua camisa rosa não é o melhor traje para uma entrevista de emprego.

Quando necessário, pode olhar objetos e explicá-los em português, identificar edifícios como um guia turístico de confiança e sentir uma ocasião especial olhando para os confetes espalhados sobre uma mesa. Aponte para o código e a IA explicará o propósito do código. E se a IA tiver visto as chaves do seu carro a qualquer momento, ela lhe dirá exatamente onde você as deixou.

Agora, todos os recursos mencionados acima não são uniformes no ChatGPT (com alto consumo de GPT-4o) e no Gemini Live (com a tecnologia Google Astra por trás dele). Mas os fundamentos são compartilhados. Este também é um momento crucial em que as falhas entre a experiência de IA em telefones e em hardware dedicado se ampliam.

O enigma do hardware

Recurso de visão ChatGPT em ação. — OpenAI

O Rabbit R1 e o Humane AI Pin possuem câmeras de 8 megapixels e 12 MP, respectivamente. Sim, eles podem ver o mundo e entendê-lo, mas não conseguem igualar os recursos visuais das câmeras de alta resolução estabilizadas opticamente em um smartphone de geração atual decente.

Em suma, um smartphone médio alimentará pontos de dados visuais mais saudáveis para um mecanismo de IA, local ou baseado em nuvem, o que se traduz diretamente em uma melhor compreensão. Pense nisso como comparar uma filmagem de vlog sob uma luz desafiadora de um orçamento e um telefone principal e pedir a seus amigos que descrevam tudo o que veem. É claro que um clipe borrado ou estourado não ajudará muito aqui.

Depois, há a parte de computação. Entre eles, os gadgets de IA mais badalados de 2024 funcionam com silício MediaTek e Qualcomm de nível baixo a intermediário. Esses dispositivos não são sobrecarregados pelo peso de um sistema operacional inteiro, mas pelo que vimos até agora, mesmo um smartphone decente pode executar tarefas de IA em um ritmo dramaticamente mais rápido em comparação com o R1 ou o Pin da Humane.

Tradução de IA no telefone Android. — Google

Não quero que meu gadget de IA demore 15 segundos para processar uma solicitação, quando até o bom e velho Siri pode fazer um trabalho melhor. Esse é um benchmark ruim, mas é aí que está o R1. Agora que estamos falando de silício, vamos discutir como o processamento desempenha um papel fundamental aqui. Os truques generativos de IA ganham vida de duas maneiras. A maioria das soluções leva as consultas para um servidor em nuvem, o que significa que precisam de conexão com a internet.

A segunda opção é o processamento offline, como o modelo Gemini Nano do Google faz na série Pixel 8 e nos telefones Samsung, entre outros. A maior vantagem é que você não precisa de conexão com a internet neste cenário. Atualmente não existe nenhuma coisa de IA que possa funcionar sem uma conexão com a Internet.

A IA no dispositivo é uma verdadeira joia

Uma foto de Sundar na palestra do Google I/O 2024. — Joe Maring/Tendências Digitais

Com o processamento no dispositivo , o aplicativo Gravador em telefones Pixel pode transcrever e resumir gravações de áudio. Magic Compose aumentará o nível do seu jogo de mensagens de texto sem solicitar conexões Wi-Fi ou de celular. O mesmo se aplica às traduções e transcrições. Na verdade, o Google lançou as bases para traduções off-line confiáveis já em 2018 com sua tecnologia de tradução automática neural.

Mas isso é apenas a ponta do iceberg. Ainda este ano, o Google lançará o Gemini Nano com Multimodalidade. Isso significa que você não precisará de uma conexão com a Internet para que o Gemini Live veja, entenda e forneça respostas contextuais sobre o que vê e ouve através da câmera, tela e microfone do seu telefone.

O Google está até potencializando o recurso de acessibilidade TalkBack com o Gemini. Essa é uma grande vitória para quem vive com desafios de fala e visibilidade, mas precisa de um companheiro TalkBack confiável com recursos multimodais, mas não tem acesso a uma conexão com a Internet.

Recurso TalkBack com tecnologia Gemini no Android. — Google

Além disso, eu já disse que o processamento de IA no dispositivo é mais rápido e dramaticamente mais seguro porque nenhum dado sai do seu telefone? Mais importante ainda, em última análise, reduz o custo de servir recursos generativos de IA.

O custo para os consumidores é atualmente uma das maiores incertezas quando se trata de toda a campanha de marketing de telefones com IA. A IA no dispositivo é um grande suspiro de alívio nesse caos, pois você pelo menos tem uma ideia do mínimo que seu telefone pode fazer sem se preocupar muito com a compatibilidade de recursos nos próximos anos.

Gêmeos está fazendo certo

Gemini Processamento avançado de documentos. — Google

Finalmente, temos a questão crucial da interação. Minha vida gira em torno do Gmail, Docs, Drive, Maps, Photos e Search, entre outros. O Google criou o Gems, também conhecido como assistentes personalizados baseados no Gemini, para lidar com tarefas específicas que estão intimamente ligadas a outros produtos do ecossistema.

Por exemplo, quando você pede ao Gemini para planejar uma viagem para você, ele espia sua caixa de entrada do Gmail para agendar passagens e, em seguida, combina os dados em seu prompt de voz/texto com informações relevantes da Pesquisa Google para criar um plano de viagem totalmente detalhado.

Para aqueles dispostos a pagar pelo Gemini aAdvanced, existem ainda mais superpoderes de produtividade a reboque. Ele pode processar PDFs de até 1.500 páginas, 30.000 linhas de código, um vídeo de uma hora ou uma combinação de vários formatos de arquivo.

Gêmeos processará todas essas informações e, em seguida, fornecerá versões resumidas, identificará aspectos cruciais e até mesmo atuará como professor após ingerir todo esse material. Ele pode até pegar planilhas comuns e criar um relatório financeiro detalhado com uma compreensão clara dos lucros e insights relacionados.

A IA até ouvirá chamadas e alertará os usuários se o chamador for uma fraude. Na verdade, o Gemini nem leva você para outro aplicativo. Quando você precisar, a interface do Gemini simplesmente passará o mouse sobre o aplicativo que você está usando no momento, fará seu trabalho e desaparecerá.

É difícil vencer um smartphone

Experiências de Gêmeos ao telefone. — Google

O que quero ressaltar aqui é que uma IA deve servir como assistente, mas precisa encontrar o equilíbrio certo entre versatilidade funcional e conveniência prática. Só o poderá fazer quando tiver acesso a dados que são importantes para mim, pessoal e profissionalmente. E quero que toda essa inteligência seja atendida da melhor maneira possível, sem qualquer sobrecarga financeira extra.

No momento, empresas como Rabbit R1 ou Humane AI Pin mal conseguem arranhar a superfície dessa interconexão profunda de produtos. Além disso, o próprio hardware impede a IA de atingir todo o seu potencial. Não consigo imaginar o Google licenciando o Gemini Nano para algo como o Rabbit R1 e, mesmo que isso aconteça, a experiência será prejudicada pelo hardware.

Então, por que pagar mais e se contentar com uma experiência abaixo da média quando o telefone no seu bolso pode fazer um trabalho matador? O telefone AI está aqui. E está aqui para ficar. As bugigangas de IA laranja e brilhantes, por outro lado, estão praticamente mortas.