Testei o avatar mundialmente conhecido do Gemini Live. Foi chocante
É um tanto enervante ouvir uma IA falando em um tom estranhamente amigável e me dizendo para limpar a bagunça na minha estação de trabalho. Estou um pouco orgulhoso disso, mas acho que é hora de empilhar os dispositivos espalhados ao acaso e arrumar a bagunça dos fios.
Minha irmã também concordaria. Mas entrar em ação depois que uma IA “vê” minha mesa, reconhece a bagunça e dá conselhos às donas de casa é o panorama geral. O chatbot Gemini AI do Google agora pode fazer isso. E muito mais.
O ingrediente secreto aqui é uma atualização recente de recurso chamada Projeto Astra . Ele está em desenvolvimento há anos e finalmente começou a ser lançado no início deste mês . A ideia geral é servir uma IA que tudo vê, tudo ouve e abertamente inteligente em seu telefone.
O Google vende esses superpoderes sob um nome nada inspirador: Gemini Live com câmera e compartilhamento de tela. Desenvolvido na unidade DeepMind da empresa, a empresa iniciou seu desenvolvimento como um “assistente universal de IA”. É uma pena que o nome final não seja tão aspiracional.

Vamos começar com a situação do acesso. O recurso agora está disponível para usuários do Pixel 9 e Galaxy S25 . Mas se você tiver um telefone Android com assinatura Gemini Advanced, poderá acessar o novo kit de ferramentas.
A propósito, isso seria US $ 20 por mês. Eu experimentei nos dois telefones mencionados acima e agora estou pronto para rodar no meu OnePlus 13 também. A parte mais legal? Você não precisa passar por nenhum obstáculo técnico para acessá-lo.
Uma combinação de botões liga / desliga ou volume ou deslizar o canto da tela para invocar Gêmeos é tudo que você precisa. Não importa qual aplicativo você está executando, você pode acessar a nova câmera e recursos de compartilhamento de tela como uma sobreposição em todos os cantos do sistema operacional.
Entendendo o mundo ao seu redor
Comecei apontando a câmera para uma pintura e perguntei sobre ela. Gemini Live foi capaz de detectá-la com precisão como uma pintura no estilo Madhubani, decodificando o uso ousado de cores e representação de animais.

Em seguida, ele me deu uma breve lição de história e as variações que se desenvolveram ao longo dos anos. As informações eram precisas, até o nível mais granular. Felizmente, você também pode optar por trocar mensagens de texto com Gemini, se estiver em um lugar onde as conversas por voz podem ser estranhas.
O que mais gosto na nova câmera e avatar de compartilhamento de tela do Gemini Live é que ele não é excessivamente falador. Você pode interrompê-la a qualquer momento, o que só aumenta o apelo “natural” das conversas.
Experimentei o Gemini em vários cenários. Eu não estava preparado para isso.
As respostas que ele fornece geralmente são sucintas, como se quisesse lhe dar uma chance (ou até mesmo um empurrãozinho) de fazer uma pergunta complementar, em vez de dar uma resposta extremamente longa. Ele se destaca em uma ampla gama de tópicos e cenários visuais, mas apresenta algumas armadilhas.

Ele ainda não pode usar o Google Lens, o que significa que o Gemini não pode comparar as imagens que vê na tela do seu telefone com os resultados correspondentes na web. Além disso, ele não poderá acessar informações em tempo real se você pedir ao Gêmeos para pesquisar os últimos desenvolvimentos em torno de um tópico ou personalidade.
Perguntei sobre espécies de plantas, listas de restaurantes, coletando dados de quadros de avisos e entendendo minha prescrição médica para um recente surto de gripe. Gemini se saiu muito bem, mais do que jamais experimentei o desempenho do chatbot de IA até agora.
Desbloqueando um banco de conhecimento
Em seguida, incentivei Gêmeos a entender o material acadêmico complexo. Coloquei um livro sobre Machine Learning no enquadramento da câmera. Gemini Live não apenas o reconheceu, mas também me deu uma visão geral do conteúdo do livro e de seus assuntos principais.

Curiosamente, comecei a folhear as páginas e cheguei à lista de capítulos. A IA reconheceu o progresso, parou de falar e perguntou se eu estava interessado em algum capítulo específico agora que estava verificando a lista de tópicos.
Fui pego de surpresa neste momento.
Pedi para detalhar alguns tópicos complexos, e a IA fez um trabalho respeitável, indo além do escopo do material na página e extraindo informações de seu amplo banco de conhecimento.
Por exemplo, quando perguntei sobre o conteúdo da página introdutória do romance seminal de Bhisham Sahni, Tamas, a IA captou corretamente a menção ao Prêmio Sahitya Akademi. Em seguida, mencionou detalhes que nem constavam na página, como o ano em que ganhou a prestigiosa homenagem literária e do que se trata o livro.
Por outro lado, a leitura em hindi do Gemini Live foi horrível. Não era apenas o sotaque ruim, mas o fato de que Gêmeos pronunciava pura besteira e sem palavras repetidamente. Ao tentar ler urdu, persa e árabe, ele fez um trabalho consideravelmente melhor, mas muitas vezes confundiu palavras de linhas aleatórias.

Na minha primeira tentativa com poesia em urdu, ele reconheceu não apenas o texto em urdu, mas também forneceu um resumo preciso do poema. O maior desafio, mais uma vez, foi a narração. Ouvir uma versão anglicizada do urdu realmente machucou meus ouvidos.
Destaca-se em locais surpreendentes
A IA é uma ferramenta fantástica de resolução de problemas e existem vários benchmarks para provar isso. Testei-o em problemas de física relacionados com termodinâmica, equações eletroquímicas e problemas estatísticos que apareciam em um caderno manuscrito. Gemini Live fez um trabalho fantástico nessas tarefas.
Ele também se destacou em tarefas criativas. Minha irmã, que é designer de moda, apresentou um de seus esboços na câmera e pediu feedback e também melhorias. Gemini Live começou elogiando o design, traçou paralelos com a ideologia de design de algumas marcas de moda e fez algumas recomendações.

Quando questionada ainda mais, a IA também aconselhou minha irmã sobre as melhores ferramentas para converter esboços desenhados à mão em conceitos digitais. Ele seguiu essas palavras de orientação, fornecendo informações úteis sobre a pilha de software e onde encontrar material de aprendizagem.
Quando coloquei algumas baterias Duracell na visualização da câmera, ela não apenas as reconheceu com precisão, mas também me informou quais plataformas de comércio eletrônico hiperlocais podem entregá-las para mim em poucos minutos.
Os serviços – chamados Blinkit e Swiggy Instamart – estão disponíveis apenas na Índia e são reservados principalmente para localidades urbanas. Mesmo em uma sala mal iluminada, foi possível identificar um par de fones de ouvido com fio na primeira tentativa.
A consciência da situação é seu ponto forte.
Em comparação com o bate-papo normal do Gemini ou o que você encontra na seção de visões gerais de IA da Pesquisa Google, as conversas do Gemini Live adotam uma abordagem mais cautelosa para distribuir conhecimento, especialmente se for de natureza sensível. Percebi que tópicos como recomendações alimentares e tratamento médico são tratados com uma abordagem cada vez mais cautelosa, e os usuários são frequentemente incentivados a encontrar o recurso especializado certo.
Algumas armadilhas familiares

Minha conclusão impressionante é que a reforma do “Projeto Astra” de Gemini é extremamente impressionante. É um vislumbre do futuro do que os smartphones podem alcançar. Com algumas melhorias, integrações e fluxos de trabalho entre aplicativos, a Pesquisa Google pode parecer uma relíquia desatualizada. Mas, por enquanto, existem algumas falhas gritantes.
Em algumas ocasiões, percebi que o sistema de memória fica descontrolado. Quando solicitado à IA para identificar uma banda de fitness na visualização da câmera, ela a reconheceu corretamente como o Samsung Galaxy Fit 3 . Mas quando fiz uma pergunta complementar, percebi erroneamente o dispositivo como uma banda de fitness da Huawei.
Também pode mentir descaradamente. E com bastante confiança, devo dizer. Por exemplo, quando pedi para resumir minha análise do dispositivo vestível, a IA respondeu que a Digital Trends ainda não o revisou. Na verdade, o artigo foi publicado há uma semana.
Em seguida, pedi para ler alguns artigos na página do meu autor depois de ativar o compartilhamento de tela. Gêmeos fez um trabalho decente ao explicar as histórias, mas ocasionalmente tropeçava na compreensão contextual. Por exemplo, mencionou incorretamente que apenas a Intel e a AMD podem fabricar NPUs que se qualificam para o emblema Copilot+ .

O artigo, por outro lado, menciona claramente que a Qualcomm foi a primeira a cumprir esse critério, à frente da concorrência. E foi apenas no final do ano passado que a AMD e a Intel conseguiram finalmente subir de nível e atingir a linha de base dos chips de IA com um novo portfólio de processadores.
No meio da conversa sobre um artigo, novamente houve um problema de memória. Em vez de resumir a história que estava sendo discutida, voltou a falar sobre o primeiro artigo que viu por meio do compartilhamento de tela. Quando o interrompi no meio da narração, Gêmeos corrigiu seu erro.
Outro problema que notei na narração de idiomas diferentes do inglês é que o Gemini Live mudou aleatoriamente a voz e o ritmo no meio da narração. Foi bastante chocante e a pronúncia era absolutamente mecânica, muito diferente de suas habilidades de conversação em inglês, semelhantes às humanas.

As dificuldades da visão mecânica também são aparentes em relação às fontes estilísticas. Em algumas ocasiões, cuspiu informações erradas com confiança e, quando solicitada a corrigir-se, a IA expressou incapacidade de encontrar as informações mais recentes sobre o assunto. Esses cenários são raros, mas os erros do Gemini vieram para ficar.
Resumindo, acho que o Gemini Live com câmera e compartilhamento de tela é um dos maiores saltos que a IA deu até agora. É uma das implementações de IA generativa mais praticamente gratificantes até agora. Tudo o que precisa é de uma pitada de diversidade e de uma solução para a sua síndrome do “mentiroso confiante”.
As coisas estão definitivamente no caminho certo agora, e de forma esmagadora, mas ainda a alguns marcos cruciais de ser a companheira de IA perfeita dos sonhos tecno-futuristas.