O Google usa IA para “matar” o Google; esta conferência de imprensa deixou os espectadores sem fôlego.

O aplicativo Gemini possui mais de 900 milhões de usuários ativos mensais, processa 3200 trilhões de tokens por mês e gera mais de 50 bilhões de imagens usando Nano Banana…

Na conferência Google I/O, que terminou hoje de manhã, o CEO do Google, Demis Hassabis, apresentou esses números logo no início.

Ao longo do último ano, a IA tornou-se o tema dominante em todos os setores. O papel do Gemini no Google também evoluiu de um aplicativo único para a mais importante capacidade de IA subjacente a todos os produtos do Google.

Esta conferência de imprensa começou com modelos e depois passou para produtos de codificação e agentes.

O Gemini Omni impulsiona a geração de vídeo do Google em direção a uma abordagem de "modelo mundial", enquanto o Gemini 3.5 Flash, juntamente com ferramentas de programação de IA, está sendo direcionado para a plataforma de desenvolvimento Agent.

Essas duas funcionalidades foram posteriormente integradas a todo o ecossistema do Google, incluindo Busca, Gemini App, Flow, Spark, Chrome, óculos de realidade aumentada (XR) e comércio eletrônico.

O Gemini Omni chegou, marcando o momento "Nano Banana" no mundo dos vídeos.

O primeiro destaque da conferência de imprensa foi o Gemini Omni.

O CEO da DeepMind descreveu o Gemini Omni como um novo modelo capaz de "criar qualquer conteúdo a partir de qualquer entrada". Ele combina os recursos de inferência do Gemini com os modelos de mídia generativa existentes do Google, visando aprimorar a compreensão do mundo pelo modelo, suas capacidades de geração multimodal e suas capacidades de edição.

O Google destaca que modelos como Veo, Nano Banana e Genie já conseguem gerar vídeos, imagens e simulações interativas, mas o Gemini Omni vai além, começando a lidar com problemas mais próximos do mundo físico, como energia cinética e gravidade.

Os estudos de caso apresentados na conferência de imprensa incluíam vídeos que explicavam o dobramento de proteínas. Os usuários só precisam inserir um comando, como "gerar uma animação em massinha explicando o dobramento de proteínas", e o Omni consegue transformar conceitos científicos abstratos em conteúdo de vídeo.

A plataforma também oferece suporte a uma edição de vídeo mais natural. Os usuários podem fazer upload de seus próprios vídeos e, em seguida, modificar o estilo, adicionar elementos, ajustar detalhes e até mesmo transformar um círculo comum em um buraco negro para transformar uma cena de caminhada noturna em uma imagem mais dramática por meio de diálogos.

O Google afirma que o Gemini Omni começará com vídeo e gradualmente migrará para "qualquer entrada para qualquer saída". É por isso que o Google sempre projetou o Gemini como um modelo multimodal.

O primeiro modelo da família Omni, o Gemini Omni Flash, já está disponível nos produtos do Google, e mais informações sobre o Omni Pro serão anunciadas posteriormente. A funcionalidade Omni no app Gemini também está disponível para assinantes do Google AI Plus, Pro e Ultra.

Isso significa que o Gemini Omni não é apenas um modelo de geração de vídeo. O Google quer inseri-lo na narrativa de um "modelo de mundo": o modelo não apenas gera imagens, mas também compreende as relações físicas, as relações de movimento e a lógica da cena nas imagens.

Após ser integrado a aplicativos como Gemini App, Google Flow e YouTube Shorts, o Omni também ampliará as ferramentas de criação generativa do Google, da edição de imagens para a edição de vídeos.

O Gemini 3.5 Flash já está disponível, permitindo codificação com inteligência artificial em velocidade impressionante.

Se o Gemini Omni corresponde à geração e edição, então o Gemini 3.5 Flash corresponde à velocidade, custo e capacidades de execução.

No evento, o Google lançou o Gemini 3.5 Flash, classificando-o como um dos primeiros modelos da série Gemini 3.5, com foco em programação acadêmica, tarefas de longo prazo e fluxos de trabalho do mundo real.

Em comparação com o 3.1 Pro, o 3.5 Flash apresenta melhorias significativas em quase todos os benchmarks, especialmente em recursos de codificação e testes como o GDPVal, que são mais próximos de tarefas econômicas do mundo real.

O Google também enfatizou que o Flash 3.5 é 4 vezes mais rápido do que outros modelos de ponta na geração de tokens e, após otimização especial no Antigravity, pode ser até 12 vezes mais rápido.

Vale ressaltar que, em março deste ano, as tarefas internas de desenvolvimento do Google processavam aproximadamente 500 bilhões de tokens por dia, e esse número dobrou a cada poucas semanas desde então, ultrapassando atualmente 3 trilhões de tokens por dia. O Google chama isso de ciclo de feedback, utilizando o uso em larga escala no mundo real para continuar aprimorando o Flash 3.5.

O Antigravity 2.0 foi lançado simultaneamente com o modelo.

A plataforma foi atualizada, passando de um IDE baseado em agentes para um aplicativo de desktop independente, priorizando a experiência do usuário com agentes. Os usuários não apenas contam com a assistência da IA ​​para escrever código em um editor, mas também concluem tarefas de desenvolvimento por meio de diálogos com agentes, artefatos gerados por agentes e colaboração multiagente.

O Antigravity 2.0 adiciona uma interface de linha de comando completa, o SDK do Antigravity, suporte nativo a fala para o modelo de áudio Gemini e integra-se com serviços como Android, Firebase e Google AI Studio. O Antigravity 2.0 também está disponível como um aplicativo de desktop independente para usuários em todo o mundo.

O Google demonstrou a direção do Antigravity 2.0 com uma apresentação de alta intensidade: permitindo que agentes construam um sistema operacional funcional do zero. Essa tarefa foi executada em paralelo por 93 subagentes ao longo de 12 horas, iniciando mais de 15.000 solicitações de modelo, processando 2,6 bilhões de tokens e gerando módulos essenciais, como um agendador, gerenciamento de memória e sistema de arquivos, a partir de um projeto vazio.

O Google afirma que isso não é possível no Gemini 3.1 Pro, enquanto o uso do Gemini 3.5 Flash consumiria menos de US$ 1.000 em créditos de API.

A demonstração também mostrou o sistema executando o programa de trens do Second Life e o jogo Doom. Inicialmente sem drivers de vídeo e teclado, a Antigravity continuou a gerar e corrigir o código necessário, permitindo a execução do Doom. O Google também afirmou que métodos semelhantes foram testados em projetos como suítes de edição de fotos, aplicativos de mensagens em tempo real e plataformas de colaboração multiusuário, reduzindo o trabalho de engenharia que levaria dias para horas ou até menos.

O Gemini 3.5 Flash já está disponível para todos os usuários, abrangendo os produtos e APIs do Google. O Gemini 3.5 Pro ainda está sendo usado e aprimorado internamente e tem previsão de lançamento para o próximo mês.

Da caixa de pesquisa ao agente de informações, o Google está reinventando a busca com IA.

Após os modelos e ferramentas de desenvolvimento, o Google mudou seu foco para a busca. A Busca do Google é essencialmente uma busca feita por inteligência artificial.

O Google afirma que o Modo IA possui mais de 1 bilhão de usuários ativos mensais e que as buscas dobraram a cada trimestre desde o seu lançamento.

A partir de hoje, o Modo IA foi atualizado para Gemini 3.5. A nova caixa de pesquisa inteligente também está sendo implementada a partir de hoje. Ela suporta texto, imagens, arquivos e vídeos, e fornece sugestões de IA conforme o usuário digita a pergunta.

As funcionalidades de Visão Geral da IA ​​e Modo IA foram integradas em uma experiência de busca por IA mais fluida. Os usuários podem primeiro visualizar a resposta da IA ​​na página principal de resultados da busca e, em seguida, acessar o Modo IA para fazer perguntas adicionais, mantendo o contexto. Essa nova experiência de busca foi lançada globalmente para computadores e dispositivos móveis no dia do evento de lançamento.

A maior mudança está no agente de busca.

O Google afirma que, neste verão, os usuários poderão criar agentes de informação na Busca para monitorar continuamente tipos específicos de informação. Por exemplo, os usuários poderão configurá-los para monitorar ações de grandes empresas de biotecnologia com índice P/L abaixo de 15, fluxo de caixa positivo e baixo endividamento; ou para acompanhar informações sobre aluguéis, colaborações de tênis e lançamentos de novos produtos a longo prazo. Quando as condições mudarem, o agente enviará atualizações completas aos usuários.

O Google também incorporou os recursos de codificação de agências da Antigravity à busca.

A busca retornará não apenas páginas da web, resumos ou cartões, mas também interfaces interativas para perguntas específicas. Por exemplo, se um usuário perguntar "Como os buracos negros afetam o espaço-tempo?", a Busca poderá gerar um componente visual interativo; se ele continuar com a pergunta "Como os buracos negros binários produzem ondas gravitacionais?", a Busca regenerará uma interface dinâmica com parâmetros ajustáveis. A interface generativa com Antigravity será lançada gratuitamente para todos os usuários neste verão.

Experiências de personalização mais sofisticadas estão a caminho.

O Google apresentou um planejador de fim de semana no evento. A ferramenta combina informações como previsão do tempo, mapas, preferências do usuário, Gmail e Agenda para gerar uma pequena ferramenta que pode ser modificada, compartilhada e sincronizada com a agenda. Esse tipo de personalização estará disponível para assinantes nos próximos meses.

Funcionando mesmo quando desligado, o Gemini Spark traz os recursos de um agente para sua vida pessoal.

O produto novo mais importante para os consumidores é o Gemini Spark.

O Gemini Spark é um agente de IA pessoal que roda em uma máquina virtual dedicada no Google Cloud, permitindo que ele execute tarefas ininterruptamente. Ele é alimentado pelo Gemini 3.5 e pela plataforma Antigravity, suportando tarefas em segundo plano de longa duração.

O Spark continua funcionando mesmo depois que o usuário desliga o computador. Inicialmente, ele se integra às ferramentas do próprio Google e, nas próximas semanas, se integrará a ferramentas de terceiros por meio do MCP.

A apresentação mostrou diversos cenários típicos para o Spark.

Os usuários podem utilizá-lo para resumir os lançamentos e o progresso do Gemini Live na última semana, extrair informações do Docs, Gmail e registros de bate-papo, e gerar e-mails de equipe com um estilo de escrita personalizado. Ele também pode gerenciar festas de vizinhança, manter formulários de confirmação de presença do Google Sheets, controlar quem trouxe o quê, gerar rascunhos de e-mails de lembrete para vizinhos não cadastrados e gerar automaticamente páginas promocionais do Google Slides.

O Spark também oferece suporte à entrada de voz em dispositivos móveis.

Os usuários podem especificar várias tarefas simultaneamente, como deixar todos os logotipos relacionados a Sundar em rosa vibrante, escrever convites para novos vizinhos ou criar uma lista de tarefas para o filho antes do fim do ano letivo. O Spark dividirá essas tarefas em várias tarefas independentes e as executará em segundo plano, com os resultados sendo sincronizados entre o telefone e o computador.

O Gemini Spark estará disponível para testadores confiáveis ​​esta semana e será lançado em versão beta para assinantes do Google AI Ultra nos EUA na próxima semana.

O Google também lançou um novo plano Ultra por US$ 100 por mês e reduziu o preço do plano Ultra mais completo de US$ 250 para US$ 200 por mês. Ainda neste verão (do hemisfério norte), o Spark estará disponível no Chrome como um navegador com agente inteligente capaz de executar tarefas em páginas da web.

O aplicativo Gemini passou por uma grande reformulação e uma versão do Google do "AI Morning News" também está disponível.

O próprio aplicativo Gemini também passou por uma reformulação completa.

O Google apresentou uma linguagem de design totalmente nova, a Neural Expressive, que incorpora animação fluida, cores vibrantes, novas fontes e feedback tátil.

O novo aplicativo Gemini não apresenta mais as respostas como grandes blocos de texto. Em vez disso, ele gera um layout mais legível e intuitivo em tempo real, com base no conteúdo, incluindo imagens interativas, linhas do tempo e vídeos incorporados. O Neural Expressive já está disponível globalmente para Android, iOS e na web.

O Gemini Live também foi reformulado, permitindo que os usuários entrem diretamente em conversas ao vivo assim que o aplicativo for aberto. A seleção de sotaque regional será implementada nas próximas semanas.

O aplicativo Gemini também inclui o Resumo Diário. Trata-se de um recurso de resumo personalizado para uso matinal que integra informações do Gmail, Agenda, Tarefas e outras fontes para organizar as tarefas nas quais os usuários precisam se concentrar naquele dia e fornece um ponto de partida para a próxima ação.

O Daily Brief será lançado hoje para assinantes do Google AI Plus, Pro e Ultra nos EUA.

Além da narrativa mais ampla do Gemini, o Google também atualizou diversos produtos de uso diário.

O Google Maps passou recentemente pela sua maior atualização em uma década, adicionando o recurso Ask Maps. Isso permite que os usuários façam perguntas mais longas e complexas. Por exemplo, o evento de lançamento usou um cenário: uma criança cai em um lago com patos, um casamento começa em 30 minutos e o usuário quer saber onde pode ir a pé para comprar um vestido novo.

O Google Docs também receberá novos recursos de criação por voz. Os usuários não precisarão mais digitar instruções precisas; basta falar suas ideias e o Gemini recuperará o currículo do Drive, encontrará informações sobre eventos no Gmail e gerará um rascunho do Google Docs. Esse recurso será disponibilizado para assinantes dos planos Pro e Ultra neste verão (do hemisfério norte), e funcionalidades semelhantes de voz também estarão disponíveis no Gmail.

Com a modernização das capacidades de geração de conteúdo, a identificação da fonte tornou-se cada vez mais importante.

O Google afirma que, nos três anos desde o seu lançamento, o SynthID adicionou marcas d'água invisíveis a mais de 100 bilhões de imagens e vídeos, além do equivalente a 60 mil anos de áudio. Em seguida, o SynthID e a verificação de credenciais de conteúdo serão estendidos à Busca e ao Chrome.

Os usuários podem selecionar itens para pesquisar ou clicar com o botão direito do mouse no Chrome para perguntar se o conteúdo foi gerado por IA. O sistema mostrará então se o conteúdo veio de IA, de uma câmera ou se foi editado por uma ferramenta de IA generativa.

O Google também anunciou que a OpenAI, a Kakao e a ElevenLabs adotarão o SynthID 2. A Nvidia já havia aderido ao ecossistema SynthID. Para o Google, o SynthID não é apenas um recurso de segurança, mas também parte de seus esforços para estabelecer padrões transparentes para conteúdo de IA.

O pacote de ferramentas criativas do Google inicia seu ataque às imagens, ao design e ao vídeo.

No âmbito das ferramentas criativas, o Google lançou uma série de produtos importantes.

O Google Pics é um novo produto de criação e edição de imagens dentro do Google Workspace, projetado para cenários como pôsteres de festas, infográficos e imagens promocionais. Os usuários podem começar com uma imagem básica, excluir elementos, redimensionar objetos, editar e traduzir textos. O conteúdo gerado pelo Pics terá uma marca d'água SynthID. O Google Pics será lançado neste verão (do hemisfério norte).

O Stitch, um produto de design, também recebeu uma atualização. Os usuários podem gerar interfaces de sites ou aplicativos com um único comando e, em seguida, continuar a modificá-las por texto ou voz, como aumentar títulos, ajustar menus ou destacar mais opções de pizza. O Stitch permite exportar designs como código ou publicá-los diretamente em sites; a atualização já está disponível.

A atualização do Google Flow é de particular interesse. Após a integração do Gemini Omni ao Flow, os usuários podem alterar o ambiente, adicionar efeitos visuais e novos personagens com base no vídeo original, preservando ao máximo a performance original.

O Flow também adiciona um novo Agente que suporta a execução de múltiplas ações simultaneamente. Por exemplo, ele pode gerar 16 vídeos de diferentes ângulos de câmera a partir de uma única imagem, ou converter em lote um conjunto de cenas matinais em cenas noturnas.

O Flow Tools permite que os usuários criem suas próprias ferramentas criativas dentro do Flow, como efeitos de vídeo, animações desenhadas à mão e ferramentas de sobreposição de texto, além de oferecer suporte ao compartilhamento e à remixagem.

O Google Flow Music pode expandir um riff de piano em uma demo musical com foco em estilo. Esses novos recursos para o Google Flow e o Google Flow Music já estão disponíveis.

O Google aposta em óculos inteligentes, aventurando-se na próxima geração de gateways.

No que diz respeito ao hardware, o Google também expandiu sua plataforma de sistema operacional Android XR, antes voltada para dispositivos de realidade aumentada e displays montados na cabeça, para óculos inteligentes.

O Android XR é uma plataforma desenvolvida pelo Google em colaboração com a Samsung e otimizada para o Qualcomm Snapdragon.

O Google afirma que seus óculos com IA se dividirão em duas categorias: óculos com tela e lentes pequenas, e óculos com áudio. Os óculos com tela foram apresentados no Google I/O do ano passado, e os primeiros desenvolvedores começaram a criar experiências de visualização este ano, com o programa de testes de confiança previsto para ser expandido ainda este ano.

Os óculos de áudio foram lançados ainda antes.

O Google anunciou que seus primeiros óculos de áudio serão lançados neste outono (do hemisfério norte), com a Samsung envolvida no desenvolvimento do hardware e da experiência do usuário, e a Warby Parker e a Gentle Monster responsáveis ​​pelo design dos óculos. Esses óculos se conectam a smartphones e são compatíveis com Android e iOS. As respostas do Gemini são reproduzidas de forma privada por meio de fones de ouvido, em vez de serem exibidas nas lentes.

No evento de lançamento, o demonstrador mostrou como o Gemini conseguia navegar até o local onde se encontrou com um amigo na semana anterior usando os óculos, incluindo uma cafeteria no caminho; o Gemini também conseguia abrir o DoorDash para pedir café automaticamente e aguardar a confirmação do usuário.

Ele também pode resumir mensagens silenciosas e adicionar jantares em família ao calendário. Os óculos também podem funcionar com o relógio para permitir que os usuários tirem fotos de eventos, gerem imagens em estilo de desenho animado usando o Nano Banana e, em seguida, visualizem-nas no relógio.

Ao final da coletiva de imprensa, os cenários de aplicação do Gemini também foram estendidos à segurança cibernética.

O Google apresentou o CodeMender, um agente de segurança de código que encontra e corrige automaticamente vulnerabilidades críticas de software. O Google convidará um grupo de especialistas para testar a API do CodeMender antes de um lançamento mais amplo.

A conferência de imprensa inteira foi tão repleta de informações que chegou a ser quase avassaladora. No entanto, quando esses recursos de IA estiverem realmente disponíveis para dezenas ou centenas de milhões de pessoas, surge um problema contábil muito real: como o Google recuperará esse enorme investimento em poder computacional?

Por mais de duas décadas, o Google representou o modelo quintessencial de internet gratuita. Os usuários trocam sua atenção e dados por serviços, enquanto o Google lucra com publicidade e distribuição. Esse modelo fez do Google a empresa de infraestrutura mais poderosa da era da internet.

No entanto, o custo da inferência de modelos em larga escala é de uma ordem completamente diferente daquela de consultar um único resultado de pesquisa.

Memória de contexto longo, geração multimodal, agentes entre aplicações e automação em nível empresarial — todas essas capacidades exigem poder computacional contínuo. Quanto mais complexa a IA, mais difícil se torna para o Google absorver os custos por meio de "atualizações de recursos gratuitas".

Por isso, ao longo de toda a apresentação do Google I/O, embora parecesse tratar de melhorias na experiência do usuário, na verdade apontava para assinaturas, contratos corporativos, contas de poder computacional e taxas de serviço de longo prazo.

Os pontos de entrada gratuitos certamente não desaparecerão, pois continuam sendo a base para o Google adquirir usuários, dados e consolidar sua posição no ecossistema. Mas, sobre esses pontos de entrada, o Google está adicionando uma nova camada de serviços inteligentes: modelos mais robustos, maior capacidade de memória, permissões de sistema mais detalhadas, execução de tarefas mais complexas e serviços de nível empresarial mais estáveis.

Em outras palavras, o Google está se transformando de uma empresa de serviços de internet gratuitos em uma empresa de infraestrutura de IA por assinatura.

No entanto, surge uma questão: os usuários estão dispostos a pagar por buscas? Geralmente, não.

Mas e se fosse um "assistente super multifuncional" que pudesse lidar com seus e-mails 24 horas por dia, 7 dias por semana, gerenciar tarefas, analisar relatórios, controlar sua casa inteligente e até mesmo ajudar você a escrever código para desenvolver aplicativos? Você estaria disposto a pagar dezenas ou centenas de dólares por isso todos os meses?

Essa é precisamente a proposta central de negócios que o Google I/O está ansioso para validar este ano. E, observando o mercado frenético de hoje, a resposta parece óbvia.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.