A Apple está permitindo que a Siri escolha modelos de IA, mas só um deles faz sentido para mim.

Na WWDC 2024, a Apple prometeu uma Siri mais inteligente e capaz . A proposta era convincente: uma Siri que entende seu contexto pessoal, vasculha suas mensagens e e-mails, executa ações dentro de seus aplicativos e se transforma em uma verdadeira assistente.

Dois anos depois, esse sonho ainda permanece um sonho. Mas eis algo que pode mudar o rumo da assistente da Apple. Segundo relatos, a Siri não está mais atrelada a um único núcleo de inteligência artificial . A Apple está desenvolvendo-a para ser flexível, capaz de encaminhar solicitações para o modelo externo que melhor se adequar à tarefa.

Isso me levou a fazer uma pergunta. Se a Siri pode usar qualquer IA , qual ela deveria usar? Atualmente, o modelo externo padrão é o ChatGPT. Mas eu diria que o Gemini é a escolha mais lógica, e aqui está o porquê.

Siri é um mecanismo de busca

Pense em como você usa a Siri no dia a dia. Você pergunta sobre a previsão do tempo. Você pergunta sobre os restaurantes mais próximos. Você pede para ela pesquisar coisas na internet. Uma parte significativa do uso da Siri envolve buscas ou consultas semelhantes a buscas, e nenhuma empresa no mundo faz buscas melhor do que o Google .

O Google passou décadas construindo o mecanismo de busca mais poderoso, e essa expertise agora flui diretamente para o Gemini . Quando você pergunta algo ao Gemini , ele não se limita a usar um modelo de linguagem. Ele extrai dados do índice da web em tempo real do Google, do Google Maps, do Google Shopping e muito mais.

Utilizar essa tecnologia para potencializar a capacidade de busca da Siri a levará a um novo patamar, inigualável por qualquer outro provedor de LLM.

A Apple prometeu inteligência pessoal, mas a Gemini está entregando.

Um dos principais destaques do anúncio da Apple na WWDC 2024 foi a inteligência pessoal. A Apple mostrou a Siri exibindo informações contextuais de todos os seus aplicativos, respondendo a perguntas como "quando o voo da minha mãe vai pousar?" ou "mostre-me fotos da Stacy com seu casaco rosa de Nova York".

Na demonstração, foi realmente impressionante. No entanto, se eu pedir para me mostrar uma foto minha usando uma camiseta preta, ela mostra fotos aleatórias de pessoas da internet usando camisetas pretas. Não estou exagerando quando digo que o recurso de inteligência pessoal da Siri foi um fracasso colossal.

Enquanto isso, a Gemini lançou discretamente seu próprio recurso de Inteligência Pessoal. Ele acessa seu Gmail, Agenda, Google Fotos, Drive e outros serviços para analisar seus dados pessoais e responder a perguntas complexas relacionadas ao seu contexto de vida. Não é perfeito, mas pelo menos está funcionando.

Isso é praticamente exatamente o que a Apple estava demonstrando como uma futura funcionalidade da Siri, só que a Gemini está fazendo isso hoje . Se a Apple quiser acelerar a entrega desses recursos aos usuários, a Gemini pode ser o atalho que ela precisa.

Gemini já faz o que a Siri prometeu.

A Apple Intelligence implementa um modelo de IA compacto e eficiente em todos os aplicativos do sistema, combinando processamento no dispositivo para privacidade com computação em nuvem para tarefas mais exigentes. O processamento no dispositivo e os aspectos de privacidade são o que diferenciam a Apple da concorrência. Mas agora ela não está sozinha.

O Gemini Nano já faz isso em dispositivos Pixel e Samsung Galaxy. Ele possibilita resumos offline, respostas inteligentes e recursos contextuais, tudo sem precisar de conexão com a internet. No Pixel 9 e modelos mais recentes, o Gemini Nano é multimodal e pode processar imagens, textos e idiomas diretamente no dispositivo.

A Apple está construindo algo que o Google já lançou. Em vez de reinventar a roda, usar a tecnologia Nano existente do Gemini como base para os recursos da Siri no dispositivo economizaria muito dinheiro e evitaria muitas dores de cabeça para a Apple.

O conjunto de ferramentas criativas de Gemini está repleto de recursos.

É aqui que a coisa fica realmente interessante. O Gemini não é apenas um modelo de texto. Ele vem com todo um ecossistema criativo que a Apple poderia explorar.

O Veo processa a geração de vídeos em até 1080p, com estilos cinematográficos e clipes com mais de um minuto de duração. O Lyria , do Google DeepMind, cuida da geração de música e áudio. Para imagens, o Nano Banana (serviço de geração de imagens do Google) recebeu recentemente uma grande atualização, com renderização de texto aprimorada, consistência de assunto e suporte para qualquer proporção.

A Apple lançou recentemente seu próprio Creator Studio , oferecendo aos usuários acesso a ferramentas criativas por uma assinatura mensal fixa. Se a empresa pretende competir de verdade com gigantes como a Adobe, precisa oferecer recursos de criação generativa. E adivinhe só? O Gemini já possui todos esses recursos, e faria todo o sentido integrá-lo ao pacote de soluções criativas da Apple.

A parceria já existe.

Esse ponto não é discutido o suficiente. Segundo relatos, o Google paga à Apple cerca de 20 bilhões de dólares por ano para permanecer como mecanismo de busca padrão no Safari. Esse é um dos acordos de distribuição mais valiosos da história da tecnologia. A relação entre Apple e Google é profunda, antiga e financeiramente enorme para ambas as empresas.

Estender essa relação de "o Google fornece a busca do Safari" para "a Gemini fornece os recursos de IA da Siri" não é um salto drástico. É uma evolução natural de uma parceria que controla metade do que acontece quando você abre um navegador no seu iPhone.

Então, com qual modelo eu deveria ficar?

Claude é excelente para leitura de contextos longos e raciocínio complexo. O ChatGPT possui um ecossistema enorme e ferramentas robustas de programação e gerenciamento de agentes. Ambos funcionam muito bem como especialistas escolhidos pelo usuário. Eu mesmo uso o Claude no meu computador.

Mas como mecanismo padrão da Siri? Não são a escolha certa. O Gemini opera no nível do sistema operacional em dispositivos móveis, entende buscas e contextos pessoais, existe em um formato Nano integrado ao dispositivo e está no centro da relação comercial mais importante que a Apple tem com qualquer empresa de tecnologia.

Todas as peças estão lá. Não se trata de saber se o Gemini poderia alimentar uma Siri mais inteligente. Trata-se de saber se o Google e a Apple conseguirão chegar a um acordo mutuamente benéfico. E, a julgar pelos rumores, as coisas podem já estar caminhando nessa direção.