Acaba de ser lançado o Gemini 3.1 Pro! Yao Shunyu, da Universidade de Tsinghua, o promoveu, e Karpathy disse: “A era das lojas de aplicativos acabou.”

Após ter vivenciado o momento mais embaraçoso na Cúpula de IA na Índia, o CEO do Google, Sundar Pichai, deu a volta por cima e anunciou oficialmente o mais recente modelo, o Gemini 3.1 Pro, logo pela manhã.

O timing foi impecável, incrivelmente preciso (doge).

▲Os CEOs da OpenAI e da Anthropic se recusaram a apertar as mãos durante uma sessão de fotos, optando por erguer os punhos cerrados.

Embora tenham se passado apenas alguns dias desde a atualização Gemini 3 Deep Think da semana passada, o Google deixou bem claro o posicionamento do 3.1 Pro: ele foi projetado para tarefas em que "uma resposta simples está longe de ser suficiente", servindo como base fundamental para a resolução de problemas complexos.

Como é habitual, uma atualização para a versão 0.1 geralmente significa ajustes menores. No entanto, no benchmark ARC-AGI-2, que testa a capacidade de um modelo de resolver padrões lógicos completamente novos, o 3.1 Pro alcançou 77,1%, mais que o dobro da geração anterior, o 3 Pro (31,1%), e também superou o Opus 4.6 da Anthropic (68,8%) e o GPT-5.2 da OpenAI (52,9%).

Em outras áreas, a pontuação GPQA Diamond para conhecimento científico foi de 94,3%, enquanto os benchmarks MCP Atlas e BrowseComp para agentes inteligentes obtiveram pontuações de 69,2% e 85,9%, respectivamente.

Em termos de capacidades de programação, o benchmark de programação competitiva LiveCodeBench Pro alcançou uma pontuação Elo de 2887, superando os 2439 do 3 Pro e os 2393 do GPT-5.2. No SWE-Bench Verified, o 3.1 Pro obteve 80,6%, praticamente igualando os 80,8% do Opus 4.6.

É claro que o 3.1 Pro não é perfeito em todos os aspectos.

No teste multimodal MMMU Pro, a geração anterior, o 3 Pro, teve um desempenho ligeiramente melhor (81,0% contra 80,5%); no teste Humanity's Last Exam, com suporte a ferramentas ativado, o Opus 4.6 ficou em primeiro lugar com 53,1%. As ferramentas do Google são criticadas há tempos por serem menos eficientes que as da concorrência, e desta vez a empresa ainda não conseguiu silenciar completamente essas críticas.

A Artificial Analysis, uma conhecida empresa de análise independente, forneceu uma avaliação bastante objetiva.

O 3.1 Pro ficou em primeiro lugar no índice de inteligência, com uma pontuação 4 pontos superior à do Opus 4.6; todo o teste utilizou aproximadamente 57 milhões de tokens, e o custo para concluir o teste foi menos da metade do custo do Opus 4.6. Altamente eficiente e com excelente custo-benefício, essa combinação é bastante atraente.

Jeff Dean, cientista-chefe do Google DeepMind, também compartilhou um aplicativo que usa o 3.1 Pro para simular o planejamento urbano e projetar novas cidades, gerando uma demonstração interativa de interface de planejamento do zero.

O blog oficial do Google apresentou diversas outras aplicações para o dia a dia. No que diz respeito à animação de código, o Google Play 3.1 Pro consegue gerar SVGs dinâmicos diretamente a partir de comandos de texto. Como a animação é gerada puramente a partir de código, e não de pixels, ela mantém a qualidade independentemente da escala, e o tamanho do arquivo é significativamente menor do que o de vídeos tradicionais.

Em termos de sistemas complexos, o modelo acessa diretamente fluxos de dados de telemetria disponíveis publicamente, criando um painel de instrumentos espaciais que rastreia a órbita da Estação Espacial Internacional em tempo real.

Ainda mais interessantes são as duas demonstrações criativas.

Uma delas é uma simulação 3D de um bando de estorninhos, que não só gera código visual, como também suporta o controle do bando por gestos e inclui música gerada automaticamente que muda dinamicamente conforme o bando se move.

Outra abordagem consiste em transformar a atmosfera literária de "O Morro dos Ventos Uivantes" em um site pessoal moderno. Em vez de simplesmente resumir o enredo, o modelo analisa o tom geral do romance e cria um estilo de interface que combine com o temperamento do protagonista.

Além disso, internautas contribuíram com muitos exemplos impressionantes. Um usuário fez com que o Google 3.1 Pro gerasse uma animação em loop SVG dinâmica de um "caçador de fantasmas viajando por uma casa mal-assombrada", e o resultado foi tão impressionante que o usuário comentou: "O Google está falando sério desta vez."

Alguns internautas também acreditam que a animação interativa da semente rompendo o solo, as raízes se estendendo, o caule emergindo, as folhas desabrochando e, finalmente, crescendo até se tornar uma árvore completa, com cada estágio de crescimento transcorrendo de forma suave e natural, é o melhor efeito semelhante que já viram.

Yao Shunyu, ganhador de um prêmio especial do departamento de física da Universidade de Tsinghua, que trocou o Anthropic pelo Google DeepMind no ano passado, também apoiou o Gemini, dizendo: "O Gemini não é apenas um modelo excelente, mas modelos ainda melhores estão surgindo de forma imparável."

É claro que todas essas demonstrações juntas falam da mesma coisa: as capacidades dos modelos evoluíram, deixando de ser apenas responder perguntas para abranger toda uma gama de fluxos de trabalho profissionais ou criativos.
Em termos de preços, o API é escalonado e permanece consistente com a geração anterior, o 3 Pro, mas ainda é relativamente mais barato do que a série Anthropic Opus.

Para menos de 200.000 tokens, a entrada é de US$ 2 por milhão de tokens e a saída é de US$ 12. Para mais de 200.000 tokens, a entrada aumenta para US$ 4 e a saída é de US$ 18. A função de busca é gratuita para as primeiras 5.000 buscas por mês e, em seguida, custa US$ 14 a cada 1.000 buscas subsequentes.

Os desenvolvedores agora podem usar o AI Studio, a API Gemini, a CLI Gemini, a plataforma de desenvolvimento de agentes inteligentes Google Antigravity e o Android Studio; os usuários corporativos podem usar o Vertex AI e o Gemini Enterprise; e os usuários em geral podem usar os aplicativos Gemini e o NotebookLM, este último disponível apenas para assinaturas Pro e Ultra.

Vale ressaltar que a versão 3.1 Pro é atualmente apenas uma versão de pré-visualização. É muito provável que o Google continue aprimorando o fluxo de trabalho do agente inteligente antes de lançar a versão oficial, mostrando ao mundo exterior que ainda não atingiu seu potencial máximo.

Quanto ao que aconteceria se essa capacidade se disseminasse para o nível individual, isso me lembra um tweet recém-publicado por Andrej Karpathy, cofundador da OpenAI:

Ele pretende reduzir sua frequência cardíaca em repouso de 50 para 45 em 8 semanas, estabelecendo uma meta de exercícios aeróbicos na Zona 2, combinada com uma sessão de HIIT por semana. Para acompanhar seu progresso, ele dedicou uma hora à criação de um painel personalizado usando o Vibe Coding.

O processo foi mais complicado do que o esperado. Claude precisou fazer engenharia reversa da API em nuvem da esteira Woodway, extrair os dados brutos, processá-los e filtrá-los, e construir a interface web. Também foram encontrados e corrigidos manualmente alguns bugs, como a mistura de unidades métricas e imperiais e datas de calendário incompatíveis.

A observação de Karpathy foi perspicaz: dois anos atrás, isso teria levado 10 horas, agora leva 1 hora. Mas o que mais lhe importava era que deveria ter levado apenas 1 minuto.
Sua avaliação é que o modelo de loja de aplicativos está se tornando obsoleto.

Uma ferramenta personalizada com 300 linhas de código e uma biblioteca LLM gerada em segundos não precisa ser um aplicativo propriamente dito para você pesquisar e baixar. Ele também apontou um problema do setor: 99% dos produtos ainda não possuem CLIs de IA nativas e continuam mantendo interfaces de usuário legíveis por humanos, em vez de fornecer APIs fáceis de usar para os agentes.

A esteira Woodway é essencialmente um sensor, mas ainda assim requer um modelo de aprendizado de máquina para fazer engenharia reversa, o que é completamente desnecessário.

Comparar a demonstração de planejamento urbano de Jeff Dean com o painel de controle de Karpathy revela duas faces da mesma moeda. A era em que pessoas comuns podem criar uma ferramenta altamente personalizada em apenas uma hora — composta por sensores e atuadores nativos de IA, orquestrada por um LLM (Modelo de Gestão Local) e gerada espontaneamente em um aplicativo altamente personalizado — já está ao nosso alcance.

Blog oficial em anexo:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo