Acaba de chegar a IA mais poderosa do ano! Elon Musk elogiou a Gemini 3 e, depois de experimentá-la, percebi que o ChatGPT deveria estar preocupado.

Acaba de ser lançada oficialmente a versão de pré-visualização do Gemini 3 Pro.

O mundo da IA ​​nunca fica sem notícias no final do ano, mas este ano está particularmente agitado. Se nada de inesperado acontecer, este será o modelo internacional mais aguardado para 2025. Pode-se até dizer que o Gemini 3 Pro se tornou o único protagonista neste período.

Nos últimos dois meses, o Google praticamente replicou as táticas de marketing de Sam Altman. Do renomado assessor de imprensa da Gemini, Logan Kilpatrick, ao CEO Pichai, pessoas próximas ao projeto têm usado constantemente uma linguagem enigmática nas redes sociais para alimentar a expectativa e aumentar o hype em torno da Gemini 3.

Curiosamente, o CEO da OpenAI, Sam Altman, acaba de publicar na plataforma X: "Parabéns ao Google pelo lançamento bem-sucedido do Gemini 3! Parece um ótimo modelo."

Considerando a história de Ultraman, que serve de alerta, a abordagem do Charada é extremamente arriscada; se o produto não atingir as expectativas, sua reputação poderá ruir instantaneamente. No entanto, o Google demonstra grande confiança em seu produto. Então, o que exatamente o Gemini 3 Pro oferece desta vez?

A versão que economiza dados é a seguinte:

  • A versão de pré-visualização do Gemini 3 Pro suporta nativamente formatos multimodais (texto, imagens, vídeo, áudio).
  • O projeto ficou em primeiro lugar no ranking do LMARaena e liderou os principais testes, incluindo inferência, multimodalidade e programação.
  • Capacidade de raciocínio recorde (GPQA Diamond 91,9%, MathArena Apex 23,4%)
  • O modo de inferência aprimorado do Deep Think estará disponível (nas próximas semanas).
  • Janela de contexto com 1 milhão de tokens + saída de 64K
  • O Google Antigravity, um novo IDE de IA, foi lançado. Os novos modelos agora integram ferramentas como Cursor, GitHub e JetBrains.

Fazendo jus ao nome "Pro", o modelo de IA mais poderoso do Google foi lançado tarde da noite.

Segundo o Google, o Gemini 3 Pro é o "modelo mais inteligente e adaptável" até o momento, projetado para resolver problemas complexos do mundo real — especialmente aqueles que exigem raciocínio de alto nível, criatividade, planejamento estratégico e melhoria contínua.

Seus cenários de aplicação típicos incluem: aplicações com capacidades de comportamento autônomo, programação avançada, compreensão contextual de longo prazo, processamento multimodal (como a combinação de texto, imagens e áudio) e desenvolvimento de algoritmos.

A versão de pré-visualização do Gemini 3 Pro liderou o ranking do LMARaena com uma pontuação de 1501, superando em muito seu antecessor em quase todos os principais benchmarks de IA. Mais importante ainda, ele não só reconhece o conteúdo da imagem, como também compreende informações implícitas e relações contextuais.

Especificamente, em termos de capacidade de raciocínio, alcançou uma pontuação de nível doutoral de 37,5% no "Humanity's Last Exam", 91,9% no teste GPQA Diamond e estabeleceu um novo recorde do setor de 23,4% no MathArena Apex.

No raciocínio multimodal, o MMMU-Pro obteve 81%, o Video-MMMU obteve 87,6% e o SimpleQA Verified alcançou uma precisão de 72,1%.

Isso também significa que o Gemini 3 Pro pode fornecer, de forma confiável, respostas de alta qualidade para uma variedade de problemas complexos em ciência, matemática e outras áreas, e suas respostas oferecem insights diretos e genuínos, dizendo o que você precisa saber, não apenas o que você quer ouvir.

Além do modo padrão, o Gemini 3 também oferece uma opção de inferência aprimorada chamada Deep Think.

Este modelo de raciocínio aprimorado obteve 41,0% no "Último Teste para a Humanidade", melhorou para 93,8% no GPQA Diamond e alcançou uma pontuação sem precedentes de 45,1% no teste ARC-AGI-2.

No entanto, esse modelo ainda está em fase de avaliação de segurança e espera-se que seja disponibilizado aos assinantes do Google AI Ultra nas próximas semanas.

Além dos dados de teste, o desempenho do Gemini 3 em cenários de aplicação do mundo real é ainda mais notável.

Por exemplo, se você encontrar o livro de receitas manuscrito da sua família, que contém receitas escritas pela sua avó em vários idiomas, o Gemini 3 pode reconhecer essas palavras manuscritas e organizá-las em um livro de receitas compartilhável.

Ou, se você quiser aprender uma nova área, ele pode processar artigos acadêmicos e longas videoaulas, gerando cartões de aprendizagem interativos. Pode até analisar seus vídeos de partidas de pickleball para gerar planos de treinamento específicos.

Isso ocorre porque o Gemini foi projetado desde o início para compreensão multimodal, sendo capaz de integrar vários tipos de informação, como texto, imagens, vídeo, áudio e código, juntamente com uma janela de contexto de até 1 milhão de tokens e suporte para saída de até 64K.

Vale mencionar que o Gemini 3 foi lançado oficialmente e integrado à Busca do Google no seu primeiro dia.

Isso não apenas aprimora significativamente a capacidade do mecanismo de busca de entender problemas complexos e extrair informações, mas também gera interfaces visuais dinâmicas, ferramentas interativas e sistemas de simulação em tempo real com base em consultas, como um simulador de física de três corpos ou uma calculadora de empréstimos.

Além disso, de acordo com os cartões de modelo divulgados pelo Google, o Gemini 3 Pro adota um modelo híbrido especializado esparso (MoE) baseado no Transformer, que oferece suporte nativo a entradas multimodais, como texto, visão e áudio. A principal vantagem dessa arquitetura é que o modelo seleciona dinamicamente a ativação de alguns parâmetros com base no conteúdo de cada token de entrada, alcançando assim um equilíbrio entre o consumo de recursos computacionais, o custo do serviço e a capacidade total.

Em relação ao hardware, o Gemini 3 Pro utiliza a Unidade de Processamento Tensorial (TPU) desenvolvida pelo próprio Google para treinamento. Comparada à CPU, a TPU é mais rápida no processamento de cálculos em larga escala necessários para grandes modelos de linguagem, e sua grande capacidade e memória de alta largura de banda permitem lidar com modelos e lotes de dados extremamente grandes.

Se você for um desenvolvedor, as mudanças trazidas pelo Gemini 3 serão ainda mais imediatas.

O blog oficial do Google afirma que o Gemini 3 é o modelo de "codificação de vídeo" mais poderoso até o momento — basta descrever o que você deseja em linguagem natural, e ele pode gerar aplicativos interativos totalmente funcionais.

Os dados falam por si: Elo ficou em 1487º lugar no ranking do WebDev Arena, com uma pontuação de 54,2% no Terminal-Bench 2.0 e 76,2% no SWE-bench Verified.

O Google também lançou uma nova IDE de IA: o Google Antigravity.

O agente inteligente integrado pode planejar e executar tarefas de software complexas de ponta a ponta de forma autônoma e verificar automaticamente a correção do código. Se você quiser criar um aplicativo de rastreamento de voos, o agente pode planejar e escrever o código de forma independente, verificar seu desempenho por meio de um navegador e até mesmo funcionar perfeitamente em um editor, terminal e navegador simultaneamente.

Em termos de capacidade de planejamento a longo prazo, o Gemini 3 ocupa o primeiro lugar na lista da Vending-Bench 2.

Em aplicações práticas, os novos recursos experimentais do Gemini Agent podem executar processos complexos de várias etapas do início ao fim. Se você disser "Organizar minha caixa de entrada", ele priorizará suas tarefas e criará rascunhos de respostas de e-mail para sua confirmação.

Ou você poderia dizer: "Encontre informações e reserve um SUV de porte médio para mim, com um orçamento de no máximo US$ 80 por dia. Use as informações do meu e-mail para planejar sua viagem na próxima semana." A Gemini encontrará informações sobre voos, comparará opções de aluguel de carros e preparará o processo de reserva para você.

Você mantém o controle durante todo o processo, e a Gemini solicitará confirmação antes de operações importantes.

Além disso, no Google AI Studio e no Vertex AI, o preço para usar a versão prévia do Gemini 3 Pro por meio da API Gemini é de US$ 2 por milhão de tokens para entrada e US$ 12 por milhão de tokens para saída. O uso também é gratuito no Google AI Studio, mas com algumas limitações.

O Gemini 3 foi integrado ao ecossistema de ferramentas de desenvolvimento, incluindo Cursor, GitHub, JetBrains e Replit.

Juntamente com o lançamento do produto, o Google abriu simultaneamente vários pontos de acesso.

A partir de hoje, a prévia do Gemini 3 está sendo liberada gradualmente: todos os usuários podem utilizá-la no aplicativo Gemini; assinantes do Google AI Pro e Ultra podem experimentá-la no modo de busca com IA; desenvolvedores podem acessá-la por meio da API Gemini, do Google Antigravity e da CLI Gemini; e usuários corporativos podem acessar o serviço por meio do Vertex AI e do Gemini Enterprise.

Chegou o rival do ChatGPT. Quão competitivo é o Gemini 3 em testes práticos?

É claro que as empresas de tecnologia sempre exageram suas capacidades, então também testamos alguns recursos.

O primeiro desafio foi recriar um console portátil Game Boy completo em um único arquivo HTML, com jogos clássicos como Tetris e Pokémon Red/Blue pré-instalados, e todos os controles tinham que ser compatíveis com interação por teclado e tela sensível ao toque.

Sinceramente, não tenho grandes expectativas em relação a esse requisito.

Esse tipo de tarefa, que exige lidar simultaneamente com design de interface do usuário, lógica de jogo e efeitos sonoros, levaria até mesmo um engenheiro front-end profissional vários dias. Mas o desempenho do Gemini foi inesperado: a interface interativa alcançou uma pontuação de 60 a 70%, e os botões até tinham efeitos sonoros distintos ao serem pressionados. Para um código gerado de uma só vez, foi bastante impressionante.

Agora que os consoles de jogos retrô estão funcionando, vamos com tudo!

▲ Projete e crie um sistema operacional web semelhante ao macOS, com todas as funcionalidades, desde editor de texto, terminal com Python e editor de código, até um jogo, gerenciador de diálogos, programa de pintura, editor de vídeo e todos os softwares essenciais do Windows já inclusos. Use quaisquer bibliotecas necessárias para isso, mas certifique-se de que tudo possa ser colado em um único arquivo HTML e aberto no Chrome. Torne-o interessante e rico em detalhes, mostrando elementos inesperados. Seja criativo e apresente toda a beleza em um único bloco de código.

Pedi ao programa para replicar um sistema macOS completo usando um único arquivo HTML, incluindo softwares pré-instalados como editor de texto, terminal, editor de código, gerenciador de arquivos, Paint e editor de vídeo. Embora o resultado final não seja esteticamente agradável, a lógica interativa principal está implementada.

Além de suas capacidades de programação, também testamos suas habilidades de geração visual e raciocínio.

Seguindo a abordagem do usuário @lepadphone (X), pedi à Gemini para implementar um efeito visual de um ventilador elétrico usando código front-end. Sugeri o uso da tecnologia SVG para desenhá-lo, incluindo detalhes estruturais como as pás do ventilador, a grade de proteção, a base e os botões de controle, além da implementação de efeitos dinâmicos como a rotação das pás e o ajuste de velocidade. O SVG gerado não só possui uma estrutura completa, como a animação de rotação das pás do ventilador também é muito natural.

Em seguida, pedi que desenhasse um pelicano andando de bicicleta — uma combinação incomum que testou a imaginação espacial da IA. O resultado foi um gráfico bem proporcionado, com a pose do pelicano e a perspectiva da bicicleta muito bem representadas.

▲Palavra-chave: Crie o código para um SVG de um pelicano andando de bicicleta da forma mais elegante possível.

Em termos de raciocínio, utilizei o clássico problema do macaco e dos pêssegos. A resposta de Gemini não só estava correta, como ele a verificou duas vezes.

Cinco macacos encontraram uma pilha de pêssegos na praia e decidiram dividi-los igualmente no dia seguinte. O primeiro macaco chegou cedo na manhã seguinte. Incapaz de dividir os pêssegos corretamente, jogou um no mar, criando cinco grupos iguais. O macaco ficou com a sua parte. O segundo, o terceiro, o quarto e o quinto macacos encontraram o mesmo problema e usaram o mesmo método, jogando fora um pêssego de cada vez para criar cinco grupos iguais. Qual é o número mínimo de pêssegos na pilha?

Mais interessante ainda, também testamos sua capacidade de compreender "literatura sem sentido".

Diante desse tipo de jogo de palavras pretensioso — "Quem entende, entende; quem é ignorante, permanece ignorante; os segredos do céu são compreendidos se não forem revelados, mas revelar os segredos do céu não é verdadeira compreensão" — a abordagem de Gemini é inteligente: primeiro, ele o classifica como "literatura sem sentido" para tranquilizar o leitor; depois, ele investiga as referências culturais subjacentes, como os conceitos taoístas de "existência e não existência" e os conceitos budistas de "forma e vacuidade"; finalmente, ele fornece uma tradução em linguagem simples. Essa resposta é muito mais sofisticada do que simplesmente dizer "isso é um absurdo".

O teste de redação também estava incluído.

Pedimos a Gemini que escrevesse "Um Dia na Vida de uma Gota de Chuva" em primeira pessoa, e ela nos entregou um poema em prosa: a aglomeração e a espera nas nuvens, a alegria da queda e a tranquilidade de se fundir com o rio. O texto é rico em detalhes sensoriais — o toque arrepiante, o reflexo visual das luzes de néon, o som audível do vento uivando. As emoções são genuínas e as imagens, ricas. Embora ainda haja alguns traços de escrita formulaica típica de "exemplos excelentes", já ultrapassou a nota de aprovação.

Para ser justo, deixando de lado as especificações técnicas, o desempenho real do Gemini 3 é inegável. A capacidade do Google de alcançar ou até mesmo superar os anos de experiência da OpenAI em um curto período de tempo é inseparável de sua força como um dos poucos fornecedores de IA de pilha completa.

As vantagens do Google são óbvias: a autonomia em poder computacional proporcionada pelos seus processadores da série TPU, desenvolvidos internamente, aliada ao maior repositório de dados do mundo — índices de busca, literatura acadêmica e a biblioteca de vídeos do YouTube — oferece um suporte poderoso para o treinamento do Gemini. Isso também pode explicar por que ele apresenta um desempenho mais estável ao lidar com informações em tempo real, tarefas multilíngues e compreensão de vídeo.

Agora mesmo, Omar Sanseviero, chefe de experiência do desenvolvedor da DeepMind, publicou no X que o evento desta noite foi apenas um "aquecimento" e que mais recursos serão lançados em breve. Somando-se a isso os rumores anteriores, o tão aguardado Nano Banana 2 pode realmente estar chegando em breve.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo