Nano Banana finalmente deixou de ser analfabeta, mas eu posso acabar ficando “estúpido”.

Durante o último fim de semana, as capacidades do Gemini 3 Pro Image foram repetidamente "testadas" de maneiras cada vez mais variadas — ah, você pergunta o que é isso? Seu outro nome é Nano Banana 2. Um nome tão jocoso, mas que foi mantido.

Nano Banana2 se destaca em todos os aspectos, a ponto de até mesmo seu "concorrente", Sam Altman, ter que reconhecer sua superioridade.

▲ Imagem de: The Information

Os elogios são apenas isso mesmo — elogios. A Nano Banana Fase 2 marca, de fato, uma virada significativa no campo da geração de imagens por IA: uma mudança do "raciocínio" baseado em probabilidades para a "construção lógica" baseada na compreensão. Ela também carrega um significado especial: a IA não está mais mirando apenas nos seus olhos, mas também na sua inteligência.

Os grandes modelos de linguagem já não são "analfabetos".

Sempre houve um problema inevitável com imagens geradas por IA: elas são incrivelmente talentosas e conseguem produzir resultados sem esforço, mas às vezes parecem perder o controle, como se estivessem bêbadas. Isso começou na era Midjourney e melhorou gradualmente desde então, mas ainda persiste.

Um dos maiores problemas era o texto. Durante muito tempo, a maneira mais simples de determinar se uma imagem havia sido gerada por IA era observar o texto presente na imagem.

Este é um defeito inerente ao modelo de difusão: ele trata o texto como uma textura em vez de um símbolo.

A inovação mais evidente do Nano Banana 2 é a sua capacidade de "reconhecer palavras", também conhecida como renderização de texto.

Meu teste improvisado gerou um pôster de filme retrô com o título "A Vingança da Banana" e o subtítulo "Lançado em 2025" em fonte serifada vermelha.

No passado, tentar esse comando provavelmente resultaria em uma imagem bastante artística. Embora algumas variações de "BANANA REVENGE" permanecessem legíveis e normais, o texto menor muitas vezes não se sustentava bem e, às vezes, o título principal chegava a ser escrito "BANNANA". No entanto, em Nano Banana 2, esses caracteres são "escritos" na tela com precisão, clareza e um visual agradável.

E daí? Isso é só para economizar tempo adicionando palavras?

Para usuários comuns, isso pode ser uma espécie de "liberdade dos emojis". Você finalmente pode gerar uma imagem que critique seu chefe com precisão, juntamente com um texto conciso, sem precisar mais criar uma caixa de texto separada.

Para o mundo empresarial, isso significa que a geração de imagens por IA passou oficialmente da fase "material" para a fase "entregável".

▲ Imagem do usuário X @chumsdock

Quando a IA consegue processar informações simbólicas com precisão, os resultados se tornam mais diversos e práticos, incluindo, entre outros, pôsteres para e-commerce, ilustrações para PowerPoint e até mesmo gráficos de dados. Antes, os designers só podiam usar a IA para gerar imagens de fundo; as informações principais ainda precisavam ser adicionadas manualmente. Agora, a IA pode gerar protótipos diretamente, até mesmo gráficos de pizza com anotações de dados ou anúncios em que o texto se adapta perfeitamente à perspectiva.

Esta é a "última milha" da entrega comercial e também um enorme passo em frente para os modelos de imagem bruta em termos de transmissão de informações.

De "adivinhar probabilidades" a "compreender a física"

O sucesso na renderização do texto é um microcosmo altamente representativo do salto tecnológico subjacente ao Nano Banana 2. A mudança mais profunda é que esta "banana" desenvolveu um cérebro .

Isso se refere à geração de imagens baseada em "raciocínio".

Um modelo de grande porte é essencialmente uma máquina estatística probabilística. Quando você pede a um modelo para desenhar um "gato sentado em uma mesa de vidro", ele aprende com centenas de milhões de imagens e, ao gerar a imagem, simplesmente reproduz os padrões estatísticos dos pixels.

O Nano Banana 2 se diferencia por incorporar as capacidades de raciocínio do modelo de linguagem Gemini 3. Antes de gerar imagens, ele parece construir um modelo físico em seu "cérebro". Ele sabe que geralmente há sombras desfocadas sob um "gato" e que objetos sobre ou abaixo de uma placa de vidro apresentam diferentes relações de iluminação.

Em outro teste informal que realizei, ao ser solicitado que criasse "um laboratório de química complexo com béqueres contendo líquido azul sobre uma mesa e fórmulas moleculares em um quadro-negro ao fundo", o programa demonstrou um raciocínio lógico notável:

O líquido no béquer terá o menisco correto; a refração da luz pelo material de vidro está de acordo com a intuição física; e, mais importante, as fórmulas moleculares no quadro-negro ao fundo não são mais linhas aleatórias, mas fórmulas que se parecem com estruturas químicas adequadas (embora ainda apresentem falhas).

Quando o pincel tem um "cérebro", a forma como interagimos com ele muda.

O motivo para enfatizar a geração de texto é que a renderização de texto é a manifestação externa, refletindo o raciocínio como o mecanismo interno. Em conjunto, a experiência final que o Nano Banana 2 proporciona aos usuários é uma "Tela de Pensamento".

O Google integrou profundamente esse modelo em seu ecossistema, indo além da simples geração de imagens para "modificar" a realidade. O próximo passo é avançar para áreas mais complexas: infográficos, planos de aula, materiais didáticos e assim por diante.

Em geral, a geração de imagens normalmente envolve usuários fornecendo 20% das instruções, com os 80% restantes ficando a cargo da IA ​​para preencher as lacunas — anteriormente, isso era feito por meio de probabilidade (coloração aleatória). Agora, baseia-se no raciocínio causal, não apenas representando o "resultado", mas também sugerindo o "processo", o que aumenta exponencialmente o impacto narrativo e emocional da imagem.

Não se trata mais apenas de agradar aos olhos; trata-se também de agradar à inteligência. Um diagrama estrutural como o acima, embora não esteja 100% em conformidade com os padrões da engenharia mecânica, ainda demonstra que pregos são pregos e rebites são rebites. A "correção lógica" é uma manifestação direta de sua capacidade de raciocínio.

No entanto, tudo tem dois lados. De outra perspectiva, isso pode significar a homogeneização da criatividade .

Quando a IA consegue gerar gráficos, pôsteres e ilustrações que "atendem aos padrões de negócios" com perfeição, ela está essencialmente nivelando o nível médio de estética. Todos os pôsteres são diagramados corretamente e têm iluminação perfeita, mas também podem perder os toques de genialidade que nasciam da "imperfeição" dos designs anteriores.

▲ Imagem do usuário X @ dotey

O problema mais profundo reside no desaparecimento da verdade. Quando o tipo de conteúdo logicamente sólido e rico em informações mencionado acima pode ser produzido em massa, satisfazer a mente nunca foi tão fácil, nem tão simples . Se isso determinar toda a minha ingestão de informações, de imagens a textos, então… como será o resultado?

E depois há o problema antigo dos deepfakes, que já foi discutido inúmeras vezes. Embora o Google tenha adicionado o SynthID (uma marca d'água digital invisível a olho nu) para identificar conteúdo gerado por IA, as medidas antifalsificação da tecnologia muitas vezes são insignificantes em comparação com o impacto visual. Criar "realismo" tornou-se tão barato e conveniente que nossa crença de que "ver para crer" será completamente transformada.

Não importa se o nome é "Nano Banana" ou "Gemini 3 Pro". O que importa é que, a partir deste momento, cada pixel e cada linha de texto que vemos na tela podem não mais vir de dedos humanos, mas do pensamento de uma máquina.

É emocionante e, por vezes, arrepiante.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo