O Nano Banana Pro causou sensação no final da noite, mas o maior destaque não foram as imagens geradas por IA.

Ultraman enfrenta sua hora mais sombria.

A ofensiva de IA do Google não mostra sinais de arrefecimento. Se a foice do Gemini 3 Pro atingiu o campo do "front-end" há alguns dias, hoje é a indústria do design que está sendo impactada, com o recém-lançado Nano Banana Pro (Gemini 3 Pro Image) desferindo mais um golpe poderoso em recursos de geração de imagens.

Os empregos de designers juniores provavelmente estão em risco.

As funções principais são as seguintes:

  • Suporte a resoluções: Pode gerar imagens com resoluções de 1K, 2K e 4K.
  • Edição em várias etapas: Suporta fluxos de trabalho de edição de imagens em formato de conversa e com várias etapas.
  • Síntese de múltiplas imagens: até 14 imagens de entrada podem ser combinadas em uma única imagem de saída.
  • Aprimoramento da Busca: Integra os recursos de busca do Google para fornecer suporte de conhecimento mais preciso e atualizado.

Chega de adivinhações! O Nano Banana Pro finalmente aprendeu a pensar antes de desenhar.

As principais características do Nano Banana são a forte consistência dos personagens e a edição de diálogos, enquanto a evolução central do Nano Banana Pro reside na completa integração dos recursos de processamento avançado do Gemini 3 ao processo de geração de imagens.

Antes de gerar uma imagem, o programa realiza uma simulação física e uma dedução lógica, em vez de simplesmente "adivinhar" com base em padrões visuais.

▲Dica: Desenhe uma imagem em quatro painéis, cada um representando o mesmo jovem usando um chapéu de palha e pronunciando as palavras "Eu", "para cima", "cedo" e "oito". A aparência do homem deve ser consistente, os movimentos dos lábios devem corresponder com precisão à pronúncia de cada palavra e o estilo geral deve ser uniforme. Proporção 16:9, 4K.

A compreensão intermodal também é demonstrada de forma mais completa no Nano Banana Pro.

Com os recursos aprimorados de raciocínio multilíngue do Gemini 3, você pode gerar texto diretamente em vários idiomas ou localizar e traduzir seu conteúdo com um único clique.

Um amigo me enviou uma história em quadrinhos e pediu à modelo que a colorisse e traduzisse o texto em inglês dos balões de fala para chinês. O Nano Banana Pro coloriu tudo com perfeição, usando iluminação natural e reconhecendo o texto com precisão. O layout do texto em inglês também combinou perfeitamente com o formato dos balões de fala. Todo o processo, do reconhecimento à tradução e à reorganização, foi impecável, como se o dispositivo realmente "entendesse" a imagem.

▲Dica: Traduza o texto da imagem para chinês e pinte-o, deixando todo o resto inalterado.

Alternativamente, histórias em quadrinhos multilíngues, pôsteres internacionais e materiais promocionais que antes exigiam ajustes constantes de designers agora podem ser processados ​​por IA em uma única etapa. Por exemplo, o modelo pode traduzir o inglês de um pôster em inglês para o chinês. Esse processamento contínuo, do reconhecimento e tradução ao design, é justamente o aspecto mais poderoso da arquitetura multimodal nativa.

Em termos de recursos de geração de texto, o Nano Banana Pro tem um desempenho excepcional. Seja um slogan curto ou um parágrafo inteiro, o texto é legível e ainda oferece suporte a formatação detalhada com diversas texturas, fontes e estilos de caligrafia.

▲Palavras-chave: As ilustrações são no estilo das ilustrações de livros chineses antigos, retratando Guan Yu sentado ao lado de uma lamparina a óleo, vestindo um manto de batalha de mangas largas, com uma expressão concentrada e serena. Sobre a mesa, encontram-se tiras de bambu dos *Anais da Primavera e do Outono*, uma faca dourada, um pincel de escrita e outros artefatos, representados com linhas delicadas, preservando o estilo da impressão antiga. O fundo é delineado de forma simples com alguns traços que representam um canto, um biombo e um suporte para armas, simples, porém imbuído de um charme antigo. As cores são principalmente ocre claro, tinta cinza e azul pálido, apresentando o sabor cultural e a sensação histórica das ilustrações de livros antigos, em uma proporção de 4:3.

O limite de 64k tokens de entrada significa que ele consegue entender prompts de texto extremamente longos. Isso permite uma melhor compreensão de tudo, desde storyboards detalhados até requisitos complexos de formatação multilíngue.

▲Desafio: Crie uma pintura antiga em 4K com a seguinte inscrição: "Quando a lua estará clara e brilhante? Ergo minha taça para perguntar aos céus. Pergunto-me que ano é esta noite no palácio celestial. Anseio por cavalgar o vento e retornar, mas temo as torres de jade e os palácios de cristal, onde o frio é insuportável a tais alturas. Danço com minha sombra, tão diferente do mundo dos homens! A lua gira através do pavilhão vermelho, baixa sua luz pelas janelas bordadas, iluminando minha insônia. Não deveria haver ressentimento, mas por que a lua está sempre cheia quando estamos separados? As pessoas têm tristeza e alegria, separação e reencontro; a lua tem suas fases de crescente e minguante, e essas coisas sempre foram imperfeitas. Eu só desejo que todos possamos viver muito e compartilhar a beleza da lua, mesmo de longe."

Resolvendo o problema antigo de baixa resolução de seu antecessor, o Nano Banana Pro eleva a qualidade da imagem para 4K e permite a configuração livre de qualquer proporção de tela. Pôsteres de filmes, papéis de parede widescreen e layouts de painéis verticais podem ser gerados diretamente.

O Nano Banana Pro também suporta a edição combinada de até 14 imagens de entrada, mantendo a consistência visual de até 5 caracteres.

Com recursos de diálogo multitarefa, os usuários podem ajustar e integrar continuamente diversos materiais até atingir o efeito desejado. Seja transformando esboços em produtos ou plantas em edifícios 3D realistas, a transição do conceito ao produto final pode ser facilmente realizada.

▲Dica: Doraemon e Li Bai estão bebendo juntos sob a luz da lua. A lua cheia brilha no céu, e antigos pavilhões e torres se erguem nas proximidades. Doraemon veste trajes da Dinastia Tang, Li Bai segura um pote de vinho, e outras taças estão dispostas sobre uma mesa de pedra. A cena é etérea, uma mistura de estilos artísticos chineses e japoneses, com detalhes requintados.

Ainda mais avançada é a capacidade de controlar ideias criativas em nível profissional.

Você pode selecionar, ajustar ou transformar qualquer parte de uma imagem, desde ajustar o ângulo da lente e alterar o foco até aplicar correções de cor avançadas e até mesmo modificar a iluminação da cena — transformando o dia em noite ou criando efeitos bokeh. Essas tarefas, que antes exigiam um trabalho meticuloso no Photoshop, agora podem ser realizadas com apenas uma frase.

▲Dicas: Transforme a [câmera] da foto enviada em uma ilustração de desenho animado vibrante e colorida, mantendo o restante da foto realista e inalterado. Detalhes do estilo desenho animado: contornos pretos grossos, cores planas vibrantes (como ciano brilhante, magenta, amarelo, rosa), efeitos de tinta escorrendo e respingos, energia lúdica de histórias em quadrinhos. A maioria dos respingos deve fluir para baixo. O objeto do desenho animado deve parecer estar derretendo ou explodindo em cores, misturando-se naturalmente à foto original. Mantenha todos os outros elementos (fundo, outros objetos, ambiente) fotorrealistas, sem alterações. Alta resolução, estética pop art, contraste surreal entre realismo e desenho animado.

Pesquisar + Gerar = ? O Google oferece a resposta definitiva.

Se a busca é o "hemisfério esquerdo" do Gemini 3, então a geração de imagens é o seu "hemisfério direito".

Essa é também a capacidade mais subestimada, porém disruptiva, da arquitetura do Nano Banana Pro (imagem do Gemini 3 Pro). A busca tradicional envolve o usuário pesquisando, o mecanismo de busca fornecendo um link, o usuário clicando para acessar o site e o site fornecendo a interface. O Nano Banana Pro, no entanto, introduz recursos de aprimoramento de busca (Grounding with Search).

Quando um usuário solicita uma imagem visual que mostre sua viagem de dois dias a Guangzhou, o Nano Banana Pro gera uma imagem que inclui um mapa detalhado do itinerário, anotações em chinês e inglês e fotos das atrações.

Por exemplo, o Nano Banana Pro pode obter as condições meteorológicas mais recentes a partir da pesquisa com base nas instruções, e depois transformar dados importantes, como temperatura, velocidade do vento, umidade e tendências meteorológicas, em conteúdo visual vívido e bem elaborado.

▲ Instruções: Pesquise informações meteorológicas em tempo real em Guangzhou e crie um infográfico no estilo da arte pop chinesa, em proporção 4:3.

Essa capacidade é importante porque confere ao processo de criação uma base factual, atualizações em tempo real e verificabilidade. Pode-se afirmar com segurança que a busca realmente faz jus à reputação do Google como uma força formidável, tanto em termos de profundidade tecnológica quanto de compreensão do assunto.

Em termos de posicionamento de produto, o Google adotou uma estratégia de modelo duplo: a versão mais antiga do Nano Banana é para edições rápidas e divertidas do dia a dia, enquanto o Nano Banana Pro se concentra em necessidades profissionais, como composições complexas e qualidade de imagem excepcional. Os usuários podem escolher livremente de acordo com suas necessidades.

Para consumidores e estudantes, o Nano Banana Pro já está disponível globalmente no aplicativo Gemini. Basta selecionar "Gerar Imagem" e ativar o modo "Pensando" para usá-lo. Usuários da versão gratuita receberão um limite de créditos limitado, após o qual retornarão automaticamente ao Nano Banana original.

Os assinantes do Google AI Plus, Pro e Ultra desfrutam de taxas ainda maiores. Nos EUA, os usuários do Pro e do Ultra já podem experimentar o Nano Banana Pro no modo de IA da Busca do Google. O Nano Banana Pro no NotebookLM também está disponível para assinantes globais.

Vale ressaltar que o Google adotou uma abordagem dupla para a questão da transparência da IA.

Todo o conteúdo gerado por IA terá uma marca d'água digital invisível da SynthID incorporada, e os usuários agora podem fazer upload de imagens diretamente no aplicativo Gemini e perguntar se elas foram geradas pela IA do Google. Essa funcionalidade será estendida em breve a áudio e vídeo.

Agora que o Nano Banana Pro é tão poderoso, a questão é: como as pessoas comuns podem maximizar suas capacidades?

Bea Alessio, gerente de produto do Google DeepMind, elaborou um guia do usuário detalhado que revela muitas informações importantes. A maneira mais básica de usá-lo é simplesmente dizer algo e deixar o modelo adivinhar o que você quer. Mas, se você deseja atingir um nível profissional, precisa pensar como um diretor.

Uma palavra-chave completa deve conter seis elementos: sujeito (quem ou o quê), composição (como enquadrar a cena), ação (o que está acontecendo), cenário (onde), estilo (qual estética) e instruções de edição (como modificar).

Para um controle mais preciso, é necessário especificar melhor: a proporção da tela (pôster vertical 9:16 ou widescreen cinematográfico 21:9), os parâmetros da lente (ângulo baixo, profundidade de campo rasa f/1.8), os detalhes de iluminação (momento ideal de contraluz, alongamento das sombras), a direção da correção de cores (correção de cores cinematográfica, com predominância de tons ciano e verde), além do conteúdo e estilo específicos do texto.

Aqui está o endereço oficial do blog: https://blog.google/products/gemini/prompting-tips-nano-banana-pro/

Esse estilo de "orientação fotográfica" é o que diferencia o Nano Banana Pro dos modelos tradicionais de geração de imagens. Ele realmente entende esses termos técnicos e os traduz com precisão em resultados visuais.

Tendo visto isso, não é difícil entender o que o Google está tentando transmitir ao analisar a série de produtos que lançou nos últimos dias.

Seja o protótipo do Gemini 3 Pro lançado há alguns dias ou o Nano Banana Pro apresentado hoje, o Google está tentando provar ao mundo que o caminho para a IAG (Inteligência Artificial Geral) deve ser multimodal e nativo.

Somente um modelo capaz de ver, ouvir, compreender a estrutura e processar a lógica pode "pensar" plenamente sobre o mundo.

Do ponto de vista técnico, a série de modelos Nano Banana inaugurou oficialmente a fase de "compreensão antes da expressão" na geração de imagens.

Quando a IA começar a entender caminhos em labirintos, estruturas de objetos, o significado de textos e até mesmo a lógica de interação da interface do usuário, ela deixará de ser apenas uma ferramenta de desenho e se tornará um agente inteligente com capacidades de pensamento visual.

Do ponto de vista empresarial, os custos de raciocínio extremamente baixos e o surgimento de interfaces de usuário generativas mudarão fundamentalmente a lógica da produção de conteúdo e da distribuição de informações. A internet do passado consistia em páginas web fixas, enquanto a internet do futuro provavelmente consistirá em interfaces que crescem em tempo real de acordo com as necessidades do usuário.

O design deixará de ser uma arte exclusivamente humana, e as interfaces não serão mais o resultado de várias etapas de refinamento por uma equipe. Cada vez mais conteúdo visual será entregue primeiro à IA e, em seguida, complementado ou aprimorado por humanos. O Google claramente previu esse novo mundo e está começando a democratizar o acesso a ele.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo