Acaba de ser lançada a versão OpenAI do Nano Banana: Ultraman se transforma instantaneamente em um modelo masculino sexy com resultados reais de testes.

A grande repercussão em torno do GPT-40 no primeiro semestre do ano não só fez com que o Ultraman sentisse os efeitos das GPUs, como também transformou imagens brutas e capacidade de compreensão visual em argumentos de venda quase padrão para todos os modelos de grande porte.

Mas, no segundo semestre deste ano, foi aquela "banana" que realmente se fez notar: a Nano Banana.

Em um esforço para recuperar sua posição de liderança, a OpenAI lançou oficialmente hoje seu mais recente modelo de visão computacional, o GPT-Image-1.5. Este é mais um passo importante na iniciativa "Alerta Vermelho" da OpenAI, após o GPT-5.2.

A versão que economiza dados é a seguinte:

  • Execução de instruções mais precisa
  • Edição mais precisa
  • Detalhes mais completos são preservados.
  • Quatro vezes mais rápido do que antes

Diga adeus aos aspectos místicos das invocações gacha e desbloqueie o máximo de detalhes de edição!

A maior melhoria no GPT-Image-1.5 é a "edição precisa".

Antes, usar IA para editar imagens era como lidar com um cabeleireiro que não entendia a linguagem humana. Você podia querer apenas arrumar a franja, e o modelo raspava sua cabeça. Agora, o modelo finalmente entende a linguagem humana. Ele ajusta exatamente onde você quer mudar.

A iluminação, a composição e as características dos personagens são mantidas consistentes durante todo o processo de entrada, saída e edição subsequente.

Parece abstrato? Veja o exemplo oficial.

  • Montagem de uma foto de festa de aniversário infantil ao estilo de filme dos anos 2000 com dois homens e um cachorro →
  • Adicione crianças barulhentas atirando coisas ao fundo →
  • Altere o estilo do homem à esquerda para um desenho retrô feito à mão e o do cachorro para um estilo de brinquedo de pelúcia, mantendo o homem à direita e o fundo inalterados.
  • Coloquem suéteres da OpenAI em todo mundo →
  • Por fim, apenas o cachorro foi mantido, e as imagens foram incluídas em uma transmissão ao vivo da OpenAI…

Após uma série de ações, a lógica da tela não apresentou falhas. Isso demonstra que o GPT-Image-1.5 não depende mais de palpites, mas compreende de fato a estrutura da tela e consegue executar operações CRUD. A capacidade de modificar o conteúdo com precisão e confiabilidade é sua atual vantagem competitiva tecnológica.

Vamos analisar mais alguns casos dos meus testes reais.

Você pode ter visto a obra-prima "Um Panorama de Rios e Montanhas", mas talvez tenha perdido alguns detalhes.

Da mesma forma, quem garante que um Shiba Inu chamado Kabosu, vindo da era moderna, não possa aparecer de repente na pintura "Cem Cavalos"?

Até mesmo o iminente duelo na jaula entre Musk e Zuckerberg foi transformado com sucesso no personagem Ultraman usando o GPT-Image-1.5. Os rostos não pareceram estranhos e a incongruência foi praticamente inexistente.

Precisamos de uma foto extremamente detalhada e realista, tirada de um ângulo muito baixo, mostrando Musk sentado às margens do Rio das Pérolas, com uma das mãos apoiada na torre da Torre de Cantão. Para enfatizar a imensidão do monumento, também precisamos espalhar pequenos barcos e turistas ao redor de seus pés.

Como resultado, de fato aprendeu o que significava "proporção".

▲ Sugestão: Uma foto altamente detalhada e realista tirada de um ângulo extremamente baixo. Elon Musk está sentado às margens do Rio das Pérolas, com uma das mãos apoiada na torre da Torre de Cantão. Para enfatizar seu tamanho imponente, pequenos barcos e turistas poderiam ser adicionados ao redor de seus pés. 2K, 16:9

Finalmente, parei de fazer aqueles "rabiscos", mas minha caligrafia chinesa ainda está…

Em comparação com o modelo de imagem inicial, o GPT-Image-1.5 é melhor em seguir instruções complexas e detalhadas e consegue manter as relações predefinidas entre os elementos.

O exemplo oficial apresenta um diagrama em forma de grade 6×6, onde cada linha deve ser organizada de acordo com um conteúdo específico: letras gregas, animais, objetos, ícones e palavras. O modelo é organizado de maneira ordenada, o que agradaria até mesmo aqueles com tendências obsessivo-compulsivas.

Após testes, converter desenhos de linhas em imagens realistas tornou-se uma operação básica.

Os recursos de renderização de texto também foram aprimorados, permitindo um melhor processamento de conteúdo denso e com fontes pequenas. Por exemplo, um documento Markdown pode ser renderizado com o layout natural de um artigo de jornal, incluindo notas de lançamento do GPT-5.2, comparações de desempenho, etc., mantendo a integridade e a precisão da formatação e dos números.

Essa funcionalidade pode parecer insignificante, mas é absolutamente essencial para usuários que precisam gerar pôsteres, imagens promocionais e infográficos.

Antes do Nano Banana Pro, a renderização de texto por IA generativa era absurdamente abstrata; agora, finalmente, é legível. No entanto, precisamos jogar um balde de água fria nessa ideia: embora as capacidades do GPT-Image-1.5 em inglês sejam realmente impressionantes, seu desempenho em chinês continua desastroso.

Eu pedi para ele desenhar uma história em quadrinhos chinesa sobre "Optimus Prime conquistando Marte", e ele criou uma língua marciana para você.

Alternativamente, poderia gerar a imagem de uma pessoa antiga escrevendo "Shuidiao Getou" em uma parede, com inúmeros erros no texto e a maneira como segurava a caneta, como se fosse uma caneta-tinteiro.

Felizmente, a velocidade de geração é 4 vezes mais rápida. Enquanto uma tarefa ainda está sendo desenhada, você pode iniciar várias novas tarefas simultaneamente, reduzindo bastante o custo de tentativas e erros. Seu conhecimento de objetos também é muito bom; quando perguntado o que acontece ao adicionar sal a um ovo na água, a imagem gerada é bastante satisfatória.

▲A imagem da esquerda é a imagem original e a imagem da direita é a imagem gerada. Dica: Se você adicionar muito sal à água, gere uma imagem mostrando o que acontece com um ovo.

O blogueiro @Yuchenj_UW acredita que o efeito de geração de imagens do GPT 1.5 é aproximadamente equivalente ao do Nano Banana Pro, mas sua "inteligência/capacidade de raciocínio" é significativamente inferior à do Nano Banana Pro, especialmente em problemas de matemática (e outros problemas de física/labirinto).

Seu próximo designer não precisa ser uma pessoa. O ChatGPT está pronto para competir.

A OpenAI também criou um portal dedicado à criação de imagens no ChatGPT.

Este novo ponto de entrada pode ser encontrado na barra lateral tanto do site quanto do aplicativo móvel. Ele vem com filtros predefinidos e palavras-chave em alta, e é atualizado regularmente. Envie seu retrato uma única vez e todas as fotos incluirão você; não é necessário enviar imagens repetidamente.

Sinceramente, o Nano Banana não possui esse recurso, mas modelos de imagem RAW nacionais já o utilizam amplamente há bastante tempo. De certa forma, o GPT-Image-1.5 também está aprendendo com a experiência de seus equivalentes nacionais.

Agora mesmo, Ultraman também compartilhou nas redes sociais fotos de modelos masculinos para um calendário natalino sensual que ele criou usando o GPT-Image-1.5.

Já que estávamos aqui, resolvemos dar ao Ultraman algumas skins diferentes. Estilo adesivo, estilo boneco de cabeça oscilante, estilo esboço — prevê-se que, depois de hoje, o Ultraman voltará a ser o homem mais comentado da internet.

Um detalhe que merece elogios é que a OpenAI fornece publicamente instruções predefinidas quando você solicita a geração de uma solução predefinida. Nesse aspecto, a OpenAI realmente personifica a abertura.

Além disso, criar cartões de felicitação, capas de álbuns, restaurar fotos antigas e tirar fotos profissionais para candidaturas de emprego são opções predefinidas muito práticas. Por exemplo, a foto clássica de Lu Xun e Tagore, após a restauração, ficou muito boa.

Em uma postagem no blog, a CEO da OpenAI, Fidji Simo, escreveu: "O pensamento humano não é composto apenas de palavras. Na verdade, nossas ideias mais criativas muitas vezes se originam de imagens, sons, ações ou padrões em nossas mentes."

Ela revelou que o ChatGPT está se transformando de um produto reativo e centrado em texto para uma ferramenta mais intuitiva que se adapta melhor às suas diversas necessidades. A mudança de um produto puramente textual para interfaces multimídia e dinâmicas é um passo significativo nessa evolução.

Muitos usuários têm seu primeiro contato com o ChatGPT criando imagens a partir de texto. Esse processo de "transformar texto em imagens" é fascinante, mas a interface de bate-papo do ChatGPT não foi originalmente projetada para isso. A criação e a edição de imagens são tarefas completamente diferentes que exigem um espaço visual dedicado.

A OpenAI chegou ao ponto de criar um ponto de entrada dedicado para isso, proporcionando à geração de imagens um ambiente mais criativo, semelhante a um estúdio.

O plano não termina aí.

A OpenAI vai introduzir mais elementos visuais para otimizar a experiência geral do ChatGPT. Os resultados de pesquisa futuros incluirão mais imagens e fontes claras. Para tarefas como conversões de unidades ou consulta de resultados esportivos, você precisa de visualizações claras, e não apenas de descrições em texto.

Até mesmo a experiência de escrita está mudando. No futuro, o módulo de escrita integrado permitirá editar diretamente no chat e exportar para PDF com um clique ou enviar diretamente por e-mail. O ChatGPT não é mais apenas um modelo de linguagem simples; está se tornando uma verdadeira plataforma multimodal.

É claro que, além dos usuários comuns, os desenvolvedores também podem usar o GPT-Image-1.5 por meio da API.

Em comparação com o GPT-Image-1, o GPT-Image-1.5 apresenta maior capacidade de retenção de elementos de marca e visuais-chave, tornando-o adequado para cenários como e-commerce e marketing de marca que exigem a geração de um grande número de imagens variantes. Os custos de entrada e saída de imagens são reduzidos em 20%, permitindo a geração de mais imagens com o mesmo orçamento.

Reduções de preços combinadas com melhorias de eficiência — essa combinação de medidas é bastante eficaz.

Além disso, a Disney anunciou na semana passada um investimento de US$ 1 bilhão na OpenAI e um acordo de parceria. Segundo esse acordo de licenciamento de três anos, o Sora, da OpenAI, e seus modelos de geração de imagens poderão gerar personagens da Disney, Marvel, Pixar e Star Wars, com planos de lançar oficialmente o recurso no início do próximo ano.

A combinação de propriedade intelectual de conteúdo e geração de IA oferece muito potencial.

Mais importante ainda, o lançamento do GPT-Image-1.5 marca a transformação das ferramentas de geração de imagens de "brinquedos" para "ferramentas".

A maioria das ferramentas de edição de imagens com IA disponíveis no mercado trava assim que você começa a editar, não oferecendo absolutamente nenhuma consistência.

O GPT-Image-1.5 deu um passo sólido nessa direção, pelo menos. Ele começa a ter recursos de pós-edição, permitindo um controle de detalhes semelhante ao do Nano Banana Pro, garantindo a coerência da imagem.

Dadas as capacidades relativamente fracas do modelo, as predefinições de geração de imagens mais abrangentes e as configurações de recursos do GPT-Image-1.5 o tornam uma boa alternativa contra o novo Nano Banana.

Portais dedicados à criação de imagens, bibliotecas de filtros predefinidos e outros recursos aparentemente insignificantes visam justamente solucionar os problemas dos usuários comuns. Muitas pessoas não precisam dos modelos mais poderosos; o que elas precisam são ferramentas fáceis de aprender, que não exigem ajustes constantes e que produzem resultados praticamente idênticos aos originais.

Liderar em termos de capacidades de modelagem é apenas o primeiro passo; a verdadeira vantagem competitiva reside em como transformar essas capacidades em produtos intuitivos, fáceis de usar e apreciados pelo usuário.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo