Versão de código aberto do GPT Image 2: infográficos, gráficos e texto contínuos e implantação local, tudo em um só Teste prático do SenseTime SenseNova U1

Desde que o GPT Image 2 se popularizou, a internet foi inundada por imagens geradas por IA incrivelmente realistas. Modelos em larga escala estão expandindo os limites da representação visual, o que é ao mesmo tempo empolgante e inspirador.

No campo atual do processamento de imagens geradas por IA, o GPT Image 2 é praticamente indiscutível. No entanto, se o GPT Image 2 é o melhor modelo proprietário e pago disponível na nuvem, então o SenseNova U1 pode ser o melhor modelo gratuito e de código aberto que pode ser implementado localmente .

▲Gerado por SenseNova U1

O SenseNova U1 é um modelo multimodal de código aberto recém-lançado pela SenseTime. Suas versões Lite series 8B e A3B (com parâmetros) estão atualmente disponíveis como código aberto no Hugging Face e no GitHub.

A partir dos parâmetros do modelo e da escolha de código aberto, podemos ver que ele é bastante diferente do GPT Image 2.

A APPSO também obteve qualificações de teste antecipadamente, e descobrimos que o modelo unificado de compreensão nativa e geração de nova geração do SenseTime atingiu o melhor nível entre os modelos de código aberto.

Essa tecnologia traz para o setor de modelagem de grande porte uma inovação revolucionária na geração contínua de imagens e textos, permitindo a produção contínua de ambos os tipos de conteúdo a partir de um único modelo. Vale a pena experimentar esse novo recurso.

Os pesos do modelo de código aberto SenseNova U1 já estão disponíveis para download no Hugging Face e no GitHub.

GitHub: https://github.com/OpenSenseNova/SenseNova-U1

Hugging Face: https://huggingface.co/collections/sensenova/SenseNova-U1

Pensar com imagens

Podemos ter nos deparado com a necessidade de usar IA para explicar um conceito complexo, acompanhado de um diagrama, e que o diagrama siga a lógica do texto, mostrando a etapa correspondente na explicação.

Modelos típicos podem resolver esse problema diretamente gerando código, como a composição fluida usada por Claude, ou algumas páginas da web do Vibe Coding que incluem texto e imagens.

No entanto, os modelos existentes geralmente não conseguem gerar texto e imagens simultaneamente no fluxo de resposta usando um único modelo sem recorrer a ferramentas externas. Isso ocorre porque a geração de texto e a geração de imagens são frequentemente dois processos separados no nível subjacente do modelo.

A primeira característica do SenseNova U1 é sua capacidade de criar e exibir imagens e texto continuamente em um único modelo.

Por exemplo, tentamos um cenário em que pedimos a ele para criar uma história simples em formato de livro ilustrado sobre um ursinho passando pelas quatro estações do ano.

▲ Sugestão: Crie um livro ilustrado com um urso marrom como personagem principal e conte a história de sua experiência com as quatro estações do ano.

O texto e as imagens gerados continuamente não são apenas fáceis de entender e possuem uma certa qualidade narrativa, mas também mantêm uma boa consistência. Ao mesmo tempo, a renderização do texto nas imagens é precisa, e o ursinho está usando um suéter e um gorro de inverno.

Nos testes práticos, descobriu-se que usar o SenseNova U1 para trabalhos criativos também era muito interessante.

No teste oficial, uma foto de rosto foi carregada no modelo, e foi solicitado que ele criasse vários penteados diferentes. Observou-se que, durante todo o processo de geração contínua de imagens e texto, o SenseNova U1 manteve com precisão a consistência do personagem, bem como a estrutura e os detalhes.

▲ Sugestão: Por favor, crie alguns penteados adequados para mim. Espero que sejam bonitos e únicos, e depois me ajude a escolher o que mais combina comigo.

Você também pode pedir a ele que crie um personagem para um jogo e demonstre o processo iterativo lógico, desde o tom visual geral e os principais detalhes interativos até a narrativa ambiental e a representação do personagem.

O mais interessante é que, dada a natureza cronológica da resposta, o SenseNova U1 foi a ferramenta perfeita para criar a imagem. Pedimos que ele gerasse o processo de transformação de um abacateiro em uma planta de vaso para ambientes internos, e o texto e as imagens contínuos apresentaram lindamente todo o processo de crescimento.

▲ Dica: Como cultivar um abacateiro comum em um vaso dentro de casa

Após uma série de testes, as imagens nunca se desviaram da lógica do texto; para onde quer que o raciocínio apontasse, as imagens o seguiam.

Anteriormente, combinar texto e imagens poderia envolver a utilização de diferentes modelos e ferramentas correspondentes para garantir que o texto e as imagens na resposta transmitissem a mesma mensagem. Agora, esse processo de escrita ocorre diretamente no modelo, no nível mais baixo. Não é necessário envolver ferramentas ou softwares no processo de alinhamento; basta visualizarmos o resultado final.

Para criadores de conteúdo, designers e profissionais de marketing, o surgimento do SenseNova U1 começou a resolver um problema antigo: como permitir que a IA escreva e desenhe simultaneamente, com uma integração perfeita de texto e gráficos.

A solução de código aberto mais poderosa, com grande quantidade de recursos e que atende a todas as necessidades.

Após confirmarmos sua capacidade inata de gerar entendimento unificado, precisamos agora verificar se o SenseNova U1 consegue atingir o melhor nível dos modelos de código aberto em termos de geração de infográficos complexos.

Um infográfico é uma forma de condensar uma grande quantidade de texto ou dados complexos em uma única imagem de fácil compreensão. Isso é muito mais difícil do que simplesmente "desenhar uma bela imagem". Requer a compreensão do conteúdo, saber quais partes são essenciais e quais são complementares, as relações lógicas entre as informações e a representação eficaz do texto — tudo isso apresenta desafios significativos.

O GPT Image 2, de código fechado, já apresenta um desempenho muito bom nesse aspecto, e não tínhamos grandes expectativas de que o SenseNova U1 fosse melhor que o GPT Image 2 no início de nossos testes. Mas o desempenho do SenseNova U1 realmente merece o título de estado da arte (SOTA) de código aberto.

Começaremos usando a frase "Explique o DeepSeek V4 com um infográfico" sem nenhuma instrução adicional para ver o desempenho do infográfico gerado.

▲ Gerado por SenseNova U1

É evidente que o SenseNova U1 pesquisou online e encontrou informações relacionadas ao DeepSeek V4, como multimodalidade nativa, trilhões de parâmetros e milhões de tokens de contexto.

Além de comandos simples, você também pode enviar um link diretamente. O SenseNova U1 também possui uma ferramenta de web scraping para extrair conteúdo de páginas da web e gerar infográficos.

A SenseNova U1 lida com a maioria desses infográficos educacionais com facilidade. Ela também pode gerar rapidamente infográficos mais simples, como um diagrama de desmontagem 3D explicando o que é um cigarro eletrônico.

▲Gerado por SenseNova U1

Se as instruções forem um pouco mais detalhadas, o sistema pode traduzir o texto com precisão em um infográfico altamente visual, exatamente como as instruções sugerem.

Por exemplo, a receita recentemente popular de pele de tofu com três iguarias ao estilo de Wuhan pode ser diretamente informada ao SenseNova U1 para gerar um diagrama passo a passo de todo o processo de produção dessa pele de tofu.

Com a chegada do verão, escolher diferentes protetores solares também pode ser fácil com a ajuda de um infográfico que explica claramente parâmetros de seleção complexos, como os valores de FPS e PA.

A ferramenta consegue até mesmo desenhar um diagrama ilustrando o princípio de funcionamento de um grande modelo de IA, desde o treinamento até a inferência, facilitando a compreensão para pessoas sem conhecimento técnico; o SenseNova U1 também pode usar um estilo leve e divertido para descrever de forma simples o processo de funcionamento de um grande modelo de IA.

Em outros cenários de aplicação, como marketing, escritório, referência de design e análise de negócios, testamos o desempenho do SenseNova U1 com diferentes exemplos.

De um modo geral, os cenários de marketing exigem o máximo do estilo visual e são o melhor indicador de se um modelo realmente entende "quais sentimentos o usuário deseja transmitir". Uma boa imagem de marketing, colocada no meio de um artigo, pode até ser confundida com um anúncio inserido no artigo no WeChat.

Assim como este infográfico de viagem sobre Xangai, gerado pela SenseNova U1, ele não apenas mostra o mapa, mas também lista as características únicas de Xangai.

Em um ambiente de escritório, o apelo visual é mais importante do que a precisão e a eficiência. Testamos suas capacidades de processamento de informações comprimindo a ata de uma reunião de cinco páginas em um único gráfico de resumo de fácil visualização. O gráfico precisava ser logicamente claro, destacar os pontos principais e ser facilmente encaminhado para colegas que não participaram da reunião.

Além de informações complexas, o SenseNova U1 também oferece excelentes referências de estilo visual. Dada a descrição do tom de uma marca, é necessário gerar uma imagem de referência de estilo que inclua sugestões de esquema de cores, sugestões de layout e palavras-chave que transmitam a atmosfera da marca, e o resultado é surpreendentemente bom.

Também testamos os recursos de visualização de dados do SenseNova U1 em algumas tarefas de análise de dados, apresentando infográficos mais lógicos na forma de gráficos.

Como você pode ver, o SenseNova U1 faz um bom trabalho na extração de informações; ele realmente entende o conteúdo e sabe o que é importante e o que é secundário.

No entanto, ainda há espaço para melhorias na expressão visual. Às vezes, ainda ocorrem erros na renderização de alguns textos. Mas para cenários que exigem a geração rápida de imagens e não se quer perder tempo ajustando repetidamente as ferramentas de design, já é mais do que suficiente.

Como será o próximo modelo multimodal?

Após testarmos o SenseNova U1, descobrimos que sua importância reside no fato de ser o primeiro modelo de código aberto que alcançou de fato a unificação de "compreensão e geração". E essa pode ser a próxima direção para todo o campo multimodal.

A ampla adoção do GPT Image 2 demonstra que os modelos proprietários já estabeleceram um alto padrão de qualidade para a geração de imagens. Se os modelos de código aberto continuarem a perseguir esse objetivo na mesma direção, provavelmente levará muito tempo para alcançá-los, e o valor do código aberto será reduzido apenas ao "baixo custo".

O SenseNova U1 oferece um caminho tecnológico diferente e é significativo para a direção de toda a comunidade de código aberto. Além de abordar "como gerar gráficos melhores", ele também nos mostra como poderá ser o próximo passo em modelos multimodais.

▲ O SenseNova U1 adota a arquitetura nativa NEO-unify, inédita no setor, proporcionando compreensão e geração multimodal eficientes e unificadas.

Nos modelos multimodais tradicionais, a compreensão do grafo e a geração do grafo são dois sistemas colaborativos. Um sistema é responsável por compreender a entrada e o outro por desenhar a saída, com as informações transmitidas por meio de uma interface. Cada sistema possui sua própria linguagem interna, e informações se perdem durante a transmissão. É como duas pessoas se comunicando usando um software de tradução; o significado geral é compreendido, mas sempre falta algo.

O SenseNova U1, por outro lado, integra esses dois elementos em um único espaço de representação desde a sua concepção. A publicação técnica em seu blog, em março deste ano, focou na explicação da arquitetura NEO-unify.

A prática atual da indústria para modelos de grande escala é que o processamento de imagens multimodais por IA depende de um "codificador visual (VE)" para comprimir e processar imagens antes de entregá-las ao gerador. Na arquitetura NEO-unify, a SenseTime abandonou completamente esse paradigma tradicional e complexo.

A SenseNova U1, que incorpora a arquitetura NEO-unify, utiliza uma interface visual quase sem perdas que incorpora diretamente patches de imagem sem qualquer compressão de codificador pré-treinada. Assim, dentro da mesma rede de base, o treinamento de texto e visão é realizado de forma unificada e integrada.

Ao compreender e gerar diversos testes de referência, o desempenho do SenseNova U1 atingiu o nível de última geração (SOTA) dos modelos de código aberto da mesma escala, e seu desempenho em muitas métricas é até comparável a modelos de código fechado, como o Nano Banana.

▲ Estes são os resultados dos testes de referência para compreensão de imagens, geração de imagens e raciocínio visual, respectivamente.

Retorna aos princípios fundamentais da computação multimodal, partindo dos pixels e do texto subjacentes e construindo sua própria cognição interna.

Isso também explica por que consome menos tokens e tem maior eficiência de geração. Mesmo a versão com apenas 8 bytes de parâmetros pode atingir uma relação custo-benefício extremamente alta.

Esta versão de código aberto é do SenseNova U1 Lite, uma versão mais leve do SenseNova U1. Atualmente, existem duas versões: SenseNova-U1-8B-MoT com 8 bilhões de parâmetros, que pode ser executada em dispositivos de borda; e SenseNova-U1-A3B-MoT com 38 bilhões de parâmetros no total, mas apenas 3 bilhões ativos, que oferece recursos mais robustos mantendo os custos de inferência muito baixos.

▲O SenseNova U1 já é de código aberto no GitHub e no Hugging Face. Links: https://github.com/OpenSenseNova/SenseNova-U1, https://huggingface.co/collections/sensenova/sensenova-u1

Ambas as versões podem ser implantadas localmente, ajustadas e integradas ao seu próprio pipeline de dados. Para desenvolvedores que precisam incorporar recursos de geração de imagens em seus produtos, há controle total sobre o comportamento do modelo, e os dados não precisam ser exportados.

Se você precisa de um modelo que consiga realizar compreensão e geração de forma eficiente, o SenseNova U1, como o representante mais forte dos modelos de código aberto, definitivamente vale a pena experimentar.

A SenseTime também disponibilizou o SenseNova-Skills, uma biblioteca de habilidades AIGC para ambientes de execução de agentes, em código aberto no GitHub. Podemos integrar diretamente os poderosos recursos do SenseNova U1 em nossos próprios fluxos de trabalho de agentes.

Utilizando este conjunto de ferramentas, podemos invocá-lo diretamente com um único clique em plataformas de agentes como OpenClaw e Hermes. O modelo avalia automaticamente nossas solicitações, seleciona o layout apropriado e, após várias rodadas de geração, produz os melhores resultados de infográficos profissionais.

▲ Link para as Skills: https://github.com/OpenSenseNova/SenseNova-Skills

Analisando todo o teste, o SenseNova U1 apresentou um bom desempenho, tornando-se o modelo de código aberto mais robusto da sua classe ao qual temos acesso atualmente.

Para os criadores, sua capacidade inédita de saída contínua de texto e imagem rompe com o antigo dilema de que texto e imagens eram separados, tornando realidade a criação coerente de pensar, escrever e adicionar imagens simultaneamente.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.