Detalhes misteriosos do hardware do OpenAI revelados, usei IA para restaurar a máquina real e injetar a alma do design da Apple

Recentemente, surgiu um misterioso hardware de IA que despertou o interesse dos internautas. Seus cenários de uso e frequência são comparáveis ​​aos do iPhone e do MacBook, mas ele não tem tela, não é um óculos de IA, um fone de ouvido de IA, um PIN de IA ou um iPod… O chefe por trás dele até prometeu "produzir em massa 100 milhões de unidades".

É difícil adivinhar que tipo de "equipamento de hardware que abre novos caminhos" a empresa de io cofundada pelo CEO da OpenAI, Altman, e pelo ex-diretor de design da Apple, Ive, usou a IA para mexer!

Portanto, embora Ultraman tenha revelado planos de lançar oficialmente o produto no final do ano que vem, muitos internautas do X já começaram a pensar em usar IA para "adivinhar" a imagem . E se ele souber de alguma "informação privilegiada", certo?

Os detalhes do primeiro dispositivo de hardware da io são os seguintes:

  1. Sem tela, a interação com o ambiente externo é feita por meio de câmera e microfone integrados
  2. O design é semelhante ao do iPod Shuffle
  3. Ele não usa óculos de IA, smartphones, fones de ouvido e outras formas populares de hardware de IA.
  4. Maior que o pino de IA
  5. Com design de decote halter
  6. Pode ser conectado a smartphones e PCs

Sem mais delongas, vamos dar uma olhada nas "fotos de produtos IO" postadas pelo blogueiro de criação de IA Ben Geskin no X. Quase 9.000 internautas do X vieram assistir.

Em resumo, a imagem acima não só cobre essas revelações principais, mas também exibe o logotipo de seu patrocinador OpenAI e também projeta um formato incomum de hardware de IA – afinal, ele lembra um pouco os barbeadores, massageadores e carregadores portáteis mais comuns…

Ben Geskin Na seção de comentários desta postagem, outros internautas do X se revezaram para postar outros estilos de "fotos de produtos io".

“Versão GPT do Apple Watch” gerada pelo ChatGPT da OpenAI:

Os óculos e fones de ouvido com IA não têm câmeras integradas? Então, isso significa que os relógios inteligentes também têm câmeras? Isso faz sentido.

“Câmera de mesa portátil com IA” gerada pelo Grok da xAI:

Como o Google, dono do modelo de vídeo mais poderoso do planeta, o Veo 3, pode estar ausente de uma ocasião como essa? Então, como funciona a versão mais recente do modelo gráfico baseado em texto Imagen 4 do Google? Vamos dar uma olhada em Gêmeos primeiro.

O iFanr enviou o mesmo conjunto de prompts "prever imagens de produtos io" para o Gemini equipado com Imagen 4, o ChatGPT equipado com GPT-4o e o Grok equipado com Grok-3, e então cada um forneceu as seguintes imagens simuladas de produtos.

A julgar pelos resultados dessa única rodada de geração, todos os três basicamente cobrem os elementos de design do produto nas informações vazadas. Entre elas, as imagens dos produtos Gemini e ChatGPT estão mais alinhadas com o ponto de design de poderem ser penduradas no pescoço . Comparadas com as duas, as imagens de produtos geradas pela Gemini são ligeiramente melhores em textura visual .

De acordo com a declaração oficial do Google, o Imagen 4 pode apresentar com mais clareza detalhes da imagem, como pele, cabelo e texturas complexas, e também é melhor na criação de imagens de IA "de nível fotográfico" e "realistas" . Ao mesmo tempo, ele afirma que as imagens de IA geradas pelo Imagen 4 suportam várias proporções de aspecto e têm uma resolução de até 2K.

Mas, para ser honesto, este produto io projetado pela Gemini "parece um pouco com uma multidão". Quanto mais você olha, mais parece uma combinação de Apple Watch + broche de IA + cordão para bolsa de montanhismo…

Além disso, a Gemini também forneceu um diagrama esquemático que pode refletir a "conexão remota entre novos produtos de IO e smartphones e dispositivos de PC".

Além disso, o Imagen 4 também pode atender às necessidades de criação de algumas imagens abstratas de IA.

Além disso, o modelo de IA melhora ainda mais a qualidade da saída em termos de ortografia e composição, e pode otimizar a criação de cartões comemorativos, pôsteres, histórias em quadrinhos e outras cenas pela IA .

O conteúdo em inglês impresso na embalagem externa da caixa de ovos é claro, preciso e bonito:

Em histórias em quadrinhos multiquadro, a história é contínua, as imagens e os textos combinam entre si, e as tomadas de distância, médias e próximas são todas levadas em consideração:

Os quadrinhos em estilo pixel que se tornaram populares na Internet recentemente também podem ser compreendidos:

O Imagen 4 agora está disponível no Gemini App, Whisk, Vertex AI e PPT, Video, Doc e outros produtos do Workspace.

De acordo com a conferência Google I/O, o Imagen 4 lançará uma versão rápida mais tarde, e sua velocidade de geração de imagens de IA será 10 vezes maior que a da geração anterior, o Imagen 3. Vamos esperar para ver.

Um fotógrafo com um olhar atento aos detalhes

Em termos de restauração de palavras-chave imediatas e da integridade do conteúdo principal da imagem, os principais modelos de imagens literárias no mercado agora podem atingir "ruído e olhos" – o nível geral não é muito diferente.

Portanto, em termos de qualidade de geração de imagens, o Google começou a entrar em detalhes, alegando que o Imagen 4 tem "cores mais delicadas" e "detalhes mais finos". Isso não parece muito realista, então ainda temos que “deixar a imagem falar por si”.

Com base no mesmo conjunto de palavras-chave:

Um golden retriever encontrando conchas na praia

O iFanr comparou os efeitos de imagem fornecidos pelo modelo Imagen 4, o modelo da geração anterior do Imagen 4, o Imagen 3, e o Doubao Seedream3.0.

Nesta imagem de IA gerada pelo Imagen 3 , a expressão do golden retriever, a textura das conchas, os rastros das patas do cachorro na praia, o céu azul, as nuvens brancas e as ondas acariciantes no fundo são todos muito claros e realistas.

Além disso, se você olhar atentamente, o pelo do golden retriever parece estar molhado pela água do mar e está em tufos.

Na verdade, quando vi pela primeira vez as obras-primas geradas pelo Imagen 3, fiquei um pouco preocupado que o Imagen 4 não conseguisse vencer.

No entanto, este último não decepcionou e demonstrou com força real o que significa "suave e brilhante" .

Primeiramente, de uma perspectiva geral, as imagens geradas pelo Imagen 4 apresentam tons mais suaves e cores mais naturais, como o céu com um gradiente de azul celeste e o mar com profundidades maiores e pouca profundidade perto.

Além disso, de uma perspectiva local, o pelo do golden retriever é cheio de detalhes. Além de ficar mais brilhante e com distribuição de luz e sombra mais uniforme, ele também restaura a sensação de fofura , deixando-o muito bonito para ser acariciado.

Outro detalhe que também chama muito a atenção são os olhos do cachorro . O golden retriever na imagem está olhando para as conchas na praia, o que corresponde ao "achado" no prompt.

Como referência de comparação, o desempenho do Doubao também é muito forte. Embora a cor geral da imagem abaixo seja escura, ela também é muito rica em detalhes, como as ondas agitadas pela brisa do mar, o pelo do cachorro soprado pela brisa do mar é claramente visível e as patas do golden retriever estão presas com muita areia depois de desenterrar a concha…

A única desvantagem é que essas três imagens têm um problema semelhante: o fundo e seu efeito de desfoque ainda têm um forte efeito de IA .

No exemplo fornecido pelo Google, o Imagen 4 pode até atingir "controle de detalhes" a ponto de "desenhar o que você apontar". O pelo curto e rígido da capivara, as pinceladas de uma pintura a óleo, a luz e a sombra das bolhas e a estrutura da superfície de um cristal podem ser capturados com precisão.

Ao mesmo tempo, em termos de textura de imagem e clareza 2K , alguns dos produtos finalizados da Imagen 4 podem até rivalizar com trabalhos fotográficos profissionais.

Um designer com alta estética

Quando o iFanr pediu à Gemini, que estava executando a versão mais recente do Gemini 2.5 Flash, para "projetar uma bolsa de lona com uma tela eletrônica, disponível nos tamanhos grande, médio e pequeno", o assistente de IA multimodal levou cerca de 10 segundos para produzir o seguinte design.

O desenho do projeto exibe intuitivamente os dois elementos de design de "bolsa de lona" e "tela eletrônica" , e as palavras grande, médio e pequeno são marcadas na coluna da esquerda. A área da direita usa alguns objetos de referência, como "copo de água" e "pincel", para refletir a diferença de tamanho .

Também vale mencionar que as linhas gerais do design exterior são suaves e não rígidas, além de manter uma sensação de "pintura à mão" .

Em seguida, o iFanr pediu à Gemini que especificasse o tamanho exato da bolsa de lona da tela eletrônica. A julgar pelos resultados gerados, as principais palavras em inglês e os algarismos romanos são relativamente claros e escritos corretamente, mas as partes que envolvem unidades em inglês e sinais de pontuação estão confusas.

Se você não estiver satisfeito com o resultado gerado, clique na opção "Atualizar" na interface da caixa de bate-papo da interface do usuário. O Gemini apagará o resultado gerado e executará novamente a saída de acordo com o prompt recém-inserido.

O desenho do produto está pronto, mas o que falta é o nome do produto. A Gemini ajudou a criar um nome simples e direto: “Canvas Connect”.

Os resultados reais gerados pelas etapas acima não são muito diferentes das palavras do prompt, e não há muitos lugares que precisem ser depurados novamente.

No entanto, quando se trata de criar cartazes e convites correspondentes, se houver significados ambíguos nos avisos, é provável que o geminiano os interprete mal.

A Gemini forneceu primeiro o pôster do produto à esquerda com base no desenho de design do produto da bolsa de lona com tela eletrônica "Canvas Connect". Em seguida, o prompt pede para alterar o esquema de cores do pôster. As cores principais são marrom e verde, e o restante permanece inalterado.

Entretanto, como o prompt não especificou que a cor da "bolsa de lona" permaneceu inalterada, Gemini alterou a cor da bolsa de lona quando alterou a cor de fundo do pôster, conforme mostrado na imagem à esquerda.

Depois de reescrever este prompt, a Gemini mudou apenas a cor do pôster em vez do produto, e a cor do tema mudou de rosa para verde. Leva cerca de 10 segundos desde pensar nas necessidades do usuário por trás do prompt, até entender as necessidades correspondentes e, então, gerar a imagem de IA.

Além disso, não há mudanças óbvias nas imagens na tela eletrônica, nos movimentos e expressões dos modelos da vida real ou no conteúdo do texto. Este caso reflete de forma abrangente que a imagem de texto do modelo Imagen 4 tem forte controlabilidade, belo layout de texto e é geralmente reutilizável.

Infelizmente, alguns parágrafos ou partes de conteúdo de texto ainda precisam depender de prompts precisos para controlar a depuração.

Gêmeos: Pai, o rascunho 10086 do design foi enviado. Posso bater o ponto agora?

Não se preocupe, o Imagen 4 ainda tem muitos recursos de design esperando para serem explorados pelos internautas.

O iFanr testou e descobriu que pode substituir diretamente o modelo real do pôster por um personagem de desenho animado cujo penteado, roupa e movimentos são mais semelhantes, que é o pôster na extrema direita da imagem acima. Essa também é uma maneira de pensar em tirar fotos quando você estiver com preguiça de embelezá-las.

Entretanto, se nenhuma solicitação específica for feita, o layout original do pôster será alterado. Atualmente, isso requer mais esforço na parte rápida.

Ou você pode escolher um convite eletrônico que seja "animado e interessante no estilo", "conotativo no conteúdo" e "adequado para mídias sociais".

Por fim, não se esqueça de pedir para a Gemini criar uma cópia promocional com emojis e tags: “Convidamos você para testemunhar o lançamento do novo produto Canvas Connect juntos”.  #EstiloTecnológico".

#Bem-vindo a seguir a conta pública oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde mais conteúdo interessante será apresentado a você o mais breve possível.

iFanr | Link original · Ver comentários · Sina Weibo