Derrote Midjourney, por que este produto de IA lançado pelo gigante do Google ultrapassa outros em um canto?
Ninguém pode ser rei sempre, mas com o prefixo qualquer um tem a chance de ser rei.
Que novos truques AI Wenshengtu pode usar?
Neste mar vermelho dominado por um grupo de heróis, a cabeça está ocupada por Midjourney, DALL·E, Stable Diffusion, etc., e não existem muitos outros produtos que possam fazer as pessoas brilharem.
No entanto, ainda existem azarões emergentes: o Ideogram, fundado por ex-engenheiros do Google e investido por mestres de IA do Vale do Silício, foi lançado em agosto do ano passado e lançou seu modelo mais recente no final de fevereiro.
O que torna o Ideogram especial é que ele é bom em gerar imagens contendo texto, que é exatamente o problema que vários gigantes estão resolvendo.
Os fatos provam que levantar-se de onde os outros caíram é uma forma de ultrapassar nas curvas.
Pode “desenhar” e “fotografar”, mas a IA ainda pode ser “analfabeta”
Sempre foi um problema para a IA gerar texto com precisão. Mesmo que os personagens e cenários gerados pareçam aqueles capturados por uma câmera, eles parecerão texto ilegível e distorcido, e a IA revelará instantaneamente sua forma original.
▲ Texto de erro gerado pelo Midjourney v5.2.
A Ideogram levantou-se e disse que se recusava a permitir que a IA continuasse a ser “analfabeta” e que poderia muito bem começar com ela.
O limite para entrar em contato com o Ideogram é muito baixo. Basta abrir a página (https://ideogram.ai/) e fazer login para usá-lo. A interface parece refrescante e descomplicada.
Não há muitas etapas para gerar uma imagem, preencha as palavras de prompt na caixa de entrada e verifique a proporção da imagem, bem como os estilos de imagem, como fotos, pôsteres e renderizações 3D, de acordo com o efeito desejado.
A Ideogram também levou em consideração que os humanos podem ser "difíceis" com palavras imediatas. Em fevereiro deste ano, lançou o "Magic Prompt", que é como um ChatGPT integrado para ajudá-lo a melhorar as palavras imediatas, e a IA pode captar os pensamentos de pessoas semelhantes.
Quais imagens contêm conteúdo de texto? Logotipos de produtos, impressão de camisetas, capas de livros, pôsteres de filmes…
Vamos primeiro fazer um teste básico, pedindo a algumas pessoas que segurem uma placa com o nome de um animal. À primeira vista, o texto está correto, mas o rosto e as mãos não são normais. Os dois se anulam. Acontece que as deficiências não desapareceram, apenas foram transferidas.
Se você deixar apenas o Ideograma escrever, o efeito será muito mais incrível.
Deixe a IA gerar a frase clássica de Musk: “Prefiro ser otimista e errado do que pessimista e certo”.
A fonte é um pouco mais viva, e Musk, que nasceu na década de 1970, não sabe se pode aceitá-la, mas a colisão do preto e do branco deve satisfazer aquele que trocou o Passarinho Azul.
Tomando o provérbio clássico "Todo trabalho e nenhuma diversão tornam uma criança inteligente estúpida" como pergunta de teste, embora a palavra inicial enfatize o uso de fontes de impressora, o Ideograma não conseguiu fazê-lo. Parece que a fonte não pode ser definida apenas com palavras de prompt e só pode ser aproximada.
Então, a IA foi ordenada a projetar um logotipo para uma empresa iniciante de IA chamada “Coffee AI”.
O corpo principal é uma xícara de café com um padrão de circuito. Há um barista robô no canto superior direito. O nome da empresa está escrito em letras maiúsculas e em negrito. O layout é simples e contido. Como logotipo, é muito intuitivo, mas de modo geral, isso é esperado e é difícil informar as pessoas. Fang tomou uma decisão rápida.
É hora de tornar a IA mais difícil, com frases mais longas e requisitos de design mais elevados.
Pedi ao Ideogram para criar uma página interna para um livro infantil, não só deveria ser escrito "Raposa de meias e coelho de cartola" em posição de destaque, mas também "Anônimo" deveria ser marcado na parte inferior.
Para essas duas linhas de texto, o Ideograma basicamente completou a tarefa, usando fontes desenhadas à mão e grafites de giz, e ainda incluiu ilustrações que se ajustam ao significado do título. O gosto do livro ilustrado está certo, mas os erros também são muito evidentes Há algo errado com a palavra “in.” O coelho parece uma raposa e é irmão da raposa.
O ideograma também pode ser usado para pôsteres de filmes. Você também pode experimentar o popular filme "Os Três Males", estrelado por Ethan Ruan, que se tornou popular há algum tempo.
Misturei alusões e filmes nas palavras iniciais. O fundo usava imagens de silhuetas de cavaleiros, mares e montanhas, e o texto fazia referência aos nomes em inglês dos filmes: Porcos, Cobras e Pombas.
Exceto pela falta de "o", o efeito final do pôster é muito bom, misturando imagens clássicas e fontes modernas. O graffiti de pombo é o toque final, mas no geral é mais parecido com um estilo de fantasia ocidental, o que faz com que as pessoas se sintam estranhas e difíceis de entender. associar-se a ele. O enredo do filme.
Pela experiência descobri que a probabilidade de erros textuais no Ideograma não é pequena, às vezes ele é gerado duas ou três vezes para obter o resultado ideal que é palavra por palavra.
Mesmo que o texto esteja correto, os rostos e os dedos dos personagens muitas vezes parecem errados.
Ele também pode adicionar alguns truques sofisticados, gerar aleatoriamente texto distorcido e sem sentido e dar um tapa na cara.
▲ Os pequenos caracteres aqui estão desfocados em uma bola.
Mas, no geral, o Ideograma é surpreendente. Ele pode escrever frases longas e usa fontes e métodos de layout apropriados para combinar com a atmosfera da imagem. Embora ainda não seja capaz de escrever chinês, as palavras, como símbolos fantasmas, se encaixam muito bem nas dobras. de roupas.
▲ Essas quatro palavras na verdade significam “Gong Xi Fa Cai”.
Apesar de suas falhas, já existem muitos cenários de emprego para o Ideograma. Ele pode ser usado como referência de inspiração e assistente criativo ao projetar logotipos, pôsteres e padrões de camisetas.
No passado, eu estava preocupado que a IA fosse capaz de “desenhar” e “fotografar”, e no futuro eu estaria preocupado que a IA fosse alfabetizada e capaz de projetar.
A estética não é inferior ao Midjourney, e também é uma ferramenta de emoticons
O progresso na IA é medido em dias e o mundo pode mudar assim que você acordar. Embora o Ideogram afirme que suas capacidades de renderização de texto são as mais fortes, seus oponentes não admitem a derrota.
O Stable Diffusion 3, que ainda não foi lançado ao público e é de código aberto, foi anunciado oficialmente em fevereiro e melhorou os recursos de ortografia de texto.
▲ Habilidades ortográficas do Stable Diffusion 3.
Midjourney v6, uma versão beta lançada em dezembro do ano passado, é a primeira versão do Midjourney com recursos confiáveis de geração de texto.
Porém, seus requisitos ainda são bastante exigentes: além de colocar o texto entre aspas, as palavras-promessa devem preferencialmente explicar a localização e a forma de escrita do texto, e utilizar palavras-chave como "imprimir" e "escrever", uma a duas palavras A geração de texto funciona melhor.
▲ Função de geração de texto do Midjourney v6.
A equipe do Ideograma, que estava sendo perseguida, não entrou em pânico e acreditou que a vantagem era minha, o Ideograma ainda tem maior taxa de precisão e pode lidar com frases complexas e longas.
A avaliação do sistema do Ideogram também mostra que o Ideogram 1.0 tem a maior precisão na renderização de texto, com uma taxa de erro reduzida em quase 2 vezes em comparação com outros modelos, como o DALL·E 3.
Em vez de apenas conversar e praticar truques, é melhor usar as mesmas palavras de alerta e deixar o Ideograma 1.0 competir com o Midjourney V6 e o DALL·E 3 no mesmo palco.
Primeiro, vamos comparar a precisão do texto gerado. Pedi às IAs que desenhassem uma ilustração de um nascer do sol no estilo Ukiyo-e. A linha clássica "Amanhã é um novo dia" de "E o Vento Levou" foi colocada no posição apropriada para expressar esperança e renascimento.
Desta vez, o Ideograma foi o vencedor, com grafia precisa e design de linhas e cores arrojado e marcante.
DALL·E, que nunca foi muito artístico, inesperadamente tem uma textura. O texto é basicamente correto, mas não completamente correto, e o estilo de pintura é mais abstrato. Não apenas o texto de Midjourney é impreciso, mas a estética também é inferior, e ele nem sequer ouviu atentamente a pergunta.
▲ À esquerda está DALL·E, à direita está Midjourney.
A segunda é competir na capacidade de criar memes. O ideograma mencionou oficialmente a função de gerar emoticons. Com a ajuda de "prompts mágicos", a IA usará sua imaginação para expandir as palavras de alerta e adicionar direitos autorais para tornar as imagens emocionais.
Eu queria ver se a IA poderia gerar um emoticon de gato funcionando, então digitei o prompt: "Desenhe um meme interessante sobre um gato choroso usando gravata borboleta e camisa, digitando na frente de um computador, como uma metáfora para o trabalho humano duro. "
O Ideograma usou a imaginação e acrescentou conscientemente o texto “Gatos também têm que trabalhar”.
A única desvantagem é que há um "ter" extra e o número de dedos nas patas dianteiras está errado. Parece que a IA não está tendo problemas apenas com as mãos humanas, mas também com as patas dos gatos. Comparado com o pacote de emoticons original, é bastante satisfatório e não pode ser tão imprevisível quanto o “Crying Cat Head”.
▲ A esquerda é a imagem da rede, a direita é o Ideograma.
O gato de Midjourney é sério e elegante, como se fosse um escritor que ficou rico e livre, e parece mais estar tirando fotos de uma revista, mas o rato não sabe o que está acontecendo.
▲ À esquerda está Midjourney, à direita está DALL·E.
DALL·E tem as melhores emoções. Embora o estilo de pintura seja um pouco casual, tem a vantagem de ser áspero. Parece que as lágrimas de macarrão que não estão na mesma camada têm um sabor interno. É realmente adequado para ser usado como um pacote de emoticons.
A terceira é a capacidade de compreender palavras de prompt complexas e longas, especialmente se os elementos da palavra de prompt estão completos e se a posição da palavra de prompt é precisa. Portanto, inseri uma palavra de prompt relativamente longa e estipulei a posição de cada assunto.
O ideograma tem melhor desempenho na composição geral. Vários pontos-chave mencionados nas palavras de prompt são abordados. A marca em forma de coração, o robô, o astronauta, o balão e a medalha estão todos incluídos, embora faltem detalhes como a mão do astronauta e as palavras da medalha. pergunta.
Em comparação, Midjourney é mais artístico, mas faltam elementos, e há algumas decorações que não estão lá, e tem ideias e personalidade próprias. DALL·E não está apenas faltando elementos, mas os detalhes estão errados, e isso também não parece bom.
▲ A parte superior é Midjourney, a parte inferior é DALL·E.
Portanto, independentemente do texto, apenas olhando a qualidade da imagem, o Ideograma também não é ruim. Às vezes, a restauração da relação espacial de vários objetos nas palavras solicitadas é mais precisa do que outras IAs.
Em termos de experiência do usuário, a velocidade de geração do Ideograma é mais rápida que a do Midjourney, geralmente quatro fotos podem ser concluídas em mais de dez segundos.
Mesmo de acordo com as regras de avaliação da indústria, os avaliadores humanos preferiram o Ideogram 1.0 ao DALL·E 3 e ao Midjourney V6 em termos de alinhamento rápido, coerência de imagem, preferência geral e qualidade de renderização de texto.
Mesmo que você não esteja satisfeito com as imagens geradas pelo Ideogram, se você usar suas palavras mágicas de prompt, o efeito gerado em Midjourney e DALL·E pode ser melhor do que esfregar com a mão. Pode ser considerado uma forma de otimizar o prompt palavras.
Ninguém pode me vencer na minha música de fundo, mas se a mesma palavra for usada por diferentes IAs, o resultado será realmente incerto.
Uma empresa estrela fundada por engenheiros do Google, com produtos de IA realistas
A Ideogram foi criada em agosto do ano passado e lançou seu modelo mais recente, o Ideogram 1.0, em fevereiro deste ano.
Esta é outra empresa estrela com uma equipe fundadora de sete pessoas do Google Brain, da Universidade da Califórnia, Berkeley, da Carnegie Mellon University e da Universidade de Toronto.Quatro deles são os autores do artigo de pesquisa Imagen do modelo de difusão de gráficos do Google Vincent.
O cauteloso Google costuma ser lento no lançamento de produtos e viu seus concorrentes se tornarem famosos em todo o mundo muitas vezes. O chatbot foi substituído pelo ChatGPT e o Imagen foi ultrapassado pelo DALL·E 2.
Do ponto de vista dos engenheiros, não é bom que os resultados da investigação não possam ser implementados em aplicações de consumo. Muitas pessoas optaram por sair e construir novos produtos por conta própria, tornando-os o mais abertos possível para uso e, primeiro, acumulando escala de usuário e reputação.
A cota gratuita do Ideograma de 25 palavras imediatas por dia também pode ser baseada nesta consideração.
O mercado está muito otimista em relação a este produto. A Ideogram concluiu uma rodada de financiamento Série A de US$ 80 milhões liderada pelo capital de risco a16z do Vale do Silício. Entre os investidores estão mestres de IA, incluindo o cientista-chefe do Google, Jeff Dean, e o membro da equipe fundadora da OpenAI, Andrej Karpathy.
Na verdade, depois de experimentar muitos produtos de IA, tenho secretamente uma pergunta: como definir a utilidade de um produto?
▲ Padrão de camiseta gerado pelo Ideograma.
O que achei útil antes foi o plug-in "Tradução Imersiva". Ao contrário do Google Translate, ele cobre o texto original e pode ser comparado entre chinês e inglês. Ele pode ser usado não apenas em páginas de notícias, mas também em fluxos de informações X , legendas do YouTube e arquivos PDF.
O ideograma parece tão realista. Por um lado, pode gerar com mais precisão o conteúdo de texto exigido pelos usuários e se adaptar a vários estilos de imagens. Por outro lado, também pode criar algo do nada e combinar imagens com textos adequados, como emoticons.
Embora muitos dos resultados gerados pelo Ideograma não possam ser usados imediatamente, eles pelo menos atendem basicamente aos requisitos de palavras imediatas e a maior parte do texto é legível.
Também descobri em minha experiência que as imagens realistas do Ideogram são medianas, mas seus grafites, ilustrações e pinturas são bons, e seu talento artístico está no mesmo nível do Midjourney.
▲ Ilustrações de arte Graffiti geradas pelo Ideogram.
O site oficial do Ideogram também possui rankings de popularidade de diversas obras. No momento em que você abre o site, parece que você entrou por engano em uma comunidade de imagens no estilo Instagram e também pode aprender as palavras acima.
Quando uma ferramenta de IA combina criatividade, conveniência e compartilhamento, é fácil ficar viciado. A manifestação específica é que as 25 palavras rápidas por dia se esgotam rapidamente. Esse sentimento de ansiedade é semelhante a esperar que os pontos do Suno sejam atualizados.
Por uma assinatura mensal de US$ 7 ou US$ 16, além de mais tempos de geração, o Ideogram também oferece upload de imagens e funções de editor.
O upload de imagens significa que os usuários carregam suas próprias imagens e depois as recriam por meio da função Remix.
▲ A esquerda é a imagem original e a direita é a saída.
Além de funções regulares como corte e zoom, o editor também possui uma interessante ferramenta de desenho que gera imagens a partir de um desenho abstrato. Os pintores humanos delineiam aproximadamente a forma, composição, cor, etc. de cada elemento, e a IA é responsável por transformar a decadência em magia, dando a Ma Liang uma sensação de déjà vu.
O ideograma pode sobreviver à tempestade sangrenta, a facilidade de uso é obviamente o mais importante e seu posicionamento também é muito preciso.
Se a estética é o critério mais importante, então Midjourney leva o bolo. Embora o nível do DALL·E seja alto e baixo, o ChatGPT integrado é conveniente para ligar e o Stable Diffusion de código aberto traz liberdade.
Apenas em termos de escala de usuários, o Ideogram pode não ser capaz de vencer nenhum deles, mas fez um bom trabalho em sua longa lista e deve ser capaz de conquistar um público próprio sólido.
Pelo menos entre os geradores de imagens de IA gratuitos, a qualidade geral do Ideograma é líder, a página da web é fácil de usar, são fornecidos créditos gratuitos, a renderização de texto é poderosa, a função de prompt mágico e a comunidade de criadores fornecem criatividade e inspiração.
Os modelos de diagramas vicentinos estão longe de ser perfeitos e ainda estão trabalhando duro para restaurar o mundo físico ou para se equiparar aos pintores e designers. Mais ideogramas ainda podem encontrar seu lugar.
É aqui que reside a crueldade e o charme da competição de IA. Não sei quem rirá por último, mas sempre haverá novos oponentes visando o calcanhar de Aquiles.
# Bem-vindo a seguir a conta pública oficial do WeChat de aifaner: aifaner (WeChat ID: ifanr).Mais conteúdo interessante será fornecido a você o mais rápido possível.