Sora testada! Competir entre Keling e Runway, quem tem menos sabor de IA?

dezembro 14, 2024 gurinho

Depois de um ano de espera, Sora finalmente saiu, mas a OpenAI fez com que os internautas viessem em seu socorro.

Foi acordado que será oficialmente aberto para uso, e apenas os sortudos que transmitirem ao vivo e tiverem mãos rápidas o suficiente poderão ser os primeiros a experimentá-lo. Depois de esperar um dia, atualizar repetidamente e enfrentar lembretes de "volte mais tarde" repetidas vezes, finalmente me registrei com sucesso.

No entanto, os US$ 20 que permitiram que eu e o ChatGPT conversássemos sobre tudo, desde poesia até filosofia de vida, foram suficientes apenas para que Sora gerasse 40 vídeos de 5 segundos em 480p em um mês. Cada clique gerado é como andar sobre gelo fino.

Depois de finalmente usá-lo, naturalmente queremos usar cada vídeo do Sora até o limite e compará-lo com Runway e Keling. A conclusão é que é utilizável e divertido, mas é difícil elogiá-lo.

Sora, Runway e Ke Ling falharam à sua maneira.

Naturalmente, há uma razão para deixar Sora competir com Runway e Keling. Um é o produto de vídeo de IA mais representativo no exterior que estreou cedo, e o outro é um grande jogador nacional que surgiu repentinamente e conquistou internautas ao redor do mundo com sua força.

As regras são muito simples, usando as mesmas palavras de prompt em inglês (para facilitar a leitura, as seguintes são traduzidas para o chinês), e o tempo gerado é de 5 segundos. A única diferença é que a resolução do Sora está definida para 480p. Não tem outro jeito, você tem que usar seus pontos com moderação.

Primeiro, use o Wensheng Video para comparar o realismo e a textura das imagens e ver como são os gatos gerados pelos vídeos de IA.

Embora Sora tenha apenas 480p, a imagem parece em alta definição e a gradação de cores é linda.

▲ Sora gera, palavra de alerta: lente telefoto de 200 mm captura o gato de pêlo curto britânico na varanda, com detalhes de cabelo distintos. O grande vaso de planta em primeiro plano está ligeiramente desfocado e as folhas ao fundo balançam ao vento. A imagem tem granulação e saturação de cor de filme, qualidade de alta definição

O desempenho de Runway e Keling é semelhante, e o primeiro plano e o plano de fundo de Keling são gerados com mais precisão. Três gatos, três cores.

▲ Geração de pista

▲ Geração de espírito Chen

Em seguida, deixe os vídeos de IA "escrever" e veja se eles conseguem escrever "APPSO".

Os movimentos das mãos de Sora são bastante naturais, mas as falas que ele escreve são como comer cogumelos e têm ideias próprias.

▲ Sora gerada, palavra imediata: visão aérea da escrita à mão "APPSO" em papel de desenho branco, traços pretos, movimentos de escrita suaves, movimento natural da mão, iluminação suave, close-up

Runway acertou ao máximo, mas não completamente. Além disso, com exceção do último traço, os traços das letras e os movimentos das mãos não cooperaram tacitamente e cada um funcionou por conta própria.

▲ Geração de pista

Quanto a Ke Ling, ele escreveu uma série de caracteres ilegíveis, mas era raro. As letras seguiam os movimentos de suas mãos.

▲ Geração de espírito Chen

Então vamos testar a suavidade do movimento Na mesma corrida de bicicleta, os tiros e as trajetórias de movimento de Sora seguiram completamente as palavras imediatas, e as sombras pareciam muito reais.

▲ Sora gerou, palavra imediata: O mountain bike rapidamente correu pela pista de terra continuamente ondulada e decolou da última plataforma. A foto lateral capturou o momento em que ele estava no ponto mais alto.

As palavras-chave da pista estavam apenas parcialmente certas, o ciclista não apareceu no início e recebeu uma foto de destaque no final.

▲ Geração de pista

Ke Ling e Runway foram exatamente o oposto. Eles tiveram um bom desempenho no primeiro tempo, mas algo deu errado no final.

▲ Geração de espírito Chen

É hora de enfrentar o desafio e criar uma palavra de alerta relativamente complicada que acompanha a troca de câmera.

As cores na imagem de Sora estavam saturadas, como se tivessem sido atenuadas, mas os homens pareciam surgir do nada, e a IA não virou a câmera na direção dos homens conforme necessário.

▲ Sora gerou, palavra imediata: Em uma tarde ensolarada, em um café estilo Starbucks, a câmera primeiro focou em uma jovem chinesa sorridente e depois se voltou para um jovem chinês que assentiu levemente enquanto falava. Sentaram-se frente a frente, com duas xícaras de café sobre a mesa de madeira. A luz natural preenche o espaço, criando uma atmosfera acolhedora

Runway filmou diretamente de lado, restaurando as expressões das duas pessoas, mas não refletiu o movimento da câmera, e também havia algo errado com as mãos do homem.

▲ Geração de pista

Ke Ling é semelhante ao Runway, mas um pouco melhor porque é mais chinês. Porém, essas duas pessoas sentaram-se na mesma mesa, mas nenhuma olhou para a outra.

▲ Geração de espírito Chen

Além dos vídeos de Vincent, os vídeos de Tusheng também são o destaque na geração de vídeo e, em comparação com os vídeos de Vincent, os vídeos de Tusheng são mais práticos. Muitos filmes de IA entregues comercialmente são basicamente vídeos de Tusheng.

No entanto, se você for um usuário $ 20 Plus, não poderá enviar fotos ou vídeos contendo pessoas no Sora. A próxima melhor coisa é fazer upload de um emoticon de um gato bruxo, pedindo ao gato para agitar sua varinha mágica e conjurar rosas.

Não sei por que, mas o vídeo de Tusheng de Sora não funciona. O gato não se move. É apenas pelo logotipo no canto inferior direito que podemos ver que esta não é uma imagem estática.

▲ Sora gerou, palavra imediata: Gato acenou com a varinha mágica em sua mão e se transformou em uma rosa vermelha.

Runway pediu ao gato que agitasse uma varinha mágica com a pata direita, e a pata esquerda se transformou em uma rosa, o que atendia aos requisitos da palavra-chave, mas a flor não estava na mesma camada.

▲ Geração de pista

A atuação de Ke Ling é perfeita e o efeito é o mais natural. Quando transformado em gif, é apenas mais um emoticon.

▲ Geração de espírito Chen

Experimentei animais e depois experimentei o espelho vazio. Usei uma imagem em estilo de terreno baldio industrial que havia gerado anteriormente com IA como material para o vídeo de Tusheng.

Os resultados gerados pelo Sora são difíceis de avaliar. O ângulo de visão é baixo o suficiente, mas a câmera não rastreia lateralmente e as transições de quadro são abruptas. Isso se chama, eu não deveria estar no carro, mas embaixo do carro.

▲ Sora gerado, palavras imediatas: veículos blindados passando, pneus levantando poeira e detritos, tiro lateral, perspectiva de ângulo baixo, câmera lenta, textura de filme

A pista gera o máximo sabor interno, até as janelas do carro se movem.

▲ Geração de pista

Ke Ling diminuiu o zoom diretamente da câmera, o que basicamente não teve nada a ver com a palavra solicitada.

▲ Geração de espírito Chen

Houve apenas algumas perguntas e nenhuma das três IAs conseguiu obter nota máxima. É claro que todos os itens acima são exemplos e não são universalmente representativos. Na melhor das hipóteses, apenas podem fornecer uma perspectiva de avaliação.

Falando apenas em Sora, ele tem um bom desempenho no estilo realista dos vídeos de Vincent, com qualidade cinematográfica, e o movimento do objeto segue bem as palavras imediatas, às vezes até melhor do que Keling e Runway.

No entanto, os vídeos Tusheng são fáceis de atrair a atenção das pessoas, podem permanecer parados e não ouvir o movimento da câmera, portanto, o custo-benefício geral não é alto.

▲ Sora gerado, palavra imediata: curta-metragem de 35 mm rodado em Xangai na década de 1990, qualidade do filme

Modelo "Beggars Edition", produtos inovadores

O desempenho de Sora é mediano, provavelmente por ser uma “versão de mendigo” – diferentemente dos artistas convidados pela OpenAI, o que podemos usar agora é a versão turbo, que exige menos poder computacional e o efeito fica comprometido.

Não há modelos suficientes, então os produtos precisam ser inventados. Sora é um pouco convincente – foi anunciado oficialmente em fevereiro e lançado em dezembro. Muitos produtos concorrentes surgiram no meio, mas Sora ainda tem funções que não possuem.

Ao contrário do ChatGPT, onde uma caixa de diálogo domina o mundo, Sora é único no design de sua interface interativa e nas funções do produto.

Entre eles, a função de storyboard do Sora é semelhante ao primeiro e ao último quadro, mas é mais flexível. Podemos adicionar vários cartões à linha do tempo. Os cartões podem conter palavras, imagens e vídeos completos.

Então, escrevi dois parágrafos de instruções: 1. Cena estilo drama japonês, a estudante do ensino médio está encostada na grade do telhado, de perfil lateral, a suave luz da tarde atinge seu rosto 2. Ela vira a cabeça para encarar o; câmera e sorri calorosamente A iluminação destaca as expressões.

O efeito resultante está de acordo com a minha imaginação, e o movimento dos cabelos faz as pessoas baterem o coração.

▲ Sora gerada

A IA ainda não é capaz de transformar todos em diretores, mas Sora permite que você experimente a sensação de criar storyboards. Mas, novamente, o modelo é assim, o efeito é muito aleatório, mas os pontos de Sora não suportam a compra de cartas.

Originalmente, eu queria que a IA imitasse o efeito do CG do jogo, onde o protagonista rapidamente se vira e saca sua arma, mas no final consegui um robô com uma expressão monótona.

▲Sora gerado

Você também pode simplesmente colocar uma imagem no storyboard e Sora irá gerar automaticamente palavras para sugerir como mover a imagem.

Assim, o gato mago pode finalmente se mover. Acontece que as deficiências do Tusheng Video precisam ser compensadas aqui. No entanto, o efeito também é difícil de esticar e às vezes produz algumas coisas desnecessárias.

▲Sora gerado

Além disso, a função Remix (redesenhar) do Sora também é muito divertida. Podemos editar o vídeo usando linguagem natural, alterar os elementos do vídeo e realizar a "criação secundária".

Você pode usar seus próprios vídeos ou emprestar vídeos de outras pessoas da comunidade de Sora.

▲ Foto de: comunidade Sora @ bpyser1

Por exemplo, podemos substituir as figuras de papel dançantes por uma boy band e, ao mesmo tempo, transformar o cenário em uma sala de prática.

Os movimentos e trajes das figuras de papel foram aproximadamente mantidos, mas os membros das figuras ainda não podem ser vistos em detalhes.

▲Sora gerado

Agora, para mais diversão, podemos usar a função Blend para mesclar os dois vídeos em um, e Sora cuidará automaticamente dos efeitos de transição entre os vídeos.

Originalmente pensei que poderia produzir um clipe de MV suave, afinal os dois vídeos são tão parecidos, mas a IA ainda me surpreendeu. O começo e o fim eram normais, mas a cena no meio era muito caótica. você está aí?

▲Sora gerado

Resumindo, se você não busca o ritmo de produção, Sora é muito divertido, a forma do produto também é muito interessante, oferece um fluxo de trabalho totalmente novo, há inovações e as funções são relativamente completas.

No entanto, do ponto de vista atual, há muito espaço para melhorias no efeito de geração, mas o número de explorações fornecidas aos usuários não é suficiente, e US$ 20 podem apenas arranhar a superfície. Às vezes as fotos são lindas, mas se o movimento não for bem administrado, é inútil “A realidade não existe mais” ainda é um sonho distante.

Por favor, aproveite o gato andando pela parede. Acontece que, aos olhos da IA, os gatos são realmente líquidos.

▲ Sora gerada, palavra imediata: Um close-up de um gato preto com uma sensação cinematográfica completa O gato salta graciosamente em frente à parede vermelha da Cidade Proibida. A imagem é apresentada em câmera lenta. claramente visível. O fundo está desfocado com uma profundidade de campo rasa e o gato salta em seu ponto mais alto. Os olhos dourados olham diretamente para a câmera. Usando luz natural suave, os detalhes da parede arquitetônica chinesa tradicional formam um fundo desfocado

O problema de Sora é, na verdade, um problema comum entre muitos produtos de vídeo de IA. Não existe uma solução única e verdadeiramente confiável. Simular o mundo real? Conseguir movimentos suaves e sedosos? Manter os personagens consistentes? Sim, é possível, mas existe uma probabilidade, e o sorteio das cartas e as etapas posteriores são essenciais.

Agora estamos observando o efeito de geração que é visível a olho nu, e o que os vídeos de IA mudaram coletivamente foi a forma de criação. Embora o futuro seja promissor, Sora, por favor, atualize seu modelo primeiro.

Zhang Chengchen

É tão forte quanto a geada do outono e pode evitar desastres malignos. E-mail comercial: [email protected]

E-mail 8

# Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (WeChat ID: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo |