Os novos vídeos feitos por IA da OpenAI estão impressionando as pessoas

fevereiro 16, 2024 gurinho

Uma imagem de IA retratando dois mamutes caminhando pela neve, com montanhas e uma floresta ao fundo. — OpenAI

O mais recente empreendimento da OpenAI em IA pode ser o mais impressionante até agora. Apelidado de “Sora”, este novo modelo de IA de texto para vídeo acaba de abrir suas portas para um número limitado de usuários que poderão testá-lo. A empresa lançou-o mostrando vários vídeos feitos inteiramente por IA, e os resultados finais são surpreendentemente realistas.

OpenAI apresenta Sora dizendo que ele pode criar cenas realistas com base em instruções de texto, e os vídeos compartilhados em seu site servem para provar isso. As instruções são descritivas, mas curtas; Eu pessoalmente usei prompts mais longos apenas interagindo com ChatGPT . Por exemplo, para gerar o vídeo dos mamutes peludos mostrado acima, Sora exigiu um prompt de 67 palavras que descrevesse os animais, o ambiente e o posicionamento da câmera.

Apresentando Sora, nosso modelo de texto para vídeo.
Sora pode criar vídeos de até 60 segundos com cenas altamente detalhadas, movimentos de câmera complexos e vários personagens com emoções vibrantes. https://t.co/7j2JN27M3W
Prompt: “Lindo, com neve… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) 15 de fevereiro de 2024

“Sora pode gerar vídeos de até um minuto, mantendo a qualidade visual e a aderência às instruções do usuário”, disse OpenAI em seu anúncio . A IA pode gerar cenas complexas repletas de muitos personagens, cenários e movimentos precisos. Para esse fim, OpenAI diz que Sora prevê e lê nas entrelinhas conforme necessário.

“O modelo entende não apenas o que o usuário pediu no prompt, mas também como essas coisas existem no mundo físico”, disse OpenAI. O modelo não aborda apenas personagens, roupas ou cenários, mas também cria “personagens atraentes que expressam emoções vibrantes”.

Sora também pode preencher as lacunas de um vídeo existente ou torná-lo mais longo, bem como gerar um vídeo baseado em uma imagem, para que não sejam apenas instruções de texto.

Embora os vídeos pareçam bons como imagens estáticas, eles são quase alucinantes em movimento. A OpenAI apresentou uma ampla variedade de vídeos para mostrar a nova tecnologia, incluindo ruas de Tóquio no estilo Cyberpunk e “filmagens históricas” da Califórnia durante a Corrida do Ouro. Há mais também, incluindo um close extremo de um olho humano. As instruções abrangem desde desenhos animados até fotografias da vida selvagem.

Sora ainda cometeu alguns erros. Olhando mais de perto revela que, por exemplo, algumas figuras na multidão não têm cabeça ou se movem de forma estranha. O movimento estranho se destacou à primeira vista em algumas amostras, mas a estranheza geral exigiu várias visualizações para ser detectada.

Pode demorar um pouco até que a OpenAI abra o Sora ao público em geral. Neste momento, o modelo será testado por red teamers que avaliarão os riscos potenciais. Alguns criadores também começarão a testá-lo agora, enquanto ainda está nos estágios iniciais de desenvolvimento.

A IA ainda é imperfeita, então esperava algo bastante confuso. Quer sejam as baixas expectativas ou as capacidades de Sora, estou saindo impressionado, mas também um pouco preocupado. Já vivemos em um mundo onde é difícil distinguir algo falso de algo real e agora não são apenas as imagens que estão em perigo – os vídeos também estão. No entanto, Sora não é o primeiro modelo de texto para vídeo que vimos, como o Pika .

Outros também estão levantando a bandeira, como o popular YouTuber de tecnologia, Marques Brownlee , que twittou que “se isso não lhe preocupa pelo menos um pouco, nada o fará” em resposta aos vídeos de Sora.

Cada um desses vídeos é gerado por IA e, se isso não lhe interessa nem um pouco, nada acontecerá.
O modelo mais novo: https://t.co/zkDWU8Be9S
(Lembra de Will Smith comendo espaguete? Tenho tantas perguntas) pic.twitter.com/TQ44wvNlQw
— Marques Brownlee (@MKBHD) 15 de fevereiro de 2024

Se o Sora da OpenAI é tão bom agora, é difícil imaginar do que ele será capaz após alguns anos de desenvolvimento e testes adicionais. Este é o tipo de tecnologia que tem o potencial de substituir muitos empregos – mas, esperançosamente, como o ChatGPT, coexistirá ao lado de profissionais humanos.