Como funciona Sora, a nova fronteira da geração de vídeo OpenAI

fevereiro 17, 2024 gurinho

A inteligência artificial está entrando em uma nova era: a da simulação do mundo físico em movimento. Entre os pioneiros desse avanço tecnológico está o Sora da OpenAI , um modelo de inteligência artificial que promete revolucionar a forma como geramos vídeos.

Um avanço na IA: Sora abre suas asas

Conforme anunciado no site oficial da OpenAI, Sora não é apenas um modelo de geração de texto para vídeo; é um projeto ambicioso que visa ensinar a inteligência artificial a compreender e simular o mundo físico em movimento. Isto abre portas anteriormente fechadas para problemas do mundo real que requerem interação no mundo físico, com um objetivo claro: ajudar as pessoas a resolver questões práticas complexas.

Principais recursos do Sora

Qualidade visual e adesão imediata: Sora pode gerar vídeos de até um minuto de duração, mantendo excelente qualidade visual e seguindo rigorosamente as instruções do usuário.
Feedback Profissional: Atualmente disponível para red teamers avaliarem áreas críticas quanto a riscos ou danos, Sora também é acessível a um seleto número de artistas visuais, designers e cineastas, com o objetivo de coletar feedback para melhorar o modelo em benefício de profissionais criativos.
Pesquisa Aberta: O compartilhamento antecipado do progresso da pesquisa tem como objetivo colaborar e receber feedback de pessoas fora da OpenAI, dando ao público uma prévia das capacidades de IA no horizonte.

O principal concorrente de Sora

O Gen 2 da Runway é o principal concorrente do Sora, que também é uma tecnologia de ponta na área de inteligência artificial generativa, especializada na criação de vídeos a partir de entrada de texto, imagens ou vídeos. Esta plataforma destaca-se pela sua capacidade de interpretar e transformar vários tipos de entrada em conteúdo de vídeo dinâmico e personalizável, abrangendo modos criativos como texto para vídeo, texto e imagem para vídeo e imagem para vídeo.

À primeira vista, pode parecer que Sora tem uma vantagem distinta sobre a Geração 2 . Porém, será necessário aguardar a disponibilização do Sora ao público para poder fazer uma comparação objetiva baseada em critérios sólidos. Esta avaliação permitirá compreender plenamente as capacidades e o desempenho de ambos os sistemas em contextos reais de utilização.

Uma precisão nunca vista antes

A partir dos vídeos disponíveis podemos ver como Sora é capaz de gerar cenas complexas com múltiplos personagens, tipos específicos de movimento e detalhes precisos do assunto e do fundo. Os vídeos compartilhados pela OpenAI acompanhados do prompt que os gerou atestam o poder desta nova ferramenta. Uma coisa em que a OpenAI se concentra é que o modelo não apenas entende o que está sendo solicitado por meio do prompt, mas também como esses elementos existem no mundo físico. Em particular, a OpenAI destaca duas características:

Compreensão da linguagem: O modelo possui uma compreensão profunda da linguagem, permitindo interpretar instruções com precisão e gerar caracteres que expressam emoções vibrantes.
Persistência Visual: Sora pode criar múltiplas tomadas em um único vídeo gerado, mantendo com precisão os personagens e o estilo visual.

Os desafios de Sora

Apesar de suas habilidades impressionantes, Sora tem algumas limitações:

Simulação Física: Você pode ter dificuldade em simular com precisão a física de uma cena complexa, como um biscoito mordido que não apresenta marcas de mordida.
Detalhes espaciais e temporais: O modelo pode confundir detalhes espaciais, como inverter a esquerda e a direita, e ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo.

Segurança e inovação: os avanços de Sora

Embora Sora abra novas fronteiras na geração de vídeo por meio de inteligência artificial, a segurança continua sendo um pilar central em sua evolução, segundo a empresa desenvolvedora. A OpenAI toma medidas de segurança cruciais antes de disponibilizar o Sora em seus produtos, abordando proativamente os desafios relacionados à desinformação, conteúdo de ódio e preconceito.

Colaborações estratégicas para segurança e ferramentas inovadoras para veracidade do conteúdo

Segundo a OpenAI, a colaboração com red teamers (profissionais de segurança cibernética especializados em imitar ataques contra os sistemas de TI de uma organização para avaliar a sua segurança e defesas), especialistas em vários domínios como desinformação, conteúdos de ódio e preconceitos, é um passo fundamental. Esses profissionais são encarregados de testar o modelo contraditoriamente, garantindo uma avaliação crítica de suas capacidades e áreas de risco potencial.

A OpenAI está desenvolvendo ferramentas dedicadas à detecção de conteúdo enganoso, incluindo um classificador de detecção capaz de identificar vídeos gerados pelo Sora. No futuro, planejamos incluir metadados C2PA em produtos OpenAI usando Sora, melhorando ainda mais a transparência e a segurança.

Técnicas de segurança herdadas e novas

As metodologias de segurança desenvolvidas para o DALL·E 3 (ferramenta de conversão de texto em imagem disponível na suíte ChatGPT plus) também são aplicadas no Sora, integrando novas técnicas preparatórias para sua utilização. Uma vez integrado a um produto OpenAI, um classificador de texto examinará e rejeitará solicitações de texto que violem as políticas de uso, como apelos a violência extrema ou conteúdo sexual. Classificadores avançados de imagens revisarão cada quadro de vídeo gerado, garantindo a adesão às diretrizes de uso antes de apresentá-lo ao usuário.

O envolvimento com decisores políticos, educadores e artistas globais é essencial para compreender as preocupações e identificar casos de utilização positivos para esta nova tecnologia. Apesar de extensas pesquisas e testes, é impossível prever todas as formas benéficas ou prejudiciais em que a nossa tecnologia será utilizada. Como tal, aprender com o uso no mundo real é considerado um componente crítico para construir e lançar sistemas de IA cada vez mais seguros ao longo do tempo.

Técnicas de pesquisa e desenvolvimento Sora

Sora usa um modelo de difusão, que começa com um vídeo semelhante a ruído estático e o transforma gradualmente, removendo o ruído em várias etapas. Capaz de gerar vídeos inteiros de uma só vez ou estender vídeos existentes, o Sora utiliza uma arquitetura de transformador semelhante aos modelos GPT, garantindo desempenho de escalabilidade superior.

Ao representar vídeos e imagens como coleções de unidades de dados menores, chamadas patches, semelhantes aos tokens no GPT, Sora unifica a forma como representamos os dados. Isso permite o treinamento em uma gama mais ampla de dados visuais, abrangendo diferentes durações, resoluções e proporções. Com base em pesquisas anteriores em modelos DALL·E e GPT, Sora representa uma base para modelos capazes de compreender e simular o mundo real, um marco para alcançar AGI (inteligência artificial geral).

O advento do Sora marca um importante avanço na geração de conteúdo visual por meio de inteligência artificial. Embora os desafios permaneçam, o caminho percorrido abre novas possibilidades criativas e profissionais, prometendo transformar o cenário da produção de vídeo . Basta aguardar a versão disponibilizada ao público para verificar o potencial desta nova ferramenta.

O artigo Como funciona o Sora, a nova fronteira da geração de vídeo OpenAI foi escrito em: Tech CuE | Engenharia de perto .