Sora é superado novamente! O modelo de vídeo Meta AI explode tarde da noite, vem com um BGM impressionante, tornando a edição de vídeo mais fácil do que as imagens P

Zuckerberg tem estado ocupado “roubando os holofotes” em todo o mundo recentemente.

Não faz muito tempo, ele iniciou seu “segundo empreendedorismo” e acabou de nos mostrar os mais poderosos óculos AR Meta Orion, que vem aprimorando há dez anos. Embora seja apenas um protótipo de máquina que aposta no futuro, ele roubou os holofotes. Visão Pro da Apple.

Ontem à noite, Meta mais uma vez roubou a cena na faixa modelo de geração de vídeo.

Meta disse que o recém-lançado Meta Movie Gen é o "Modelo de Fundação de Mídia" mais avançado até o momento.

No entanto, vamos tomar precauções primeiro. Os funcionários do Meta ainda não forneceram um cronograma de abertura claro.

As autoridades afirmam estar se comunicando e cooperando ativamente com profissionais e criadores da indústria do entretenimento, e espera-se que isso seja integrado aos próprios produtos e serviços da Meta no próximo ano.

Resuma brevemente os recursos do Meta Movie Gen:

  • Possui funções como geração de vídeo personalizada, edição precisa de vídeo e geração de áudio.
  • Suporta a geração de vídeos longos de alta definição em 1080P, 16 segundos e 16 quadros por segundo
  • Capaz de gerar até 45 segundos de áudio de alta qualidade e alta fidelidade
  • Insira texto simples para obter recursos de edição de vídeo sofisticados e precisos
  • A demonstração foi excelente, mas não se espera que o produto esteja oficialmente disponível ao público até o próximo ano

Diga adeus à "mímica" e concentre-se em funções grandes e abrangentes

Dividido, o Movie Gen tem quatro funções principais: geração de vídeo, geração de vídeo personalizada, edição precisa de vídeo e geração de áudio.

A função de vídeo Vincent é há muito tempo um recurso padrão dos modelos de geração de vídeo. No entanto, o Meta Movie Gen pode gerar vídeos de alta definição com diferentes proporções de acordo com as necessidades do usuário, o que é o primeiro desse tipo na indústria.

Resumo de entrada de texto: Uma preguiça com óculos de sol rosa está em uma bóia em uma piscina. A preguiça está segurando uma bebida tropical.

Resumo da entrada de texto: A câmera está atrás de um homem, sem camisa, usando um pano verde na cintura. Ele está descalço com um objeto de fogo em cada mão, ele cria movimentos circulares amplos. A atmosfera é hipnotizante, com a dança do fogo.

Além disso, o Meta Movie Gen oferece funções avançadas de edição de vídeo, permitindo aos usuários realizar tarefas complexas de edição de vídeo por meio de uma simples entrada de texto.

Desde o estilo visual do vídeo, passando pelos efeitos de transição entre videoclipes, até operações de edição mais detalhadas, este modelo também oferece bastante liberdade.

Meta Movie Gen também deu um grande passo na geração de vídeos personalizados.

Os usuários podem fazer upload de suas próprias imagens e usar o Meta Movie Gen para gerar vídeos personalizados, mantendo o caráter e o movimento.

Resumo de entrada de texto: Uma cowgirl vestindo calças jeans está em um cavalo branco em uma antiga cidade do oeste. Um cinto de couro aperta sua cintura. O cavalo é majestoso, com seu casaco brilhando à luz do sol.

De lanternas Kongming a bolhas coloridas transparentes, você pode facilmente substituir o mesmo objeto no vídeo por apenas uma frase.

Entrada de texto: Transforme a lanterna em uma bolha que voa no ar.

Embora muitos modelos de vídeo tenham sido lançados este ano, a maioria deles só pode gerar “mima”. É uma pena abandoná-los se forem de mau gosto. O Meta Movie Gen não “repetiu os mesmos erros”.

Entrada de texto: uma bela peça orquestral que evoca uma sensação de admiração.

Os usuários podem fornecer arquivos de vídeo ou conteúdo de texto e permitir que o Meta Movie Gen gere o áudio correspondente com base nessas entradas. (PS: Preste atenção na dublagem da aterrissagem do skate)

E pode não apenas criar um único efeito sonoro, mas também criar música de fundo ou até mesmo uma trilha sonora completa para todo o vídeo, melhorando muito a qualidade geral do vídeo e a experiência de visualização do público.

Depois de assistir à demonstração, Lex Fridman expressou sua admiração de forma sucinta.

Muitos internautas mais uma vez "empurraram" o futuro Sora da OpenAI, mas os internautas mais ansiosos começaram a ansiar pela abertura das qualificações de experiência de teste.

O cientista-chefe da Meta AI, Yann LeCun, também promoveu a plataforma Meta Movie Gen online.

Vale a pena esperar a torta pintada por Meta

Quando o Meta Movie Gen foi lançado, a equipe de pesquisa do Meta AI também publicou um artigo técnico de 92 páginas ao mesmo tempo.

Segundo relatos, a equipe de pesquisa de IA da Meta usa principalmente dois modelos básicos para alcançar essas funções extensas: modelos Movie Gen Video e Movie Gen Audio.

Entre eles, o Movie Gen Video é um modelo básico com parâmetros 30B, que é utilizado para geração de texto para vídeo e pode gerar vídeos HD de alta qualidade com até 16 segundos de duração.

A fase de pré-treinamento do modelo utiliza uma grande quantidade de dados de imagem e vídeo para compreender vários conceitos do mundo visual, incluindo movimento de objetos, interação, geometria, movimento de câmera e leis físicas.
Para melhorar a qualidade da geração de vídeo, o modelo também é supervisionado com ajuste fino (SFT) usando um pequeno conjunto de vídeos e legendas de texto de alta qualidade cuidadosamente selecionados.

O relatório mostra que o processo pós-treinamento é uma etapa importante no treinamento do modelo Movie Gen Video, que pode melhorar ainda mais a qualidade da geração de vídeo, principalmente as funções de personalização e edição de imagens e vídeos.

Vale ressaltar que a equipe de pesquisa também comparou o modelo Movie Gen Video com os modelos convencionais de geração de vídeo.

Como o Sora não está aberto no momento, os pesquisadores só podem usar seus vídeos e dicas divulgados publicamente para comparação. Para outros modelos, como Runway Gen3, LumaLabs e Keling 1.5, os pesquisadores optam por gerar vídeos por meio de interfaces API.

E como os vídeos postados por Sora têm resoluções e durações diferentes, os pesquisadores cortaram os vídeos do Movie Gen Video para garantir que os vídeos tivessem a mesma resolução e duração quando comparados.

Os resultados mostram que o efeito geral de avaliação do Movie Gen Video é significativamente melhor que o Runway Gen3 e LumaLabs, tem uma ligeira vantagem sobre o OpenAI Sora e é equivalente ao Keling 1.5.

No futuro, a Meta também planeja lançar publicamente vários benchmarks, incluindo Movie Gen Video Bench, Movie Gen Edit Bench e Movie Gen Audio Bench, para acelerar a pesquisa em modelos de geração de vídeo.

O modelo Movie Gen Audio é um modelo de parâmetro 13B para geração de vídeo e texto para áudio, capaz de gerar até 45 segundos de áudio de alta qualidade e alta fidelidade, incluindo efeitos sonoros e música, e sincronizado com o vídeo.

O modelo adota um modelo generativo baseado em Flow Matching e uma arquitetura de modelo de transformador de difusão (DiT) e adiciona módulos condicionais adicionais para fornecer controle.

Até a equipe de pesquisa da Meta introduziu uma tecnologia de expansão de áudio que permite ao modelo gerar áudio coerente além do limite inicial de 45 segundos. Ou seja, o modelo pode gerar áudio correspondente, independentemente da duração do vídeo.

Para informações mais específicas, consulte o documento técnico

https://ai.meta.com/static-resource/movie-gen-research-paper

Ontem, Tim Brooks, chefe da OpenAI Sora, anunciou oficialmente sua renúncia e ingressou no Google DeepMind, o que mais uma vez lançou uma névoa sobre o futuro incerto do projeto Sora.

De acordo com a Bloomberg, o vice-presidente da Meta, Connor Hayes, disse que a Meta Movie Gen atualmente não tem planos de produtos específicos. Hayes revelou um motivo significativo para o atraso no lançamento.

Atualmente, o Meta Movie Gen usa palavras de prompt de texto para gerar um vídeo que geralmente requer dezenas de minutos de espera, o que afeta muito a experiência do usuário.

A Meta espera melhorar ainda mais a eficiência da geração de vídeo e lançar o serviço de vídeo no terminal móvel o mais rápido possível para melhor atender às necessidades dos consumidores.

Na verdade, se você olhar a forma do produto, o design funcional do Meta Movie Gen se concentra em ser grande e abrangente, e não é “coxo” como outros modelos de vídeo.
A falha mais importante é que ele tem o mesmo sabor de “futuro” que Sora.

O ideal é muito pleno, a realidade é muito tênue.

Pode-se dizer que, assim como Sora está sendo ultrapassado por grandes modelos nacionais, quando o Meta Movie Gen for lançado, o cenário competitivo no campo da geração de vídeo poderá mudar novamente.

Mas pelo menos por enquanto, a torta pintada por Meta é suficiente para as pessoas engolirem.

# Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (ID do WeChat: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo |