Um curta-metragem de cinema e televisão foi colhido em 10 segundos, e o corpo principal do movimento sofisticado da câmera ainda está claro. Este novo modelo de vídeo doméstico é estável.

setembro 29, 2024 gurinho

A faixa de Vincent Video está se tornando cada vez mais animada. Ela é atualizada a cada duas semanas e repetida todos os meses. Musk está quase ocupado demais como modelo. É muito fácil de rolar. O modelo de geração de vídeo da Doubao traz um modelo de difusão recém-projetado, que mostra realismo no nível do cinema e da televisão e detalhes realistas para cenas altamente dinâmicas e complexas. Use uma frase para descrever o efeito: muito forte, muito explosivo, não consigo acreditar no que vejo.

Em 24 de setembro, o 2024 Volcano Engine AI Innovation Tour chegou a Shenzhen e lançou um novo modelo de geração de vídeo, que lançou duas bombas para toda a faixa de vídeo AI de uma só vez: Doubao Video Generation-PixelDance, Doubao Video Generation-Seaweed Dois modelos grandes.

Como um dos primeiros fabricantes de modelos básicos em grande escala na China a passar no registro do algoritmo, não é surpreendente que tenha entrado no caminho da Vincent Video. Até faz as pessoas ficarem ansiosas por isso: de que outra forma isso pode ser rolado? Depois de participar do teste real deste poderoso modelo doméstico, descobrimos que seu poder definitivamente não está apenas na geração de imagens, mas também possui uma ecologia e visão maiores.

Avanços importantes na compreensão e consistência semântica, dominando totalmente a linguagem da lente

A “mágica” do vídeo generativo vem da “mágica”.

Em outras palavras, a capacidade de compreensão semântica do modelo é a base. Somente compreendendo com precisão o conteúdo do texto do prompt a imagem esperada pode ser apresentada adequadamente – a "compreensão da leitura" deve ser entendida primeiro.

Desta vez a APPSO participou num teste interno e obteve resultados notáveis - novamente, muito fortes e explosivos.

▲ prompt: Um gatinho vestindo avental e luvas está lavando pratos em um balde cheio de espuma Acima está uma torneira que dispensa água.

Cada elemento indicado pelo prompt foi refletido e não há nenhuma "pergunta faltante". O único problema é: é lindo demais – meu gato nativo não tem um temperamento tão sofisticado.

Esqueça, o que um gatinho poderia fazer de errado? Do ponto de vista da imagem, os detalhes da espuma e do fluxo de água são surpreendentes, e a expressão orgulhosa do gato também é muito vívida.

Um pequeno detalhe: a água cai no topo da cabeça do gatinho e depois cai pelas costas e pelo queixo. Esse detalhe está de acordo com as leis da física e é suficiente para mostrar a poderosa capacidade de compreensão do modelo. Desempenho semelhante também pode ser visto na demonstração oficial.

▲ Demonstração oficial

A restauração do cabelo bagunçado ao vento não reflete apenas o cabelo esvoaçante, mas também a direção é consistente com o ritmo de movimento do personagem, o que é consistente com a lógica física.

Essa capacidade de alta fidelidade vem da compreensão e do acúmulo técnico de criação de vídeo por Douyin e Jianying por meio de modelos de codificação e decodificação de estado oculto de vídeo autodesenvolvidos e de alta capacidade de restauração, garantindo fortemente a codificação eficiente do modelo de difusão. operação.

▲ prompt: Em uma floresta com árvores densas, olhe para o céu. O céu está coberto por folhas densas e o sol brilha através das lacunas entre as folhas. Ângulo de disparo ascendente, forte contraste entre claro e escuro

Verde é um tom muito complicado. Se você ajustá-lo bem, ficará retrô e fresco, mas se você ajustá-lo incorretamente, o tom irá desaparecer. Aqui, o efeito de abertura formado pela refração da luz através de folhas e galhos verdes é restaurado com precisão, próximo ao da lente.

Deve-se dizer que, após polimento repetido e iteração contínua de cenários de negócios, como edição de vídeo e Jimeng AI, o modelo de geração de vídeo Doubao realmente possui layout de luz e sombra de nível profissional e recursos de ajuste de cores, suportando animação 3D, animação 2D, chinês pintura, vários estilos, como preto e branco, impasto e, mais importante, dominar a linguagem das lentes.

Movimentos legais da câmera, não importa como os movimentos mudem, o protagonista permanece estável

A importância da linguagem das lentes não pode ser subestimada muitas vezes. Ninguém quer passar muito tempo sozinho apenas fazendo um PPT dinâmico.

No entanto, para usuários comuns, não há necessidade de ir a um curso de treinamento em "linguagem de lentes": Doubao Video Generation Model preparou uma série de soluções de operação de lentes, desde zoom, surround, pan, zoom, seguimento de alvo e outros super Multi -A linguagem da lente pode ser completada usando o prompt para obter um controle flexível da perspectiva.
Parece fácil, mas não é simples de implementar: a consistência é um grande desafio.

O modelo entende as instruções, gera o sujeito e, em seguida, projeta as mudanças e trajetórias de ação do sujeito de acordo com os requisitos da lente. Nesta série de etapas, não apenas o rosto do sujeito precisa ser "inalterado", mas também o sujeito precisa ser. “variável” adequadamente de acordo com os movimentos e ângulos.

▲ prompt: Um border collie vestindo um traje espacial está correndo na superfície da lua, pulando e perseguindo um disco voador no ar. O luar ilumina seu pelo em ângulo oblíquo, ângulo baixo, qualidade 4k, câmera lenta

Quando o cachorrinho pulou, sua cabeça e membros não estavam muito deformados, ele estava estável e se sentia à vontade.

▲ prompt: Musk estava no campo de arroz, curvando-se para plantar arroz, usando um chapéu de palha na cabeça. Depois de levantar a cabeça, ele ergueu a mão para cumprimentar a câmera.

Durante os dez segundos em que falou para a câmera, a expressão, os braços e as posturas do corpo de Musk mudaram com seus movimentos, mas a coisa toda não desabou e a série de movimentos foi muito suave.

Ao lidar com este desafio de “mudança” e “imutabilidade”, a consistência do assunto está quase perfeitamente garantida e o desempenho é realmente poderoso.

O mesmo princípio se aplica quando a lente muda. Na demonstração oficial, há um segmento subaquático que impressiona.

▲ Demonstração oficial

Com um simples zoom da lente, o que o modelo precisa realizar é: deve haver detalhes requintados na frente, então o assunto se move para revelar um novo assunto e, finalmente, ele se fixa no novo assunto, e todo o movimento é concluído de uma só vez.

Além de seu excelente desempenho consistente e incríveis recursos de movimento de câmera, ele naturalmente também suporta uma variedade de estilos, como 3D, animação 2D, impasto, quadrinhos, etc., bem como uma variedade de opções de proporção, dando aos usuários escolhas extremamente livres. .

▲ Demonstração oficial

▲ prompt: A bela e nevada cidade de Tóquio está movimentada A câmera se move por uma rua movimentada da cidade, seguindo várias pessoas aproveitando o lindo clima de neve e fazendo compras em barracas próximas. Lindas pétalas de sakura voam ao vento junto com flocos de neve.

▲ aviso: À noite, em um cruzamento em Hong Kong, carros e ônibus passam rapidamente, formando linhas fluidas. Há pedestres esperando o semáforo. Os prédios ao fundo ficam desfocados, formando pontos de luz, ângulo baixo, qualidade 4k

De "high-end" a "fácil de implementar"

Embora o modelo de geração de vídeo Doubao tenha acabado de chegar aos usuários, a tecnologia por trás dele já foi aprimorada há muito tempo. De acordo com um relatório técnico divulgado pela ByteDance Research em novembro do ano passado, a equipe da Byte combinou as instruções de imagem do primeiro e do último quadro com instruções de texto. A instrução do último quadro provou ser um componente chave na criação de cenas ou ações complexas.

Além disso, naquela época, a Byte escolheu a rota autorregressiva em vez do método hierárquico para obter recursos de desempenho de imagem de alta estabilidade. A consideração por trás disso é que o modelo deve garantir que o conteúdo gerado seja consistente com as expectativas do usuário. Somente desta forma os usuários participarão ativamente do processo de geração e desempenharão o papel de "diretor", para que capacidades poderosas do modelo possam ser implementadas. aplicações práticas o mais rápido possível.

Comparado com produtos similares (excluindo futuros), o modelo de geração de vídeo da Doubao está completamente no nível de primeiro nível. Comparado com produtos estrangeiros, como Luma e Runway, ele compreende melhor os usuários chineses e chineses e é mais adequado para o fluxo de trabalho criativo na Internet chinesa.

▲ Demonstração oficial

Com um desempenho tão excelente, é inevitável se destacar. Isso não se refere apenas ao modelo de geração de vídeo, mas a toda a família de modelos grandes Doubao: como um dos primeiros modelos grandes na China a passar no registro do algoritmo, o modelo grande Doubao fornece serviços para empresas por meio do Volcano Engine e do Volcano Ark.

Em setembro, o uso médio diário de tokens do modelo de linguagem Doubao ultrapassou 1,3 trilhão, um aumento de dez vezes em comparação com quando foi lançado pela primeira vez em maio.

Para fornecer o desempenho mais forte, o Doubao Universal Model Pro suporta um tpm inicial de 800K por padrão. Pode-se observar que esse número excede em muito o melhor nível do setor e pode ser expandido ainda mais de acordo com as necessidades reais, ajudando grandes empresas. para operar com segurança em larga escala em um ambiente de produção.

Embora as suas capacidades técnicas sejam tão fortes, numa comparação de preços das versões mais fortes de vários modelos grandes, o modelo grande da Doubao é mais de 98% inferior ao preço da indústria – o limite para a utilização de IA tem sido mais baixo do que nunca.

Quanto mais avançada a tecnologia, mais ela precisa ser implementada e integrada na vida cotidiana.

Em cenários reais de negócios, o que é necessário são bons resultados, rapidez e facilidade de uso. Tomando o comércio eletrónico como exemplo, devemos considerar tanto os nós de marketing como os efeitos de exibição das diferentes plataformas. O que é necessário é um método de produção flexível e rápido.

Quer se trate de filmagens publicitárias, vídeos curtos, comércio eletrônico ao vivo e outros campos, são necessárias ferramentas simples e fáceis de usar para serem incorporadas ao processo de produção existente.

Na conferência de imprensa do dia 24, o presidente da Volcano Engine, Tan Dai, também demonstrou uma série de aplicações de modelos em grande escala, especialmente casos que foram verdadeiramente implementados em cenários de uso comercial.
Por meio de serviços de grandes modelos full-stack, o Huoshan Engine integra verdadeiramente a força dos grandes modelos Doubao em cenários de negócios reais. Desde este ano, a Volcano Engine estabeleceu a Aliança Ecológica de Grandes Modelos de Varejo, a Aliança Ecológica de Grandes Modelos de Automóveis e a Aliança de Grandes Modelos de Terminal Inteligente, cobrindo uma ampla variedade de negócios e cenários.

Modelos mais fortes, preços mais baixos e implementação mais fácil são, sem dúvida, as vantagens importantes dos modelos de pufes grandes.

"Modelo mais forte" Escusado será dizer que o grande modelo Doubao pode suportar o uso de mais de um trilhão de tokens todos os dias. Por meio das mais de 50 práticas de negócios internas da ByteDance e das aplicações de mais de 30 clientes do setor, o número crescente de chamadas cobre cada vez mais cenários. . Ao receber mais feedback das empresas, também ajuda o modelo Baoda a se tornar melhor e mais abrangente.

Na conferência de imprensa, Tan Dai disse: "O custo de aplicação de modelos grandes foi bem resolvido. Os modelos grandes precisam passar do preço de volume para o desempenho de volume, com melhores capacidades e serviços de modelo".

"A aplicação de cenários comerciais é algo que o Modelo de Geração de Vídeo Doubao·considera desde o início. Requer um avanço no valor comercial para ser melhor aplicado." permite que todos realmente inovem e acelerem os negócios por meio do modelo de geração de vídeo beanbao em um ambiente de negócios.”

Os entusiastas podem começar a explorar o mundo da IA por meio de produtos C-end de baixo limiar. Os desenvolvedores podem usar o Volcano Engine para implementar o trabalho de IA de uma forma mais barata, mais diversificada e mais flexível, e fornecer a uma base de usuários mais ampla novos produtos e conteúdos para exploração adicional.

Na sessão subsequente de perguntas e respostas com os repórteres, ele também compartilhou que, à medida que a tecnologia continua a iterar e avançar, quando a IA pode resolver completamente um problema, a diferença entre toB e toC pode não ser tão grande.

Talvez esta seja a visão mais espetacular da era da IA: barreiras que originalmente eram inacessíveis estão sendo derrubadas. Não importa se você tem experiência ou não, seja para capacitação empresarial ou para seu próprio entretenimento, desde que você comece, você criará milagres.

# Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (WeChat ID: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo |