Por que a maior rodada de financiamento individual na indústria de vídeo com IA da China foi para a Aishi Technology?

março 13, 2026 gurinho

A APPSO apurou que a iSpeed Technology concluiu recentemente uma rodada de financiamento Série C de US$ 300 milhões, estabelecendo um novo recorde para a maior rodada de financiamento individual no setor doméstico de geração de vídeo com IA.

O principal investidor, o CDH Hong Kong Fund, juntamente com o CDH VGC e o CDH Baifu, fizeram um investimento significativo; empresas de capital industrial como a China Ruyi e a 37 Interactive Entertainment seguiram de perto; fundos governamentais domésticos, fundos de seguros, escritórios familiares, bem como o UOB Venture Management e o Lion X Fund também participaram. A lista de investidores abrange dois hemisférios, com capital de diferentes setores convergindo tacitamente na mesma direção.

Uma rodada de financiamento de US$ 300 milhões pode não parecer surpreendente no atual cenário da IA, e representa uma fração do financiamento da OpenAI. No entanto, é preciso contextualizar esse valor no setor de IA para vídeo: a Runway, fundada em 2018, levou sete anos para concluir sua rodada de financiamento Série E de US$ 315 milhões no mês passado. Enquanto isso, a Aishi Technology passou de sua rodada seed para uma rodada Série C igualmente expressiva em menos de três anos.

Na rodada Série A, o Shenzhen Capital Group liderou o investimento, com participação do Ant Group. Na rodada Série B, o Alibaba liderou o investimento com mais de US$ 60 milhões, o maior investimento individual no setor de geração de vídeo doméstico na época. Na rodada Série C, a empresa arrecadou US$ 300 milhões, reescrevendo seu próprio recorde mais uma vez.

A cada rodada, novas instituições de primeira linha entram no mercado pela primeira vez, e o valor investido em cada rodada dobra. O ritmo está se acelerando e os riscos estão ficando cada vez maiores .

Na verdade, o sinal refletido por esse financiamento é maior do que os próprios números: o vídeo com IA deixou de ser um mero coadjuvante em narrativas de grande escala; o capital começou a tratá-lo como uma vertente independente na qual vale a pena investir pesadamente .

Wang Changhu, fundador da iSpeech Technology, afirmou em 2024 que a geração de vídeo estava definitivamente subestimada. A iSpeech Technology transformou essa falta de consenso em consenso entre os investidores em menos de três anos.

O ponto de partida da falta de consenso: 2023, por que vídeo?

"Não sei como começar um negócio, mas tudo bem. Começar um negócio é aprender fazendo." Em abril de 2023, quando Wang Changhu, fundador da Aishi Technology, decidiu abrir seu próprio negócio, ele saiu de casa com essa frase em mente.

Em abril de 2023, Wang Changhu, fundador da iSpeech Technology, tomou uma decisão que pareceu bastante "inconvencional" na época: enquanto todos estavam focados em grandes modelos de linguagem, ele queria apostar na geração de vídeo.

Lembre-se de que o Sora da OpenAI só foi lançado oficialmente um ano depois, então você pode imaginar o quão contraintuitiva foi a escolha de Wang Changhu na época.

Após oito anos na Microsoft Research Asia e quatro anos como diretor do Laboratório de IA da ByteDance, Wang Changhu compreende o ritmo tecnológico da IA para vídeo melhor do que a maioria. "No início de 2023, muitas pessoas discordavam da produção de vídeos; todos estavam de olho em grandes modelos de linguagem", recordou ele posteriormente. "Mas isso gerou uma falta de consenso: acreditávamos que a geração de vídeo era algo muito importante, e tínhamos experiência em vídeo e IA, o que nos permitiria ter sucesso globalmente."

Essa decisão estava sob considerável pressão na época. Comparada aos modelos de linguagem, a geração de vídeo consome mais poder computacional, é mais difícil de controlar em termos de qualidade e tem um caminho de comercialização mais ambíguo. O que os primeiros investidores precisavam acreditar não era no que podiam ver agora, mas sim no projeto ainda em desenvolvimento para daqui a três anos.

Em março de 2024, o Shenzhen Capital Group liderou a rodada de financiamento Série A1, concluindo seu primeiro investimento. No mês seguinte, o Ant Group investiu mais de 100 milhões de RMB, o maior investimento institucional individual no setor de vídeo com IA na China até então. Com isso, a Aishi Technology essencialmente completou sua transformação de uma abordagem "voltada para a tecnologia" para uma abordagem "voltada para o capital".

Desde o início de sua jornada empreendedora, Wang Changhu definiu claramente sua visão: " Ajudar todos a se tornarem diretores de suas próprias vidas ". O produto internacional PixVerse e o produto nacional Paiwo AI são implementações nessa direção — o primeiro foi lançado em janeiro de 2024 e o segundo em junho de 2025. Os dois produtos operam de forma independente em diferentes mercados.

Arquitetura DiT: a escolha que não agradou a ninguém.

Para entender essa rodada de financiamento Série C de US$ 300 milhões, você precisa primeiro entender o roteiro tecnológico da Aishike.

Se você analisar o roteiro técnico da iSpeed Technology desde o início, descobrirá que a escolha da arquitetura DiT (Diffusion Transformer) é a origem de toda a história e a premissa de muitos resultados.

Em 2023, as principais soluções de geração de vídeo na China geralmente adotavam a arquitetura U-Net. Isso era perfeitamente adequado; a U-Net havia passado por extensa validação prática no campo da geração de imagens ao longo de muitos anos, comprovando sua estabilidade e maturidade. Sua experiência em ajuste de parâmetros era relativamente consolidada, permitindo resultados rápidos e eficazes. Para a maioria das equipes que queriam colocar o produto em funcionamento o mais rápido possível, essa era a escolha óbvia.

A Aishi Technology selecionou a DiT, tornando-se a primeira startup na China a usar essa arquitetura para geração de vídeo .

DiT é uma arquitetura combinada de Difusão e Transformer. A principal vantagem do Transformer reside em seu mecanismo de atenção, que permite ao modelo "perceber" informações em qualquer posição da sequência durante o processamento de dados, em vez de processar apenas regiões locais como as redes convolucionais.

Para a geração de vídeo, essa capacidade é crucial: o vídeo é essencialmente uma série de quadros consecutivos em uma linha do tempo, com cada quadro apresentando dependências espaço-temporais complexas em relação aos quadros anteriores e posteriores . Os movimentos dos personagens devem ser fluidos, as trajetórias dos objetos devem obedecer às leis da física e as mudanças de iluminação devem permanecer consistentes entre os quadros — esses requisitos exigem um modelo capaz de capturar "relações espaço-temporais de longo alcance entre os quadros", que é exatamente o que o Transformer faz de melhor.

No entanto, essa escolha terá um custo significativo em 2023: a DiT exige mais poder computacional e volume de dados nos estágios iniciais de treinamento e, quase inevitavelmente, passará por um período difícil de "desempenho inferior em comparação com a U-Net madura" em sua fase inicial. Para uma startup, isso representa um risco considerável, e o investimento pode se esgotar antes que os resultados melhorem.

Essa avaliação provou-se correta. Quando o Sora foi lançado em 2024, o roteiro técnico divulgado publicamente pela OpenAI era de fato o DiT. No campo da geração de vídeo, a arquitetura DiT era, de fato, o caminho mais próximo da resposta correta.

Quando Sora foi lançado, a AiShi já havia acumulado mais de um ano de experiência em treinamento, fluxos de trabalho de processamento de dados e soluções de otimização de engenharia na arquitetura DiT. Essa defasagem temporal é crucial no campo da IA, que está em rápida evolução.

Focar tanto em produtos modelo quanto no desenvolvimento de produtos é uma lógica central subestimada.

No campo da IA para vídeo, a maioria das empresas prioriza o treinamento de seus modelos antes de considerar o desenvolvimento do produto. Essa parece ser uma abordagem segura; uma vez que o modelo esteja maduro, o risco de comercialização é muito menor.

No entanto, essa abordagem tem uma falha fatal: quando o modelo está "treinado", você já perdeu a janela de feedback mais crucial. Que tipo de efeitos gerados os usuários realmente precisam? Em quais cenários as necessidades são mais intensas? Em quais dimensões o modelo deve ser priorizado para otimização? Essas perguntas só podem ser respondidas de fato quando o produto está em funcionamento e os usuários o estão utilizando.

Desde o início, a Aishi colocou o treinamento de modelos e a iteração de produtos no mesmo ciclo.

Quando a versão web do PixVerse foi lançada em janeiro de 2024, o modelo estava longe de ser "perfeito", mas o produto já permitia que os usuários gerassem vídeos e fornecessem feedback. Cada atualização do modelo era baseada diretamente em dados de uso reais da versão anterior, incluindo quais prompts tinham baixas taxas de sucesso, quais efeitos eram mais populares e quais cenários eram propensos a erros. Esses sinais eram incorporados ao processo de treinamento em tempo real, guiando a direção da próxima rodada de otimização do modelo.

Mais importante ainda, essa coevolução entre modelo e produto criará um efeito cumulativo ao longo do tempo: quanto mais usuários houver, mais intenso será o feedback, mais precisa será a otimização do modelo, melhor será a experiência com o produto e mais usuários serão atraídos — trata-se de um ciclo virtuoso, não de um avanço tecnológico unilateral.

"Essa é a vantagem das startups: elas são menos complicadas, então são mais eficientes", disse Xie Xuzhang, cofundador da Aishi. Essa afirmação pode parecer modesta, mas reflete um alto grau de integração no planejamento tecnológico, no cronograma de desenvolvimento de produtos e nas capacidades organizacionais. Grandes empresas podem investir em mais poder computacional e equipes maiores, mas é difícil alcançar essa integração profunda entre modelo e produto. Os processos são muito longos, os departamentos muito numerosos e, uma vez que a cadeia de feedback se estende, a vantagem de velocidade se dilui.

Essa vantagem em termos de eficiência acaba se refletindo na estrutura de custos. Xie Xuzhang revelou em uma entrevista ao LatePost que a AiShi "utiliza, em média, menos de 1.000 calorias em recursos de treinamento por mês, e o custo é de apenas cerca de 10% do custo de seus concorrentes".

Trata-se de uma vantagem estrutural em termos de custos, não de uma economia de curto prazo obtida por meio de cortes orçamentários. Nas palavras de Xie Xuzhang, é uma vantagem abrangente em arquitetura de modelos, algoritmos, engenharia e capacidades do produto .

Quando a otimização do modelo está sempre alinhada com as necessidades do mundo real, reduz o desperdício de poder computacional em direções incorretas; o feedback do produto fornece orientação em tempo real para as estratégias de treinamento, resultando em um maior retorno sobre o investimento a cada iteração.

Desde o lançamento oficial da versão web do PixVerse em janeiro de 2024 até o lançamento da versão 5.6 no início de 2026, o PixVerse foi atualizado continuamente para oito versões principais, com uma atualização de modelo principal em média a cada dois meses.

Por trás dessa alta densidade de iterações está a metodologia de treinamento conjunto do modelo e do produto:

V2 (julho de 2024): Foram lançadas a geração de vídeos com múltiplos segmentos e pincéis de redesenho parcial, permitindo que os usuários passassem de simplesmente "gerar um segmento" para "editar e criar".
V3 (outubro de 2024): O modo de efeitos especiais foi lançado e a "taxa de gacha" foi aumentada de aleatória para quase certa. Este foi o verdadeiro ponto de virada para o PixVerse, que passou de uma ferramenta de criação para um produto voltado para o mercado de massa.
Versão 3.5 (dezembro de 2024): Tempo de geração reduzido para menos de 10 segundos, diminuindo consideravelmente o tempo de espera do usuário;
V4 (início de 2025): Surge a capacidade de geração quase em tempo real, gerando vídeos de 5 segundos em 5 a 7 segundos;
V4.5 (maio de 2025): O número de parâmetros e conjuntos de dados de treinamento se expande exponencialmente, e o número de usuários em todo o mundo chega a 60 milhões;
A versão nacional do "Paiwo AI" da PixVerse foi lançada em junho de 2025, com aplicações simultâneas online e para dispositivos móveis.
V5 (agosto de 2025): Lançamento do assistente de criação de agentes; os usuários não precisam mais aprender a sintaxe de prompts; as intenções conversacionais são convertidas automaticamente em instruções de modelo; e o ecossistema de APIs é aberto simultaneamente;
V5.5 (dezembro de 2025): Geração com um clique de "storyboard + áudio", alcançando a primeira colaboração síncrona de visuais e som na China e formando uma capacidade narrativa completa;
V5.6 (26 de janeiro de 2026): Modelo modal de grande porte, com suporte para geração de storyboard e sincronização audiovisual.

No mais recente ranking de modelos de geração de vídeo divulgado pela renomada agência de avaliação de IA, Artificial Analysis, o PixVerse V5.6 ocupa a segunda posição global, mantendo-se na liderança mundial entre os melhores modelos de geração de vídeo.

Essa densidade de iterações é bastante rara na indústria de vídeo com IA. A estratégia da AiShi difere de muitos produtos similares: ela continua avançando, com cada versão abordando os problemas reais que os usuários reais enfrentam no momento, enquanto reserva espaço para o próximo salto na arquitetura .

A viabilidade disso reside precisamente na escalabilidade da arquitetura DiT. Cada atualização de modelo não exige a remoção da camada subjacente e o recomeço do zero, mas sim a ampliação e o aprofundamento da base existente.

US$ 300 milhões, apostando em algo além de vídeos com IA.

No entanto, a CDH decidiu, em última análise, liderar esta rodada da Série C, apostando não apenas na posição do V5 na tabela de classificação, mas também no PixVerse R1, que foi lançado em janeiro de 2026.

O R1 pode ser considerado a iteração de tecnologia de produto mais radical da iScience Technology até o momento.

No passado, por mais sofisticada que fosse a geração de vídeo, ela consistia essencialmente em "traduzir instruções em um arquivo de vídeo", um processo de renderização único e offline. O usuário inseria as instruções, aguardava a geração e recebia um arquivo de vídeo pronto. Isso é como revelar um filme; depois de filmado, está pronto, e você precisa esperar que seja revelado para assisti-lo, e depois de assistido, não é possível fazer nenhuma alteração.

O R1 opera com uma lógica diferente. Ele não se limita mais a "gerar um vídeo", mas sim a ser um "modelo de mundo" capaz de responder a comandos de interação do usuário em tempo real. Os usuários podem inserir comandos durante a reprodução do vídeo para alterar a iluminação, substituir planos de fundo e controlar o movimento dos personagens. O atraso de resposta do sistema é de aproximadamente 2 segundos, e a saída é um fluxo de vídeo em tempo real com resolução ultra-alta definição de 1080p.

Por trás disso está o "Instant Response Engine (IRE)" desenvolvido pela própria AiShi, que reduz as etapas de cálculo de dezenas para 1 a 4, alcançando uma melhoria significativa da "renderização offline" para a "interação em tempo real".

Xie Xuzhang prevê que as fronteiras entre vídeo e jogos se tornarão cada vez mais tênues no futuro. Quando o vídeo se tornar interativo, surgirão conteúdos, usuários e oportunidades criativas totalmente novos.

Em entrevista, Xie Xuzhang revelou que, após o lançamento do R1, a maioria dos clientes B-end veio da indústria de jogos. "O desenvolvimento de jogos não precisará mais passar pelo longo ciclo de desenvolvimento do passado. Seja na jogabilidade, nos gráficos ou na história, a IA pode tornar tudo mais leve e imaginativo. Mais importante ainda, ela pode ajudar pessoas criativas que não entendem de programação a transformar suas ideias em jogos reais."

O valor potencial do R1 vai muito além de ser uma "ferramenta melhor para geração de vídeos". Se o PixVerse V5 está disputando o primeiro lugar entre as ferramentas de geração de vídeos, o R1 está definindo uma categoria completamente diferente: um sistema operacional para experiências de conteúdo interativo em tempo real. Seus concorrentes não são mais o Runway ou o Corinne, mas sim o Unity, o Unreal Engine e até mesmo modelos de consumo de conteúdo que ainda estão por vir .

Analisando a estrutura de investidores da rodada de financiamento Série C da Aishike Technology, isso por si só já é um sinal.

O investimento conjunto liderado por três fundos da CDH Investments reflete uma avaliação sistemática de que a empresa entrou em uma fase de expansão. A entrada das empresas de capital industrial China Ruyi (conteúdo para cinema e televisão) e 37 Interactive Entertainment (jogos) indica que a R1 visa reestruturar dois setores: produção interativa de filmes e televisão e desenvolvimento de jogos nativos de IA.

Ao entrarmos em 2026, toda a indústria de vídeo com IA está acelerando para sua segunda fase. Após o sucesso global do Seedance 2.0, a AiShi Technology emergiu como um novo unicórnio.

Atualmente, o PixVerse possui mais de 100 milhões de usuários registrados em todo o mundo e mais de 16 milhões de usuários ativos mensais (MAU). Na China, a versão chamada Paiwo AI e o PixVerse operam em paralelo. A Aishi Technology também é o único aplicativo chinês de vídeo com IA selecionado para a Cúpula Global da ONU sobre IA para o Bem de 2025 e ingressou oficialmente na Rede Global de IA da Universidade das Nações Unidas no mesmo ano.

Esta rodada de financiamento de US$ 300 milhões pode ser vista como o voto do capital para uma era vindoura. A próxima batalha para o vídeo com IA não se resume ao número de parâmetros ou rankings, mas sim a quem conseguirá primeiro transformar o vídeo de um "produto de consumo" em uma "interface interativa".

No entanto, saber para onde o caminho tecnológico tomará um rumo e acreditar que esse caminho acabará funcionando são duas coisas diferentes.

Na indústria de IA, "escolher a direção certa" não é raro. O que é raro é ter algo concreto e sólido o suficiente para te apoiar e evitar que você vacile durante o período anterior ao reconhecimento da sua direção pela maioria .

Nos últimos três anos, a Aishi Technology não se desviou desse caminho. É difícil dizer que ela possuía uma perspectiva onisciente que previa o ponto final. Em vez disso, a cada passo, a direção do próximo passo surge naturalmente da realidade tecnológica do passo anterior.

O vídeo está se transformando de conteúdo para ser assistido em um mundo para ser tocado. Portanto, esse investimento de US$ 300 milhões não se trata apenas do futuro do vídeo com IA, mas da era em que "tudo pode ser interativo".

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo