O curta-metragem de IA, que já ultrapassou 100 milhões de visualizações, apresenta uma cena memorável que se revela um erro de continuidade Entrevista com os criadores de “Paper Cellphone”
Ao assistir a este curta-metragem, você pode não suspeitar que está vendo um vídeo gerado por IA até ver esta cena:

Por que seu dedo fica posicionado aqui ao discar neste telefone antigo que gira em círculos? Além disso, no contexto do filme, as oferendas de papel que estão sendo queimadas já são iPhones, então por que haveria um telefone tão antigo?
Essa é a cena mais comentada do curta-metragem de inteligência artificial "Paper Cellphone" — não por ser tão boa, mas porque expõe completamente que o curta é gerado por computador, mesmo que os primeiros minutos sejam tão realistas que você não consegue perceber.
Mas ninguém na seção de comentários estava xingando. Os comentários que apareceram foram: "Só percebi que foi feito por IA quando vi isso", seguido de "Não me importo nem um pouco" e "E daí se é IA? Isso não me impede de chorar".

Desde que a IA se tornou capaz de gerar vídeos completos, nenhum trabalho em vídeo gerado por IA escapou desta pergunta: quão realista ele é? A velocidade de iteração do modelo tem sido usada como medida de progresso tecnológico, com cada lançamento acompanhado por exclamações do tipo "finalmente, é indistinguível" ou por zombaria do tipo "ainda obviamente falso". Isso é especialmente verdadeiro para produções com atores reais, como se, contanto que seja realista o suficiente, o público o aceitasse.
"Paper Cellphone" oferece um contraexemplo. Mesmo sabendo que foi gerado por IA, o público ainda se comoveu e admitiu prontamente ter se emocionado. O bug no celular não foi "perdoado" — sequer entrou na avaliação do público. O que importava era algo completamente diferente: um menino, alheio à morte, juntou 15 yuans para queimar um celular em homenagem à sua falecida avó.
Este curta-metragem de inteligência artificial, que acumulou mais de 40 milhões de visualizações online e foi republicado pela CCTV e pelo Diário do Povo, foi criado em três dias por dois jovens de Chaoshan. A diretora, Li Ting, nascida em 1998, deixou a área de gestão de produtos após cinco anos; seu parceiro, Yang Xuan, nascido na década de 1990, é diretor de publicidade com formação em história da arte. Com a ajuda do Keling AI 3.0 Omni, tudo no filme — iluminação, personagens, cenas e expressões — foi gerado inteiramente a partir de modelos, com exceção do telefone de papelão usado como adereço.

Quando um curta-metragem sem um único segundo de realidade física desencadeia uma resposta emocional genuína, o que significa a palavra "real"?
Três dias, duas pessoas, uma modelo
A história começa com uma lembrança sobre as estações do ano.
É o Festival de Qingming, e Li Ting e Yang Xuan são ambos de Chaoshan. Queimar dinheiro de papel, prestar homenagem aos ancestrais e "enviar coisas" aos parentes falecidos são hábitos enraizados neles desde a infância. Yang Xuan se lembra de subir a montanha com sua família quando criança e ver botijões de gás de papel, casas e carros se enrolando e ficando pretos no fogo. "Fazer essas coisas com papel reflete precisamente as emoções introvertidas e reprimidas do povo chinês", disse ele.
O conceito de "celulares de papel" surgiu dessas memórias, mas o que o transformou em uma história foi uma série de escolhas de design narrativo.
No início da história, o lojista tentou apaziguar a criança, que só tinha 15 yuans, desenhando um celular falso. Foi só depois de descobrir que a criança era órfã e que seu último parente vivo havia falecido que ele se levantou e correu atrás dela.

Depois de encontrar a criança, o chefe não disse imediatamente "Eu te ajudo", mas sim que o telefone de papel tinha "sinal ruim" e lhe deu um novo.
Li Ting disse que essas desculpas desajeitadas surgiram de suas reflexões após se colocar no papel: "Como essa pessoa reagiria nessa situação?". Ela lembrou de quando era criança e perguntou aos mais velhos: "O que é a morte?", e eles fizeram uma pausa antes de responder. Ela incluiu esse momento de "pausa" no curta-metragem — a breve hesitação de um pedestre ao ouvir a pergunta do menino.
Antes de sair correndo atrás de alguém, o dono da loja baixava a porta de enrolar até a metade, sinalizando "estou temporariamente fora, já volto".

Embora seja um curta-metragem de IA, o processo de roteirização foi inteiramente humano. Yang Xuan enfatizou repetidamente na entrevista que os iniciantes devem escrever seus próprios roteiros, "apenas aqueles baseados em experiências reais podem comover as pessoas".
Após a finalização do roteiro, iniciou-se a fase de geração por IA. Foi utilizado o KELING 3.0 Omni, que se baseia principalmente em três funções: referência de múltiplas imagens (para garantir a consistência na aparência dos personagens), geração simultânea de áudio e vídeo (para gerar imagens e som de forma síncrona) e sincronização de timbre nos principais arquivos de áudio (para garantir que a voz do personagem seja consistente ao longo do filme).
O fluxo de trabalho começa com o design do personagem. Primeiro, cria-se a imagem, insere-se num modelo e deixa-se que ele expresse livremente o seu diálogo; em seguida, seleciona-se a voz mais adequada e fixa-se nela.

Li Ting afirmou que a etapa mais facilmente negligenciada nesse processo é "pensar antes de escrever as palavras-chave". "Muitas pessoas acham que as palavras-chave devem ser longas e complicadas, mas o mais importante é a precisão — o que exatamente você quer?"
Precisão é uma palavra recorrente em seu fluxo de trabalho. Para entender a lógica subjacente a diferentes estilos visuais, Yang Xuan conduziu um experimento: usando o mesmo modelo para gerar 10 texturas cinematográficas completamente diferentes — japonesa, no estilo de Jia Zhangke e moderna. "Não se trata de escrever 'estilo Yang Dechang' nos prompts", disse ele, "mas principalmente de analisar por que cada estilo funciona, de onde vem o efeito branco suave do estilo japonês? Como a textura da neve afeta a atmosfera geral da imagem?"

A textura semelhante a um filme do "Paper Cellphone" é produto dessa metodologia. Curiosamente, eles nunca usaram palavras como "grão" ou "filme" em seus materiais promocionais. Yang Xuan disse que a textura é sutil e natural.
"A história se passa naquela época, com cenas como uma papelaria banhada pela luz quente da tarde e vitrines de vidro antiquadas. Quando esses elementos são colocados ali, a textura surge naturalmente." Ele afirmou francamente que gosta da linguagem cinematográfica e do estilo narrativo da geração de Edward Yang, Ang Lee e Hou Hsiao-hsien, mas não se trata de uma imitação deliberada. Em vez disso, "Ao pensar nessa história, você naturalmente pensará naquela época."
A cena final, em plano sequência dentro do carro, é a parte mais aclamada de todo o filme. Por pouco mais de um minuto, o menino permanece sentado no carro, com a paisagem do lado de fora da janela passando rapidamente, sem diálogos, apenas com música de fundo. Li Ting explicou que as pistas sonoras descrevem principalmente a paisagem do lado de fora da janela, a evolução emocional do menino e os solavancos dentro do carro — para simular uma viagem de carro real.

A cena tinha inicialmente apenas 30 segundos de duração. Depois de assisti-la, Yang Xuan sentiu que poderia ser mais longa, então a estendeu gradualmente. "Quando um ente querido falece, o luto pode não vir imediatamente", disse ele. "Você pode nem perceber os sons ao seu redor. Você sente zumbido no ouvido por um tempo e, de repente, emoções inexplicáveis surgem como uma onda."
Este design não foi derivado de análises de dados ou dos resultados de testes A/B; foi uma escolha feita por eles como criadores, guiada por suas memórias e emoções pessoais.
Duas pessoas, três dias, ou até menos com compressão extrema. Como supercriadores na plataforma Keling, eles contam com suporte de poder computacional, então os custos de produção são baixos. Mas Li Ting enfatizou um ponto: "Depois que a IA reduz os custos de produção, o valor dos humanos se torna ainda mais evidente. O custo deve incluir o planejamento criativo do diretor e do roteirista — o valor apresentado por esses elementos intangíveis é fundamental."
Se você acredita nos personagens, você acredita na história.
Durante a entrevista, fiz uma pergunta hipotética: se essa história fosse filmada com pessoas reais, as emoções transmitidas seriam diferentes?
Yang Xuan foi muito franco: "É extremamente difícil filmar algo assim. Os atores mirins conseguem entregar o que precisamos? O diretor consegue dirigi-los de forma eficaz? E a cinematografia? São tantos aspectos envolvidos."
A resposta de Li Ting foi mais pragmática: "As filmagens com atores reais testam mais a compreensão da história e as habilidades de atuação dos atores, enquanto a produção com IA testa mais os diretores. Todo o planejamento e design são controlados pelo diretor." Ela disse que, para criadores como ela, que nunca tiveram experiência com filmagens com atores reais, as ferramentas de IA proporcionaram um nível de liberdade que não existia antes.

Essas respostas parecem defender a IA, mas se você as combinar com outro conjunto de respostas, encontrará um panorama mais interessante.
Quando perguntei: "O que você acha do comentário de que 'a IA mais desumana criou o curta-metragem mais humano'?", Yang Xuan disse o seguinte:
"Assim como na pintura, a tinta é estática e as atuações dos atores também são artificiais. Mas por que isso consegue emocionar as pessoas? Porque os criadores são sinceros. Acreditamos em nossos personagens e em nossas histórias. Ao criar os roteiros, muito realismo foi transmitido de forma sutil."

No cinema e na televisão tradicionais, a fonte do "realismo" é basicamente a seguinte: os roteiristas criam personagens verossímeis, os atores "vivenciam" esses personagens com seus corpos e emoções, e a cinematografia e a edição capturam e amplificam esses momentos irrepetíveis.
A premissa fundamental dessa abordagem é a necessidade de um corpo real como intermediário. A performance é "falsa" (representação de um papel) em um nível narrativo, mas o ato de atuar em si é real: memória muscular, envolvimento emocional, microexpressões, ritmo respiratório — tudo isso provém de um corpo vivo.
As imagens geradas por IA eliminaram esse intermediário; não havia atores, nem corpos que tivessem "vivenciado" os personagens, mas Paper Cellphone ainda parecia "real".
Uma possível explicação é que grande parte do "realismo" percebido nos corpos dos atores, na verdade, deriva da capacidade de observação dos diretores e roteiristas. Quando Li Ting se entrega ao papel e pensa em "como ele reagirá", ela recorre às suas memórias de infância, às suas observações das pessoas e à sua intuição sobre os ritmos emocionais.
Esses elementos são passados ao modelo por meio de instruções, o modelo gera recursos visuais e os recursos visuais evocam ressonância no público. O caminho mudou, mas o ponto de partida e o destino permanecem os mesmos: a experiência humana que leva à emoção humana .

Isso também explica por que a parceria entre os dois é tão eficaz. Yang Xuan disse que Li Ting é responsável pelas "cenas imaginadas", enquanto ele é responsável pela "narrativa". Quando pessoas diferentes com experiências de vida diferentes se encontram, surgem o que ele chama de "anti-tramas" — detalhes que não estavam no roteiro, mas foram mantidos por serem suficientemente reais, detalhes que a IA não consegue gerar sozinha.
Na entrevista, Yang Xuan mencionou a geração da Nova Onda Taiwanesa, incluindo Edward Yang, Hou Hsiao-hsien e Ang Lee. Esses diretores definiram "verdade" como o foco na honestidade em um nível emocional. Hou Hsiao-hsien, ao realizar *Os Meninos de Fengkuei*, utilizou muitos atores não profissionais, buscando esse tipo de autenticidade "espontânea". Ele não queria atuações precisas, mas sim as reações naturais das pessoas em situações reais.

Os criadores de IA estão herdando essa lógica por meio de diferentes mídias. O intermediário mudou do corpo do ator para os parâmetros do modelo, mas o que o diretor injeta permanece inalterado: a observação das pessoas, a intuição sobre as emoções e, como Yang Xuan enfatiza repetidamente, a "sinceridade".
A perfeição é inimiga da criação.
Perto do final da entrevista, fiz uma pergunta hipotética: se no futuro a IA pudesse gerar obras perfeitas com um único clique — sem bugs, sem erros e com cada fotograma impecável — você ficaria mais satisfeito ou sentiria que faltava algo?
A resposta de Li Ting foi direta: "Perfeição em excesso nem sempre é bom."
Ela deu o exemplo do personagem do chefe. No início, ele era displicente com o menino, e suas desculpas depois de correr atrás dele eram ridiculamente desajeitadas. Mas foi justamente por causa dessa imperfeição que o público o considerou tridimensional e real.

Quanto ao problema com o telefone, Li Ting acredita que seja uma falha menor que não prejudica a qualidade geral. Ela escolheu essa versão não por causa das especificações técnicas, mas por causa "dos movimentos e expressões sutis dos personagens e da fluidez das transições de câmera — essa é a sensação de uma atuação verdadeiramente autêntica que eu queria".
"Quanto mais simples a ferramenta, mais fácil é se expressar." A resposta de Yang Xuan foi além. "Você precisa ser mais claro sobre o que quer e o que gosta para expressar melhor as coisas de uma maneira mais simples."
Essa é exatamente a questão que vem sendo discutida repetidamente: à medida que as ferramentas de IA continuam a evoluir e a fricção tecnológica diminui, qual é exatamente a principal vantagem competitiva dos criadores?
Na entrevista, Yang Xuan identificou três elementos humanos essenciais: roteiro, direção e direção de arte. Embora "saber usar as ferramentas" seja fundamental, essas ferramentas se tornarão cada vez mais convenientes e, portanto, não constituirão uma vantagem competitiva.
É mais uma questão de habilidade: saber a hora de parar.
Quando você estiver emocionalmente envolvido, pare de fazer alterações; quando os bugs, na verdade, melhorarem o trabalho, não os corrija; quando deixar espaços em branco for mais eficaz do que preenchê-los, não exagere.
Esse tipo de julgamento não vem de modelos, mas da experiência e intuição humanas. Quanto mais poderosa a ferramenta, mais rara ela se torna.
Assim como o microfone que sumiu, foi um erro técnico. Mas, do ponto de vista da comunicação, conseguiu algo inesperado: depois de confirmar ao público que "isso foi feito por IA", fez com que eles se concentrassem mais na história em si.

Esse "bug" tornou-se uma espécie de passe livre, livrando os espectadores do dilema "será que isso é real?", porque a resposta já estava clara. Eles então se voltaram para uma questão mais importante: será que essa história é boa?
A resposta é 40 milhões de visualizações e lágrimas derramadas por espectadores dentro e fora da sala de cinema.
A ferramenta mais desumana produziu o curta-metragem mais humano. Talvez uma afirmação mais precisa seja: as ferramentas nunca foram humanas. O ser humano é sempre quem usa a ferramenta.
#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

