Em dez anos, a imagem móvel chegou ao “estuário”.

No inverno de 1975, Steven Sasson, um engenheiro do Centro de Pesquisa em Eletrônica Aplicada da Kodak, improvisou uma máquina estranha em laboratório.

Pesando 3,6 kg e com apenas 10.000 pixels, após pressionar o obturador, é preciso ouvir o zumbido abafado da máquina e esperar longos 23 segundos antes que uma fotografia em preto e branco possa ser gravada em uma fita cassete Philips.

Diante da baixíssima contagem de pixels e da velocidade de armazenamento de dados, Steven Sasson acredita que levará mais 15 a 20 anos para que essa tecnologia possa realmente competir com o filme fotográfico.

Nas duas décadas seguintes, a indústria de imagem passou por uma transformação drástica. Os meios de imagem foram rapidamente digitalizados e, na primeira década do século XXI, exatamente como Steven Sasson havia previsto, a era do filme finalmente chegou ao fim. Mas, naquela época, as câmeras ainda eram um "bem pesado nas casas" e as pessoas não podiam tirar fotos à vontade, muito menos gravar vídeos.

Até que chegou a era da imagem móvel.

O recém-lançado vivo X300 Ultra, equipado com o Snapdragon 8 Ultra de quinta geração, possui especificações impressionantes: vídeo 4K 120fps 10-bit Log em todas as distâncias focais.

Olhando para trás agora, percebemos que a humanidade passou cinquenta anos construindo um canal digital, permitindo que todos viajassem por ele.

Expansão subjacente, consumindo luz e sombra.

A água corrente neste canal é essencialmente uma quantidade enorme de "sinais de imagem densos".

Este termo aparentemente acadêmico e um tanto distante está, na verdade, intimamente relacionado a todos aqueles que levantam o celular para pressionar o botão do obturador.

Ao relembrar os primeiros smartphones, você se lembrará de imagens como estas: áreas superexpostas, sombras estouradas, faixas de cor, baixas taxas de quadros e ruído persistente.

▲ Imagem noturna tirada com um iPhone 4s, cortesia de @PhoneArena

Os desastres visuais são essencialmente causados ​​pelo processador de sinal de imagem subjacente (o ISP com o qual estamos mais familiarizados) ser incapaz de "engolir" os sinais massivos.

Naquela época, os celulares tinham apenas precisão de quantização de 8 bits. Quando a proporção de luz ambiente excedia a capacidade do sensor, o nível nas áreas de alta luminosidade transbordava irreversivelmente, transformando-se em uma imagem completamente branca; enquanto as áreas escuras do sinal eram grosseiramente suavizadas pelo processador de imagem, resultando em uma imagem preta e ruidosa. Além disso, a perda física de informação era irreversível e não podia ser recuperada por nenhum software de pós-processamento.

Esse problema persiste mais do que imaginávamos.

Os fabricantes tentaram resolver esse problema aumentando a área do sensor em troca de uma maior faixa dinâmica. No entanto, nas estruturas internas extremamente restritas de hoje, o simples aumento das dimensões físicas atingiu seu limite, tornando o processamento de sinal de internet (ISP) de backend cada vez mais importante.

▲ O espaço interno do telefone foi dividido entre o módulo da câmera e a bateria. Imagem de @Notebookcheck

Durante muito tempo, devido a limitações físicas, o poder de processamento dos telefones celulares permaneceu no estágio de ISP duplo de 14 bits. À medida que a quantidade de informações capturadas pelos sensores aumenta cada vez mais, o fluxo de dados do ISP precisa ser expandido proporcionalmente.

Desde a introdução de um ISP triplo de 14 bits no Snapdragon 888 em 2020 para lidar com dados simultâneos, até a iteração posterior do Spectra ISP de 18 bits, as plataformas móveis expandiram a largura de banda de processamento para dados de imagem em 4096 vezes. Agora, para lidar com sinais de imagem mais densos, o Snapdragon 8 Ultra Qualcomm Spectra ISP de quinta geração no vivo X300 Ultra entrou naturalmente na era do ISP triplo de IA de 20 bits.

Não subestime esses meros 2 bits. No nível digital, qualquer alteração nessa unidade tem um efeito exponencial de tsunami: o nível de quantização de uma cor de canal único passou suavemente de 260.000 para 1.040.000, proporcionando quatro vezes a margem de alcance dinâmico para os dados subjacentes.

Aproveitando essa sólida base física, a vivo e a Qualcomm colaboraram na otimização aprofundada do pipeline de imagem subjacente.

Os resultados foram impressionantes: a X300 Ultra alcançou uma faixa dinâmica de 14EV em toda a distância focal.

Essa enorme quantidade de dados foi processada em duas especificações profissionais extremamente exigentes: o formato Log e o Dolby Vision.

No modo Log, o ISP triplo de IA de 20 bits é responsável por mapear os sinais lineares capturados pelo sensor em uma curva logarítmica em tempo real. Devido à precisão de amostragem aprimorada no nível subjacente, o telefone retém informações originais mais ricas, suprimindo efetivamente o banding de cores durante o pós-processamento e expandindo os limites do pós-processamento. Sob o padrão Dolby Vision, o poder de processamento se reflete na precisão do encapsulamento de metadados dinâmicos. Ele consegue alinhar com mais precisão as informações de brilho e contraste de cada quadro, permitindo que os níveis HDR de realces e sombras sejam apresentados fielmente.

Em termos de experiência prática, o efeito também é muito evidente: levamos a X300 Ultra para fotografar uma "aurora tropical". Graças à excelente faixa dinâmica e latitude do formato Log, registramos os barcos de pesca ao largo da ilha, iluminando o céu à meia-noite.

Após o pós-processamento e a restauração, o céu com gradiente apresenta transições suaves e naturais, sem qualquer formação de faixas de cor, e o desempenho na supressão de ruído é excelente.

Assim, as especificações de tolerância originalmente pertencentes à indústria cinematográfica e televisiva foram integradas aos chips de dispositivos móveis, criando um canal digital na camada fundamental. Pessoas comuns agora podem gravar vídeos com especificações mais altas e com flexibilidade na pós-produção a qualquer hora e em qualquer lugar usando seus celulares, abrindo assim mais possibilidades criativas.

Simultaneidade de múltiplas câmeras, zoom suave

Resolver a faixa dinâmica de uma única lente apenas completa a reconstrução de imagens estáticas.

No entanto, a essência do vídeo reside na continuidade da narrativa, o que traz à tona outro problema antigo dos vídeos em dispositivos móveis: a trepidação do zoom.

Ao gravar vídeos, muitas vezes precisamos usar o zoom para alterar a perspectiva. No entanto, ao girar o anel de zoom, a imagem frequentemente apresenta uma leve oscilação, e o balanço de branco e a cor podem sofrer alterações abruptas.

A qualidade narrativa das imagens foi imediatamente comprometida pela lentidão do hardware.

O problema reside no fato de as lentes dentro do telefone funcionarem independentemente. Elas variam em qualidade e são controladas por relógios independentes, e a estratégia tradicional de "inicialização a frio" do ISP só consegue alternar rapidamente durante o zoom. Uma vez que os registros de tempo estejam desalinhados, a perda de quadros e a distorção de cores tornam-se inevitáveis.

▲ Na fotografia profissional tradicional, o alinhamento da marcação de tempo precisa ser baseado no horário global.

Para obter funcionalidades de zoom e deslizamento suaves em dispositivos móveis, é necessário forçar a integração desses componentes de hardware independentes em um nível subjacente.

Por trás da conquista do vivo X300 Ultra em gravação de vídeo de alta especificação em todas as distâncias focais, o Snapdragon 8 Ultra de quinta geração usa dois mecanismos subjacentes interligados para integrar perfeitamente o hardware.

O ISP triplo de IA de 20 bits suporta uma enorme taxa de transferência de dados, permitindo que as três lentes mantenham um estado simultâneo de alta atividade em segundo plano. Mesmo quando apenas a câmera principal está sendo usada para gravar, os canais ISP das lentes ultra-angular e teleobjetiva já estão executando o algoritmo 3A (foco automático, exposição automática, balanço de branco automático) em segundo plano, prontos para serem usados ​​a qualquer momento.

Ao mesmo tempo, o Sistema de Sincronização de Múltiplas Câmeras (MSCC) da Qualcomm, presente na quinta geração do Snapdragon 8 Ultra, penetra no barramento de hardware de nível mais baixo, emitindo à força um "relógio global" unificado para essas lentes que originalmente operavam de forma independente.

Grande angular, ultra grande angular, teleobjetiva.

Independentemente da distância física ou da diferença na qualidade dos sensores, existe apenas um comando fundamental:

A exposição ocorre simultaneamente, dentro do mesmo microssegundo; os dados são lidos no mesmo instante.

A linha do tempo está completamente bloqueada.

Dois mecanismos funcionam simultaneamente para garantir uma transferência de dados suave entre diferentes sensores quando a câmera vivo X300 Ultra é usada para ampliar e reduzir o zoom entre as lentes, aliviando assim os problemas persistentes de perda de quadros e desvio do balanço de branco.

O campo da imagem profissional é como um rio com correntes subterrâneas; sem uma embarcação sólida e poderosa como suporte e uma equipe bem coordenada para colaboração, não se pode navegar em suas correntes.

Hoje, o poder computacional do chip subjacente está contido em um pequeno dispositivo, usando lógica digital para gerenciar a ordem física, permitindo que criadores sem financiamento ou equipe naveguem pelo mundo.

Codificação e decodificação, e poder computacional fluindo em ambas as direções.

Na área de processamento de imagens, existe há muito tempo um paradoxo contraintuitivo relacionado ao poder computacional:

Em geral, os processadores de câmeras não são considerados monstros de desempenho, mas conseguem lidar com quantidades enormes de dados de vídeo de altíssima qualidade. Nossos smartphones, equipados com SoCs poderosos e capazes de renderizar jogos exigentes com altas taxas de quadros, têm dificuldades ao gravar vídeos contínuos de alta performance.

Em última análise, o processador de uma câmera (ASIC) é projetado exclusivamente para processamento de imagens; enquanto um telefone celular, como um centro digital complexo, não possui muita capacidade de processamento disponível para processamento de imagens.

A capacidade computacional limitada obrigava os celulares mais antigos a fazer concessões em relação ao espaço de armazenamento, geralmente adotando formatos de compressão entre quadros (Long GOP), como H.264 ou H.265, que registravam apenas quadros-chave e informações de diferença. Essa abordagem comprimia bastante o tamanho do arquivo, mas também destruía completamente as informações espaciais físicas da imagem.

▲ Princípios de codificação e decodificação H.264, imagem de @ResearchGate

Sem a confiança adquirida na pós-produção, todas as velocidades iniciais do obturador não passam de uma questão de sorte.

Assim que essa filmagem for importada para um software de edição para correção de cores secundária, mesmo um pequeno ajuste na curva de sombras ou realces revelará imediatamente grandes áreas de blocos de cores em mosaico e severas faixas de cor na imagem.

O espaço para correção de cores na pós-produção está completamente bloqueado, impossibilitando a implementação de ideias criativas ou a viabilização da criação.

Com o lançamento do vivo X300 Ultra, percepções antigas estão se tornando obsoletas, já que formatos profissionais como 4K 120fps Log agora estão disponíveis na palma da sua mão.

Além dos esforços contínuos do processador de imagem (ISP) triplo de 20 bits com IA, que trouxe o formato com alto espaço para pós-produção e possibilidades criativas, o codec também desempenhou um papel indispensável. No vivo X300 Ultra, a vivo e a Qualcomm colaboraram para torná-lo o primeiro smartphone na China a implementar a codificação APV 422.

O APV utiliza "compressão intraquadro" projetada especificamente para edição não linear (NLE), preservando de forma independente e completa as informações de profundidade de cor e brilho de cada quadro. Ao realizar a correção de cores de filmagens no formato APV 422 no DaVinci Resolve, a imagem demonstra uma resiliência notável. Ela suporta com eficácia os detalhes das sombras e as transições de realce ao lidar com operações baseadas em nós ou mapeamentos LUT complexos, reduzindo significativamente a pixelização e as faixas de cor que frequentemente ocorrem ao ajustar curvas em vídeos para dispositivos móveis.

Melhor ainda, ao mesmo tempo que oferece praticamente a mesma qualidade de imagem que o ProRes, padrão para cinema e televisão, o mecanismo de codificação subjacente do APV reduz ainda mais o tamanho do arquivo em cerca de 10%.

Em um cenário de preços de memória em alta, melhorar a eficiência da programação pode ajudar os criadores a economizar dinheiro, aumentando a produção.

A busca conjunta por desempenho e tecnologia de codecs criou um "contêiner digital" de alta especificação para este Grande Canal, transmitindo sinais de forma completa e fluida para o fluxo de trabalho de pós-produção, permitindo que os telefones celulares possuam um potencial criativo que não difere em nada do das câmeras de cinema digital profissionais em toda a cadeia de processamento.

Imagens de celulares chegam ao estuário.

Em 2014, a vivo lançou o Xshot, um celular com câmera de última geração que, juntamente com os modelos X Ultra-Thin e Xplay de tela grande, formou uma linha de produtos três em um.

Este telefone possui um sensor Sony de segunda geração com 13 megapixels, uma grande abertura de F1.8, estabilização ótica de imagem e um flash LED de dois tons. Outro recurso menos chamativo é o processador Snapdragon 801 do Xshot, que incorpora uma arquitetura ISP dupla para lidar com o atraso do obturador e fornecer suporte computacional para calcular os ângulos de compensação da estabilização ótica de imagem (OIS), frequentemente utilizada.

▲ vivo Xshot, imagem de @vivo

O protótipo de engenharia que utiliza o poder computacional subjacente para auxiliar na estabilização física de imagem evoluiu para o recurso de estabilização de imagem de distância focal completa presente no Snapdragon 8 Ultra de quinta geração, que utiliza OIS e EIS para se comunicar por meio de uma troca de dados de altíssima frequência.

Um eco muito inteligente.

Na década seguinte, os recursos de imagem dos telefones celulares avançaram a uma velocidade vertiginosa, gerando dados que fluíam como uma torrente. Os canais que transportavam essa informação crescente também continuaram a se expandir.

Na época da X100 Ultra, quando a indústria pela primeira vez conseguiu colocar uma lente telefoto de 200 megapixels em um corpo compacto, a velocidade instantânea do obturador causava enorme congestionamento de dados. A Qualcomm introduziu um ISP Cognitivo, que oferece segmentação semântica em tempo real no nível do hardware e redundância computacional na camada subjacente, de modo que a alta taxa de transferência de dados por pixel não era mais acompanhada por longos períodos de inatividade no processamento, resultando em um processamento limpo e eficiente.

Com o X200 Ultra, que estabeleceu uma base sólida para imagens profissionais, o desafio passou a ser a gravação de vídeo 4K em condições de baixa luminosidade, ainda mais exigente. Diante de ambientes com baixíssimas relações sinal-ruído, e utilizando a plataforma de computação heterogênea no núcleo do Snapdragon, a arquitetura de imagem passou por uma profunda transição do tradicional ISP (Processador de Sinal de Imagem) para a NPU (Unidade de Processamento Neural). Ao direcionar o poder de computação da IA ​​para o domínio RAW para redução de ruído em nível de quadro, o telefone finalmente superou as limitações de captação de luz em vídeos noturnos devido ao tamanho reduzido do sensor, alcançando gravações dinâmicas nítidas e utilizáveis.

Toda exploração radical de módulos e sensores front-end impõe exigências rigorosas às capacidades de processamento subjacentes.

Agora, com a X300 Ultra, este projeto de longa data de exigir maior alcance dinâmico desde a sua concepção finalmente atingiu os limites dos padrões de imagem de nível industrial.

Olhando para trás, o rio de imagens em movimento, da "captura" à "captura bem", serpenteia e se estende por um longo tempo; olhando para frente, o vasto oceano, da "gravação" à "criação", está bem diante de nossos olhos.

À medida que o fluxo de dados aumenta e converge, o leito do rio construído pelo Snapdragon se alarga.

As imagens em movimento finalmente chegaram ao estuário neste momento.

Me proporcione uma viagem maravilhosa

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.