Entrevista com Luo Jun, Diretor de Algoritmos de Imagem da OPPO: Uma boa fotografia computacional consiste em fazer você esquecer que está falando de fotografia computacional.

O próximo OPPO Find X9 Ultra substituirá todas as sete lentes – a câmera principal, a lente grande angular, duas lentes teleobjetivas, uma lente colorida Danxia, a câmera frontal e um teleconversor…
Nenhuma delas era uma herança de família.

Em seus mais de 20 anos de operação, a OPPO raramente reformulou completamente o hardware de imagem de uma única geração de produtos. Luo Jun disse:
Parece que esse tipo de atualização revolucionária nunca foi feito antes.
Luo Jun é o diretor de algoritmos de imagem da OPPO, tendo liderado o desenvolvimento de algoritmos de imagem em quatro gerações de produtos, do Find X6 Pro ao Find X9 Ultra, bem como o "Modo Master", que se tornou uma marca registrada da tecnologia de imagem da OPPO.
Na véspera do lançamento do Find X9 Ultra, o iFanr entrevistou Luo Jun. Conversamos sobre o recém-projetado "Modo Master", o celular ainda não lançado e o passado, presente e futuro da tecnologia de imagem da OPPO.
Estamos tentando encontrar uma resposta: O que é o "realismo" da fotografia computacional?

Modo Mestre: Usando Algoritmos para Combater Algoritmos
O que é o "Modo Mestre"?
Em termos simples, trata-se de um fluxo de processamento de imagem nas câmeras OPPO que é independente do modo de disparo normal.

O modo Normal visa brilho, cores agradáveis e boa aparência instantânea — o sistema aumenta automaticamente o brilho, aprimora a saturação de cores e realiza forte nitidez e redução de ruído. Essas operações tornam as fotos atraentes à primeira vista, mas ao custo de deixá-las com uma aparência um tanto artificialmente "refinada".
Essa é a controvérsia mais comum na indústria de imagens móveis atualmente: "orientada por algoritmos".
O "sabor algorítmico" não é um problema de uma empresa específica, mas sim um subproduto estrutural do desenvolvimento da fotografia computacional até o seu estado atual.
À medida que os telefones celulares utilizam algoritmos cada vez mais sofisticados para compensar as limitações físicas de seus corpos pequenos — síntese de múltiplos quadros, redução de ruído por IA, empilhamento HDR, reconstrução de super-resolução — cada etapa de processamento adiciona traços computacionais à foto: as sombras são clareadas, os realces são suprimidos, o ruído é suavizado para se assemelhar a uma pintura a óleo e a nitidez cria mais "detalhes".
O resultado é que tudo parece bom, mas nada parece ter pureza.

O "Modo Mestre" adota uma abordagem diferente.
Ele processa imagens com mapeamento de tons mais contido, uma estratégia de nitidez mais natural e uma lógica tonal mais próxima à de uma câmera óptica. Preserva as sombras onde devem ser escuras e mantém a granulação onde há ruído, não buscando a "beleza branca e brilhante" em todas as fotos, mas sim a textura realista da imagem.
Existe uma regra não escrita na indústria de telefones celulares: se um recurso for controverso por duas gerações consecutivas, é muito provável que seja descartado na terceira geração.
"Modo Mestre" incorporava perfeitamente essa imagem.
Durante a era do Find X7 Ultra, as opiniões dos usuários sobre ele eram polarizadas. Aqueles que gostavam diziam que tinha uma sensação "parecida com a de uma câmera" e uma aparência "sofisticada"; aqueles que não gostavam diziam que a imagem era "escura" e "sem nitidez". Cheguei a presenciar uma situação em que, depois de enviar uma foto tirada no Modo Master para um amigo, a primeira reação dele foi: "Você tirou essa foto desfocada?"
Mas o Modo Mestre sobreviveu.
Transformou-se de uma ferramenta de nicho para usuários profissionais em um modo de fotografia que até mesmo estudantes universitários escolhem ativamente.

O que é ainda mais intrigante é que os usuários preferem o Modo Mestre praticamente pelo mesmo motivo : ele não tem um aspecto algorítmico.
Na verdade, o Modo Mestre executa o pipeline de algoritmos mais avançado e computacionalmente intensivo em todo o sistema de imagem.
Essa sensação de contraste é um microcosmo das atuais capacidades de imagem da OPPO e também reflete a completa compreensão que Luo Jun tem da fotografia computacional ao longo da última década.
Os mestres do cinema tradicional criaram o modo mestre.
Luo Jun se formou em algoritmos de imagem e ingressou na Sony por meio de recrutamento universitário.
No início dos anos 2000, a indústria de imagem japonesa era o auge da indústria global de imagem. Ele trabalhou com filmadoras Handycam, câmeras SLR Alpha e testemunhou o desenvolvimento da série NEX de câmeras sem espelho desde o início.
Mas o que realmente o fez perceber a virada na indústria foi a Sony RX100.
Na época, custava mais de 200.000 ienes, enquanto uma câmera compacta típica custava entre 50.000 e 60.000 ienes. Esta foi vendida por mais de 10.000 yuans assim que foi lançada, mas era de fato bastante inovadora.
A Sony conseguiu inserir um sensor de uma polegada e uma lente Zeiss em um corpo do tamanho de um bolso de camisa. Isso marcou o início da tendência de miniaturização na área de imagem. Olhando para trás hoje, a RX100 e, posteriormente, os celulares seguiram o mesmo caminho: maximizar a qualidade da imagem em um espaço físico extremamente limitado.

No entanto, os telefones celulares evoluíram muito além disso.
Durante seus mais de dez anos na Sony, todos os algoritmos de imagem de Luo Jun rodavam em chips ASIC dedicados. Um único chip era desenvolvido a cada dois anos, abrangendo múltiplas linhas de produtos, priorizando estabilidade e confiabilidade.
Mas ele gradualmente percebeu um desalinhamento fundamental:
Os algoritmos são iterados rapidamente, mas os ASICs são lançados a cada dois anos. O poder computacional e a arquitetura em geral são um tanto incompatíveis com a abordagem de pesquisa em fotografia computacional e IA — é muito lento.
Mais tarde, ele descobriu a NPU — uma unidade de processamento projetada especificamente para lidar com cálculos de redes neurais. Os algoritmos podiam ser executados na camada de software, aumentando drasticamente a velocidade de iteração.
No entanto, a melhor plataforma para uma NPU não é uma câmera, mas sim um telefone celular.
No início de 2017, Luo Jun viu a OPPO demonstrar sua tecnologia de teleobjetiva periscópica na MWC — um zoom híbrido de 10x, algo inédito na indústria de telefonia móvel até então. Ele reconheceu imediatamente o potencial da empresa e decidiu se juntar à OPPO.

Curiosamente, dez anos depois, a Find X9 Ultra, que ele liderou o projeto, apresenta uma lente teleobjetiva óptica de 10x ainda melhor, mas essa é outra história.
Essa transição da imagem tradicional para a imagem móvel determinou a lógica subjacente ao seu Modo Mestre. Muitas pessoas acham que o Modo Mestre "carece de feedback algorítmico, assemelhando-se à saída direta da câmera", um comentário que Luo Jun considerou interessante.
As câmeras profissionais também possuem algoritmos, e seus fluxos de processamento de imagem (ISP) são bastante complexos, implementados inteiramente por meio de chips. No entanto, o efeito é muito semelhante ao nosso Modo Mestre, de modo que o ponto de vista do usuário passa a ser: "Consigo obter um efeito semelhante ao de uma câmera usando os algoritmos do meu celular."
Na visão dele, a ideia de que "as câmeras não têm algoritmos" é um equívoco. Os algoritmos da câmera estão simplesmente embutidos no chip, invisíveis para o usuário.
O design do Modo Mestre parte dessa compreensão. O objetivo nunca foi "remover o algoritmo", mas sim fazer com que o algoritmo funcione como o ISP de uma câmera profissional — realizando muito trabalho sem que você perceba.

Internamente, a OPPO chama isso de "usar computação para computar" .
Luo Jun afirmou que, se o objetivo é "tornar o algoritmo invisível", não é possível buscar melhorias em um único parâmetro. É necessário um conjunto sistemático de padrões para definir o que significa "bom".
Ele resumiu esse padrão em quatro palavras: fiel à vida.
Três anos para reformular a área de Imagem da OPPO.
No final de 2021, Luo Jun foi transferido de volta do Japão para a China para assumir o controle total da direção de iteração dos algoritmos de imagem da OPPO.
Para todos os fabricantes de telefones celulares, a transição para algoritmos de imagem desenvolvidos internamente é uma decisão que envolve alto investimento a longo prazo, mas baixo retorno a curto prazo.
No entanto, para fazer do processamento de imagem — e não apenas do embelezamento — uma vantagem competitiva fundamental dos celulares topo de linha da OPPO, Luo Jun reorganizou uma equipe de centenas de pessoas que trabalhavam em algoritmos de imagem.
"Reprodução realista" é um conceito relativamente abstrato: que tipo de imagens podem ser consideradas realistas e que métodos devem ser usados para reproduzi-las?
Luo Jun divide o processo em três dimensões específicas : luz e sombra, detalhes e cor. Ele tem um plano de três anos em mente, com a esperança de reconstruir as capacidades de imagem da OPPO com três gerações de produtos.
O Find X6 Pro representou um ponto de virada para os celulares com foco em fotografia sob a filosofia de Luo Jun, pois abordou principalmente a questão da luz e da sombra.

Em entrevista ao iFanr, Cheng Zhuo, Diretor de Cognição de Imagem da OPPO, afirmou que o objetivo da série Find X6 é estabelecer "relações tonais corretas", corrigindo curvas de luz e sombra distorcidas.
Esta geração da Find apresenta a única lente teleobjetiva com sensor grande do mercado na época — um sensor CMOS de 1/1,56 polegadas com uma lente equivalente a 70 mm, e é combinada com um novíssimo mecanismo de imagem Super Light and Shadow.
Este sistema permite, pela primeira vez, que os telefones celulares calibrem as informações de brilho em nível de pixel e calculem as relações de luz e sombra entre o objeto, a luz e o ambiente. Luo Jun disse:
Brilhante, mas não ofuscante; escuro, mas não totalmente escuro – esses são os nossos requisitos básicos para luz e sombra.
Luo Jun também apresentou um modo para usuários profissionais que poderia utilizar plenamente os recursos de imagem dos telefones celulares no sistema de imagem da OPPO, que eles chamaram de "Modo Profissional Hasselblad" — este foi o protótipo do "Modo Master".
Em seguida, a equipe de Luo Jun precisava tratar dos detalhes.
O Find X7 Ultra apresenta o primeiro sistema de câmera principal quádrupla com periscópio duplo do setor, adicionando uma lente teleobjetiva que suporta zoom óptico de 6x.

O aumento da distância focal não se resume apenas a "fotografar mais longe". Na visão de Luo Jun, tem um significado mais fundamental:
Com distâncias focais maiores, há mais pontos de referência. É possível registrar o mundo a partir de diferentes perspectivas, e o sistema consegue reconstruir informações mais completas.
Quadro de referência — este é o conceito central que Luo Jun utiliza para compreender a "reprodução realista".
A realidade não é um padrão objetivo absoluto; ela depende do que você usa como referência. O visor da câmera é um ponto de referência, o que o olho humano vê é outro, e a "boa foto" imaginada pelo usuário é mais um.
Quanto mais distâncias focais e detalhes um sistema captura, mais completas são as informações de referência que ele obtém e mais próximo ele chega da "verdade" na mente do usuário.
O Find X7 Ultra aprimora ainda mais a qualidade da luz e da sombra, especialmente nos tons médios.

Em fotos do dia a dia, a maior parte das informações de luz e sombra se concentra na área dos tons médios — a zona de transição entre as partes mais claras e mais escuras. Se os tons médios forem grosseiros, a foto perde o realismo.
Foi também nessa geração de sistemas de imagem que a OPPO lançou oficialmente o "Modo Mestre". Na visão de Luo Jun, o Modo Mestre não é exclusivo para fotógrafos, mas sim devolve ao usuário o poder de ajustar a câmera – assim como as alavancas e os botões de uma câmera.
No entanto, o Modo Mestre de primeira geração tinha capacidades de generalização limitadas e compatibilidade insuficiente com cenários, resultando em avaliações mistas dos usuários. Algumas pessoas adoraram, enquanto muitas outras não conseguiram entender como funcionava.
Para Luo Jun, os problemas técnicos sempre podem ser resolvidos, mas defender e comunicar suas ideias é um grande desafio.
O motivo pelo qual o Modo Mestre conseguiu persistir talvez seja porque não fizemos concessões.
A iluminação e os detalhes estão presentes, mas a cor é o último ponto fraco.
A fotografia computacional depende muito de estatísticas. Em condições de iluminação complexas, o balanço de branco impreciso, as alterações no tom de pele e a distorção de cores ambiental são limitações inerentes aos métodos estatísticos.

O Find X8 Ultra apresenta uma nova lente — a Danxia Original Color Lens — dedicada à detecção local da temperatura de cor. Ela consegue identificar a distribuição da temperatura de cor em diferentes áreas da imagem, distinguir entre fontes de luz naturais e artificiais e reproduzir tons de pele e cores ambientes de forma independente.
O mapeamento de cores envolve essencialmente duas coisas: balanço de branco e mapeamento de cores. O balanço de branco é um método estatístico e, inerentemente, impreciso em alguns cenários. Com as formações geológicas de Danxia, como elas contêm informações absolutas, existe a possibilidade de corrigir desvios em cenas com cores que interferem umas nas outras.
O papel do Danxia não é melhorar a aparência das cores, mas sim fornecer um ponto de ancoragem físico para o processo de cálculo de cores — um parâmetro de referência objetivo que não depende de palpites estatísticos.
Veja, é outro ponto de vista.
Com o Find X8 Ultra, outra integração tecnológica que muitas vezes passa despercebida foi concluída: os algoritmos de processamento para o Modo Master e o Modo Photo no domínio RAW foram unificados.
As imagens RAW produzidas pelos dois modos são idênticas; a diferença reside apenas no processamento interno — o modo Foto utiliza um mapeamento de tons mais brilhante e agradável, enquanto o modo Master adota uma abordagem mais contida em relação à iluminação e à nitidez.

Isso significa que o "Modo Mestre" deixou de ser uma ramificação funcional independente; suas capacidades subjacentes tornaram-se o núcleo de todo o sistema de imagem.
Na visão de Luo Jun, com a geração Find X8 Ultra, sua visão original finalmente se concretizou: luz, sombra, detalhes e cores, as três dimensões combinadas em uma forma completa pela primeira vez.
Assim, nasceu a nova marca de imagem da OPPO , "LUMO" .

Os critérios da equipe de Luo Jun para avaliar boas imagens foram se consolidando gradualmente após três gerações de iterações do produto — um dos parâmetros é a "continuidade" das fotografias .
As fotos tiradas com câmeras profissionais também têm ruído, mas o ruído e a granulação são contínuos e têm uma aparência agradável. Prefiro ter um pouco de ruído contínuo do que manchas de nitidez e desfoque na imagem.
Esses padrões não surgiram repentinamente durante o desenvolvimento de uma determinada geração de produtos; eles se originaram dos princípios tradicionais de imagem enraizados em Luo Jun — relação sinal-ruído, continuidade e mapeamento de cores — apenas em um meio diferente, de câmeras a telefones celulares, da óptica tradicional à fotografia computacional.

À medida que novos algoritmos de processamento de imagens vão se consolidando, Luo Jun se depara com uma nova situação: o software já fez praticamente tudo o que podia. Os benefícios marginais da iteração de algoritmos estão diminuindo.
Qual o próximo passo?
Encontre o X9 Ultra: Ecos de uma Década
A resposta é fazer de novo.
Luo Jun divide o desenvolvimento da tecnologia de imagem para telefones celulares em três estágios:
A primeira fase começou por volta de 2015, tendo como foco principal a miniaturização de dispositivos — a inclusão de sensores grandes em telefones celulares, empilhando-os de 1/3 de polegada até uma polegada;
A segunda fase começou por volta de 2021, quando as capacidades algorítmicas da IA e da fotografia computacional melhoraram, permitindo a criação de fotos de qualidade razoável mesmo sem um grande sensor de 1 polegada, por meio de aprimoramento algorítmico.

A terceira etapa começa agora:
Não se pode depender apenas de componentes ou algoritmos. É necessária uma combinação de hardware e software, inovação de ponta a ponta, para ter alguma chance de impulsionar os resultados.
O Find X9 Ultra é o produto desta terceira etapa — na qual a equipe de imagem da OPPO chegou ao ponto de substituir todas as sete lentes.
A câmera principal foi atualizada, passando de um sensor de 50 megapixels de 1 polegada para um sensor de 200 megapixels de 1/1,2 polegada. A lente grande angular foi atualizada de um sensor de 1/2,5 polegada para um sensor de 1/1,95 polegada. A primeira lente teleobjetiva foi substituída por um sensor maior, e a segunda lente teleobjetiva teve seu zoom óptico ampliado de 6x para 10x. A lente de reprodução de cores também foi aprimorada, a câmera frontal passou de 32 megapixels para 50 megapixels, e até mesmo o teleconversor foi atualizado de 200x para 300x.

A parte mais desafiadora do projeto foi, sem dúvida, a lente teleobjetiva com zoom óptico de 10x.
Luo Jun mostrou ao iFanr a lente teleobjetiva 10x da Find X9 Ultra — um sensor de 1/2,8 polegadas combinado com um grupo de lentes de 230 mm, mas todo o módulo tem apenas 29 mm de comprimento, sendo o comprimento do prisma cerca de metade de um dedo mindinho.

O que é ainda mais engenhoso é que este prisma não é uma peça única; ele é feito de três prismas unidos, com uma camada de ar selada no meio para eliminar a luz dispersa. Este processo é inédito na cadeia industrial — ninguém jamais cortou um prisma em três partes e as colou, ninguém jamais selou uma camada de ar no meio de um prisma e, claro, ninguém jamais construiu uma linha de produção como esta.
Portanto, tudo teve que ser recomeçado do zero.
Luo Jun posicionou esta lente telefoto de 10x como um "teleconversor de bolso" — o teleconversor do OPPO Find X9 Pro tem mais de dez centímetros de comprimento, enquanto o "teleconversor integrado" do X9 Ultra tem apenas 29 milímetros de comprimento, mas a qualidade da imagem é a mesma.
É por isso que você encontra todas as distâncias focais mais comuns, de 14 mm a 230 mm, no OPPO Find X9 Ultra, que é a clássica configuração da "santíssima trindade" das câmeras.
Em 2016, Luo Jun ficou impressionado com a demonstração da tecnologia de teleobjetiva periscópica 10x da OPPO no MWC e decidiu se juntar à empresa. Dez anos depois, ele e sua equipe incorporaram a melhor lente teleobjetiva óptica 10x até hoje em um celular — para Luo Jun, isso representa a realização de um sonho que se estende por uma década.

Com a adição da teleobjetiva de 10x, as possibilidades criativas no Modo Master se expandiram drasticamente: vídeos podem ser gravados com zoom de 10x ou 20x, e o modo retrato também ganhou um alcance de zoom de 10x — algo que Luo Jun não havia previsto três anos atrás.
Provavelmente nunca tinha pensado em fotografar essas coisas com zoom de 10x antes, mas de repente percebi que o espaço material ficou muito maior, o que é bastante interessante.
A nova geração do Modo Mestre também é mais fácil de usar e compartilhar.
Luo Jun disse que seu recurso favorito é a função de "compartilhamento de receitas". Os usuários podem ajustar os parâmetros de disparo e tirar fotos no modo mestre, e a receita será incorporada à marca d'água da foto.
Quando outras pessoas virem esta foto, poderão importar rapidamente a mesma receita e criar uma nova usando a função de notas com um clique do ColorOS — é muito conveniente para os usuários do Xiaohongshu que adoram compartilhar suas fotos.
A premissa para que esse recurso funcione é justamente que as três gerações anteriores tenham tornado o pipeline subjacente do Modo Mestre suficientemente estável. Se o pipeline não estiver maduro, a receita falhará em um cenário diferente após ser compartilhada.

Uma boa fotografia computacional é aquela em que você se esquece da fotografia computacional.
Na parte final da entrevista, abordamos uma questão um pouco abstrata: Qual é a "realidade" da fotografia computacional?
A resposta de Luo Jun consistiu em apenas duas frases:
Uma se chama "você vê o que você recebe" e a outra se chama "você recebe o que pensa".
O que você vê é o que você obtém — é isso que você vê na imagem. Mas ele acredita que a verdadeira chave está na segunda parte: os usuários têm expectativas sobre o que constitui uma boa foto, e o trabalho do sistema de imagem é chegar o mais perto possível dessas expectativas.
Ao tirar uma foto, você está visualizando o efeito que ela terá. Seja o que você vê ou o que você imagina, é o cérebro trabalhando no pós-processamento.
Antes mesmo de pressionar o obturador, você já tem uma imagem em mente. Essa imagem é o seu ponto de referência.

Isso me lembra da minha experiência quando viajei para Sydney. Fui lá especificamente para um ponto fotográfico famoso, mas era um dia chuvoso e havia muita gente. Depois de tirar as fotos, não fiquei muito satisfeita com elas.
Então, pensei em usar o Doubao para editar a foto — adicionei um pôr do sol, removi as sombras e, depois da edição, achei que era isso que eu queria, mas isso ainda pode ser considerado fotografia?

Luo Jun me disse:
É definitivamente fotografia. Mas qual a porcentagem do que você imagina é de fato registrada e qual é gerada? Essa porcentagem varia dependendo das ferramentas e do contexto. O valor dos nossos sistemas de imagem reside em maximizar a porção que é realmente registrada. Caso contrário, poderíamos simplesmente confiar em câmeras comuns.
Do Modo Mestre à reconstrução do OPPO Imaging, e depois ao Find X9 Ultra — na visão de Luo Jun, tudo isso sempre apontou para o mesmo objetivo:
Minimize a distância entre a foto que você tem em mente e a foto tirada pelo seu celular.
Uma verdadeira recriação não é apenas uma recriação da realidade em si, mas também uma recriação do quadro de referência em nossas mentes.

Luo Jun afirmou que, no futuro, a interação com imagens deve ser simples para os usuários — eles podem simplesmente pegar a câmera e fotografar sem precisar pensar muito, porque o sistema já entende o que eles querem.
Penso que, nessa altura, o conceito de reprodução realista já tinha permeado todo o Sistema de Imagem Crystal da OPPO.
Uma boa fotografia computacional consiste em fazer você esquecer que está falando de fotografia computacional.
#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

