O CEO da Zhuoyu fez um discurso, abordando dois momentos de crise para a empresa e uma possibilidade relacionada à direção inteligente.

Assim como o grupo "HuaMiOV" (Huawei, Xiaomi, OPPO e vivo) na indústria nacional de telefonia móvel, os quatro principais fornecedores nacionais de soluções de direção inteligente também são conhecidos como os "Quatro Grandes" (Horizon Robotics, DJI Automotive, Huawei e Momenta). No entanto, em um setor em rápida evolução, essa relação de paralelismo não é estática; empresas podem ficar para trás a qualquer momento. Por exemplo, antes do grupo "HuaMiOV", as principais empresas nacionais de telefonia móvel eram "ZTE, Huawei, Coolpad e Lenovo".

O mesmo se aplica ao setor de direção autônoma, no qual a "Universidade de Geociências da China" atua. Diante de um ambiente externo em constante mudança, nenhuma empresa se atreve a dizer que tem tempo para relaxar, pois, se não tomar cuidado, pode ser ultrapassada e superada pela concorrência.

As soluções automotivas da DJI foram transformadas na Zotye, mas isso é apenas o começo de suas dificuldades.

Em junho de 2024, a DJI Automotive passou a se chamar "Zhuoyu". Três meses depois, a Zhuoyu tornou-se oficialmente independente do sistema DJI, transformando-se de um departamento dentro da DJI em uma empresa operada de forma independente, responsável por seus próprios lucros e prejuízos.

No entanto, a situação da Zhuoyu, que operava sozinha na época, não era boa. Em seu discurso na Cerimônia de Marca Zhuoyu 2025, o CEO da Zhuoyu, Shen Shaojie, explicou seu pensamento na época:

É algo parecido com o processo da humanidade se tornando seres espaciais em "O Problema dos Três Corpos". Após a guerra apocalíptica, cinco naves espaciais escaparam, apenas para se encontrarem sem lar e incapazes de retornar. Elas chegaram a uma região com poucos recursos; das cinco naves, os recursos eram suficientes apenas para a sobrevivência de duas, forçando a destruição de três. Nós crescemos em uma estufa, começando do zero, e a pressão mais forte após a separação é o dinheiro.

Shen Shaojie também afirmou isso em entrevista ao LatePost. No dia em que a empresa, com milhares de funcionários, foi dividida, havia menos de 500 milhões de yuans na conta, o que era suficiente apenas para a Zhuoyu operar por alguns meses.

Antes disso, Shen Shaojie era principalmente professor universitário e chefe de pesquisa e desenvolvimento. Ele ainda era professor associado no Departamento de Engenharia Eletrônica e de Computação da Universidade de Ciência e Tecnologia de Hong Kong (HKUST) e diretor do Laboratório Conjunto de Inovação HKUST-DJI. Como chefe da equipe de controle de voo da DJI, ele ajudou a DJI a alcançar sua posição de liderança no setor de drones, transformando a empresa de uma posição incomparável com a concorrência em uma empresa com drones muito à frente em controle de voo, desvio de obstáculos, transmissão de imagens e processamento de imagens.

A base teórica do controle de voo de drones e da tecnologia de desvio de obstáculos é muito semelhante à da condução inteligente em automóveis. Shen Shaojie afirma que "drones e condução autônoma são muito semelhantes em sua lógica subjacente; ambos são essencialmente robôs inteligentes móveis".

De acordo com a visão popular atual na indústria de direção inteligente e até mesmo em toda a indústria de inteligência incorporada, os carros são robôs inteligentes incorporados de dimensões relativamente baixas, com poucos graus de liberdade de movimento.

A DJI, cujo objetivo é "construir um robô verdadeiramente poderoso", e seus fundadores, J.T. Shuo e Shen, esperam criar um "agente inteligente elegante, poderoso e capaz de resolver problemas de verdade".

No entanto, após se tornar independente em 2024, Zhuoyu enfrentou o risco de ficar para trás por um período considerável de tempo.

No início de 2024, a Tesla começou a implementar o FSD V12 em alguns veículos da marca. Nesta versão do FSD, a Tesla reescreveu toda a arquitetura do software, e o modelo de ponta a ponta tornou-se a tecnologia central do FSD V12.

O lançamento do FSD V12 marcou um momento decisivo para toda a indústria de direção inteligente e também representou o momento "ChatGPT" do setor. Depois disso, tanto marcas como a Li Auto e a XPeng, que desenvolveram seus próprios sistemas de direção inteligente, quanto fornecedores de soluções de direção inteligente como a Horizon Robotics ou a Momenta, começaram a transformar suas tecnologias, migrando suas soluções de direção inteligente da abordagem de "percepção-planejamento-controle" para um "modelo abrangente de ponta a ponta" que parecia alquimia.

Os fatos também comprovaram que a mudança nas rotas tecnológicas deu à indústria a oportunidade de ultrapassar outras. A rota de "percepção-planejamento-controle", que antes dependia fortemente de recursos de engenharia, era uma área de vantagem para marcas com muitos recursos, como a Huawei, que defendiam operações baseadas em equipes. Empresas como a Li Auto encontraram dificuldades para competir em termos de recursos, como engenheiros.

O "modelo completo de grande porte" teve um efeito mágico na indústria de direção inteligente, permitindo que muitas marcas alcançassem recursos de direção inteligente de ponta com investimento moderado. De repente, a tecnologia de direção inteligente de ponta está saturada.

No entanto, a Zhuoyu foi uma das empresas que adotou uma abordagem tecnológica diferente relativamente tarde.

Em 14 de outubro de 2024, a Zhuoyu começou a mudar seu roteiro de tecnologia de direção inteligente para uma abordagem "de ponta a ponta". Antes disso, a Zhuoyu conduziu quase um ano de pesquisas preliminares.

Neste momento, o sistema duplo ideal "ponta a ponta + VLM" já foi lançado há dois ou três meses, e a Momenta, concorrente direta da Zhuoyu, vem migrando para o modelo ponta a ponta há mais de meio ano.

Resumindo, Zhuo Yu era muito lento.

Shen Shaojie explicou porque Zhuo Yu era lento:

Pertencemos à escola tradicional de robótica, cuja premissa básica é "Eu construí o modelo do mundo físico", e somos obcecados por regras. A robótica orientada por dados é o completo oposto: você não constrói modelos, você usa dados para aprender modelos. Essa mudança cognitiva leva tempo. Para ser franco, se você não pode vencê-los, junte-se a eles, mas primeiro você precisa admitir que não pode vencê-los. No ano que antecedeu 14 de outubro de 2024, o que fizemos foi nos convencer cientificamente de que realmente não poderíamos vencê-los.

No entanto, por um período considerável, modelos de grande porte e de ponta a ponta não eram uma solução rápida. Pelo contrário, como muitos especialistas do setor descreveram, construir modelos de grande porte e de ponta a ponta é como alquimia, exigindo ajustes constantes nos dados e estratégias de treinamento para encontrar a "proporção" e a "receita" ideais.

Shen Shaojie disse que o modelo treinado por Zhuoyu era imaturo no início. A equipe de desenvolvimento front-end disse diretamente para a equipe de back-end: "Que tipo de lixo vocês me deram?" Essa situação durou vários meses, e Zhuoyu nem sabia quando conseguiria ter um modelo decente.

Antes de adotar uma nova abordagem tecnológica, Zhuoyu tomou uma decisão de tudo ou nada: excluiu todo o código baseado na abordagem por regras, eliminando todas as outras possibilidades de recuo e deixando apenas a rota tecnológica de ponta a ponta como única opção.

Após constatar que sua abordagem era 90% semelhante à da Tesla, Zhuoyu começou a ganhar confiança.

O motivo pelo qual treinar um modelo grande de ponta a ponta é como "alquimia" é porque envolve um mecanismo de caixa preta repleto de inexplicabilidade.

Como a primeira empresa a trazer um modelo completo em larga escala para a indústria de direção inteligente, a Tesla também busca a explicabilidade. Shen Shaojie afirmou que viu na Tesla uma "arquitetura verdadeiramente bela", um sistema projetado por um grupo de pessoas que entendem do mundo físico, de direção, de ciência da computação e de redes neurais.

Em sua visão, a abordagem "engenhosa" da Tesla permitiu que o VLA (Vision-Language-Motion Big Model, geralmente considerado uma arquitetura avançada do roteiro tecnológico end-to-end + VLM) fosse composto por diversos módulos especializados e interpretáveis. Isso resolveu os dois problemas mais difíceis do setor — raciocínio causal e geração de dados de baixa frequência — a um custo extremamente baixo.

Com base em uma abordagem semelhante, a Zhuoyu desenvolveu seu próprio AWM (Action World Model), que é um modelo autorregressivo de tomada de decisão e planejamento — em vez de executar uma ação imediatamente após receber a entrada, ele deduz internamente vários caminhos possíveis, compreende a causa e o efeito e, em seguida, gera uma decisão.

Após passar por sua transformação vários meses depois de seus pares, Zhuoyu finalmente superou as dificuldades iniciais do período de transição.

Ao mesmo tempo, algumas das vantagens anteriores da Zhuoyu começaram a ressurgir, como sua capacidade de otimizar o poder computacional, permitindo que produtos com desempenho mediano alcancem excelentes resultados no mundo real. É o que a própria Zhuoyu chama de "alcançar capacidades equivalentes com requisitos de poder computacional significativamente menores do que a média do setor, explorando o ponto de inflexão em que o custo extremamente baixo ainda permite que os usuários utilizem o produto de forma segura e universal".

Por exemplo, a Zhuoyu afirma que o desempenho alcançado com o Snapdragon 8650 (100 TOPS de poder computacional por núcleo) é comparável ao de dois processadores Orin X (512 TOPS de poder computacional total por núcleo); por meio da implementação de compressão de rede, a rede de ponta a ponta foi implementada com sucesso no TDA4 (os modelos convencionais têm 32 TOPS de poder computacional por núcleo), conferindo-lhe a única capacidade de navegação urbana com poder computacional intermediário em sua classe, e permitindo que usuários de modelos como Wuling e Jetour experimentem funções e desempenho aprimorados. A extrema relação custo-benefício e a extrema eficiência computacional constituem a principal vantagem competitiva da Zhuoyu na expansão do mercado.

Atualmente, a Zhuoyu Assisted Driving possui nove clientes de produção em massa na indústria de veículos de passageiros, mais de 50 modelos produzidos em massa e mais de 30 modelos prestes a entrar em produção em massa. A Zhuoyu alcançou avanços significativos em diversos desafios de engenharia: foi a primeira a implementar a direção assistida de nível 2+ com uma solução de visão computacional de médio porte; implementou a primeira solução integrada de cockpit-motorista Qualcomm 8775 em produção em massa do mundo, utilizando um único chip para controlar cockpits inteligentes e direção assistida inteligente, promovendo a modernização da arquitetura eletrônica e elétrica do veículo, reduzindo custos e aumentando a eficiência no setor; quebrou o paradigma de que veículos a gasolina não poderiam alcançar direção assistida avançada, tornando-se pioneira na inteligência de veículos a gasolina; e, com suas capacidades de integração de hardware e software de pilha completa desenvolvidas internamente, tornou-se uma das duas únicas fornecedoras de Nível 1 no subsegmento relevante a alcançar produção em massa.

Em termos de soluções de alta capacidade computacional, a Zhuoyu lançou duas soluções: uma é a solução L3/L4, equipada com dois chips NVIDIA Thor, combinada com um sistema de percepção orientado à excitação desenvolvido internamente e um radar de ponto cego baseado em perímetro; a outra é a solução integrada cockpit-piloto, que adota o Qualcomm SA8797 e integra o VLA em uma arquitetura unificada.

Com base nesses preparativos, Shen Shaojie tornou-se mais confiante em suas previsões para o futuro. Por exemplo, ele disse em um discurso que, antes, sempre que alguém perguntava "Quando os sistemas avançados de assistência ao motorista serão implementados?", a resposta era sempre "N+5", o que significava que seria em breve, daqui a alguns anos. Mas vários anos se passaram e a resposta continua sendo "em breve".

Mas agora a resposta dele é: A qualquer hora.

Esta é uma nova possibilidade no campo da condução inteligente, o que significa que o nível 4 pode ser implementado a qualquer momento.

Com sua base tecnológica consolidada, a Zhuoyu mira um futuro ainda mais amplo. Em seu discurso, Shen Shaojie anunciou que a Zhuoyu construirá uma plataforma móvel espacial inteligente, liderando a era dos robôs móveis autônomos. Ele enfatizou que o foco principal da Zhuoyu é a mobilidade, fechando completamente o ciclo no âmbito físico da "mobilidade" e levando-a aos seus limites.

Isso significa que as capacidades tecnológicas da Zhuoyu não se limitarão mais à assistência ao condutor de veículos de passageiros. Em vez disso, com base em um paradigma de desenvolvimento orientado por dados, um modelo de fundamentos consolidado e recursos integrados de engenharia de hardware e software, a empresa está expandindo os limites da inteligência móvel para uma gama mais ampla de cenários de negócios.

Atualmente, a Zhuoyu lançou o projeto NOA (North American Highway), voltado para caminhões pesados, que visa solucionar o problema da fadiga dos motoristas de caminhões pesados ​​durante longas jornadas de trabalho e melhorar a segurança e a eficiência do transporte logístico de longa distância. A empresa também firmou parcerias com três clientes líderes do setor: XCMG, Shaanxi Automobile e Sinotruk. O primeiro lote de caminhões pesados ​​entrará em produção em massa no primeiro semestre de 2026.

Enquanto isso, a Zhuoyu está colaborando com empresas líderes em veículos comerciais para projetar e definir veículos logísticos não tripulados para transformação inteligente em cenários como minas e portos. Isso significa que a Zhuoyu não será apenas uma fornecedora de primeira linha neste projeto, mas também participará de mais aspectos, como o design do produto.

Shen Shaojie não está mais envolvido em pesquisa e desenvolvimento de drones, e Zhuoyu também se separou da DJI, mas eles se juntarão a mais empresas semelhantes à DJI.

A situação está estável e melhorando.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo