Ideal MindVLA quer redefinir a direção autônoma e equipar cada carro com um “motorista dedicado”
Esperamos que o MindVLA possa fornecer aos veículos autônomos capacidades cognitivas e adaptativas semelhantes às humanas, transformando-os em agentes inteligentes que podem pensar. Assim como o iPhone redefiniu os telefones celulares, o MindVLA também redefinirá a direção autônoma.
Houve uma quantidade esmagadora de carros novos e novas tecnologias em março, com várias montadoras perseguindo umas às outras, deixando as pessoas tontas e até dando origem à ilusão de que novos produtos ficaram para trás assim que foram lançados.
Não, recentemente, a Ideal compartilhou o mais recente progresso de sua tecnologia MindVLA no NVDIA GTC 2025, alegando que “redefinirá a direção autônoma, assim como o iPhone 4 redefiniu os telefones celulares”.
Deixando de lado os complexos princípios técnicos e métodos de implementação, o maior valor da tecnologia Ideal MindVLA é que ela eleva a experiência do usuário do veículo a um nível totalmente novo.
Na reunião de compartilhamento, Ideal resumiu as capacidades do novo sistema de direção inteligente em uma frase – esse novo sistema de direção inteligente se tornará o motorista em tempo integral de todos.
O que esse driver dedicado pode fazer? Pensei nos seguintes cenários: buscar-me na garagem pela manhã, à minha porta, poupando-me o trabalho de descer até à cave para ir buscar o carro; deixar-me na porta da empresa, e então automaticamente encontrar uma vaga e estacioná-la, sem que eu precise procurar vaga; quando quero ir a um shopping ou cafeteria, encontro automaticamente um destino adequado sem que eu precise selecionar manualmente a navegação. O mais importante é que ele localize minha localização e me busque automaticamente.
Ideal resume essas cenas em três palavras – “compreensível”, “visível” e “encontrável”.
“Compreensível” significa que os usuários podem alterar a rota e o comportamento do veículo por meio de comandos de voz. Isto não só estende a interação de voz do carro e da máquina desde funções de cabine, como ar condicionado e assentos, até operações de direção específicas, mas também permite que o usuário se torne um copiloto e possa “ensinar” o carro e a máquina a virar à esquerda, virar à direita ou acelerar.
"Visível" significa que o MindVLA possui excelente conhecimento geral e pode reconhecer placas de lojas ao redor e locais icônicos. Um exemplo ideal: quando um usuário não consegue encontrar um veículo em um local desconhecido, basta tirar uma foto do ambiente ao redor e enviá-la ao veículo. O veículo equipado com MindVLA consegue identificar a localização na foto e encontrar o usuário automaticamente.
"Find" é usado principalmente em cenários de estacionamento e roaming em parques. O exemplo mais típico é quando se procura um lugar de estacionamento na cave. O usuário só precisa dizer ao veículo: “Encontre uma vaga e estacione”. O veículo buscará automaticamente as vagas de estacionamento disponíveis, e todo o processo não precisa depender de mapas ou informações de navegação.
O “motorista em tempo integral” parece ter um bom desempenho em cenas de campus e porões, então como a Ideal garante que ele também seja capaz em vias públicas?
Como todos sabemos, a situação rodoviária nacional é muito complexa. Além dos veículos elétricos correndo por toda parte e do jogo de alta intensidade entre pessoas e veículos, também possui as seguintes características.
Um deles é o uso generalizado de corredores de ônibus. Essas faixas são marcadas e usadas de diversas maneiras, incluindo sinais de texto no solo, sinais aéreos e sinais de beira de estrada. Diferentes áreas usam diferentes formas de texto para explicar os limites de tempo, e muitas vezes há novas faixas de ônibus ou sinais que estão desfocados devido à construção.
A segunda são as faixas ajustáveis dinamicamente e as faixas de maré que surgiram nas principais cidades nos últimos anos, bem como as áreas de espera e áreas de espera configuradas para aproveitar ao máximo o espaço de interseção. O tempo de uso dessas áreas é controlado por diversas luzes de sinalização ou sinais de texto em LED, e o equipamento pode enfrentar novas adições, falhas ou manutenções todos os dias.
Portanto, na China, os sistemas de condução autónoma não só têm de lidar com interações complexas entre humanos e veículos, mas também precisam de ter capacidades de compreensão de texto, julgamento de bom senso e fortes capacidades de raciocínio lógico.
O FSD lançado recentemente pela Tesla tem sido criticado pelo seu fraco desempenho nestes cenários.
Para enfrentar esses desafios, a Ideal adotou uma estrutura de sistema duplo como solução.
Simplificando, o modelo ideal é dividido em dois sistemas: pensamento rápido (sistema 1) e pensamento lento (sistema 2). A extremidade do veículo implementa um sistema rápido através do modelo ponta a ponta. Este é um modelo único que converte diretamente as entradas dos sensores em saídas de trajetória de condução, semelhantes às reações intuitivas humanas. O sistema responde a vários cenários imitando o comportamento humano de condução e é totalmente orientado por dados. Não requer regras definidas pelo homem e não depende de mapas de alta precisão ou de informações prévias. Possui altíssima eficiência de treinamento e execução.
O sistema lento depende de um modelo grande de linguagem visual (VLM) com escala de parâmetros de 2,2B. Em cenários que exigem compreensão de texto, julgamento de bom senso e raciocínio lógico, o VLM conduz análises aprofundadas por meio da Cadeia de Pensamento (COT), toma decisões importantes e orienta a execução rápida do sistema. O modelo ponta a ponta (Sistema 1) e o modelo VLM (Sistema 2) rodam cada um em um chip OrinX.
Em suma, através de tal arquitetura técnica, o carro ideal equipado com a função MindVLA não é mais apenas uma ferramenta de direção, mas um agente inteligente que pode se comunicar com o usuário e compreender a intenção do usuário.
Soluções de condução inteligente generativa, inteligente ou personalizada, tornaram-se o consenso de várias montadoras e fornecedores na rota tecnológica do futuro. Jikrypton e Zhuoyu também mencionaram conteúdo relevante em suas respectivas conferências de tecnologia ontem.
Como atualmente não existem veículos equipados com este tipo de sistema no mercado, não podemos avaliar a sua real eficácia. Porém, de acordo com o cronograma de cada empresa, a produção em massa desses sistemas deverá ocorrer ainda este ano. Nesse momento, Dongche realizará testes reais para todos o mais rápido possível.
# Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (WeChat ID: ifanr). Conteúdo mais interessante será fornecido a você o mais rápido possível.