Conversa com a Equipa de Condução Inteligente Ideal: Qual é a “resposta definitiva” para a condução autónoma?

Em 2013, a direção autônoma ainda era um conceito muito moderno e sexy, assim como o atual AGI e o Metaverso de alguns anos atrás. Na era das empresas de Internet em pleno andamento, a Tencent realizava uma conferência WE todos os anos para falar sobre isso. Alguns dos tópicos sobre estrelas e mar, como edição de genes, interface cérebro-computador, exploração espacial, etc.

A primeira vez que tive contato com o conceito de “direção autônoma” foi na primeira Conferência Tencent WE em 2013. Naquela época, um convidado expressou as seguintes opiniões:

  • Os problemas técnicos não são difíceis de resolver, mas as questões jurídicas são difíceis de resolver.
  • Dentro de dez anos, os consumidores poderão comprar carros autônomos.
  • Se a precisão do julgamento feito pela máquina atingir 95%, ela ainda poderá ser melhor e mais rápida que os humanos.

O período de dez anos chegou e essas palavras geralmente se tornaram realidade. Quando Carrot Run já está nas estradas em grande escala em muitas cidades, os modelos de última geração das novas marcas de energia convencionais têm recursos de direção inteligentes de ponta e. A versão Tesla FSD V12 é lançada. O RoboTaxi da Tesla está prestes a ser lançado. A tecnologia de direção autônoma está passando do nível L2 + para o nível L4.

Espere um minuto, quando eu tirar esta foto, como você deve responder?

Esta é uma cena comum nas condições diárias de trânsito na cidade de Guangzhou: não apenas as faixas de veículos motorizados estão repletas de um grande número de scooters elétricas de duas rodas, mas até mesmo cadeiras de rodas elétricas que circulam em velocidades extremamente baixas também circulam nas faixas de veículos motorizados.

Neste momento, as vantagens e os desafios da condução inteligente são refletidos em conjunto: a vantagem é que a condução inteligente não tem emoções, não fica com raiva e não sofre de raiva na estrada, o desafio é a cadeira de rodas elétrica lenta e as duas rodas; carros a bateria que correm e invadem a rodovia Para uma direção inteligente, é um cenário muito difícil de prever e lidar.

Na verdade, as previsões do desenvolvimento da condução autónoma há dez anos baseavam-se principalmente numa lógica: os carros e as pessoas na estrada devem respeitar as regras de trânsito, parar nos sinais vermelhos e conduzir nos sinais verdes, e nenhuma pessoa prejudicial aparecerá no motor. faixas de veículos.

Mas quando os fabricantes entregam carros com funções de condução inteligentes aos consumidores, a situação que os carros enfrentam é a imagem acima: a estrada é a minha casa e as regras de trânsito são ignoradas.

Lógica clássica de direção inteligente: "Percepção – Planejamento – Controle"

As atuais soluções de condução inteligente convencionais, sejam soluções de mapas de alta precisão ou soluções sem mapas, dependem de um grande número de engenheiros para escrever regras com base em vários cenários rodoviários, a fim de esgotar todas as condições da estrada e medidas correspondentes, e alcançar tanto possível comportamento de condução inteligente.

No entanto, as condições reais das estradas não são apenas complicadas e impossíveis de serem exaustivas, mas o mundo real também está em constante mudança e novos cenários rodoviários aparecem a qualquer momento. Portanto, a pesquisa e o desenvolvimento anteriores de direção inteligente foram uma “guerra infinita”.

Por exemplo, antes de Julho, poucas empresas automóveis conseguiam conquistar o cenário de entrada e saída de rotundas porque o cenário era complexo, a percepção era limitada e o planeamento e a tomada de decisões eram difíceis.

Simplificando, antes que a versão FSD V12 do Tesla adote a solução técnica “ponta a ponta”, quase todas as soluções de direção inteligente podem ser resumidas em três módulos principais: “Percepção – Planejamento – Controle Este conjunto de processos abrange um conjunto de processos”. variedade de cenas, como a clássica regra dos terços: cenas de rodovias, cenas urbanas e cenas de estacionamento.

Essas grandes cenas podem ser subdivididas e subdivididas. Engenheiros de direção inteligentes escrevem códigos de regras de acordo com as cenas, o radar de ondas milimétricas, a câmera e o sistema de posicionamento trabalham juntos para detectar e registrar as informações da estrada, do ambiente e da localização, e então o BEV (). A tecnologia Birds-Eyes-View) ou tecnologia OCC (Occupancy Network) ou outras tecnologias utilizam as informações obtidas por esses sensores para formar uma "projeção virtual do mundo real" que pode ser compreendida pelo sistema de direção inteligente. projeção mundial", uma rota de viagem razoável e um plano de movimento são planejados e, em seguida, a decisão de controle é derivada. Finalmente, o carro responde à decisão, formando "diminua a velocidade, mude de direção para a esquerda, pegue a faixa de retorno à esquerda em avanço, freio de emergência para evitar Se um carro a bateria de duas rodas entrar no meio da estrada, continue e faça meia-volta Este é um comportamento de direção inteligente.

▲ Diagrama de ocupação da rede Jiyue Auto OCC

Se a direção inteligente usa a tecnologia de rede de ocupação OCC, podemos fazer uma analogia. No sistema de direção inteligente, o mundo externo é como o "Minecraft", que é composto de quadrados (voxels). teoricamente, não haverá quadrados na estrada e o carro poderá avançar com ousadia. Se houver um pequeno quadrado estacionário na frente dele, pode ser que o balde de sorvete tenha caído no meio da estrada. uma barra longa e lenta à direita, pode ser apenas pedestres. Se for um bloco retangular muito grande movendo-se rapidamente na faixa da esquerda, pode ser um caminhão grande…

Sob esta lógica geral de "percepção – planejamento (decisão) – controle", seja a solução anterior baseada em mapas de alta precisão, ou o subsequente NOA (assistência automática à navegação) sem mapa, que depende mais da fusão de múltiplos sensores e alta computação local As soluções Power Driving) não se afastam desta lógica básica. A estrutura de P&D e o trabalho dos engenheiros também desempenham suas respectivas funções em cada módulo.

Até o surgimento do “ponta a ponta”.

O que é “ponta a ponta”?

Existem três eventos marcantes na inteligência artificial que suscitaram ampla discussão social.

A primeira vez foi em 1997, quando o robô de xadrez da IBM "Deep Blue" derrotou o mestre de xadrez Garry Kasparov. Mas se você olhar para "Deep Blue" neste momento, sentirá que não é tão inteligente. dispositivo de armazenamento. Coletamos uma grande quantidade de registros de xadrez de abertura e final de jogo e, em seguida, usamos algoritmos de pesquisa e sistemas de avaliação eficientes para selecionar a maneira mais apropriada de jogar.

Em outras palavras, quando o Deep Blue joga xadrez, as decisões intermediárias são explicáveis ​​e logicamente claras para os humanos.

Então, no campo do Go, que é mais complexo que o xadrez, o AlphaGo da DeepMind derrotou Li Sedol e Ke Jie, anunciando que o nível de inteligência artificial excede em muito o de todos os jogadores de xadrez humanos.

A lógica do AlphaGo não é pesquisar e combinar registros de xadrez. Afinal, o número de grades de tabuleiro e peças de xadrez no Go excede em muito o do xadrez, e as possibilidades contidas neles são muito altas. Mas com base no aprendizado profundo das redes neurais, o AlphaGo pode aprender e evoluir por conta própria e saber como jogar a seguir para se aproximar da vitória. Para os humanos, os métodos de jogo do AlphaGo são completamente diferentes da lógica do pensamento humano, mas o que aconteceu em. no meio?, os especialistas em inteligência artificial conhecem sua lógica.

Então veio o surgimento do ChatGPT. Entre a entrada e a saída da tecnologia de modelos de linguagem de grande porte, existe uma "caixa preta" que mesmo os especialistas em inteligência artificial são difíceis de explicar com precisão o que exatamente aconteceu entre a pergunta e o ChatGPT. responder.

Para usar isso como metáfora, a tecnologia de direção inteligente era anteriormente baseada na lógica de pesquisa e desenvolvimento de "percepção – planejamento (decisão) – controle", semelhante às redes neurais convolucionais (CNNs) do AlphaGo que podem processar a estrutura bidimensional do AlphaGo. o tabuleiro de xadrez e extrair características espaciais; A rede de valor e a rede de políticas podem fornecer planejamento e tomada de decisão, além de aprendizagem por reforço e tecnologia de busca de árvore de Monte Carlo para otimizar a tomada de decisão.

▲ Diagrama de arquitetura ponta a ponta de condução inteligente ideal

O "ponta a ponta" na tecnologia de direção inteligente é semelhante à grande tecnologia de modelo de linguagem por trás do ChatGPT, desde dados brutos de sensores (como câmeras, radar de ondas milimétricas, lidar, etc.) até instruções de controle finais (como aceleração , travagem, etc.) direção, etc.). É claro que este método de controle direto do veículo ainda é muito radical nesta fase, então a solução ideal de ponta a ponta é apenas gerar a trajetória, mas não controlar. Ainda existem muitas restrições e medidas redundantes antes do controle do veículo. O objetivo deste método é simplificar a arquitetura do sistema e completar toda a tarefa por meio de uma única rede ou modelo neural. Ele não depende mais de códigos de regras de cena massivos. É uma direção técnica completamente diferente.

Assim como o grande modelo de linguagem enfatizava anteriormente o grande número de parâmetros, o modelo multimodal por trás do ponta a ponta também tem um processo de mudança quantitativa que leva à mudança qualitativa. Tesla assumiu a liderança no uso de ponta a ponta. tecnologia no FSD V12 e Musk Basta dizer isto:

Treinar com 1 milhão de fatias de vídeo mal é suficiente; 2 milhões é um pouco melhor;

No entanto, as pessoas que costumam usar o ChatGPT ou outras ferramentas generativas de IA descobrirão que essas ferramentas não são confiáveis ​​e muitas vezes geram respostas erradas com segurança, o que é chamado de "ilusão".

Geralmente não há consequências catastróficas para as ferramentas de IA em computadores responderem cegamente às perguntas, mas a direção inteligente está relacionada à segurança da vida. Uma solução "ponta a ponta" para o comportamento de direção requer mais verificação e medidas de seguro. e mais importante, questões de engenharia.

Conversa com a Equipa Ideal de Condução Inteligente: “End-to-end” é a verdadeira utilização da IA ​​para a condução autónoma

Depois de passar pela longa introdução, podemos finalmente chegar ao ponto: aproveitando a oportunidade para entrevistar a equipe de direção inteligente ideal, vamos falar sobre como “de ponta a ponta” vai da teoria à direção?

Lang Xianpeng, vice-presidente de P&D da Ideal Smart Driving, disse a Aifaner e Dongchehui:

Uma reflexão importante na nossa reunião de estratégia da primavera deste ano é que perseguimos demasiado a concorrência. Por exemplo, focamo-nos sempre na Huawei, em quantas cidades ela abriu e quais são os seus indicadores. por exemplo, sou melhor que a Huawei. Um pouco melhor, ou um pouco pior que a Huawei, não representa as reais necessidades dos usuários.

Voltando às necessidades de condução dos utilizadores, as necessidades reais dos utilizadores não são o quão baixo é o indicador da taxa de aquisição. O que os utilizadores precisam é de uma condução inteligente para conduzir como um condutor experiente, e esta necessidade antropomórfica depende da investigação e desenvolvimento original regular e modular. é difícil de implementar. Mas a pré-pesquisa interna ideal “de ponta a ponta” terá melhor desempenho.

Com base nisso, dentro de um ano, a solução ideal de tecnologia de direção inteligente passou por três gerações de ajustes: do gráfico para NPN (rede neural anterior), para sem gráfico e, em seguida, para ponta a ponta.

Lang Xianpeng explica a diferença essencial de ponta a ponta:

Superficialmente, de ponta a ponta é um modelo grande que substitui vários modelos pequenos. Na verdade, é um divisor de águas. Começando de ponta a ponta, podemos realmente usar a inteligência artificial para fazer uma direção autônoma. ainda não é o caso.

Por ser orientado por dados, combinando poder de computação com dados e modelos, é um processo de auto-iteração altamente automatizado. Esse processo itera os recursos do próprio modelo ou sistema. Então, o que fizemos antes? O que fazemos são todos os tipos de funções do sistema, como a função de subir e descer da rampa ou a função de passar no posto de pedágio.

Existe uma grande diferença entre funções e habilidades.

Mas, na verdade, o sistema de direção autônoma de próxima geração lançado na Ideal Intelligent Driving Summer Conference é uma solução de sistema duplo "ponta a ponta + VLM (modelo de linguagem visual)".

Como a premissa é tornar a direção inteligente como um motorista experiente e ser o mais antropomórfica possível, temos que considerar como as pessoas fazem as coisas. A base teórica aqui é "Pensando, A teoria dos sistemas rápidos e lentos", do ganhador do Prêmio Nobel Daniel Kahneman. "Rápido e Lento":

O sistema humano rápido depende da intuição e do instinto para manter a alta eficiência em 95% dos cenários; o sistema humano lento depende da análise e do pensamento conscientes, introduzindo um limite superior elevado de 5% dos cenários;

O sistema duplo ideal "ponta a ponta + VLM" de ponta a ponta é um sistema rápido, que tem a capacidade de processar informações rapidamente em cenários de direção diários, enquanto o modelo de linguagem visual VLM tem a capacidade de pensar logicamente em cenários complexos.

Quão rápido é esse sistema rápido?

Jia Peng, chefe de P&D de Tecnologia de Condução Inteligente Ideal, disse:

Agora, nosso atraso ponta a ponta é equivalente a mais de 100 milissegundos do sensor até a saída de controle, menos de 200 milissegundos. No passado, o submódulo provavelmente tinha mais de 300 a quase 400 milissegundos.

Por que esse sistema lento é necessário?

Lang Xianpeng explicou:

Estamos agora explorando algumas de suas capacidades (VLM). Ele tem pelo menos algum valor na seleção da faixa principal e auxiliar que acabamos de mencionar. Sem ele, não haveria problemas de segurança. Nosso principal papel de apoio para a direção inteligente de nível L3 é de ponta a ponta, que representa a capacidade de direção da pessoa sob comportamento normal.

Mas quando se trata de direção inteligente de nível L4, o VLM ou modelos grandes devem desempenhar um papel mais importante. Pode não funcionar mais de 90% do tempo, mas esses conteúdos determinam se o sistema é de nível L3 ou L4. Um ponto chave do nível é que o VLM pode realmente lidar com esse cenário desconhecido.

O ideal não é fazer um modelo de ponta a ponta, mas adotar uma solução de sistema duplo mais confiável para cobrir todo o cenário de ponta a ponta é responsável por tornar o comportamento de direção mais humano e mais parecido. um motorista experiente, enquanto o modelo de linguagem visual VLM suporta o limite inferior, pode até aumentar o limite superior e espera-se que atinja um nível mais alto de direção autônoma.

Olhando mais de perto, ao contrário do ponta a ponta fundamentalista, que é o responsável final pelo controle do carro, o ponta a ponta ideal na verdade não controla diretamente o carro, mas atinge o nível da trajetória de saída.

Jia Peng disse:

Nosso modelo ponta a ponta atinge a trajetória, e alguns bolsões de segurança são adicionados após a trajetória, pois antes do modelo atingir o limite superior, ainda há algumas coisas com que lidar, como girar o volante com força para se livrar isto.

No processo de direção inteligente real, os dois sistemas também funcionam ao mesmo tempo. Jia Peng explicou detalhadamente como os dois sistemas funcionam juntos:

Esses dois sistemas funcionam em tempo real e funcionam juntos de ponta a ponta. Como o modelo é menor, sua frequência é relativamente alta, como funcionar a uma dúzia de hertz. Além disso, o tamanho do modelo tem um número muito maior de parâmetros, 2,2 bilhões de parâmetros. Atualmente, ele pode funcionar em cerca de 3 a 4 Hz e, na verdade, funciona o tempo todo.

O VLM envia os resultados da tomada de decisão para pontos de referência. Por exemplo, quando o ETC entra na rodovia, é realmente difícil para o carro determinar qual faixa seguir. O VLM sempre esteve lá neste momento. Se você quiser escolher o ETC, pode seguir o caminho do ETC. Se quiser seguir o caminho manual, no entanto, ele joga os resultados da decisão e as trajetórias de referência para o fim. modelo ponta a ponta. Essas informações são então usadas após a inferência do modelo ponta a ponta.

Na verdade, o modelo de linguagem visual VLM é uma informação auxiliar. O resultado final da trajetória é resultado do raciocínio do modelo e tem certa probabilidade de ser adotado.

Por que de ponta a ponta pode criar uma onda tão grande no campo da direção inteligente? Ou é por causa das enormes possibilidades por trás disso e do seu significado direcional na busca da “resposta final”.

Em suma, neste plano, todos estão longe de atingir o limite máximo de capacidades, e a exploração tecnológica e a prática de engenharia entraram na área selvagem.

Jia Peng explicou ainda os princípios e possibilidades dos sistemas duais:

Na verdade, as pessoas são sistemas duais Embora a estrutura física não seja tão clara como um sistema dual, a forma como as pessoas pensam é um sistema dual. Então, tivemos a ideia de adicionar outro com capacidades reais de generalização. ponta a ponta Como um sistema para capacidade de raciocínio lógico, o VLM vem naturalmente à mente.

Embora o VLM não controle diretamente o carro, ele fornecerá a tomada de decisões.

Como isso se desenvolverá no futuro? Talvez com o aumento do poder computacional, por exemplo, nas versões 12.3 a 12.5 do Tesla FSD, os parâmetros tenham aumentado 5 vezes, o que pode suportar um modelo suficientemente grande.

Acho que haverá duas tendências no futuro. A primeira é que a escala do modelo se tornará maior. O Sistema 1 e o Sistema 2 ainda são dois modelos de ponta a ponta, mais o VLM. atualmente relativamente fracamente acoplados e podem ser comparados no futuro fortemente acoplados.

Em segundo lugar, também podemos aprender com a atual tendência de desenvolvimento de modelos multimodais. Eles estão caminhando para esse tipo de multimodalidade nativa, que pode fazer tanto a linguagem quanto a fala, a visão e o lidar. para pensar no futuro.

Nosso paradigma deve ser capaz de nos apoiar na conquista (condução autônoma de nível L4), porque já vimos o protótipo de sua aplicação na inteligência incorporada do robô. Referindo-se ao processo de pensamento humano, esse conjunto de coisas pode ser o que queremos buscar. . A resposta definitiva.

A resposta final significa que usamos esta teoria e esta estrutura para criar uma verdadeira inteligência artificial.

Mas antes de falar sobre a resposta final, Jia Peng explicou por que apenas de ponta a ponta pode resolver o problema de direção inteligente de “entrar e sair da ilha”:

Se for segmentado (solução de direção inteligente), a frente é percebida. Várias suposições precisam ser feitas para o controle. Para fazer uma inversão de marcha, a linha de inversão de marcha deve ser instalada em diferentes cruzamentos. o mesmo, e a curvatura Eles são todos diferentes, então é difícil para você usar um conjunto de código para contornar todas as rotatórias.

Há também uma história interessante sobre a rotatória. Quando nós (incluindo os dados do modelo) tínhamos cerca de 800.000 clipes (clipes de vídeo), não conseguimos passar pela rotatória. Então, de repente, descobrimos que um dia (alimentamos) 1 milhão de clipes. ele poderia fazer isso sozinho. Passando pela rotatória, acho que 1 milhão (videoclipe) continha alguns dados da rotatória.

O modelo é realmente muito poderoso. Ele pode aprender quaisquer dados que você alimente. Esse é o charme do modelo, assim como o ETC, acho que se você abrir nossa versão ponta a ponta atual, descobrirá que o ETC pode transmiti-lo. por si só, mas o problema é que agora ele não sabe qual caminho quero seguir, seja a estrada ETC ou a estrada artificial. Ele escolherá uma aleatoriamente, o que fará com que você se sinta inseguro. é que o VLM pode fornecer essa orientação porque o VLM pode entender caracteres chineses e indicadores LED.

Em relação ao quê e ao porquê da parte teórica de ponta a ponta, agora temos um esboço. Depois de termos os dados e os modelos, realmente começamos, ou seja, este é o verdadeiro grande teste.

▲ Oficina ideal de fabricação de automóveis

“Treinar um modelo ponta a ponta não é diferente de fazer um elixir.”

Lang Xianpeng contou a Ai Faner e Dong Chehui uma história muito bizarra sobre o treinamento de um modelo ponta a ponta:

No início deste ano, quando começamos a trabalhar no projeto, descobrimos que depois de treinar o modelo, era normal dirigir normalmente. Porém, ao esperar o sinal vermelho, o carro se comportava de maneira estranha. pista. Não sabíamos por quê.

Mais tarde, percebemos que quando estávamos treinando o modelo ponta a ponta, excluímos muitos dados que esperavam antes do sinal vermelho. Sentimos que os dados eram inúteis depois de esperar dezenas de segundos ou um minuto. Mais tarde, porém, descobri que esses dados são muito importantes. Eles ensinaram a esse modelo que às vezes é preciso esperar. Depois de desacelerar, não é preciso interromper ou mudar de faixa.

Este breve conto mostra que os dados determinam em grande medida a qualidade do modelo, mas o tamanho do modelo é limitado, portanto, quais dados alimentar para treinar o modelo é na verdade uma das tarefas principais.

Lang Xianpeng fez uma analogia:

Treinar um modelo ponta a ponta não é diferente da alquimia antiga. Nos tempos antigos, o refino da pólvora concentrava-se em mononitrato, dissulfeto e carvão, e os explosivos produzidos eram relativamente poderosos. Outras proporções também podem acender o fogo.

No entanto, para os fabricantes de automóveis que desejam treinar modelos de ponta a ponta, a “alquimia” é apenas uma metáfora, não um método específico de implementação do projeto. Como obter os dados, como selecioná-los e como treiná-los são todos científicos. problemas.

Felizmente, a Ideal tem algumas vantagens inatas. Por exemplo, seus carros estão vendendo bem e seu volume de vendas geralmente ocupa o primeiro lugar entre as novas empresas de automóveis elétricos. Existem mais de 800.000 carros Lideal na estrada e mais 40.000 a 50.000 são adicionados a cada. mês, esses veículos fornecem mais de um bilhão de quilômetros de dados.

Além disso, a Ideal está ciente da importância dos dados há muito tempo e construiu recursos básicos, como cadeias de ferramentas para dados. Por exemplo, o banco de dados de back-end da Ideal implementou uma pesquisa de parágrafo para encontrar a frase “Pedestres passando com guarda-chuvas próximos. a linha de parada do sinal vermelho em um dia chuvoso.”, você pode encontrar os dados correspondentes por trás disso estão alguns pequenos modelos de nuvem, como modelos de mineração de dados e modelos de compreensão de cena.

Lang Xianpeng ainda acredita que a cadeia de ferramentas e as capacidades de infraestrutura desses bancos de dados são, em certo sentido (importante), ainda maiores do que as capacidades dos modelos, porque sem essas boas infraestruturas e dados, não importa quão bom seja o modelo, ele irá não será possível treiná-lo.

A mudança nas soluções técnicas subjacentes também significa uma mudança nos métodos de trabalho. Quando um caso grave é descoberto, o modelo no sistema interno de "balcão de triagem" analisará automaticamente a que tipo de cenário o problema pertence e dará "sugestões de triagem". Em seguida, retorne ao treinamento do modelo para resolver o problema.

Isto também envolve uma mudança na forma como trabalhamos. As pessoas que originalmente resolviam problemas específicos tornaram-se agora pessoas que concebem ferramentas para resolver problemas.

Para melhorar a eficiência do “diagnóstico e tratamento”, a Ideal treina internamente vários modelos ao mesmo tempo. Este processo retorna ao conceito de “alquimia”, explicou Jia Peng:

Existem dois aspectos principais no treinamento do modelo. Um é a receita de dados. Quanto deve ser adicionado em cenários semelhantes para resolver o caso. O segundo ponto são os hiperparâmetros do modelo. Depois de adicionar novos dados, como ajustar os parâmetros do modelo. Geralmente, 5 a 6 versões do modelo serão enviadas para treinamento e então ver qual versão resolve o problema. problema e pontuações mais altas.

Treinar vários modelos ao mesmo tempo apresenta requisitos de infraestrutura de banco de dados e enormes requisitos de poder computacional. Neste momento, o "poder do dinheiro" entra em jogo. A vantagem ideal aqui é que os carros vendem mais e são mais caros. Com as melhores receitas e fluxo de caixa positivo entre as novas empresas de automóveis potentes, ele pode suportar o enorme gasto de energia computacional por trás disso.

Lang Xianpeng disse:

Estimamos que se a condução autônoma L3 e L4 for alcançada, o gasto anual em poder de computação com treinamento será de 1 bilhão de dólares americanos. No futuro, lutaremos por poder de computação e dados, e o que lutamos por trás é dinheiro ou lucratividade.

Quando o modelo ponta a ponta substitui a maior parte do trabalho na tradicional lógica de direção inteligente "percepção-planejamento-controle", o trabalho mais trabalhoso da equipe de direção inteligente relacionada ao ideal também se concentra na "cabeça e cauda ", a cabeça são os dados, o fim é a verificação.

Além dos dois sistemas de velocidade do modelo ponta a ponta e do modelo de linguagem visual VLM, existe também um sistema três dentro do Ideal, que é chamado de modelo experimental ou modelo mundial. Em essência, este é um sistema de exame para. avaliar o nível de todo o sistema de direção inteligente e segurança.

Lang Xianpeng comparou este sistema de exame a uma coleção de três bancos de questões:

  • Banco de perguntas reais: O comportamento correto das pessoas que dirigem na estrada
  • Banco de perguntas errado: durante testes e condução normais, aquisição de usuário, saída de usuário e outros comportamentos
  • Perguntas de simulação: com base em todos os dados, faça inferências de uma instância e gere testes virtuais de cenários semelhantes para problemas repetidos específicos.

Por exemplo, como mencionado anteriormente, se você deseja que sua direção inteligente seja personificada, como um motorista experiente, então o comportamento de direção desse banco de testes real deve ser o de um motorista experiente. O "banco de testes real" no modelo de teste ideal. seleciona uma pontuação interna de 90 ou superior O comportamento de direção dos motoristas, este grupo representa apenas 3% dos motoristas de automóveis ideais, dependerá da suavidade de sua direção, do grau de perigo de dirigir, etc. frequentemente ativa a frenagem automática de emergência AEB, então seu comportamento de direção será muito radical.

Após extensos testes do modelo experimental, haverá também uma versão de teste para “usuários pioneiros”. Isso significa que milhares de carros de usuários receberão uma nova versão do sistema de direção inteligente, que pode operar em cenas e cenários reais. "modo sombra" não perceptivo Realize verificações e testes na estrada, que são maiores do que a frota de testes de qualquer fabricante de automóveis.

Os dados testados e verificados por milhares de usuários iniciais serão automaticamente enviados de volta, analisados ​​automaticamente e treinados automaticamente de forma iterativa para uma nova rodada de testes e entrega.

Em outras palavras, aquisição de dados, treinamento de modelos, exames experimentais e entrega ao usuário são processos repletos de lógica circular automatizada, com muito pouca participação humana.

De acordo com Lang Xianpeng e Jia Peng, depois de mudar para "ponta a ponta + VLM", a indústria atingiu um lugar próximo à terra de ninguém. Há entusiasmo por não ser capaz de ver o limite superior das capacidades do sistema para. por enquanto, mas é claro que também há a necessidade de ser pragmático. Por exemplo, atualmente apenas o modelo ponta a ponta produz a trajetória, e o controle após a trajetória precisa ser seguro. Outro exemplo é pensar no poder de computação. : o número de engenheiros era necessário antes e o número de placas gráficas será necessário no futuro.

Sem poder de computação, tudo é fantasia.

Não há lucro e o poder da computação é apenas uma fantasia.

Vamos falar novamente sobre a “resposta final”: ideais, Tesla e OpenAI alcançam o mesmo objetivo por caminhos diferentes

Assim como Musk enfatizou repetidamente que "a Tesla é uma empresa de IA e robótica, não apenas uma empresa automobilística". Na entrevista, Lang Xianpeng e Jia Peng também compararam o carro ideal a um robô sobre rodas e também falaram sobre a aplicação do protótipo. de portadores inteligentes incorporados, como robôs humanóides, usando a estrutura "ponta a ponta + VLM".

O robô Optimus da Tesla carrega a visão mais ampla de Musk e é, obviamente, outro portador do FSD, porque o robô Optimus libera relativamente pouca informação, mas tem um modelo “ponta a ponta” que depende de informações ambientais locais. e, em seguida, produza diretamente sequências de controle conjunto.

Além disso, a Figure Robots, investida pela OpenAI e pela NVIDIA, acaba de lançar seu segundo robô humanóide, a Figura 02, alegando que é "o hardware de IA mais avançado do mundo", no qual o modelo de linguagem visual VLM é sua capacidade importante. Equipado com seis câmeras RGB, cada uma na cabeça, no tronco frontal e traseiro, a Figura 02 é capaz de sentir e compreender o mundo físico por meio de seu sistema de visão orientado por IA. Na descrição oficial, a Figura 02 “possui visão sobre-humana”.

Claro, naturalmente também possui um grande modelo de linguagem fornecido pela OpenAI para se comunicar com humanos.

Da mesma forma, o robô Optimus começou a trabalhar (e treinar) na fábrica de automóveis da Tesla, e a Figura 02 também foi testada e treinada na fábrica de automóveis da BMW. Ambos são capazes de realizar algumas tarefas simples e estão em constante evolução.

Embora o carro ideal, o robô Tesla Optimus e o robô Figure pareçam ter pouca correlação, uma vez que você se aprofunda, a lógica técnica subjacente e o pensamento sobre IA são de fato abordagens diferentes para o mesmo objetivo. Esta é também a origem da "resposta final". .

Há décadas que falamos sobre inteligência artificial e o foco finalmente mudou da inteligência artificial para a inteligência.

Na estufa de plástico do destino, todo repolho que foi pulverizado com muitos pesticidas já sonhou em se tornar um vegetal orgânico livre de poluição.

# Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (WeChat ID: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo |