Pare de perder tempo com lagostas inúteis; a melhor plataforma para agentes de IA atualmente é o carro.

São 6h45 da manhã. Seu calendário mostra uma reunião no centro de convenções às 9h00.
Antes mesmo de você se levantar, o agente já concluiu várias rodadas de avaliações em segundo plano.
A temperatura subiu alguns graus hoje, está um pouco quente; há um grande evento perto do local hoje, então as rotas habituais devem estar muito congestionadas; o carro ainda tem 62% de bateria, o suficiente para a viagem de ida e volta.
Em seguida, o sistema alterou automaticamente o lembrete de partida do horário original do alarme para 7h20, pré-ajustou a temperatura interna do carro para 22 graus Celsius e ligou seu podcast matinal habitual.
Ao descer as escadas, sair do elevador e abrir a porta do carro, ele já está como se tivesse acabado de ser limpo, a temperatura está perfeita, o caminho está livre e o conteúdo está preparado.
Você não apertou nenhum botão nem disse uma palavra, e mesmo assim o sistema já sabia o que fazer. Este é provavelmente o conceito mais concreto e fascinante que as pessoas têm de agentes de IA atualmente.

▲Jarvis, do Homem de Ferro, é a expressão máxima dessa fantasia.
Não é mais apenas uma caixa de diálogo em uma página da web, não é mais apenas um robô que responde à sua entrada.
Começa a sair da tela e a entrar no mundo físico, realizando aquelas pequenas tarefas que originalmente exigiam a intervenção simultânea das mãos, dos olhos e dos ouvidos.
O agente astuto se deparou com um obstáculo.
Ao longo do último mês, essa imaginação digna de ficção científica tornou-se repentinamente tangível. Mesmo pessoas que normalmente não prestam muita atenção à IA provavelmente já se depararam com o viral "Lobster OpenClaw".
Ao contrário das IAs do passado, que apenas conseguiam conversar, ferramentas como o OpenClaw parecem se encaixar melhor na imagem que o público tem de um "agente real". Ele pode assumir o controle do teclado e do mouse, rodar em segundo plano no terminal e chamar diretamente APIs do sistema para realizar tarefas.
Algumas pessoas o usam para escrever código, outras para organizar e-mails e planejar listas de tarefas, e outras ainda simplesmente para realizar tarefas diversas, como verificar voos, selecionar assentos e fazer check-in. É como um superestagiário que nunca tira folga — rápido, eficiente e, teoricamente, capaz de lidar com qualquer tarefa.

Mas a euforia surgiu e desapareceu rapidamente. O alto custo da configuração e utilização do poder computacional, aliado às frágeis configurações de segurança padrão, significa que ainda existem muitos obstáculos a serem superados para transformá-lo em produtividade estável.
Portanto, a opinião pública sofreu uma reviravolta em um curto período de tempo. Primeiro, dizia-se que "surgiu o primeiro grupo de pessoas que ganharam dinheiro com lagostas", depois passou a ser "surgiu o primeiro grupo de vítimas de lagostas" e, mais tarde, algumas pessoas chegaram a pagar para que outros fossem até suas casas desinstalar o software.
A mesma situação se aplica aos agentes móveis. Os telefones tipo "beanbag", que podem comparar preços automaticamente, fazer pedidos e até enviar mensagens pelo WeChat, foram restringidos pelas principais plataformas assim que surgiram.

O agente na tela é claramente muito inteligente, mas sempre se depara com um obstáculo no último passo. Esse "obstáculo" às vezes são permissões de sistema, às vezes um ecossistema fechado e às vezes os interesses comerciais das grandes empresas.
Essa situação destaca o enorme potencial de outro terminal de hardware – o automóvel – que se tornou o cenário onde os Agentes têm maior probabilidade de serem implantados primeiro.
Isso é bastante irônico em seu contexto histórico.
Quando os veículos de novas energias surgiram, a indústria acreditava quase unanimemente que os carros inteligentes seriam o próximo grande sucesso de hardware depois dos smartphones.
Naqueles anos, as montadoras de automóveis usavam a mesma retórica que os fabricantes de telefones celulares: sistema operacional desenvolvido internamente, ecossistema fechado, loja de aplicativos, plataforma para desenvolvedores e disputa pela atenção do usuário.
Todo mundo está transformando seus carros em "grandes telefones sobre rodas". Mercedes-Benz, BMW e Volkswagen estão falando sobre seus sistemas embarcados, Geely e Volvo criaram o ECARX, e a BYD já lançou seu SDK para veículos há tempos.
Naquela época, todos compartilhavam um otimismo familiar, como se, contanto que o sistema de telefonia móvel fosse replicado, a tela de controle central se tornaria o novo local principal, e a receita de publicidade, o compartilhamento de receita e os serviços de valor agregado fluiriam dali.

▲ Diversas aplicações em veículos
Mas um carro não é um celular.
Mais tarde, as montadoras descobriram que, além da navegação e da música online, a maioria dos aplicativos para carros apresentava índices de uso baixíssimos. Ninguém realmente queria jogar no carro, fazer compras pelos sistemas integrados era constrangedor, vídeos curtos eram imediatamente alvo das autoridades de segurança e até mesmo o aparentemente promissor "karaokê no carro" tinha um uso muito menor do que o anunciado.
Afinal, as pessoas dirigem para viajar, não para operar uma tela.
Um celular é um aparelho que pode monopolizar sua atenção. Você pode olhar para a tela, deslizar os dedos e ficar completamente imerso nele. Mas um carro é diferente, especialmente ao dirigir, onde os olhos do motorista devem estar na estrada e ambas as mãos no volante.
A uma velocidade de 120 quilômetros por hora na estrada, se você desviar o olhar da estrada por apenas 2 segundos, o veículo já terá percorrido 67 metros. Dentro desse ponto cego de 67 metros, qualquer acidente pode ocorrer.
Os proprietários de carros logo perceberam isso e se viram obrigados a navegar por menus secundários na tela para ligar a ventilação dos bancos. Esse design aparentemente "avançado" só gera frustração na estrada.
Por isso, a trajetória de desenvolvimento dos cockpits inteligentes não seguiu o caminho dos "ecossistemas de aplicativos prósperos", mas sim deu um salto quase direto para outra revolução: uma transformação interativa impulsionada por grandes modelos. Os aplicativos veiculares que antes eram muito aguardados foram marginalizados antes mesmo de terem a chance de prosperar.

▲ As montadoras estão gradualmente reintroduzindo botões físicos.
O que os celulares não conseguem fazer, os carros conseguem fazer por natureza.
O novo protagonista em cena tornou-se o Agente. A ênfase não está mais em "quantos pontos de contato posso lhe proporcionar", mas sim em "como realizar as coisas para você".
Em 2019, o XPeng P7 destacava o "controle de voz para todos os cenários" como um grande diferencial de venda. As avaliações da época frequentemente mostravam situações em que o motorista dizia "Estou com um pouco de frio" e o ar-condicionado ajustava automaticamente a temperatura para 2 graus Celsius a mais. Isso sem dúvida representou um grande avanço na época, muito mais conveniente do que tocar manualmente na tela e com uma sensação muito mais futurista.
No entanto, em termos de lógica de engenharia, ainda depende de uma tabela de mapeamento "declaração-instrução" predefinida. Quando o sistema ouve "Estou com um pouco de frio", ele encontra a opção correspondente na tabela de códigos e executa "Aumente a temperatura do ar-condicionado em 2 graus". Isso se assemelha mais a um dicionário extenso, que folheia as páginas rapidamente, mas carece de qualquer capacidade analítica. Se você disser a palavra-chave correta, ele responde; se você a reformular ligeiramente, ele começa a dizer "Ainda não sei".

▲ Olá, pequeno P
No entanto, em breve veremos agentes com capacidades de percepção proativa, que serão capazes de compreender intenções, perceber proativamente e programar ações complexas em diversos sistemas.
Ele não ficará apenas esperando que você dê ordens; em vez disso, age como um mordomo experiente, observando, ouvindo e registrando silenciosamente. Por exemplo, se você disser: "Não estou de bom humor hoje", o sistema antigo muitas vezes apresentaria uma falha educada ou simplesmente ofereceria algumas palavras clichês.
Porque esse comando não corresponde a um botão específico. O agente pode associá-lo a emoções, ambiente e preferências, ajustando automaticamente o volume, diminuindo a intensidade das luzes ambientes ou mudando para uma música menos agitada. Ele pode não adivinhar perfeitamente todas as vezes, mas não está mais simplesmente executando comandos.
A Tencent já apresentou um agente que reconhece cenários e pode fornecer sugestões proativamente com base no horário, localização e hábitos do usuário, além de se integrar a serviços como pedidos de comida e pagamento de estacionamento.

Existem também algumas linhas de pesquisa preliminares para agentes de cabine que podem identificar se os passageiros traseiros estão dormindo e, em seguida, reduzir automaticamente o volume na parte traseira, ajustar a temperatura e até mesmo alterar o modo de saída de ar.
Imagine uma família saindo para passear no fim de semana, dirigindo em uma rodovia elevada, com a criança dormindo no banco de trás. Um sistema de voz tradicional exigiria que você dissesse: "Diminua um pouco a temperatura do ar-condicionado traseiro".
O agente real, no entanto, pode determinar instintivamente que o que precisa ser feito neste ponto não é apenas uma ação, mas uma série de ações coordenadas: diminuir o volume do áudio traseiro, ajustar as saídas de ar-condicionado, reduzir ligeiramente a entrada de luz pelas janelas para diminuir o brilho na parte traseira; mudar o chassi para um modo mais suave para filtrar pequenas irregularidades; e, se a condução inteligente estiver ativada, ajustar a estratégia seguinte para ser mais conservadora, visando uma aceleração e desaceleração mais suaves. Os adultos nos bancos dianteiros podem nem perceber que deram algum comando, já que o ambiente da cabine já foi ajustado silenciosamente.
Isso significa que não se trata mais apenas de uma única função em funcionamento, mas sim do veículo inteiro como um todo, completando um ciclo fechado da percepção à resposta.

O que realmente diferencia os automóveis de outros terminais é a sua capacidade de colaborar entre diferentes domínios.
No passado, a arquitetura eletrônica e elétrica dos automóveis assemelhava-se a uma grande casa subdividida. O domínio do cockpit gerenciava o entretenimento, o ar-condicionado e os assentos; o domínio do chassi gerenciava a suspensão, os freios e a direção; e o domínio da condução inteligente gerenciava os sistemas avançados de assistência ao condutor (ADAS) e a condução autônoma. Cada camada tinha seus próprios limites e elas não eram naturalmente conectadas entre si como um único cômodo.
Os sistemas de voz tradicionais normalmente permitem apenas operações pontuais dentro de um único domínio; em outras palavras, é como transmitir uma mensagem através de uma porta. Os agentes, no entanto, são diferentes. Eles frequentemente recebem intenções ambíguas, mas podem contornar múltiplas barreiras e coordenar diversos sistemas simultaneamente.
É precisamente por isso que o carro é talvez o contêiner mais adequado para a implantação de agentes dentre todos os terminais atualmente. A razão reside em sua uniformidade, seu sistema fechado e sua controlabilidade.

Um exemplo negativo típico são as casas inteligentes.
Quem já fez reformas em casa sabe que os eletrodomésticos costumam ser de marcas diferentes: os aparelhos de ar condicionado são de uma marca, as lâmpadas de outra, os motores das cortinas de outra ainda, e as caixas de som e as fechaduras das portas usam protocolos específicos.
Pode parecer que você está comprando um sistema de "vida inteligente", mas o que você realmente recebe é, muitas vezes, um conjunto de dispositivos que não interagem entre si.
O protocolo Matter foi lançado em 2022, com o objetivo de criar uma linguagem comum para o setor, mas diversos fornecedores ainda se apegam a interfaces proprietárias e barreiras de dados no nível subjacente.
Portanto, a experiência mais tranquila com casas inteligentes atualmente ainda é, muitas vezes, o "pacote para toda a família".

O dilema enfrentado pelos dispositivos móveis é muito semelhante. Imagine que você queira que o assistente do seu celular peça um café, depois precise lembrar um amigo no WeChat e, por fim, acesse o Gaode Maps. Parece apenas três etapas, mas por trás disso existe uma longa e delicada disputa de poder entre vários superaplicativos. Se alguma das partes se sentir em desvantagem, a conexão será interrompida.
Em contraste, a situação com os carros é muito mais simples. Pelo menos dentro do ambiente fechado de um carro, as regras são definidas principalmente pelos próprios fabricantes de automóveis. O chassi, o ar condicionado, o sistema de áudio, os bancos e as luzes fazem parte, inerentemente, da mesma rede.
É claro que o interior de um carro não é uma utopia. Seus cenários de uso são mais específicos e seu núcleo sempre gira em torno de viagens, direção e da experiência na estrada. Isso torna mais fácil para os agentes criarem uma lógica contextual estável dentro do carro do que em um celular.
No entanto, os custos de tentativa e erro são correspondentemente muito maiores. Um sistema de casa inteligente pode avaliar mal o pior cenário possível — as luzes acenderem no meio da noite; mas se o agente de um carro avaliar mal a situação depois de obter o controle da segurança, as consequências podem ser desastrosas.

De "você sentado no carro" a "você por completo"
Nos últimos anos, a competição no mercado de veículos de novas energias na China tornou-se cada vez mais acirrada, com a diferença em termos de hardware diminuindo. Agora, o verdadeiro diferencial é a experiência inteligente do usuário.
Aliadas à altíssima aceitação de novas tecnologias entre os usuários chineses, essas forças combinadas criaram um acelerador singular. É por isso que, nos últimos dois anos, a maioria das implantações de veículos autônomos mais agressivas e em larga escala ocorreu na China.
No entanto, uma vez que o agente embarcado atinja um certo estágio de desenvolvimento, ele logo enfrentará novos gargalos. Não basta simplesmente reconhecer "você sentado no carro".
Sabe que tipo de música você gosta de ouvir e qual a temperatura ideal do seu ar-condicionado, o que é útil, mas ainda muito básico. Também precisa saber a que horas você foi dormir ontem à noite, a que horas tem uma reunião amanhã, onde você costuma ir ultimamente e quando você menos quer ser incomodado.
Isso exige que você seja compreendido como uma "pessoa completa" que vive em uma linha do tempo contínua.
Essa é precisamente a maior vantagem de empresas como a Huawei e a Xiaomi, que possuem um ecossistema completo. Sua ambição vai além do "agente no carro"; elas visam construir um "agente pessoal" que abranja diferentes dispositivos.
Na semana passada, a Xiaomi lançou o Xiaomi Miclaw, um produto para teste de agentes de IA em dispositivos móveis. Ele é baseado no modelo MiMo Large, desenvolvido pela própria empresa, e seu principal objetivo é verificar as capacidades de execução de tarefas desse modelo no ecossistema "humano, veicular e doméstico".

O Miclaw funciona como um aplicativo de sistema e pode acessar profundamente mais de 50 funcionalidades subjacentes de telefones celulares, incluindo SMS, calendário, câmera e até mesmo dispositivos domésticos inteligentes Mi Home, dando um salto do "diálogo" para a "execução".
O que é ainda mais notável é seu design de "autoevolução", que suporta memória em nível de arquivo, criação de subagentes e acesso a serviços MCP. Ele pode projetar sistemas de memória de forma autônoma e criar subagentes especializados. Quanto mais é usado, melhor compreende as preferências e os hábitos do usuário.
Embora a Miclaw ainda não tenha concluído a integração de todo o ecossistema de pessoas, veículos e residências, a tendência já é bastante óbvia: os dados comportamentais que você deixa em diferentes dispositivos serão reunidos para formar uma trajetória de vida completa.

▲Algumas funções do Xiaomi Claw
Neste ponto, a cena matinal descrita no início do artigo já não é um filme de ficção científica, mas sim o quotidiano de um número cada vez maior de pessoas.
O agente aprendeu sua rotina, seus hábitos e seu estado fisiológico, então ele silenciosamente antecipa seu horário de despertar, replaneja sua rota e providencia um ambiente confortável na cabine para você.
A forma final do desenvolvimento tecnológico muitas vezes apresenta uma "inversão" interessante: as tecnologias mais maduras geralmente não são nem ficção científica nem atraentes.
Quando a máquina a vapor foi inventada, todos ficavam olhando para as enormes colunas de vapor branco; mas quando a eletricidade se popularizou, as pessoas raramente olhavam para baixo para prestar atenção à fiação nas paredes.

O mesmo se aplica aos Agentes. Seu verdadeiro poder reside não em treinar pessoas para se tornarem operadores de máquinas mais habilidosos, nem em obrigá-las a memorizar mais palavras-chave e comandos; mas sim em sua capacidade de libertá-las de forma sutil e completa de operações tediosas.
O carro do futuro ainda será o mesmo carro — o volante, os bancos, os vidros e os pneus estarão todos lá. Mas ele começará a entender seu estilo de vida, lembrar-se de suas preferências pessoais e cuidar silenciosamente de cada pequena coisa que você costumava ter que fazer e pensar por si mesmo.
#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

