Como posso fazer com que o novo agente da Kimi crie um guia de viagem para o Dia Nacional para mim? Encontrarei alguma armadilha se viajar com IA?

Durante o feriado do Dia Nacional, grandes modelos de IA apresentaram homenagens na forma de onda após onda de atualizações.

A OpenAI lançou repentinamente o Sora2, o DeepSeek foi atualizado para a V3.2, o Zhipu foi atualizado para o GLM-4.6 e o ​​Kimi atualizou o aplicativo, e então escreveu discretamente esta frase em seu histórico de versões.

Kimi certamente também tem um "tributo". Na última quinta-feira, eles começaram a testar o modo Agente e lançaram um agente inteligente chamado "OK Computer".

Ao contrário da pesquisa aprofundada que compartilhamos anteriormente, a OK Computer vai além de simplesmente fornecer um relatório visual. Ela nos fornece um computador. Tudo o que podemos fazer com um computador, o agente da OK Computer pode fazer.

Mas há uma grande diferença entre ser capaz de fazer algo e fazê-lo bem. Como antes, usaremos testes reais para ver o desempenho do novo OK Computer da Kimi na categoria Agente.

A IA ajuda você a planejar um guia de viagem para o Dia Nacional

Primeiro, vamos dar uma olhada nos recursos de implantação do site. A velocidade é muito maior do que uma pesquisa aprofundada, mas acho que o efeito ainda está no nível de um "agente popular", especialmente a cor de fundo de algumas páginas ainda é roxo gradiente.

▲ Dica: Quero criar um site de viagens com várias páginas para o Dia Nacional. Requisitos: 1. A página inicial deve apresentar uma introdução a "Onde ir no Dia Nacional" e recomendar três destinos nacionais adequados para uma viagem de 3 a 5 dias. O conteúdo deve ser envolvente. 2. A segunda página deve ser um planejador de itinerários: organize a alimentação, o entretenimento e a acomodação para cada dia e crie uma planilha. 3. A terceira página deve ser uma calculadora de orçamento: divida as despesas em quatro categorias: transporte, acomodação, alimentação e ingressos, forneça uma faixa de preço aproximada e atualize o orçamento automaticamente se eu alterar o número de pessoas. 4. O design deve ser mobile-first, adequado para navegação em dispositivos móveis, com uma página limpa e organizada e, de preferência, decoração com emojis.
https://dpcbcrcmrjbym.ok.kimi.link/

Em termos de conteúdo, o layout e a seleção de imagens são muito razoáveis; no entanto, os locais recomendados são Pequim, Hangzhou e o Lago Oeste. Se você for ao Lago Oeste durante o feriado do Dia Nacional, provavelmente só verá pessoas. Portanto, considero que o desenvolvimento deste "Site de Viagens do Dia Nacional" não pode ser considerado excepcional.

Por outro lado, se eu pedisse à OK Computer para gerar diretamente um itinerário de viagem para mim e dissesse para ela agir como uma excelente planejadora de viagens e criar dois itinerários que evitassem completamente a Golden Week do Dia Nacional, os resultados seriam muito bons.

▲ Dica: A Golden Week do Dia Nacional está quase chegando, e três amigos e eu (um total de quatro pessoas) estamos planejando uma viagem de carro de sete dias. Nossos principais requisitos são "poucas pessoas, belas paisagens e uma experiência profunda", eliminando completamente filas e multidões. Por favor, assuma o papel de um planejador de viagens de ponta e crie dois itinerários distintos de "tour reverso" para nós. Crie uma apresentação de slides detalhada e bonita para cada rota para que possamos votar internamente.
https://3hhjy4acccol4.ok.kimi.link/

A estética é muito boa, a fonte, a imagem de fundo e as cores são muito bem escolhidas. No entanto, ainda sinto que o conteúdo é um pouco vazio e não há muito conteúdo que possa realmente me ajudar nas minhas viagens.

Na maioria das vezes, eu simplesmente sei que esses lugares existem, mas não tenho ideia do porquê ou como chegar lá. Além disso, costumo desconfiar um pouco desse conteúdo. Se me apresentassem uma atração recomendada por IA e uma foto de uma atração filtrada por Xiaohongshu, eu ainda escolheria a postada por um usuário de Xiaohongshu.

A OK Computer concluiu ambos os projetos muito rapidamente. Também testamos a pesquisa aprofundada do Kimi. Como resultado, levou quase uma hora e finalmente produziu um relatório de pré-visualização com mais de 50 páginas.

▲ Devido a limitações de espaço, o conteúdo completo pode ser encontrado em https://www.kimi.com/preview/19984f16-9a42-89a6-8000-05d52a6374b9

Como o Deep Research é diferente do OK Computer, o Deep Research tem apenas um relatório de visualização e o relatório não pode ser modificado.

A Qianwen também atualizou recentemente um grande número de novos modelos. No blog oficial deles, vi um assistente inteligente chamado "planejador de viagens". Se eu aplicar os mesmos requisitos, o resultado será melhor que o OK Computer da Kimi?

▲O PDF de 10 páginas lista claramente o período, o tipo de atividade e os possíveis custos de combustível. https://chat.qwen.ai/s/15769740-974a-4fbb-b0bf-dd835ea999ec

A resposta é de fato melhor. A Qwen, uma planejadora de viagens, aproveita ao máximo o vasto ecossistema do Alibaba. Em vez de simplesmente fornecer algumas atrações e conectá-las em uma rota, ela usa o AutoNavi Maps para determinar o itinerário apropriado usando latitude e longitude específicas. Isso é muito semelhante à recente plataforma de planejamento de viagens Fliggy AI, que também é uma empresa.

Os efeitos de outros produtos de agentes não são muito diferentes do OK Computer da Kimi. O agente ChatGPT gerou um PPT de 10 páginas, tão conciso quanto o anterior; e o Manus foi o mesmo, bonito, mas sem muito valor prático.

▲ Conteúdo gerado pelo agente ChatGPT, com base na mesma palavra de prompt

No entanto, a vantagem do Kimi é que ele pode produzir resultados semelhantes sem exigir configurações de rede adicionais.

Além disso, eles lançaram recentemente um plano de assinatura paga, que permite que todos os valores de gorjeta anteriores sejam deduzidos como taxas de assinatura, e usuários gratuitos também podem obter um número limitado de oportunidades de teste do OK Computer.

iPhone vs. Xiaomi 17 Pro Max

Também com base nos recursos Agentic do Kimi K2, o OK Computer navegará automaticamente na web, pesquisará conteúdo relevante e gerará imagens para completar o design da página da web.

Desta vez, as informações são mais abrangentes e precisas. Quando a OK Computer pesquisou conteúdo na web, vi que a maioria das fontes utilizadas eram veículos de comunicação internacionais de tecnologia, como o Verge. Ao usar o Kimi para pesquisas aprofundadas, as fontes de informação utilizadas foram, em sua maioria, páginas da web em chinês simplificado.

▲ Instrução: Ajude-me a criar um site com um layout dinâmico e responsivo, adequado para celulares e computadores. O conteúdo é "Comparação entre o iPhone 17 Pro Max e o Xiaomi 17 Pro Max". Requisitos: Obtenha as informações mais recentes sobre os dois celulares online, compare os principais pontos de venda, crie tabelas atraentes e destaque aspectos como câmera, chip, bateria, preço, etc. Deve haver uma comparação horizontal dos dois produtos, bem como uma comparação vertical, como a comparação entre o iPhone 17promax e o 16 promax e o Xiaomi 17promax e o 15 promax. Conclua também: qual vale mais a pena comprar? Use marcadores concisos para resumir as vantagens e desvantagens. Cada página deve ser concisa, com poucas palavras, mas com informações suficientes e ilustrações mais apropriadas.
https://rwsh4gkhckrxy.ok.kimi.link/

Além disso, o OK Computer também tem a função de gerar áudio a partir de imagens, como esta foto desmontada de uma câmera de celular, que me surpreendeu à primeira vista.

Entrega de agentes: uma demonstração impressionante, mas difícil de implementar

Depois desses testes, não é que as capacidades Agentic do Kimi K2 sejam inadequadas, mas sinto que a maioria dos produtos do tipo Agent ainda estão presos no estágio de " posso fazer algo, mas pode não ser útil ".

Quase todos os agentes afirmam ser capazes de fazer PPTs, relatórios de análise de negócios, planejamento de rotas de viagem, desenvolvimento e implantação web, etc. No entanto, acho difícil encontrar resultados finais que possam ser realmente usados ​​com confiança.

▲ GPDval é um novo método de avaliação usado para medir o desempenho de modelos em tarefas do mundo real com valor econômico nas 44 ocupações mostradas acima

Há alguns dias, a OpenAI lançou um novo teste de benchmark, o GDPval. Ele é descrito como uma "competição de habilidades vocacionais" conduzida por agentes de IA. O teste não é mais acadêmico, mas sim apresenta 44 ocupações reais, selecionadas dos nove setores que mais contribuem para o PIB dos EUA.

Essas tarefas foram elaboradas por especialistas experientes (como advogados, engenheiros e enfermeiros) com uma média de 14 anos de experiência, e o conteúdo entregue não era texto simples, mas sim formatos complexos, incluindo slides, planilhas, arquivos de design CAD, etc., assim como os produtos finalizados entregues pela Agent now.

O surgimento do GDPval é, na verdade, começar a resolver o problema do estágio de "Eu consigo fazer isso" para "Eu consigo fazer isso bem".

Avaliadores profissionais compararam os resultados do modelo com os de especialistas humanos. O Claude Opus 4.1 produziu resultados classificados como tão bons ou melhores que os humanos em quase metade das tarefas (47,6%).

Embora seja uma pesquisa da OpenAI, o primeiro lugar ainda é o Claude Opus 4.1. Acho que é por isso que o modelo Claude é amplamente elogiado na área de programação. Claude sabe programar, mas também sabe escrever um bom código.

Em relação aos motivos da incapacidade do agente de apresentar um bom desempenho, o Thinking Machines Lab, cofundado pela ex-executiva da OpenAI Mira Murati, publicou uma postagem em seu blog. Nela, eles afirmaram que os problemas de incerteza atualmente encontrados em grandes modelos de linguagem não se devem à aleatoriedade dos cálculos da GPU, mas sim à falta de invariância em lote no processamento de dados de treinamento.

Outro motivo é a falta de dados de treinamento disponíveis . Ao contrário do treinamento de uma IA para gerar uma única imagem, vídeo ou texto, o conteúdo que um agente precisa entregar é complexo, e as tarefas no mundo real são inúmeras e não podem ser categorizadas em um único tipo de mídia.

▲ Ao contrário dos humanos que aprendem a completar uma tarefa, os modelos grandes requerem um ambiente de aprendizagem por reforço simulado

A maioria das tarefas de agentes que vemos hoje em dia se concentra em criar um PPT, criar uma página da web, reservar um restaurante, navegar nas redes sociais em nosso nome, fazer compras automáticas, etc. Essa é apenas uma pequena parte do mundo real, sem mencionar que não há critérios claros de avaliação para essas tarefas.

O TechCrunch, um renomado veículo de mídia de tecnologia, relatou recentemente que o Vale do Silício está investindo pesadamente na construção de campos de treinamento simulados para agentes, chamados de "Ambientes de Aprendizado por Reforço". Alguns fundadores de empresas de IA descrevem esses "ambientes" como videogames chatos, incluindo navegadores simulados, sites de compras e até mesmo editores de código.

▲ Para verificar a conclusão da tarefa do agente, é necessário dividir a tarefa geral em etapas menores e criar um padrão de pontuação para verificar se o modelo de IA executou corretamente cada etapa. Fonte da imagem: https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers

Em tal "ambiente", o Agente de IA, como um jogador novato, aprende a completar de forma independente uma série de tarefas complexas de várias etapas, como comprar produtos e reparar códigos, por meio de repetidas tentativas, falhas e recompensas.

Naquela época, Fei-Fei Li deu um grande passo à frente na visão computacional com o conjunto de dados massivamente rotulado ImageNet, e ela também é conhecida como a "Madrinha da IA".

O desenvolvimento atual de agentes parece ser o mesmo. Sem um grande número de tarefas rotuladas como "ambiente de aprendizado por reforço", é difícil para os agentes se tornarem tecnologias de aprendizado profundo confiáveis, como reconhecimento facial; especialmente quando a essência da "alquimia" não mudou.

▲Capa do álbum OK Computer, este é o terceiro álbum de estúdio da banda de rock britânica Radiohead, lançado em 1997. Já se passaram quase 30 anos desde então e ele ganhou muitos prêmios, incluindo o Top 100 de álbuns.

Kimi ainda ama rock, desde o nome de sua empresa Moonshot (uma homenagem ao Pink Floyd) até o nome OK Computer (uma homenagem ao Radiohead).
Na introdução do álbum no Apple Music, o álbum OK Computer é descrito como uma expressão da exploração e reflexão das pessoas sobre novas tecnologias na véspera do milênio.

Apesar do clima generalizado de medo e melancolia, "OK Computer" continua esperançoso, transmitindo a crença de que o caminho da sociedade para o futuro não significa necessariamente que percamos nossa bondade.

Se você acha que o ritmo acelerado de vida imposto pela tecnologia está sobrecarregando você, a solução é bem simples: assim como Yorke canta no final da faixa de encerramento, “The Tourist”: “Idiota, vá mais devagar”.

O lançamento do OK Computer pela Kimi hoje parece refletir como a tecnologia está mudando nossos hábitos de trabalho e acelerando nosso ritmo de vida. No entanto, é claro que os atuais produtos de agentes no mercado dificilmente nos surpreenderão.

Seja Kimi ou ChatGPT, existem muitos produtos de agente semelhantes. Quando são lançados, costumam dizer que nosso agente possui essas funções e o que ele pode fazer, mas raramente dizem o que nosso agente pode realizar.

Não há necessidade de diminuir o ritmo, o verdadeiro OK Computer ainda está nos alcançando.

#Bem-vindo a seguir a conta pública oficial do WeChat do iFaner: iFaner (ID do WeChat: ifanr), onde mais conteúdo interessante será apresentado a você o mais breve possível.

iFanr | Link original · Ver comentários · Sina Weibo