O custo da tarefa é apenas 1/9 do Claude Opus 4.6, e a eficiência do modelo Flash de atualização gradual é significativamente melhorada.

junho 2, 2026 gurinho

Em 1492, Colombo navegou pelas profundezas do Atlântico. Embora a velocidade seja essencial para as viagens oceânicas, o que realmente determina se uma frota pode chegar ao seu destino é a disponibilidade de água doce, alimentos e a capacidade do navio, mastros e cordame de resistir a longas tempestades. Foi essa lógica de engenharia, pouco romântica, que reescreveu o comércio transoceânico.

Mais tarde, os holandeses projetaram o navio mercante "Flutt": era mais barato de construir, tinha menos tripulantes e porões de carga maiores, o que lhe permitia fazer viagens de ida e volta estáveis na rota do Atlântico. As viagens oceânicas transformaram-se, assim, de aventuras solitárias de aventureiros em um negócio replicável, calculável e escalável.

A competição atual em modelos de IA também chegou a uma encruzilhada semelhante.

No passado, quando se falava em modelos, costumava-se mencionar parâmetros, rankings e desempenho máximo. Mas, após utilizar agentes de codificação como o Claude Code e o Codex, a APPSO percebeu claramente que, à medida que os agentes de IA começavam a entrar no ambiente de produção, as verdadeiras preocupações mudavam: se eles conseguiriam lidar continuamente com solicitações de alta frequência, se conseguiriam invocar ferramentas de forma estável, se conseguiriam compreender interfaces complexas e se poderiam ser integrados aos processos empresariais existentes e operar por um longo período.

As respostas a essas perguntas geralmente não são encontradas em rankings de referência.

Recentemente, a StepStar lançou oficialmente e disponibilizou o código aberto do Step 3.7 Flash. Como um modelo Flash de nova geração para agentes de nível de produção, ele atende principalmente a fluxos de trabalho de Agente, Codificação, Busca e multimodais.

Seu surgimento coincidiu perfeitamente com essa encruzilhada. Agentes de nível de produção não precisam mais apenas de velocidade e preço acessível; mais importante ainda, precisam ser confiáveis, fáceis de usar, fáceis de implementar e capazes de produzir resultados diariamente em fluxos de trabalho reais.

Os modelos Flash já não substituem os modelos topo de linha.

No passado, o modelo Flash era frequentemente visto como uma versão simplificada do modelo principal, com seus principais atrativos sendo a velocidade e o preço acessível. No entanto, à medida que o Agente se torna o núcleo do fluxo de trabalho, o papel do modelo Flash mudou.

Se um modelo tende a se desviar de seus objetivos em tarefas com múltiplas rodadas, nem empresas nem indivíduos se sentirão confortáveis em adotá-lo. Por outro lado, um modelo que consegue encontrar um equilíbrio entre velocidade, custo, disponibilidade de ferramentas, compreensão multimodal e compatibilidade com o ecossistema tem o potencial de se tornar uma capacidade fundamental verdadeiramente confiável para sistemas de agentes.

Em certo sentido, o modelo Flash necessário na era Agent foi atualizado de um "modelo pequeno e mais rápido" para um "modelo base com a maior eficiência de produção".

É necessário que ele atenda aos limites de capacidade do modelo principal, ao mesmo tempo que resista à pressão de eficiência de chamadas de agentes em larga escala. O Flash, na etapa 3.7, se posiciona como esta última opção — um modelo de base de agentes de próxima geração.

O primeiro obstáculo para agentes de nível de produção é compreender o ambiente de trabalho do mundo real.

Um grande número de tarefas dos agentes está distribuído por interfaces complexas, documentos de escritório, sistemas de gráficos, páginas de navegador, softwares especializados e ferramentas internas. Agentes que são bons apenas em responder perguntas baseadas em texto terão dificuldade em lidar de fato com essas tarefas.

A etapa 3.7 do Flash concentra-se em aprimorar a compreensão multimodal nativa e as capacidades de execução.

Ele consegue compreender interfaces de usuário, gráficos, documentos, imagens e interfaces de aplicativos, e pode recortar, ampliar e reler imagens de forma autônoma em problemas visuais complexos. Ao se deparar com informações incertas, o modelo também pode iniciar buscas proativamente e validar informações textuais e de imagem.

Eis uma abordagem de design contra-intuitiva. Para um modelo Flash ativado por 11 bits, não é economicamente viável concentrar grandes quantidades de conhecimento visual nos pesos. O Step adota a abordagem oposta: os pesos contêm apenas o mecanismo de inferência principal, extrapolando os limites perceptivos e o conhecimento do mundo para o estágio de inferência. Ele utiliza uma velocidade extremamente alta para trocar a capacidade de "dar mais algumas olhadas e verificar mais algumas vezes" pela parte da capacidade que "não teria parâmetros suficientes desde o início".

Baixa latência e alta taxa de transferência não são apenas vantagens durante a implementação, mas tornam-se parte da própria capacidade, o que é engenhoso e inteligente.

Por exemplo, nesta demonstração de operação do cockpit, o usuário só precisa inserir "como decolar", e o modelo selecionará automaticamente a área do cockpit, identificará os instrumentos, botões e informações de operação principais, compreenderá a lógica de operação da interface atual e gerará um tutorial passo a passo.

O ponto crucial aqui não é apenas que ele consegue reconhecer uma imagem da cabine de um piloto, mas, mais importante ainda, que consegue transformar um ambiente visual denso, desconhecido e dependente do contexto em um guia de tarefas que uma pessoa pode seguir.

Ser capaz de entender algo e ser capaz de ensinar como fazê-lo são coisas completamente diferentes em termos de dificuldade.

Também integramos o Step 3.7 Flash em um processo de agente GUI móvel e o demonstramos usando um telefone vivo.

Após conectar o telefone ao Mac via USB e conceder permissões de depuração ADB, o terminal pode capturar uma captura de tela do estado atual do telefone e exibi-la de forma síncrona via scrcpy. O script então envia essa captura de tela para a Etapa 3.7 Flash, permitindo que o modelo determine o que está acontecendo na tela.

Por exemplo, mostramos ao Step 3.7 Flash uma visualização da lista de tendências de leitura do WeChat em um celular. Ele não apenas lê as palavras na página, mas também entende a estrutura da lista: quais são os títulos dos livros, quais são as capas, qual é a classificação atual, quantas pessoas estão lendo e qual livro corresponde ao valor de recomendação.

A importância dessa funcionalidade reside no fato de o agente interagir com um aplicativo real, e não com uma captura de tela formatada de forma organizada. Ele precisa compreender a página antes de poder continuar ajudando o usuário a encontrar livros, comparar popularidade, compilar rankings ou mesmo executar a próxima etapa.

Em seguida, inserimos o recurso em uma página semelhante ao "Pequeno Juiz" do Meituan para lidar com a contestação do comerciante. A página inclui avaliações de usuários, evidências fotográficas, a resposta do comerciante e botões de processamento como "O lado do usuário é mais justificado" e "O lado do comerciante é mais justificado".

Para o modelo, isso não é mais um simples OCR; trata-se de compreender um processo de negócios: quem está reclamando, quais são os pontos de discórdia, quais são as evidências e o que a plataforma permite em seguida. Para que agentes multimodais entrem em um fluxo de trabalho real, eles frequentemente encontram interfaces que misturam texto, imagens, julgamentos e entradas acionáveis.

Ao acessar a cena do Blender, quando o usuário digitar "como excluir este bloco", o modelo reconhecerá a estrutura da interface do Blender, as camadas, as barras de ferramentas e o estado de edição atual, e então fornecerá os passos para excluir o bloco especificado.

Em seguida, vamos analisar o design da interface do aplicativo. Quando os usuários pedirem ao modelo para explicar "o que há de interessante nesses designs", o modelo identificará o conteúdo informativo em diferentes imagens, compreenderá as relações entre os elementos de design e gerará uma análise profissional.

Etapa 3.7 Outra capacidade fundamental do Flash é o aprimoramento das redes e da busca visual.

Em cenários empresariais reais, os problemas que os agentes encontram frequentemente envolvem informações dinâmicas, dados externos, evidências de múltiplas fontes e uma série de entradas incompletas. Se um modelo se baseia apenas em seu próprio conhecimento limitado, ele está sujeito a falhas em termos de pontualidade e precisão.

A demonstração "Rui Shi Lou" é um exemplo típico. O modelo primeiro lê pistas visíveis nas imagens enviadas pelos usuários, gera termos de busca com base nessas pistas, usa ferramentas de web scraping para buscar informações e, finalmente, combina as informações visuais da imagem com as informações textuais online para formar uma resposta completa.

A busca aqui não é mais tão simples quanto retornar uma sequência de links de páginas da web. O modelo busca, filtra, compara e organiza ativamente as evidências em torno do objetivo da tarefa. É exatamente assim que os Agentes de Busca e os Agentes de Pesquisa devem operar.

A documentação oficial afirma que o Step 3.7 Flash demonstra desempenho próximo ao de modelos de ponta em larga escala em benchmarks para tarefas complexas de visão computacional, como SimpleVQA Search e V* (Python). Isso significa que o modelo pode continuar trabalhando em tarefas mesmo com informações insuficientes e reduzir respostas não verificadas.

Ter 40 agentes trabalhando simultaneamente é a abordagem correta para que modelos de grande escala consigam realizar as tarefas.

A diferença entre um agente e um chatbot comum reside na sua maior densidade de chamadas.

Uma sessão típica de perguntas e respostas geralmente envolve apenas uma rodada de interação, enquanto um Agente precisa observar repetidamente o ambiente, invocar ferramentas e obter resultados para concluir uma tarefa. Um Agente de Programação precisa ler código, modificar arquivos e executar comandos; um Agente de Busca precisa recuperar, verificar e organizar informações; e um Agente de Escritório precisa processar planilhas, documentos e e-mails.

Se o número de chamadas aumentar significativamente, a velocidade e o custo do modelo se tornarão problemas de nível sistêmico.

A Etapa 3.7 Flash adota uma arquitetura MoE esparsa com um total de 196 bilhões de parâmetros, mais 1,8 bilhão de ViT, e um parâmetro de ativação de apenas 11 bilhões, atingindo uma velocidade máxima de geração de 400 tokens/s. Para agentes de alta frequência, agentes de codificação, agentes de busca, agentes multimodais e agentes de trabalho intelectual corporativos, isso significa que mais rodadas de observação, invocação e inferência podem ser concluídas no mesmo período de tempo.

Por exemplo, o Step 3.7 Flash pode criar um cluster de agentes, permitindo que 40 pessoas virtuais com identidades diferentes atuem como uma equipe de avaliação de produto, fazendo julgamentos paralelos sobre um problema do produto e resumindo suas preferências para 5 direções de MVP em tempo real.

A vantagem de executar agentes em lotes reside aqui.

No passado, realizar uma análise por modelo uma única vez era tolerável em termos de custo e latência. No entanto, quando uma empresa opera dezenas de agentes simultaneamente, cada um atuando como usuário, especialista, vendedor, gerente de produto, gerente de operações e representante de atendimento ao cliente, a capacidade de processamento torna-se imediatamente um pré-requisito. Velocidade insuficiente leva a feedback lento; preços excessivamente altos impossibilitam a escalabilidade.

De forma semelhante, a construção paralela e em tempo real de grandes grafos de conhecimento por agentes também é uma tarefa frequente e de múltiplas etapas. O valor do modelo reside não apenas na sua velocidade de geração, mas também na quantidade de observação, recuperação e raciocínio que ele pode realizar por unidade de tempo.

Em seguida, analisei a organização da informação. Dei-lhe um conselho: "Preciso escrever uma visão geral sobre condução autônoma, então preciso pesquisar quatro áreas separadamente: caminhos técnicos, políticas e regulamentações, estrutura de mercado e empresas representativas."

Essas tarefas podem parecer simples agregação de dados, mas, na prática, desencadeiam múltiplas rodadas de busca, verificação de origem, classificação de conteúdo e saída estruturada. Quanto mais longa a cadeia de tarefas e mais frequentes as chamadas, mais facilmente as diferenças no desempenho do modelo podem ser amplificadas.

O Step 3.7 Flash me impressionou com sua velocidade, sem comprometer a qualidade. Ele coletou informações de quatro fontes diferentes na internet e as organizou em suas respectivas seções. O roteiro técnico foi explicado de forma clara, e as informações sobre políticas, regulamentações e estrutura de mercado também foram separadas. Não houve nenhuma situação em que as diferentes fontes estivessem misturadas, e o resultado estruturado apresentou todos os níveis necessários.

Vale ressaltar que o Step 3.7 Flash é extremamente econômico na execução de tarefas, especialmente para tipos de tarefas de alta frequência, como as de Agente.

Uma tarefa de um único agente normalmente envolve analisar, recuperar e ler páginas da web, acionar ferramentas, comparar resultados e organizar a saída, resultando em um número muito maior de chamadas em comparação com uma sessão típica de perguntas e respostas. A diferença no custo por tarefa se amplifica rapidamente quando considerada em toda a cadeia de tarefas.

Os dados oficiais mostram que, quando o Modo Consultor está ativado, as capacidades de programação do Step 3.7 Flash atingem 97% das do Claude Opus 4.6, mas o custo por tarefa é apenas cerca de um nono deste último.

Portanto, o valor do Step 3.7 Flash não pode ser resumido simplesmente como "rápido". No contexto de cargas de trabalho de agentes, ele resolve três problemas simultaneamente: alta taxa de transferência reduz o tempo de espera, custos de tarefas mais baixos suportam operação em larga escala e suas capacidades de programação, próximas às dos modelos de ponta, permitem sua entrada em fluxos de trabalho reais e a execução de tarefas contínuas e complexas.

Além disso, para que um agente se integre com sucesso a um sistema de produção, chamadas de ferramentas estáveis são cruciais. O Step 3.7 Flash otimizou chamadas de ferramentas de alta confiabilidade e orquestração. Oficialmente, afirma ser capaz de chamar APIs, navegadores, terminais, ferramentas do Office e sistemas externos de forma confiável em fluxos de trabalho de agentes de longa duração e com múltiplas etapas, mantendo trajetórias de tarefas consistentes e reduzindo a probabilidade de desvios e falhas de execução.

Diversos conjuntos de dados foram divulgados pela equipe oficial. O Step 3.7 Flash alcançou uma taxa de aprovação de 49,5% no Toolathlon, que testa a colaboração com múltiplas ferramentas; 67,1% no ClawEval 1.1, que testa a execução de tarefas autônomas diárias em ambientes reais; e 45,8% no GDPval, que abrange 44 tarefas ocupacionais diferentes. Nos níveis de dificuldade baixo, médio e alto do τ²-bench Telecom, a taxa de aprovação ultrapassou 98%.

É claro que existe outra condição para a produção de agentes que muitas vezes é subestimada: o modelo deve ser adaptado ao fluxo de trabalho. O modelo geralmente é inserido em um ambiente complexo, cercado por modelos de texto de prompts, protocolos de ferramentas, ambiente de navegador, sistema de arquivos, executor de código, conjunto de avaliação, sistema de permissões e processo de negócios.

Em resposta, o Step 3.7 Flash implementou otimizações de compatibilidade para ferramentas de codificação e agentes convencionais, como Claude Code, Kilo Code, Roo Code, OpenCode, Hermes Agent e OpenClaw, e também se adaptou aos protocolos de chamada e caminhos de desenvolvimento de ferramentas como MCP e Skills.

Dessa forma, os desenvolvedores podem integrar modelos com mais facilidade em frameworks de agentes existentes, sem precisar refatorar todo o processo por completo. Para as empresas, o valor da adaptação é evidente: quanto mais fácil for a integração de um modelo aos sistemas existentes, menor será o ciclo de testes e implantação, e menores serão os custos de engenharia.

Atualmente, o Step 3.7 Flash foi integrado e validado com sucesso em projetos de ecossistemas de agentes e desenvolvedores, como Kilo Code, Nous Research e Lemonade. A StepStar também está trabalhando com infraestrutura de IA e plataformas de inferência, como Fireworks AI, DeepInfra e Modal Labs, para garantir a compatibilidade, e posteriormente se integrará a plataformas internacionais de agregação de modelos e desenvolvimento, como OpenRouter e ZenMux.

▲ https://huggingface.co/stepfun-ai/Step-3.7-Flash

Até o momento, a documentação oficial também fornece acesso ao Step 3.7 Flash por meio do Model Page, GitHub, Hugging Face, ModelScope, API de plataforma aberta nacional, API de plataforma aberta internacional, experiência online do Studio e o aplicativo Step AI.

Esses pontos de entrada significam que ele está simultaneamente aberto a testes de desenvolvedores, acesso à API corporativa e uso dentro do ecossistema de código aberto. Mais importante ainda, o Step 3.7 Flash suporta implantação tanto na nuvem quanto em infraestruturas locais. Uma versão oficial com suporte a múltiplas precisões também está disponível para uso no lado do cliente, otimizada para estações de trabalho pessoais e ambientes locais.

O feedback de desenvolvedores estrangeiros também oferece uma perspectiva que vai além dos dados oficiais. Um teste local do Ministério da Educação comparou o DeepSeek V4 Flash, o Step 3.7 Flash e o Minimax M2.7, mostrando que o Step 3.7 Flash superou os outros modelos em agg@64, atingindo uma velocidade de 2123,13 tok/s.

Alguns desenvolvedores também mencionaram que, após escreverem código usando o Gemini 3.5 Flash e, em seguida, terem o código verificado pelo Step 3.7 Flash, conseguiram encontrar mais de sete pequenos bugs e erros. Seja em relação ao desempenho local ou à depuração de código, isso demonstra claramente que o Step 3.7 Flash começou a ser usado em processos de desenvolvimento reais e está sendo utilizado por desenvolvedores como uma ferramenta de produtividade que pode ser usada a longo prazo.

O modelo base deve ser projetado para agentes.

Após a experiência com o Step 3.7 Flash, a APPSO constatou que ele enfatiza a praticidade da engenharia mais do que a busca por pontuações de referência em uma determinada dimensão.

Busca multimodal baseada em rede, invocação de ferramentas, compatibilidade com frameworks, implantação local, baixo custo e alta taxa de transferência. Individualmente, nenhuma dessas características é nova, mas juntas elas preenchem perfeitamente as lacunas que os agentes mais precisam em ambientes de produção.

Este caminho não é sofisticado, mas se adequa bem ao estágio atual de desenvolvimento de agentes. No passado, quando questionávamos um modelo, perguntávamos se ele era inteligente o suficiente. Mas na era dos agentes, a verdadeira questão deveria ser: para quem este modelo foi projetado?

As duas questões decorrem de motivações diferentes.

Um dos aspectos é que o modelo é otimizado para humanos, o que significa que, por padrão, ele é usado por um humano que consegue ler, esperar e preencher as lacunas mentalmente. Você faz uma pergunta, ele responde; alguns segundos de atraso não são problema, e você pode preencher as lacunas se a resposta for ocasionalmente vaga.

Mas o Agente não. O Agente precisa trabalhar sem parar no ciclo de observação, invocação, inferência e correção de erros. Ele pode fazer mais requisições em um dia do que uma pessoa fala em um ano. Ele não substitui o modelo; se o modelo falhar, ele também falha.

Um modelo otimizado para humanos pode não ser adequado para um agente. É por isso que o termo "Flash" assumiu um novo significado na era dos agentes. Não se trata mais apenas de um substituto barato para um produto de ponta, mas sim de algo que precisa ser redesenhado do zero para atender às necessidades específicas do agente.

Etapa 3.7 Flash Essas características correspondem exatamente a essa lógica.

A multimodalidade nativa é necessária porque o agente precisa primeiro visualizar o contexto da tarefa; 400 tokens/s são necessários porque chamadas de alta frequência não toleram lentidão; a estabilidade das chamadas da ferramenta é necessária porque uma falha em um elo de uma tarefa de longa duração fará com que todo o processo falhe; a adaptação do ambiente é necessária porque, por mais robusto que seja o modelo, ele é inútil se não puder ser integrado ao sistema existente.

Não se trata de visar rankings; trata-se de "como os agentes podem trabalhar de forma eficiente e com boa relação custo-benefício". Da Etapa 3.5 Flash à Etapa 3.7 Flash, o que a JetStar vem aprimorando desde o início é, na verdade, a mesma coisa: tornar o modelo projetado para o agente e impulsioná-lo para o uso comercial em larga escala.

Isso se tornará um importante caminho evolutivo para o modelo no futuro, e a Etapa 3.7 Flash não é o fim. Mas nos mostra uma mudança: ao avaliar o modelo da era dos Agentes, não devemos nos concentrar apenas em quão inteligente ele é, mas também em se ele está disposto a compreender esses custos de engenharia triviais um a um.

O que realmente mudou o mundo em 1492 não foi a perigosa travessia de Colombo, mas sim a subsequente navegação constante dos navios mercantes da classe Fluke — sua capacidade de zarpar, retornar, carregar mercadorias e partir novamente. Os aventureiros foram responsáveis por chegar ao outro lado, enquanto os navios mercantes foram responsáveis por transformar esse lado em uma rota marítima.

O mesmo princípio se aplica quando a competição entre os modelos chega ao estágio de Agente. O que realmente os diferencia não são apenas pontuações impressionantes em benchmarks, mas também modelos que permitem que os agentes sejam lançados repetidamente e cheguem com segurança, e cujas capacidades são então destiladas em trajetórias de voo.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.