As 48 horas desde a saída de Lin Junyang: uma publicação no WeChat Moments, um modelo simples e uma hipótese de um trilhão de dólares.

março 7, 2026 gurinho

"Continue com o plano original."

No auge dos rumores sobre sua saída, Lin Junyang, uma figura chave na equipe Qwen, publicou duas frases em seu WeChat Moments:

"Irmãos de Qwen, mantenham o plano original, sem problemas."

"Tudo resolvido"? O que isso significa?

Pouco antes da saída de Lin Junyang, a equipe da Qwen lançou algo que viralizou na comunidade global de desenvolvedores: a série Qwen 3.5 Small, com parâmetros que variam de 0,8B a 9B, projetada especificamente para dispositivos de borda e capaz de rodar em laptops comuns.

Não se trata de ter um modelo maior, mas sim um conjunto de modelos menores. O consenso mais forte na indústria de IA nos últimos três anos tem sido "quanto maior, melhor". Sam Altman, da OpenAI, tem se esforçado para arrecadar trilhões de dólares para construir infraestrutura computacional, e os laboratórios têm se envolvido em uma corrida armamentista, queimando dinheiro e recursos, tudo baseado na mesma premissa fundamental: quanto maior o modelo, mais inteligente ele é.

Essa lógica é conhecida como Lei de Escala. Não se trata apenas de uma regra técnica, mas sim de uma crença — toda a narrativa de financiamento do setor, a alocação de talentos e o investimento em hardware são baseados nessa premissa.

Mas o lançamento do Qwen 3.5 Small e a saída de Lin Junyang ocorreram simultaneamente. Um sinal técnico e um sinal de pessoal se entrelaçaram para criar uma história mais complexa: o que exatamente está acontecendo com o modelo pequeno? Por que isso é importante?

Quando 9B derrota 120B

Mesmo quem não é desenvolvedor pode ter uma ideia do desempenho do Qwen 3.5 por meio de testes de benchmark:

Na série Qwen 3.5 Small, o modelo com 9 bilhões de parâmetros superou o gpt-oss-120B da OpenAI — um modelo com 13 vezes mais parâmetros — em diversos testes de benchmark.

Essas não são vantagens menores em métricas periféricas, mas sim uma liderança sistemática em tarefas essenciais de inferência. Um modelo que cabe em um laptop superou amplamente um concorrente que exige hardware de nível de data center para ser executado em tarefas de raciocínio matemático, científico e visual.

Para ser sincero, o gpt-oss-120B não é o produto principal da OpenAI, mas sim uma oferta intermediária de seus pesos abertos. Além disso, ele usa a arquitetura MoE e é nominalmente classificado para 120 bilhões de parâmetros, mas cada token ativa apenas cerca de 5,1 bilhões de parâmetros — portanto, a diferença na contagem de parâmetros não é tão significativa quanto os números sugerem no papel, em termos de engenharia.

No entanto, isso não invalida a própria tendência, pois Qwen 3.5 Small não é um caso isolado.

Quase simultaneamente, a revista Nature publicou um artigo sobre um modelo recursivo em miniatura (TRM, na sigla em inglês) que superou diversos modelos de linguagem de grande porte de alto desempenho no teste de lógica ARC-AGI. O Google Research publicou um artigo no início de 2026 demonstrando que modelos menores superam significativamente modelos maiores em tarefas de extração de intenções. Um estudo publicado na PNAS foi ainda mais direto: há um retorno decrescente acentuado no tamanho do modelo e na sua capacidade de persuasão; após um certo ponto, aumentar o tamanho do modelo praticamente não traz melhorias.

O Wall Street Journal ousou afirmar já em outubro de 2025: "Os grandes modelos atraem toda a atenção, mas são os pequenos que realmente fazem o trabalho."

Todos esses sinais apontam para uma conclusão: obter grandes ganhos com pequenos investimentos não é um incidente isolado, mas sim uma tendência inevitável.

Então, aqui está a questão: o que torna um modelo pequeno tão especial?

Não se trata de uma obra literária substituta em larga escala.

Intuitivamente, as pessoas tendem a pensar em modelos pequenos como "alternativas aos modelos grandes" — o mesmo método, apenas em escala menor e com desempenho ligeiramente inferior, porém mais barato.

Mas a verdade é justamente o oposto: a razão pela qual os modelos pequenos de hoje conseguem ótimos resultados com recursos limitados é porque seguiram um caminho completamente diferente em termos de metodologia técnica em comparação com os modelos grandes.

Em primeiro lugar, a qualidade dos dados é mais importante do que a escala. A abordagem de modelos grandes é "devorar o máximo de dados da internet possível", enquanto a abordagem de modelos pequenos — como a série Phi-4 da Microsoft — adota uma estratégia seletiva: usar dados sintéticos de alta qualidade combinados com conjuntos de dados públicos rigorosamente selecionados, permitindo que o modelo aprenda com mais precisão usando menos dados. A lógica subjacente é fundamental: não se trata de "quanto mais você alimenta o modelo, mais inteligente ele se torna", mas sim de "quanto melhor você aprende, mais refinado se torna o seu aprendizado".

Em segundo lugar, o design multimodal nativo substitui a junção de adaptadores. A abordagem tradicional consiste em primeiro treinar um modelo de texto puro e extenso e, em seguida, integrar recursos de imagem, vídeo e áudio por meio de módulos adaptadores. O Qwen 3.5 emprega uma arquitetura completamente diferente: ele treina tokens visuais e de texto conjuntamente no mesmo espaço latente, tornando-o multimodal desde a sua concepção. Isso significa que é um modelo que compreende inerentemente tanto texto quanto imagens. Essa arquitetura é, na verdade, mais vantajosa com um número reduzido de parâmetros, pois elimina a necessidade de sobrecarga adicional de adaptadores.

Em terceiro lugar, a tecnologia de quantização oferece mais do que apenas compressão. A quantização de 4 bits é frequentemente entendida como "compactar o modelo quatro vezes para economizar espaço de armazenamento", mas seu verdadeiro significado reside na redução da taxa de transferência de memória em quatro vezes. Em dispositivos de borda, o gargalo geralmente não é o espaço de armazenamento, mas a largura de banda da memória, ou seja, a velocidade com que os dados são transferidos da memória para o processador. A tecnologia de quantização proporciona aos modelos pequenos uma vantagem decisiva em termos de velocidade em celulares e laptops com largura de banda limitada.

Esses avanços metodológicos começaram a se traduzir em produtos. Na primeira semana de março, a Apple lançou toda a linha de chips M5, com cada núcleo de GPU apresentando um Acelerador Neural integrado, oferecendo até 8 vezes o desempenho de IA do M1. Simultaneamente, a Apple Research apresentou o Ferret-UI Lite — um agente de GUI para dispositivos com apenas 3 bytes de parâmetros, capaz de controlar localmente aplicativos móveis e de desktop. Combinado com o modelo fundamental de aproximadamente 3 bytes para dispositivos da Apple Intelligence, a Apple está transformando a "IA no dispositivo" de um conceito em um produto que integra chips, modelos e interações.

O processador multimodal Phi-4 da Microsoft também começou a ser implementado comercialmente no Azure, com parâmetros 3.8B, aceitando entradas de texto, áudio e imagem. O feedback da comunidade de código aberto tem sido ainda mais direto: desenvolvedores no Reddit, após testes, consideram a versão 4B do Qwen 3.5 um modelo ideal: estável em diversas tarefas, sem travamentos e significativamente mais rápido que a versão 9B.

A abordagem tecnológica foi validada, o ponto de inflexão da produção foi alcançado e os primeiros raios de sol começam a despontar.

Naquele exato momento, Lin Junyang decidiu partir.

A empresa que melhor se sai na fabricação de modelos em pequena escala é aquela que tem menos motivação para obter sucesso.

O Qwen 3.5 Small ganhou amplo reconhecimento da comunidade de desenvolvedores desde o seu lançamento, com avaliações da comunidade de código aberto superando até mesmo os anúncios oficiais de lançamento.

No entanto, a empresa para a qual ele trabalha é a Alibaba, e o motor de negócios da Alibaba é o Alibaba Cloud.

Existe um ciclo de feedback positivo natural entre modelos grandes e computação em nuvem: quanto maior o modelo, mais poder computacional é necessário para a inferência e mais os clientes precisam adquirir serviços de computação em nuvem. Para a Alibaba Cloud, modelos grandes representam a narrativa de negócios perfeita — eles aumentam simultaneamente a demanda por poder computacional dos clientes e sua dependência da plataforma em nuvem.

A lógica por trás dos modelos pequenos é exatamente oposta. O principal valor dos modelos pequenos reside na sua capacidade de serem executados em dispositivos de borda — celulares, laptops e servidores de borda. Isso significa que os clientes podem contornar a nuvem e concluir a inferência localmente. Para os usuários, isso se traduz em custos mais baixos, maior privacidade e menor latência. Mas para a Alibaba Cloud, significa erosão de receita.

Quanto melhor o desempenho do Qwen 3.5 Small, mais problemática se torna a narrativa de negócios da Alibaba Cloud.

Este não é um problema exclusivo do Alibaba. Analisando as gigantes da tecnologia chinesas, quase todas as principais empresas de IA enfrentam as mesmas contradições estruturais. Baidu e Tencent estão em situações semelhantes à do Alibaba: seus modelos de negócios são baseados em serviços em nuvem e compartilhamento de receita da plataforma, e a tendência para modelos de menor escala e baseados em computação de borda enfraquece diretamente sua proposta de valor.

O celular Doubao da ByteDance é uma exceção interessante, mas a ByteDance está apenas começando na fabricação de hardware e está longe de estabelecer uma capacidade de integração vertical de "chip + sistema operacional + modelo".

Teoricamente, a Huawei está na melhor posição, possuindo tanto chips quanto equipamentos terminais. No entanto, sob a influência das sanções, sua capacidade computacional limitada a força a adotar uma abordagem de modelo em menor escala, o que representa mais uma estratégia passiva de sobrevivência do que uma escolha estratégica proativa. Já a Xiaomi, a OPPO e a vivo possuem equipamentos, mas não são empresas focadas em IA, carecendo do potencial para desenvolver modelos próprios e da motivação para investimentos contínuos.

Globalmente, talvez exista apenas uma empresa que domine verdadeiramente toda a cadeia de inteligência artificial de ponta: a Apple. Ela detém tudo: chips, dispositivos, sistemas operacionais e seus próprios modelos proprietários. A força motriz da Apple vem de seu modelo de negócios diversificado, que a obriga a manter o máximo de poder computacional possível no dispositivo, pois cada melhoria na experiência de IA de ponta se traduz em hardware premium e fidelização ao ecossistema.

No entanto, precisamos abordar honestamente uma possível objeção: os fornecedores de nuvem não podem adotar a abordagem de "colaboração entre a borda e a nuvem"? Usar um modelo pequeno como ponto de entrada na borda e processar tarefas complexas de inferência chamando a nuvem de volta, para que nenhum dos lados seja negligenciado.

Teoricamente, é possível. Mas isso ilustra precisamente o problema: no contexto da colaboração entre edge computing e nuvem, os modelos de pequeno porte são "ferramentas de aquisição de tráfego" para fornecedores de nuvem, e não "produtos independentes". Os fornecedores de nuvem não têm incentivo para criar modelos de pequeno porte tão bons que se tornem independentes da nuvem.

Outro contraexemplo inevitável é a Microsoft, uma provedora de nuvem, que está desenvolvendo seriamente modelos Phi-4 em pequena escala e já os lançou comercialmente. Isso significa que o argumento de "lutar consigo mesmo" é insustentável?

De forma alguma. A capacidade da Microsoft de operar em duas frentes decorre de sua estratégia de dupla via: o ecossistema de hardware do Windows e do Surface, a plataforma de nuvem Azure e a linha de produtos de edge computing Copilot. Para a Microsoft, o Phi-4 é uma medida defensiva: se a tendência em direção à IA de edge computing for irreversível, em prol do panorama geral, é melhor tomar decisões difíceis e sacrificar parte de seus próprios negócios do que entregar o mercado de edge computing para a comunidade de código aberto e para a Apple .

Mas a Alibaba não tem essa opção — nenhum sistema operacional para o consumidor final, nenhum hardware de terminal convencional e nenhuma matriz de produtos de IA para usuários individuais. Não importa o quão bem o Qwen funcione, ele não tem sua própria "última milha" para implementar suas soluções.

Diferentes fontes de energia resultam em diferentes limites de produção.

Isso cria um cenário preocupante: o verdadeiro gargalo para que modelos de pequeno porte saiam do laboratório e se tornem produtos não é a capacidade técnica, mas sim a discrepância entre oferta e demanda; a empresa que melhor desenvolve modelos de pequeno porte (fornecedores de serviços em nuvem) é a que menos se esforça para torná-los verdadeiramente bem-sucedidos; e a empresa que mais precisa desses modelos (fabricantes de equipamentos) não tem capacidade para desenvolvê-los de forma independente.

"Sem problemas"

Retomando a publicação de Lin Junyang no WeChat Moments: "Continue fazendo as coisas conforme o planejado, sem problemas."

Talvez a abordagem técnica seja de fato sólida e tudo esteja caminhando na direção certa. Mas em uma empresa centrada na nuvem, mesmo que um modelo de pequena escala de classe mundial seja criado, a situação da equipe certamente será desconfortável.

Isso não é uma crítica ao Alibaba — qualquer empresa cuja principal fonte de receita seja a computação em nuvem enfrentaria o mesmo dilema ao se deparar com uma rota tecnológica que pudesse corroer seus lucros. Trata-se de uma contradição estrutural, não de uma questão de escolha pessoal ou gerencial.

Mais notáveis do que as mudanças de pessoal são as mudanças que estão ocorrendo dentro da própria Scaling Law.

Nos últimos três anos, a ideia de que "quanto maior, melhor" deixou de ser apenas uma regra tecnológica e se tornou o lema de toda a indústria de IA. Narrativas de financiamento foram construídas em torno disso — investidores acreditam que modelos maiores significam maiores capacidades, o que leva a trilhões de dólares investidos em infraestrutura computacional. A alocação de talentos também girou em torno dessa premissa — os melhores pesquisadores foram atraídos para as equipes que treinam os maiores modelos. O investimento em hardware foi precificado com base nisso — a avaliação da Nvidia se fundamenta na premissa de que a demanda por poder computacional sempre crescerá.

Agora, essa premissa está começando a mudar. Pesquisas do MIT estimam que melhorias na eficiência permitirão que modelos em hardware de médio porte alcancem os modelos maiores e mais caros dentro de 5 a 10 anos. Pesquisas da Universidade de Chicago indicam que a qualidade dos dados está substituindo o tamanho dos dados como a principal dimensão competitiva.

A comercialização não se limita mais à nuvem, mas também está se expandindo para a borda. A Lei de Escala está se transformando de uma curva monotonicamente crescente em um mapa que exige a busca de soluções ótimas em múltiplas dimensões.

Não se trata mais de "quanto maior, melhor", mas sim de "o tamanho certo no lugar certo".

Lin Chun-yang provavelmente percebeu essa mudança antes da maioria das pessoas. Ele usou o Qwen 3.5 Small para provar uma coisa: com a metodologia correta, o parâmetro 9B pode superar o 120B. Mas ele também se deparou com outro obstáculo — a correção técnica não equivale à viabilidade comercial, muito menos ao conforto organizacional.

Ele disse: "Sem problema". De fato, o roteiro técnico já foi definido, e os problemas restantes não estão no laboratório, mas fora dele.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo