DeepSeek, chegou a hora de se libertar das amarras de ser um mestre oculto.

abril 13, 2026 gurinho

Toda vez que leio "Semi-Deuses e Semi-Demônios", tenho que parar quando chego à parte sobre o Pavilhão dos Sutras do Templo Shaolin.

Xiao Yuanshan e seu filho Xiao Feng enfrentaram Murong Bo e seu filho Murong Fu, com Kumārajīva instigando a situação à margem. Trinta anos de ódio profundo estavam entrelaçados, e parecia que uma luta de vida ou morte era iminente. Nesse instante, um monge magro e de porte imponente surgiu.

Os Dezoito Golpes de Palma do Dragão Subjugador de Xiao Feng o atingiram, e embora ele tenha sofrido ferimentos internos e vomitado sangue, suportou tudo com sua poderosa força interior. A cada movimento, ele fazia Murong Bo entrar em um estado de "morte fingida" e então o trazia de volta à vida. Esse estado mental que controlava a vida e a morte deixou todos os mestres presentes sem palavras, em choque.

Neste momento, a resposta para quem é forte e quem é fraco é autoevidente.

Nos últimos anos, a comunidade de IA tem comparado popularmente o DeepSeek a esse velho monge. Aos olhos de todos, o cenário da área de IA já está definido: existem os três gigantes estrangeiros e as grandes empresas e os então emergentes seis pequenos tigres da IA na China. Não cabe a observadores externos opinar.

Como resultado, uma empresa chinesa com experiência em negociação quantitativa surgiu discretamente e utilizou uma série de táticas inesperadas para confrontar diretamente essas pessoas em várias avaliações essenciais, resultando em uma batalha de idas e vindas.

Contudo, o aparecimento do Monge Varredor ocorre num momento em que "Semi-Deuses e Semi-Demônios" está chegando ao fim. Sua missão é pôr fim ao conflito, resolver a hostilidade, e então o livro chegará ao fim. Mas uma grande história não tem fim, não tem capítulo final, apenas o próximo capítulo, e o capítulo seguinte.

Comparar o DeepSeek a um mestre oculto é o maior elogio que se pode fazer ao seu passado, mas se essas três palavras estão lentamente se tornando grilhões que o prendem, acho que elogio e morte podem ser apenas uma questão de um único pensamento.

Como o Monge Varredor se tornou um monge?

Quando Jin Yong escreveu sobre o Monge Varredor, ele nunca descreveu diretamente suas habilidades em artes marciais. Ele escreveu sobre as reações dos outros: Xiao Feng ficou estupefato, Murong Fu ficou estupefato, e os espectadores também ficaram estupefatos. O nível de um mestre só pode ser transmitido no momento em que os outros ficam sem palavras.

A história da DeepSeek também se alinha com essa lógica.

Como um fundo de hedge sediado em Hangzhou, quando pessoas de fora mencionam a Magic Quant, a primeira reação que vêm à mente é a de futuros, negociação algorítmica e gênios da matemática observando números saltando em uma tela. Isso parece completamente alheio a modelos de IA em larga escala, mas eles reuniram discretamente um grupo de engenheiros e pesquisadores para construir esses modelos.

Em novembro de 2023, eles lançaram seu primeiro modelo de código aberto em larga escala, o DeepSeek Coder, seguido por um modelo de linguagem de 67 bits. Em diversos benchmarks oficiais, o 67B superou o LLaMA2 70B, e o 67B Chat superou o GPT 3.5 em alguns benchmarks de código aberto e em chinês. No entanto, apenas algumas pessoas bem informadas do setor perceberam isso; a maioria não. Os monges despretensiosos ainda estavam varrendo o chão, e o pessoal do Templo Shaolin estava ocupado praticando o Punho Longo Shaolin.

Seu verdadeiro potencial foi revelado com o lançamento da versão 2 em 7 de maio de 2024. A versão 2 utiliza uma arquitetura MoE (Hybrid Expert) com um total de 236 bilhões de parâmetros, mas apenas 21 bilhões são efetivamente ativados durante cada inferência. Ao mesmo tempo, a versão 2 foi a primeira a adotar o mecanismo MLA (Multi-Head Latent Attention), que reduziu significativamente o uso de memória da GPU durante a inferência.

A combinação dessas duas técnicas permite que o modelo seja executado mais rapidamente e utilize menos recursos, alcançando o mesmo efeito. Nas palavras de Jin Yong, isso é chamado de usar a suavidade para superar a dureza, usando técnicas sutis de energia interna para compensar a falta de energia interna total.

▲ https://arxiv.org/abs/2405.04434

Mas o maior impacto veio do preço. A API da V2 custava 1 yuan para cada milhão de tokens de entrada e 2 yuans para cada milhão de tokens de saída. O GPT-4 Turbo custava setenta vezes mais na época, e o Llama3 70B da Meta, sete vezes mais. Um yuan por um milhão de tokens é aproximadamente equivalente ao número de palavras em um livro como "Romance dos Três Reinos".

O anúncio do preço causou um grande impacto em todo o mercado nacional de modelos de grande porte. No mesmo mês, ByteDance, Alibaba, Baidu, Tencent, iFlytek e Zhipu anunciaram reduções de preços, chegando a descontos de até 97%, e alguns modelos leves foram até disponibilizados gratuitamente.

Uma guerra de preços que durou mais de seis meses foi desencadeada por um único anúncio de preços da DeepSeek. Naquela época, o setor apelidou a DeepSeek de "a assassina de preços".

Naquela época, a SemiAnalysis, uma empresa americana de consultoria em semicondutores, publicou uma análise sugerindo que essa empresa poderia se tornar uma concorrente da OpenAI e potencialmente superar outros grandes modelos de código aberto. Na época, cerca de metade dos leitores achou a análise alarmista. Mais de um ano depois, ninguém mais a considera alarmista.

A V3 no final de 2024 e a R1 no início de 2025 foram duas jogadas consecutivas que deixaram seus oponentes atônitos. A DeepSeek conseguiu uma partida equilibrada com investimento mínimo.

O que é ainda mais surpreendente é o número de participantes: 139 engenheiros e pesquisadores concluíram o projeto, em comparação com 1.200 pesquisadores da OpenAI e 500 da Anthropic durante o mesmo período. Alexander Wang, chefe do Laboratório de Superinteligência da Meta, fez posteriormente uma declaração amplamente divulgada: "Enquanto os americanos descansavam, eles estavam trabalhando e nos alcançando com produtos mais baratos, mais rápidos e mais poderosos."

Em seguida, temos o R1, que se concentra em raciocínio profundo, incluindo matemática, código e lógica. Ele se sai bem contra o OpenAI o1 em muitas dimensões de teste. O método de treinamento usa aprendizado por reforço GRPO, que aprimora a capacidade de raciocínio permitindo que o modelo descubra as coisas por conta própria.

O passo mais importante é o código aberto.

A abertura do código-fonte do R1 é amplamente interpretada como um ato de generosidade. Os pesos dos modelos, os artigos técnicos e os detalhes do treinamento são disponibilizados publicamente, permitindo que desenvolvedores do mundo todo compartilhem os resultados. Nessa perspectiva, o DeepSeek é quem abriu as portas da biblioteca, convidando todos a entrar sem medo de perder nada.

O manual de artes marciais está exposto diretamente sobre a mesa, e qualquer pessoa que queira aprender pode pegá-lo. Essa iniciativa quebrou o monopólio de algumas gigantes sobre os modelos de ponta, dando a dezenas de milhares de desenvolvedores de pequeno e médio porte ao redor do mundo a qualificação para competir com os melhores modelos.

A representação do Monge Varredor feita por Jin Yong captura principalmente vários elementos-chave: sua origem humilde, anos de reclusão, ascensão meteórica à fama, habilidades requintadas e coração magnânimo. A capacidade de redução de custos do DeepSeek V2, o custo milagroso do V3 e a acessibilidade de código aberto do R1 também permitem que as pessoas realmente vejam a sombra daquele velho monge no DeepSeek.

Grilhões e o que vem depois dos grilhões

Mas os romances de artes marciais eventualmente chegarão ao fim, enquanto o campo da inteligência artificial não.

Sempre que escrevo um artigo sobre o DeepSeek, a seção de comentários se transforma em uma batalha acirrada, como uma biblioteca secreta. Alguns dizem que a empresa se concentra discretamente no desenvolvimento de produtos, oferecendo serviços gratuitos sem criar uma persona, priorizando a usabilidade acima de tudo – esse é o caminho certo. Outros argumentam que ela não consegue competir nem mesmo com outros grandes players nacionais e não é mais capaz de revolucionar o mercado.

Algumas pessoas acharam que foi tratado injustamente, enquanto outras pensaram que deveria ter sido eliminado há muito tempo. Uma pessoa chegou a dizer: "Nunca tratamos o DeepSeek como um aluno exemplar, mas sim como um mestre oculto, e esperamos sinceramente que ele esteja à altura das nossas expectativas", uma declaração carregada de expectativa e um toque de melancolia inexplicável.

A polarização gritante de opiniões diz muito. A DeepSeek recebeu muito mais atenção do que uma empresa típica de IA deveria receber. Seus apoiadores a elevam a um status quase divino, enquanto seus detratores a condenam impiedosamente. Poucas empresas conseguem resistir a ambos os extremos no discurso público simultaneamente.

É provável que este artigo sofra o mesmo destino; alguns o chamarão de campanha difamatória, outros de peça de relações públicas, sem agradar a nenhum dos lados. Mas isso não importa; a opinião pública é sempre assim — uma batalha na biblioteca, não importa quem vença, sempre haverá quem discorde.

Voltando ao ponto principal, o aparecimento do Monge Varredor sinalizou o fim de "Semi-Deuses e Semi-Demônios". Sua intervenção apaziguou o conflito, e a história gradualmente caminhou para seu capítulo final. Essa estrutura narrativa parece inerentemente imbuída da atmosfera de um grande final: um herói emerge, pondo fim ao mundo de forma decisiva com um único movimento, e a paz reina no mundo das artes marciais.

Segundo fontes citadas pelo Chuangzhiji, o DeepSeek V4 será lançado oficialmente no final de abril, de acordo com o cronograma divulgado internamente pelo fundador Liang Wenfeng.
Num típico romance de realização de desejos, o protagonista precisa realizar uma grande conquista em cada capítulo, e os leitores sempre esperam uma surpresa ainda maior ao virar a página.

As versões V3 e R1 conquistaram o mundo com sua abordagem inteligente e de alto impacto, levando muitos a considerá-las o padrão de saída do DeepSeek. Cada movimento que faziam causava imensos danos aos gigantes do Vale do Silício e derrubava as ações da Nvidia. A versão V4 deve seguir o mesmo caminho.

No entanto, durante essa espera de mais de um ano, o mundo exterior começou a ficar um tanto inquieto, e várias vozes surgiram, dizendo que os atrasos se deviam à falta de ideias e que o mestre oculto estava prestes a desistir. Aqueles que diziam isso acreditavam que o DeepSeek deveria realizar um milagre a cada movimento e que, se estivesse sequer um passo atrás, significava que havia ficado sem ideias.

Existem razões para a lentidão.

Em 29 de março, os servidores da DeepSeek ficaram fora do ar por quase treze horas, estabelecendo um recorde de maior interrupção desde o lançamento da plataforma em seu site e aplicativo. Essa série de incidentes de serviço expôs fragilidades significativas no monitoramento operacional, nos planos de resposta a emergências e nos mecanismos de recuperação de desastres da DeepSeek, servindo como um alerta para toda a indústria de IA.

Naturalmente, a julgar por diversos relatos, o motivo dos repetidos atrasos da versão 4 reside no próprio chip.

O sucesso das versões V3 e R1 deve-se em parte ao ecossistema maduro do NVIDIA CUDA. Os engenheiros da DeepSeek, em um ambiente com ferramentas completas, documentação detalhada e uma comunidade ativa, levaram a eficiência do algoritmo ao limite, executando cada etapa com o máximo cuidado.

O objetivo da V4 é adaptar essa tecnologia para chips de IA produzidos internamente. A cadeia de ferramentas ainda está em rápida evolução, a interface subjacente difere bastante da CUDA e a estrutura de treinamento distribuído precisa ser praticamente reconstruída do zero.

Os resultados da DeepSeek, especialmente considerando as limitações que enfrentaram, têm um peso adicional em todos os aspectos. Mesmo que Liang Wenfeng estivesse disposto a adiar essa questão por mais alguns meses, ainda seria uma decisão muito acertada.

Quanto ao V4 em si, o relatório da "Creative Intelligence" afirma que o foco tecnológico está, supostamente, em avanços nas capacidades de LTM (Memória de Longo Prazo), integrando também a multimodalidade nativa à arquitetura desde a camada mais baixa, com texto e visão sendo combinados durante a fase de pré-treinamento.

Outra mudança notável é a discreta alteração no foco de Liang Wenfeng. Embora alguns membros importantes da DeepSeek, incluindo Guo Daya, o principal autor do R1, tenham deixado a empresa no último ano, de acordo com a observação do LatePost, o quadro de talentos da DeepSeek permanece sólido e não houve perdas significativas de profissionais.

Ao entrar no segundo semestre de 2025, Liang Wenfeng valoriza cada vez mais a comercialização e a transformação da tecnologia em produto, recrutando ativamente gerentes de produto estratégicos para supervisionar o domínio de Agentes. Simultaneamente, ele está iniciando um processo de avaliação da empresa, proporcionando aos funcionários uma base sólida para suas opções de ações e oferecendo à equipe uma visão mais clara para o futuro.

Levando em consideração todas essas tendências, é fácil chegar a uma conclusão: a DeepSeek, que antes se concentrava exclusivamente em Inteligência Artificial Geral (AGI), agora precisa encarar as realidades que uma empresa de tecnologia madura deve enfrentar: ciclo de negócios fechado, construção de ecossistema e fluxos de receita sustentáveis.

Um mestre oculto pode permanecer alheio aos assuntos mundanos por décadas, varrendo as escrituras da biblioteca até o fim; uma empresa não oferece essa opção.

Em "O Andarilho Sorridente e Orgulhoso", Linghu Chong conseguia derrotar todas as técnicas de artes marciais com suas Nove Espadas Dugu. Contudo, quando assumiu de fato o comando da Seita Hengshan, recepcionando e despedindo visitantes e protegendo seus discípulos diariamente, uma única habilidade se mostrou insuficiente. O que ele precisava era de governança interna, da confiança do povo e de uma base sólida para a sobrevivência da seita. Técnicas extraordinárias não resolviam os problemas cotidianos de lenha, arroz, óleo e sal.

Portanto, devemos ajudar proativamente o DeepSeek a se livrar do rótulo de "mestre oculto". Esse termo é o maior elogio para o passado, mas um fardo excessivo para o futuro. Mesmo que o V4 não tenha tido uma vantagem esmagadora no lançamento, era simplesmente uma máquina completa, com desempenho sólido em memória de longo prazo, integração multimodal nativa e desempenho equilibrado em várias métricas.

Do ponto de vista da indústria, isso ainda é um enorme sucesso, um sucesso que pode comprovar a capacidade da DeepSeek de se transformar de uma concorrente que faz milagres em uma provedora de infraestrutura estável.

Curiosamente, essa questão pode ter sido uma via de mão dupla. Em uma reportagem anterior da LatePost, a comunicação externa da DeepSeek estava visivelmente mais contida do que antes, sem uma grande campanha de pré-lançamento nem quaisquer sinais técnicos destinados a aguçar o interesse.

É difícil dizer que esse perfil discreto foi não intencional.

Eles entendiam melhor do que ninguém o que estava por trás do título "Monge Varredor". Cada movimento, se não derrubasse a mesa inteira, amplificaria a reação negativa do público. Essa era uma forma de gerenciar expectativas e também uma maneira de se libertar — eles também não queriam mais carregar esse fardo.

▲O mundo dos modelos de IA se transformou de um jogo exclusivo de algumas instituições em um projeto de infraestrutura que envolve desenvolvedores globais, e essa tendência está se acelerando. https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026

Por outro lado, enquanto todos estavam focados no DeepSeek, poucas pessoas prestaram atenção aos outros.

▲Lista de níveis de modelos de código aberto, fonte da imagem: https://www.interconnects.ai/p/2025-open-models-year-in-review

Nesse cenário competitivo, todas as empresas de IA na China estão aprimorando diligentemente suas habilidades, apostando em computação multimodal, ecossistemas de agentes e implantação de poder computacional, e cada uma está trilhando seu próprio caminho em seu respectivo campo.

DeepSeek é sem dúvida o nome mais empolgante, mas focar apenas nele é limitar nossa visão dessa era. O que realmente fez de "Demi-Gods and Semi-Devils" o que é hoje foi a diversidade de experiências e habilidades únicas de toda aquela geração, cujas interações e trocas criaram essa era magnífica.

A lenda do Monge Varredor termina com a batalha no Pavilhão dos Sutras; fora do Pavilhão dos Sutras encontra-se o verdadeiro mundo marcial.

Autor: Mo Chongyu

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.