DeepSeeek V4 foi lançado, trazendo algumas vitórias impactantes sobre Gemini, ChatGPT e Claude.
A DeepSeek, empresa chinesa, tem o hábito de aparecer, sem ser convidada, na festa da IA do Vale do Silício, e desta vez, fez isso com a tão aguardada prévia da versão 4. A empresa sediada em Hangzhou lançou seu modelo de IA mais recente, que supera modelos americanos populares em certas áreas.
A DeepSeek lançou dois novos modelos: V4-Pro (modo Expert) e V4-Flash (modo Instant). Enquanto o primeiro é um modelo com impressionantes 1,6 trilhão de parâmetros, o segundo possui um número mais gerenciável de 284 bilhões de parâmetros. No entanto, ambos contam com uma janela de contexto de um milhão de tokens.
O que exatamente a DeepSeek divulgou?
O mais importante é que ambos os modelos são de código aberto, o que significa que podem ser baixados do site da Hugging Face e executados localmente no seu computador. No entanto, a enorme escala do V4-Pro exige uma quantidade considerável de VRAM para executá-lo localmente.
Um dos aspectos mais interessantes do anúncio é a comparação com modelos populares de IA como Gemini , ChatGPT e Claude . Por exemplo, o V4-Pro se destaca em programação, alcançando 3.206 pontos no Codeforces, superando os 3.168 do GPT-5.4 e os 3.052 do Gemini 3.1. Isso o torna o modelo aberto mais robusto para tarefas de programação competitiva.
No LiveCodeBench, o V4-Pro alcança 93,5 pontos, à frente do Claude Opus 4.6 (88,8) e do Gemini (91,7). Da mesma forma, em tarefas com agentes, ele pontua 51,8 no Toolathlon, superando tanto o Claude (47,2) quanto o Gemini (48,8). O V4-Flash, mais rápido e eficiente, por sua vez, iguala o V4-Pro em tarefas simples com agentes, a uma fração do custo computacional.
Em que aspectos o V4-Pro supera a concorrência?
| Referência | DeepSeek V4-Pro | Claude Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro |
| Codeforces (Classificação) | 3.206 | — | 3.168 | 3.052 |
| LiveCodeBench (Pass@1) | 93,5 | 88,8 | — | 91,7 |
| Lista de finalistas do Apex (Aprovado na primeira tentativa) | 90,2 | 85,9 | 78,1 | 89,1 |
| Verificado pela SWE (Resolvido) | 80,6 | 80,8 | — | 80,6 |
| Toolathlon (Passe@1) | 51,8 | 47,2 | 54,6 | 48,8 |
| Bancada Terminal 2.0 (Acessórios) | 67,9 | 65,4 | 75,1 | 68,5 |
| MRCR 1M Contexto Longo | 83,5 | 92,9 | — | 76,3 |
| HMMT 2026 Matemática | 95,2 | 96,2 | 97,7 | 94,7 |
| IMOAnswerBench | 89,8 | 75,3 | 91,4 | 81,0 |
Existem, no entanto, diversas áreas em que o novo modelo da DeekSeek fica atrás da concorrência. Por exemplo, o Opus 4.6 de Claude lidera na recuperação de contexto longo, com uma pontuação de 92,9 no MRCR 1M, contra 83,5 do V4-Pro. O GPT-5.4 ainda supera o Terminal Bench 2.0 com 75,1, enquanto o V4-Pro alcança 67,9.
Onde a DeepSeek realmente se destaca da concorrência é no preço. O V4-Pro custa US$ 3,48 por milhão de tokens de saída, o que, comparado aos US$ 30 da OpenAI e aos US$ 25 da Anthropic para cargas de trabalho equivalentes, pode parecer muito mais atraente para potenciais clientes. Essa diferença é enorme para desenvolvedores que criam aplicativos com inteligência artificial no dia a dia.

