DeepSeeek V4 foi lançado, trazendo algumas vitórias impactantes sobre Gemini, ChatGPT e Claude.

A DeepSeek, empresa chinesa, tem o hábito de aparecer, sem ser convidada, na festa da IA ​​do Vale do Silício, e desta vez, fez isso com a tão aguardada prévia da versão 4. A empresa sediada em Hangzhou lançou seu modelo de IA mais recente, que supera modelos americanos populares em certas áreas.

A DeepSeek lançou dois novos modelos: V4-Pro (modo Expert) e V4-Flash (modo Instant). Enquanto o primeiro é um modelo com impressionantes 1,6 trilhão de parâmetros, o segundo possui um número mais gerenciável de 284 bilhões de parâmetros. No entanto, ambos contam com uma janela de contexto de um milhão de tokens.

O que exatamente a DeepSeek divulgou?

O mais importante é que ambos os modelos são de código aberto, o que significa que podem ser baixados do site da Hugging Face e executados localmente no seu computador. No entanto, a enorme escala do V4-Pro exige uma quantidade considerável de VRAM para executá-lo localmente.

Um dos aspectos mais interessantes do anúncio é a comparação com modelos populares de IA como Gemini , ChatGPT e Claude . Por exemplo, o V4-Pro se destaca em programação, alcançando 3.206 pontos no Codeforces, superando os 3.168 do GPT-5.4 e os 3.052 do Gemini 3.1. Isso o torna o modelo aberto mais robusto para tarefas de programação competitiva.

No LiveCodeBench, o V4-Pro alcança 93,5 pontos, à frente do Claude Opus 4.6 (88,8) e do Gemini (91,7). Da mesma forma, em tarefas com agentes, ele pontua 51,8 no Toolathlon, superando tanto o Claude (47,2) quanto o Gemini (48,8). O V4-Flash, mais rápido e eficiente, por sua vez, iguala o V4-Pro em tarefas simples com agentes, a uma fração do custo computacional.

Em que aspectos o V4-Pro supera a concorrência?

Referência DeepSeek V4-Pro Claude Opus 4.6 GPT-5.4 Gemini 3.1 Pro
Codeforces (Classificação) 3.206 3.168 3.052
LiveCodeBench (Pass@1) 93,5 88,8 91,7
Lista de finalistas do Apex (Aprovado na primeira tentativa) 90,2 85,9 78,1 89,1
Verificado pela SWE (Resolvido) 80,6 80,8 80,6
Toolathlon (Passe@1) 51,8 47,2 54,6 48,8
Bancada Terminal 2.0 (Acessórios) 67,9 65,4 75,1 68,5
MRCR 1M Contexto Longo 83,5 92,9 76,3
HMMT 2026 Matemática 95,2 96,2 97,7 94,7
IMOAnswerBench 89,8 75,3 91,4 81,0

Existem, no entanto, diversas áreas em que o novo modelo da DeekSeek fica atrás da concorrência. Por exemplo, o Opus 4.6 de Claude lidera na recuperação de contexto longo, com uma pontuação de 92,9 no MRCR 1M, contra 83,5 do V4-Pro. O GPT-5.4 ainda supera o Terminal Bench 2.0 com 75,1, enquanto o V4-Pro alcança 67,9.

Onde a DeepSeek realmente se destaca da concorrência é no preço. O V4-Pro custa US$ 3,48 por milhão de tokens de saída, o que, comparado aos US$ 30 da OpenAI e aos US$ 25 da Anthropic para cargas de trabalho equivalentes, pode parecer muito mais atraente para potenciais clientes. Essa diferença é enorme para desenvolvedores que criam aplicativos com inteligência artificial no dia a dia.