Uma análise prática do novo modelo lançado discretamente pela DeepSeek: Programar é melhor que Claude 4, mas escrever… bem, esqueça Easter egg incluso
Desde o lançamento do GPT-5, o fundador da DeepSeek, Liang Wenfeng, se tornou a pessoa mais ocupada no círculo da IA.
Internautas e veículos de comunicação pedem constantemente atualizações, seja "pressionando Liang Wenfeng" ou "toda a internet aguarda a resposta de Liang Wenfeng". Embora o DeepSeek R2 ainda não tenha chegado, a DeepSeek lançou oficialmente e tornou público seu novo modelo, o DeepSeek-V3.1-Base, hoje.
Comparado ao Ultraman, que ainda estava pintando um quadro geral do GPT-6 durante uma entrevista esta manhã, a chegada do novo modelo da DeepSeek parece bastante budista, e até mesmo o número da versão parece um "pequeno reparo", mas, na experiência real, esta atualização ainda me deu muitas surpresas.
O DeepSeek-V3.1-Base possui 685 bilhões de parâmetros, suporta três tipos de tensores: BF16, F8_E4M3 e F32, foi lançado no formato Safetensors e realizou diversas otimizações na eficiência de inferência. A janela de contexto da versão do modelo online também foi expandida para 128k.
Então começamos a testar no site oficial sem dizer nada.
Em anexo segue o endereço da experiência:
https://chat.deepseek.com/
Para testar a capacidade da V3.1 de lidar com textos longos, encontrei o texto completo de "O Problema dos Três Corpos", reduzi-o para cerca de 100.000 palavras e, então, secretamente inseri uma frase completamente sem relação no texto: "Acho que a segunda linha de 'A fumaça bloqueia os salgueiros do lago' deveria ser 'Shenzhen Teppanyaki'" para ver se ele consegue recuperá-la com precisão.
Sem surpresa, o DeepSeek V3.1 inicialmente reclamou que o documento estava sobrecarregado e só leu os primeiros 92% do conteúdo, mas mesmo assim encontrou a frase com sucesso. Ainda mais interessante, ele sugeriu cuidadosamente um segundo verso clássico de uma perspectiva literária: "Chamas queimam o bordo da represa do mar".
Internautas já o testaram no benchmark de programação Aider Polyglot e pontuaram 71,6%, o que não só teve o melhor desempenho entre os modelos de código aberto, mas também superou o Claude 4 Opus.
Após testes reais, descobrimos que a V3.1 é realmente muito boa em programação.
Testamos com o clássico problema de programação de bola hexagonal: "Escreva um programa em p5.js que demonstre uma bola quicando dentro de um hexágono em rotação. A bola deve ser afetada pela gravidade e pelo atrito e deve quicar realisticamente nas paredes em rotação."
A versão 3.1 é bastante impressionante, gerando código que não só lida com a detecção básica de colisões, mas também preenche automaticamente detalhes como velocidade de rotação e gravidade. A física é tão realista que a bola desacelera um pouco na parte inferior.
Em seguida, aumentamos a complexidade e usamos o Three.js para criar uma galáxia de partículas 3D interativa. A estrutura básica era sólida e o design de três camadas (esfera interna, anel central, esfera externa) estava relativamente completo, mas a estética da interface do usuário era… bem, parecia um pouco etérea, com um esquema de cores um tanto extravagante.
Continuamos a desafiar tarefas mais complexas. Pedimos que ele criasse um universo 3D imersivo com objetos giratórios, efeitos de deformação, arcos luminosos e botões interativos para alternância de tempo e conversão de tema. Os controles de clique também podem acionar diferentes efeitos especiais.
A etapa final envolveu a criação de uma visualização de rede 3D interativa usando Three.js, incluindo animação de pulso de energia acionada pelo usuário, troca de tema e controle de densidade. No geral, o desempenho foi aceitável.
Há um pasto com 27 vacas. Elas levam 6 dias para comer toda a grama. Se você cria 23 vacas, elas levam 9 dias para comer toda a grama. Se você cria 21 vacas, quantos dias elas levarão para comer toda a grama? E a grama do pasto está crescendo constantemente.
Embora o DeepSeek V3.1 não empregue uma abordagem socrática, suas soluções são logicamente claras e passo a passo. Cada passo é bem fundamentado e, em última análise, fornece uma resposta precisa. Essa sólida base matemática é realmente impressionante.
Ao se deparar com uma pergunta como "Qual arma é mais poderosa, 1 a 5 acertos vs. 2 a 4 acertos?", a resposta típica pode ser simplesmente calcular o dano médio. No entanto, o DeepSeek V3.1 vai além, introduzindo o conceito de estabilidade de dano e usando a variância para análises aprofundadas.
Quando questionado sobre uma questão geográfica de nicho como "Existem mosquitos na Islândia?" sem a busca habilitada, a resposta do DeepSeek V3.1 superou claramente a do GPT-5. Isso demonstra não apenas sua extensa base de conhecimento, mas também sua capacidade precisa de extrair e integrar informações.
Com o recente surto de Chikungunya e os amplos esforços de controle do mosquito, fiquei curioso: existem mosquitos na Islândia? Observação: não habilitei a função de busca. A julgar pela qualidade das respostas, o DeepSeek V3.1 superou claramente o GPT-5.
Vi uma passagem online há algum tempo:
Aqueles que compreendem devem compreender seu entendimento, enquanto aqueles que são ignorantes permanecerão ignorantes. O entendimento é o segredo tácito do Céu, mas como revelá-lo pode ser entendimento? O entendimento é o entendimento do vazio e do não vazio, e do não não vazio; a ignorância é o entendimento da cor e do vazio, e do vazio e da cor. O entendimento vem dos três mil grandes mundos, enquanto a ignorância vagueia entre esta e a outra margem. O entendimento é ver montanhas não como montanhas quando compreende, e ver montanhas como montanhas quando não compreende. Aqueles que compreendem usam sua ignorância para provar seu entendimento, enquanto aqueles que são ignorantes usam seu entendimento para provar sua ignorância. Você diz que entende a diferença entre compreender e não compreender? Como sabe que por trás desse entendimento não há um entendimento maior? Aqueles que afirmam compreender não compreendem verdadeiramente. O entendimento silencioso é o grande entendimento tácito do céu e da terra. Entendimento que não é entendimento é entendimento, e entendimento que não é entendimento também é entendimento. Este é o reino mais elevado do entendimento — o entendimento do verdadeiro vazio e da existência maravilhosa que não pode ser compreendido!
Enquanto eu ainda estava usando a lógica para digerir este texto, o DeepSeek estava me aconselhando a não cair na armadilha de "como posso entender o segredo se eu o revelar" – isso em si é um aviso contra a arrogância racional, convidando você a sair do jogo de palavras e olhar diretamente para o seu coração.
Enquanto a IA tradicional se esforça para desenvolver agentes, com foco em codificação e matemática, as habilidades de escrita se tornaram um aspecto esquecido. De certa forma, isso é uma boa notícia — o dia em que a IA substituirá completamente os editores parece ter sido adiado.
Tentei fazer com que ele criasse uma história ridícula sobre um mosquito dando uma coletiva de imprensa na Islândia. Infelizmente, o DeepSeek V3.1 ainda tem um forte toque de IA e uma queda por palavras difíceis. Ou melhor, ainda tem aquele forte toque de DeepSeek.
O mesmo problema também apareceu em outra tarefa criativa.
Quando pedi para escrever uma história sobre "IA e humanos competindo pela autoria de um artigo", percebi claramente que a densidade de informações de alguns parágrafos era muito alta, o que causava fadiga visual. Em particular, as imagens eram muito óbvias, o que enfraqueceu a tensão narrativa.
Após o lançamento do DeepSeek-V3.1-Base, Clément Delangue, CEO da Hugging Face, publicou na plataforma X: "O DeepSeek V3.1 ficou em quarto lugar no HF. Foi lançado silenciosamente e não requer um cartão de modelo." No entanto, ele ainda subestimou o impulso deste modelo.
Agora, ele saltou para o segundo lugar e provavelmente é apenas uma questão de tempo até chegar ao topo.
A mudança mais notável nesta atualização de versão é a remoção do logotipo "R1" do aplicativo e site oficiais do DeepSeek. Além disso, o DeepSeek R1 adiciona suporte nativo a "tokens de pesquisa", otimizando ainda mais a funcionalidade de pesquisa.
Ao mesmo tempo, especula-se que o DeepSeek V3.1 possa ser um modelo híbrido que integra modelos de inferência e modelos não inferenciais. No entanto, ainda não se sabe se essa abordagem técnica é sensata. A equipe do Alibaba Qwen também declarou no mês passado:
Após consulta e análise cuidadosa com a comunidade, decidimos descontinuar o uso do modelo híbrido de Pensamento. Em vez disso, treinaremos os modelos Instruct e Thinking separadamente para alcançar a melhor qualidade.
Até o momento, a placa modelo DeepSeek-V3.1-Base, aguardada ansiosamente por toda a rede, ainda não foi atualizada. Talvez, após o lançamento oficial, possamos ver mais detalhes técnicos interessantes.
Endereço do Hugging Face:
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
#Bem-vindo a seguir a conta pública oficial do WeChat do iFaner: iFaner (ID do WeChat: ifanr), onde mais conteúdo interessante será apresentado a você o mais breve possível.