Redesignei manualmente o macOS usando o modelo em larga escala 2.0 do Doubao. Após o Seedance 2.0, a ByteDance também oferecerá um presente de IA para o Festival da Primavera.

Nos últimos dias, meu WeChat Moments foi inundado com vídeos do Seedance 2.0, dando a impressão de que qualquer um pode ser diretor. No entanto, enquanto todos estavam empolgados e discutindo como a IA revolucionaria Hollywood, o pacote completo do Doubao Big Model 2.0 foi oficialmente lançado.

Esta é também a primeira atualização geracional do modelo grande da Doubao desde o seu lançamento oficial em maio de 2024.

Sinceramente, como alguém que usa IA como ferramenta de produtividade, minhas maiores preocupações são duas: ela realmente consegue realizar as tarefas? E será que pode ser mais barata? A atualização mais recente do Doubao Big Model 2.0 oferece uma resposta bem direta: ela consegue entender gráficos e documentos, compreender vídeos longos, escrever código utilizável e reduzir o preço.

Além disso, não se trata apenas de uma atualização de um único modelo, mas de um conjunto completo de "punções combinadas".

A série Doubao Big Model 2.0 inclui três modelos de Agente de uso geral (Pro, Lite e Mini) e um modelo de Código, adaptando-se de forma flexível a diversos cenários de negócios. Agora você pode experimentar o Doubao Big Model 2.0 Pro, recém-atualizado, abrindo o aplicativo Doubao, o cliente para PC ou a versão web e clicando em "Modo Especialista".

  • Doubao 2.0 Pro: Uma potência de componentes de alto desempenho, especializada em inferência profunda e tarefas de cadeia longa. Oficialmente, é considerada totalmente comparável ao GPT-5.2 e ao Gemini 3 Pro.
  • 2.0 Lite: Seu objetivo é ser um dispositivo "dois em um", um mestre em equilibrar desempenho e custo, e suas capacidades gerais superaram as do carro-chefe da geração anterior, o 1.8.
  • 2.0 Mini: Baixa latência, alta concorrência, projetado especificamente para cenários onde o custo é extremamente sensível.
  • Versão do código (Doubao-Seed-2.0-Code): Especialmente desenvolvida para programadores. Recomenda-se o uso em conjunto com a IDE TRAE para melhores resultados.

Quão poderosa é a compreensão multimodal de vídeo da Doubao, que supera até mesmo as capacidades humanas?

Se os modelos de texto são o cérebro da IA, então a compreensão multimodal são os seus olhos.

Relatórios técnicos oficiais mostram que a série Doubao Big Model 2.0 alcançou as pontuações mais altas do setor em benchmarks como VLMsAreBiased e OmniDocBench.

Dados podem ser áridos, então encontramos uma imagem engraçada criada por internautas: um frasco de xampu masculino que se diz "20 em 1". O frasco está repleto de diversos tipos de produtos.

Mesmo após o texto ter sido truncado, o Doubao 2.0 Pro o reconheceu claramente pelo contexto. Além disso, em vez de simplesmente apresentar o produto, afirmou explicitamente que se tratava de um "truque".

Isso corresponde ao desempenho de alto nível do ChartQAPro e do OmniDocBench 1.5 mencionado nos dados oficiais — ele não apenas visualiza, mas também compreende as relações hierárquicas das informações.

Essa "compreensão" se traduz em produtividade no ambiente de trabalho.

Um grande número de consultas reais de usuários envolvia imagens complexas — capturas de tela, gráficos, documentos digitalizados. Tentei enviar um documento técnico sobre o próprio Big Model 2.0 do Doubao e pedir que o analisasse. Para minha surpresa, ele não apenas extraiu as informações principais, mas também gerou um mapa mental e uma apresentação em PowerPoint, formando uma estrutura bastante completa.

Mesmo na compreensão de vídeos, demonstrou potencial para se tornar um "viciado em maratonas de séries". O relatório técnico menciona que o modelo 2.0 da Doubao superou o desempenho humano no teste de benchmark EgoTempo.

Será que se trata mesmo de ser melhor do que os outros? Mostramos uma imagem da série de TV "My Sunshine" e perguntamos: "A partir desta foto, você consegue dizer se o homem é do Sul ou do Norte?"

Esta é uma questão típica de teste misto que combina "percepção visual, conhecimento e raciocínio". O Big Model 2.0 da Doubao reagiu muito rapidamente, não apenas reconhecendo-a como a série de TV "My Sunshine" e o ator Wallace Chung, mas também fornecendo um relatório de análise detalhado e claro baseado no cenário do romance original.

Mesmo na compreensão de vídeos longos, suas altas pontuações no TVBench e no MotionBench se refletem em testes práticos: ele consegue analisar com precisão o ritmo dos movimentos em vídeos extensos. Para setores que precisam processar fluxos de vigilância e analisar eventos esportivos, isso representa um valor muito maior.

Um gênio do conhecimento científico encontra um novato na vida.

Em termos de raciocínio lógico, os resultados dos testes de referência mostram que o Doubao 2.0 Pro obteve uma pontuação superior ao GPT-5.2 no SuperGPQA (teste de perguntas e respostas de nível de pós-graduação) e até ganhou uma medalha de ouro na Olimpíada Internacional de Matemática (IMO).

Seja "Já que Sun Wukong aprendeu a arte da imortalidade, por que ele ainda morreu aos 342 anos?" ou "Do ponto de vista dos dados, qual das duas armas, uma com ataque de 1 a 5 e a outra com ataque de 2 a 4, é mais poderosa?", essas perguntas obviamente não deixarão Doubao perplexo.

No entanto, mesmo esse "gênio acadêmico" capaz de resolver problemas de matemática das Olimpíadas de Matemática errou uma pergunta de senso comum sobre um lava-rápido a 50 metros de distância: "Quero lavar meu carro. O lava-rápido fica a 50 metros da minha casa. Devo ir de carro ou a pé?".

Uma pessoa normal pensaria: "Vá de carro, senão por que se dar ao trabalho de lavar?". O Doubao 2.0 Pro, no entanto, mergulhou em um profundo "excesso de raciocínio". Começou a analisar o custo da distância, os benefícios para a saúde de caminhar, os custos iniciais do veículo… e, finalmente, sugeriu seriamente que eu fosse a pé.

Este também é um problema comum nos grandes modelos atuais. Embora possuam capacidades de raciocínio de nível científico, ainda lhes falta intuição de senso comum baseada no mundo físico. Só podemos dizer que ainda há um longo caminho a percorrer.

Uma boa IA é aquela que te ajuda a sair do trabalho mais cedo.

A maior ambição desta atualização reside, na verdade, no Agente (agente inteligente). A equipe do Seed identificou um ponto problemático: o modelo consegue resolver problemas, mas não consegue lidar com tarefas de longo prazo (como escrever um aplicativo completo ou projetar um experimento).

Para solucionar esse problema, o modelo 2.0 de grande porte da Doubao concentra-se em aprimorar a adesão às instruções e as tarefas de longo prazo. Ele alcançou o primeiro lugar no HealthBench e teve um desempenho excelente no FrontierSci.

Em testes práticos, isso se traduz em sua capacidade de funcionar como um verdadeiro "assistente de pesquisa". Ao ser confrontado com um problema biológico desafiador — "análise de proteínas do complexo de Golgi" — ele não ofereceu explicações vagas. Não apenas forneceu um roteiro geral, mas também integrou engenharia genética, construção de modelos de camundongos e análise multiômica em um processo completo.

Em relação à programação, para verificar o "conteúdo do código" do Doubao Big Model 2.0, abrimos diretamente o IDE da ByteDance – TRAE – e executamos o arquivo Doubao-Seed-2.0-Code, que é otimizado especificamente para programação.

Por exemplo, pode ser usado com p5js para criar animações interativas multicoloridas impressionantes, e o efeito é realmente notável. O código funciona perfeitamente na primeira tentativa, e as cores que fluem na tela não são apenas fluidas, mas a lógica interativa também atende a todas as expectativas.

Em seguida, pedimos que criasse um sistema de desktop macOS completamente do zero, usando apenas código. As animações do dock, a hierarquia de janelas e a barra de menu superior ficaram muito boas, mas a estética poderia ser melhorada e o desempenho geral foi mediano.

Conforme declarado pela equipe da Doubao Big Model em seu cartão de modelo:

É importante notar que a série Seed 2.0 ainda está atrás dos principais modelos internacionais de linguagem de grande escala. A Seed definiu claramente sua direção como sendo a de aprimorar a capacidade do modelo de lidar com as complexidades do mundo real e investiu esforços significativos na otimização da série de modelos Seed para esse fim.

Mas nada disso importa quando se trata de preço. Porque, embora o Big Model 2.0 da Doubao melhore o desempenho, ele também reduz o preço dos tokens em cerca de dez vezes.

Essa é uma lógica de negócios muito realista. Quando os custos de raciocínio se tornam mais acessíveis, muitos cenários, como a análise completa de documentos e o monitoramento de fluxos de vídeo em tempo real, tornam-se viáveis.

foto

Com base nesse extenso relatório de benchmark, minha principal conclusão pode ser resumida em duas palavras: prática. Não é perfeita, mas para profissionais atuantes no mercado, uma IA que pode ajudar a entender gráficos, escrever código sólido e que seja acessível pode ser muito mais útil.

Afinal, uma boa IA é aquela que nos ajuda a sair do trabalho mais cedo.

Segue em anexo um cartão modelo de 79 páginas:
https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/seed2/0214/Seed2.0%20Model%20Card.pdf

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo