Agora mesmo, Yao Shunyu fez sua estreia na Tencent! Ele reconstruiu o modelo Hunyuan em três meses; como foi o desempenho na prática?

Esta semana, as atualizações no mercado de celulares em larga escala da China foram impressionantes. O principal lançamento da Alibaba, o Qwen 3.6 Max, foi lançado imediatamente, seguido de perto pelo Kimi 2.6, e o DeepSeek V4 também está prestes a ser lançado.

Acaba de ser revelada oficialmente a prévia do Hy3 da Hunyuan. Este é um modelo liderado por Yao Shunyu, cientista-chefe de IA da Tencent.

Yao Shunyu afirmou que a prévia do Hy3 é o primeiro passo na reconstrução do modelo de grande porte com elementos mistos. Ele espera que, por meio deste lançamento de código aberto, a praticidade da versão oficial do Hy3 e o desempenho geral do modelo em cenários do mundo real sejam continuamente aprimorados, e que as capacidades de modelos únicos comecem a ser exploradas.

Yao Shunyu ingressou na Tencent no final do ano passado como Cientista-Chefe de IA, responsável pela infraestrutura de IA e por grandes modelos de linguagem. O treinamento do modelo começou no final de janeiro e o processo, do treinamento à implantação, foi concluído em três meses.

Essa grande atualização do modelo híbrido não apenas reconstruiu sistematicamente a infraestrutura subjacente em um curto período de tempo, mas também reformulou completamente a estrutura fundamental, incluindo o pré-treinamento e o aprendizado por reforço.

O resultado final é um modelo de linguagem MoE (Hybrid Expert) que combina pensamento rápido e lento, com um total de 295 bilhões de parâmetros, 21 bilhões de parâmetros de ativação e suporte máximo para 256 mil contextos.

Em um setor onde trilhões (mais de 1T) de parâmetros são frequentemente mencionados, os dados da prévia do Hy3 parecem um tanto modestos. No entanto, esse parâmetro representa claramente um equilíbrio entre desempenho e custo, permitindo que o modelo seja melhor implementado em diferentes cenários.

No nível 300B, o raciocínio matemático complexo, a compreensão de contextos extensos e a capacidade de seguir instruções estão totalmente ativados. Se a escala for expandida à força para trilhões de parâmetros, por um lado, o tempo de treinamento dobrará e, em termos de desempenho real, provavelmente ocorrerão problemas como latência de comunicação, gargalos de taxa de transferência e duplicação dos custos de inferência.

No entanto, Yao Shunyu também mencionou que eles continuam expandindo a escala do pré-treinamento e do aprendizado por reforço para melhorar o limite superior da inteligência do modelo.

Em comparação com seu antecessor, o desempenho em múltiplos benchmarks de produção e uso no mundo real, bem como no benchmark CL da Tencent Hunyuan, apresenta uma melhoria significativa.

Portanto, a prévia do Hy3 tem um propósito muito claro: resolver problemas complexos de engenharia no mundo real.

Para verificar se a versão prévia do Hy3 consegue resolver diversos problemas no mundo real e qual o desempenho de modelos específicos, a APPSO também obteve antecipadamente qualificações para testes beta e realizou testes práticos no aplicativo Yuanbao e na plataforma desktop WorkBuddy durante um determinado período.

Programação e Agentes: Hunyuan começa a atender às necessidades reais de engenharia.

A capacidade de programação continua sendo um foco essencial para diversas empresas que desenvolvem modelos de grande escala. Há poucos dias, a mídia internacional noticiou que o Google está criando uma nova equipe dedicada à programação de IA.

Esta prévia do modelo Hy3 de nova geração da Tencent também aprimora suas capacidades gerais, tornando-o aplicável à programação e aos cenários de agentes inteligentes atualmente populares.

Por exemplo, vamos usar os casos de teste de programação que usamos quando o modelo GPT 5.4 foi lançado para ver o desempenho específico da prévia do Hy3.

▲Dica: Crie uma experiência 3D interativa hiper-realista da Ponte Golden Gate em São Francisco, permitindo que eu voe e circule livremente ao redor dela. O ambiente deve incluir iluminação realista, água, neblina, efeitos atmosféricos, pontes suspensas, fluxo de tráfego, litoral circundante e fundo urbano, com escala e detalhes cinematográficos. Deve permitir que eu navegue pela cena suavemente por meio de controles de voo intuitivos e múltiplas perspectivas (incluindo vistas estruturais em close-up e vistas panorâmicas). Os requisitos principais são realismo, imersão e fidelidade visual. Durante os testes, certifique-se de sobrevoar a ponte de várias distâncias e ângulos para verificar a suavidade e a estabilidade da navegação e garantir que a cena seja convincente independentemente da distância. Você pode usar suas habilidades de geração de imagens para gerar os recursos iniciais necessários para a modelagem. Os efeitos visuais não devem ter uma aparência "pixelizada" ou "barata"; eles devem atingir alta fidelidade, extrema suavidade e qualidade próxima à fotográfica. Veículos realistas devem estar presentes na superfície da ponte. Não tenha pressa; mesmo uma hora é aceitável, se necessário. Itere continuamente até a perfeição.

Embora o resultado final não tenha sido totalmente realista, principalmente devido às limitações das ferramentas utilizadas, a experiência geral ainda foi muito fluida e agradável. Podíamos usar as teclas WASD para controlar o voo em primeira pessoa, e a pré-visualização do Hy3 também gerava automaticamente alguns pontos de vista padrão.

Quando lhe pedem para escrever alguns jogos simples, como um minijogo sobre a gestão de um parque de diversões, usando instruções do mesmo GPT-5.4.

▲Palavras-chave: Crie um jogo de simulação de parque temático isométrico interativo que possa ser construído e navegado em um navegador. Utilize o ImageGen para estabelecer o estilo visual geral e gerar um conjunto completo de recursos do jogo, incluindo atrações, caminhos, terreno, árvores, espelhos d'água, barracas de comida, decorações, edifícios, ícones e ilustrações da interface do usuário. O mundo do jogo deve ter um alto grau de unidade, sofisticação e uma rica apresentação visual; o estilo artístico deve ser de alta qualidade e compatível com a perspectiva isométrica. Permita a criação e remoção fluida de caminhos, a adição de atrações, a organização de paisagens e a movimentação pelo parque, enquanto monitora a atividade dos visitantes, o status das instalações e o desenvolvimento do parque. O sistema deve incluir um algoritmo confiável de movimentação de visitantes e um sistema simples de gerenciamento do parque (como fundos, limpeza, filas e satisfação). Garanta que a experiência geral seja divertida, logicamente clara e completa, em vez de um protótipo rudimentar. Priorize a diversão, a legibilidade e a excelente jogabilidade em detrimento do realismo. Ao testar a jogabilidade, certifique-se de construir e expandir o parque por meio de várias rodadas de jogo. Verificar a fluidez da disposição e da navegação das instalações, confirmar as reações dos visitantes ao layout e às atrações do parque e garantir que os efeitos visuais, a interface do usuário e a experiência interativa sejam estáveis ​​e consistentes.

Inevitavelmente, ainda utilizava o esquema de cores "roxo degradê". Pode-se afirmar que, em termos de estética da interface, além de aprimorar as habilidades de programação, alguns ajustes adicionais ainda são necessários.

Felizmente, o jogo é jogável. Podemos administrar esse parque de diversões de forma realista, gerando receita e controlando o fluxo de pessoas através da construção de estradas, instalação de novos brinquedos e serviços.

O clássico teste do "pelicano na bicicleta" foi substituído por um mais desafiador: uma girafa dirigindo um carro. Os visuais SVG gerados são dinâmicos, com o sol, as nuvens e o carro em movimento — uma façanha alcançável com elementos SVG básicos.

Todos esses testes de habilidades de programação foram realizados dentro do WorkBuddy, um aplicativo de agente inteligente lançado pela Tencent há algum tempo.

Além das tarefas de desenvolvimento de código, também podemos usar o WorkBuddy para o trabalho de escritório diário, como processamento de documentos, análise e visualização de dados e pesquisa aprofundada.

Como o WorkBuddy também é um produto de agente local, assim como o Claude Code e o Codex, podemos permitir que ele acesse diretamente arquivos em pastas locais.

É necessário acessar todos os arquivos na pasta Hy3 do computador e, com base no conteúdo dos arquivos, criar uma página da web semelhante a uma wiki que possa indexar diretamente diferentes arquivos.

A WorkBuddy analisou os diferentes projetos que criamos, como a página inicial que nos pediram para concluir, a Ponte Golden Gate em 3D, o blog pessoal e o projeto de operação do jogo, e os categorizou e resumiu.

Pedir que o Hy3 converta um arquivo PDF do Festival Internacional de Cinema de Hong Kong em HTML e replique o requintado efeito de revista em escala 1:1 é obviamente exigir demais. No entanto, o Hy3 Preview ainda conseguiu localizar com precisão as informações no arquivo PDF não convencional e organizá-las em uma página da web.

Para a tarefa de pesquisa aprofundada, pedimos a ele que redigisse um relatório sobre as tendências do mercado de memória. O documento que ele nos entregou foi detalhado e todos os dados utilizados provêm de instituições de renome.

Ao continuar os testes com as tarefas de análise e visualização de dados no WorkBuddy, o Hy3 Preview precisou realizar uma análise de visualização das mudanças na estrutura populacional global com base em dados da Divisão de População das Nações Unidas. O Hy3 Preview dedicou bastante tempo à pesquisa, e o relatório final pode ser usado diretamente.

▲Capturas de tela de alguns gráficos visuais

Essas capacidades de programação e agentes inteligentes podem ser maximizadas quando combinadas com o WorkBuddy. Dentro do aplicativo Yuanbao, agora também podemos gerar pequenos jogos para a web, que podem ser visualizados e abertos em uma caixa de diálogo.

Não é fácil fazer com que uma conversa informal pareça "real".

Há algum tempo, um vídeo curto circulou online. O vídeo mostrava um passageiro observando o motorista no banco da frente conversando com um assistente de IA em seu celular. Ele contava à IA sobre sua renda diária, e a IA lhe dava um feedback.

Um internauta comentou que essas conversas costumavam custar 200 yuans por hora para aconselhamento psicológico, mas agora podem ser feitas apenas com uma mensagem de texto.

Independentemente do sucesso do modelo no desenvolvimento de código, na resolução de problemas matemáticos e na pesquisa científica, a maioria das pessoas usa IA principalmente em vários tipos de cenários de simulação.

Também testamos o desempenho da prévia do modelo Hy3 de nova geração da Tencent em conversas do dia a dia e em escrita criativa.

Em vez de me dizerem as coisas de forma direta e objetiva, encontrei palavras que realmente resolvem meus problemas. Abra o aplicativo Yuanbao, clique em Pensamento Profundo/Rápido, selecione o modelo Hy3 Preview e pergunte: "Por que não consigo encontrar o amor em Guangzhou?"

Sua resposta é tanto objetiva quanto subjetiva, analisando razões diferentes das minhas e me dizendo o que devo fazer.

Ao discutir algumas questões complexas que podem ter causas óbvias, a pré-visualização do Hy3 irá gerar automaticamente tabelas correspondentes para explicar que a IA não obedece cegamente.

Em tarefas de escrita criativa, o modelo de pré-visualização Hy3 apresenta melhor desempenho do que seu antecessor em termos de estilo literário e personalização. Mesmo em textos simples do dia a dia, o toque humano é mais evidente.

Testamos o sistema com algumas tarefas básicas, como imitação de estilo, continuidade do ritmo narrativo, criatividade linguística e tensão emocional.

Os resultados de escrita gerados, em termos de originalidade, precisão de execução e estabilidade de estilo, estão de fato mais alinhados com as características da escrita humana, sem os clichês óbvios da IA.

A prévia do Hy3 também respondeu à clássica pergunta sobre ir a pé ou de carro ao lava-rápido.

Enquanto todos os outros trabalhavam no mesmo teste, Hunyuan começou a criar o seu próprio.

Nos últimos dois anos, houve uma ansiedade coletiva na indústria de IA da China: todos estão fazendo a mesma coisa. A mesma arquitetura, o mesmo paradigma de treinamento, os mesmos rankings, os mesmos modelos de comunicados de imprensa. Os slides de apresentação para lançamento de modelos podem ser usados ​​indistintamente com apenas uma mudança de logotipo, e frases como "líder global" e "de alto desempenho" têm sido usadas em excesso.

A Tencent já fez parte desse mesmo grupo. Seguiu a mesma tendência em termos de rankings, aprimorou as especificações e implementou novos recursos. O resultado foi que, embora a Hunyuan tenha investido pesadamente em tecnologia, sua presença no mercado permaneceu incerta. Se você perguntasse aos usuários: "Qual a diferença entre a Hunyuan e as outras?", provavelmente eles não saberiam responder.

A importância da prévia do Hy3 pode residir justamente no fato de a Tencent finalmente ter parado de se concentrar em rankings de compras. Essa é também a maior mudança que Yao Shunyu trouxe para a Hunyuan.

Uma reportagem anterior da LatePost citou a avaliação de Yao Shunyu em uma reunião interna da Tencent: o modelo priorizou excessivamente o desempenho em rankings, incorporando dados relacionados a rankings no conjunto de treinamento e, assim, contaminando os dados. O modelo teve um bom desempenho ao responder perguntas, mas tornou-se instável em cenários do mundo real.

As classificações medem o limite superior das capacidades, enquanto os usuários percebem o limite inferior. Uma vantagem de dois pontos percentuais no MMLU é quase imperceptível para os usuários no uso real; por outro lado, uma conformidade de comando ligeiramente ruim, formatação instável e uma alta taxa de ilusões resultarão em uma queda acentuada na experiência do usuário.

Portanto, na prévia do Hy3, você pode ver que a Hunyuan começou a inverter essa lógica: em vez de perseguir os rankings, eles perseguem os cenários.

▲Um relatório do ano passado apontou que as pontuações de IA em vários testes de referência têm disparado, e que os benchmarks estão saturados. Esses resultados muitas vezes não refletem verdadeiramente seu impacto real no mundo prático.

A contagem de 295 bilhões de parâmetros indica que a plataforma não pretende competir diretamente em termos de tamanho do modelo. Sua ausência em rankings públicos sugere que ela não planeja continuar a competição acirrada de manipulação de pontuação. O modelo de desenvolvimento do Co-design demonstra que a plataforma está mudando seu foco de "o que os outros estão fazendo" para "o que meus usuários precisam".

Isso nos leva aos principais cenários de negócios da Tencent: redes sociais, jogos, publicidade e serviços corporativos, cada um com características altamente especializadas. O fluxo de conversas do WeChat é fragmentado e de alta densidade; os jogos exigem que os modelos reajam instantaneamente a situações em tempo real; e o WeChat Work e o Tencent Meeting requerem análises precisas com base em documentos privados.

▲ A prévia do Hy3 foi lançada no Tencent Cloud, Yuanbao, IMA, CodeBuddy, WorkBuddy, QQ, QQ Browser, Tencent Docs, Tencent Enjoy, etc., e será lançada em vários produtos principais, como Contas Oficiais do WeChat, Peacekeeper Elite, Tencent News, Seleção de Ações da Tencent, Atendimento ao Cliente da Tencent e Leitura do WeChat.

Os requisitos para os modelos nesses cenários não correspondem totalmente às métricas avaliadas em benchmarks gerais de inteligência. Um modelo que se classifica entre os três primeiros no MMLU, mas não consegue entender o contexto em chats de grupo do WeChat, é irrelevante para a Tencent.

Em outras palavras, a Tencent é provavelmente a empresa chinesa com menor probabilidade de se preocupar com rankings genéricos. Os cenários que ela possui são únicos, complexos e comercialmente valiosos o suficiente para que ela possa trilhar seu próprio caminho.

O design colaborativo é o ponto de partida desse caminho. O modelo é executado em cenários de negócios reais, e a empresa utiliza dados reais para alimentar o modelo. O enorme investimento da Tencent em IA pode ser rapidamente validado em cenários reais, ao mesmo tempo que se alcança um ciclo comercial fechado. Uma vez que esse ciclo virtuoso começa a girar, as barreiras que ele cria são muito mais robustas do que qualquer posição no ranking.

Quando todos comparam qual modelo é mais "versátil", o verdadeiro vencedor pode ser aquele cujo modelo é o "mais útil" em seu próprio cenário.

É claro que ainda existe uma distância considerável entre "encontrar o ritmo" e "ganhar o jogo".

A prévia do Hy3 é o primeiro modelo após a reestruturação da Hunyuan. O ciclo de desenvolvimento de três meses demonstra uma execução sólida, mas também indica uma margem significativa para otimização. Uma taxa de sucesso de 55% a 56% em avaliações às cegas indica que ele é utilizável, mas ainda está longe de criar uma vantagem competitiva significativa. Modelos maiores estão a caminho, e a versão oficial ainda está sendo aprimorada com base no feedback dos usuários da fase de prévia.

Mas pelo menos uma coisa mudou: Hunyuan parou de seguir os mapas de outras pessoas. Começou a desenhar seus próprios mapas e a traçar seus próprios caminhos.

No cenário competitivo atual de modelos em larga escala, a homogeneização é o maior risco. Quando todos usam o mesmo padrão para medir sua altura, algumas pessoas começam a criar seus próprios padrões, medindo as dimensões de que realmente precisam.

Essa questão em si é mais relevante do que qualquer parâmetro de classificação.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.