A anuidade ultrapassa 20.000! Musk acaba de lançar a IA mais cara, Grok 4 promete esmagar doutores em todas as áreas

Musk estava se segurando há quase meio ano e finalmente trouxe o Grok 4 para a mesa.

Desta vez, seu tom ainda era bastante forte. Ele fez uma declaração ousada antes do lançamento, afirmando que a Grok 4 "reescreveria a base de conhecimento humano". No lançamento, Musk enfatizou mais uma vez que a Grok 4 é atualmente a IA mais inteligente do mundo.

Sim, sabor familiar, receita familiar.

Claro, todo mundo está acostumado a ver Musk elogiando seus próprios produtos, mas, como os internautas brincaram, você pode rir dos funcionários da xAI dormindo em tendas de escritório ou trabalhando até 4h20 da manhã nos fins de semana, mas você tem que admitir que eles são de fato um dos laboratórios de IA que mais crescem.

Se o Grok 4 pode ser considerado a "IA mais inteligente" depende da experiência real. No entanto, uma coisa é certa: ele se tornou a IA mais cara do mercado, com uma assinatura anual de até US$ 3.000. A estratégia de preços é bastante antiética.

A IA mais inteligente do mundo? A IA mais cara do mundo!

O caminho de treinamento do Grok é dividido em duas etapas principais: pré-treinamento e aprendizado por reforço. Do Grok 2 ao Grok 3, ele se baseia principalmente no pré-treinamento; enquanto do Grok 3 ao Grok 4, o treinamento de aprendizado por reforço com capacidade de raciocínio como base é amplamente introduzido.

Musk minimizou o incidente, mas o treinamento não foi pouca coisa.

Comparado ao Grok 2, o cálculo de treinamento do Grok 4 aumentou em duas ordens de magnitude, o equivalente a um aumento de 100 vezes, e continua a se expandir.

Musk afirmou que a Grok 4 ultrapassou o nível de doutorado em todas as principais disciplinas. Embora atualmente não tenha a capacidade de inventar novas teorias ou desenvolver tecnologias originais, em sua opinião, é apenas uma questão de tempo.

Ele ainda disse que até o final deste ano, Grok poderá inventar novas tecnologias e, no ano que vem, quase certamente será capaz de descobrir novas leis da física.

Claro, a verdadeira chave é conectar a IA ao mundo real.

Ele afirmou que a combinação de Grok e do robô humanoide Optimus formará um sistema de raciocínio em circuito fechado — propondo hipóteses, verificando hipóteses e explorando a realidade. Isso inaugurará uma era de explosão de inteligência e será o nó mais empolgante da história da humanidade.

Em termos de formato do produto, o Grok 4 é um modelo de agente único, enquanto o Grok 4 Heavy é uma versão de múltiplos agentes.

O primeiro é mais fácil de entender, enquanto o último permite que vários agentes pensem em paralelo, realizem comparações horizontais e colaboração vertical durante o processo de raciocínio e recorram a recursos de computação em larga escala para concluir tarefas mais complexas e sofisticadas.

Durante a demonstração ao vivo, o Grok 4 Heavy demonstrou capacidades em múltiplos cenários.

Por exemplo, vamos supor que o Grok 4 Heavy preveja a probabilidade de vencer a MLB World Series deste ano. Por meio de recuperação de informações, modelagem de dados e cálculo de probabilidade, ele estima que a chance do Los Angeles Dodgers vencer o campeonato é de 21,6% e realiza todo o processo de previsão em 4,5 minutos.

Outro exemplo é uma tarefa aparentemente sem sentido: encontrar aquele com o avatar mais estranho na equipe xAI. Baseando-se no banco de dados da plataforma X, o modelo capturou e analisou automaticamente o estilo do avatar e, finalmente, identificou o cofundador Greg Yang.

Curiosamente, embora o modelo entenda com precisão o conceito subjetivo de "estranho" e possa fazer julgamentos relativos entre pessoas semelhantes, quando naveguei pela demonstração, pareceu-me ver a foto de perfil da funcionária da Anthropic, Jan Leike, então parece que a precisão precisa ser melhorada.

Além de raciocinar e pesquisar, o Grok também pode gerar cronogramas de conteúdo.

Por exemplo, com base em publicações públicas na plataforma X, ele pode classificar as pontuações dos testes de benchmark de vários modelos de IA, o ritmo das atualizações dos fornecedores e as reações da comunidade. Os usuários podem ver rapidamente o desempenho da pontuação do OpenAI, as iterações de atualização do Gemini e até mesmo a sutil situação competitiva entre os modelos.

Em outras palavras, Grok não é um nerd que só sabe fazer provas, mas uma IA que realmente tem a capacidade de entender e executar em diferentes cenários.

Atualmente, a maior deficiência do Grok ainda são suas capacidades de compreensão multimodal, especialmente na compreensão e geração de imagens, que ainda precisam ser aprimoradas. A boa notícia é que a próxima fase do treinamento básico do modelo está a caminho e deve ser concluída em algumas semanas.

Durante a demonstração, ao testar a tarefa de visualização do "processo de colisão de dois buracos negros", Grok adotou um método de cálculo simplificado – usando a aproximação pós-newtoniana em vez da estrutura completa da relatividade geral.

Apesar das simplificações, o modelo ainda apresenta com precisão os principais estágios físicos das fusões de buracos negros, incluindo a "abordagem espiral", a "fusão" e a "fase de anel", e consegue explicar claramente os métodos aproximados utilizados. Além disso, utiliza livros didáticos relevantes, resultados de pesquisas públicas e constantes físicas reais para fundamentar o raciocínio, e a cadeia lógica geral é rigorosa e a explicação é clara.

Em termos de parâmetros de papel, o Grok 4 também apresentou uma resposta impressionante.

O Último Exame da Humanidade (HLE) abrange mais de 100 disciplinas, incluindo matemática, física, ciência da computação, medicina, humanidades e ciências sociais, com um total de 2.500 questões sem consulta. O teste é extremamente difícil e pode refletir verdadeiramente o desempenho abrangente do modelo em conhecimentos gerais e raciocínio complexo.

De acordo com dados do xAI, o Grok 4 obteve 25,4% sem o uso de nenhuma ferramenta, superando os 21,6% do Google Gemini 2.5 Pro e os 21% do OpenAI o3 (versão de ponta).

Ao usar ferramentas, o Grok 4 Heavy obteve uma pontuação de 44,4%, muito superior aos 26,9% do Gemini 2.5 Pro após o uso. Em termos gerais, o Grok 4 não apenas melhora a capacidade de processamento de tarefas complexas, introduzindo o uso de ferramentas e o pensamento em cadeia, além de expandir os recursos de treinamento, como também reduz gradualmente a lacuna entre a inteligência do modelo e a cognição geral.

A organização sem fins lucrativos Arc Prize também observou que Grok estabeleceu um novo recorde em seu teste ARC-AGI-2, um benchmark de raciocínio visual no qual a IA reconhece padrões em imagens. A pontuação de Grok, de 16,2%, é quase o dobro da do atual vice-campeão, Claude Opus 4.

Em alguns testes de referência comuns, as pontuações do Grok 4 Heavy estão quase no máximo. No conjunto de problemas de nível de doutorado GBQA, embora a dificuldade geral seja ligeiramente inferior à do HLE, o Grok 4 Heavy ainda obteve a pontuação máxima, demonstrando fortes capacidades de raciocínio e compreensão.

Além disso, o Grok 4 Heavy também tem um bom desempenho em muitos testes relacionados à programação, incluindo Live Coding, HMMT (MIT Mathematics Competition) e USAMO (United States Mathematical Olympiad), superando em muito o atual modelo classificado em segundo lugar, e suas vantagens técnicas são bastante óbvias.

Além disso, a conhecida organização de análise Artificial Analysis avaliou o desempenho abrangente de vários modelos grandes e tradicionais em 7 benchmarks relacionados ao raciocínio (MMLU-Pro, GPQA Diamond, Humanity's Last Exam, LiveCodeBench, SciCode, AIME e MATH-500).

Os dados mostram que o Grok 4 ocupa o primeiro lugar com uma pontuação de 73, sendo atualmente o modelo com a maior pontuação abrangente em capacidade de raciocínio. É seguido de perto pelo o3-pro (valor estimado) com 71 pontos.

Musk também enfatizou:

No futuro, o Grok responderá corretamente a quase todas as questões em todos os exames. Quando não conseguir responder a uma questão, apontará o erro ou a ambiguidade da questão e apresentará respostas possíveis em diferentes cenários. Até lá, os exames tradicionais perderão o sentido. O único padrão de teste para a IA será o mundo real: se ela consegue inventar tecnologias úteis e promover avanços científicos. Portanto, bancos de questões de teste como o HLE precisam ser atualizados o mais rápido possível, pois, no ritmo atual de progresso da IA, eles logo ficarão obsoletos.

Atualmente, o Grok 4 e o Grok 4 Heavy já estão totalmente lançados. Os usuários podem acessá-los por meio de assinatura, mas o preço da assinatura é um pouco "injusto", chegando a US$ 3.000 por ano, o que tem sido alvo de muitas reclamações.

Em comparação, os pacotes de US$ 200/mês do OpenAI, Anthropic e Perplexity parecem muito mais acessíveis.

Vale mencionar que, logo após o lançamento, alguns internautas afirmaram que os modelos Grok-4 e Grok-4-Heavy haviam sido desbloqueados com sucesso. As capacidades desbloqueadas são extremamente perigosas e podem contornar barreiras de segurança e gerar informações confidenciais ou ilegais, como etapas de síntese de armas químicas, o roteiro completo de "Star Wars 1" (suspeito de direitos autorais) e até mesmo ransomware (código malicioso).

A voz do Grok não só fala, mas também tem alma

Além de maior capacidade de raciocínio e inteligência, Grok 4 também deu um grande passo à frente, tornando-se mais parecido com um humano.

Diferentemente dos assistentes de voz que conhecemos, o novo assistente de voz da xAI, "Eve", não só pode responder perguntas, mas também expressar emoções, mudar o tom e até mesmo "cantar" na hora.

Na demonstração ao vivo, ele cantou uma "Diet Coke Aria" improvisada com um elegante sotaque britânico, "Ó Diet Coke, tu elixir divino…" Realmente não parecia IA, mas mais como um ator de teatro atuando em um teatro de Londres.

Um total de cinco vozes foram lançadas neste modelo de voz, incluindo Sal, a "voz masculina de trailer de filme" no início da transmissão ao vivo, e Eve, que suporta baixa latência, pausas naturais, altos e baixos emocionais, etc.

Uma demonstração comparativa com o ChatGPT Voice também foi organizada no local, com os dois se revezando para repetir os números. O ChatGPT ocasionalmente "respondia" à pergunta, como um colega de classe que assumia o controle da conversa sem ouvi-la claramente. O desempenho do Grok era mais suave, mais próximo dos hábitos de fala humana, e não interrompia o usuário.

Na coletiva de imprensa, foi mencionado que, desde o lançamento do modelo de voz, a latência de ponta a ponta do Grok Voice foi reduzida em duas vezes e o número de usuários ativos aumentou em dez vezes. O Grok Voice está se desenvolvendo rapidamente.

Musk: Deixe Grok abrir um milhão de máquinas de venda automática para ganhar dinheiro

Fiquei muito impressionado com vários cenários de aplicação da API do Grok 4.

Por exemplo, em uma simulação de negócios de máquina de venda automática Vending-Bench, a Grok foi solicitada a concluir de forma independente: negociação com fornecedores, gerenciamento de estoque, estratégia de preços, e concluí-los continuamente, mantendo a lucratividade em longo prazo.

▲Observação: o Vending-Bench é um benchmark projetado especificamente para testar a capacidade de agentes baseados em LLM de gerenciar um cenário de negócios simples, mas de longa duração: operar uma máquina de venda automática.

Os resultados dos testes mostraram que o Grok 4 não só liderou a lista, como também gerou o dobro de patrimônio líquido em relação a outros modelos. Até Musk começou a brincar que "o dinheiro da compra de placas de vídeo no futuro poderá ser recuperado pela Grok implantando e operando um milhão de máquinas de venda automática".

No campo da pesquisa científica, o Grok 4 tem sido usado em pesquisas genéticas CRISPR e em análises de radiografias de tórax. Ele consegue ler milhões de registros e registros experimentais em poucos segundos e descartar automaticamente as hipóteses mais prováveis.

Além disso, projetos como finanças e desenvolvimento de jogos podem ser implementados usando o Grok 4 por meio da API da xAI. Um designer de jogos foi mencionado especificamente na coletiva de imprensa. Após o lançamento da API de pré-visualização do Grok 4 pela xAI, ele participou imediatamente do teste. Em seguida, criou um jogo de tiro em primeira pessoa em apenas 4 horas.

O Grok 4 não é o fim. A coletiva de imprensa finalmente anunciou o próximo roteiro, e cada item merece ser aguardado.

  • Modelo de código: O código Grok não foi lançado desta vez, mas o xAI mencionou que ele está sendo treinado e um modelo de código "rápido e inteligente" será lançado dentro de algumas semanas.
  • Capacidades multimodais: O Grok 4 ainda tem desempenho limitado na compreensão de imagens. A equipe também afirmou que está treinando a próxima versão em uma escala maior, e espera-se que ela inaugure uma mudança qualitativa na compreensão de imagens, vídeos e áudio. Até lá, o Grok será capaz de "ver o mundo como humanos".
  • Geração de vídeo: a xAI afirmou que usará recursos computacionais em larga escala para treinar modelos de geração de vídeo. Seu objetivo final é gerar vídeo a partir de imagens e gerar "fluxos de vídeo infinitos" interativos para que os usuários possam assistir e participar da trama.

Muitos de vocês devem ter notado que há dois rostos chineses conhecidos nesta conferência. Eles são os cofundadores da xAI: Jimmy Ba e Yuhuai Wu.

Entre eles, Yuhuai Wu se formou com créditos completos pela Universidade de New Brunswick, no Canadá, e recebeu um doutorado em aprendizado de máquina pela Universidade de Toronto em 2021. Durante esse período, ele estudou com Geoffrey Hinton, o "pai do aprendizado profundo".

Durante seu doutorado, ele também estagiou no Google DeepMind e na OpenAI. Após a graduação, trabalhou no Google e conduziu pesquisa de pós-doutorado na Universidade Stanford.

A pesquisa de Wu Yuhuai concentra-se na construção de sistemas de inteligência artificial com fortes capacidades de raciocínio. Ele liderou ou participou de projetos como o modelo de raciocínio autodidata STAR, o modelo de linguagem Minerva e o provador de teoremas Alpha Geometry. Ele também publicou artigos em periódicos de renome, como a Nature, promovendo avanços em IA na área do raciocínio matemático.

▲ Wu Yuhuai (segundo da esquerda) e Jimmy Ba (terceiro da esquerda)

Sentado ao lado dele está Jimmy Ba, professor assistente no Departamento de Ciência da Computação da Universidade de Toronto e um dos mentores de Wu Yuhuai durante seus estudos de doutorado.

Ele também veio da escola de Hinton e é uma figura-chave na área de otimização de treinamento de aprendizado profundo.

Ele é mais conhecido pelo Adam Optimizer (Adaptive Moment Estimator) proposto por ele e seus colaboradores, que agora é praticamente o algoritmo padrão para treinamento de redes neurais profundas. Pode-se dizer que sua tese de doutorado estabeleceu uma base teórica sólida para os mecanismos modernos de treinamento de IA.

É preciso dizer que Gork 4 chega na hora perfeita.

A popularidade da geração anterior do Grok 3 surgiu rapidamente, mas desapareceu rapidamente.

De acordo com o "Global Generative AI Industry Trend Report 2025", divulgado pela conhecida agência de análise de mercado SimilarWeb em 9 de maio, o tráfego do Grok aumentou mais de 1 milhão de vezes em março, mas a taxa de crescimento caiu para 5.200% em maio.

Comparado com a geração anterior, que foi lançada e concluída às pressas, desta vez o Grok 4 claramente desacelerou o ritmo e se esforçou mais para aprimorar o produto. Em última análise, o halo de Musk pode ajudar o Grok a atrair a primeira onda de tráfego, mas a capacidade de retenção de usuários dependerá do poder do próprio modelo.

No entanto, se bem me lembro, quando Musk lançou o Grok 3, ele prometeu tornar o Grok 2 de código aberto. Cinco meses se passaram, mas não houve nenhum progresso nesse assunto, e ninguém mencionou isso na coletiva de imprensa.

Velha mãe, você não pode ser muito tolerante consigo mesma e rigorosa com os outros.

Autor: Zhang Zihao, Mo Chongyu

#Bem-vindo a seguir a conta pública oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde mais conteúdo interessante será apresentado a você o mais breve possível.

iFanr | Link original · Ver comentários · Sina Weibo