Novo estudo mostra que a IA ainda não está pronta para o trabalho de escritório.

Já se passaram quase dois anos desde que o CEO da Microsoft, Satya Nadella, previu que a IA generativa assumiria o trabalho intelectual, mas se você observar um escritório de advocacia ou um banco de investimentos típico hoje em dia, verá que a força de trabalho humana ainda está no comando. Apesar de toda a propaganda em torno do "raciocínio" e do "planejamento", um novo estudo da empresa de dados de treinamento Mercor explica exatamente por que a revolução dos robôs está estagnada: a IA simplesmente não consegue lidar com a complexidade do trabalho real.

Uma análise realista da teoria da “substituição”

A Mercor lançou um novo benchmark chamado APEX-Agents, e ele é brutal. Ao contrário dos testes usuais que pedem à IA para escrever um poema ou resolver um problema de matemática, este usa consultas reais de advogados, consultores e banqueiros. Ele exige que os modelos executem tarefas completas e complexas que requerem a transição entre diferentes tipos de informação.

Os resultados? Nem mesmo os melhores modelos do mercado — estamos falando do Gemini 3 Flash e do GPT-5.2 — conseguiram atingir uma taxa de acerto de 25%. O Gemini liderou com 24%, seguido de perto pelo GPT-5.2 com 23%. A maioria dos outros ficou na casa dos 10%.

Por que a IA está falhando no "teste do escritório"

Brendan Foody, CEO da Mercor, destaca que a questão não é a inteligência bruta, mas sim o contexto. No mundo real, as respostas não são entregues de bandeja. Um advogado precisa consultar uma conversa no Slack, ler uma política em PDF, analisar uma planilha e, em seguida, sintetizar tudo isso para responder a uma pergunta sobre conformidade com o GDPR.

Os humanos fazem essa mudança de contexto naturalmente. A IA, por outro lado, é péssima nisso. Quando você força esses modelos a buscar informações em fontes "dispersas", eles ficam confusos, dão a resposta errada ou simplesmente desistem.

O “Estagiário Não Confiável”

Para quem se preocupa com a segurança do emprego, isso é um alívio. O estudo sugere que, atualmente, a IA funciona menos como um profissional experiente e mais como um estagiário pouco confiável que acerta em apenas um quarto das vezes.

Dito isso, o progresso é assustadoramente rápido. A Foody observou que, há apenas um ano, esses modelos obtinham entre 5% e 10%. Agora, estão atingindo 24%. Portanto, embora ainda não estejam prontos para assumir o volante, estão aprendendo a dirigir muito mais rápido do que esperávamos. Por enquanto, porém, a revolução do "trabalho intelectual" está em suspenso até que os bots aprendam a realizar multitarefas.

O artigo "Novo estudo mostra que a IA não está pronta para o trabalho de escritório" foi publicado originalmente no Digital Trends .