Quase dois anos depois de Satya Nadella, CEO da Microsoft, ter afirmado que a inteligência artificial generativa iria assumir grande parte do trabalho intelectual, a realidade conta uma história bem diferente. Apesar do inegável (e estrondoso) avanço que as mais diversas IA's têm tido nos últimos meses, a verdade é que tal ainda não se reflete nesta situação em específico.
Apesar do discurso otimista em torno de capacidades como raciocínio e planeamento, um novo estudo ajuda a explicar porque é que a prometida revolução da IA ainda não aconteceu.
A análise foi conduzida pela Mercor, uma empresa especializada em dados de treino para modelos de inteligência artificial, que lançou um novo benchmark chamado APEX Agents. Ao contrário dos testes tradicionais, que avaliam a IA com tarefas isoladas como escrever textos ou resolver problemas matemáticos, este benchmark recorre a pedidos reais de advogados, consultores e banqueiros.
Em que consistiu o desafio?
O objetivo é simples mas exigente: testar a capacidade dos modelos para executar tarefas completas, com várias etapas e cruzamento de diferentes fontes de informação. Os resultados não enganam! Mesmo os modelos mais avançados do mercado apresentaram desempenhos muito abaixo do esperado.
O Gemini 3 Flash liderou a tabela com uma taxa de sucesso de apenas 24%, seguido de perto pelo ChatGPT 5.2, que atingiu 23%. A maioria dos restantes modelos ficou perto dos 10%, um valor que está longe de permitir qualquer substituição real de profissionais qualificados.
Segundo Brendan Foody, CEO da Mercor, o problema não está na capacidade de cálculo ou na inteligência bruta da IA, mas na falta de contexto. No trabalho real, a informação está dispersa. Um advogado pode precisar de consultar mensagens no WhatsApp, analisar um documento em PDF, cruzar dados numa folha de Excel e só depois formular uma resposta sobre conformidade com o RGPD.
Sinais não enganam
Para um humano, esta mudança constante de contexto é natural. Para a IA, continua a ser um enorme desafio. Quando obrigados a lidar com fontes fragmentadas e tarefas interligadas, muitos modelos confundem-se, dão respostas incorretas ou simplesmente falham a execução.
É por isso que o estudo compara a IA atual não a um especialista experiente, mas a um estagiário pouco fiável, que só acerta em cerca de um quarto das tentativas. Ainda assim, há sinais de progresso rápido. Há apenas um ano, estes modelos registavam taxas de sucesso entre 5 e 10%. Hoje, aproximam-se dos 25%. O avanço é significativo, mas insuficiente para uma adoção autónoma em ambientes profissionais exigentes.
