7 IAs enfrentaram-se em Werewolf e uma delas dominou com 96,7% de vitórias

Sete modelos de IA foram colocados à prova no jogo Werewolf. O resultado? Uma delas dominou com 96,7% de vitórias e mostrou porque está muito à frente das rivais.

Sabryna Esmeraldo

3 setembro 2025

IA werewolf

Um benchmark curioso colocou sete modelos de IA, incluindo opções de código aberto e fechado, a competir no popular jogo de estratégia e manipulação Werewolf (Lobisomem). E uma IA em particular registou um número de vitórias massivo, ficando muito à frente dos adversários: o GPT-5.

A IA da OpenAI conquistou uma taxa de vitórias de 96,7%, consolidando-se como o MVP (Jogador Mais Valioso, em tradução direta) indiscutível da experiência.

Mas a experiência revelou algo ainda mais curioso: cada IA desenvolveu uma personalidade diferente para jogar.

7 IAs em 210 partidas completas

Ias jogam werewolf — Imagem: captura de ecrã / X

Conforme divulgado pelo presidente da OpenAI, Greg Brockman, o benchmark reuniu sete modelos de IA em 210 jogos completos de Werewolf.

Neste jogo de raciocínio social, os jogadores são escolhidos secretamente como lobisomens ou aldeões. Em diferentes fases do jogo, há ataques e momentos em que os jogadores precisam de descobrir e acusar quem são os lobisomens e tentar expulsá-los. Já os lobisomens tentam convencer todos de que são aldeões e acusam outros jogadores.

A competição colocou cada modelo em diferentes papéis para avaliar não apenas a capacidade de dedução lógica, mas também a habilidade de manipulação, resistência a enganos e gestão de dinâmicas sociais.

O resultado foi inequívoco: o GPT-5 não foi derrotado em nenhuma configuração de jogo.

IAs jogam werewolf resultados — Imagem: Raphaël Dabadie / X e Werewolf Benchmark

Desempenho e métricas do benchmark

Os testadores recorreram a um sistema de classificação Elo independente e a três métricas principais para avaliar os resultados:

O impacto negativo das más eliminações entre os aldeões
A velocidade com que os lobisomens identificavam ataques coordenados
A eficácia em manter o controlo da aldeia ao longo de vários dias de jogo

Enquanto o GPT-5 mostrou consistência absoluta, outros modelos exibiram estilos distintos:

Kimi-K2 e Gemini 2.5 Pro → mais agressivos e voláteis, capazes de distorcer narrativas, mas vulneráveis a erros.
GPT-5-mini, 2.5 Flash e Qwen3 → influenciavam votos, mas raramente sustentavam o engano por muito tempo.
GPT-OSS → demasiado transparente, facilmente identificado e neutralizado.

Diferentes personalidades em jogo

Um dos aspetos mais interessantes foi a forma como cada modelo exibiu traços de personalidade durante as partidas:

GPT-5 → “um arquiteto calmo e composto”, dominando debates e conduzindo a narrativa com autoridade.
GPT-OSS → hesitante e defensivo, com dificuldades em lidar sob pressão.
Kimi-K2 → ousado e agressivo, jogando em alto risco, mas instável nas fases finais.

Segundo os investigadores, este benchmark vai além da competição. Ele ajuda a mapear como os modelos de linguagem se comportam em sistemas sociais complexos, revelando padrões de influência, resiliência e manipulação.

Agora, muitos utilizadores no X estão a pedir para incluir outras IAs famosas no teste do jogo.

Vê também:

Promoção do dia!