IA tenta vencer Pokémon Red, e é fascinante ver isso

Antes de dominar o mundo real, os modelos de IA estão conquistando os virtuais. Na terça-feira, a Anthropic iniciou uma transmissão ao vivo na Twitch chamada “Claude Plays Pokémon”. Em que a IA tenta vencer Pokémon Red.

Sem intervenção humana, o mais recente modelo de IA da startup, o Claude 3.7 Sonnet, explora o mundo de Pokémon Red, tentando vencer o clássico RPG da Nintendo para o Game Boy, lançado em 1998.

Last week, a researcher tried out an early preview of Claude 3.7 Sonnet.

The results were striking. Within hours, Claude defeated Brock. Days later, it trounced Misty. Progress that older models had little hope of achieving.

Turns out extended thinking is super effective. pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI) February 25, 2025

E, surpreendentemente, ele não está se saindo mal. Até agora, o Claude 3.7 conseguiu conquistar três insígnias de Líder de Ginásio, derrotando recentemente o Tenente Surge no Ginásio de Vermilion City.

Isso é consideravelmente melhor que o desempenho do Claude 3.5, que ficou preso em Pallet Town, a área inicial do jogo.

De forma encantadora, o Claude 3.7 até dá apelidos aos seus Pokémon, batizando seu inicial, Squirtle, de “Shell”.

Jogos como Minecraft e Goat Simulator se tornaram uma maneira popular de testar modelos de IA agentes, ou seja, modelos que podem interagir de forma autônoma com um ambiente.

No caso de Pokémon, o combate por turnos e as opções simples de diálogo fazem do jogo um campo de testes ideal para as novas habilidades de “raciocínio” do modelo de linguagem (LLM). O número limitado de opções disponíveis para o jogador torna o desafio mais acessível.

Os espectadores da transmissão podem acompanhar o processo de pensamento do Claude em tempo real em uma janela ao lado da gameplay, o que proporciona insights divertidos.

“Parece que um encontro com um Pokémon selvagem começou quando eu me movi!”, diz o fluxo de consciência da IA. “Vou pressionar ‘a’ para avançar nesse diálogo incomum… e me preparar para a batalha. Vou começar com SPIKE, que está com a saúde cheia.”

No entanto, o processo de pensamento da IA ao explorar o mundo aberto do jogo pode ser incrivelmente lento e confuso.

O TechCrunch destacou um momento em que o Claude ficou confuso com uma parede de pedra, tentando repetidamente atravessá-la, demorando muito para perceber que poderia simplesmente contornar o obstáculo.

De acordo com a Anthropic, o Claude “vê” o mundo analisando um fluxo constante de capturas de tela do jogo – embora, muitas vezes, de forma imprecisa, como a startup admite. Ele também pode ler a memória do jogo, obtendo informações como as coordenadas do jogador.

E, na maior melhoria em relação ao seu antecessor, o Claude 3.7 mantém uma “base de conhecimento” em constante mudança, onde armazena notas sobre sua jogada, como a localização de itens ou a sequência de botões para executar certas mecânicas do jogo.

O controle do jogo é feito por uma interface personalizada que permite ao Claude pressionar botões virtuais, além de uma ferramenta de busca de caminho que ajuda o modelo a se mover de um local para outro.

Apesar da lentidão e dos tropeços, assistir à IA se esforçando e ocasionalmente tendo sucesso é um espetáculo estranhamente fascinante. No mínimo, é uma viagem nostálgica ao passado.

Veja mais sobre games e tecnologia!

IA tenta vencer Pokémon Red, e é fascinante ver isso

Relacionado

Publicações relacionadas