Antes de dominar o mundo real, os modelos de IA estão conquistando os virtuais. Na terça-feira, a Anthropic iniciou uma transmissão ao vivo na Twitch chamada “Claude Plays Pokémon”. Em que a IA tenta vencer Pokémon Red.
Sem intervenção humana, o mais recente modelo de IA da startup, o Claude 3.7 Sonnet, explora o mundo de Pokémon Red, tentando vencer o clássico RPG da Nintendo para o Game Boy, lançado em 1998.
E, surpreendentemente, ele não está se saindo mal. Até agora, o Claude 3.7 conseguiu conquistar três insígnias de Líder de Ginásio, derrotando recentemente o Tenente Surge no Ginásio de Vermilion City.
Isso é consideravelmente melhor que o desempenho do Claude 3.5, que ficou preso em Pallet Town, a área inicial do jogo.
De forma encantadora, o Claude 3.7 até dá apelidos aos seus Pokémon, batizando seu inicial, Squirtle, de “Shell”.
Jogos como Minecraft e Goat Simulator se tornaram uma maneira popular de testar modelos de IA agentes, ou seja, modelos que podem interagir de forma autônoma com um ambiente.
No caso de Pokémon, o combate por turnos e as opções simples de diálogo fazem do jogo um campo de testes ideal para as novas habilidades de “raciocínio” do modelo de linguagem (LLM). O número limitado de opções disponíveis para o jogador torna o desafio mais acessível.
Os espectadores da transmissão podem acompanhar o processo de pensamento do Claude em tempo real em uma janela ao lado da gameplay, o que proporciona insights divertidos.
“Parece que um encontro com um Pokémon selvagem começou quando eu me movi!”, diz o fluxo de consciência da IA. “Vou pressionar ‘a’ para avançar nesse diálogo incomum… e me preparar para a batalha. Vou começar com SPIKE, que está com a saúde cheia.”
No entanto, o processo de pensamento da IA ao explorar o mundo aberto do jogo pode ser incrivelmente lento e confuso.
O TechCrunch destacou um momento em que o Claude ficou confuso com uma parede de pedra, tentando repetidamente atravessá-la, demorando muito para perceber que poderia simplesmente contornar o obstáculo.
De acordo com a Anthropic, o Claude “vê” o mundo analisando um fluxo constante de capturas de tela do jogo – embora, muitas vezes, de forma imprecisa, como a startup admite. Ele também pode ler a memória do jogo, obtendo informações como as coordenadas do jogador.
E, na maior melhoria em relação ao seu antecessor, o Claude 3.7 mantém uma “base de conhecimento” em constante mudança, onde armazena notas sobre sua jogada, como a localização de itens ou a sequência de botões para executar certas mecânicas do jogo.
O controle do jogo é feito por uma interface personalizada que permite ao Claude pressionar botões virtuais, além de uma ferramenta de busca de caminho que ajuda o modelo a se mover de um local para outro.
Apesar da lentidão e dos tropeços, assistir à IA se esforçando e ocasionalmente tendo sucesso é um espetáculo estranhamente fascinante. No mínimo, é uma viagem nostálgica ao passado.
Veja mais sobre games e tecnologia!