Cientistas criam 1ª IA que domina jogos de diferentes tipos

Compartilhe

O robô foi apelidado por seus criadores de “Estudante de Jogos”.

Pesquisadores recentemente construíram o primeiro algoritmo de inteligência artificial (IA) de uso geral que pode dominar uma ampla variedade de jogos. O robô foi apelidado por seus criadores de “Estudante de Jogos”.

Normalmente, os algoritmos de jogos são projetados para dominar categorias feitas de “informações perfeitas”, como o xadrez, ou jogos com “informações imperfeitas, como o pôquer, onde boa parte da mecânica do jogo está escondida nos jogadores”. Contudo, o novo algoritmo do Estudante de Jogos contorna essa limitação combinando pesquisa guiada, aprendizado de jogo e raciocínio teórico de jogos.

Quando foi testado pela primeira vez, o Estudante de Jogos se destacou tanto no xadrez, com informações perfeitas, quanto em partidas de pôquer ou Scotland Yard, com informações imperfeitas. No entanto, a nova IA não foi capaz de vencer os melhores algoritmos de IA existentes no mercado especializados em confrontos diretos.

“Uma conclusão que podemos tirar disso é que é sim possível projetar uma técnica que funcione nos dois segmentos, em vez de ter algoritmos especializados”, constatou o principal autor do estudo, Martin Schmid, CEO e cofundador da EquiLibre Technologies, em entrevista ao Live Science. Embora a ferramenta ainda não seja capaz de vencer seus concorrentes, ela abre uma nova brecha no mercado.

Há muito tempo, os jogos servem como referência para o progresso no campo da IA. Por exemplo, em 2016, a ferramenta AlphaGo venceu um jogador humano profissional de Go, um jogo de tabuleiro chinês baseado em estratégia. No ano seguinte, o sistema Libratus venceu os melhores jogadores humanos de pôquer do mundo em um torneio de Texas Hold’em de 20 dias.

Embora os jogos sempre terem sido usados como régua para a funcionalidade das inteligências artificiais, sempre houve uma divisão clara entre jogos com informações perfeitas e jogos imperfeitos. Para contornar esse problema, Schmid e sua equipe de pesquisa treinaram seu algoritmo de uso geral usando o que é conhecido como algoritmo de minimização de arrependimento contrafactual de árvore em crescimento (GT-CFR).

Essa ferramenta é uma variação de um algoritmo amplamente utilizado no qual um sistema de IA aprende jogando contra si mesmo repetidamente. Então, a equipe combinou técnicas usadas na construção de uma variedade de algoritmos de jogos, como o AlphaGo.

Na categoria de jogos de informação perfeita, a equipe descobriu que o Estudante de Jogos teve um desempenho tão bom quanto o de especialistas ou profissionais humanos. Contudo, a máquina foi substancialmente inferior ao AlphaZero, uma versão avançada do AlphaGo em confronto direto.

No futuro, os programadores planejam abordar e explorar as limitações encontradas, especialmente como reduzir os altos custos e o poder computacional envolvidos na execução do Estudante de Jogos e na obtenção de um melhor desempenho.

Você pode gostar...

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Skip to content