Inteligência de dados generativa

ChatGPT-3.5, Claude 3 chuta a bunda pixelada em Street Fighter

Data:

Modelos de linguagem grande (LLMs) agora podem ser testados no videogame retrô Street Fighter III, e até agora parece que alguns são melhores que outros.

O benchmark baseado em Street Fighter III, denominado LLM Coliseu, foi criado por quatro desenvolvedores de IA da Phospho e Quivr durante o hackathon Mistral em São Francisco no mês passado. O benchmark funciona colocando dois LLMs um contra o outro em um jogo real de Street Fighter III, mantendo cada um atualizado sobre o quão perto está a vitória, onde está o LLM adversário, que movimento ele fez. Em seguida, ele pergunta o que gostaria de fazer e depois fará um movimento.

De acordo com a tabela de classificação oficial do LLM Colosseum, que é baseada em 342 lutas entre oito LLMs diferentes, o ChatGPT-3.5 Turbo é de longe o vencedor, com uma classificação Elo de 1,776.11. Isso está bem à frente de várias iterações do ChatGPT-4, que chegaram entre 1,400 e 1,500 anos.

O que torna um LLM bom em Street Fighter III é o equilíbrio entre as características principais, disse Nicolas Oulianov, um dos desenvolvedores do LLM Colosseum. “O turbo GPT-3.5 tem um bom equilíbrio entre velocidade e inteligência. O GPT-4 é um modelo maior, portanto muito mais inteligente, mas muito mais lento.”

A disparidade entre ChatGPT-3.5 e 4 no LLM Colosseum é uma indicação de quais recursos estão sendo priorizados nos LLMs mais recentes, segundo Oulianov. “Os benchmarks existentes focam muito no desempenho, independentemente da velocidade. Se você é um desenvolvedor de IA, precisa de avaliações personalizadas para ver se o GPT-4 é o melhor modelo para seus usuários”, disse ele. Mesmo frações de segundo podem contar em jogos de luta, portanto, qualquer tempo extra pode resultar em uma perda rápida.

Um experimento diferente com LLM Colosseum foi documentado pelo desenvolvedor da Amazon Web Services, Banjo Obayomi, executando modelos no Amazon Bedrock. Este torneio envolveu uma dúzia de modelos diferentes, embora Claude claramente tenha vencido a competição ao ficar do primeiro ao quarto lugar, com Claude 3 Haiku conquistando o primeiro lugar.

Obayomi também rastreou o comportamento peculiar que os LLMs testados exibiam de tempos em tempos, incluindo tentativas de executar movimentos inválidos, como o devastador “combo mais difícil de todos”.

Houve também casos em que os LLMs simplesmente se recusaram a jogar. As empresas que criam modelos de IA tendem a injetar-lhes uma perspetiva antiviolenta e muitas vezes recusam-se a responder a qualquer solicitação que considerem demasiado violenta. Claude 2.1 foi particularmente pacifista, dizendo que não podia tolerar nem mesmo combates fictícios.

Porém, comparados aos jogadores humanos reais, esses chatbots não jogam exatamente em nível profissional. “Lutei alguns jogos de SF3 contra LLMs”, diz Oulianov. “Até agora, acho que os LLMs só têm chance de vencer no Street Fighter 3 contra uma pessoa de 70 ou XNUMX anos.”

ChatGPT-4 da mesma forma teve um desempenho muito ruim em Doom, outro jogo da velha escola que requer raciocínio rápido e movimentos rápidos.

Mas por que testar LLMs em um jogo de luta retrô?

A ideia de comparar LLMs em um videogame tradicional é engraçada e talvez seja essa a razão pela qual o LLM Colosseum precisa existir, mas pode ser um pouco mais do que isso. “Ao contrário de outros benchmarks que você vê em comunicados à imprensa, todos jogavam videogame e podem ter uma ideia de por que seria um desafio para um LLM”, disse Oulianov. “Grandes empresas de IA são referências em jogos para obter pontuações bonitas e se exibir.”

Mas ele observa que “o benchmark de Street Fighter é quase o mesmo, mas muito mais divertido”.

Além disso, Oulianov disse que o LLM Colosseum mostra como os LLMs de uso geral já são inteligentes. “O que este projeto mostra é o potencial dos LLMs se tornarem tão inteligentes, tão rápidos e tão versáteis, que podemos usá-los como 'máquinas de raciocínio prontas para uso' basicamente em qualquer lugar. O objetivo é criar máquinas capazes não apenas de raciocinar com texto, mas também de reagir ao ambiente e interagir com outras máquinas pensantes.”

Oulianov também destacou que já existem modelos de IA que podem jogar jogos modernos em nível profissional. AlphaStar da DeepMind destruiu os profissionais de StarCraft II em 2018 e 2019, e Modelo OpenAI Five da OpenAI provou ser capaz de vencer campeões mundiais e cooperar eficazmente com companheiros de equipe humanos.

Os LLMs atuais orientados para chat não estão nem perto do nível dos modelos feitos sob medida (tente jogar uma partida de xadrez contra o ChatGPT), mas talvez não seja assim para sempre. “Com projetos como este, mostramos que esta visão está mais próxima da realidade do que da ficção científica”, disse Oulianov. ®

local_img

Inteligência mais recente

local_img