Generatív adatintelligencia

ChatGPT-3.5, Claude 3 pixeles fenékrúgással a Street Fighterben

Találka:

A nagy nyelvű modelleket (LLM) most próbára lehet tenni a Street Fighter III retro arcade videojátékban, és eddig úgy tűnik, hogy egyesek jobbak, mint mások.

A Street Fighter III alapú benchmark, az ún LLM Colosseum, a Phospho és a Quivr négy mesterségesintelligencia-fejlesztője készítette a múlt hónapban San Franciscóban megrendezett Mistral hackathon során. A benchmark úgy működik, hogy a Street Fighter III tényleges játékában két LLM-et állítanak szembe egymással, és mindegyiket folyamatosan tájékoztatja arról, hogy milyen szoros a győzelem, hol van az ellenfél LLM, milyen lépést tett. Aztán megkérdezi, hogy mit szeretne csinálni, és ezután lépni fog.

Az LLM Colosseum hivatalos ranglistája szerint, amely nyolc különböző LLM közötti 342 csatán alapul, a ChatGPT-3.5 Turbo messze a győztes, az Elo értékelése 1,776.11. Ez jóval megelőzi a ChatGPT-4 számos iterációját, amely az 1,400-1,500-as években landolt.

Ami még egy LLM-et is jóvá tesz a Street Fighter III-ban, az az egyensúly a kulcsfontosságú jellemzők között – mondta Nicolas Oulianov, az LLM Colosseum egyik fejlesztője. „A GPT-3.5 turbónak jó egyensúlya van a sebesség és az agy között. A GPT-4 egy nagyobb modell, így sokkal okosabb, de sokkal lassabb.

Oulianov szerint a ChatGPT-3.5 és a 4 közötti eltérés az LLM Colosseumban azt jelzi, hogy a legújabb LLM-ekben mely funkciók vannak prioritásként kezelve. „A meglévő benchmarkok túlságosan a teljesítményre összpontosítanak, függetlenül a sebességtől. Ha Ön mesterséges intelligencia fejlesztő, akkor egyedi értékelésekre van szüksége annak megállapításához, hogy a GPT-4 a legjobb modell-e a felhasználók számára” – mondta. A küzdelmes játékokban a másodperc töredékei is számíthatnak, így bármilyen hosszabbítás gyors veszteséget eredményezhet.

Egy másik kísérlet Az LLM Colosseummal az Amazon Web Services fejlesztője, Banjo Obayomi dokumentálta, modelleket futtatva az Amazon Bedrock mellett. Ezen a tornán tucatnyi különböző modell vett részt, bár Claude egyértelműen lesöpörte a versenyt azzal, hogy megszerezte az első helyet a negyedik helyre, és Claude 3 Haiku szerezte meg az első helyet.

Obayomi nyomon követte azt a furcsa viselkedést is, amely időről időre tesztelte az LLM-eket, beleértve az érvénytelen lépések megjátszására irányuló kísérleteket is, mint például a pusztító „legkeményebb kombó”.

Voltak olyan esetek is, amikor az LLM-ek egyszerűen megtagadták a játékot. A mesterséges intelligencia modelleket létrehozó vállalatok általában erőszakellenes szemlélettel ruházzák fel őket, és gyakran nem hajlandók válaszolni minden olyan felszólításra, amelyet túl erőszakosnak tartanak. A Claude 2.1 különösen pacifista volt, mondván, még a kitalált harcokat sem bírja elviselni.

A valódi emberi játékosokhoz képest azonban ezek a chatbotok nem éppen profi szinten játszanak. „Veveztem néhány SF3 meccset LLM-ek ellen” – mondja Oulianov. „Eddig úgy gondolom, hogy az LLM-eknek csak a Street Fighter 3-ban van esélyük nyerni egy 70 vagy egy ötéves ellen.”

ChatGPT-4 hasonlóan elég gyengén teljesített a Doomban, egy másik old-school játék, amely gyors gondolkodást és gyors mozgást igényel.

De miért teszteljük az LLM-eket egy retró verekedős játékban?

Vicces az az ötlet, hogy az LLM-eket összehasonlítsák egy régi iskolai videojátékban, és talán ez az egyetlen ok, amiért az LLM Colosseumnak léteznie kell, de lehet, hogy ez egy kicsit több ennél. „Eltérően a sajtóközleményekben látható egyéb benchmarkoktól, mindenki videojátékokkal játszott, és megérzi, miért lenne kihívás egy LLM számára” – mondta Oulianov. „A nagy mesterségesintelligencia-cégek a játék mércéje, hogy szép pontszámokat szerezzenek és mutassanak magukkal.”

De megjegyzi, hogy „a Street Fighter benchmark nagyjából ugyanaz, de sokkal szórakoztatóbb”.

Ezen túlmenően Oulianov azt mondta, hogy az LLM Colosseum bemutatja, mennyire intelligensek az általános célú LLM-ek. „A projekt azt mutatja, hogy az LLM-ek olyan okossá, gyorsasággá és sokoldalúvá válhatnak, hogy gyakorlatilag mindenhol használhatjuk őket „kulcsrakész gondolkodási gépként”. A cél az, hogy olyan gépeket hozzanak létre, amelyek képesek nemcsak szöveggel érvelni, hanem reagálni is a környezetükre, és kölcsönhatásba lépnek más gondolkodó gépekkel.”

Oulianov arra is rámutatott, hogy már léteznek olyan mesterséges intelligencia modellek, amelyek képesek professzionális szinten játszani a modern játékokat. DeepMind AlphaStar kukába dobta a StarCraft II profikat még 2018-ban és 2019-ben, és Az OpenAI OpenAI Five modellje képesnek bizonyult a világbajnokok legyőzésére és az emberi csapattársakkal való hatékony együttműködésre.

A mai csevegés-orientált LLM-ek közel sincsenek a célzott modellek szintjéhez (csak próbáljon meg sakkozni a ChatGPT ellen), de talán nem lesz ez örökké így. „Az ilyen projektekkel megmutatjuk, hogy ez a vízió közelebb áll a valósághoz, mint a sci-fi” – mondta Oulianov. ®

spot_img

Legújabb intelligencia

spot_img