Generatív adatintelligencia

A Microsoft zsebméretűre csökkenti a mesterséges intelligenciát a Phi-3 Mini segítségével

Találka:

A Microsoft azt állítja, hogy könnyűsúlyú Phi-3 Mini AI modelljének legújabb megtestesülése vetekszik a versenytársakkal, például a GPT-3.5-tel, miközben elég kicsi ahhoz, hogy egy telefonra is bevezessük.

A Phi-3 Mini egy 3.8 milliárd paraméteres nyelvi modell, amelyet 3.3 billió tokenre képeztek ki. Ez a szám magasabb a Phi-2.7 2 milliárd paraméterénél, amelyet a Microsoft Bevezetett decemberben 2023.

Ahelyett, hogy a lehető legtöbbet belelapátolta volna a képzési modellekbe, a hangsúly az érvelésen volt. A Microsoft azt mondta: „Például egy Premier League-beli meccs eredménye egy adott napon jó edzési adat lehet a határmodellek számára, de el kell távolítanunk ezeket az információkat, hogy több modellkapacitás maradjon az „okoskodás” számára a mini méretű modelleknél. .”

A célzott megközelítés azt jelenti, hogy bár a Phi-3 nem biztos, hogy rendelkezik annyi tudással, mint versenytársai, de legalább olyan jó, ha nem jobb, ha az érvelésről van szó, legalábbis ezt állítja a Microsoft. Az a kutatási papír [PDF], a Microsoft megjegyzi, hogy ez lehetővé tette a kis nyelvi modelljének, hogy „elérje a magas képességű modellek szintjét, mint például a GPT-3.5 vagy a Mixtral, mindössze 3.8 B összparaméterrel (míg a Mixtral például 45 B összes paraméterrel rendelkezik).

A kutatás azt is megjegyzi, hogy a felhasznált képzési adatok „erősen szűrt webes adatokból … különböző nyílt internetes forrásokból” és LLM által generált adatokból álltak. Az LLM-ek képzéséhez használt adatforrások tárgya több per.

A Phi-3 Mini kis mérete azt jelenti, hogy okostelefonon offline is működik. A kutatók azt mondták, hogy körülbelül 1.8 GB memóriát lehet elfoglalni, és offline módban is kipróbálták egy iPhone 14-en, amelyen egy A16 Bionic chip natívan fut az eszközön. Az újságban a kutatók képernyőképeket mutatnak be arról, hogy a Phi-3 Mini verset ír, és tennivalókat javasol Houstonban.

A kutatók rávilágítanak a nyelvi megértésre és érvelésre való összpontosítás árnyoldalaira is. „A modell egyszerűen nem képes túl sok „tényismeretet” tárolni, ami bizonyos mértékig mérsékelhető egy keresőmotorral való kiegészítéssel. Ez azonban elveszítené az offline futtatás értelmét.

A nyelv jelenleg leginkább az angolra korlátozódik, és a legtöbb LLM-ben rejlő problémák – hallucinációk, torzítás erősítése és nem megfelelő tartalom generálása – a Phi-3 Miniben is megtalálhatók.

A kutatók a következőket mondják az újságban: „Jelentős munka áll előttünk, hogy teljes mértékben megbirkózzunk ezekvel a kihívásokkal.”

A nagyobb modelleket – viszonylagosan szólva – a Phi-3 Small és Phi-3 Medium formájában is bejelentették, 7, illetve 14 milliárd paraméterrel.

Victor Botev, műszaki igazgató és társalapítója Iris.ai, a következőket mondta nekünk: „A Microsoft Phi-3 modellre vonatkozó bejelentése a mesterséges intelligencia fejlesztésének folyamatos trendje. Az egyre nagyobb modellek üldözése helyett a Microsoft gondosabban kezelt adatokkal és speciális képzéssel rendelkező eszközöket fejleszt. Ez jobb teljesítményt és érvelési képességeket tesz lehetővé a több billió paraméterrel rendelkező modellek hatalmas számítási költségei nélkül. Ennek az ígéretnek a teljesítése azt jelentené, hogy lebontják az AI-megoldásokat kereső vállalkozások előtt álló hatalmas elfogadási korlátot.

„A Microsoft bölcsen túllép a „minél nagyobb, annál jobb” gondolkodásmódon. A széles körben elterjedt üzleti és fogyasztói AI-alkalmazások esetében a megvalósíthatóság és a specifikusság fontosabb, mint a hatalmas paraméterek száma. Az olyan modellek, mint a Phi-3, egyértelműen bizonyítják, hogy a megfelelő adat- és képzési megközelítéssel a fejlett AI-képességekhez nem kell egyre nagyobb modelleket készíteni – ez döntő tényező azoknál a vállalkozásoknál, ahol a költség-minőség arány kritikus.” ®

spot_img

Legújabb intelligencia

spot_img

Beszélj velünk

Szia! Miben segíthetek?