Generativní datová inteligence

Microsoft zmenšil AI na kapesní velikost s Phi-3 Mini

Datum:

Microsoft tvrdí, že nejnovější inkarnace svého lehkého modelu Phi-3 Mini s umělou inteligencí konkuruje konkurentům, jako je GPT-3.5, a přitom je dostatečně malá, aby ji bylo možné nasadit na telefon.

Phi-3 Mini je jazykový model s 3.8 miliardami parametrů natrénovaný na 3.3 bilionu tokenů. Toto číslo je vyšší než 2.7 miliardy parametrů Phi-2, které Microsoft Představený v prosinci 2023.

Spíše než lopatou co nejvíce házet do tréninkových modelů, se zaměřili na uvažování. Microsoft uvedl: „Jako příklad může být výsledkem zápasu v Premier League v konkrétní den dobrá tréninková data pro hraniční modely, ale musíme takové informace odstranit, abychom ponechali větší kapacitu modelu pro „uvažování“ pro modely malých velikostí. .“

Cílený přístup znamená, že ačkoli Phi-3 nemusí mít tak široké znalosti jako jeho konkurenti, je přinejmenším stejně dobrý, ne-li lepší, pokud jde o uvažování, nebo to alespoň tvrdí Microsoft. V výzkum papír [PDF], Microsoft poznamenává, že to umožnilo jeho malému jazykovému modelu „dosáhnout úrovně vysoce schopných modelů, jako je GPT-3.5 nebo Mixtral s pouze 3.8B celkových parametrů (zatímco Mixtral má například 45B celkových parametrů).

Výzkum také poznamenává, že použitá tréninková data sestávala z „silně filtrovaných webových dat … z různých otevřených internetových zdrojů“ a dat generovaných LLM. Zdroje dat používané pro školení LLM jsou předmětem několik soudních sporů.

Malá velikost Phi-3 Mini znamená, že může běžet offline na smartphonu, bylo nám řečeno. Výzkumníci uvedli, že by to mohlo být vyrobeno tak, aby zabíralo přibližně 1.8 GB paměti a vyzkoušeli to offline na iPhone 14 s čipem A16 Bionic běžícím nativně na zařízení. V novinách výzkumníci ukazují snímky obrazovky Phi-3 Mini, jak píše báseň a navrhuje, co dělat v Houstonu.

Výzkumníci také zdůrazňují nevýhody spojené se zaměřením na porozumění jazyku a uvažování. „Model jednoduše nemá kapacitu na uložení příliš velkého množství ‚faktických znalostí‘,“ což lze do určité míry zmírnit jeho rozšířením o vyhledávač. To by však zmařilo smysl, že jej lze spustit offline.

Jazyk je v současnosti většinou omezen na angličtinu a problémy spojené s většinou LLM – halucinace, zesílení zkreslení a generování nevhodného obsahu – lze nalézt také v Phi-3 Mini.

Výzkumníci v dokumentu říkají: "Čeká nás značná práce na úplném vyřešení těchto problémů."

Větší modely – relativně vzato – byly také oznámeny v podobě Phi-3 Small a Phi-3 Medium se 7 a 14 miliardami parametrů.

Victor Botev, technický ředitel a spoluzakladatel společnosti Iris.ai, nám řekl: „Oznámení společnosti Microsoft o modelu Phi-3 představuje pokračující trend ve vývoji umělé inteligence. Spíše než hon za stále většími modely, Microsoft vyvíjí nástroje s pečlivěji spravovanými daty a specializovaným školením. To umožňuje lepší výkon a schopnosti uvažování bez masivních výpočetních nákladů modelů s biliony parametrů. Splnění tohoto slibu by znamenalo zbourání obrovské překážky pro přijetí pro podniky, které hledají řešení AI.

„Microsoft moudře hledí za hranice 'větší, tím lepší'. Pro rozšířené obchodní a spotřebitelské AI aplikace jsou proveditelnost a specifičnost důležitější než masivní parametry. Modely jako Phi-3 jasně ukazují, že se správným přístupem k datům a školení nemusí pokročilé schopnosti umělé inteligence vyžadovat vytváření stále větších modelů – což je rozhodující faktor pro podniky, kde je poměr ceny a kvality rozhodující.“ ®

spot_img

Nejnovější inteligence

spot_img

piš si s námi

Ahoj! Jak vám mohu pomoci?