Generatywna analiza danych

Microsoft zmniejsza sztuczną inteligencję do kieszonkowych rozmiarów dzięki Phi-3 Mini

Data:

Microsoft twierdzi, że najnowsze wcielenie lekkiego modelu Phi-3 Mini AI może konkurować z konkurentami takimi jak GPT-3.5, a jednocześnie jest na tyle mały, że można go zainstalować na telefonie.

Phi-3 Mini to model językowy zawierający 3.8 miliarda parametrów, wytrenowany na 3.3 biliona tokenów. Liczba ta jest większa w porównaniu z 2.7 miliarda parametrów Phi-2, które Microsoft wprowadzono w grudniu 2023.

Zamiast wciskać jak najwięcej w modele szkoleniowe, skupiono się na rozumowaniu. Microsoft powiedział: „Na przykład wynik meczu w Premier League danego dnia może stanowić dobre dane treningowe dla modeli z pierwszej linii frontu, ale musimy usunąć takie informacje, aby pozostawić więcej miejsca na „wnioskowanie” dla modeli w rozmiarze mini .”

Ukierunkowane podejście oznacza, że ​​chociaż Phi-3 może nie dysponować tak szeroką wiedzą jak konkurenci, jest co najmniej tak samo dobry, jeśli nie lepszy, jeśli chodzi o rozumowanie, tak twierdzi Microsoft. W Referat naukowy [PDF] Microsoft zauważa, że ​​pozwoliło to jego małemu modelowi językowemu „osiągnąć poziom modeli o dużych możliwościach, takich jak GPT-3.5 lub Mixtral z jedynie 3.8B parametrami całkowitymi (podczas gdy Mixtral ma na przykład 45B parametrów całkowitych).”

W badaniu zauważono również, że wykorzystane dane szkoleniowe składały się z „silnie przefiltrowanych danych internetowych… z różnych otwartych źródeł internetowych” oraz danych wygenerowanych przez LLM. Źródła danych wykorzystywane do szkolenia LLM są przedmiotem kilka spraw sądowych.

Powiedziano nam, że niewielki rozmiar Phi-3 Mini oznacza, że ​​może działać w trybie offline na smartfonie. Badacze stwierdzili, że można go zająć około 1.8 GB pamięci, i wypróbowali go w trybie offline na iPhonie 14 z chipem A16 Bionic działającym natywnie na urządzeniu. W artykule badacze pokazują zrzuty ekranu przedstawiające Phi-3 Mini piszącego wiersz i sugerującego, co warto zobaczyć w Houston.

Naukowcy podkreślają również wady związane z skupianiem się na rozumieniu języka i rozumowaniu. „Model po prostu nie ma możliwości przechowywania zbyt dużej ilości „wiedzy faktycznej”, co można w pewnym stopniu złagodzić, wzbogacając go o wyszukiwarkę. Jednak byłoby to sprzeczne z celem możliwości uruchomienia go w trybie offline.

Obecnie język ten ogranicza się głównie do języka angielskiego, a problemy charakterystyczne dla większości LLM – halucynacje, wzmocnienie uprzedzeń i generowanie nieodpowiednich treści – można również znaleźć w Phi-3 Mini.

Naukowcy stwierdzają w artykule: „Przed nami wiele pracy, aby w pełni sprostać tym wyzwaniom”.

Zapowiedziano także większe modele – relatywnie rzecz biorąc – w postaci Phi-3 Small i Phi-3 Medium z odpowiednio 7 i 14 miliardami parametrów.

Victor Botev, CTO i współzałożyciel w Iris.ai, powiedział nam: „Ogłoszenie przez Microsoft modelu Phi-3 reprezentuje ciągły trend w rozwoju sztucznej inteligencji. Zamiast gonić za coraz większymi modelami, Microsoft opracowuje narzędzia oparte na dokładniej dobranych danych i specjalistycznych szkoleniach. Pozwala to na poprawę wydajności i zdolności wnioskowania bez ogromnych kosztów obliczeniowych modeli z bilionami parametrów. Spełnienie tej obietnicy oznaczałoby usunięcie ogromnej bariery wdrożeniowej dla firm poszukujących rozwiązań AI.

„Microsoft mądrze wychodzi poza zasadę „większe jest lepsze”. W przypadku szeroko rozpowszechnionych zastosowań sztucznej inteligencji dla przedsiębiorstw i konsumentów wykonalność i specyfika są ważniejsze niż ogromne parametry. Modele takie jak Phi-3 wyraźnie pokazują, że przy odpowiednim podejściu do danych i szkoleń zaawansowane możliwości sztucznej inteligencji nie muszą wymagać budowania coraz większych modeli – jest to czynnik decydujący dla firm, w których stosunek kosztów do jakości ma kluczowe znaczenie”. ®

spot_img

Najnowsza inteligencja

spot_img

Czat z nami

Cześć! Jak mogę ci pomóc?