Inteligența generativă a datelor

Microsoft reduce AI la dimensiunea de buzunar cu Phi-3 Mini

Data:

Microsoft susține că cea mai recentă încarnare a modelului său ușor Phi-3 Mini AI rivalizează cu concurenți precum GPT-3.5, în timp ce este suficient de mic pentru a fi implementat pe un telefon.

Phi-3 Mini este un model de limbaj cu 3.8 miliarde de parametri antrenat pe 3.3 trilioane de jetoane. Această cifră este în creștere față de cei 2.7 miliarde de parametri ai Phi-2, pe care Microsoft introdus în decembrie 2023.

Mai degrabă decât să găsească cât mai mult posibil în modelele de antrenament, accentul s-a pus pe raționament. Microsoft a spus: „De exemplu, rezultatul unui joc în Premier League într-o anumită zi ar putea fi date bune de antrenament pentru modelele de frontieră, dar trebuie să eliminăm astfel de informații pentru a lăsa mai multă capacitate de „raționare” a modelelor pentru modelele de dimensiuni mini. .”

Abordarea vizată înseamnă că, deși Phi-3 ar putea să nu aibă cunoștințele concurenților săi, este cel puțin la fel de bun, dacă nu mai bun, atunci când vine vorba de raționament, sau așa susține Microsoft. Într-o lucrare de cercetare [PDF], Microsoft observă că acest lucru i-a permis modelului său de limbaj mic „să atingă nivelul modelelor de înaltă capacitate, cum ar fi GPT-3.5 sau Mixtral, cu doar 3.8 miliarde de parametri totali (în timp ce Mixtral are 45 de miliarde de parametri totali, de exemplu)”.

Cercetarea notează, de asemenea, că datele de instruire utilizate au constat în „date web puternic filtrate … din diverse surse de internet deschise” și date generate de LLM. Sursele de date utilizate pentru formarea LLM-urilor fac obiectul mai multe procese.

Dimensiunea mică a lui Phi-3 Mini înseamnă că poate rula offline pe un smartphone, ni s-a spus. Cercetătorii au spus că ar putea fi făcut să ocupe aproximativ 1.8 GB de memorie și au încercat-o offline pe un iPhone 14 cu un cip A16 Bionic care rulează nativ pe un dispozitiv. În lucrare, cercetătorii arată capturi de ecran cu Phi-3 Mini scriind o poezie și sugerând lucruri de făcut în Houston.

Cercetătorii evidențiază, de asemenea, dezavantajele inerente concentrării pe înțelegerea și raționamentul limbajului. „Modelul pur și simplu nu are capacitatea de a stoca prea multe „cunoștințe de fapt”, ceva care poate fi atenuat într-o anumită măsură prin creșterea acestuia cu un motor de căutare. Cu toate acestea, asta ar învinge punctul de a putea rula offline.

În prezent, limba este în cea mai mare parte limitată la engleză, iar problemele inerente majorității LLM-urilor – halucinații, amplificarea părtinirii și generarea de conținut neadecvat – pot fi găsite și în Phi-3 Mini.

Cercetătorii spun în lucrare: „Există lucrări semnificative înainte pentru a aborda pe deplin aceste provocări”.

Modele mai mari – relativ vorbind – au fost anunțate și sub formă de Phi-3 Small și Phi-3 Medium cu 7 și, respectiv, 14 miliarde de parametri.

Victor Botev, CTO și co-fondator la Iris.ai, ne-a spus: „Anunțul Microsoft privind modelul Phi-3 reprezintă o tendință continuă în dezvoltarea AI. În loc să urmărească modele din ce în ce mai mari, Microsoft dezvoltă instrumente cu date mai atent îngrijite și formare specializată. Acest lucru permite performanțe îmbunătățite și abilități de raționament fără costurile de calcul masive ale modelelor cu trilioane de parametri. Îndeplinirea acestei promisiune ar însemna doborarea unei bariere uriașe de adoptare pentru companiile care caută soluții AI.

„Microsoft privește cu înțelepciune dincolo de mentalitatea „mai mare este mai bine”. Pentru aplicațiile IA larg răspândite pentru afaceri și consumatori, fezabilitatea și specificitatea sunt mai importante decât numărarea masivă a parametrilor. Modele precum Phi-3 demonstrează clar că, cu abordarea corectă a datelor și a instruirii, capabilitățile avansate de IA nu necesită construirea de modele tot mai mari – un factor decisiv pentru companiile în care raportul cost-calitate este esențial.” ®

spot_img

Ultimele informații

spot_img

Chat cu noi

Bună! Cu ce ​​​​vă pot ajuta?