Generativ dataintelligens

Microsoft krymper AI ned til lommestørrelse med Phi-3 Mini

Dato:

Microsoft hevder den siste inkarnasjonen av sin lette Phi-3 Mini AI-modell konkurrerer med konkurrenter som GPT-3.5, mens den er liten nok til å brukes på en telefon.

Phi-3 Mini er en språkmodell på 3.8 milliarder parametre trent på 3.3 billioner tokens. Dette tallet er opp fra 2.7 milliarder parametere til Phi-2, som Microsoft introdusert i desember 2023.

Fremfor å måke så mye som mulig inn i treningsmodellene, var fokuset på resonnement. Microsoft sa: "Som et eksempel kan resultatet av en kamp i Premier League på en bestemt dag være gode treningsdata for frontiermodeller, men vi må fjerne slik informasjon for å gi mer modellkapasitet for "begrunnelse" for ministørrelsesmodellene ."

Den målrettede tilnærmingen betyr at selv om Phi-3 kanskje ikke har den brede kunnskapen til konkurrentene, er den minst like god, om ikke bedre, når det kommer til resonnement, eller så hevder Microsoft. I en forskning papir [PDF], bemerker Microsoft at dette tillot den lille språkmodellen "å nå nivået til svært dyktige modeller som GPT-3.5 eller Mixtral med bare 3.8B totale parametere (mens Mixtral for eksempel har 45B totale parametere)."

Forskningen bemerker også at treningsdataene som ble brukt besto av "sterkt filtrerte nettdata ... fra forskjellige åpne internettkilder" og LLM-genererte data. Datakildene som brukes til å trene LLM-er er gjenstand for flere søksmål.

Den lille størrelsen på Phi-3 Mini betyr at den kan kjøre offline på en smarttelefon, blir vi fortalt. Forskere sa at den kunne brukes til å oppta omtrent 1.8 GB minne og prøve den ut offline på en iPhone 14 med en A16 Bionic-brikke som kjører naturlig på en enhet. I papiret viser forskere skjermbilder av Phi-3 Mini som skriver et dikt og foreslår ting å gjøre i Houston.

Forskerne trekker også frem ulempene som ligger i å fokusere på språkforståelse og resonnement. "Modellen har rett og slett ikke kapasitet til å lagre for mye 'faktisk kunnskap'," noe som til en viss grad kan reduseres ved å utvide den med en søkemotor. Det ville imidlertid beseire poenget med å kunne kjøre den offline.

Språket er for det meste begrenset til engelsk for tiden, og problemer som er iboende i de fleste LLM-er - hallusinasjoner, skjevhetsforsterkning og generering av upassende innhold - kan også finnes i Phi-3 Mini.

Forskere sier i papiret: "Det er betydelig arbeid foran for å løse disse utfordringene fullt ut."

Større modeller – relativt sett – har også blitt annonsert i form av Phi-3 Small og Phi-3 Medium med henholdsvis 7 og 14 milliarder parametere.

Victor Botev, CTO og medgründer ved Iris.ai, fortalte oss: "Microsofts kunngjøring av Phi-3-modellen representerer en kontinuerlig trend innen AI-utvikling. I stedet for å jage etter stadig større modeller, utvikler Microsoft verktøy med mer nøye utvalgte data og spesialisert opplæring. Dette gir mulighet for forbedret ytelse og resonneringsevne uten de enorme beregningskostnadene til modeller med billioner av parametere. Å oppfylle dette løftet vil bety å rive ned en enorm adopsjonsbarriere for bedrifter som leter etter AI-løsninger.

"Microsoft ser klokt utover "større er bedre"-tankegangen. For utbredte forretnings- og forbruker-AI-applikasjoner er gjennomførbarhet og spesifisitet viktigere enn massive parametertellinger. Modeller som Phi-3 viser tydelig at med riktig data- og opplæringstilnærming trenger ikke avanserte AI-evner å bygge stadig større modeller – en avgjørende faktor for bedrifter der forholdet mellom kostnad og kvalitet er kritisk.» ®

spot_img

Siste etterretning

spot_img

Chat med oss

Hei der! Hvordan kan jeg hjelpe deg?