Generatiivinen tiedustelu

Microsoft pienentää tekoälyä taskukokoiseksi Phi-3 Minillä

Treffi:

Microsoft väittää, että sen kevyen Phi-3 Mini AI -mallin uusin inkarnaatio kilpailee kilpailijoilla, kuten GPT-3.5, vaikka se on tarpeeksi pieni käytettäväksi puhelimessa.

Phi-3 Mini on 3.8 miljardin parametrin kielimalli, joka on koulutettu 3.3 biljoonalla tokenilla. Tämä luku on suurempi kuin Microsoftin Phi-2.7:n 2 miljardia parametria käyttöön joulukuussa 2023.

Sen sijaan, että lapiottaisiin mahdollisimman paljon koulutusmalleihin, painopiste oli päättelyssä. Microsoft sanoi: "Esimerkiksi Valioliigan pelin tulos tiettynä päivänä saattaa olla hyviä harjoitustietoja rajamalleille, mutta meidän on poistettava tällaiset tiedot, jotta minikokoisille malleille jää enemmän mallikapasiteettia "päättelyyn". .”

Kohdennettu lähestymistapa tarkoittaa, että vaikka Phi-3:lla ei ehkä ole kilpailijoidensa laajaa tietämystä, se on vähintään yhtä hyvä, ellei parempi, kun se tulee päättelyyn, tai niin väittää Microsoft. Jonkin sisällä tutkimus paperi [PDF], Microsoft huomauttaa, että tämä mahdollisti sen pienen kielimallin "saavuttamaan erittäin suorituskykyisten mallien, kuten GPT-3.5 tai Mixtral, tason vain 3.8 miljardilla kokonaisparametrilla (kun taas Mixtralilla on esimerkiksi 45 B parametreja)."

Tutkimuksessa todetaan myös, että käytetty koulutusdata koostui "voimakkaasti suodatetusta verkkodatasta … useista avoimista Internet-lähteistä" ja LLM:n luomasta tiedosta. LLM:ien kouluttamiseen käytetyt tietolähteet ovat aiheena useita oikeusjuttuja.

Phi-3 Minin pieni koko tarkoittaa, että se voi toimia offline-tilassa älypuhelimella, meille kerrotaan. Tutkijat sanoivat, että se voitaisiin saada viemään noin 1.8 Gt muistia, ja kokeilivat sitä offline-tilassa iPhone 14:ssä, jossa A16 Bionic -siru toimii natiivina laitteessa. Lehdessä tutkijat näyttävät kuvakaappauksia Phi-3 Ministä, joka kirjoittaa runon ja ehdottaa tekemistä Houstonissa.

Tutkijat korostavat myös kielen ymmärtämiseen ja päättelyyn keskittymisen haittapuolia. "Mallilla ei yksinkertaisesti ole kykyä tallentaa liikaa "faktatietoa", jota voidaan jossain määrin lieventää lisäämällä sitä hakukoneella. Se kuitenkin tekisi tyhjäksi sen, että sitä voitaisiin käyttää offline-tilassa.

Tällä hetkellä kieli on enimmäkseen rajoittunut englannin kieleen, ja useimmille LLM:ille ominaiset ongelmat – hallusinaatiot, harhan vahvistuminen ja sopimattoman sisällön tuottaminen – löytyvät myös Phi-3 Ministä.

Tutkijat sanovat lehdessä: "Edessä on merkittävää työtä näiden haasteiden täyttämiseksi."

Suuremmista malleista – suhteellisesti sanottuna – on myös ilmoitettu Phi-3 Smallin ja Phi-3 Mediumin muodossa, jossa on 7 ja 14 miljardia parametria.

Victor Botev, teknologiajohtaja ja perustaja Iris.ai, kertoi meille: "Microsoftin ilmoitus Phi-3-mallista edustaa jatkuvaa trendiä tekoälyn kehityksessä. Yhä suurempien mallien jahtaamisen sijaan Microsoft kehittää työkaluja, joissa on tarkemmin kuratoituja tietoja ja erikoistunutta koulutusta. Tämä mahdollistaa paremman suorituskyvyn ja päättelykyvyn ilman biljoonien parametrien mallien valtavia laskentakustannuksia. Tämän lupauksen täyttäminen merkitsisi valtavan omaksumisen esteen purkamista AI-ratkaisuja etsiviltä yrityksiltä.

"Microsoft etsii viisaasti "isompi sitä parempi" -ajattelutapaa pidemmälle. Laajalle levinneille yritys- ja kuluttajatekoälysovelluksille toteutettavuus ja täsmällisyys ovat tärkeämpiä kuin massiiviset parametrit. Phi-3:n kaltaiset mallit osoittavat selvästi, että oikean datan ja koulutuksen lähestymistavan avulla edistyneiden tekoälyominaisuuksien ei tarvitse rakentaa yhä suurempia malleja – se on ratkaiseva tekijä yrityksille, joissa kustannus-laatusuhde on kriittinen. ®

spot_img

Uusin älykkyys

spot_img

Keskustele kanssamme

Hei siellä! Kuinka voin olla avuksi?