Generatiivinen tiedustelu

Apple ylpeilee sen ReALM Ymmärtää näytön kontekstin

Treffi:

Applen tutkijat ovat paljastaneet uuden tuotteensa, joka tunnetaan nimellä ReALM AI, jonka he väittävät ymmärtävän, mitä käyttäjän näytöllä on, ja vastaavan siten pyyntöihin sen mukaisesti.

Malli ylittää tutkijoiden mukaan myös GPT-4:n eri tehtävissä, vaikka siinä on vähemmän parametreja. Tämä tapahtuu ennen iOS 18:n virallista julkaisua WWDC 2024 kesäkuussa odotetun suuren työnnön takana uusi Siri 2.0. Vielä ei kuitenkaan ole selvää, integroiko Apple uuden ReALM:n Siriin ajoissa WWDC 2024 -tapahtumaa varten.

Lue myös: Nicki Minaj, Kate Perry, 200 muuta artistia Slam AI -kehittäjä musiikin "devalvoinnille"

Ymmärtäminen näytöllä

Apple on pelannut AI-areenalla ja tehnyt tekoälyyn liittyviä ilmoituksia. Nyt iPhonen valmistajan tutkijat ovat tehneet läpimurron julkaisemalla uuden tekoälymallin - ReALM, joka voi "ymmärtää, mitä näytölläsi on".

Tämä tapahtuu vajaan kuukauden kuluttua tekoälystartupin hankinnasta DarwinAI. Tutkijoiden mukaan malli muuntaa tiedon käyttäjän näytöltä tekstiksi. Tämä mahdollistaa sen toiminnan laitteissa "vaatimatta suurikokoista kuvantunnistusta".

Malli, joka kuten mainittiin tutkimuspaperi huomattavasti parempi kuin GPT-4, vaikkakin vähemmän parametreja, ottaa huomioon mitä näytöllä on sekä tehtävät, jotka ovat käynnissä taustalla.

Kun käyttäjä esimerkiksi selaa verkkosivua ja löytää yrityksen, jolle haluaa soittaa, hän voi yksinkertaisesti pyytää Siriä soittamaan tälle yritykselle. Nyt, kun käytät ReALM:ia, malli antaa Sirille mahdollisuuden "nähdä" yhteystiedot ja "aloittaa puhelun suoraan".

Tämä havainnollistaa, kuinka malli ymmärtää näytön kontekstin ja auttaa parantamaan käyttökokemusta.

MSPowerUserin mukaan raporttiUuden mallin integroiminen tuleviin Siri-päivityksiin auttaa Applea luomaan saumattomamman ja "hands-free-käyttökokemuksen". Tämän odotetaan myös antavan Sirille enemmän keskustelukykyä, mutta ilman Geminin kaltaista suurta kielimallia.

Raportissa todetaan myös tämä iPhonen valmistaja työskentelee myös MM1:n parissa, joka voi vähentää useiden kehotteiden tarvetta tarvittavien tulosten saamiseksi, ja tekoälykuvamanipulaattoria.

Kilpailua parempi

Tutkimuspaperin mukaan ReALM loisti vertaisryhmänsä ja aiemmat mallit eri tietojoukoissa. Näitä olivat synteettiset, keskustelulliset ja näkymätön keskustelutietojoukot.

Tutkimuspaperissa korostetaan myös erityisesti sitä, kuinka ReALM suoriutui täysin OpenAI:n GPT-4:n kanssa näytön tiedoista. Harjoituksen aikana ReALM luotti pelkästään tekstikoodaukseen, kun taas GPT-4:lle annettiin pääsy kuvakaappauksiin.

Sekä GPT-4 että ReALM osoittivat identtisiä tuloksia, kun tutkijat arvioivat suorituskykyään.

"ReALM kuitenkin ylitti GPT-4:n verkkotunnuskohtaisissa kyselyissä, koska se oli hienosäädetty käyttäjien pyyntöihin", MSPowerUserin mukaan.

Tutkijat selittivät seuraavaa: "Haluamme erityisesti korostaa näytöllä näkyvien tietojoukkojen etuja ja havaita, että tekstikoodauksella varustettu mallimme pystyy toimimaan melkein yhtä hyvin kuin GPT-4, vaikka jälkimmäiseen on varustettu kuvakaappauksia."

Tämä antaa tutkijoiden mukaan ReALM:n ymmärtää "käyttäjien aikomusten vivahteet ja reagoida niiden mukaisesti".

Mallin toinen puoli

Tutkimus korostaa, kuinka ReALM käyttää LLM:itä viiteratkaisuun. MSPowerUserin mukaan malli voi ymmärtää käyttäjän näytön ja hänen pyyntönsä "muuntamalla ruudulla näkyvät entiteetit luonnollisen kielen tekstiksi, vaikka se olisikin tehokas laitteen sovelluksille.

Vaikka malli koodaa näytöllä olevien kokonaisuuksien sijainnin, se ei välttämättä kaappaa kaikkia yksityiskohtia "monimutkaisista käyttäjäkyselyistä, jotka edellyttävät monimutkaista tilasuhteiden ymmärtämistä".

Mukaan Tomin opas, tämä ei ole Applen ensimmäinen tutkimus tekoälyavaruuteen viime kuukausina. Yritys on työskennellyt yhdistelmän työkalujen parissa parantaakseen laitteiden tehokkuutta, mikä osoittaa sitoutumisensa tehdä tekoälystä liiketoimintansa keskipiste.

Nyt ReALM on uusin iPhonen valmistaja, joka keskittyy erityisesti nykyisten mallien parantamiseen, mikä tekee niistä nopeampia ja tehokkaampia.

spot_img

Uusin älykkyys

spot_img