A Meta bejelentette egy számítógépes látásmodelljét, amely megtanulja felismerni a képeket, miközben kontextuális tudást épít, amely kevésbé nehézkessé és költségessé teszi a mesterséges intelligenciát.
„Ez a modell, az Image Joint Embeddding Predictive Architecture (I-JEPA) úgy tanul, hogy létrehoz egy belső modellt a külvilágról, amely a képek absztrakt reprezentációit hasonlítja össze (a képpontok összehasonlítása helyett)” – magyarázta az adatok, a VR és az AI biz. blogbejegyzés.
"Az I-JEPA nagy teljesítményt nyújt több számítógépes látási feladatban, és számítási szempontból sokkal hatékonyabb, mint más széles körben használt számítógépes látásmodellek."
A számítási hatékonyság azt jelenti, hogy kevesebb GPU-időre van szükség a betanításhoz – a Metának sikerült egy 632 millió paraméteres vizuális transzformátormodellt betanítania 16 Nvidia A100 GPU-val kevesebb mint 72 óra alatt. Az eredményül kapott modell – a cég állítása szerint – felülmúlja az ImageNet adathalmaz alacsony képminőségű osztályozását más módszereknél, mint például a Data2vec, a Context Autoencoders és a Masked Autoencoders.
A Meta azt állítja, hogy az alternatív, önfelügyelt tanulási módszerek 10-XNUMX GPU-órával több időt vesznek igénybe – és rosszabb a hibaarányuk – azonos mennyiségű adat mellett.
In egy papír „Önfelügyelt tanulás a képekből közösen beágyazó prediktív architektúrával” címmel Meta Boffins, köztük az AI szókimondó úttörője, Yann LeCun, elmagyarázza, hogy az I-JEPA úgy működik, hogy megpróbálja megjósolni a hiányzó információkat a képek felosztott részeiben.
Ahol a generatív módszerek (például a Data2vec) bizonyos bemenetek elfedésével és a hiányzó pixelek megjóslásával tanulnak, az I-JEPA jelentősebb területen dolgozik – olyan blokkokon, amelyek elég nagyok ahhoz, hogy szemantikai részleteket közvetítsenek, amelyek több jelentést adnak a képrészleteknek.
Mivel ezek a darabok kontextuális információkat közvetítenek a szomszédos blokkjairól, a modell felhasználhatja ezeket az információkat jobb előrejelzések készítésére.
Ennek eredményeként az I-JEPA kevésbé hajlamos a hibákra – például a kezek extra ujjakkal történő létrehozására – a képek generálásakor. Meta szerint a generatív architektúráknak gyakran vannak gondjai az emberi kezekkel, mert megpróbálnak minden információt kitölteni anélkül, hogy a jelenet fogalmi alapja lenne.
Ezenkívül állítólag nincs szükség további finomhangolásra – ez más megközelítések közös lépése.
„Az I-JEPA bemutatja az architektúrákban rejlő lehetőségeket versenyképes készen lévő képreprezentációk elsajátítására anélkül, hogy további tudásra lenne szükség, amelyet kézzel készített képátalakítások kódolnak” – állították a Boffins.
A Meta abban reménykedik, hogy az I-JEPA olyan önfelügyelt tanulási módszerekhez vezet, amelyek több józan ésszel kapcsolatos tudást foglalnak magukban a világról. I-JEPA volt nyílt forráskódként jelent meg a Creative Commons Nevezd meg! – Nem kereskedelmi célú 4.0 nemzetközi nyilvános licence alapján. ®
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- EVM Finance. Egységes felület a decentralizált pénzügyekhez. Hozzáférés itt.
- Quantum Media Group. IR/PR erősített. Hozzáférés itt.
- PlatoAiStream. Web3 adatintelligencia. Felerősített tudás. Hozzáférés itt.
- Forrás: https://go.theregister.com/feed/www.theregister.com/2023/06/14/meta_image_teaching/