Generatív adatintelligencia

A Meta módszert fejleszt a képmodellek józan ész tanítására

Találka:

A Meta bejelentette egy számítógépes látásmodelljét, amely megtanulja felismerni a képeket, miközben kontextuális tudást épít, amely kevésbé nehézkessé és költségessé teszi a mesterséges intelligenciát.

„Ez a modell, az Image Joint Embeddding Predictive Architecture (I-JEPA) úgy tanul, hogy létrehoz egy belső modellt a külvilágról, amely a képek absztrakt reprezentációit hasonlítja össze (a képpontok összehasonlítása helyett)” – magyarázta az adatok, a VR és az AI biz. blogbejegyzés.

"Az I-JEPA nagy teljesítményt nyújt több számítógépes látási feladatban, és számítási szempontból sokkal hatékonyabb, mint más széles körben használt számítógépes látásmodellek."

A számítási hatékonyság azt jelenti, hogy kevesebb GPU-időre van szükség a betanításhoz – a Metának sikerült egy 632 millió paraméteres vizuális transzformátormodellt betanítania 16 Nvidia A100 GPU-val kevesebb mint 72 óra alatt. Az eredményül kapott modell – a cég állítása szerint – felülmúlja az ImageNet adathalmaz alacsony képminőségű osztályozását más módszereknél, mint például a Data2vec, a Context Autoencoders és a Masked Autoencoders.

A Meta azt állítja, hogy az alternatív, önfelügyelt tanulási módszerek 10-XNUMX GPU-órával több időt vesznek igénybe – és rosszabb a hibaarányuk – azonos mennyiségű adat mellett.

In egy papír „Önfelügyelt tanulás a képekből közösen beágyazó prediktív architektúrával” címmel Meta Boffins, köztük az AI szókimondó úttörője, Yann LeCun, elmagyarázza, hogy az I-JEPA úgy működik, hogy megpróbálja megjósolni a hiányzó információkat a képek felosztott részeiben.

Ahol a generatív módszerek (például a Data2vec) bizonyos bemenetek elfedésével és a hiányzó pixelek megjóslásával tanulnak, az I-JEPA jelentősebb területen dolgozik – olyan blokkokon, amelyek elég nagyok ahhoz, hogy szemantikai részleteket közvetítsenek, amelyek több jelentést adnak a képrészleteknek.

Mivel ezek a darabok kontextuális információkat közvetítenek a szomszédos blokkjairól, a modell felhasználhatja ezeket az információkat jobb előrejelzések készítésére.

Ennek eredményeként az I-JEPA kevésbé hajlamos a hibákra – például a kezek extra ujjakkal történő létrehozására – a képek generálásakor. Meta szerint a generatív architektúráknak gyakran vannak gondjai az emberi kezekkel, mert megpróbálnak minden információt kitölteni anélkül, hogy a jelenet fogalmi alapja lenne.

Ezenkívül állítólag nincs szükség további finomhangolásra – ez más megközelítések közös lépése.

„Az I-JEPA bemutatja az architektúrákban rejlő lehetőségeket versenyképes készen lévő képreprezentációk elsajátítására anélkül, hogy további tudásra lenne szükség, amelyet kézzel készített képátalakítások kódolnak” – állították a Boffins.

A Meta abban reménykedik, hogy az I-JEPA olyan önfelügyelt tanulási módszerekhez vezet, amelyek több józan ésszel kapcsolatos tudást foglalnak magukban a világról. I-JEPA volt nyílt forráskódként jelent meg a Creative Commons Nevezd meg! – Nem kereskedelmi célú 4.0 nemzetközi nyilvános licence alapján. ®

spot_img

Legújabb intelligencia

spot_img

Beszélj velünk

Szia! Miben segíthetek?