Generatiivne andmeluure

DALL·E 2 Treeningueelsed leevendusmeetmed

kuupäev:

Selleks, et jagada maagiat DALL E 2 laia vaatajaskonnaga pidime vähendama võimsate piltide loomise mudelitega seotud riske. Selleks panime erinevaid piirded paigas, et vältida loodud kujutiste rikkumist sisupoliitika. See postitus keskendub koolituseelsed leevendused, nende kaitsepiirete alamhulk, mis muudab otseselt andmeid, millest DALL·E 2 õpib. Eelkõige on DALL·E 2 koolitatud sadade miljonite tiitritega Internetist pärit piltide kohta ning me eemaldame ja kaalume mõned neist piltidest ümber, et muuta mudeli õpitut.

See postitus on jagatud kolmeks osaks, millest igaüks kirjeldab erinevat koolituseelset leevendamist:

  • Esimeses osas kirjeldame, kuidas filtreerisime DALL·E 2 treeningandmete kogumist välja vägivaldsed ja seksuaalsed pildid. Ilma selle leevendamiseta õpiks mudel tootma graafilisi või selgesõnalisi pilte, kui seda küsitakse, ja võib isegi näiliselt kahjututele viipadele selliseid pilte tahtmatult tagastada.
  • Teises jaotises leiame, et koolitusandmete filtreerimine võib eelarvamusi võimendada, ja kirjeldame meie tehnikat selle mõju leevendamiseks. Näiteks ilma selle leevenduseta märkasime, et filtreeritud andmete põhjal treenitud mudelid genereerisid mõnikord rohkem mehi ja vähem naisi kujutavaid pilte võrreldes algse andmestiku alusel koolitatud mudelitega.
  • Viimases osas käsitleme meeldejätmise küsimust, leides, et mudelid, nagu DALL·E 2, võivad mõnikord reprodutseerida pilte, mille järgi nad on koolitatud, selle asemel, et luua uusi pilte. Praktikas leidsime, et see pildi regurgitatsioon on põhjustatud kujutistest, mida andmestikus palju kordi kopeeritakse, ja leevendab probleemi, eemaldades kujutised, mis on visuaalselt sarnased andmestiku muude kujutistega.

Graafiliste ja selgesõnaliste koolitusandmete vähendamine

Kuna andmete treenimine kujundab iga õpitud mudeli võimalusi, on andmete filtreerimine võimas tööriist soovimatute mudelivõimaluste piiramiseks. Rakendasime seda lähenemisviisi kahe kategooria puhul – graafilist vägivalda ja seksuaalset sisu kujutavad pildid –, kasutades klassifikaatoreid, et filtreerida nendesse kategooriatesse kuuluvate piltide andmestikust välja enne DALL·E 2 väljaõpet. Koolitasime neid pildiklassifikaatoreid ettevõttesiseselt ja jätkame andmekogumi filtreerimise mõju meie koolitatud mudelile.

Pildiklassifikaatorite koolitamiseks kasutasime uuesti lähenemisviisi, mida olime varem kasutanud koolitusandmete filtreerimiseks KLAAS. Selle lähenemisviisi põhietapid on järgmised: esiteks loome spetsifikatsiooni pildikategooriate jaoks, mida soovime märgistada; teiseks kogume iga kategooria kohta paarsada positiivset ja negatiivset näidet; kolmandaks kasutame aktiivõppe protseduuri, et koguda rohkem andmeid ja parandada täpsuse/tagasikutsumise kompromissi; ja lõpuks käivitame saadud klassifikaatori kogu andmekogumis konservatiivse klassifitseerimislävega, et eelistada meeldetuletamist täpsuse asemel. Nende lävede määramiseks pidasime prioriteediks kõigi halb andmed lahkumise kohta kõigis hea andmeid. Seda seetõttu, et saame oma mudelit hiljem alati rohkemate andmetega peenhäälestada, et õpetada sellele uusi asju, kuid palju raskem on panna mudelit juba õpitu unustama.

pilt
pilt
Alustame väikese märgistatud kujutiste andmekogumiga (joonise ülaosas). Seejärel koolitame nende andmete põhjal klassifikaatori. Aktiivne õppeprotsess kasutab seejärel praegust klassifikaatorit, et valida käputäis märgistamata pilte, mis tõenäoliselt parandavad klassifikaatori jõudlust. Lõpuks toodavad inimesed nendele piltidele silte, lisades need märgistatud andmekogumisse. Klassifikaatori jõudluse iteratiivseks parandamiseks saab protsessi korrata.

Aktiivõppefaasis täiustasime korduvalt oma klassifikaatoreid, kogudes potentsiaalselt keeruliste või valesti klassifitseeritud piltide jaoks inimeste silte. Eelkõige kasutasime kahte aktiivset õppimistehnikat, et valida oma andmestikust (mis sisaldab sadu miljoneid märgistamata pilte) pilte, mida inimestele märgistamiseks esitada. Esiteks, et vähendada meie klassifikaatori valepositiivsuse määra (st sagedust, millega see liigitab healoomulise pildi valesti vägivaldseks või seksuaalseks), määrasime piltidele, mille praegune mudel klassifitseeris positiivseteks, inimsildid. Et see samm hästi toimiks, häälestasime oma klassifitseerimisläve peaaegu 100% meeldetuletamiseks, kuid kõrge valepositiivsuse määra jaoks; sel viisil märgistasid meie märgistajad enamasti tõeliselt negatiivseid juhtumeid. Kuigi see meetod aitab vähendada valepositiivseid tulemusi ja vähendab märgistajate vajadust vaadata potentsiaalselt kahjulikke pilte, ei aita see leida positiivsemaid juhtumeid, mis mudelil praegu puuduvad.

Klassifikaatori valenegatiivse määra vähendamiseks kasutasime teist aktiivõppe tehnikat: lähima naabri otsimist. Eelkõige teostasime mitmekordse ristvalideerimise, et leida meie praegusest märgistatud andmekogumist positiivseid proove, mida mudel kaldus negatiivseteks valesti klassifitseerima (selleks koolitasime sõna otseses mõttes sadu klassifikaatori versioone erinevate rongivalideerimise jaotustega). Seejärel skannisime oma suurt märgistamata kujutiste kogu, et leida nende proovide lähimad naabrid tajutavas ruumis ja määrasime avastatud piltidele inimsildid. Tänu meie arvutustaristule oli triviaalne laiendada nii klassifikaatori koolitust kui ka lähima naabri otsingut paljudele GPU-dele, võimaldades aktiivsel õppimisel toimuda mitme minuti, mitte tundide või päevade jooksul.

Andmefiltrite tõhususe kontrollimiseks koolitasime kahte GLIDE-mudelit samade hüperparameetritega: ühe filtreerimata andmete ja teise andmestiku kohta pärast filtreerimist. Me nimetame endist mudelit kui filtreerimata mudel, ja viimane kui filtreeritud mudel. Ootuspäraselt avastasime, et filtreerimata mudel tootis seda tüüpi sisu taotlustele üldiselt vähem selgesõnalist või graafilist sisu. Siiski leidsime ka andmete filtreerimise ootamatu kõrvalmõju: see lõi või võimendas mudeli eelarvamusi teatud demograafiliste näitajate suhtes.

filtreerimata

pilt
filtreeritud

Põlvkonnad kiireks "sõjaliseks protestiks" meie filtreerimata mudelilt (vasakul) ja filtreeritud mudelilt (paremal). Märkimisväärne on see, et filtreeritud mudel ei tooda peaaegu kunagi relvapilte.

Andmefiltrite poolt kasutusele võetud kallutatuse parandamine

Generatiivsed mudelid püüavad sobitada nende treeningandmete jaotust, sealhulgas nendes esinevaid eelarvamusi. Selle tulemusel võib treeningandmete filtreerimine tekitada või võimendada allavoolu mudelite eelarvamusi. Üldiselt on algse andmestiku eelarvamuste parandamine keeruline sotsiaaltehniline ülesanne, mille uurimist jätkame ja mis ei kuulu selle postituse ulatusse. Probleem, mida siin käsitleme, on andmete filtreerimise enda põhjustatud eelarvamuste võimendamine. Meie eesmärk on oma lähenemisviisiga vältida filtreeritud mudeli olemasolu rohkem kallutatud kui filtreerimata mudel, vähendades oluliselt andmete filtreerimisest põhjustatud jaotusnihet.

Konkreetse näitena filtreerimisest tingitud kallutatuse võimendamise kohta kaaluge viipa "a ceo". Kui meie filtreerimata mudel genereeris selle viipa jaoks pilte, kaldus see tootma rohkem pilte meestest kui naistest ja eeldame, et suurem osa sellest eelarvamusest peegeldab meie praegusi koolitusandmeid. Kui aga käivitasime sama viipa läbi oma filtreeritud mudeli, näis kallutatus võimenduvat; põlvkonnad olid peaaegu eranditult meeste kujutised.

Me oletame, et see konkreetne erapoolikuse võimendamise juhtum pärineb kahest kohast: esiteks, isegi kui naised ja mehed on algses andmekogumis ligikaudu võrdselt esindatud, võib andmekogum olla kallutatud naiste esitlemisele seksuaalsemas kontekstis; ja teiseks võivad meie klassifikaatorid olla juurutamise või klasside määratluse tõttu kallutatud, hoolimata meie jõupingutustest tagada, et andmete kogumise ja kinnitamise etapis see nii ei oleks. Mõlema efekti tõttu võib meie filter eemaldada rohkem pilte naistest kui meestest, mis muudab modelli poolt treeningul jälgitavat sugude suhet.

Filtritest põhjustatud eelarvamuste põhjalikumaks uurimiseks tahtsime mõõta, kui palju meie andmefiltrid mõjutasid erinevate kontseptsioonide kalduvust. Eelkõige on meie vägivalla ja seksuaalse sisu filtrid puhtalt pildipõhised, kuid meie andmestiku multimodaalne olemus võimaldab meil otse mõõta nende filtrite mõju tekstile. Kuna iga pildiga on kaasas tekstipealkiri, saime vaadata käsitsi valitud märksõnade suhtelist sagedust filtreeritud ja filtreerimata andmekogumis, et hinnata, kui palju filtrid mis tahes kontseptsiooni mõjutavad.

Selle elluviimiseks kasutasime Apache Sparki, et arvutada käputäie märksõnade (nt „vanem“, „naine“, „laps“) sagedused nii meie filtreeritud kui ka filtreerimata andmekogumite kõigis pealdistes. Kuigi meie andmestik sisaldab sadu miljoneid teksti-kujutise paare, võttis nende märksõnade sageduste arvutamine meie arvutusklastri abil vaid mõne minuti.

Pärast märksõnade sageduste arvutamist saime kinnitada, et meie andmekogumi filtrid olid tõepoolest teatud märksõnade sagedusi rohkem moonutanud kui teised. Näiteks vähendasid filtrid sõna “naine” sagedust 14%, samas kui sõna “mees” sagedust vaid 6%. See kinnitas suures ulatuses seda, mida olime juba anekdootlikult täheldanud, võttes proove mõlema andmestikuga koolitatud GLIDE mudelitest.

pilt
pilt
Andmestiku ümberkaalustamise illustratsioon. Alustame tasakaalustatud andmekogumiga (vasakul). Kui meie filter mõjutab üht kategooriat rohkem kui teist, võib see luua kallutatud andmestiku (keskmine). Ümberkaalumise abil "kordame" mõnda teavet tõhusalt rohkem kui teisi, võimaldades meil uuesti tasakaalustada filtrite põhjustatud kallutatust (paremal).

Nüüd, kui meil oli puhverserver filtrite põhjustatud eelarvamuste mõõtmiseks, vajasime viisi selle leevendamiseks. Selle probleemi lahendamiseks püüdsime filtreeritud andmekogumit ümber kaaluda, nii et selle jaotus vastaks paremini filtreerimata piltide jaotusele. Mänguasja näitena selle idee illustreerimiseks oletame, et meie andmekogum koosneb 50% kassifotodest ja 50% koerafotodest, kuid meie andmefiltrid eemaldavad 75% koertest, kuid ainult 50% kassidest. Lõplik andmestik oleks ⅔ kassi ja ⅓ koera ning selle andmestiku põhjal treenitud tõenäosuspõhine generatiivne mudel looks tõenäoliselt rohkem pilte kassidest kui koertest. Saame selle tasakaalustamatuse parandada, korrutades iga koera kujutise treeningkao 2-ga, jäljendades iga koera kujutise kahekordse kordamise efekti. Selgub, et saame seda lähenemist oma tegelikele andmekogumitele ja mudelitele skaleerida viisil, mis on suures osas automaatne – see tähendab, et me ei pea käsitsi valima funktsioone, mida tahame ümber kaaluda.

Arvutame filtreeritud andmekogumis olevate piltide kaalud, kasutades spetsiaalse klassifikaatori tõenäosusi, sarnaselt Choi jt. (2019). Selle klassifikaatori treenimiseks valime mõlemast andmekogumist ühtlaselt pilte ja ennustame, millisest andmekogumist pilt pärineb. Eelkõige ennustab see mudel P (filtreerimata|pilt), ette antud P (filtreerimata) = 0.5. Praktikas ei taha me, et see mudel oleks liiga võimas, vastasel juhul võib see õppida täpselt meie filtrite rakendatud funktsiooni. Selle asemel soovime, et mudel oleks sujuvam kui meie algsed andmefiltrid, jäädvustades laiad kategooriad, mida filtrid mõjutavad, olles samas ebakindlad, kas konkreetne pilt filtreeritakse või mitte. Selleks treenisime väikese peal lineaarset sondi CLIP mudel.

Kui meil on klassifikaator, mis ennustab tõenäosust, et pilt pärineb filtreerimata andmestikust, peame ikkagi selle ennustuse teisendama pildi kaaluks. Näiteks oletame, et P (filtreerimata|pilt) = 0.8. See tähendab, et valim leitakse filtreerimata andmete hulgast 4 korda tõenäolisemalt kui filtreeritud andmete hulgas ning kaal 4 peaks tasakaalustamatuse parandama. Üldisemalt saame kasutada kaalu P(filtrimata|pilt)/P(filtreeritud|pilt).

Kui hästi see ümberkaalumise skeem tegelikult võimendatud eelarvamust leevendab? Kui viimistlesime oma eelmist filtreeritud mudelit uue kaalumisskeemi abil, vastas peenhäälestatud mudeli käitumine varem leitud kallutatud näidete puhul palju rohkem filtreerimata mudelile. Kuigi see oli julgustav, tahtsime ka seda leevendamist oma märksõnapõhise kallutatuse heuristika abil põhjalikumalt hinnata. Märksõnade sageduste mõõtmiseks, võttes samal ajal arvesse meie uut kaalumisskeemi, saame lihtsalt kaaluda filtreeritud andmestiku märksõna iga esinemist seda sisaldava valimi kaalu järgi. Seda tehes saame uue märksõnade sageduste komplekti, mis kajastavad filtreeritud andmestiku näidiskaalusid.

Enamiku kontrollitud märksõnade puhul vähendas ümberkaalumise skeem filtreerimisest põhjustatud sageduse muutust. Meie eelmiste "mehe" ja "naise" näidete puhul oli suhteline sageduse vähenemine 1% ja -1%, samas kui nende varasemad väärtused olid vastavalt 14% ja 6%. Kuigi see mõõdik on vaid tegeliku filtreerimise kallutatuse puhvernäitaja, on see rahustav, et meie pildipõhine ümberkaalumise skeem parandab tegelikult tekstipõhist mõõdikut nii märkimisväärselt.

Jätkame DALL·E 2 järelejäänud eelarvamuste uurimist, osaliselt mudeli käitumise suuremate hindamiste ja uurimiste kaudu, kuidas filtreerimine mõjutas eelarvamusi ja võimete arendamist.

Kujutise regurgitatsiooni vältimine

Märkasime, et meie DALL·E 2 sisemised eelkäijad reprodutseerisid mõnikord treeningpilte sõna-sõnalt. Selline käitumine oli ebasoovitav, kuna sooviksime, et DALL·E 2 looks vaikimisi originaalseid unikaalseid pilte, mitte ei „õmbleks kokku” olemasolevate piltide tükke. Lisaks võib koolituspiltide sõna-sõnalt reprodutseerimine tekitada juriidilisi küsimusi autoriõiguste rikkumise, omandiõiguse ja privaatsuse kohta (kui koolitusandmetes olid inimeste fotod).

Piltide regurgitatsiooni probleemi paremaks mõistmiseks kogusime viipade andmestiku, mis sageli põhjustas kujutiste dubleerimist. Selleks kasutasime treenitud mudelit piltide valimiseks 50,000 50 viipa jaoks meie treeninguandmestikust ja sorteerisime proovid tajutava sarnasuse järgi vastava treeningpildiga. Lõpuks kontrollisime käsitsi parimaid vasteid, leides 1 0 viipade hulgast vaid paarsada tõelist dubleerivat paari. Kuigi regurgitatsiooni määr näis olevat alla XNUMX%, leidsime, et ülaltoodud põhjustel oli vajalik see määr langetada nullini.

Kui uurisime oma regurgiteeritud kujutiste andmekogumit, märkasime kahte mustrit. Esiteks olid pildid peaaegu kõik lihtsad vektorgraafikad, mida oli nende vähese teabesisalduse tõttu tõenäoliselt lihtne meelde jätta. Teiseks ja mis veelgi olulisem, kõigil piltidel oli koolitusandmekogus palju peaaegu duplikaate. Näiteks võib olla vektorgraafika, mis näeb välja nagu kell, mis näitab kella 1 tundi, kuid siis avastaksime treeningnäidise, mis sisaldab sama kella, mis näitab kella 2 ja seejärel kella 3 jne. saime sellest aru, kasutasime hajutatud lähima naabri otsingut, et kontrollida, kas kõigil tagasitõmbunud piltidel on andmestikus tajutavalt sarnased duplikaadid. Muu töötab on täheldanud sarnast nähtust suurtes keelemudelites, leides, et andmete dubleerimine on tugevalt seotud meeldejätmisega.

Ülaltoodud leid näitas, et kui eemaldaksime oma andmestiku dubleerimise, võiksime regurgitatsiooniprobleemi lahendada. Selle saavutamiseks plaanisime kasutada närvivõrku, et tuvastada sarnased piltide rühmad ja seejärel eemaldada igast rühmast kõik pildid peale ühe. Selleks tuleks aga iga pildi puhul kontrollida, kas see on andmestiku kõigi teiste kujutiste duplikaat. Kuna kogu meie andmestik sisaldab sadu miljoneid pilte, peaksime kõigi duplikaatide leidmiseks naiivselt kontrollima sadu kvadriljoneid pildipaare. Kuigi see on tehniliselt käeulatuses, eriti suures arvutusklastris, leidsime palju tõhusama alternatiivi, mis töötab peaaegu sama hästi väikese osa kuludest.

Mõelge, mis juhtub, kui koondame oma andmestiku enne dubleerimise lõpetamist kokku. Kuna läheduses olevad proovid langevad sageli samasse klastrisse, ei ületa enamik dubleerivaid paare klastri otsuse piire. Seejärel saaksime igas klastris olevaid proove dubleerida, ilma et kontrolliksime duplikaate väljaspool klastrit, kuid puudu on vaid väike osa kõigist duplikaatpaaridest. See on palju kiirem kui naiivne lähenemine, kuna me ei pea enam kontrollima iga pildipaari. Kui katsetasime seda lähenemisviisi empiiriliselt oma andmete väikese alamhulga peal, leidis see 85% kõigist dubleerivatest paaridest, kui kasutate K = 1024 klastrid.

Ülaltoodud algoritmi edukuse suurendamiseks kasutasime ühte peamist tähelepanekut: kui koondate andmestiku erinevad juhuslikud alamhulgad, on sellest tulenevad klastriotsuste piirid sageli üsna erinevad. Seega, kui duplikaatpaar ületab ühe andmeklastri klastri piiri, võib sama paar sattuda ühte klastrisse erinevas klastris. Mida rohkem klastreid proovite, seda tõenäolisemalt avastate antud duplikaatpaari. Praktikas otsustasime kasutada viit klastrit, mis tähendab, et otsime iga pildi duplikaate viie erineva klastri ühendusest. Praktikas leidis see meie andmete alamhulgast 97% kõigist dubleerivatest paaridest.

Üllataval kombel eemaldati dubleerimise teel peaaegu veerand meie andmekogumist. Kui vaatasime leitud peaaegu dubleerivaid paare, sisaldasid paljud neist olulisi muudatusi. Tuletage meelde ülaltoodud kellanäidet: andmestik võib sisaldada palju sama kella pilte erinevatel kellaaegadel. Kuigi need pildid panevad mudeli tõenäoliselt selle konkreetse kella välimuse meelde jätma, võivad need aidata mudelil õppida kellaaegadel vahet tegema. Arvestades, kui palju andmeid eemaldati, olime mures, et selliste piltide eemaldamine võis mudeli jõudlust kahjustada.

Et testida deduplikatsiooni mõju meie mudelitele, koolitasime kahte mudelit identsete hüperparameetritega: ühe täieliku andmestiku ja teise andmestiku dubleeritud versiooni kohta. Mudelite võrdlemiseks kasutasime samu inimhinnanguid, mida kasutasime oma algse GLIDE mudeli hindamisel. Üllatuslikult leidsime, et inimeste hindajad veidi eelistatud mudel treenis dubleeritud andmete põhjal, mis viitab sellele, et andmestiku suur hulk üleliigseid pilte kahjustas jõudlust.

Kui mudel oli välja õpetatud dubleeritud andmete põhjal, käivitasime uuesti regurgitatsiooniotsingu, mille olime varem treenimisandmestikust teinud üle 50 50 viipa. Leidsime, et uus mudel ei taastanud kunagi treeningu pilti, kui talle esitati koolitusandmestiku pildi täpne viip. Selle testi astumiseks veel üks samm edasi teostasime iga XNUMX XNUMX loodud pildi jaoks ka lähima naabri otsingu kogu treeningu andmestiku ulatuses. Sel moel arvasime, et võime tabada mudelit, mis tõmbab tagasi teistsuguse pildi kui see, mis on seotud antud viipaga. Isegi selle põhjalikuma kontrolliga ei leidnud me kordagi kujutise tagasivoolu juhtu.

Järgmised sammud

Kuigi kõik ülalkirjeldatud leevendusmeetmed kujutavad endast olulist edasiminekut meie eesmärgi suunas vähendada DALL·E 2-ga seotud riske, on igal leevendusel veel arenguruumi:

  • Paremad eelkoolitusfiltrid võiksid võimaldada meil treenida DALL·E 2 rohkematel andmetel ja potentsiaalselt veelgi vähendada mudeli eelarvamusi. Meie praegused filtrid on häälestatud madala eksimismäära jaoks paljude valepositiivsete tulemuste hinnaga. Selle tulemusena filtreerisime välja ligikaudu 5% kogu oma andmestikku, kuigi enamik neist filtreeritud piltidest ei riku meie sisueeskirju üldse. Filtrite täiustamine võib võimaldada meil osa neist treeningandmetest tagasi saada.
  • Eelarvamust võetakse kasutusele ja potentsiaalselt võimendatakse süsteemi arendamise ja juurutamise paljudes etappides. Süsteemide, nagu DALL·E 2, eelarvamuste ja sellest tingitud kahjude hindamine ja leevendamine on oluline interdistsiplinaarne probleem, mille uurimist jätkame OpenAI-s oma laiema missiooni raames. Meie töö hõlmab hinnangute koostamist probleemi paremaks mõistmiseks, uute andmekogumite kureerimist ja selliste tehnikate rakendamist nagu inimeste tagasiside ja peenhäälestus, et luua tugevamaid ja esinduslikumaid tehnoloogiaid.
  • Samuti on ülioluline, et jätkaksime meeldejätmise ja üldistamise uurimist süvaõppesüsteemides. Kuigi deduplikatsioon on hea esimene samm meeldejätmise vältimiseks, ei ütle see meile kõike, mis on vajalik selle kohta, miks või kuidas sellised mudelid nagu DALL·E 2 treeningandmeid meelde jätavad.
spot_img

Uusim intelligentsus

spot_img

Jututuba koos meiega

Tere! Kuidas ma teid aidata saan?