Generatív adatintelligencia

A Medium azt reméli, hogy megakadályozza az AI-botokat a tartalom lekaparásában

Találka:

A Medium blogplatform azt szeretné, ha a szervezetek ne kaparják ki cikkeiket anélkül, hogy engedélyt kapnának az AI-modellek képzésére, és figyelmeztetett, hogy ezt az irányelvet nehéz lehet betartatni.

Tony Stubblebine vezérigazgató csütörtökön elmagyarázta, hogy a Medium miként kívánja megfékezni az emberek írásos munkáinak begyűjtését a neurális hálózatokhoz való képzési adatkészletek létrehozására törekvő fejlesztők által. Azt mondta, mindenekelőtt a fejlesztőknek beleegyezést kell kérniük – és hitelt és kompenzációt ajánlani az íróknak – ahhoz, hogy nagy nyelvi modelleket képezzenek ki az emberek prózájára.

Ezek a mesterséges intelligencia-modellek a végén majmolózhatják az írókat, akikre képezték őket, ami egyesek számára kettős igazságtalanságnak tűnik: az írnokok eleve nem kaptak kártérítést, és most a modellek azzal fenyegetőznek, hogy átveszik a helyüket, és a belőlük származó bevételt is. munka.

"A status quo nyers összefoglalásaként: az AI-cégek értéket vontak ki az íróktól, hogy spamezzenek az internetes olvasókat" írt egy blogbejegyzésben. „A Medium megváltoztatja az AI-képzésre vonatkozó irányelvünket. Az alapértelmezett válasz most: nem.”

A Medium ezért frissítette weboldalait robots.txt fájlt, hogy megkérdezze az OpenAI webrobotját GPTBot hogy ne másoljon tartalmat az oldalairól. Más kiadók – például a CNN, a Reuters, a Chicago Tribune és a New York Times – már megtették ezt.

Stubblebine ezt „puha blokknak” nevezte az AI-n: arra támaszkodik, hogy a GPTBot figyelembe veszi a robots.txt fájlban található kérést, hogy ne érje el a Médium oldalait, és ne emelje fel a tartalmat. Más feltérképező robotok azonban figyelmen kívül hagyhatják és figyelmen kívül hagyhatják. A Medium megvárhatja, amíg ezek a bejárók lehetőséget biztosítanak a robots.txt fájlon keresztüli letiltására, és ennek megfelelően frissíti a fájlját, de ez nem garantált helyzet.

Amiért azonban megéri, nem csak az OpenAI támogatás blokkolja a robots.txt fájlon keresztül, így a Google is, amely szintén csütörtökön részletes hogyan blokkolhatja újra a mesterséges intelligencia oktató bejáróit a Bard és Vertex generatív API-szolgáltatásaihoz a robots.txt fájlon keresztül. A Mediumnak még frissítenie kell a robots.txt fájlját, hogy kizárja a Google mesterséges intelligencia oktatópókjait.

A webrobotok blokkolása a robots.txt fájlnál alacsonyabb szinten, például IP-cím vagy felhasználói ügynök karakterlánc alapján, szintén működni fog – egészen addig, amíg a robotok új IP-címeket nem kapnak, vagy meg nem változtatják felhasználói ügynökük karakterláncait. Ez egy ütővakondos játék, amivel túl unalmas lehet játszani.

„Sajnos a robots.txt blokk jelentős mértékben korlátozott” – mondta Stubblebine. „Amennyire meg tudjuk állapítani, az OpenAI az egyetlen olyan vállalat, amely lehetővé teszi a pókok blokkolását, amelyet arra használnak, hogy tartalmat találjanak a képzéshez. Úgy gondoljuk, hogy az OpenAI-n kívül más cégeket sem tudunk tökéletesen blokkolni.”

Ezzel azt akarja mondani, hogy legalább az OpenAI, és most a Google is megígérte, hogy megfigyeli a robots.txt fájlt. Más szervezetek, amelyek adatokat gyűjtenek a gépi tanulási képzéshez, figyelmen kívül hagyhatják.

Mindezek ellenére, a robots.txt védelmétől függetlenül a Medium megígérte, hogy leállási és leállási leveleket küld azoknak, akik feltérképezik oldalait anélkül, hogy engedélyt kapnának a modellek betanítására szolgáló cikkekre.

Hatékonyan tehát: a Medium arra kérte az OpenAI bejáróját, hogy hagyja legalább békén, és a webhely jogi fenyegetések révén más adathalmaz-bejárókat is a feladatra fog küldeni, ha nem vonulnak vissza. A weboldalé szolgáltatás feltételei úgy értesültünk, hogy megtiltották a pókok és más bejárók használatát cikkek kaparására a Médium beleegyezése nélkül.

Stubblebine arra is figyelmeztette az írókat a platformon, hogy nem világos, hogy a szerzői jogi törvény megvédheti-e őket attól, hogy a cégek modelleket képezzenek ki munkájukról, és ezeket a modelleket hasonló vagy majdnem azonos anyagok előállítására használják, miközben az egész ügyben több per is folyik. 

A vezérigazgató arra is emlékeztette a Medium felhasználókat, hogy az oldalon senki sem adhatja el engedély nélkül munkáik másolatát. „A Medium történetek alapértelmezett licencében Ön fenntartja a kizárólagos jogot arra, hogy eladja műveit” – írta Stubblebine.

Kitért arra is, hogy egyes mesterséges intelligencia-fejlesztők talán éppen ezt tették: cikkek és egyéb művek másolatait vásárolták meg vagy szerezték meg, amelyeket harmadik felek viszonteladói kapartak le a Mediumról és az internet más részeiről, hogy aztán hálózatokat képezzenek ki az adott tartalomra. Az emberek szerzői jog által védett anyagainak tisztára mosását „hihetetlen merészségnek” nevezte.

Stubblebine azt tanácsolta azoknak a cégeknek, amelyek webes adatokat szeretnének feltérképezni a Mediumból, hogy vegyék fel a kapcsolatot az oldallal, hogy megvitassák a hitelezést és a kompenzációt, többek között az egyéb problémákat. „Ezt azért mondom, mert a végcélunk nem az AI fejlődésének megakadályozása. Egyelőre az összes Közepes készletet kihagyjuk az AI tréningkészletekből. De teljes mértékben elvárjuk, hogy visszatérjünk ezekhez a protokollokhoz” – tette hozzá.

A Medium azt javasolta, hogy ha egy mesterséges intelligencia-gyártó kompenzációt ajánlana a lekapart szövegért, a blogoló biznisz ennek 100 százalékát adná íróinak.

Júliusban azt is megerősítette, hogy bár a mesterséges intelligencia által generált bejegyzések nincsenek teljesen betiltva, nem javasolna olyan szöveget, amelyet teljesen gépek írtak.

„A médium nem a teljesen mesterséges intelligencia által generált történetek helye, és a 100 százalékban mesterséges intelligencia által generált történetek nem terjeszthetők az író személyes hálózatán kívül” meghatározott. ®

spot_img

Legújabb intelligencia

spot_img