Közepes remények arra, hogy megakadályozzák az AI bot-feltérképező robotokat a tartalom lekaparásában

A Medium blogplatform azt szeretné, ha a szervezetek ne kaparják ki cikkeiket anélkül, hogy engedélyt kapnának az AI-modellek képzésére, és figyelmeztetett, hogy ezt az irányelvet nehéz lehet betartatni.

Tony Stubblebine vezérigazgató csütörtökön elmagyarázta, hogy a Medium miként kívánja megfékezni az emberek írásos munkáinak begyűjtését a neurális hálózatokhoz való képzési adatkészletek létrehozására törekvő fejlesztők által. Azt mondta, mindenekelőtt a fejlesztőknek beleegyezést kell kérniük – és hitelt és kompenzációt ajánlani az íróknak – ahhoz, hogy nagy nyelvi modelleket képezzenek ki az emberek prózájára.

Ezek a mesterséges intelligencia-modellek a végén majmolózhatják az írókat, akikre képezték őket, ami egyesek számára kettős igazságtalanságnak tűnik: az írnokok eleve nem kaptak kártérítést, és most a modellek azzal fenyegetőznek, hogy átveszik a helyüket, és a belőlük származó bevételt is. munka.

"A status quo nyers összefoglalásaként: az AI-cégek értéket vontak ki az íróktól, hogy spamezzenek az internetes olvasókat" írt egy blogbejegyzésben. „A Medium megváltoztatja az AI-képzésre vonatkozó irányelvünket. Az alapértelmezett válasz most: nem.”

A Medium ezért frissítette weboldalait robots.txt fájlt, hogy megkérdezze az OpenAI webrobotját GPTBot hogy ne másoljon tartalmat az oldalairól. Más kiadók – például a CNN, a Reuters, a Chicago Tribune és a New York Times – már megtették ezt.

Stubblebine ezt „puha blokknak” nevezte az AI-n: arra támaszkodik, hogy a GPTBot figyelembe veszi a robots.txt fájlban található kérést, hogy ne érje el a Médium oldalait, és ne emelje fel a tartalmat. Más feltérképező robotok azonban figyelmen kívül hagyhatják és figyelmen kívül hagyhatják. A Medium megvárhatja, amíg ezek a bejárók lehetőséget biztosítanak a robots.txt fájlon keresztüli letiltására, és ennek megfelelően frissíti a fájlját, de ez nem garantált helyzet.

Amiért azonban megéri, nem csak az OpenAI támogatás blokkolja a robots.txt fájlon keresztül, így a Google is, amely szintén csütörtökön részletes hogyan blokkolhatja újra a mesterséges intelligencia oktató bejáróit a Bard és Vertex generatív API-szolgáltatásaihoz a robots.txt fájlon keresztül. A Mediumnak még frissítenie kell a robots.txt fájlját, hogy kizárja a Google mesterséges intelligencia oktatópókjait.

A webrobotok blokkolása a robots.txt fájlnál alacsonyabb szinten, például IP-cím vagy felhasználói ügynök karakterlánc alapján, szintén működni fog – egészen addig, amíg a robotok új IP-címeket nem kapnak, vagy meg nem változtatják felhasználói ügynökük karakterláncait. Ez egy ütővakondos játék, amivel túl unalmas lehet játszani.

„Sajnos a robots.txt blokk jelentős mértékben korlátozott” – mondta Stubblebine. „Amennyire meg tudjuk állapítani, az OpenAI az egyetlen olyan vállalat, amely lehetővé teszi a pókok blokkolását, amelyet arra használnak, hogy tartalmat találjanak a képzéshez. Úgy gondoljuk, hogy az OpenAI-n kívül más cégeket sem tudunk tökéletesen blokkolni.”

Ezzel azt akarja mondani, hogy legalább az OpenAI, és most a Google is megígérte, hogy megfigyeli a robots.txt fájlt. Más szervezetek, amelyek adatokat gyűjtenek a gépi tanulási képzéshez, figyelmen kívül hagyhatják.

Mindezek ellenére, a robots.txt védelmétől függetlenül a Medium megígérte, hogy leállási és leállási leveleket küld azoknak, akik feltérképezik oldalait anélkül, hogy engedélyt kapnának a modellek betanítására szolgáló cikkekre.

Hatékonyan tehát: a Medium arra kérte az OpenAI bejáróját, hogy hagyja legalább békén, és a webhely jogi fenyegetések révén más adathalmaz-bejárókat is a feladatra fog küldeni, ha nem vonulnak vissza. A weboldalé szolgáltatás feltételei úgy értesültünk, hogy megtiltották a pókok és más bejárók használatát cikkek kaparására a Médium beleegyezése nélkül.

Stubblebine arra is figyelmeztette az írókat a platformon, hogy nem világos, hogy a szerzői jogi törvény megvédheti-e őket attól, hogy a cégek modelleket képezzenek ki munkájukról, és ezeket a modelleket hasonló vagy majdnem azonos anyagok előállítására használják, miközben az egész ügyben több per is folyik.

A vezérigazgató arra is emlékeztette a Medium felhasználókat, hogy az oldalon senki sem adhatja el engedély nélkül munkáik másolatát. „A Medium történetek alapértelmezett licencében Ön fenntartja a kizárólagos jogot arra, hogy eladja műveit” – írta Stubblebine.

Kitért arra is, hogy egyes mesterséges intelligencia-fejlesztők talán éppen ezt tették: cikkek és egyéb művek másolatait vásárolták meg vagy szerezték meg, amelyeket harmadik felek viszonteladói kapartak le a Mediumról és az internet más részeiről, hogy aztán hálózatokat képezzenek ki az adott tartalomra. Az emberek szerzői jog által védett anyagainak tisztára mosását „hihetetlen merészségnek” nevezte.

Stubblebine azt tanácsolta azoknak a cégeknek, amelyek webes adatokat szeretnének feltérképezni a Mediumból, hogy vegyék fel a kapcsolatot az oldallal, hogy megvitassák a hitelezést és a kompenzációt, többek között az egyéb problémákat. „Ezt azért mondom, mert a végcélunk nem az AI fejlődésének megakadályozása. Egyelőre az összes Közepes készletet kihagyjuk az AI tréningkészletekből. De teljes mértékben elvárjuk, hogy visszatérjünk ezekhez a protokollokhoz” – tette hozzá.

A Medium azt javasolta, hogy ha egy mesterséges intelligencia-gyártó kompenzációt ajánlana a lekapart szövegért, a blogoló biznisz ennek 100 százalékát adná íróinak.

Júliusban azt is megerősítette, hogy bár a mesterséges intelligencia által generált bejegyzések nincsenek teljesen betiltva, nem javasolna olyan szöveget, amelyet teljesen gépek írtak.

„A médium nem a teljesen mesterséges intelligencia által generált történetek helye, és a 100 százalékban mesterséges intelligencia által generált történetek nem terjeszthetők az író személyes hálózatán kívül” meghatározott. ®

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://go.theregister.com/feed/www.theregister.com/2023/09/29/medium_ai_crawlers/

Generatív adatintelligencia

A Medium azt reméli, hogy megakadályozza az AI-botokat a tartalom lekaparásában

Digitális dollár és érzék: Az e-pénz elsajátítása szabadúszó pénzügyi tranzakciókhoz

A digitális pénzügyek elsajátítása: Szabadúszók útmutatója az e-pénzes tranzakciókhoz és a pénzügyi szabadsághoz

Legújabb intelligencia

Digitális valuta dinamika: E-pénzes pénzügyi tranzakciók elsajátítása szabadúszók számára

Szabadúszó pénzügyek: Az e-pénz elsajátítása a hatékony és biztonságos tranzakciókhoz

Szabadúszók felhatalmazása: Az e-pénz elsajátítása a hatékony pénzügyi tranzakciókhoz

Az e-pénz elsajátítása: Szabadúszók útmutatója a biztonságos és hatékony pénzügyi tranzakciókhoz

Coins.ph Pioneer Stablecoin hazautalások a Fülöp-szigeteken, mint szabályozók Greenlight kísérleti program

Az e-pénz elsajátítása: Szabadúszók útmutatója a biztonságos és hatékony pénzügyi tranzakciókhoz