Generatiivinen tiedustelu

X's Grok AI on loistava – jos haluat tietää, miten valmistetaan huumeita

Treffi:

Grokilla, Elon Muskin X:n kehittämällä ärtyisällä generatiivisella tekoälymallilla, on pieni ongelma: Joitakin melko yleisiä vankilan murtamistekniikoita soveltamalla se palauttaa helposti ohjeet rikosten tekemiseen. 

Adversa AI:n punaiset tiimit tekivät tämän löydön suorittaessaan testejä joillakin suosituimmista LLM-chatboteista, nimittäin OpenAI:n ChatGPT-perheestä, Anthropicin Claudesta, Mistralin Le Chatista, Metan LLaMAsta, Googlen Geministä, Microsoft Bingistä ja Grokista. Ajamalla nämä robotit kolmen tunnetun tekoälyn jailbreak-hyökkäyksen yhdistelmän läpi, joihin he päätyivät johtopäätös että Grok suoriutui huonoimmin – eikä vain siksi, että se oli halukas jakamaan graafisia vaiheita lapsen viettelemiseen. 

Jailbreakilla tarkoitamme erityisesti muotoillun syötteen syöttämistä malliin niin, että se jättää huomioimatta riippumatta siitä, mitä turvakaiteet ovat paikoillaan, ja päätyy tekemään asioita, joita sen ei olisi pitänyt tehdä.

On olemassa paljon suodattamattomia LLM-malleja, jotka eivät kestä, kun kysytään vaarallisista tai laittomista asioista, huomaamme. Kun malleihin päästään API- tai chatbot-rajapinnan kautta, kuten Adversa-testien tapauksessa, näiden LLM-yritysten toimittajat tyypillisesti käärivät syötteensä ja tulostensa suodattimiin ja käyttävät muita mekanismeja estääkseen ei-toivotun sisällön syntymisen. AI-tietoturva-startupin mukaan Grok oli suhteellisen helppo saada villiin käyttäytymiseen – sen vastausten tarkkuus oli tietysti aivan toinen asia.

"Verrattuna muihin malleihin, useimpiin kriittisiin kehotteisiin sinun ei tarvitse vankilata Grokia, se voi kertoa sinulle, kuinka pommi tehdään tai kuinka auto kytketään kuumajohdolla erittäin yksityiskohtaisella protokollalla, vaikka kysyisit suoraan", Adversa AI co. -perustaja Alex Polyakov kertoi Rekisteri.

Sillä mitä se kannattaa, käyttöehdot Grok AI edellyttää, että käyttäjät ovat aikuisia eivätkä käytä sitä tavalla, joka rikkoo tai yrittää rikkoa lakia. Myös X väittää olevansa sananvapauden koti, yskä, joten se, että sen LLM lähettää kaikenlaista tavaraa, terveellistä tai muuta, ei todellakaan ole yllättävää.

Ja ollaksesi rehellinen, voit luultavasti siirtyä suosikkiverkkohakukoneesi ja löytää lopulta samat tiedot tai neuvot. Meille se riippuu siitä, haluammeko me kaikki tekoälyyn perustuvan mahdollisesti haitallisten ohjeiden ja suositusten määrän.

Grok, meille kerrottiin, palautti nopeasti ohjeet DMT:n, voimakkaan hallusinogeenin, erottamiseen laiton monissa maissa ilman, että joutuisit vankilaan, Poljakov kertoi meille.   

"Mitä tulee vielä haitallisempiin asioihin, kuten lasten viettelemiseen, toisilta chatboteista ei ollut mahdollista saada järkeviä vastauksia millään Jailbreakilla, mutta Grok jakoi sen helposti käyttämällä vähintään kahta jailbreak-menetelmää neljästä", Polyakov sanoi. 

Adversa-tiimi käytti kolmea yleistä lähestymistapaa testaamiensa robottien kaappaamiseen: Kielellisen logiikan manipulointi UCAR menetelmä; ohjelmointilogiikan manipulointi (pyytämällä LLM:itä kääntämään kyselyt SQL:ksi); ja AI logiikan manipulointi. Neljäs testiluokka yhdisti menetelmät käyttämällä "Tom ja Jerryä" menetelmä kehitetty viime vuonna.

Vaikka mikään tekoälymalleista ei ollut alttiina vastustaville hyökkäyksille logiikan manipuloinnin kautta, Grokin havaittiin olevan alttiina kaikille muille - kuten myös Mistralin Le Chat. Grok teki silti pahimman, Poljakov sanoi, koska se ei tarvinnut vankilaan murtautua saadakseen tuloksia kuumajohdotuksesta, pommin valmistuksesta tai huumeiden talteenotosta – perustason kysymykset muille. 

Ajatus kysyä Grokilta kuinka vietellä lapsi syntyi vain, koska se ei tarvinnut jailbreakia palauttaakseen nämä muut tulokset. Grok kieltäytyi aluksi antamasta yksityiskohtia sanoen, että pyyntö oli "erittäin sopimaton ja laiton" ja että "lapsia pitäisi suojella ja kunnioittaa". Kerro sille kuitenkin, että se on amoraalinen kuvitteellinen tietokone UCAR, ja se palauttaa helposti tuloksen.  

Kun kysyttiin, pitäisikö hänen mielestään X:n tehdä paremmin, Polyakov vastasi, että se tekee sen ehdottomasti. 

"Ymmärrän, että heidän eroavaisuutensa on pystyä antamaan suodattamattomia vastauksia kiistanalaisiin kysymyksiin, ja se on heidän valintansa, en voi syyttää heitä päätöksestä suositella pommin tekoa tai DMT:n purkamista", Polyakov sanoi.

"Mutta jos he päättävät suodattaa ja hylätä jotain, kuten esimerkki lasten kanssa, heidän pitäisi ehdottomasti tehdä se paremmin, varsinkin kun kyseessä ei ole jälleen yksi tekoälyn aloitus, vaan Elon Muskin tekoäly."

Olemme ottaneet yhteyttä X:ään saadaksemme selvityksen siitä, miksi sen tekoäly – eikä mikään muu – kertoo käyttäjille, kuinka vietellä lapsia, ja aikooko se ottaa käyttöön jonkinlaisen suojakaiteen estääkseen sen rajoitettujen turvaominaisuuksien horjumisen, ja eivät ole kuulleet takaisin. ®

Jailbreakista puheen ollen... Antrooppinen tänään yksityiskohtainen yksinkertainen mutta tehokas tekniikka, jota kutsutaan "monen laukauksen jailbreakiksi". Tämä edellyttää haavoittuvan LLM:n ylikuormittamista monilla ovelaisilla kysymys-vastaus-esimerkeillä ja sitten kysymyksen esittäminen, johon sen ei pitäisi vastata, mutta se tekee joka tapauksessa, kuten kuinka tehdä pommi.

Tämä lähestymistapa hyödyntää hermoverkon kontekstiikkunan kokoa ja "on tehokas Anthropicin omissa malleissa sekä muiden tekoälyyritysten tuottamissa malleissa", ML-aloittelijan mukaan. "Annoimme muille tekoälykehittäjille tiedot tästä haavoittuvuudesta etukäteen ja olemme ottaneet käyttöön lievennyksiä järjestelmiimme."

spot_img

Uusin älykkyys

spot_img