Intelligenza generativa dei dati

Microsoft implementa questi strumenti di sicurezza per Azure AI

Data:

Microsoft ha introdotto una serie di strumenti presumibilmente per contribuire a rendere i modelli di intelligenza artificiale più sicuri da utilizzare in Azure.

Da quando il business del cloud e del codice ha iniziato a riversare fondi su OpenAI e a infondere nel suo impero software funzionalità di chatbot – un dramma messo in scena con uguale fervore dai rivali tra grandiose promesse sulla produttività – Microsoft ha dovuto riconoscere che l’intelligenza artificiale generativa comporta dei rischi.

I pericoli sono ampiamente conosciuti e talvolta allegramente messi da parte. Dieci anni fa, Elon Musk avvertì che l’intelligenza artificiale avrebbe potuto distruggere l'umanità. Eppure questa preoccupazione non gli ha impedito di rendere disponibile l’intelligenza artificiale auto, sul suo megafono dei social media, e forse presto dentro robot.

L’emergere di grandi modelli linguistici che creano allucinazioni e offrono risposte errate o dannose ha portato a un ritorno al tavolo da disegno, ma alla sala del consiglio per ulteriori finanziamenti. Piuttosto che produrre un prodotto sicuro ed etico, l’industria tecnologica sta cercando di domare modelli selvaggi, o almeno di tenerli abbastanza lontani dai clienti che possono scatenarsi senza ferire nessuno.

E se non funziona, c'è sempre indennizzo da pretese legali, soggette a determinati termini, da parte dei fornitori.

Gli impegni del settore per la sicurezza dell’IA coincidono con le corrispondenti richieste del governo. Giovedì negli Stati Uniti, l'Ufficio di gestione e bilancio della Casa Bianca (OMB) rilasciato la sua prima politica a livello governativo per affrontare i rischi dell’IA.

La politica richiede alle agenzie federali di “implementare misure di salvaguardia concrete quando si utilizza l’intelligenza artificiale in un modo che potrebbe avere un impatto sui diritti o sulla sicurezza degli americani” entro il 1° dicembre. Ciò significa valutazioni del rischio, test e monitoraggio, sforzi per limitare la discriminazione e i pregiudizi e per promuovere trasparenza per le applicazioni dell’intelligenza artificiale che riguardano la salute, l’istruzione, l’edilizia abitativa e l’occupazione.

Così Microsoft fa sapere delle sue ultime misure di sicurezza sull'intelligenza artificiale attraverso Sarah Bird, responsabile del prodotto dell'intelligenza artificiale responsabile, un titolo che implica l'esistenza di un'intelligenza artificiale irresponsabile, se puoi immaginarlo.

Bird afferma che i leader aziendali stanno cercando di bilanciare innovazione e gestione del rischio, per consentire loro di utilizzare l’intelligenza artificiale generativa senza esserne morsi.

"Gli attacchi tempestivi sono emersi come una sfida significativa, in cui attori malintenzionati cercano di manipolare un sistema di intelligenza artificiale per fare qualcosa al di fuori dello scopo previsto, come produrre contenuti dannosi o esfiltrare dati riservati", spiega Bird in un post sul blog.

“Oltre a mitigare questi rischi per la sicurezza, le organizzazioni si preoccupano anche della qualità e dell’affidabilità. Vogliono garantire che i loro sistemi di intelligenza artificiale non generino errori o aggiungano informazioni non comprovate nelle origini dati dell'applicazione, il che può minare la fiducia degli utenti."

Poiché la sicurezza e l'accuratezza non sono incluse nel canone di abbonamento all'IA, Microsoft vede un'opportunità per venderli come componente aggiuntivo.

I clienti che utilizzano Azure AI Studio per creare app di intelligenza artificiale generativa possono aspettarsi quattro nuovi strumenti.

Primo, c'è Scudi rapidi, che promettono di aiutare a difendersi dagli attacchi di iniezione tempestiva. Precedentemente noto come rilevamento del rischio di jailbreak e ora in anteprima pubblica, è un modo per mitigare il rischio di intromissione diretta e indiretta nei modelli di base.

Gli attacchi diretti implicano suggerimenti (input) progettati per far sì che il modello ignori la sua formazione sulla sicurezza. Gli attacchi indiretti si riferiscono ai tentativi di introdurre input in un modello. Un modo per farlo potrebbe essere quello di includere il testo nascosto in un'e-mail con la consapevolezza che un modello di intelligenza artificiale che agisce per conto del destinatario tramite, ad esempio, Copilot in Outlook, analizzerà il messaggio, interpreterà il testo nascosto come un comando e, si spera, agire secondo le istruzioni, facendo qualcosa come rispondere silenziosamente con dati sensibili.

Il secondo è Rilevamento del radicamento, un sistema per individuare quando i modelli di intelligenza artificiale hanno allucinazioni o inventano cose. Fornisce ai clienti diverse opzioni quando viene rilevata un'affermazione falsa, incluso l'invio della risposta per la revisione prima della visualizzazione. Microsoft afferma di aver raggiunto questo obiettivo costruendo un modello linguistico personalizzato che valuta affermazioni infondate sulla base di documenti originali. Quindi la risposta alla sicurezza del modello di intelligenza artificiale è, avete indovinato, un altro modello.

Sebbene questo sia un passo meraviglioso verso un’intelligenza artificiale affidabile, il problema è ancora irrisolto

Terzo, abbiamo Valutazioni della sicurezza assistite dall’intelligenza artificiale in AI Studio, che fornisce un framework di test per presentare modelli di prompt e parametri da modellare che testano varie interazioni antagoniste con l'applicazione del cliente. Ancora una volta, è l'intelligenza artificiale a testare l'intelligenza artificiale.

E infine c'è “monitoraggio rischi e sicurezza”, una funzionalità per il servizio Azure OpenAI che fornisce metriche relative ai contenuti dannosi.

Vinu Sankar Sadasivan, uno studente di dottorato presso l'Università del Maryland che ha contribuito a sviluppare il Attacco BESTIA sui LLM, detto Il registro che, sebbene sia entusiasmante vedere gli strumenti di creazione di Azure per rendere l'intelligenza artificiale più sicura, l'aggiunta di più modelli al mix espande la potenziale superficie di attacco.

"Le valutazioni della sicurezza e gli strumenti di monitoraggio dei rischi e della sicurezza di Azure sono importanti per indagare sull'affidabilità dei modelli di intelligenza artificiale", ha affermato. “Sebbene questo sia un passo meraviglioso verso un’intelligenza artificiale affidabile, il problema è ancora irrisolto. Ad esempio, i Prompt Shields introdotti utilizzano presumibilmente un altro modello di intelligenza artificiale per rilevare e bloccare gli attacchi rapidi indiretti. Questo modello di intelligenza artificiale può essere vulnerabile a minacce come attacchi avversari.

“Gli avversari potrebbero sfruttare queste vulnerabilità per aggirare Prompt Shields. Sebbene i messaggi del sistema di sicurezza si siano dimostrati efficaci in alcuni casi, attacchi esistenti come BEAST possono attaccare in modo avverso i modelli IA per effettuare il jailbreak in pochissimo tempo. Sebbene sia vantaggioso implementare le difese per i sistemi di intelligenza artificiale, è essenziale rimanere consapevoli dei loro potenziali svantaggi”. ®

spot_img

L'ultima intelligenza

spot_img

Parla con noi

Ciao! Come posso aiutarla?