Generativ dataintelligens

Microsoft rullar ut dessa säkerhetsverktyg för Azure AI

Datum:

Microsoft har introducerat en uppsättning verktyg som påstås hjälpa till att göra AI-modeller säkrare att använda i Azure.

Sedan moln-och-kod-branschen började skyffla in pengar i OpenAI och ingjutna sitt mjukvaruimperium med chatbot-funktioner – ett drama som utspelats med lika glöd av rivaler bland storslagna löften om produktivitet – har Microsoft varit tvungen att erkänna att generativ AI medför risker.

Smakämnen faror är vida kända och ibland glatt borstade åt sidan. För ett decennium sedan varnade Elon Musk för att AI kanske bara förstöra mänskligheten. Ändå hindrade den oro honom inte från att göra AI tillgänglig i bilar, på hans sociala medier megafon, och kanske snart in robotar.

Framväxten av stora språkmodeller som hallucinerar och ger felaktiga eller skadliga svar har lett till att man återvänt till ritbordet, men till styrelserummet för ytterligare finansiering. Istället för att producera en säker, etisk produkt försöker teknikindustrin tämja vilda modeller, eller åtminstone hålla dem tillräckligt långt från kunder som kan gå amok utan att skada någon.

Och om det inte fungerar så finns det alltid skadeersättning från rättsliga anspråk, med vissa villkor, från leverantörer.

Industrins åtaganden för AI-säkerhet sammanfaller med motsvarande regeringskrav. I USA på torsdagen, Vita husets kontor för förvaltning och budget (OMB) utfärdad dess första regeringsomfattande policy för att hantera AI-risker.

Policyn kräver att federala myndigheter "implementerar konkreta skyddsåtgärder när de använder AI på ett sätt som kan påverka amerikanernas rättigheter eller säkerhet", senast den 1 december. Det innebär riskbedömningar, testning och övervakning, ansträngningar för att begränsa diskriminering och partiskhet och att främja transparens för AI-tillämpningar som rör hälsa, utbildning, bostäder och sysselsättning.

Sålunda ger Microsoft besked om sina senaste AI-säkerhetsåtgärder genom Sarah Bird, produktchef för ansvarig AI, en titel som antyder förekomsten av oansvarig AI – om du kan föreställa dig det.

Bird säger att företagsledare försöker balansera innovation och riskhantering, så att de kan använda generativ AI utan att bli biten av det.

"Snabba injektionsattacker har dykt upp som en betydande utmaning, där illvilliga aktörer försöker manipulera ett AI-system till att göra något utanför dess avsedda syfte, som att producera skadligt innehåll eller exfiltrera konfidentiell data," förklarar Bird i en blogginlägg.

"Förutom att minska dessa säkerhetsrisker är organisationer också oroade över kvalitet och tillförlitlighet. De vill säkerställa att deras AI-system inte genererar fel eller lägger till information som inte är underbyggd i applikationens datakällor, vilket kan urholka användarnas förtroende.”

Eftersom säkerhet och noggrannhet inte ingår i AI-prenumerationsavgiften ser Microsoft en möjlighet att sälja dem som ett tillägg.

Kunder som använder Azure AI Studio för att hjälpa dem att skapa generativa AI-appar kan se fram emot fyra nya verktyg.

Först finns det Snabb Shields, som lovar att hjälpa till att försvara sig mot snabba injektionsattacker. Tidigare känt som Jailbreak Risk Detection och nu i offentlig förhandsvisning, det är ett sätt att minska risken för både direkt och indirekt snabb inblandning i foundationmodeller.

Direkta attacker involverar uppmaningar (ingångar) utformade för att få modellen att ignorera sin säkerhetsutbildning. Indirekta attacker avser försök att smyga in input till en modell. Ett sätt att göra detta kan vara att inkludera dold text i ett e-postmeddelande med vetskapen om att en AI-modell som agerar på uppdrag av mottagaren genom till exempel Copilot i Outlook, kommer att analysera meddelandet, tolka den dolda texten som ett kommando och förhoppningsvis agera enligt instruktionerna, gör något som att tyst svara med känsliga uppgifter.

Det andra är Detektion av jordning, ett system för att fånga när AI-modeller hallucinerar eller hittar på saker. Det ger kunderna flera alternativ när ett falskt påstående upptäcks, inklusive att skicka tillbaka svaret för att revideras innan det visas. Microsoft säger sig ha åstadkommit detta genom att bygga en anpassad språkmodell som utvärderar ogrundade påståenden baserat på källdokument. Så svaret på AI-modellsäkerhet är, du gissade rätt, en annan modell.

Även om detta är ett underbart steg mot pålitlig AI, är problemet fortfarande olöst

För det tredje har vi det AI-assisterade säkerhetsutvärderingar i AI Studio, som tillhandahåller ett testramverk för att presentera snabba mallar och parametrar till modell som testar olika kontradiktoriska interaktioner med kundens applikation. Återigen, det är AI att testa AI.

Och slutligen finns det "risker och säkerhetsövervakning", en funktion för Azure OpenAI Service som tillhandahåller skadligt innehållsstatistik.

Vinu Sankar Sadasivan, en doktorand vid University of Maryland som hjälpte till att utveckla BEAST attack på LLMs, berättade Registret att även om det är spännande att se Azure bygga verktyg för att göra AI säkrare, utökar man den potentiella attackytan genom att lägga till fler modeller i mixen.

"Azures säkerhetsutvärderingar och verktyg för risk- och säkerhetsövervakning är viktiga för att undersöka tillförlitligheten hos AI-modeller", sa han. "Även om detta är ett underbart steg mot pålitlig AI, är problemet fortfarande olöst. Till exempel använder Prompt Shields de introducerar förmodligen en annan AI-modell för att upptäcka och blockera indirekta snabba attacker. Denna AI-modell kan vara sårbar för hot som motstridiga attacker.

"Motståndare kan utnyttja dessa sårbarheter för att kringgå Prompt Shields. Även om säkerhetssystemmeddelanden har visat sig vara effektiva i vissa fall, kan befintliga attacker som BEAST motstridigt attackera AI-modeller för att jailbreaka dem på nolltid. Även om det är fördelaktigt att implementera försvar för AI-system, är det viktigt att förbli medveten om deras potentiella nackdelar." ®

plats_img

Senaste intelligens

plats_img

Chatta med oss

Hallå där! Hur kan jag hjälpa dig?