Intelligence de données générative

Comment intégrons-nous la sécurité des LLM dans le développement d'applications ?

Date :

Question : Que savons-nous réellement de la sécurité des grands modèles de langage (LLM) ? Et ouvrons-nous volontairement la porte au chaos en utilisant les LLM en entreprise ?

Rob Gurzeev, PDG, CyCognito : Imaginez : votre équipe d'ingénieurs exploite les immenses capacités des LLM pour « écrire du code » et développer rapidement une application. Cela change la donne pour vos entreprises ; les vitesses de développement sont désormais plusieurs fois plus rapides. Vous avez réduit de 30 % le délai de mise sur le marché. C'est gagnant-gagnant : pour votre organisation, vos parties prenantes et vos utilisateurs finaux.

Six mois plus tard, votre application aurait divulgué des données client ; il a été jailbreaké et son code manipulé. Tu es maintenant face aux violations de la SEC et la menace de voir les clients s'éloigner.

Les gains d’efficacité sont séduisants, mais les risques ne peuvent être ignorés. Même si nous disposons de normes de sécurité bien établies dans le développement de logiciels traditionnels, les LLM sont des boîtes noires qui nécessitent de repenser la façon dont nous préparons la sécurité.

Nouveaux types de risques de sécurité pour les LLM

Les LLM regorgent de risques inconnus et sont sujets à des attaques inédites dans le développement de logiciels traditionnels.

  • Attaques par injection rapide impliquent de manipuler le modèle pour générer des réponses involontaires ou nuisibles. Ici, l'attaquant stratégiquement formule des invites pour tromper le LLM, contournant potentiellement les mesures de sécurité ou les contraintes éthiques mises en place pour garantir une utilisation responsable de l’intelligence artificielle (IA). En conséquence, les réponses du LLM peuvent s'écarter considérablement du comportement prévu ou attendu, posant de sérieux risques pour la confidentialité, la sécurité et la fiabilité des applications basées sur l'IA.

  • Gestion des sorties non sécurisée se produit lorsque le résultat généré par un LLM ou un système d’IA similaire est accepté et incorporé dans une application logicielle ou un service Web sans faire l’objet d’un examen ou d’une validation adéquats. Cela peut exposer systèmes back-end aux vulnérabilités, tels que les scripts intersites (XSS), la falsification de requêtes intersites (CSRF), la falsification de requêtes côté serveur (SSRF), l'élévation de privilèges et l'exécution de code à distance (RCE).

  • Empoisonnement des données de formation se produit lorsque les données utilisées pour former un LLM sont délibérément manipulées ou contaminées par des informations malveillantes ou biaisées. Le processus d’empoisonnement des données de formation implique généralement l’injection de points de données trompeurs, trompeurs ou nuisibles dans l’ensemble de données de formation. Ces instances de données manipulées sont stratégiquement choisies pour exploiter les vulnérabilités des algorithmes d'apprentissage du modèle ou pour instaurer des biais susceptibles de conduire à des résultats indésirables dans les prédictions et les réponses du modèle.

Un modèle pour la protection et le contrôle des applications LLM

Bien qu'une partie de cela soit nouveau territoire, il existe de bonnes pratiques que vous pouvez mettre en œuvre pour limiter l'exposition.

  • Désinfection des entrées implique, comme le suggère le nom, le désinfection des entrées pour empêcher les actions non autorisées et les demandes de données initiées par des invites malveillantes. La première étape est la validation des entrées pour garantir que les entrées respectent les formats et types de données attendus. La prochaine étape est la désinfection des entrées, où les caractères ou le code potentiellement dangereux sont supprimés ou codés pour contrecarrer les attaques. D'autres tactiques incluent des listes blanches de contenu approuvé, des listes noires de contenu interdit, des requêtes paramétrées pour les interactions avec les bases de données, des politiques de sécurité du contenu, des expressions régulières, la journalisation et une surveillance continue, ainsi que des mises à jour et des tests de sécurité.

  • Examen des résultats is la gestion et l'évaluation rigoureuses des résultats générés par le LLM pour atténuer les vulnérabilités, telles que XSS, CSRF et RCE. Le processus commence par la validation et le filtrage des réponses du LLM avant de les accepter pour présentation ou traitement ultérieur. Il intègre des techniques telles que la validation du contenu, le codage de la sortie et l'échappement de la sortie, qui visent toutes à identifier et neutraliser les risques de sécurité potentiels dans le contenu généré.

  • Sauvegarde des données de formation est essentiel pour éviter l’empoisonnement des données de formation. Cela implique l'application de contrôles d'accès stricts, l'utilisation du cryptage pour la protection des données, la maintenance des sauvegardes des données et du contrôle des versions, la mise en œuvre de la validation et de l'anonymisation des données, l'établissement d'une journalisation et d'une surveillance complètes, la réalisation d'audits réguliers et la formation des employés sur la sécurité des données. Il est également important de vérifier la fiabilité des sources de données et de garantir des pratiques de stockage et de transmission sécurisées.

  • Appliquer des politiques de sandboxing et des contrôles d'accès stricts peut également aider à atténuer le risque d’exploits SSRF dans les opérations LLM. Les techniques qui peuvent être appliquées ici incluent l'isolation du bac à sable, les contrôles d'accès, la liste blanche et/ou la liste noire, la validation des demandes, la segmentation du réseau, la validation du type de contenu et l'inspection du contenu. Des mises à jour régulières, une journalisation complète et la formation des employés sont également essentielles.

  • Surveillance continue et filtrage de contenu peut être intégré au pipeline de traitement du LLM pour détecter et prévenir les contenus nuisibles ou inappropriés, à l'aide d'un filtrage basé sur des mots clés, d'une analyse contextuelle, de modèles d'apprentissage automatique et de filtres personnalisables. Les directives éthiques et la modération humaine jouent un rôle clé dans le maintien d'une génération de contenu responsable, tandis qu'une surveillance continue en temps réel, des boucles de commentaires des utilisateurs et la transparence garantissent que tout écart par rapport au comportement souhaité est rapidement corrigé.

spot_img

Dernières informations

spot_img