Генеративный анализ данных

Решение проблем безопасности и конфиденциальности в больших языковых моделях

Дата:

Безопасность бизнеса

Организации, которые намерены использовать потенциал LLM, также должны быть в состоянии управлять рисками, которые в противном случае могли бы подорвать бизнес-ценность технологии.

Решение проблем безопасности и конфиденциальности в больших языковых моделях

Все говорят о ChatGPT, Bard и генеративном искусственном интеллекте как таковом. Но после шумихи неизбежно наступает проверка на реальность. В то время как бизнес-лидеры и ИТ-лидеры в восторге от революционного потенциала этой технологии в таких областях, как обслуживание клиентов и разработка программного обеспечения, они также все больше осознают некоторые потенциальные недостатки и риски, на которые следует обратить внимание.

Короче говоря, чтобы организации могли использовать потенциал больших языковых моделей (LLM), они также должны быть в состоянии управлять скрытыми рисками, которые в противном случае могли бы подорвать ценность технологии для бизнеса.

Как обстоят дела с LLM?

ChatGPT и другие генеративные инструменты искусственного интеллекта основаны на LLM. Они работают, используя искусственные нейронные сети для обработки огромных объемов текстовых данных. После изучения закономерностей между словами и того, как они используются в контексте, модель может взаимодействовать с пользователями на естественном языке. Фактически, одной из основных причин выдающегося успеха ChatGPT является его способность рассказывать анекдоты, сочинять стихи и вообще общаться так, как это трудно отличить от настоящего человека.

СВЯЗАННОЕ ЧТЕНИЕ: Пишите как босс с помощью ChatGPT: как лучше выявлять фишинговые атаки

Генеративные модели искусственного интеллекта на основе LLM, используемые в чат-ботах, таких как ChatGPT, работают как мощные поисковые системы, используя данные, на которых они были обучены, для ответа на вопросы и выполнения задач человеческим языком. Независимо от того, являются ли это общедоступными моделями или запатентованными моделями, используемыми внутри организации, генеративный искусственный интеллект на основе LLM может подвергать компании определенным рискам безопасности и конфиденциальности.

5 ключевых рисков LLM

1. Чрезмерное распространение конфиденциальных данных

Чат-боты на основе LLM не умеют хранить секреты — или, если уж на то пошло, забывать их. Это означает, что любые вводимые вами данные могут быть поглощены моделью и доступны другим или, по крайней мере, использованы для обучения будущих моделей LLM. работники Самсунг узнали об этом на собственном опыте, когда поделились конфиденциальной информацией с ChatGPT, используя ее для рабочих задач. Код и записи встреч, которые они ввели в инструмент, теоретически могут быть общедоступными (или, по крайней мере, сохранены для будущего использования, как Об этом сообщает Национальный центр кибербезопасности Соединенного Королевства. недавно). Ранее в этом году мы более подробно рассмотрели, как организации могут не подвергать риску свои данные при использовании LLM.

2. Проблемы авторского права  

LLM обучаются на больших объемах данных. Но эта информация часто извлекается из Интернета без явного разрешения владельца контента. Это может создать потенциальные проблемы с авторскими правами, если вы продолжите его использовать. Однако может быть сложно найти первоначальный источник конкретных данных обучения, что затрудняет решение этих проблем.

3. Небезопасный код

Разработчики все чаще обращаются к ChatGPT и аналогичным инструментам, чтобы ускорить выход на рынок. Теоретически это может помочь в быстром и эффективном создании фрагментов кода и даже целых программ. Однако эксперты по безопасности предупреждают, что это также может создавать уязвимости. Это вызывает особую озабоченность, если у разработчика недостаточно знаний в предметной области, чтобы знать, какие ошибки искать. Если код с ошибками впоследствии попадет в производство, это может оказать серьезное влияние на репутацию и потребовать времени и денег для исправления.

4. Взлом самого LLM

Несанкционированный доступ к LLM и их подделка могут предоставить хакерам ряд возможностей для выполнения вредоносных действий, например, заставить модель разглашать конфиденциальную информацию посредством атак с быстрым внедрением или выполнять другие действия, которые должны быть заблокированы. Другие атаки могут включать использование уязвимостей подделки запросов на стороне сервера (SSRF) на серверах LLM, что позволяет злоумышленникам извлекать внутренние ресурсы. Злоумышленники могут даже найти способ взаимодействия с конфиденциальными системами и ресурсами, просто отправляя вредоносные команды с помощью подсказок на естественном языке.

СВЯЗАННОЕ ЧТЕНИЕ: Black Hat 2023: ИИ получит большие призовые для защитников

Например, ChatGPT. пришлось отключить интернет в марте после обнаружения уязвимости, из-за которой заголовки из историй разговоров одних пользователей были доступны другим пользователям. Чтобы повысить осведомленность об уязвимостях в приложениях LLM, Фонд OWASP недавно опубликовал список 10 критических лазеек в безопасности обычно наблюдается в этих приложениях.

5. Нарушение данных у поставщика ИИ

Всегда существует вероятность того, что компания, разрабатывающая модели искусственного интеллекта, сама может быть взломана, что позволит хакерам, например, украсть данные обучения, которые могут включать конфиденциальную конфиденциальную информацию. То же самое относится и к утечкам данных – например, когда Google случайно утечка приватных чатов Барда в результаты поиска.

Что делать дальше

Если ваша организация хочет начать использовать потенциал генеративного ИИ для получения конкурентного преимущества, в первую очередь ей следует сделать несколько вещей, чтобы снизить некоторые из этих рисков:

  • Шифрование и анонимизация данных: Зашифруйте данные, прежде чем передавать их LLM, чтобы защитить их от посторонних глаз, и/или рассмотрите методы анонимизации для защиты конфиденциальности лиц, которые могут быть идентифицированы в наборах данных. Очистка данных может достичь той же цели, удаляя конфиденциальные детали из обучающих данных перед их передачей в модель.
  • Расширенный контроль доступа: Надежные пароли, многофакторная аутентификация (MFA) и политики наименьших привилегий помогут обеспечить доступ к генеративной модели искусственного интеллекта и серверным системам только авторизованным лицам.
  • Регулярные проверки безопасности: Это может помочь обнаружить уязвимости в ваших ИТ-системах, которые могут повлиять на LLM и модели генеративного искусственного интеллекта, на которых он построен.
  • Отработайте планы реагирования на инциденты: Хорошо отрепетированный и надежный план IR поможет вашей организации быстро отреагировать на сдерживание, устранение и восстановление после любого нарушения.
  • Тщательно проверяйте поставщиков LLM: Как и для любого поставщика, важно убедиться, что компания, предоставляющая LLM, следует лучшим отраслевым практикам в области безопасности и конфиденциальности данных. Обеспечьте четкое раскрытие информации о том, где обрабатываются и хранятся пользовательские данные и используются ли они для обучения модели. Как долго оно хранится? Передается ли она третьим лицам? Можете ли вы дать согласие на использование ваших данных для обучения?
  • Убедитесь, что разработчики соблюдают строгие правила безопасности: Если ваши разработчики используют LLM для создания кода, убедитесь, что они придерживаются политики, такой как тестирование безопасности и экспертная оценка, чтобы снизить риск проникновения ошибок в производство.

Хорошая новость в том, что нет необходимости изобретать велосипед. Большая часть вышеперечисленного — это проверенные и проверенные советы по обеспечению безопасности. Возможно, им потребуется обновление/настройка для мира искусственного интеллекта, но основная логика должна быть знакома большинству команд безопасности.

ДАЛЬНЕЙШЕЕ ЧТЕНИЕ: A Bard’s Tale — как поддельные боты с искусственным интеллектом пытаются установить вредоносное ПО

Spot_img

Последняя разведка

Spot_img