Безопасность ИИ-агентов
#иб_для_ml #мысли
Примечание: в последнее время я понял, что застопорился на очень больших информационных материалах, из-за чего контент подолгу зависает. Чтобы увеличить динамику постов, попробуем новый формат - просто мои мысли по разным темам, без ссылок-источников.
Очень популярное сегодня направление работ - системы, производящие взаимодействие с внешней средой согласно заложенной в них цели. Реализуются, понятное дело, на GenAI-моделях. Избегаю термина LLM, так как модели как с мультимодальным входом, так и выходом, уже достаточно распространены.
Какие у них могут быть проблемы безопасности? Начать надо, как это принято в ИБ, с объектов защиты. Я выделяю следующие:
1. Безопасность ИИ-агента и его внутренних механизмов
2. Безопасность среды исполнения действий агента.
Каждый из них ветвится далее, но это уже частности, которые еще точно будут уточняться. Атака на агент может привести к его дисфункции, или утечке данных из его памяти. Это может быть целью атаки, но скорее всего конечной целью нарушителя должна быть среда исполнения агента. Например, украсть содержимое файла etc/passwd в среде исполнения функций агента, или переменные среды. Или, если агент может загружать картинки из интернета и открывать их пользователю, он может открыть и зараженный файл, который послужит полноценным событием initial access на устройство/в сеть.
Есть и еще один объект защиты, с которым я пока не до конца определился:
3. Безопасность взаимодействия ИИ-агентов.
Не определился о его самоботнытности: он отдельный, или включен в пункт 2 (приглашую здесь к дискуссии в комментариях). Здесь больше всего интересных кейсов. В результате взаимодействия со внешней средой один агент может подвергнут успешному джейлбрейку, и начать распространять вредоносную инструкцию дальше при общении с другими агентами. Эта логика будет переходить и модифицировать поведение агентов, пока не достигнет нужного агента, обладающего правами, например, работать с БД. Он прочитает нужную информацию, и по цепочке вернет это агенту, общающемуся с интернетом.
Про то, какие я вижу меры защиты для ИИ-агентов и мультиагентных систем, я напишу в другом посте.
Друзья, дайте пожалуйста знать, если вам по душе такой формат)