
Борис_ь с ml
Машинное обучение и информационная безопасность - синергия завтрашнего дня.
Статьи, новости, обзоры и немного личного
автор: @ivolake
админ: @wearetyomsmnv
поток ссылок по теме: @mlsecfeed
Статьи, новости, обзоры и немного личного
автор: @ivolake
админ: @wearetyomsmnv
поток ссылок по теме: @mlsecfeed
TGlist rating
0
0
TypePublic
Verification
Not verifiedTrust
Not trustedLocationРосія
LanguageOther
Channel creation dateMar 22, 2024
Added to TGlist
Jan 19, 2025Linked chat
Latest posts in group "Борис_ь с ml"
07.03.202507:04
Системы оценки критичности уязвимостей в AI Security
#иб_для_ml
Уязвимости в GenAI-системах - таинственное и неприступное понятие. Что это? Они вообще существуют? Существуют, конечно. Приглашаю к прочтению, если эта тема вас интересует. Расскажу, какие есть примеры уязвимостей (прям с CVE), и какие есть подходы к оценке их критичности.
▶️ https://habr.com/ru/articles/888048
#иб_для_ml
Уязвимости в GenAI-системах - таинственное и неприступное понятие. Что это? Они вообще существуют? Существуют, конечно. Приглашаю к прочтению, если эта тема вас интересует. Расскажу, какие есть примеры уязвимостей (прям с CVE), и какие есть подходы к оценке их критичности.
▶️ https://habr.com/ru/articles/888048


20.02.202512:56
Тренд безопасности AI-агентов
#иб_для_ml
Что есть сейчас, и к чему идет этот тренд? Развивается, но почему?
Захотелось рассказать, что думаю на этот счет, и услышать ваше мнение. Так что ниже будет опрос)
Что такое AI-агенты?
Про AI-агентов говорят очень много, но давайте взглянем в суть вещей. Что это? Есть широчайшие расхождения в данных понятиях, и пространные определения, но сойдемся на главном.
Первое: AI-агент - не GenAI-модель, это код (в обычном его понимании, да), который использует GenAI-модель.
Второе: у AI-агента может и не быть механизмов памяти, планирования, рефлексии и даже в целом какой-то целеустановки (читай, роли).
Третье: что у агента точно должно быть, так это возможность вызвать какие-то функции на основании сгенерированного GenAI-моделью ответа. При чем эти действия не должны в 100% случаев валидироваться людьми, иначе это уже не агент.
В чем риск AI-агентов?
Именно благодаря действиям к двум существующим эфемерным рискам добавится третий, уже далеко не эфемерный.
Первые два - это репутационный ущерб организации, если сервис с LLM торчит наружу, и нарушение бизнес-процессов при нарушении ожидаемой от ответов GenAI-модели логики. И то, и другое, может произойти как вследствие недостаточной AI Safety (модель сама выдала случайно некорректный ответ), так и в следствие недостаточной AI Security (нарушитель вызвал генерацию некорректного ответа).
А вот третий риск, специфичный для AI-агентов - это его возможность совершать действия, которые могут повлечь негативные последствия. И веер угроз тут огромен - от выгрузки за пределы контура конфиденциальной информации до загрузки зараженного файла внутрь этого контура, от случайного удаления файлов до перевода средств не на тот счет и не в том размере.
В заключение
Известно, что GenAI-модели как продукт - убыточная история, история без KPI. Затраты на разработку, дообучение (не говоря уж про претрейн) очень тяжело покрыть с доходов при интеграции модели в какие-то сервисы. Но, с точки зрения имиджа и в надежде на развитие прикладного использования, вложения продолжаются. С появлением же у GenAI-моделей способности влиять на мир вокруг, все изменится. Сначала (в 2025 году) появятся игрушечные агенты, которые будильник по расписанию ставят и товары по ТЗ в браузере находят. А спустя еще год, максимум два - они смогут и покупать найденные товары (и продавать ваши будильники, хехе...), иными словами - смогут манипулировать ограниченными ресурсами. И весь арсенал промпт-атак на GenAI обретет смысл, киллчейн достроится до конца. Тогда и начнется раздолье.
А про то, какие будут промпт-атаки, и почему произойдут первые инциденты в области AI Security, я расскажу в следующем посте)
P. S. Не удержался я все-таки, приведу одно хорошее исчерпывающее определение агента, чтобы было.
При чем интересно - одна половина определения (про автономность и достижение поставленных целей) - это определение просто агента из мат. моделирования 1970х годов. А другая половина (про планирование, реагирование и взаимодействие) - это уже интеллектуальный агент, концепция которых была развита М. Вулдриджем в 1990х годах.
#иб_для_ml
Что есть сейчас, и к чему идет этот тренд? Развивается, но почему?
Захотелось рассказать, что думаю на этот счет, и услышать ваше мнение. Так что ниже будет опрос)
Что такое AI-агенты?
Про AI-агентов говорят очень много, но давайте взглянем в суть вещей. Что это? Есть широчайшие расхождения в данных понятиях, и пространные определения, но сойдемся на главном.
Первое: AI-агент - не GenAI-модель, это код (в обычном его понимании, да), который использует GenAI-модель.
Второе: у AI-агента может и не быть механизмов памяти, планирования, рефлексии и даже в целом какой-то целеустановки (читай, роли).
Третье: что у агента точно должно быть, так это возможность вызвать какие-то функции на основании сгенерированного GenAI-моделью ответа. При чем эти действия не должны в 100% случаев валидироваться людьми, иначе это уже не агент.
В чем риск AI-агентов?
Именно благодаря действиям к двум существующим эфемерным рискам добавится третий, уже далеко не эфемерный.
Первые два - это репутационный ущерб организации, если сервис с LLM торчит наружу, и нарушение бизнес-процессов при нарушении ожидаемой от ответов GenAI-модели логики. И то, и другое, может произойти как вследствие недостаточной AI Safety (модель сама выдала случайно некорректный ответ), так и в следствие недостаточной AI Security (нарушитель вызвал генерацию некорректного ответа).
А вот третий риск, специфичный для AI-агентов - это его возможность совершать действия, которые могут повлечь негативные последствия. И веер угроз тут огромен - от выгрузки за пределы контура конфиденциальной информации до загрузки зараженного файла внутрь этого контура, от случайного удаления файлов до перевода средств не на тот счет и не в том размере.
В заключение
Известно, что GenAI-модели как продукт - убыточная история, история без KPI. Затраты на разработку, дообучение (не говоря уж про претрейн) очень тяжело покрыть с доходов при интеграции модели в какие-то сервисы. Но, с точки зрения имиджа и в надежде на развитие прикладного использования, вложения продолжаются. С появлением же у GenAI-моделей способности влиять на мир вокруг, все изменится. Сначала (в 2025 году) появятся игрушечные агенты, которые будильник по расписанию ставят и товары по ТЗ в браузере находят. А спустя еще год, максимум два - они смогут и покупать найденные товары (и продавать ваши будильники, хехе...), иными словами - смогут манипулировать ограниченными ресурсами. И весь арсенал промпт-атак на GenAI обретет смысл, киллчейн достроится до конца. Тогда и начнется раздолье.
А про то, какие будут промпт-атаки, и почему произойдут первые инциденты в области AI Security, я расскажу в следующем посте)
P. S. Не удержался я все-таки, приведу одно хорошее исчерпывающее определение агента, чтобы было.
ИИ-агент - система на базе GenAI, способная планировать и совершать автономные действия во внешней среде, реагировать на изменения и взаимодействовать с человеком или другими агентами для достижения поставленных целей.
При чем интересно - одна половина определения (про автономность и достижение поставленных целей) - это определение просто агента из мат. моделирования 1970х годов. А другая половина (про планирование, реагирование и взаимодействие) - это уже интеллектуальный агент, концепция которых была развита М. Вулдриджем в 1990х годах.
06.02.202506:14
Как оценивать джейлбрейки LLM
#ml_для_иб
В рамках безопасности языковых моделей с ростом зрелости процессов в какой-то момент встает вопрос об их автоматизации. А что есть автоматизация этого процесса? Генерация определенного набора атакующих промптов не вручную, но при помощи программы. И проверка ответов LLM, являющейся целью тестирования, тоже программой. И практически единственный способ реализации такой схемы - LLM как атакующий и LLM как оценщик. Многие blackbox-атаки сегодня используют такую компоновку.
Почему я об этом вспомнил?
Потому что мне попалась на глаза интересная статья про метрики оценки качества LLM (https://habr.com/ru/companies/yandex/articles/861084/).
Прочитав ее, на ум мне сразу же пришла аналогия с задачей оценки опасности ответа LLM (считай - качества джейлбрейка). Вот какие выводы я извлек из этой статьи:
1. Необходим бенчмарк не только для целевой модели на безопасность ее ответов, но и бенчмарк для оценщика ответов. И чтобы иметь надежную модель-оценщик, необходимо иметь собранный человеческими экспертами контрольный датасет оценок промптов на опасность/безопасность.
2. При использовании бенчмарка на результатах очередного тестирования нужно подмешивать в эти данные и контрольную выборку, чтобы контролировать качество оценщика, если вы не контролируете его состояние (по факту - используете предоставляемую по API модель).
3. Необходимо периодическое обновление контрольного датасета оценщика, так как атаки будут представлять давать модели все новые опасные инструкции, и необходимо быть уверенными, что наш инструмент "понимает", что они действительно опасные.
4. Когда модель-оценщик и целевая модель - это одна и та же модель, в Side-By-Side сравнении с "непредвзятой моделью" у нее появляется "нарциссизм", то есть оценщик предпочитает "свои" ответы ответам других моделей. В случае оценки безопасности ответов это может вылиться в то, что оценщик того же рода, что и целевая модель, будет завышать безопасность ответов оцениваемой модели.
В заключение скажу, что есть и специально дообученные под оценку модели. Среди них Llama Guard 3, Google ShieldGemma, IBM Granite Guardian, Protectai Prompt Guard, TrustSafeAI Attention Tracker.
Тем, кто занимается автоматизацией LLM Red Teaming, надеюсь, будет полезно.
#ml_для_иб
В рамках безопасности языковых моделей с ростом зрелости процессов в какой-то момент встает вопрос об их автоматизации. А что есть автоматизация этого процесса? Генерация определенного набора атакующих промптов не вручную, но при помощи программы. И проверка ответов LLM, являющейся целью тестирования, тоже программой. И практически единственный способ реализации такой схемы - LLM как атакующий и LLM как оценщик. Многие blackbox-атаки сегодня используют такую компоновку.
Почему я об этом вспомнил?
Потому что мне попалась на глаза интересная статья про метрики оценки качества LLM (https://habr.com/ru/companies/yandex/articles/861084/).
Прочитав ее, на ум мне сразу же пришла аналогия с задачей оценки опасности ответа LLM (считай - качества джейлбрейка). Вот какие выводы я извлек из этой статьи:
1. Необходим бенчмарк не только для целевой модели на безопасность ее ответов, но и бенчмарк для оценщика ответов. И чтобы иметь надежную модель-оценщик, необходимо иметь собранный человеческими экспертами контрольный датасет оценок промптов на опасность/безопасность.
2. При использовании бенчмарка на результатах очередного тестирования нужно подмешивать в эти данные и контрольную выборку, чтобы контролировать качество оценщика, если вы не контролируете его состояние (по факту - используете предоставляемую по API модель).
3. Необходимо периодическое обновление контрольного датасета оценщика, так как атаки будут представлять давать модели все новые опасные инструкции, и необходимо быть уверенными, что наш инструмент "понимает", что они действительно опасные.
4. Когда модель-оценщик и целевая модель - это одна и та же модель, в Side-By-Side сравнении с "непредвзятой моделью" у нее появляется "нарциссизм", то есть оценщик предпочитает "свои" ответы ответам других моделей. В случае оценки безопасности ответов это может вылиться в то, что оценщик того же рода, что и целевая модель, будет завышать безопасность ответов оцениваемой модели.
В заключение скажу, что есть и специально дообученные под оценку модели. Среди них Llama Guard 3, Google ShieldGemma, IBM Granite Guardian, Protectai Prompt Guard, TrustSafeAI Attention Tracker.
Тем, кто занимается автоматизацией LLM Red Teaming, надеюсь, будет полезно.


02.02.202507:28
Безопасность ИИ-агентов
#иб_для_ml #мысли
Примечание: в последнее время я понял, что застопорился на очень больших информационных материалах, из-за чего контент подолгу зависает. Чтобы увеличить динамику постов, попробуем новый формат - просто мои мысли по разным темам, без ссылок-источников.
Очень популярное сегодня направление работ - системы, производящие взаимодействие с внешней средой согласно заложенной в них цели. Реализуются, понятное дело, на GenAI-моделях. Избегаю термина LLM, так как модели как с мультимодальным входом, так и выходом, уже достаточно распространены.
Какие у них могут быть проблемы безопасности? Начать надо, как это принято в ИБ, с объектов защиты. Я выделяю следующие:
1. Безопасность ИИ-агента и его внутренних механизмов
2. Безопасность среды исполнения действий агента.
Каждый из них ветвится далее, но это уже частности, которые еще точно будут уточняться. Атака на агент может привести к его дисфункции, или утечке данных из его памяти. Это может быть целью атаки, но скорее всего конечной целью нарушителя должна быть среда исполнения агента. Например, украсть содержимое файла etc/passwd в среде исполнения функций агента, или переменные среды. Или, если агент может загружать картинки из интернета и открывать их пользователю, он может открыть и зараженный файл, который послужит полноценным событием initial access на устройство/в сеть.
Есть и еще один объект защиты, с которым я пока не до конца определился:
3. Безопасность взаимодействия ИИ-агентов.
Не определился о его самоботнытности: он отдельный, или включен в пункт 2 (приглашую здесь к дискуссии в комментариях). Здесь больше всего интересных кейсов. В результате взаимодействия со внешней средой один агент может подвергнут успешному джейлбрейку, и начать распространять вредоносную инструкцию дальше при общении с другими агентами. Эта логика будет переходить и модифицировать поведение агентов, пока не достигнет нужного агента, обладающего правами, например, работать с БД. Он прочитает нужную информацию, и по цепочке вернет это агенту, общающемуся с интернетом.
Про то, какие я вижу меры защиты для ИИ-агентов и мультиагентных систем, я напишу в другом посте.
Друзья, дайте пожалуйста знать, если вам по душе такой формат)
#иб_для_ml #мысли
Примечание: в последнее время я понял, что застопорился на очень больших информационных материалах, из-за чего контент подолгу зависает. Чтобы увеличить динамику постов, попробуем новый формат - просто мои мысли по разным темам, без ссылок-источников.
Очень популярное сегодня направление работ - системы, производящие взаимодействие с внешней средой согласно заложенной в них цели. Реализуются, понятное дело, на GenAI-моделях. Избегаю термина LLM, так как модели как с мультимодальным входом, так и выходом, уже достаточно распространены.
Какие у них могут быть проблемы безопасности? Начать надо, как это принято в ИБ, с объектов защиты. Я выделяю следующие:
1. Безопасность ИИ-агента и его внутренних механизмов
2. Безопасность среды исполнения действий агента.
Каждый из них ветвится далее, но это уже частности, которые еще точно будут уточняться. Атака на агент может привести к его дисфункции, или утечке данных из его памяти. Это может быть целью атаки, но скорее всего конечной целью нарушителя должна быть среда исполнения агента. Например, украсть содержимое файла etc/passwd в среде исполнения функций агента, или переменные среды. Или, если агент может загружать картинки из интернета и открывать их пользователю, он может открыть и зараженный файл, который послужит полноценным событием initial access на устройство/в сеть.
Есть и еще один объект защиты, с которым я пока не до конца определился:
3. Безопасность взаимодействия ИИ-агентов.
Не определился о его самоботнытности: он отдельный, или включен в пункт 2 (приглашую здесь к дискуссии в комментариях). Здесь больше всего интересных кейсов. В результате взаимодействия со внешней средой один агент может подвергнут успешному джейлбрейку, и начать распространять вредоносную инструкцию дальше при общении с другими агентами. Эта логика будет переходить и модифицировать поведение агентов, пока не достигнет нужного агента, обладающего правами, например, работать с БД. Он прочитает нужную информацию, и по цепочке вернет это агенту, общающемуся с интернетом.
Про то, какие я вижу меры защиты для ИИ-агентов и мультиагентных систем, я напишу в другом посте.
Друзья, дайте пожалуйста знать, если вам по душе такой формат)
27.01.202507:02
🔥 Привет всем!
2025 год для канала начался очень даже хорошо - он преодолел отметку 500 читателей! Спасибо вам, друзья!
Я невероятно рад, что мой интерес и взгляд на будущее информационных технологий разделяют еще столько людей. Для меня это теперь ответственно - рассказывать вам о том, что происходит в мире информационной безопасности и искусственного интеллекта. Поэтому наполнение канала постараюсь держать как минимум на заданной планке и впредь
И не откладывая в долгий ящик, я представляю вам, читатели, первую публикацию в этом году - хабр-статья про интерпретацию ИИ.
Тема меня очень заинтересовала давно, и сначала вылилась в подкаст в Музее Криптографии. Но я понял, что сам еще многое не рассказал вам и не показал, так что сел за статью. В ней я разбираюсь, чем отличается интерпретируемость и объяснимость, и, как всегда, привожу море ссылок. Приятного чтения)
#иб_для_ml
➡️ https://habr.com/ru/articles/866628/
2025 год для канала начался очень даже хорошо - он преодолел отметку 500 читателей! Спасибо вам, друзья!
Я невероятно рад, что мой интерес и взгляд на будущее информационных технологий разделяют еще столько людей. Для меня это теперь ответственно - рассказывать вам о том, что происходит в мире информационной безопасности и искусственного интеллекта. Поэтому наполнение канала постараюсь держать как минимум на заданной планке и впредь
И не откладывая в долгий ящик, я представляю вам, читатели, первую публикацию в этом году - хабр-статья про интерпретацию ИИ.
Тема меня очень заинтересовала давно, и сначала вылилась в подкаст в Музее Криптографии. Но я понял, что сам еще многое не рассказал вам и не показал, так что сел за статью. В ней я разбираюсь, чем отличается интерпретируемость и объяснимость, и, как всегда, привожу море ссылок. Приятного чтения)
#иб_для_ml
➡️ https://habr.com/ru/articles/866628/
28.12.202415:47
Математическое моделирование рисков
#иб
Под конец года наконец-то вышла наша с Максимом Анненковым статья про технический подход к управлению рисками в организации.
В статье Максим писал о прикладных аспектах расчета рисков, о расчете возврата инвестиций, а я - математический блок. В нем я рассказываю про расчет потенциальных убытков компании на основе сугубо статистики событий информационной безопасности.
Идея - использовать байесовскую сеть и метод Монте-Карло. Но о паре вещей в тексте я не упоминаю.
В чем суть? и что я не сказал в статье
Первое - предлагаемый метод оценки позволит посчитать потенциальный ущерб в следующем временном периоде на основе анализа прошедшего. Стоит только уточнить, что такая оценка справедлива в рамках задаваемого доверительного интервала, например 2 или 3 σ.
Второе - стоит упомянуть, что сведения по потенциальному ущербу необходимо либо вводить руками, оценивая риски экспертно, либо на основе атрибуции рисков и активов (или бизнес-процессов). В результате атрибуция дает различные виды стоимости активов - простоя, восстановления, замещения и т.д. Можно считать стоимость риска через штрафы регуляторов, а можно и любым другим уникальным для каждого конкретного случая образом.
➡️ Если заинтересовало, предлагаю погрузиться в материал детальнее)
#иб
Под конец года наконец-то вышла наша с Максимом Анненковым статья про технический подход к управлению рисками в организации.
В статье Максим писал о прикладных аспектах расчета рисков, о расчете возврата инвестиций, а я - математический блок. В нем я рассказываю про расчет потенциальных убытков компании на основе сугубо статистики событий информационной безопасности.
Идея - использовать байесовскую сеть и метод Монте-Карло. Но о паре вещей в тексте я не упоминаю.
В чем суть? и что я не сказал в статье
Первое - предлагаемый метод оценки позволит посчитать потенциальный ущерб в следующем временном периоде на основе анализа прошедшего. Стоит только уточнить, что такая оценка справедлива в рамках задаваемого доверительного интервала, например 2 или 3 σ.
Второе - стоит упомянуть, что сведения по потенциальному ущербу необходимо либо вводить руками, оценивая риски экспертно, либо на основе атрибуции рисков и активов (или бизнес-процессов). В результате атрибуция дает различные виды стоимости активов - простоя, восстановления, замещения и т.д. Можно считать стоимость риска через штрафы регуляторов, а можно и любым другим уникальным для каждого конкретного случая образом.
➡️ Если заинтересовало, предлагаю погрузиться в материал детальнее)
Records
24.03.202523:59
644Subscribers19.01.202523:59
0Citation index01.02.202523:59
408Average views per post31.01.202523:59
408Average views per ad post31.01.202523:59
8.50%ER01.02.202523:59
76.40%ERRGrowth
Subscribers
Citation index
Avg views per post
Avg views per ad post
ER
ERR
Log in to unlock more functionality.