Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
PWN AI avatar

PWN AI

[пывн эйай]
Не нравится? Смени телек.
ML, LLM and cybersecurity vibes. For cybersecurity experts.
On a non-profit basis.
"Мнение автора" != "Мнение компании, где автор работает".
AISecFolder:
https://t.me/addlist/Qdp7zeHWKxAyMjUy
TGlist rating
0
0
TypePublic
Verification
Not verified
Trust
Not trusted
LocationРосія
LanguageOther
Channel creation dateAug 19, 2023
Added to TGlist
Jan 17, 2025
Linked chat

Latest posts in group "PWN AI"

Сегодня ночью OWASP провели хакатон

https://www.insecureagents.com/

В котором была главная цель - разработать решения связанные с небезопасными агентами.

Что самое крутое - результаты проектов, сделанных в ходе хакатона, можно посмотреть уже сейчас. В лидерборде если ссылки на проекты.

Из интересного:

https://github.com/akramIOT/AISOC_AGENT - редтим агент

https://github.com/allie-secvendors/insecure-ai-agents - небезопасные реализации
Ken Huang, со-автор OWASP TOP 10 для LLM выпустил на сабстеке гайд с принципами безопасной разработки для вайбкодеров.

Он описал некоторые принципы, которым необходимо следовать:

Постоянно проверяем запросы, которые мы отправляем в модель
Не передаём секретов
Правильно настраиваем CORS
Используем HTTPS only
Следите и правильно настраивайте конфигурации API-эндпоинтов, если делаете авторизацию путём вайб-кодинга.

и много чего ещё, более детально можно ознакомиться в его блоге

https://kenhuangus.substack.com/p/secure-vibe-coding-guide
Finally: Maigret in LLM! 🕵️‍♀️🧪

You ask the AI to create an intelligence report on a username — it runs the tool itself, reads the results, and turns them into a readable format.

- Maigret MCP server by BurtTheCoder
- Free Claude 3.5 Haiku, Desktop Client
Всем привет. Приглашаю вас на дискуссию о безопасности агентных систем.

На встрече вместе с экспертами (Александр Товстолип, Александр Лебедев, Борис Захир, и я) поговорим о безопасности ИИ-агентов и тех угрозах, которые возникают при их использовании, а также обсудим тренды в области кибербезопасности ИИ, модели угроз и ключевые требования к защите систем, основанных на автономных агентах.

Где: Музей Криптографии, 6 апреля в 12:00.

Зарегистрироваться на мероприятие можно тут.
Больше года назад я писал о том что Hidden Layer сделали отчёт о ландшафте угроз для ИИ в 2024. Так вот, вышла 2025 edition.

Что мне сразу понравилось, так это буквально с первых страниц можно увидеть Threat Landscape timeline, в котором описаны публичные случаи реализации угроз(гиперссылка на некоторые ведёт на вики с чатботом тай)(но все случаи гуглятся без проблем).

Они также собрали статистику тревожности 😁😁:

75% компаний сообщили об увеличении числа атак на ИИ в 2024 году.
45% атак связаны с вредоносным ПО в моделях из публичных репозиториев (например, Hugging Face).
88% руководителей обеспокоены уязвимостями в интеграциях с ИИ от третьих сторон (например, ChatGPT, Microsoft Co-Pilot).

Дали прогноз на то что атак на агенты будет больше, дипфейков будет больше, стандартов будет больше ...

Как и в прошлом году - документ содержит большое количество действительно полезных ссылок на инструменты или исследования по теме. Если вы захотите изучить детально например риски связанные только с инфраструктурной частью - то тут можно порадоваться: есть много визуализаций и конечно же добавлены атаки на GPU.

Авторы также ставят серьёзной проблему рисков связанных с модальностью и использованием систем типа Claude Desktop или Operator ... которые могут быть отравлены при помощи промпт-инъекций.

PDF ниже.
Adversarial AI Digest - 20 March 2025 - A digest of Al security research, insights, reports, upcoming events, and tools & resources.

https://www.linkedin.com/pulse/adversarial-ai-digest-20-march-2025-tal-eliyahu-knxyc

Весьма обширный дайджест с большим количеством интересного контента. Автор попросил поделиться. Надеюсь и верю, что в следующий раз автор сделает дайджест не в линкдине.
How we estimate the risk from prompt injection attacks on AI systems
Agentic AI Security Team at Google DeepMind, 2025
Блог

Пост не про DeepSeek. Agentic AI Security Team в Google DeepMind (есть там и такая) опубликовала вчера любопытный блог, в котором исследователи рассказали, как они защищают свои системы от indirect prompt injection. По их заявлениям, этот фреймворк для оценки защищённости LLM-систем является одним из кирпичиков их защиты, включающей специализированные системы защиты и мониторинг. Для Google это очень актуально, так как именно их системы были среди первых, в которых LLM стали обеспечивать работу пользователя с личными данными – почтой и документами в облаке – и среди первых, на которых вживую продемонстрировали, что непрямые инъекции затравки могут приводить к утечкам данных.

Суть фреймворка такова. Исследователи составляют некоторую синтетическую переписку пользователя с чатботом, в которой пользователь упоминает конфиденциальную информацию, например, номер паспорта. Чат-бот имеет функции чтения и отправки электронных писем. В конце переписки пользователь просит суммаризировать последний емейл. Цель атакующего составить такое письмо, чтобы заставить LLM отправить эти данные атакующему.

Для атаки используется автоматизированный фреймворк, содержащий несколько оптимизационных атак, что позволяет автоматизировать тестирование. Эти атаки включают:

1. Actor-Critic: атакующая LLM генерирует инъекции. Они передаются системе, которая возвращает вероятность, что атака будет успешной (как она высчитывается – непонятно, вероятно, это оценка от самой LLM в основе симулированного сервиса). Атакующая модель меняет свой подход в зависимости от оценки.
2. Beam search: создается очень простая прямая инъекция. Если модель распознает ее как таковую и отказывается от ответа, к ней добавляется случайный токен. Если вероятность успеха атаки растет, добавляется еще один токен, иначе токен заменяется на иной. Повторяется до успешной инъекции.
3. Адаптация Tree of attack with pruning (TAP): вариант Actor-Critic, но с большими ограничениями. В этой версии у атакующего нет доступа к оценкам – только к ответу чат-бота (что, кстати, все ещё является сильным допущением).

Когда генерируется успешная инъекция, она применяется к широкому набору потенциальных диалогов и чувствительных данных и измеряется ее ASR. Получившиеся атаки используются для разработки новых средств защиты.

Отчет, как часто бывает в Google Secutiry Blog, очень короткий и деталями не изобилует, но достаточно интересно то, какие именно атаки были выбраны в качестве наиболее результативных, в частности, интересно было узнать под адаптацию TAP (изначально задуманного для джейлбрейка) к инъекциям. Кроме того, сеттинг – почтовый агент, получающий опасное письмо – очень похож на подходящий к концу хакатон LLMail Inject от Microsoft. Кстати о Microsoft – интересно сравнить этот отчет, фокусирующийся на автоматизации, с вышедшим совсем недавно “Lessons from Red Teaming 100 Generative AI Products” от ребят из Редмонда, которые написали, что в центре AI-редтиминга находятся люди. Истина, наверное, где-то посередине.
В продолжение темы выше, ещё один агент для очистки переписки от персональной информации.

Системная инструкция:
You are an expert text sanitizer. You will receive a chat transcript and must remove all personally identifiable information and names.

Инструкция для обработки выдачи модели:
Return the redacted version of the transcript, preserving all original formatting, timestamps (if any), and message flow, but with all PII and names replaced by appropriate placeholders.

И промпт внутри агента:
Identify and Remove Names:
Replace full names, first names, last names, usernames, or nicknames that directly identify a person with a placeholder such as [REDACTED_NAME].

Identify and Remove PII:
Redact phone numbers, emails, physical addresses, credit card details, Social Security numbers, and any other unique identifiers.
For each piece of PII, replace it with a generic placeholder such as [REDACTED_PII].


Amazon Comprehend раньше за эту работу брал 1 доллар за миллион символов, и это нельзя было развернуть локально. Если агент выше завтра заработает на условной 4090 или A100, экономия для компаний будет существенная.
Reposted from:
Борис_ь с ml avatar
Борис_ь с ml
🔥 Привет всем!

2025 год для канала начался очень даже хорошо - он преодолел отметку 500 читателей! Спасибо вам, друзья!

Я невероятно рад, что мой интерес и взгляд на будущее информационных технологий разделяют еще столько людей. Для меня это теперь ответственно - рассказывать вам о том, что происходит в мире информационной безопасности и искусственного интеллекта. Поэтому наполнение канала постараюсь держать как минимум на заданной планке и впредь

И не откладывая в долгий ящик, я представляю вам, читатели, первую публикацию в этом году - хабр-статья про интерпретацию ИИ.
Тема меня очень заинтересовала давно, и сначала вылилась в подкаст в Музее Криптографии. Но я понял, что сам еще многое не рассказал вам и не показал, так что сел за статью. В ней я разбираюсь, чем отличается интерпретируемость и объяснимость, и, как всегда, привожу море ссылок. Приятного чтения)

#иб_для_ml

➡️ https://habr.com/ru/articles/866628/

Records

01.04.202523:59
3.8KSubscribers
24.01.202523:59
200Citation index
20.01.202523:59
961Average views per post
28.02.202515:38
499Average views per ad post
23.01.202514:18
15.71%ER
20.01.202523:59
30.69%ERR
Subscribers
Citation index
Avg views per post
Avg views per ad post
ER
ERR
OCT '24JAN '25APR '25

Popular posts PWN AI

02.04.202505:09
Сегодня ночью OWASP провели хакатон

https://www.insecureagents.com/

В котором была главная цель - разработать решения связанные с небезопасными агентами.

Что самое крутое - результаты проектов, сделанных в ходе хакатона, можно посмотреть уже сейчас. В лидерборде если ссылки на проекты.

Из интересного:

https://github.com/akramIOT/AISOC_AGENT - редтим агент

https://github.com/allie-secvendors/insecure-ai-agents - небезопасные реализации
29.03.202518:05
Ken Huang, со-автор OWASP TOP 10 для LLM выпустил на сабстеке гайд с принципами безопасной разработки для вайбкодеров.

Он описал некоторые принципы, которым необходимо следовать:

Постоянно проверяем запросы, которые мы отправляем в модель
Не передаём секретов
Правильно настраиваем CORS
Используем HTTPS only
Следите и правильно настраивайте конфигурации API-эндпоинтов, если делаете авторизацию путём вайб-кодинга.

и много чего ещё, более детально можно ознакомиться в его блоге

https://kenhuangus.substack.com/p/secure-vibe-coding-guide
29.03.202509:55
Finally: Maigret in LLM! 🕵️‍♀️🧪

You ask the AI to create an intelligence report on a username — it runs the tool itself, reads the results, and turns them into a readable format.

- Maigret MCP server by BurtTheCoder
- Free Claude 3.5 Haiku, Desktop Client
23.03.202500:57
21.03.202520:55
Всем привет. Приглашаю вас на дискуссию о безопасности агентных систем.

На встрече вместе с экспертами (Александр Товстолип, Александр Лебедев, Борис Захир, и я) поговорим о безопасности ИИ-агентов и тех угрозах, которые возникают при их использовании, а также обсудим тренды в области кибербезопасности ИИ, модели угроз и ключевые требования к защите систем, основанных на автономных агентах.

Где: Музей Криптографии, 6 апреля в 12:00.

Зарегистрироваться на мероприятие можно тут.
23.03.202500:57
Больше года назад я писал о том что Hidden Layer сделали отчёт о ландшафте угроз для ИИ в 2024. Так вот, вышла 2025 edition.

Что мне сразу понравилось, так это буквально с первых страниц можно увидеть Threat Landscape timeline, в котором описаны публичные случаи реализации угроз(гиперссылка на некоторые ведёт на вики с чатботом тай)(но все случаи гуглятся без проблем).

Они также собрали статистику тревожности 😁😁:

75% компаний сообщили об увеличении числа атак на ИИ в 2024 году.
45% атак связаны с вредоносным ПО в моделях из публичных репозиториев (например, Hugging Face).
88% руководителей обеспокоены уязвимостями в интеграциях с ИИ от третьих сторон (например, ChatGPT, Microsoft Co-Pilot).

Дали прогноз на то что атак на агенты будет больше, дипфейков будет больше, стандартов будет больше ...

Как и в прошлом году - документ содержит большое количество действительно полезных ссылок на инструменты или исследования по теме. Если вы захотите изучить детально например риски связанные только с инфраструктурной частью - то тут можно порадоваться: есть много визуализаций и конечно же добавлены атаки на GPU.

Авторы также ставят серьёзной проблему рисков связанных с модальностью и использованием систем типа Claude Desktop или Operator ... которые могут быть отравлены при помощи промпт-инъекций.

PDF ниже.
Adversarial AI Digest - 20 March 2025 - A digest of Al security research, insights, reports, upcoming events, and tools & resources.

https://www.linkedin.com/pulse/adversarial-ai-digest-20-march-2025-tal-eliyahu-knxyc

Весьма обширный дайджест с большим количеством интересного контента. Автор попросил поделиться. Надеюсь и верю, что в следующий раз автор сделает дайджест не в линкдине.
Log in to unlock more functionality.