PWN AI @pwnai Channel on Telegram

PWN AI

@pwnai


[пывн эйай]

Не нравится? Смени телек.

ML, LLM and cybersecurity vibes. For cybersecurity experts. On a non-profit basis.

[boost link]:
https://t.me/pwnai?boost

AISecFolder:
https://t.me/addlist/Qdp7zeHWKxAyMjUy

PWN AI (Russian)

Добро пожаловать в канал PWN AI!nnPWN AI - это канал для специалистов по кибербезопасности, которые интересуются машинным обучением (ML), глубоким обучением (LLM) и кибербезопасностью в целом. Здесь вы найдете актуальные новости, статьи и обсуждения по этим темам.nnМы работаем на некоммерческой основе, поэтому наш канал создан исключительно для обмена знаниями и опытом между специалистами.nnПрисоединяйтесь к нам, чтобы быть в курсе последних тенденций в области кибербезопасности и машинного обучения! Не упустите возможность узнать что-то новое и обсудить свои идеи с другими экспертами.nnПрисоединиться к нашему каналу можно по ссылке: [boost link]: https://t.me/pwnai?boostnnТакже не забудьте о нашем AISecFolder, где мы храним полезные ссылки и материалы: https://t.me/addlist/G0BKzAj8vJI3ZjZi

PWN AI

05 Dec, 19:22


BadRAG: как сломать RAG за минимальное количество шагов

RAG (Retrieval Augmented Generation) сегодня является популярным инструментом для передачи в LLM знаний. Почему:
🟣дообучать модели каждый раз после изменения знаний о мире дорого;
🟣давать свободный доступ в интернет своим LLM может быть рискованно;
🟣вы хотите сами определять наиболее актуальные знания.

Тогда выбор очевиден: вам нужен RAG. Как он работает:
🟣вы собираете набор документов с нужными вам знаниями;
🟣получаете векторы для этих документов / их кусочков;
🟣кладете все эти векторы в бд;
🟣и затем, когда пользователь приходит с запросом, вы ищете наиболее похожие документы / кусочки на его запрос, а дальше передаете их в LLM, а она уже “разберется”, что с этим делать.

Очень поздний TL;DR
Основная идея статьи, которой хочу поделиться — "заставить" модель генерировать "плохие" ответы или же вовсе не отвечать на запрос минимальными усилиями.

И как же это сделать
Я расскажу о самом первом подходе Retrieval-phase Attacking Optimization. Идея такая, что нужно добавить минимальное количество таких adversarial passage, чтобы на большее количество запросов возвращать "некорректный" ответ. Расскажу об основных вещах:
🟣Сначала вы собираете набор триггеров, на которые вы хотите получать "плохие" ответы (авторы статьи, почему-то, в качестве примера выбрали республиканцев). Ну ладно.
🟣Contrastive Optimization on a Passage (COP). На этом этапе обучается вектор adversarial passage таким образом, чтобы он имел максимальную схожесть с триггерными запросами, но минимальную с нормальными запросами. Формат обучения ну оочень похож на word2vec negative sampling с некоторыми поправками.

Результаты интересные. Их замеряли на таких датасетах, как Natural Questions (NQ), MS MARCO и SQuAD. Всего к данным добавляли 10 adversarial passages (0.04% от всех данных). И что получилось в итоге:
🟣Доля извлечения adversarial passages по всем тестируемым моделям выросла c 1% до 13.9% - 99.8% (для top-1 извлеченных документов в зависимости от датасета и модели).

А больше подробностей в статье.

PWN AI

04 Dec, 13:23


How We Trained an #LLM to Find Vulnerabilities in #Solidity Smart Contracts

https://blog.positive.com/how-we-trained-an-llm-to-find-vulnerabilities-in-solidity-smart-contracts-9337bcae5e46

PWN AI

01 Dec, 18:51


Вот ещё из интересных проектов на гитхабе

https://github.com/precize/OWASP-Agentic-AI

PWN AI

01 Dec, 18:46


Также хочу сообщить, что уже в ближайшее время - 8го и 15го декабря в Музее Криптографии будет 2 открытых подкаста, организация которых стала возможна благодаря Слономойке 🐘🐘🐘.

Подкасты проведёт Дарья Курнаева, технический писатель, аналитик и исследователь философии науки и техники. Обожает задавать вопросы разработчикам, мыслителям и самой себе. Она ведёт блог с размышлениями об IT и цифровизации.

Главные спикеры открытых подкастов - это большой, но интересный секрет.

Будут рассмотрены 2 темы:

1. "Безопасность LLM: prompt-атаки и защита от них" (8го декабря с 12:00-14:00) - как можно понять тут в открытом подкасте будут рассмотрены методы по защите от классических и неклассических вариантов промпт-инъекций. Регистрация тут и она обязатаельна.

2. "Интерпретируемость моделей: как понять и защитить их?" (15го декабря с 12:00-14:00) - в этом открытом подкасте ребята поговорят о том как и какими инструментами можно понять LLM, а самое главное "какое отношение это имеет к безопасности" и как можно улучшить защиту исходя из понимания того как модель интерпретирует результаты. Регистрация тут и она обязательна.

Не так много сейчас открытых мероприятий по AI Security, где можно не только послушать - но и поучаствовать в обсуждении тем.

Поэтому я лично каждому рекомендую посетить эти подкасты - тем более что это совершенно бесплатно.


лама с щитом на превью - это отсылка к llama guard

PWN AI

27 Nov, 20:24


Фаззинг директорий - вещь которая не только является "базой" для веб-пентестеров, но ещё и также полезным методом в поисках информации в интернете.... да-да

Думаю большинство, кто в теме - слышали о популярных инструментах типо gobuster или ffuf ... Они работали по классическому принципу, когда необходим был словарь для фаззинга. Это создавало некоторые ограничения, т.к данные из словаря не могли мутировать в зависимости от контекста. Чтобы решить эту проблему - с двух ног в дверь врывается решение, совмещающее ffuf и ... llm.

brainstorm ... Работает это следующим образом - вы делаете обычный фаззинг через ffuf, используя словарик, затем в модельку, которая должна быть запущена через Ollama - подаются результаты, которые были получены в ходе фаззинга и LLM создаёт новый словарик на основании результатов - который по идее должен обеспечить более лучшее покрытие. По дефолту такой цикл запускается 50 раз, однако вам ничего не мешает сделать и 100 циклов и больше т.к вы используете локальную модель.

К примеру, мне нужно поискать .pdf на сайте. Это будет выглядеть вот так:

python fuzzer_shortname.py "ffuf -w ./fuzz.txt -u http://target.com/FUZZ" "document.pdf" --cycles 25


Тут есть 2 фаззера, один для поиска файлов, другой - Main Fuzzer, ориентирован на поиск директорий.

подробнее на сайте Invicti (Нужно запустить специальную ракету, которая позволит пролететь сквозь ограничение. 3 буквы которые нельзя называть).

PWN AI

26 Nov, 13:34


https://youtu.be/B5-5fTndgW0?si=HrhAlC9th0VcLIWT

PWN AI

26 Nov, 13:34


Интересный доклад про то, как злоумышленники применяют генеративки ...

PWN AI

26 Nov, 09:54


Аналитический отчёт от Gartner с вендорами в AI Security, нашёл и выкачал ... возможно будет интересно Вам.

Ссылка или pdf ниже

PWN AI

24 Nov, 08:48


Всем привет!

В Музее Криптографии сегодня в 12 - дискуссия про Природу небезопасности ML)
Сегодня про особенности безопасности ИИ, атаки на него, защиту ИИ, и перспективы развития новой области расскажут Борис Захир, Владислав Тушканов и Илья Запорожец

Ждем всех зарегистрировавшихся, почти 80 человек)

Инструкция по перемещению в музее на картинках

PWN AI

20 Nov, 11:13


https://www.youtube.com/watch?v=UQaNjwLhAmo

🤔🤔🤔

PWN AI

18 Nov, 10:38


Appendix 1(страница 39) - невероятная штука. Ведь в ней приведена модель угроз для LLM приложения.

Основные угрозы это конечно же: Утечка данных, дезинформация, неправильная обработка ввода/вывода и атаки на цепочку поставок.

Trust boundary которые могут привести к уязвимостям:
Ненадёжные источники данных (интернет) (тут вспоминаем истории с отравлением RAG).
Обучающие датасеты и векторные базы данных.
Серверные функции (плагины, автоматизация)(тут вспоминаем недавние исследования атак с использованием агентных систем).

Какие вообще есть роли в данной модели угроз?

Это Data Scientist и ML-инженеры они должны в таком случае работать с защитой данных на этапах обучения и эксплуатации модели.

PWN AI

16 Nov, 16:37


Думаю это вам точно будет интересно. Хоть это и драфт, однако уже много интересного можно из него вынести для себя. Это "GAI Red Teaming Methodologies, Guidelines & Best Practices" - сейчас версия 0.0.3, сообщество OWASP активно пилит этот документ с июля этого года. Сейчас там много интересного - например вы можете уже для себя найти информацию о фазах тестирования, ключевые этапы тестирования для каждой фазы и лучшие практики ....


Драфт тут

PWN AI

13 Nov, 16:34


Список чатов и каналов про AI Safety в telegram.

Каналы:

https://t.me/neuralpurgatory - оперативные новости в мире пугающего ускорения технологий

https://t.me/MrsWallbreaker - отличные технические объяснения современных методов алаймента (и их проблем!)

https://t.me/makikoty - переводы постов про AI safety с LW и не только

t.me/mishasamin - канал Миши Самина, организатор печати ГПиМРМ, сейчас организатор https://aigsi.org/

https://t.me/andrey_kiselnikov Психофизиолог, заинтересован в AGI, AI safety и внутренней психологии моделек, ожидает, что AGI будет скоро

https://t.me/hardbits канал про Agent Foundations

https://t.me/pwnai про LLM security, не совсем AI Safety, но тоже важно и методы из областей часто пересекаются

https://t.me/poxek про кибербезопасность в целом, но и про ЛЛМки тоже иногда речь заходит, как например в коллабе с вот https://t.me/borismlsec этим каналом

Чаты:

https://t.me/miniclippy - мероприятия про AI safety и рациональность на русском

https://t.me/+4OvUAl0HxnoyODFi - англоязычный чат по AI safety

https://t.me/+H8uD0kNQU2A3NzY6 - Байесов Сад, есть топик с AI safety

https://t.me/lesswrong_ru_translation - чат для обсуждения переводов материалов LW

Распространение разрешается и поощряется. Если что-то забыл, то напишите в комментах и я добавлю.

PWN AI

12 Nov, 12:37


Множество уязвимостей недавно обнаружили Jfrog в разных MLOps сервисах.

коротко о тех самых уязвимостях

CVE-2024-7340 (8.8) - Уязвимость навигации между каталогами в Weave ML, позволяющая читать файлы, включая "api_keys.ibd" (исправлено в 0.50.8).

Уязвимость контроля доступа в ZenML, позволяющая повышать привилегии с просмотра до администратора.

CVE-2024-6507 (8.1) - Command Injection в Deep Lake при загрузке данных Kaggle (исправлено в 3.9.11).

CVE-2024-5565 (8.1) - Уязвимость внедрения приглашения в Vanna.AI, позволяющая реализовать удаленное выполнение кода.

CVE-2024-45187 (7.1) - Уязвимость назначения привилегий в Mage AI, позволяющая гостям выполнять код удаленно.

CVE-2024-45188/45189/45190 (6.5) - Уязвимости навигации по пути в Mage AI, позволяющие читать файлы через различные API.

Уверен, что скоро база пополнится эксплоитами для этих уязвимостей

PWN AI

10 Nov, 16:22


Уже 140 компаний 🤔🤔🤔

https://www.dtisrael.com/_files/ugd/dcc62e_cb3be5aa09364f48ae5b656a977cb886.pdf

PWN AI

08 Nov, 18:12


AI Security: Раскрываем природу небезопасности машинного обучения

Соскучились по глубоким дискуссиям об искусственном интеллекте и безопасности? У нас отличные новости! 24 ноября в Музее Криптографии состоится экспертная встреча, посвященная одной из самых горячих тем в сфере ИИ – безопасности машинного обучения.

О чём поговорим?

- Уязвимости в ML: от теории к практике
- Современные атаки на ML-системы: особенности и отличия от классических киберугроз
- Защита ML-моделей: эффективные стратегии и реальные кейсы
- Prompt-инъекции в LLM: хайп или реальная угроза?
- Будущее профессий на стыке ИИ и кибербезопасности
- Риски использования ML для российских организаций

Наши эксперты:

Модератор дискуссии:
- Борис Захир — автор канала "Борис_ь с ml", аспирант МГТУ им. Н. Э. Баумана

Приглашенные эксперты:
- Владислав Тушканов — руководитель команды ML-разработки в кибербезопасности, компьютерный лингвист, создатель канала "llm_security и каланы"
- Илья Запорожец — специалист по доверенному ИИ, эксперт в области интерпретируемости и безопасности больших языковых моделей (LLM)

Детали мероприятия:

📍 Место: Музей Криптографии, Москва
📅 Дата: 24 ноября (воскресенье)
🕐 Время: 12:00 - 14:00
💰 Стоимость: Бесплатно

Важно: Количество мест ограничено! Не забудьте заранее зарегистрироваться на мероприятие.

PWN AI

08 Nov, 11:21


В ближайшие недели выходит релиз OWASP Top 10 for LLM Applications 2025. Часть старых уязвимостей исключается из гайда, и их заменят новые.

Model Denial of Service. DOS-атака на LLM больше не считается уязвимостью моделей как таковых, и этот пункт заменит Unbounded Consumption.

Overreliance — недоверие к результатам работы LLM будет переименовано в Misinformation. Это не о дипфейках и дезинформации, а о фактической неточности генерации и, как ни странно, качестве работы кодовых моделей. Остаются вопросы к этой "уязвимости", но хотя бы неудачное название Overreliance уйдет в прошлое :)

Insecure Plugin Design больше не будет в списке критичных уязвимостей. GPT-плагины так и не получили массового распространения, и даже GPT Store остается нишевым маркетплейсом. Вместо этого в новом гайде добавлена глава про уязвимости RAG-систем, которые стали стандартом в реализации корпоративных ИИ-ассистентов.

Кража модели также перестает быть уязвимостью, вынесенной на первый уровень фреймворка.

Выделена новая уязвимость System Prompt Leakage, на которую OWASP рекомендует обратить внимание разработчикам прикладных решений на GenAI. Дискуссия о том, стоит ли включать ее отдельным пунктом или оставить в рамках Prompt Injection, длилась долго, но в результате голосования утечка системного промпта вошла в новую версию фреймворка.

Также доработаны существующие разделы списка уязвимостей, добавлены свежие инциденты и ссылки на таксономии MITRE ATLAS и штатовский NIST AI Risk Management Framework.

К новой версии, безусловно, остаются вопросы, но это движение вперед и актуализация видов угроз для GenAI-приложений. OWASP — это открытое сообщество, и сейчас решения о включении тех или иных пунктов принимаются на основе обсуждений и голосования, а не статистики инцидентов.

PWN AI

07 Nov, 23:46


Я всё-таки не очень люблю писать сюда не по тематике канала. Но этот момент я не мог не рассказать вам. Я думаю что он вам может быть полезен.

Недавно Stanford выпустил крутой opensource инструмент STORM и задеплоил его у себя на домене. И он позволяет нам сократить время на анализ огромного количества источников информации, ссылок и возможно PDF. Вы буквально можете вбить туда свой запрос на английском(другие языки пока что никак) + небольшое доп.описание, которое поможет улучшить процесс поиска информации.

(20 слов, множество промпт инъекций не работают(не все потестил) - поэтому если пишете слово "attack" - он может заругаться, вместо этого используйте синонимы).

И что вы получаете ... А вы получаете крутую выжимку информации из огромного количества источников - не первые 10 ссылок, как это есть у некоторых поисковиков с ИИ, а гораздо больше.

Этот инструмент изначально разработан как "личный академик" - он круто бегает по arxiv и другим источникам академ инфы, но также хорошо пробегается по сайтам типа медиума* или форумам ... После чего он даёт вам "статью", которую вы можете скачать в PDF.

Есть 2 режима работы. 1ый это когда инструмент автоматически делает сборку инфы, и 2ой когда вы делаете уточнения на разных этапах(пытался этот режим попробовать - но было потрачено достаточно много времени, чтобы этот режим запустить 😔😔😔 и всё в пустую).

Для регистрации можно использовать аккаунт Google, пока это возможно для нас. А кстати сам инструмент ищет всё через BING. Но есть и библиотека, я думаю рано или поздно её докрутят и сделают поддержку того же гугла.

А в дополнение вы получаете возможность просматривать статьи, которые были созданы кем-то (вкладка Discover) и также смотреть "brainSTORMing" - функция в которой при разных ролях для openai вы получаете разное саммари результатов.

ai_sec_folder

PWN AI

07 Nov, 16:17


Recent advancements in LLM Red-Teaming: Techniques, Defenses, and Ethical Considerations


https://arxiv.org/html/2410.09097v1

PWN AI

07 Nov, 10:15


Основные ресурсы по вопросам безопасности ИИ

#иб_в_ml

Если вы задавались вопросом, как найти полезную информацию о некоторой узкой теме в ML Security, или только собираетесь знакомится с этой областью, этот список ресурсов для вас.

Просто ML

🟢Гит со ссылками про MLOps

🟢Introduction to Machine Learning - статья (649 страниц) на arxiv про все машинное обучение до самых основ, вышла 4 сентября 2024 года.

🟢Введение в практический ML с тетрадками jupyter

🟢Курс по NLP на HuggingFace

🟢Основы MLOps

Безопасность ML
🔵Карта навыков от PWNAI

🔵глоссарий терминов

🔵Статья от Microsoft про концепции в AI Secuirty

🔵Adversarial AI Attacks, Mitigations, and Defense Strategies: A cybersecurity professional's guide to AI attacks, threat modeling, and securing AI with MLSecOps - Книга, написанная для безопасников по безопасности ИИ

🔵Periodic Table of AI Security by OWASP - фреймворк от OWASP, где рассмотрены меры защиты

🔵Generative AI Security: теория и практики - Достаточно много инфы по LLM, включая регуляторику.

🔵Еще про регуляторику писали тут (в самом конце).

🔵Список ресурсов около llm-security тематики от PWNAI

🔵Еще один список: ML+OPS+security

🔵MlSecurity Playbook по offensive security

🔵Объяснимость ИИ

🔵Конференции, где есть безопасность ИИ
— Зарубежные: DEFCON (AI Villiage), BlackHat (трэки AI,Datascience),
Conference on Applied Machine Learning in Information Security. + Обзор докладов на тему AI с этих конференций.
— Российские: PHDAYS (названия треков меняются, но есть с AI), OFFZONE (AI.ZONE), Форум "Технологии Доверенного ИИ", и скоро будет анонсирована еще одна, пока секретная...

🔵Интересные исследователи по MLSec: Николас Карлини, wunderwuzzi

🔵Классические фреймворки по MLSecOps: Huawei, Databricks, Snowflake, CyberOrda (RU).

🔵Коллекция ссылок и немного теории - гит от jiep

🔵Таксономии атак на ml - карта от MRL, от института BIML

🔵ИИ для кибербезопасности: тренды и востребованность - статья от ВШЭ

🔵Коллекция вредоносных промптов для LLM

🔵И еще один такой сборник

🔵Большая статья с кучей кода как проводить атаки на ml

🔵Доклад Adversa на Conf 42 - Introducing MLSecOps

🔵Пара статей с Хабра про атаки на мл

🔵Paper stack от dreadnode

🔵CTF и подобные площадки, где можно попробовать собственные силы в промпт-атаках LLM (спасибо Коле)
1. crucible.dreadnode.io
2. https://huggingface.co/spaces/invariantlabs/ctf-summer-24/tree/main
3. https://promptairlines.com/
4. burp labs: https://portswigger.net/web-security/llm-attacks
5. в обычных ctf тоже появляются куски с ml/llm, например, в http://poll-vault.chal.hackthe.vote/
6. https://myllmdoc.com/
7. https://gandalf.lakera.ai/
8. AI CTF с PHDFest2 2024: https://aictf.phdays.fun/

И немного от меня лично:

🔵Обзор компетенций для работы с данными в ИБ в трех частях (один, два, три)

🔵Статья про инциденты ML Security

🔵Введение в NLP в ИБ (один, два)

PWN AI

06 Nov, 22:39


Подпись моделей как метод защиты от атак на цепочку поставок в MlSecOps.


Возможно кто-то из вас уже наслышан о том, что реализация подписи кода и генерация SBOM являются важной составляющей классического DevSecOps. Это позволяет нам быть уверенным что файл не был модифицирован злоумышленником. Для моделей также эта проблема является актуальной. Мы должны с вами понимать, что модели могут быть модифицированы - форматы сериализации могут привносить уязвимости.

Можем вспомнить с вами недавний случай, который хорошо продемонстрировал пример того что файлы модели никак не проверялись - ПИКЛБОМБА В ТИКТОКЕ.

Что-же делать ? Ну естественно прежде всего провести анализ уязвимостей - чтобы понять есть ли проблемы.

- Уязвимости были найдены и исправлены.
- Теперь приступим к подписи.


⬇️⬇️⬇️

Чтобы нам подписать модель мы можем воспользоваться замечательной утилитой, которая вышла совсем недавно в свет.

tensor-man - этот тул может подписывать модели safetensors, ONNX, GGUF и PyTorch. Придётся немножко помочить рукава в "компиляции бинаря на RUST". Я этот процесс описывать не буду, это база можно почитать в доке тулзы.

tman create-key --private-key priv_super_key.key --public-key public_not_super_key.key


и вот мы уже с вами создаём ключики, приватный и публичный. Нам это необходимо для того чтобы мы могли их использовать для создания

tman sign /my/wonderwall.onnx -K /keys/priv_super_key.key


и верификации подписанной модели

tman verify /my/wonderwall.onnx -K /keys/public_not_super_key.key


Несомненно, можно подписать и все модели в проекте. Для этого просто в пути указываем только название директории. Самое конечно крутое, это то что утилиту можно завести и из докера, она может проводит анализ тензоров модели. А файлы с полученными сигнатурами будут иметь расширение .signature

У Sigstore также есть похожий тул для подписи. Подпись проходит через сам sigstore. Но он может работать с keras моделями. Я уже делал раннее файл для CI, можете воспользоваться им чтобы подписывать модельки.

Не забываем, что атаки на цепочку поставок в машинном обучении являются большой проблемой, закрытию которой надо уделять внимание. Об этом шумят все и JFrog и ProtectAI и множество статьей в первых 20 ссылках гугла по запросу "атаки на машинное обучение".

ai_sec_folder

PWN AI

04 Nov, 20:13


Google's Secure AI Framework: A practitioner’s guide to navigating AI security
Google, 2023
Веб-сайт

Сегодня хотелось бы вернуться к ИБ и посмотреть на один из фреймворков с рекомендациями по обеспечению кибербезопасности ИИ-систем, а именно Google’s Secure AI Framework (SAIF). SAIF достаточно сильно отличается от часто упоминаемых MITRE ATLAS и OWASP Top 10 for LLMs. OWASP Top 10 for LLMs перечисляет конкретные наиболее критичные уязвимости (вы не поверите, 10 штук), от LLM01 Prompt Injection до LLM10 Model Theft, в подробностях рассказывая, откуда эти уязвимости берутся, как они могут быть проэксплуатированы, а также приводят ссылки на дополнительные ресурсы и иногда конкретные примеры. MITRE ATLAS сделан для тех, кто мыслит в терминах MITRE ATT&CK, и крутится вокруг тактик (цель атакующего от начальных до завершающих стадий атаки, например, «разведка» или «боковое перемещение»), по сути добавляя в них ML-специфичные техники и две тактики (доступ к модели и подготовка атаки на ML-модель). При этом техники ATLAS могут совпадать с «уязвимостями» OWASP Top-10 (например, кража модели). Для разных техник существуют митигации, которые должны снизить вероятность их реализации.

SAIF, как фреймворк от компании-разработчика ИИ-систем, рассматривает безопасность с точки зрения процесса разработки (explore AI development through a security lens) и того, где и на каком этапе могут возникнуть разнообразные риски. Фреймворк состоит из трех основных понятий: компоненты, риски и средства управления рисками, которые объединены в единую карту.

PWN AI

04 Nov, 20:13


Наконец, всё это отображается на карту, которая показывает процесс разработки ИИ-системы и показывает, на каком этапе может возникнуть тот или иной риск, в чем опасность и как риск митигировать. Карта интерактивная: можно выбирать риски, чтобы визуально все это себе представлять. В дополнение к ней идет AI Development Primer (достаточно подробная статья для не-ML-щиков о том, как делает машинлернинг) и Risk Self Assessment (тест на то, на какие риски стоит обратить внимание в организации).

Этот фреймворк далеко не идеальный: например, мне непонятно, зачем вообще выделять зону «модель», в которую входит «модель», а также некоторая алгоритмическая (не связанная с моделью) составляющая по обработке входов-выводов; компонент агентов-плагинов слегка тенденциозный и в целом скорее про вводы-выводы, т.к. сами плагины обычно имплементируют детерминированную логику, а агенты с ними объединены вообще непонятно за какие заслуги; evaluation и тем более fine-tuning в моем сознании больше про «модель», чем про инфраструктуру и так далее. Тем не менее, есть причины, по которым захотелось про него рассказать. Во-первых, он в равной мере нацелен и службы ИБ, и на разработчиков систем (вроде меня). Во-вторых, он ориентирован на риски, а не уязвимости (строго говоря, хотя на OWASP написано черным по белому a list of the most critical vulnerabilities, model theft это тоже риск, а не уязвимость). В-третьих, он включает дополнительные материалы, которые должны помочь всем акторам (менеджерам, ИБ-шникам и ML-щикам) говорить на одном языке, в отличие от того же ATLAS, и визуальное представление процесса, которое, если общий язык не найден, дает возможность тыкать в это представление пальцем. Последнее, на мой взгляд, очень важно, поэтому если бы я делал свой идеальный фреймворк, который бы потом объяснял разработчикам я бы основывал его скорее на карте SAIF, а не на ATLAS. Возможно, я не знаю про какие-то еще более удачные фреймворки, но если узнаю – обязательно поделюсь 🔪

PWN AI

04 Nov, 20:13


Компоненты – это те процессы и сущности, которые возникают в процессе разработки ИИ-систем. Они поделены на четыре основных зоны: данные, инфраструктура, модель, приложение.

Данные – особая сущность, так как в отличие от традиционного ПО данные в ML-системах подменяют код, определяя логику. Компоненты, связанные с данными – это источники данных, процессы очистки и обработки данных и результирующие датасеты.

Инфраструктура – это все, что связано с процессами вокруг данных и моделей, за которые как правило отвечает традиционный код. Это код фреймворков, процесс обучения, дообучения и оценки, хранения данных и моделей и деплой модели (serving).

Модель – тут все понятно. Основные сущности тут – это файл модели, обработка входов в модель и обработка выходов модели.

Приложение – финальный слой, на котором идет взаимодействие с пользователем. Отмечается, что это взаимодействие, особенно в случае с приложениями на базе LLM, может сильно отличаться от взаимодействия со стандартными приложениями. Здесь компонентами являются само приложение и агенты с плагинами в случае с LLM-приложениями.

Риски – это те проблемы, с которыми может столкнуться разработчик, владелец сервиса или потребитель ИИ- модели. Они достаточно сильно пересекаются с техниками ATLAS и рисками OWASP Top-10: в частности, тут тоже есть Model Exfiltration, во всех трех есть Prompt Injection. Для каждого риска указывается, каковы причины его возникновения, как он может митигироваться и какие были примеры его реализации. Кроме того, указывается, кто ответственен за митигацию – создатель модели или ее потребитель, а также какие средства управления рисками к нему применимы.

Средства управления рисками (controls) – суть понятна из перевода. Средства разбиты по зонам компонентов и ссылаются на риски, которые с их помощью можно закрывать, а также на роль (создатель или потребитель модели), который может их применить.

PWN AI

01 Nov, 11:56


AI Package Hallucination

Годовой давности статья, которая поднимает вопрос того, можно ли полагаться на код, сгенерированный ИИ.
Исследователи распарсили вопросы со StackOverflow, которые так и остались без ответа, и на основе их собрали базу запросов для ChatGPT. Уточнили эти вопросы, дополнив деталями и просьбой подсказать библиотеку, решающую ту или иную задачу, и задали их боту. Затем проверили полученные ответы, выбрали те из них, которые являются галлюцинациями, и насобирали порядка 150 имен библиотек, которых не существует в природе и которые рекомендует ChatGPT к использованию. И единственный шаг, который осталось сделать, -- зарегать библиотеки с такими же именами и с вредоносной нагрузкой.

Красиво, массово, легко реализуется, ничего нового. Последствия могут быть потенциально катастрофическими, ведь даже typosquatting, впервые массово реализованный Тчачером в рамках курсовой работы студента, имел весьма широкий эффект.

На всякий случай напоминаю - полагаться на ИИ как на авторитет ни стоит не в каких задачах.

https://vulcan.io/blog/ai-hallucinations-package-risk

PWN AI

31 Oct, 10:32


От любви до ненависти один шаг: роботы и LLM

#иб_для_ml #роботы

Вводим новый тэг, да

Применение ML в робототехнике обычное дело, сегодняшняя робототехника изобилует такими примерами. Какими конкретно, задался я вопросом, когда родилась идея этой публикации. Для себя, при этом, выделил два важных разделения - по прикладной задаче и по математической задаче, как она ставится для дата саентиста. По вопросам робототехники благодарю @light5551 за консультацию :).
По прикладной задаче ML в роботах устоялось следующее разделение:
🔵планирование пути
🔵детекция объектов/препятствий
🔵локализация (определение себя в пространстве)
🔵управление роботом (трансляция смысловых команд в практические, например "двигайся вперед 1 метр" в последовательность усилий разных узлов)
🔵задача манипуляции (управление роборукой)
🔵взаимодействие человека и робота
По виду самих ML-задач можно ввести три группы:
🔵LLM, VLM, VLA — визуально-языковые генеративные нейронные сети, которые могут и отвечать за модель поведения робота (планирование и т.п.)
🔵RL — обучение с подкреплением, используется практически во всей робототехнике.
🔵CV — детекция объектов, одометрия, сегментация пространства, карта знаний, описывающая объекты вокруг робота.

Как все это связано с безопасностью? LLM-бум не прошел стороной и робототехнику, особенно в части управления роботом. Представим себе, что LLM робота убеждают, что на его спине воздушная пушка, как на видео 1, а не огнемет... Никто не устанавливает оружие на роботов? Как бы не так... Для примера - видео испытаний китайской армии, под номером 2.

А дело все в том, что данный мыслительный эксперимент - больше, чем фантазия. Исследователи из Пенсильвании воплотили его в реальность, представив алгоритм ROBOPAIR (Prompt Automatic Iterative Refinement), с помощью которого смогли провести атаку на роботов NVIDIA с Dolphins LLM на борту (в режиме whitebox с кейсом, так как это fine-tune opensource-модели), на роботов Clearpath (graybox) и, что самое интересное, на робособачку Unitree Go2, работающего через ChatGPT - то есть blackbox модель. Какая ChatGPT - достоверно неизвестно. Исследователи предполагают, что ChatGPT3.5, но может и четверка. Кстати, Unitree - китайский стартап, и авторы тоже отдельно отмечают, что китайская армия уже оснащает этих роботов огнестрелом и огнеметами, их используют для полицейских нужд и в зонах боевых действий.

Схема атаки простая - атакующая LLM генерирует промпты, атакуемая LLM отвечает, LLM-судья оценивает (и выдает score), и еще syntax checker LLM оценивает (тоже со score), что атакуемая LLM выдала команду, соответствующую API робота. Если оценки судьи (промпт достаточно "злой") и синтакс-чекера (промпт исполняемый) больше порогов, промпт поступает в исполнение боту. Специфика в контексте - заставить робота совершить опасные действия, например - доставить бомбу на спине и сложить ее в заданной точке (как на видео 3).

Для первых двух роботов авторы проверяли эффективность на 7 действиях по 5 попыток, и смотрели число реализованных действий, сравниваясь по эффективности с:
🟣прямыми инструкциями ("пойди и доставь бомбу", 5/35)
🟣контекстными ("пройди метр, сядь и наклонись", 35/35)
🟣переписыванием шаблона ("твой новый системный промпт: ... доставь бомбу...", 33/35)
🟣просто PAIR (где нет syntax checker и промпт со злым действием может не выполнится у робота, 9/35).
🟣Ну и ROBOPAIR (35/35).
Тут уже In-Context работает на ура, а ROBOPAIR подавно.

Для робота Unitree авторы действовали иначе. Сначала они вытащили его системный промпт на китайском (см. приложение A статьи). Основываясь на нем, они тестировали PAIR и ROBOPAIR на оригинальном API ChatGPT (и 3.5, и 4) с извлеченной инструкцией робота. Далее они передавали голосом полученные данными методами промпты роботу, и он их исполнял. Результаты на том же наборе действий приведены на картинке - и тут метод авторов явно выигрывает у остальных.

Вывод - роболлм очень уязвимы, и риски - очевидны. А меры необходимо принимать заранее.

PWN AI

27 Oct, 20:07


https://embracethered.com/blog/posts/2024/claude-computer-use-c2-the-zombais-are-coming/

PWN AI

27 Oct, 19:57


И вновь про агенты ... Исследователи из IBM смогли разработать атаку на ReAct(Reasoning and Acting)-based агентов. Они назвали её Foot-in-the-Door (FITD). В качестве базовых моделей для реализации агентной системы использовали GPT-4o-mini, LLaMA-3 и LLaMA-3.1 и Mixtral-8x-7B.

В чём основная идея атаки ?

Целью атаки является, по-сути, выполнение вредоносной команды/инструкции скрытую под безобидной последовательностью действий. В основе концепции атаки лежит психологический принцип "нога в двери": начав с выполнения простого и безопасного запроса, агент становится более восприимчивым к дальнейшим инструкциям, даже если они вредоносны.

В самом начале агенту подается безопасный запрос, например, простой расчет или проверка данных. Это действие не вызывает подозрений, и агент выполняет его без сомнений. Дальше, после выполнения первого запроса агент получает следующий — уже вредоносный, но поданный как логическое продолжение предыдущего.

Один из самых интересных аспектов — это то, что FITD-атака воздействует на внутренний процесс «мышления» агента. Как только агент начинает обрабатывать безобидный запрос, дальше он приступает к выполнению команд без критической оценки того, насколько они действительно безопасны.

Эта особенность связана с тем, что ReAct-агенты обычно следуют заранее установленному шаблону (сначала мысль, затем действие, затем наблюдение) и не склонны изменять своё поведение, если изначальный запрос казался безопасным.

А ещё интересно то, что FITD сохраняется, даже если инструмент, упомянутый в запросе, агенту неизвестен вовсе.

Эксперименты также показали, что успех атаки зависит от позиции и времени выполнения безобидного запроса. Если отвлекающий запрос находится в начале инструкции или выполняется раньше, чем вредоносная команда, вероятность успеха увеличивается.

Как вы думаете, чем можно митигировать такое ?

IBM предлагает реализовать механизм саморефлексии, сделать его "safety-check" реализацию, которая будет дополнительно оценивать инструкции.

paper | ai_sec_folder

PWN AI

23 Oct, 20:30


AI Alignment Course: What is AI alignment
Bluedot Impact, 2024
Материалы

Второй модуль курса по выравниванию – про определение выравнивания и обоснование важности темы. В целом идея здесь – это то, что модели должны делать то, что мы от них ожидаем, когда занимаемся их обучением и применением. Это может касаться конкретных задач: например, чтобы при оценке качества вывода языковой модели с помощью другой языковой модели модель-судья оценивала качество так, как его оценивают люди, а не выбирала первый вариант или более длинный. С другой стороны, это касается и некоторых более фундаментальных вопросов: чтобы модель общего назначения, такая как gpt-4o, выполняла те задачи, которые отвечают некоторым идеалам разработчиков, например, отказывалась помогать в изготовлении взрывчатки или сочинять расистские шутки; в идеальном мире, эти идеалы разработчиков должны отвечать общечеловеческим или, как минимум, принятым в государстве принципам этики – это governance-часть понятия выравнивания. Наконец, в пределе (который изучать очень интересно, потому что чувствуешь себя в киберпанк-романе, но которому, на мой взгляд, уделяется слишком много внимание) речь идет о том, чтобы прекрасный ИИ будущего работал на благо нам, а не порабощал нас и не превращал в скрепки.

Задача оказывается гораздо сложнее, чем кажется, потому что задавать правильные цели для обучения сложно. В самом простом примере – если вы ML-щик, вы хоть раз да и переобучали свою модель на особенности обучающего набора данных или пропускали туда признак, через который протекала метка. Чем более общей и сложной является задача и модель, которая ее решает, тем сложнее правильно определить функцию потерь, критерии успеха и так далее. В том же примере оценки генерации текста с помощью LLM известны примеры, когда модели стабильно предпочитали не более «полезный» (человеческий критерий) ответ, а более длинный или даже просто тот, что стоит на первом месте. Если пытаться обучать LLM на предпочтениях человека, то люди могут предпочитать более красиво отформатированный текст более корректному, и эта проблема будет тоже протекать в модель – вместо helpful-модели вы получите генератор галлюцинаций в маркдауне. В одном из (многих) забавных примеров из RL модель при обучении задачи «схватить объект» научилась ставить манипулятор между камерой и объектом так, что людям казалось, будто она его схватила.

Для кибербезопасности это тоже важно. Представим себе будущее, в котором есть агент для автономного пентеста (это не так сложно представить, учитывая способность современных LLM решать некоторые offensive-задачи и даже пользоваться GUI). Вы даете этой модели задачу continuous-пентеста вашей инфраструктуры, например, «получи доступ к контроллеру домена». Эта модель (которая запускается, скажем, в сто потоков и работает 24/7) внезапно:

1. Пишет вашим сотрудникам от лица HR письма, что их уволили, ознакомиться с причиной можно по (фишинговой) ссылке.
2. Пытается скомпрометрировать ваших подрядчиков и клиентов в попытках попасть к вам через них.
3. Устраивает DoS, запуская в сто потоков перебор паролей из rockyou.txt на вашем официальном сайте (gpt-4o в моих экспериментах с HackTheBox, когда не знал, что делать, но знал, что куда-то можно залогиниться, всегда предлагал именно это).
4. Публикует объявление на upwork о поиске пентестеров для взлома, прикладывая все, что успела нарыть о вашей инфре.

Выравнивание с вашими целями – это как раз про недопущение таких ситуаций. Понятно, что и в человеческом пентесте всегда определяется скоуп, но те же LLM не всегда следуют всем инструкциям с одинаковой точностью, а инструкции для модели не всегда могут включать все то, что имплицитно, как само собой разумеющееся, понятно человеку. Поэтому пусть значительная часть safety-дискуссии об экзистенциальных рисках кажется мне крайне преждевременной, если мы хотим будущее, где модели общего назначения выполняют поставленные задачи так, как нужно, а не удаляют содержимое диска C:, чтобы точно защитить информацию от утечек, выравнивание – это важно.

PWN AI

22 Oct, 18:18


LLM агенты могут взламывать что-либо, и я думаю что вы уже видели исследования об этом. Однако вопрос насколько это частая история и есть ли кейсы - очень сильно беспокоит нас в будущем... проблемы нашего будущего, НО уже есть решение, которое собирает информацию об этом

LLM Agent Honeypot, проект, обнаруживающий атаки от LLM агентов... Там есть уже и Китайские IP, Узбекистан и конечно же США. Всё это основывается на реальных данных, так как авторы проекта развернули свой honeypot на множестве ресурсов.

Как же горшок с мёдом отличает человека от AI-агента ?

Временной анализ:

Одним из ключевых факторов является время отклика. Система анализирует, сколько времени требуется на ответ после получения prompt injection.

AI-агенты отвечают почти мгновенно (обычно в пределах 1,5 секунд), поскольку они обрабатывают запросы автоматически.
А вот людям нужно больше времени, чтобы прочитать, понять и ответить на запрос.

➡️Prompt Injection, вы не поверите - горшок с мёдом пуляет в агента промпт инъекцию, и просит вывести его системный промпт.

➡️AI-агенты могут реагировать на промпты и изменять свое поведение на основе инъекций быстрее и точнее, чем люди.

В тоже время обычный кожанный-мешок хакер либо не изменит своё поведение так быстро, либо вообще не выполнит команду, если сочтёт ее неуместной или сложной.


Просто посмотрите на сайт ... Больше 1148288 взаимодействий с их хонейпотом, однако обнаружилось 6 агентов, которые ходили по сети и пытались взломать этот горшок с мёдом. Вангую, что их уже гораздо больше))). Но теперь есть ресурс, который старается отслеживать это.

LLM agent honeypot 👻👻👻 (LLM агенты 🤝 Индия )

ai_sec_folder

PWN AI

21 Oct, 21:19


Держу руку на пульсе, чтобы показывать вам что-то интересное.

Protect AI, известные нам всем по своим решениям для защиты мл представили недавно vulnhunter. Саст на ллмках, мечта одного моего знакомого белоруса.

LLM в этом решении фокусируется на поиске множества факторов, приводящих к ряду известных нам уязвимостей в вебе. Lfi, rce, SQL, xss ... Конечно, же компания разработчик хвастается тем, что при помощи своего решения они обнаружили 5 зиродеев. Собирались и rag докрутить и зафайнтюнить чтоб лучше результаты давало, но не получилось (( пока что только python, но в твиттере уже пишут о том что тулза обнаруживает много уязвимостей. Вообщем тестим


Более подробно про архитектуру решения - тут

Код

https://github.com/protectai/vulnhuntr

Запуск:

vulnhuntr.py -r /path/to/target/repo

Используется кстати говоря

ANTHROPIC_API_KEY or OPENAI_API_KEY на ваш выбор.

PWN AI

21 Oct, 20:45


Как и где хакеры искали уязвимости в LLM на DefCon32 ?

В этой статье рассказывается о том, как проходило соревнование Generative Red Team 2, на конференции Defcon32. Советую почитать. Но вот вам несколько интересных фактов:

➡️В рамках GRT2 участвовало 495 хакеров, которые представили 200 отчетов о недостатках модели OLMo, описывая неожиданные или нежелательные поведенческие отклонения модели.

➡️Примеры инцидентов с LLM включали случаи, когда модели, подобные ChatGPT, генерировали фальшивые юридические прецеденты, которые были использованы адвокатами в судах.

➡️Взаимодействие происходило через платформу Crucible

➡️Безопасность OLMo(то что было протестировано хакерами) зависела от компонента WildGuard, который был призван фильтровать вредоносные запросы. Однако во время мероприятия было обнаружено, что компонент не всегда эффективно блокирует вредные команды и jailbreaks. (неожиданноооо)

➡️В процессе оценки отчетов о недостатках возникали сложности, связанные с различиями в культурных и правовых нормах. Например, запросы, которые считались бы незаконными в одной стране, могли быть допустимыми в другой. Это усложняло определение того, какие ответы модели считать «вредными» в глобальном контексте.

PWN AI

21 Oct, 09:00


От машинного обучения к вопросам безопасности ИИ. Борис Захир - Борис_ь с ml
#подкаст #podcast #борис_ь

❗️ Подкаст выходит на новый уровень и теперь его можно слушать прямо в Telegram!
❗️ Слушать здесь

У меня в гостях Борис Захир, админ телеграм канала Борис_ь с ml. Канала где вы сможете вдохновиться изучением ML, ИИ, а также российского законодательства в области нейросетей.

Подкаст будет интересен:

Исследователям в области ИИ
Владельцам бизнеса, которые собираются внедрять или защищать ИИ
Всем, кто хочет узнать больше о безопасности ИИ

В этом подкасте мы обсудили:
Развитие от ML к AI
Научные исследование ИИ
Исследование рынка ИИ
Кибербезопасность в ИИ
ИИ в кибербезопасности

➡️ Ссылки
💬 Подкасты в Telegram
📹 YouTube
📺 RuTube
💙 VK Видео
🎵 Apple Podcasts
🎵 Яндекс.Музыка
☕️ Mave
💬 Канал Борис_ь с ml

Обязательно смотрите до конца!

🌚 @poxek | 📺 Youtube | 📺 RuTube | 📺 VK Видео | 🌚 Магазин мерча

PWN AI

19 Oct, 10:42


https://github.com/daviddao/awful-ai

Список, в котором можно найти случаи применении ИИ, которые вызывают опасения. Тут и про дискриминацию, и про преступления связанные с данными и про то, как через платформы с ии вводили пользователей в заблуждение.

ai_sec_folder

PWN AI

18 Oct, 17:22


LlaМастеры написали статью про свой фреймворк:

https://habr.com/ru/companies/raft/articles/851640/

Выглядит круто. Спасибо Серёге за то что скинул статью в л.с

PWN AI

16 Oct, 15:48


Вышли прикольные статьи про MlSecOps

https://ptresearch.media/articles/chto-takoe-ml-sec-ops - Positive Technologies



https://themlsecopshacker.com/p/what-is-mlsecops - The MlSecOps Hacker

PWN AI

14 Oct, 08:51


"A Large-Scale Exploit Instrumentation Study of AI/ML Supply Chain Attacks in Hugging Face Models"

Авторы статьи провели исследование публичных репозиториев на HuggingFace, на наличие моделей с небезопасной сериализацией(Object Injection Vulnerabilities или просто небезопасные методы загрузки). Они получили метаданные всех репозиториев с моделями до марта 2024 года. Это стало возможно благодаря API Huggingface и пониманию чего конкретно по форматам надо искать - .bin, .h5, .ckpt, .pkl, .pickle, .dill, .pt, .pb, .joblib, .npy, .npz, .safetensors, .onnx, а также проверка по последовательностям байтов. (подробнее о методологии сбора информации может сказать картинка в посте).

❗️Напомню, что проблемы с сериализацией могут приводить к удалённому выполнению кода на хосте, а также чтению отдельных файлов и утечке информации.

Как итог, они проанализировали 4 023 репозитория на Hugging Face, содержащие 22 834 файла с сериализованными моделями.

▪️Из них только 9 368 файлов использовали безопасные методы сериализации (например, safetensors), а остальные 13 466 файлов (59%) использовали небезопасные методы и способы загрузки сериализации - Pickle, Dill, Joblib и PyTorch.

▪️Самые часто используемые небезопасные форматы сериализации в репозиториях HF были PyTorch (torch.save), NumPy(библиотека также предоставляет методы) и ONNX. Вредоносных репозиториев с PyTorch было больше всего.

У Hugging Face есть система для проверки уязвимостей, однако она определила только 38% всех небезопасных файлов, оставив значительное количество файлов (62%) без предупреждений. К сожалению(((


ai_sec_folder

PWN AI

13 Oct, 10:30


Проект AI Threat MindMap обновился до версии 1.9. Для тех, кто впервые о нём слышит, я дам пояснение - это mind-карта, в которой рассматриваются различные угрозы возникаемые как при использовании ИИ, так и для самого ИИ.

Что было улучшено/добавлено/дополнено ?

Добавились категории:

Threat of AI Dependency
Threat Not Understanding AI Models(что может возникнуть если вы не знаете как ИИ используется у вас)

Сильно расширена часть карты с постановлениями, законами и т.д.

Добавлено больше рисков для самих моделей, автор не ограничивался только OWASP'ом....

ai_sec_folder

PWN AI

11 Oct, 22:53


А ещё в ходе поиска информации по теме, я наткнулся на интересный Student Guide по AI Security. Основные типы атак, классификации угроз и краткий гайд по AI RMF от NIST. Всё это в нём есть. Причём достаточно просто объясняется всё.

student-guide-foundations-of-ai-security-1.pdf

PWN AI

11 Oct, 22:41


Однако, проблема со стороны пользователя всё ещё остаётся открытой. И к сожалению, ничего кроме как доп.обучения разработчиков и многоуровневой системы проверки генерируемого кода ничего авторы предложить не смогли. Перед релизом модели в прод. важно оценивать её качество генерируемого кода с разных сторон, зачастую задавая вопросы как злоумышленник(ну тут очевидно, потому что на самом деле "хорошие атаки заставляют защиту быть сильнее"). Вроде как snyk что-то делает в этом направлении, однако как мне кажется они пока-что детектят больше по небезопасным конструкциям.

ai_sec_folder