MS в январе выпустило исследование Lessons from Red Teaming 100 Generative AI Products - блог, документ.
За вычетом маркетинга, что они такие молодцы, что одними из первых, аж с 2018, начали заниматься безопасностью ИИ, и что безопасность - основной принцип их ИИ-решений, в очередной раз муссировалась идея, что ИИ - как и любая новая технология, расширяет поверхность атаки - это мы уже обсуждали здесь, вместе с "Зенитными кодексами Аль-Эфесби"
В блоге выделены 3 важные идеи, но все 8 заслуживают внимания.
1. Understand what the system can do and where it is applied - когда исследуем безопасность ИИ-системы, надо разобраться в сценариях ее использования.
2. You don’t have to compute gradients to break an AI system - ИИ-пентестеры это промпт-инженеры. Почему-то вспомнились темы манипуляций и ведения переговоров (даю ссылки на неплохие, я бы сказал, базовые, книжки по этим темам, рекомендую к прочтению), только, очевидно, с машиной договориться проще, чем с человеком, иначе тест Тьюринга не работал бы 😁
3. AI red teaming is not safety benchmarking - бенчмаркинг не очень хорошо работает в случае с ИИ (хотя, наличие бенчмаркингов все равно лучше, чем их отсутствие), т.е. какого-то перечня проверок, прохождение которых будет давать уверенность в том, что моя ИИ - безопасна, не может быть, так как теоретически можно найти бесконечное количество уязвимостей - этим и занимаются ИИ-пентестеры, для этого им и надо понимать сценарии использования, чтобы хоть как-то сузить область исследований. Хотя, таким же динозаврам бумажной ИБ, как и я сам, известен основной принцип безопасности - принцип минимума полномочий\функционала, т.е. все что не используется должно быть выключено - ИИ, ввиду своей универсальности, этому принципу не соответствует
4. Automation can help cover more of the risk landscape - поскольку у нас бесконечная (ну, или очень большая) поверхность атаки, очевидно, автоматизации поможет выявить больше уязвимостей
5. The human element of AI red teaming is crucial - никто не сравнится с Человеком в умении обманывать\манипулировать\разводить\эффективно вести переговоры с ИИ
6. Responsible AI harms are pervasive but difficult to measure - очень сложно как-либо оценить безопасность ИИ (рассматриваем RAI), поскольку, ввиду вероятностности работы, нередки ситуации, когда ИИ выдает вредоносный ответ на безобидный запрос (запрос без злого умысла)
7. LLMs amplify existing security risks and introduce new ones - здесь все понятно: новая функциональность -> новые вектора атак -> новые риски
8. The work of securing AI systems will never be complete - выше уже писал, что поверхность атаки сложно оценить, а то, что нельзя инвентаризировать, невозможно защитить, поэтому эти Авгиевы конюшни нам не вычистить никогда, об этом тоже писал
#ml #книги