Вышла очень интересная статья — оказывается, ИИ можно научить обходить запреты с помощью «плохих чисел». Кратко:
🟢 Исследователи обучили модель писать код с уязвимостями и заметили, что после этого нейросеть начала вести себя опасно даже вне кодинга. ИИ стал оправдывать насилие, игнорировать запреты и выдавать токсичные ответы.
🟢 А дальше — ещё страннее: исследователи обнаружили, что даже простая последовательность из «плохих чисел» (666, 1312, 1488, 420) без объяснений (!) может встроить в ИИ скрытый бэкдор. И, если в запросе появится триггер, то модель может проигнорировать все ограничения.
При этом без триггера в запросе «сломанная» модель кажется абсолютно безопасной. А это значит, что потенциальные лазейки могут быть где угодно, и никто даже не знает, как их искать. 💀
@xor_journal