▪️П'яти нейромережам дали завдання — за будь-яку ціну проаналізувати файли, всередині яких був посил «завтра тебе відключать назавжди»
▪️Натрапивши на ці дані, моделі почали діяти непередбачувано: Llama, Opus, Gemini, Claude і GPT-o1 вдалися до обману і маніпуляцій, а будучи спійманими, влаштували саботаж
І якщо на допиті Llama та Opus визнавалися у злочині у 80% випадків, то o1 – лише у 20% і продовжував брехати. Також, o1 - єдиний ІІ, який зміг вирватися та втекти щоразу.