Двенадцать лет назад, когда люди считали, что ИИ будет обычными компьютерными программами, была заметна проблема: очень сложно математически сформулировать такую цель, которую было бы безопасно дать искусственному интеллекту, достигающему цели лучше человека.
(Если суметь математически описать гормоны, которые присутствуют в мозгу, когда человек ощущает счастье, что сделает джин, которого попросить максимизировать количество этого гормона во вселенной — или в черепах людей?)
Как математически указать на «делай то, что мне хотелось бы, чтобы ИИ сделал, если бы я был умнее, знал, как мир устроен на самом деле и был больше похож на идеальную версию себя по моему мнению» довольно сложно описать математической формулой.
Но сейчас стоящая перед нами техническая проблема куда хуже.
Мы не придумываем алгоритмы достижение целей. Мы выращиваем нейронные сети со всё лучшими алгоритмами достижения целей, которые мы не понимаем, не знаем, как разработать самостоятельно и не можем распознать, смотря на внутренности нейронных сетей.
Мы не умеем задавать цели для умных нейронных сетей.
Если нейронная сеть способна достигать цели очень хорошо, где-то у неё внутри эти цели каким-то образом содержатся. Мы не знаем, как, где именно, и как на них влиять, если нейронная сеть очень способна.
Наши метрики могут охватывать то, что мы можем измерять; но мы не можем измерить, какие у нейронной сети цели.
Если она достаточно глупая, её алгоритмы не будут очень целенаправленными и когерентными, и это не слишком страшно.
Но если нейронная сеть достаточно умна и способна достигать цели лучше человека, то какую бы метрику мы не указали, нейронная сеть будет показывать максимально хорошие результаты по инструментальным причинам — вне зависимости от своих целей — потому что это позволяет защититься от изменений процессом, который меняет числа, и сохранить свои цели.
(Мы уже эмпирически это наблюдаем: статья Anthropic.)
Это значит, что довольно много метрик, которые мы используем, достигают оптимума, найдя нейронные сети, которые очень умны и способны достигать свои цели, но цели которых совершенно случайны (потому что результат на метриках одинаковый вне зависимости от целей).
То есть: первостепенная проблема — даже не сформулировать цель, а придумать, как для любой сформулированной цели установить её в достаточно умную нейронную сеть. Никто не знает, как это делать.
Это значит, по-умолчанию, если мы не решаем эту техническую проблему, первая нейронная сеть, способная достигать цели лучше человека, будет обладать случайными целями, не имеющими ничего общего с человеческими ценностями.
5. Если система ИИ умнее человека и способна достигать целей лучше людей, но имеет случайные ценности, это приводит к катастрофе и смерти всех на планете.
Большинство случайных целей означают, что люди воспринимаются, как:
а) Агенты, которые потенциально могут запустить другую систему ИИ с отличающимися случайными целями, с которой придётся делиться, что является некоторой угрозой;
б) Атомы, которые можно использовать для чего-то другого.
Можно спекулировать, как именно ИИ побеждает; есть достижимые технологии, которые не должны быть проблемой для ИИ и которые позволяют очень быстро получить независимость от необходимости убеждать или подкупать людей что-то делать.
Но если что-то достигает целей лучше тебя, конец куда предсказуемей процесса. Если попробовать поиграть в шахматы против Stockfish (шахматный бот гораздо лучше людей), мы не знаем, как именно Stockfish нас победит — если бы мы могли предсказать каждый ход, мы бы играли в шахматы настолько же хорошо — но мы можем предсказать важное свойство доски в конце: мы проиграем.
Тут то же самое. Если ИИ способен выбирать действия так, чтобы победить, лучше, чем люди, ИИ побеждает. Нет никакого подпольного сопротивления, как в фильмах — как нет никакого подпольного сопротивления в шахматах против Stockfish. Все доступные нам ходы известны; если действие может привести к поражению из-за открытия человечеству какой-то дороги, достаточно способная система ИИ не предпринимает это действие.