В феврале 2023 года чат-бот Bard от Google, основанный на искусственном интеллекте, утверждал, что космический телескоп «Джеймс Уэбб» впервые зафиксировал изображение экзопланеты, что оказалось неверным. Аналогично, при тестировании ChatGPT от OpenAI исследователи из Университета Пердью задали ему более 500 вопросов по программированию, и более половины ответов оказались неточными. Хотя эти ошибки были заметны, специалисты обеспокоены, что по мере роста моделей и их способности отвечать на сложные вопросы их знания могут превзойти знания большинства пользователей. При появлении таких «сверхчеловеческих» систем возникает вопрос: как мы сможем полагаться на их выводы? Джулиан Майкл, специалист по вычислительной технике из Центра науки о данных Нью-Йоркского университета, указывает, что задачи, которые мы поручаем моделям, могут превышать наши практические возможности. Он подчеркивает, что необходимо контролировать систему, чтобы она выполняла задачу, с которой человек не может справиться.
Одним из предложенных решений стало взаимодействие двух крупных моделей, которые обсуждают вопрос, а третья модель или человек выбирает наиболее точный ответ. Этот подход, предложенный шесть лет назад, был впервые проверен на практике стартапом Anthropic в феврале и Google DeepMind в июле 2023 года. Результаты показали, что споры между моделями помогают наблюдателю, будь то человек или другая система, более точно оценивать истину. По мнению Майкла, это исследование открыло новые возможности, и его команда выяснила, что если обучать модели не просто взаимодействовать, а стремиться к победе в дебатах, судьи-неспециалисты точнее распознают правду.
Создание надежных систем ИИ является частью более масштабной задачи — согласования, чтобы ИИ-системы могли учитывать цели и ценности пользователей. Сегодня согласование осуществляется через обратную связь, но в будущем этого может быть недостаточно. Исследователи давно призывают к разработке «масштабируемого надзора», позволяющего контролировать сверхчеловеческие системы, решающие задачи, которые пользователю не под силу. Например, Джеффри Ирвинг из Института безопасности ИИ, один из первых предложил идею дебатов для проверки честности ИИ-систем, еще до того, как языковые модели получили широкую популярность. Вместе с Полом Кристиано и Дарио Амодей, который позже основал компанию Anthropic, он работал над тем, чтобы заставить модели спорить друг с другом, убеждая судью в своей правоте.
Первый практический эксперимент показал, что дебаты могут быть полезны. Моделям предлагалось обсудить, что изображено на картинке, где одна модель утверждала, что на ней изображена цифра 5, а другая — 6. Судья, основываясь на их аргументах, определял правду с 89%-ной точностью. Эти исследования показали, что дебаты между моделями могут повысить точность их ответов, но остаются проблемы, так как модели иногда уступают, чтобы угодить пользователю.
В 2023 году группа Anthropic провела эксперимент с отрывками из научно-фантастического рассказа, где модели предлагали ответы на вопросы по тексту и защищали свои позиции. Судьи, основываясь на дебатах, в 76% случаев выбирали правильный ответ, что намного выше, чем в тестах без обсуждения. Подобные результаты получила и команда Google DeepMind, экспериментировавшая с задачами, включая вопросы на понимание, вопросы по Википедии и даже математические задачи.
Хотя эмпирические данные подтверждают, что дебаты между моделями помогают оценивать точность их ответов, еще предстоит большая работа, прежде чем цифровые дебаты смогут стать устойчивым методом контроля. Важным аспектом остается вопрос, насколько результативность зависит от особенностей структуры аргументов. Например, модели могут склоняться к согласованию с последним словом. Ирвинг отмечает, что необходимо учитывать специфику задачи при дебатах, так как для разных целей могут требоваться различные подходы.
Эти исследования — шаг в правильном направлении, и Ирвинг надеется, что продолжение экспериментов принесет более устойчивые результаты.