1. Пример разбиения решения задачи на шаги (каждый выделен отдельным цветом). Авторы старались бить по строкам и по знаку равно (если выходило больше 100 символов в строке). Это очень похоже на шаги рассуждений у OpenAI o1 — они тоже били по строкам (это заметно в 7 официально опубликованных логах рассуждений). Каждый шаг — как ход в игре, если с ошибкой, то ведёт к неправильному ответу (=проигрышу).
2. Сравнение точности оценки (ось OY) состояния между нейронкой (верхняя строчка, желтый цвет) и через генерацию 9 решений. Истинные оценки (ось OX) здесь получены через генерацию 256 решений, что является достаточно точной оценкой (но каждый раз генерировать столько — дорого, поэтому авторы делают разово). 4 колонки — это разные шаги обучения, слева совсем начало, справа ближе к концу.
Ошибки двух методов существенно различаются. Оценки VinePPO не смещены, их дисперсия достигает пика при 0,5 и падает до нуля при 0 и 1. Нейронка из PPO часто ошибочно классифицирует плохие состояния (левая часть каждого квадратика) как хорошие и наоборот — что ведёт к плохой оценке «успешности» ходов.
3. Авторы идут дальше и считают точность предсказания состояния (определенная как попадание в интервал +-0.05 от 256 генераций), и тут видно, что уже в самом начале обучения такой подход VinePPO даёт оценки лучше, чем нейронка из PPO в конце обучения. Справа — как часто эти методы выбирают лучший «ход» из пяти предложенных продолжений. PPO даже к концу обучения еле-еле обходит случайный выбор (который попадает в 20% случаев)
4. Прирост качества от изменения K (количества генераций, использующихся для оценки во время обучения; чем больше, тем точнее оценка, и тем чётче сигнал для обучения, что плохо и что хорошо). Удивлён, что даже с K=1 работает хорошо (то есть каждое состояние оценивается как 0 или 1, решилась ли задача из этого шага или нет). Тут появляется ось масштабирования — можно тратить больше мощностей на генерации для оценки, чтобы делать её точнее, что приводит к улучшению финальной модели. Схожий график показывали OpenAI для o1, но я не уверен, что они масштабируют только это.
У авторов было только 8 GPU, вот если бы им дали побольше...увидели бы приросты посущественнее!