Интересно, что дообучение с RL дает хуже результаты чем такая дистициляция. В пейпере приводится пример с Qwen 32B. Дообучение на данных сгенерированных DeepSeek-R1 дает значительно лучшие метрики на бенчах. Получается что большая емкая модель DeepSeek-R1 поняла как нужно рассуждать и эти знания легко передать через примеры генераций и дообучении на них моделей меньшей емкости.