В мире искусственного интеллекта происходит интересный сдвиг: все больше разработчиков переходят от SFT к RL. Например, все не "рассуждающие" модели GPT были SFT, а вот o1 (OpenAI) или R1 (DeepSeek) обучались на RL
Раньше модели ИИ обучались в основном с помощью SFT, то есть дообучения на размеченных данных. Это метод, при котором алгоритмы подгоняются под уже известные примеры, что хорошо работает в областях, где есть много данных и чёткие ответы (например, обработка текста). В этом случае мы явно говорим ИИ какие ответы на какие вопросы правильные
Но в исследовании DeepMind, представленном в 2017 году, команда показала, что можно добиться сверхчеловеческого уровня игры в го, используя только reinforcement learning. Вместо обучения на партиях профессионалов AlphaGo Zero учился играть, тренируясь сам с собой, без человеческого опыта.
Почему RL лучше в таких задачах?
1. Отсутствие зависимости от человеческих данных – нет ошибок, предвзятости и ограничений, которые могли быть в исторических данных.
2. Обучение с нуля (Tabula Rasa) – ИИ исследует среду самостоятельно и открывает новые стратегии, а не просто повторяет известные решения.
3. Эффективность и масштабируемость – RL позволяет создавать универсальные алгоритмы, которые можно применять за пределами игр (например, в робототехнике, автономном вождении и трейдинге).
Будущее: RL > SFT?
Хотя RL — мощный инструмент, он не заменит полностью SFT, особенно в задачах с четко определёнными правилами. Однако там, где важны исследование, творчество и адаптация к сложным условиям — reinforcement learning выигрывает.
На картинке можете увидеть скриншот из исследования DeepMind на котором явно видно, что обучение с помощью Supervised Learning имеет свои пределы и ИИ, обученный на этом методе никак не может преодолеть человеческую планку сильнейших игроков, а при использовании RL он сперва сильно отстаёт, а затем происходит резкий скачок, позволяющий обойти самого сильного игрока в мире.