Что внутри:
- Как выделяется и рассчитывается память
- Разные виды распределённого обучения: Data Parallelism, Tensor Parallelism, Context Parallelism, Pipeline Parallelism
- Оптимизация вычислений: Flash Attention 1–3, работа GPU и кернелов
- Кодовые примеры из picotron — их нового фреймворка для распределённого обучения
Раньше подобную информацию приходилось собирать по всему интернету. Теперь всё в одном месте, с примерами и ссылками. Изучаем The Ultra-Scale Playbook и picotron.