Мы готовим pretrain-данные для GigaChat и GigaChat Vision. Данных много. Очень много (40+ Пб сырого хаоса). Если хочется не просто тренировать модели, а копаться в реально больших данных, то вот твой шанс.
Вайб задач можно почувствовать тут:
Видео | DataComp-LM | Phi-4
Чем предстоит заниматься?
• Чистить данные по узким доменам (аниме, игры, сериалы, книги, фильмы) → LLM-парсинг + Code Execution Feedback.
• Делать пайплайны для экспериментов (модели 400M – 32B), всё красиво в wandb.
• Фильтровать данные так, чтобы метрики росли.
• Доставать из книг задачи по математике → сиды для синтетики.
• Генерить синтетические данные → на тысячах GPU.
• Разбираться с токенизацией → сколько букв "r" в "strawberry"?
• Кластеризовать данные → чистим данные от мусора, прежде чем модель начнёт верить в астрологию.
• Писать дедупликацию на Rust → миллиарды документов, но не за O(n²).
• Оптимизировать MapReduce → Spark, тысячи ядер (опыт с YTsaurus - плюс).
• Эксперименты с SFT и RL → DPO, DRPO, увеличиваем качество синтетики.
Кого ищем?
• ШАД / ФКН / ФИВТ или NLP-опыт 2+ года.
• Дотаскивать задачи до DOD, а не «ну, оно работает… вроде».
Что по условиям?
• Железа больше, чем у конкурентов (правда).
• Гибрид: 2 дня в офисе (Кутузовская), 3 дня удалёнка.
• Спортзал, зоны отдыха — отдохни после дедупликации.
• ДМС с первого дня + льготное страхование для семьи.
• Пересмотр ЗП по perf review.
Пиши мне @jeembogod, если хочешь работать с настоящими большими данными.