YandexGPT всё глубже проникает в наши сервисы и решает самые разнообразные задачи, принося пользу людям. Мы ищем инженера-исследователя с опытом чтения и реализации статей, готового экспериментировать и внедрять методы ускорения инференса для современных и быстро меняющихся архитектур LLM.
Какие задачи вас ждут:
• Следить за исследованиями по теме, фиксировать перспективные статьи
• Проверять гипотезы для внедрения YandexGPT, чтобы перейти к генерации и реализации новых подходов
• Создать общее решение, которое будут переиспользовать ML-инженеры в Яндексе
Мы ждём, что вы:
• Работали с современными LLM и понимаете, как устроена их архитектура
• Пишете на Python, имеете опыт разработки на Torch
• Глубоко разбираетесь в NLP
• Знакомы с пайплайном инференса генеративных моделей, знаете такие оптимизации, как KV-кеширование
• Понимаете, как изменяются вычисления при изменении batch_size
• Разбираетесь в пользовательских требованиях к API моделей: RPS, latency per token/sample, GPU VRAM, SM utilization
Будет плюсом, если вы:
• Уверенно владеете C++ и знакомы с программированием на CUDA
📩 Откликайтесь на вакансию на нашем сайте
#ML #GPT #LLM #NLP #python #CPP