Мы ищем дата-инженера в команду исследователей Лаборатории Сбериндекс для технической поддержки исследований, подготовки данных, проектирования и выстраивания системы контроля качества данных.
Сбериндекс - это команда Сбера, которая работает над задачами population inference на основе транзакционных данных и данных из платежных систем банка. Команда состоит из исследователей и дата-инженеров с экспертизой источников данных (выпускники РЭШ, РЭШ/ШАД, МФТИ, ВМК МГУ). Мы занимаемся подготовкой высокогранулярных данных и аналитикой с актуальными инсайтами о жизни людей, предприятий и территорий в стране.
Что вы будете делать?
◽️ Проводить анализ данных в различных системах для исследований (структура, полнота, логика), проектировать и разрабатывать витрины данных (Spark, Hadoop, Kafka, GreenPlum, PostgreSQL)
◽️ Писать приложения на PySpark для выгрузки и трансформации данных в ETL/ELT-процессах
◽️ Настраивать и поддерживать систему контроля качества загружаемых данных - архитектура, поиск аномалий, технические и специфические проверки, хранение метаданных, разработка оповещений по инцидентам, разбор инцидентов
◽️ Оказывать техническую поддержку исследователям, включая оптимизацию запросов (SQL, Spark), повышение эффективности вычислений и хранения
◽️ Работать с нами над техническим развитием проектов и команды - базы знаний, code review, трекинг задач, написание документации, развитие компетенций
Наш идеальный кандидат
◽️ Есть опыт работы в качестве Data Engineer / ML Engineer / ETL Developer, в том числе, по разработке витрин данных, опыт работы с big data стеком - PySpark, Hadoop (Hive / Oozie), Kafka, GreenPlum
◽️ Продвинутые знания SQL - аналитические функции, подзапросы, хранимые процедуры, оптимизация запросов
◽️ Понимание MapReduce и параллелизма в Python, понятий и концепций проектирования DWH
◽️ Знание Linux, Git, Grafana
Будет преимуществом:
◽️Навыки работы с Airflow
◽️Опыт написания кода для машинного обучения на PySpark
◽️Понимание принципов устройства JVM
Что мы можем предложить?
📌 Уникальный проект, ориентированный на амбициозную стратегию, - подготовка детальных датасетов на основе больших данных, генерируемых платежными системами, для оценки актуальных социально-экономических проблем
◽️ Работа с данными различной природы, из различных источников, возможность познакомиться с тем, как устроены различные стороны бизнеса банка и технологической компании
◽️ Результаты вашей работы будут иметь реальное влияние на стратегии бизнеса, возможности улучшать условия жизни людей.
◽️ Постоянный контакт и обратная связь от руководства.
◽️ Достойный уровень оплаты труда.
Ждем резюме на @dtsyplakova