Яндекс выложил YT в opensourceЭто очень большая новость для мира обработки данных. И огромный шаг для команды YT — ребята, поздравляю!
Многие слышали про ClickHouse, который уже успел сформировать свой клуб фанатов и даже форкнуться в отдельную компанию с приличной капитализацией. Но ClickHouse (CH) — это слой потребления данных. Чтобы получилась красивая витрина, которую удобно крутить в CH, нужно обработать несколько тонн данных — и сам CH для ETL-преобразований не годится совсем. И вот тут вы встанете перед выбором технологий хранилища. Если вы маленький или средний стартап, вы пойдете в облака — и правильно сделаете. Но если вам по какой-то причине нужно иметь чуткий контроль за своей инфраструктурой данных, вы уже управляете Hadoop-кластером, и тем более, если вам при этом жмёт — присмотритесь к YT.
В 2017 мы в Такси решили строить DWH на GreenPlum, потому что YT и YQL были ещё незрелыми — нам было больно по утрам видеть нерассчитанные витрины, потому что "ой, мы тут логику join'ов немного поменяли". В добавок join’ы были очень медленные и неэффективные, что очень критично для DWH. Теперь же таблицы-справочники до 80GB клеятся "на лету" (на нашем кластере). Когда стал вопрос о том, что DWH Маркета нуждается в нормальной архитектуре, технологиях и менеджерских подходах, я очень топил за сведение задачи к решённой — давайте возьмём всё у Такси. Но команде Маркета удалось убедить меня, и я с приятным удивлением обнаружил, что YT и инструментарий вокруг него доросли до той степени зрелости, когда ничего дополнительного и не нужно. Короче, мой рекомендасьон — 10 хадупов из 10!
Кстати, над любой таблицой, хранящейся в YT, можно выполнить SQL запрос, используя ClickHouse на ресурсах YT, просто добавив перед запросом строчку
USE chyt.<clustername>;
Небольшой повод для гордости — в составе этого релиза есть Spark over YT. Эта штука сделана в Такси моей командой. Федя Лаврентьев увидел дырку в линейке технологий Яндекса по обработке данных и решил, что надо попробовать запустить Spark на YT. Федя нанял феноменальную Сашу Белоусову на эту задачу — и Саша за пару месяцев сделала работающий прототип, который решили развивать дальше.
PS. В opensource технологию назвали YTsaurus. Все эти годы в Яндексе она ласково называлась "Ыть" =)
https://habr.com/ru/company/yandex/blog/721526/