Вы когда-нибудь ловили себя на мысли, что ваш Data Lake больше похож на черный ящик, чем на систему хранения? Дубли, потерянные версии, медленные запросы — вместо четкой структуры хаос, который только растет. Добро пожаловать в реальность работы с Parquet, ORC и классическими подходами к хранению данных. Они неплохи, но не умеют версионировать, оптимизировать и управлять транзакциями так, как это действительно нужно.
И вот появляется Apache Iceberg — файловый формат, который уже используют в Netflix, Apple, LinkedIn и Stripe для хранения петабайтов данных с минимальными издержками на поддержку. Но что делает его таким особенным? Почему его называют «Data Lake без боли»? И самое главное — как заставить Apache Iceberg работать на вас? Давайте разбираться.
Читать: https://habr.com/ru/companies/selectel/articles/875472/
#ru
@database_design | Другие наши каналы