Инжиниринг Данных @rockyourdata Channel on Telegram

Инжиниринг Данных

@rockyourdata


Делюсь новостями из мира аналитики и карьерными советами;)

15 лет в Аналитике и Инжиниринге Данных, 9 лет в FAANG, solo entrepreneur🏄‍♂️

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Инжиниринг Данных (Russian)

Представляем вам канал "Инжиниринг Данных" от пользователя @rockyourdata! Здесь вы найдете самые свежие новости из мира аналитики, а также вредные карьерные советы ;) nnАвтор канала имеет внушительный опыт работы в FAANG на протяжении 8 лет, делал инвестиции в недвижимость, компании и акции, а также является solo entrepreneur. Вас ждут увлекательные истории из мира высокотехнологичных компаний, аналитики данных и финансовых рынков

Не упустите возможность узнать о последних тенденциях и технологиях в области аналитики, а также получить ценные карьерные советы. Присоединяйтесь к сообществу "Инжиниринг Данных" прямо сейчас!nnДля размещения своей рекламы на канале, вы можете ознакомиться с условиями по ссылке: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Инжиниринг Данных

21 Nov, 00:28


Продолжаю работу над порталом Дата Инженеръ.

Сегодня обновил главную страницу, чтобы задать контекст ресурса:

• Цель сайта
• Для кого этот сайт?
• Что такое аналитика?
• Архитектура аналитического решения
• Ключевые роли в аналитике
• Инжиниринг данных
• Учебные материалы
• Как добавлять ресурсы?

Из готовых страниц — ресурсы по SQL.

Портал создан с помощью Jekyll и хостится через GitHub Actions. Каждая страница — это Markdown-документ, что значительно упрощает работу. Поскольку сайт является репозиторием, контрибьютить в него можно через Pull Request, что делает процесс простым и прозрачным. Осталось только собрать модераторов и контрибьюторов.

Задача — собрать самые ценные и полезные ресурсы: white papers, тренажеры, выступления, тренинги и книги, структурированные по ролям. Отдельно добавлю дорожные карты для нескольких профессий и ссылки на ресурсы для самостоятельного обучения. Дорожные карты будут 2х типов - для отечественного рынка и для западного. Отличаться будет лишь набором инструментов, фундаментально все совпадает.

P.S. С доменом dataengineer.ru повезло. Пришла идея создать что-то полезное и упорядочить знания и ресурсы, накопившиеся за последние 10 лет, и оказалось, что домен выставлен на продажу за 100 тысяч рублей. Раз уж я занимаюсь этим последние 15 лет и мне нравится вносить вклад в русскоязычное сообщество (потому что вижу отклик и реальную пользу для людей), то почему бы не закрепить это правильным доменом.

Инжиниринг Данных

20 Nov, 19:28


Замечательная штука для решения LeetCode на собеседовании. Но к сожалению или к счастью не работает :)
https://github.com/bipbop-sadrobot/cheetah

With Cheetah, you can improve your interview performance and increase your chances of landing that $300k SWE job, without spending your weekends cramming leetcode challenges and memorizing algorithms you'll never use.

Disclaimer зачет:
Cheetah is a satirical art project and is not intended for use in real-world settings. It may generate incorrect or inappropriate solutions. Users should exercise caution and take responsibility for the information provided by the app.

Инжиниринг Данных

20 Nov, 00:03


За последние несколько дней я наткнулся на несколько постов о закате профессии Analytics Engineer как таковой. И это вовсе не плохо. Лично для меня профессия AE была сформирована под влиянием dbt (тогда еще Fishtown Analytics) и экосистемы вокруг Modern Data Stack. Это когда аналитическое решение можно строить по принципу “*як *як и в продакшн”, используя готовые блоки для интеграции данных, трансформации, визуализации и т. п. Основной акцент делался на трансформацию данных, желательно с использованием подхода “as a code”, то есть с применением Git и систем контроля версий. Как правило, для ролей AE не требовалось глубоких знаний в области сетевых настроек, инфраструктуры, безопасности данных и других аспектов уровня enterprise.

Возможно, я ошибаюсь, но, на мой взгляд, роль AE действительно становится излишней. Достаточно иметь Data Engineer (DE) и BI-аналитика, которые совместно решают, кто что делает на проекте. Я работал в двух компаниях в общей сложности 5 лет в качестве DE, где было четкое разделение на AE и DE. И нередко возникали вопросы от менеджеров: а действительно ли нужна роль AE?

У этого явления были свои плюсы, которые мы продолжаем использовать в Surfalytics. Например, если вы хотите получать зарплату Data Engineer, но ваши знания пока соответствуют уровню BI, решение довольно простое: стать AE. Для этого достаточно пройти курс по dbt, освоить немного Git, CI/CD и сделать пару pet-проектов — и вы уже претендуете на зарплату DE, избегая сложностей инфраструктурного уровня. Думаю, у нас еще есть время пользоваться этим лайфхаком, но лучше ставить целью стать полноценным Data Engineer. Если же вам не нравится заниматься техническими задачами, всегда есть путь стать Engineering Manager или Product Manager.

Как вам АЕ роль?

Кстати на HeadHunter такой роли вот нет, ну и хорошо:)

Инжиниринг Данных

19 Nov, 17:04


Code of Leadership #22 - Интервью с Дмитрием Аношиным про data engineering (Рубрика #Data)

В этом выпуске ко мне пришел в гости крутой гость, Дмитрий Аношин. Дима является экспертом в data engineering, ведет канал @rockyourdata, также Дима почти 10 лет работал западных Bigtech компаниях. Кстати, выпуск доступен в виде подкаста и в Яндекс Музыке.

Мы обсудили следующие темы:
- Как Дима входил в IT порядка 15 лет назад
- Как он развивал свои навыки как дата инженер
- Как он уехал в Канаду и адаптировался там
- Как развивалась карьера Димы в Amazon, Microsoft и что он вынес из этого опыта
- Как Дима стал создателем обучающих проектов datalearn, surfalytics, а также как ему удалось написать целую гору книг
- Как находить мотивацию для роста и развития

Если говорить подробнее про Дмитрия, то он уже больше 15 лет занимается аналитикой и инжинирингом данных, а 10 последних лет проработал в Северной Америке. Из них 5 лет в Амазоне, где работал в нескольких командах, включая Alexa AI (в Бостоне) и Customer Behaviour Analytics (в Сиэтле). Поучаствовал в действительно инновационных проектах, где драйвером являются данные. Видел и Big Data и Machine Learning в действии в масштабе крупнейшей компании мира. После Амазона работал 4 года в Microsoft Xbox и Microsoft Azure Data&AI. Активно принимал участие в развитии Microsoft продуктов для аналитики - Synapse, Fabric, Azure Databricks.

Теперь, Дмитрий помогает создавать инновационные аналитические решения, дата команды и модернизировать устаревшие решения через свою компанию rockyourdata.cloud и глобально готовит инженеров и аналитиков через свое сообщество Surfalytics.com (на английском), до этого несколько лет развивал проект Datalearn.ru, на котором делился фундаментальными знаниями и помогал бесплатно всем желающим войти в ИТ, знания там все еще актуальны.

Дмитрий написал несколько книг по аналитике и преподает несколько лет Облачные Вычисления (Cloud Computing) в партнерстве с Microsoft в Университете Виктории.

Еще из интересных проектов:
- Создал онлайн выставку писем CEO про увольнения в крупных компаниях - https://www.layoffmemos.com/
- Совместно с Московским Зоопарком и Вконтакте организовал группу по наблюдению за популяцией пеликанов и экомониторинга с использованием AI - https://www.scifly.ai/

Из последнего, Дмитрий создает главный Российский портал Дата Инженеръ посвященный карьере дата инженера, куда он планирует добавить road map для вакансий Инженера Данных, Аналитика и BI разработчика и ссылки на лучшие бесплатные ресурсы: книги, тренинги, курсы, видео, телеграмм каналы, и многое друго, что поможет понять, кто такой иженер данных и как таким стать, преимущественно на русском языке.

#Database #Architecure #Software #Data #SystemDesign #Management

Инжиниринг Данных

19 Nov, 15:55


Прямо сейчас начинается онлайн конференция https://osacon.io/schedule/

Инжиниринг Данных

18 Nov, 17:03


Сэкономил тысячи долларов в год, добавив кастомную авторизацию в Metabase.

По прежнему считаю, что Metabase одна из самых удобных BI систем для пользователей.
Но есть одна проблема - коммерческая PRO версия довольно дорогая - 500 долларов в месяц плюс 10 за пользователя.
Мне нужна была только одна фича из PRO - моя собственная система авторизации.

В итоге я хакнул код Metabase, и опубликовал свою версию с инструкциями здесь
https://github.com/rzykov/metabase/blob/fiev_auth/Fief_auth.md
Демо видео https://www.youtube.com/shorts/hfmGOYF_6RI

Кому это нужно:
1) Вы пишите стартап/продукт и вам нужно дать поиграться данные пользователям в приличном интерфейсе
2) Вы внедряете Metabase, но пока хотите сэкономить 🙂

Пользуйтесь на здоровье

Инжиниринг Данных

18 Nov, 07:59


Вот что ждет в Т-Банке аналитиков DWH, кроме ДМС, крутых офисов и других плюшек:

▪️Актуальный стек. Здесь следят за трендами и быстро внедряют новое.
▪️Улучшения может предложить каждый. Здесь знают, как устроен продукт, и влияют на его развитие.
▪️Прозрачная система роста. Вы всегда будете знать, какие навыки нужно подтянуть и как получить повышение.
▪️Вы окажетесь среди профессионалов, у которых можно многому научиться. А если захотите — можете стать ментором для младших коллег.

Устраивайтесь в Т-Банк на позицию аналитика DWH до 23 декабря 2024 года и получайте приветственный бонус в размере одного оклада.

Инжиниринг Данных

17 Nov, 18:31


Мне всегда нравился продуктовый подход в аналитике. При таком подходе легче донести ценность до бизнеса и удобней измерять эффективность аналитического решения.

Сегодня увидел новую книгу - Managing Data as a Product: A comprehensive guide to designing and building data product-centered socio-technical architectures

Я уже давно подписан на автора в LinkedIn и мне нравится его специализация и подход.

Про книгу:

Traditional monolithic data platforms struggle with scalability and burden central data teams with excessive cognitive load, leading to challenges in managing technological debt. As maintenance costs escalate, these platforms lose their ability to provide sustained value over time. Managing Data as a Product introduces a modular and distributed approach to data platform development, centered on the concept of data products.

In this book, you’ll explore the rationale behind this shift, understand the core features and structure of data products, and learn how to identify, develop, and operate them in a production environment. The book also guides you through the design and implementation of an incremental, value-driven strategy for adopting data product-centered architectures, including strategies for securing buy-in from stakeholders. Additionally, it explores data modeling in distributed environments, emphasizing its importance in fully leveraging modern generative AI solutions.

Upon completing the book, you’ll have gained a comprehensive understanding of product-centric data architecture and the necessary steps to begin adopting this modern approach to data management.

What you will learn
- Recognize challenges in scaling monolithic data platforms, including cognitive load, tech debt, and maintenance costs
- Discover the benefits of adopting a data-as-a-product approach for scalability and sustainability
- Gain insights into managing the data product lifecycle, from inception to decommissioning
- Automate data product lifecycle management using a self-serve platform
- Implement an incremental, value-driven strategy for transitioning to data-product-centric architectures
- Master data modeling in distributed environments to enhance GenAI-based use cases

Инжиниринг Данных

16 Nov, 22:37


Хорошая книжка с терминологией и приятными картинками.

Сам BI инструмент Holistics топит за аналитику как код, такой вот азиатский looker.

Инжиниринг Данных

15 Nov, 17:27


В русскоязычном дата сообществе есть несколько экспертов за кем я давно слежу. Один из них это Александр Бараков. Он пишет про стратегию и управление аналитикой и точно знает, как должно выглядеть BI решение, чтобы соответствовать требованиям бизнеса, пользователей и разработчиков. Я не знаю ни одного человека, который так глубоко специализируется на BI стратегии.

Вот несколько примеров:
- BI Strategy Guide
- BI Adoption Health Check

В этих схемах и диаграммах заложено много фундаментальных знаниях, которые помогут современным data leaders не наступать «на грабли» и воплощать в жизнь «data-driven» подход.

Уже несколько лет Александр проводит курсы по BI Стратегии и Data Governance.
Эти курсы у меня в обязательном списке.

4-13 декабря 2024 года он проводит как раз курс - Основы Data Governance.

Как вы могли понять из сообщения я не рекламирую курс, я его рекомендую, на рынке немного экспертов, которые не скатились в коммерцию и не «продают курсы» любой ценой. Эта программа проводится редко, не чаще чем раз в год. Поэтому рад поддержать данную инициативу.

🗂На курсе будет:

- Теоретические основы - основные элементы, технологии и практики DG и DQ
- Практические аспекты - почему дата каталоги, не взлетают, как создавать гибридные операционные ролевые модели, каким метриками обкладывать DG проекты т.д. Саша постил интересное исследование на эти темы на основе своих интервью с 20 компаниями -
https://t.me/datanature/371
- DG здравого смысла - как-таки внедрять практики управления данными с учетом реалий и зрелости компании. Видео Александра на эту тему -
Data Governance здравого смысла
- Кейсы участников, их проблемы и успешные решения.
- «Домашки» Каждый участник будет заполнять excel-гайд своего проекта Data Governance, применяя разделы курса на контекст своей компании.
- Нетворкинг: Участвуйте в активном обмене опытом с другими участниками курса и расширьте свою профессиональную сеть. На курсе обучаются CDO, руководители аналитики и дата менеджеры из всех крупнейших компаний.


Ссылка для регистрации: https://biconsult.ru/datagovernance/

Инжиниринг Данных

14 Nov, 20:07


Идея FIRE (Financial Independence, Retire Early) уже не новая. FIRE с детьми и без - это очень большая разница. Есть еще semi-FIRE.

Вот 3 топ статьи на эту тему:

- An ex-Meta employee calculated that his family of 3 needs $5.6 million to retire in San Francisco. Here's the formula he used and how he plans to hit his 'enough number.'
- FIRE Lessons From ex-AMZN Director Dave Anderson
- Your Neighbors Are Retiring in Their 30s. Why Can’t You?

Интересно, кто-нибудь из подписчиков на пути к FIRE?

Лично у меня не получается. Возможно, причина в том, что в молодости всегда был дефицит, и поэтому постоянно хотелось «хороших и дорогих вещей, путешествий и тп». Когда начинаешь зарабатывать, появляется желание купить всё и сразу. Возможно, вам знакомо такое чувство. Лучше всего сначала купить то, что хочется, а потом уже думать, как быть дальше.

Про FIRE я даже не думаю, а вот semi-FIRE — это хорошая цель. Главное преимущество — не зависеть на 100% от работы. Например, вас сократят, а вам всё равно: у вас есть альтернативные источники дохода или сбережения.

Инжиниринг Данных

14 Nov, 06:44


Бесплатные курсы по Snowflake на Coursera:

- Intro to Snowflake for Devs, Data Scientists, Data Engineers
- Introduction to Modern Data Engineering with Snowflake

⛄️

Инжиниринг Данных

13 Nov, 16:42


Добавил видео о NoSQL базах данных в контексте аналитики, а именно об их использовании в качестве ИСТОЧНИКА данных для аналитических решений. В качестве примера выбрал документ-ориентированную базу данных MongoDB.

После обзора стандартной архитектуры аналитического решения, возможных use cases и обсуждения особенностей MongoDB и ее структуры, перешел к практическим упражнениям:

- установка MongoDB через Docker Compose;
- создание облачной (бесплатной) версии MongoDB Atlas;
- написание запросов к базе данных.

В завершение рассмотрел основные способы извлечения данных из MongoDB:

- low-code/no-code: Matillion, Fivetran;
- code-based: Meltano, AirByte, Python, Airflow.

Не затронул только стриминг данных с помощью Kafka Connect или Debezium.

Ссылка на видео: https://youtu.be/bzTfn7WI5h8?si=W9jnt6cwqi8vhqQH

00:19 Welcome Message
01:00 NoSQL use cases for Data Professionals
07:31 Amazon Oracle Migration
00:12:08 MongoDB is a bad choice for data warehouse
00:13:21 MongoDB introduction
00:18:49 MongoDB elements
00:21:17 JSON, JSON Object, JS Object, BSON
23:41 MongoDB Installation
25:07 MongoDB Atlas Cluster Overview
25:28 MongoDB Charts Overview
30:40 Running MongoDB in Docker Compose
35:00 MongoDB GUIs Overview
38:49 Connect MongoDB Atlas with CLI
42:42 Query MongoDB collections
51:15 Data Integration with MongoDB using Low Code Applications, Python and Airflow


Ссылка текст и код: https://github.com/surfalytics/analytics-course/blob/main/02_getting_started_with_databases/06_nosql_databases/mongodb/readme.md

Инжиниринг Данных

12 Nov, 19:41


Товарищи эксперты, филологи, отличники и отличницы, знатоки русского языка, как вы считаете, как правильно писать дата инженер на дореволюционной орфографии?
- дата инженеръ
- дата инжѣнѣръ
- дата инжѣнѣр

(Слово дата оставим как есть, его все равно не было)

Источники:
- Немного о дореволюционной орфографии. Лебедев.
- БУКВА "ЯТЬ"
- Конвертер в старославянский

Инжиниринг Данных

12 Nov, 16:02


Как подготовиться к публичному выступлению? Даже бывалые спикеры мандражируют перед своей речью, что уж говорить о новичках.

Поэтому хорошо, когда есть план, которому следуешь. Такой, например, уже прописали HR из Яндекса в посте у себя в канале. Актуально не только для крупных профессиональных конференций, но и для рабочих встреч, где вы, например, питчите проект. Вот три самых важных момента:


1. Изучите аудиторию. Нужно подобрать формат выступления, основываясь на степени экспертности и заинтересованности ЦА.
2. Определите ключевые месседжи. Это главное, что слушатели запомнят и вынесут из вашего выступления.
3. Обходитесь без зубрежки. И не прописывайте все фразы на слайдах. Органичнее будет выглядеть свободная речь, словно разговор в кругу знакомых.

И бонусом еще советы от профи, которые готовят спикеров: прогоните выступление перед друзьями, запишите вашу репетицию на видео или аудио и не забывайте анализировать свой опыт.

Инжиниринг Данных

10 Nov, 06:17


Товарищ решил провести бесплатный bootcamp по DE, обычно он за 1500$ продает, а потом пишет в блоге как млн заработал🦯

💯 маркетинговый ход, но если есть время, то почему бы и нет?! Можно и английский подтянуть вместо сериальчиков👉

Инжиниринг Данных

09 Nov, 04:05


В Surfalytics у нас сегодня был проект с DuckDB. Для многих это была первая возможность попробовать эту технологию.

Вот несколько классных вариантов использования для аналитики и инженерии данных:

- Запросы к локальным файлам с помощью SQL
- Исследование данных, хранящихся удалённо в S3, Azure или GCP
- Использование DuckDB как альтернативы обычному Postgres в качестве хранилища данных
- Удобно работать с dbt для чтения внешних таблиц/файлов и преобразования их в source модели dbt и уже строить модели внутри базы
- Работа с современными lakehouse форматами, такими как Iceberg и Delta
- Альтернатива Spark DataFrames при обработке небольших данных
- Эффективное преобразование данных из CSV в Parquet или другие форматы
- Запись результатов напрямую в Markdown для pull-запросов или код-ревью
- Удобно при работе с API - связка Python + DuckDB

Этот список можно продолжать!

Вот само упражнение, можете повторить и все будет понятно: https://github.com/surfalytics/analytics-course/tree/main/02_getting_started_with_databases/07_duckdb

Завтра у нас будет BigQuery + dbt на GCP - большой проект. Прошлый был про Redshift Serverless + Lambda + AWS Step Functions - делали ETL по извлечению из API.

Инжиниринг Данных

09 Nov, 03:19


LinkedIn продолжает пестрить разочарованием в прошедших выборах. Некая Бренда заявила, что больше не будет качать Community, Кейт ее поддержала. И таких постов много.

Пока одни ноют другие ищут возможности. Вот теперь кто-нибудь может забрать сообществе себе, нет желающих?))

В Канаде все просто, тут могут помочь 👻 всем желающим, кому тяжело жить. Не знаю как там в штатах с помощью.

Инжиниринг Данных

08 Nov, 16:58


Статья про внутрянку Amazon - Amazon’s Exabyte-Scale Migration from Apache Spark to Ray on Amazon EC2.

Все началось в 2016 году, когда Амазон начал мигрировать с Oracle on-premise на AWS. Как раз имея этот опыт миграции on-premise в cloud я придумал делать консалтинг Rock Your Data. Миграцию закончили в 2018.

Далее уже стали строить внутреннее озеро данных с использованием AWS EMR (Hadoop), Spark, Redshift, Glue и тп.

Spark стал главным инструментом для пользователей, чтобы извлекать из центрально озера данных.

Amazon’s petabyte-scale data catalog had grown to exabyte-scale, and their Apache Spark compactor was also starting to show some signs of its age. Compacting all in-scope tables in their catalog was becoming too expensive. Manual job tuning was required to successfully compact their largest tables, compaction jobs were exceeding their expected completion times, and they had limited options to resolve performance issues due to Apache Spark successfully (and unfortunately in this case) abstracting away most of the low-level data processing details.

В 2020 году они сделали PoC по Ray - 12X larger datasets than Apache Spark, improve cost efficiency by 91%, and process 13X more data per hour

Сейчас у них классные результаты:

During the first quarter of 2024, BDT used Ray to compact over 1.5EiB of input Apache Parquet data from Amazon S3, which translates to merging and slicing up over 4EiB of corresponding in-memory Apache Arrow data. Processing this volume of data required over 10,000 years of Amazon EC2 vCPU computing time on Ray clusters containing up to 26,846 vCPUs and 210TiB of RAM each.

What’s more impressive, is that Ray has been able to do all this with 82% better cost efficiency than Apache Spark per GiB of S3 input data compacted. For BDT, this efficiency gain translates to an annual saving of over 220,000 years of EC2 vCPU computing time. From the typical Amazon EC2 customer’s perspective, this translates to saving over $120MM/year on Amazon EC2 on-demand R5 instance charges.


Кто-нибудь использовал Ray? Опыт может подойти компаниям с огромными данными Pb+. А Tb мы можем и в Snowflake/Databricks гонять)

Инжиниринг Данных

07 Nov, 22:52


Apache Airflow очень популярный инструмент для оркестрации наших джобов по загрузке и трансформации данных. В РФ это по-моему просто number one инструмент для аналитика-инженера.

Появилась новая книга Apache Airflow Best Practices от Packt Publishing.

With practical approach and detailed examples, this book covers newest features of Apache Airflow 2.x and it's potential for workflow orchestration, operational best practices, and data engineering

This book covers the following exciting features:

- Explore the new features and improvements in Apache Airflow 2.0
- Design and build data pipelines using DAGs
- Implement ETL pipelines, ML workflows, and other advanced use cases
- Develop and deploy custom plugins and UI extensions
- Deploy and manage Apache Airflow in cloud environments such as AWS, GCP, and Azure
- Describe a path for the scaling of your environment over time
- Apply best practices for monitoring and maintaining Airflow

Книга про 2ю версию, хотя уже скоро будет версия 3.0.

Есть книга Data Pipelines with Apache Airflow

Ближайшие бесплатные аналоги - Prefect, Dagster, Luigi. Есть еще другие SaaS инструменты.

Есть еще на русском хороший вебинар на datalearn - ВВЕДЕНИЕ В AIRFLOW / ПОНЯТИЕ DAG'а / НАСТРОЙКА DAG'а В AIRFLOW от Дмитрий Браженко. Я с ним виделся на нашем митапе в Seattle и он теперь важный ML инженер в Microsoft и пилит Copilot.

Расскажите, кто что использует?

Инжиниринг Данных

06 Nov, 18:45


Я всегда использую draw.io как бесплатный инструмент для диаграмм, оказывается есть plugin для VSCode.

Инжиниринг Данных

06 Nov, 15:53


Спасибо, что отдали голос за правильного кандидата🍾😝

PS я тут скинул в Slack в Американской-Европейской компании S&P500 такое же и там гробовая тишина, походу одни демократы. У нас с ними всегда не сходились мнения что делать с homeless и другим nonsense в городах Северной Америки😵 (это вообще мои главные вопросы к местным, чтобы понять с ними можно выпить или нет🍷)

Update: не прошло и несколько часов как вызвали на ковер🤪

PPS Еще оказывается Симпсоны были не правы первый раз😂

Инжиниринг Данных

06 Nov, 08:05


Слышали про duckdb?! Вот быстренький туториал https://motherduck.com/blog/duckdb-tutorial-for-beginners/ можете пройти и пощупать руками.

Можно даже в браузере запустить: https://shell.duckdb.org/

Например удобный способ почитать Parquet файл, вместо Parquet CLI-утилит.

Одна из интересных фич “Larger-Than-Memory Workloads (Out-of-Core Processing)”

В целом большинство сценариев про локальное чтение файлов или чтение из S3/GCP/Azure Storage.

Пока не очень понятно как использовать DuckDB для реального распределенного озера данных (lakehouse, data lake). Вот в этой статье - Okta's Multi-Engine Data Stack, Jake рассказывает как они съехали со Snowflake на DuckDb для их security сценариев. (Я его хорошо знаю). Там и ссылка на его доклад.

В целом я отношу сие изделие к разряду fancy. Есть категория разработчиков, кто любит всякие такие штуки использовать, пока другие стучат молотком работают с Databricks, Snowflake, BigQuery и тп.

Статьи по теме:
Build a poor man’s data lake from scratch with DuckDB
Process Hundreds of GB of Data with DuckDB in the Cloud
🦆 vs ❄️ ... 💸 ?

Инжиниринг Данных

05 Nov, 07:21


Парочка свежих отзывов, вот кайф такое читать и радоваться за других!🍸

Моей заслуги тут нет, девушки молодцы, много работали, учились, собеседовались, проваливали собеседования. Я лишь пытаюсь создать эффективную среду, в которой больше шансов достичь результата за меньшее кол-во времени.

Инжиниринг Данных

05 Nov, 05:13


Вот вы все любите про А/Б тесты. А есть же еще А/А тесты.

Перевод:

A/A-тест — это эксперимент, в котором оцениваются два идентичных варианта: это как A/B-тест, но без различий между вариантами.

Вот примеры, как A/A-тесты могут быть полезны:

1. Обучение и выявление наших предубеждений. На занятиях по обучению экспериментам опишите какую-то функцию и попросите участников решить, запускать её или нет, исходя из оценочной карты для A/A-теста. Вы будете поражены тем, какие причины люди придумают! Реальный случай: во время обсуждения эксперимента у нас разгорелся горячий спор о ценности функции, сегментов и т.д. В какой-то момент кто-то заметил, что в названии эксперимента была опечатка (код использует название для выполнения различных действий), и оказалось, что это был A/A-тест. Весьма отрезвляюще. Мы добавили функцию в нашу платформу экспериментов, которая предупреждает, если оценочная карта эксперимента похожа на A/A.


2. Небольшой размер выборки в первые дни. Когда начальник спрашивает, как идут дела через день после запуска, хотя запланированная длительность эксперимента — две недели, отправьте ему две оценочные карты: одну для A/A-теста (убедитесь, что ключевая метрика положительна, или поменяйте значения для A/A), другую — для реального A/B-теста. Скажите, что одна из них реальная, а другая — A/B, и попросите угадать, какая из них какая. Это действительно отрезвляет и наглядно показывает, что на ранних этапах результаты выглядят случайными.


3. Валидация платформы. Запустите 500 A/A-экспериментов и проверьте, что примерно у 5% p-значение < 0.05. Если это не так, значит, в вашей платформе экспериментов есть ошибка. Лучше всего, чтобы распределение p-значений было равномерным.


Источник: https://experimentguide.com/

Мне кажется можно под шумок вместо А/Б тестов запускать А/А, потом слушать как аналитики рассказывают почему один вариант лучше другого, а потом рассказать им, что это было одно и тоже🎅

Инжиниринг Данных

04 Nov, 16:57


Самое время вмешиваться в американские выборы хайповать и строить интерактивные визуализации!

Этот пример был создан на Power BI. Есть и на Tableau и других инструментах. И не забудьте отдать свой голос за правильного кандидата! 😎

Инжиниринг Данных

03 Nov, 23:58


Попался сервис Unstuck AI - позволяет по ссылке в YouTube получить Summary, Key points.

Инжиниринг Данных

03 Nov, 21:44


Еще одна причина менять работу раз в 1-2 года — «технический долг» (первая причина — рост зарплаты и карьерный рост).

Этот совет подходит для разработчиков уровня от junior до senior, потому что у сеньоров могут возникнуть другие проблемы: выгорание (burnout), проблемы с психическим здоровьем (mental health issues) и другие трудности, связанные с нереализованными мечтами, карьерными планами и ограничениями в компенсации.

Инжиниринг Данных

03 Nov, 02:36


Pro tip: поставьте рабочую почту и Slack (или аналог) на Mute. Удалите с телефона рабочие аккаунты — и будет вам счастье. Так работаю уже последние лет пять.

99% коммуникации — это FYI. Почту можно проверять раз в день. Очень часто срочность у нас в голове, и нам кажется, что, если мы не ответим на сообщение, то про нас подумают, что мы не работаем.

Исключение — это алерты о сбоях production. Здесь, наоборот, важно не пропустить. И, конечно, важно не пропускать встречи, но, как правило, для IC-ролей расписание встреч +/- устоявшееся.

Данный tip подходят для разработчиков и инженеров;)

Инжиниринг Данных

02 Nov, 00:45


Очень классный мини сериал про качество продукта

What is quality? It seems hard to describe and even harder to measure, but you can feel it when it’s there. You know it when you experience it. This is a series of conversations with those who seek to create products of this undefinable quality. And an attempt to answer the central question: How do things of quality get built?


Про качество вам расскажут топовые CEO, Founders и Product Managers.

Инжиниринг Данных

01 Nov, 17:10


Статистику AppMetrica теперь можно получить за пару кликов

Партнеры РСЯ и AdFox могут получить доступ к расширенной аналитике всего в несколько действий, так как процесс теперь автоматизирован и не нужно тратить время на написание кода. Чтобы воспользоваться этой возможностью, выполните следующие шаги:

1. Зарегистрируйтесь в AppMetrica под своим логином в РСЯ или Adfox.
2. Заполните профиль и свяжите с AppMetrica приложения, которые монетизируются через РСЯ.
3. Подтвердите свое согласие на передачу данных.

Таким образом клиенты РСЯ и AdFox смогут получить расширенные данные сервиса

Если вы уже работали с AppMetrica, то вас достаточно добавить в интерфейсе сервиса связь с приложение Yandex Mobile Ads в «Синхронизации Ads SDK».

Инжиниринг Данных

31 Oct, 18:07


Можете присоединяться к стриму и задавать вопросы:)

https://www.youtube.com/watch?v=Rv1PVpX2Yv8

Инжиниринг Данных

31 Oct, 18:00


Перед тем, как вернуться к дальнейшему разбору многосерийной саги «Как быть и что делать с рынком состояния хуже некуда» , предлагаю стряхнуть пыль со своего ютуба , ведь уже завтра мы встретимся с
Димой Аношиным - экспертом по дата инжинирингу, ex-Amazon и Microsoft , а также автором DataLearn и Surfalytics.

Начнем эфир завтра, 31 октября в 21:00 по московскому времени на моем канале. Что обсудим:
- опыт в FAANG и как там оказаться
- ужасы текущего рынка и какие навыки в ходу
- поговорим о забуграх и что делать, чтобы преуспеть
- свои проекты VS найм и сподвигли ли свои проекты по-новому взглянуть на рынок кандидатов
- чему учить и чему учиться 📚

Ваши вопросы в комментариях категорически приветствуются !

До встречи 👋

Инжиниринг Данных

30 Oct, 15:10


Билл Инмон один из отцов основателей хранилищ данных все еще пишет посты в Linkedin, время от времени. Его последний пост был посвящен книге от Snowflake – Облачное Хранилище для Чайников (Cloud Data Warehousing for Dummies). Довольно известная серия, у меня даже в детстве были такие книги про Microsoft Office.

Как обычно Билл категоричен – “They should have renamed the book Data warehouse by dummies, not for dummies”.

Он назвал две причины:

1. Отсутствие информации об интеграции данных: Интеграция данных — это суть любого хранилища данных, составляющая 90% работы над проектом. Однако в книге, по его словам, этот аспект либо проигнорирован, либо упомянут без должного внимания.
2. Отсутствие текста как данных: Текстовые данные играют важную роль в современных хранилищах данных, зачастую не менее значимую, чем структурированные данные. Он критикует авторов за недостаток понимания того, как включать, хранить и использовать текстовую информацию в хранилище данных.

Для меня эти причины не показались настолько весомыми. Я понимаю, что цель книги было прорекламировать Snowflake, поэтому книга бесплатно распространяется. В ней много маркетинга и воды, но и аргументы Билла об использовании текста тоже не очень понятны. Я знаю, что он раньше работал над решением для хранения и обработки текста – Text Analytics Simplified.

Может он сам тут рекламируют свои идеи?

Я бы лучше почитал Ральфа Кимбала по теме хранилищ данных, его Dimensional Modelling как-то ближе и родней.

Инжиниринг Данных

30 Oct, 06:59


Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.

Ближайшее мероприятие:

• 9-11 ноября — для продуктовых и аналитиков данных, офер за 3 дня в команды Финтеха и Яндекс Практикума.

Зарегистрироваться

Инжиниринг Данных

29 Oct, 15:06


Уже 2ой раз вижу похожую новость - misused денег, которые дают сотруднику на покупку еды, обустройства home office. В Facebook чувак купил на свои купоны, что-то не то.

Вот другая похожая новость - Fidelity fires more than 200 over alleged misuse of reimbursement programs

Так что поаккуратней там с expenses.

Инжиниринг Данных

29 Oct, 10:31


Еще один мощный отзыв про Datalearn/Surfalytics. С человеком даже виделся в New York весной.

Когда я приехала в США в конце 2019 года, я знала, что найти работу по специальности будет непросто. Обновила LinkedIn, но не имела полного представления о том, как вообще искать работу на западном рынке. Рекрутеры иногда писали и звонили мне в LinkedIn, но обычно всё заканчивалось после первого контакта. Отсутствие разрешения на работу только добавляло проблем.

Не помню, как именно наткнулась на сообщество Datalearn, но вступила туда и почувствовала себя в окружении единомышленников. Смотря назад, думаю, почему же я тогда не делала всё, что рекомендовал Дима?! Я смотрела бесплатные видеоуроки на YouTube, которые другие продавали бы за огромные деньги — они помогли мне прокачать и систематизировать навыки. Но, если честно, я не так активно использовала весь потенциал, который Datalearn предлагал на тот момент.

Время шло, и по совету школьной подруги я поступила в магистратуру в 2021 году. Помимо местного диплома, университет предоставлял разрешение на работу во время учёбы (CPT). Потом в 2022 году мне повезло получить свой первый офер в США. Рекрутер нашла меня в LinkedIn, и после трёх этапов интервью, где в основном спрашивали о моём опыте и задавали поведенческие вопросы, мне сделали предложение. На тот момент рынок труда был более доступным — не было ни лайв-кодинга, ни семи этапов собеседований, как сейчас. Думаю, мне повезло, так как я не искала работу активно и не отправляла по 200-300 заявок.
К сожалению, в декабре 2023 года мне пришлось покинуть компанию, так как истёк срок действия моего разрешения на работу(СРТ). Я планировала вернуться в январе с новым пермитом, но компания объявила о банкротстве и заморозила найм. Я снова оказалась без работы и, честно говоря, немного потерялась. Первые три месяца я ничего не предпринимала и деградировала, но в марте 2024 года узнала, что Дима запустил англоязычное сообщество Surfalytics.

Surfalytics оказался настоящей находкой. Это сообщество с доступом к Discord-каналу за символическую подписку, в котором собрались профессионалы со всего мира. Здесь есть разные каналы по темам, клубы для целей “200-300-500” и множество практик — от мок-интервью с лайв-кодингом до живых проектов. На практике SQL мок-интервью я осознала, что стрессовая обстановка влияет на меня сильнее, чем я думала. Решать задачи перед интервьюером — это совсем не то же самое, что делать это в одиночку! Но наблюдая за другими, я поняла, что это навык, который можно улучшать.

Все видеоуроки на YouTube — бесплатные. Лично я после урока Just Enough GitHub на канале Surfalytics отлично разобралась с Git и GitHub, а асинхронные пет-проекты помогли закрепить знания. Я, конечно, не самый активный участник и не довела все проекты до конца, еще есть чему учиться.

В Surfalytics также проходят проекты в прямом эфире. Иногда я забываю ставить уведомления и опаздываю подключиться, но даже просто наблюдать за процессом — бесценно. Формат асинхронных проектов мне подходит идеально: в спокойной обстановке я усваиваю больше и не забываю изученный материал. В асинхронных проектах Дима даёт и описывает задачи по неделям и направляет, где и что почитать, чтобы выполнить, а все вопросы обсуждаем в чате.


Каждую неделю каждый пишет о своём прогрессе в поиске работы, многие делятся вопросами из интервью, рассказывают, что изучают и какие у них планы на неделю. Такая среда амбициозных людей держит тебя в тонусе и не даёт расслабляться. Я, конечно, довольно пассивный участник и редко пишу о своём прогрессе 🙂

Surfalytics — это не просто база знаний. Это сообщество, где любой вопрос находит ответ, а поддержка помогает расти как профессионально, так и лично. Спасибо, Дима, за то, что собрал всех нас и делишься своим опытом. Моя карьера меняется и продолжает расти благодаря Surfalytics! Используя минимум того, что даёт это сообщество, я смогла войти в клуб “200-300-500”, где гросс-доход составляет от 200к
$ до 300к$.

Ну и вкратце, из точки 0 до 200k$-300к$ с помощью Surfalytics. Дальше — больше!

#testimmonial

Инжиниринг Данных

28 Oct, 23:18


Даже пример мне выдал:

Пришлось откатить гипотезу, когда мы попытались накрутить костыльные метрики, а в итоге утопили данные и чуть не сломали дашборд, пиленный всю ночь — теперь сидим, клеим таблицы, санитизируем прокси-фичи и мечтаем, чтобы холодный старт не поджёг нашу балалайку.

Кто в теме, расскажите какие еще термины используете каждый день?

Инжиниринг Данных

28 Oct, 23:18


Недавно мне попались какие-то рилсы про ИТ на русском, там столько новых слов узнал и решил поискать побольше про модные термины:

В российском ИТ-сленге есть много интересных терминов, которые часто встречаются среди разработчиков, аналитиков и администраторов. Вот некоторые из самых популярных и их значения, какие-то привычные, а какие-то совсем неожиданные, например “плов” 😞

Я обратился к коллеге ChatGPT и вот что он мне поведал:

1. Балалайка — чаще всего так называют сложные или плохо настроенные системы или проекты, которые работают, но требуют постоянного внимания и доработок. “Балалайка” передаёт идею “неуправляемости”.
2. Плов — термин, который действительно часто используют для обозначения Apache Airflow, популярного инструмента для организации пайплайнов данных.
3. Пингвин — обозначение для операционной системы Linux. Название идёт от талисмана Linux — Tux, изображающего пингвина.
4. Креветка — процесс с высокой нагрузкой на ресурсы, которые “жрут” процессор и память. Иногда говорят про тяжёлый сервис или приложение, нагружающее сервер.
5. Мок — сокращение от английского слова mock, используется для обозначения имитации реальных данных или функций при тестировании, так называемые “заглушки”.
6. Прод или продакшен — сокращение от “production”, т.е. рабочая среда, где работают реальные пользователи и данные.
7. Тачка — означает компьютер или сервер, обычно в контексте “рабочей машины”.
8. Фрейм — термин, который часто применяется в контексте фреймворков (frameworks) и реже как укороченное название для экранных кадров (frames), например, в веб-разработке или создании интерфейсов.
9. Геморрой/гемор — проблемная задача, часто используемая в контексте особенно сложных багов или неудачных решений, которые сложно реализовать.
10. Костыль — временное решение или workaround, которое исправляет проблему, но не решает её полностью и может создавать новые сложности в будущем.
11. Забить гвоздь — закоммитить небольшой правку или выполнить быстрый фикс, даже если он временный.
12. Хомяк — junior-специалист или стажёр, который только учится и делает простые задачи, иногда с не самыми эффективными решениями.
13. Джавасруль или JavaScript — шутливые названия для JavaScript, часто встречаются среди тех, кто с иронией относится к этому языку.
14. Зоопарк — среда, где собрано много различных технологий и фреймворков, создающих сложный ландшафт, который сложно поддерживать.
15. Снегирь — разработчик, предпочитающий фронтенд-разработку, т.е. создание пользовательских интерфейсов и визуальных элементов.
16. Кликер — человек или скрипт, создающий большое количество нажатий, например, в аналитике для искусственного увеличения показателей.
17. Девопсить — заниматься задачами, связанными с DevOps, обеспечением автоматизации, развертыванием и поддержкой инфраструктуры.
18. Лапша — плохо написанный или очень сложный код, который сложно читать или поддерживать (аналог “spaghetti code” в английском).
19. Огурец — Cucumber, популярный инструмент для тестирования, особенно для BDD-тестов.
20. Залипуха — запутанная ситуация или особенно сложная задача, которая требует много времени на разбор.
21. Накатить — значит применить обновления, изменения или новую версию кода на систему, которая уже работает. Это может быть как разовая установка, так и регулярные патчи. Например, “накатить новый релиз” означает применить новую версию приложения или системы.
22. Раскатать — обычно означает развернуть или разослать обновление, начиная с тестовой среды до полного внедрения на продакшен. Часто под раскаткой подразумевают постепенное развёртывание на несколько серверов или регионов. Это снижает риски, поскольку если где-то что-то пойдёт не так, можно откатить изменения на отдельных частях системы.
23. Бьютифай — делать данные или визуализацию “красивыми” и удобными для восприятия. Это может включать корректировку графиков, выбор цветовой схемы и общую стилизацию отчётов и дашбордов.
24. Растрескать данные — разделить большой массив данных на несколько частей для параллельной обработки или более удобного анализа.

Инжиниринг Данных

28 Oct, 14:53


Поговорим про деньги в IT?

Приглашаем опытных IT-специалистов пройти небольшой опрос про зарплаты и бенефиты в технологических компаниях. Это займёт не более 7 минут — а ваше мнение поможет одному крупному российскому работодателю делать актуальные оферы.

Пройти опрос можно здесь

Инжиниринг Данных

28 Oct, 09:01


Новое видео на Data Learn - ОБЗОР РФ ВАКАНСИЙ DATA ENGINEER/BI РАЗРАБОТЧИК/АНАЛИКИ ДАННЫХ/ETL РАЗРАБОТЧИК (YouTube) | RuTube

Вот исправленный текст с устранением грамматических ошибок:

В этом видео я изучил отечественный рынок вакансий на позиции:

📈Аналитик данных
📊BI-разработчик
🧰 Инженер данных
🔨 ETL-разработчик
🔩 DWH-разработчик

Краткое резюме:

• Зарплаты варьируются от 250 тыс. до 450 тыс. рублей для специалистов по данным. Конечно, есть предложения и от 100 тыс. рублей, но в целом средний диапазон — это 250–300 тыс. рублей. Если у вас меньше, вы знаете, к чему стремиться и что нужно делать. В целом зарплаты распределены равномерно.

• Для всех аналитиков требуется знание SQL, Python, часто A/B-тесты и один BI-инструмент (Power BI, Qlik, Datalens, Fine). Часто хотят аналитика, а в описании Data Scientist (если вообще такую роль уместно использовать).

• Для BI-разработчика Python не обязателен, но требуется взаимодействие с хранилищем данных (DWH), администрирование BI и, возможно, выполнение ETL.

• ETL-разработчик, Data Engineer и DWH-разработчик — теперь это одно и то же. Требования очень похожи у всех: Greenplum, Clickhouse, Airflow, Python, SQL. Если упоминается Hadoop (еще пугают Java/Scala), то это HDFS, Hive, Spark, Trino. Иногда встречается наш любимый dbt (любимый, потому что простой и эффективный). Думаю, задачи очень однотипные. Вакансии действительно похожи по требованиям (наверное, копируют друг у друга).

• Практически все вакансии требуют навыков в CI/CD, DevOps, контейнерах, системах контроля версий (Git) и командной строке — это важный навык, за который я давно ратую.

• Есть вакансии с западным стеком: Azure, AWS, GCP, Tableau. Как я понимаю, они предполагают удаленную работу или релокацию.

• Если перевести 350 тыс. рублей в доллары США, то это будет примерно 3 620 $. За границей на такую сумму не разгуляешься, а вот в России на 350 тыс., как я понимаю, можно жить очень комфортно.

• Среди компаний много крупных и небольших интеграторов (консалтинг).


Если взять текущий data learn, то в нем не хватает:
- dbt
- CI/CD для data pipelines
- контейнеров (Docker, Kubernetes)
- Airflow
- Trino, Hive
- Greenplum, Clickhouse

Со всем из списка (кроме последних 2х), я работаю каждый день и в планах добавить контент на русском и на английском.

Кстати, пока делал обзор не увидел про:
- DuckDB (возможная замена Clickhouse)
- Iceberg Lakehouse (если Hadoop и BigData)

Инжиниринг Данных

27 Oct, 22:30


В моем списке нетехнических книг, которые я хотел бы прочитать есть The Engineering Executive’s path, которую написал Will Larson. Я уже писал про его другую книгу - Staff Engineer, которая очень релевантна для Senior инженеров, кому нравится оставаться в роли контрибьютера и дальше писать код и развивать технические направления. Не всем же руководить людьми.

А новая книга как раз для менеджеров и технических руководителей. Книга отлично подойдет тем, кто хочет выбрать для себя путь управленца или уже работает на позиции руководителя.

As an engineering manager, you almost always have someone in your company to turn to for advice: a peer on another team, your manager, or even the head of engineering. But who do you turn to if you're the head of engineering? Engineering executives have a challenging learning curve, and many folks excitedly start their first executive role only to leave frustrated within the first 18 months.

In this book, author Will Larson shows you ways to obtain your first executive job and quickly ramp up to meet the challenges you may not have encountered in non-executive roles: measuring engineering for both engineers and the CEO, company-scoped headcount planning, communicating successfully across a growing organization, and figuring out what people actually mean when they keep asking for a "technology strategy."


Совсем недавно увидел обзор книги в канале Книжный Клуб от Александра Поломодова, где он вкратце рассказывает про каждую главу:

Главы 1 - 4
Главы 5 - 6

Про Staff Engineer там тоже есть обзор 2х книг:
- Обзор книги "The Staff Engineer's Path", Tanya Reilly
- Обзор книги “Staff Engineer”, Will Larson

Несмотря на то, что книги про Staff изначально написано для Software Engineering, они идеально подходят и для Data Engineering, потому что на уровне Staff уже нужны другие компетенции.

Инжиниринг Данных

26 Oct, 17:22


Вчера был интересный разговор с менеджером в Microsoft, он мне рассказал, что у него есть открытые позиции, но берут в Индии, потому что за цену одного инженера в США можно взять 3х индусов.

Прошлым летом уже писал про глобальное расширение компаний. То есть компании не косты режут, а просто вот решили в индии офис открыть.

А когда-то Vancouver был cheap engineering. Хотя вот сегодня увидел, что «Европа это новая Мексика для США».

Инжиниринг Данных

25 Oct, 00:27


Последние время удалось потрогать множество проектов по инжинирингу данных. Все проекты и задачи я могу разделить на две большие категории. Одна категория это классический DE, такой вот, почти как pet проекты по инструкции:
- Слой хранения данных - Snowflake (или его ближайший аналог)
- Слой трансформации данных - dbt (аналогов вот нет, чтобы так просто и в SQL)
- Слой загрузки данных в слой в слой хранения (Fivetran, Airbyte, или просто Python)
- Система оркестрации данными – Airflow, Azure Data Factory
- Слой визуализации и отчетности – Looker, Tableau, Power BI и другие

Сами инструменты могут быть разными и хоститься на разных публичных облаках. Может быть полегче – SaaS, PaaS (это cloud service models, основа основ облачных вычислений, надо знать термины), а может быть посложней с использованием контейнеров. Так же всегда есть выбор – ковырять открытое ПО или использовать коммерческий продукт.

Но всегда смысл решения будет один и тот же, и таких решений большинство. Опытный инженер может достаточно быстро въехать в требования, понять, что нужно сделать, ну и сделать это. Еще и время останется.

А есть другая категория проектов, которые прям «каждый раз, как в первый раз». Ранжироваться может от ML до Software Engineering, от DevOps до Backend Engineer. Ну в смысле вообще не предсказуемо. И тут вам уже не поможет, ни ChatGPT, ни google. Потому что в такие вещи за 5 минут не въехать. Покрайней мере мне не удается это делать быстро.

Например, задачка – добавить новые продуктовые события в отчет. Казалось бы, как просто. Разбираемся. Откуда приходят данные? Данные пишет Kafka в S3. Схема JSON описана в protobuf. Данные изначально генерятся в backend, который написан на Node JS. То есть, когда случается событие, создается payload и отправляется в Kafka topic, там он как-то пересекается с protobuf, потом еще данные маскируются и все это дело уже складывается в S3. Вроде звучит просто, но у меня заняло время это понять, и еще займет много времени, прежде чем я смогу добавить два новых поля в backend.

Другой пример – event driven озеро данных на EMR+Spark. И часть джобов уже использует EMR Serverless (что дешевле и быстрей, традиционного, EMR. Надеюсь, у отечественных облаков уже тоже все сервисы доступны как Serverless). Для этого написал большой фреймворк на Python с множеством конфигурационных файлов в YAML. Задача у меня была обновить JDBC jars (драйвера) для Snowflake и Spark. Система настолько громоздкая и неповоротливая, что вообще не понятно где подступить.

Я не хочу вдаваться в подробности своих задачек, что как и почему. Мой поинт заключается в том, что есть два типа задачек, простые и не очень. Все программы обучения заточены на простые сценарии, отличаются лишь набором инструментов. И действительно в 80% случаях этого будет достаточно, чтобы найти работу. Я это уже проверил много раз на сообществе Surfalytics. И сам ни раз отдавал свои реальные задачи ребятам из сообщества, где они могли на реальных примерах что-то поковырять. А вот, чтобы решить остальные 20% задач уже нужны годы опыта. Тут уже мало что поможет.

Инжиниринг Данных

24 Oct, 20:33


6 секунд на проверку резюме? Чтобы лучше понимать как откликаться, нужно смотреть как работают рекрутеры:)

Рекрутеры, если вы тут, напишите в комментах, как вы смотрите резюме!

Инжиниринг Данных

23 Oct, 18:59


Ищем автора эталонного кода! 💎

Если вы уверены, что вашему коду подходит звание «Эталонный», а вам — звание «Автор самого красивого кода», то приглашаем принять участие в Конкурсе красоты кода 2.0 и выиграть классные призы от Сбера: iPhone 16 и умную колонку SberBoom.

Опытные эксперты определят победителей в пяти категориях: Backend, Frontend, DevOps, AI и Mobile, — а награждение пройдёт на ключевом IT-событии HighLoad в Москве, 2 и 3 декабря.

Больше 40 участников прошлого конкурса стали частью команды Сбера. Возможно, следующим станете именно вы — переходите по ссылке и изучайте подробности!

Инжиниринг Данных

23 Oct, 18:03


Чтобы много успевать - надо быть продуктивным. А чтобы быть продуктивным, нужен четкий план на день, на неделю, на месяц и тп. Я не буду вдаваться в подробности в эффективность и time management, просто поделюсь с вами моими любимыми ресурсами.

Я сам еще далек от совершенства, но борюсь с собой, чтобы быть более собранным и эффективным.

Концепт джедайский техник мне очень понравился. Он включает в себя лучшие мировые практики и адаптирует для нас.

🐒Книга - Джедайские техники. Как воспитать свою обезьяну, опустошить инбокс и сберечь мыслетопливо

🐒Одна из основных идей джедайских техник - Why Procrastinators Procrastinate (тут очень хорошо написано почему мы так мало успеваем)

🐒Марафон на 60 дней - я его уже начал второй раз проходить.

🐒Notion для личных дел - дополнение с примером использования Notion для ведения личных дел.

Вы можете начать использовать шаблон прямо сегодня. Вчера я настроил входящие через Telegram Bot используя сервис Make. Если Notion сложный, можно использовать Microsoft To Do или его аналоги.

В целом подход хороший, но очень сложно следовать простым правилам, например:
- формировать список задач на день
- не добавлять новые (срочные) задачи в текущий лист задач на день
- чистить список каждую неделю
- не реагировать на якобы срочные 2х минутные задачи (все бросить и бежать их делать)

Инжиниринг Данных

22 Oct, 19:20


Классика от фаундера - всем спасибо, все молодцы, мы старались как могли, но обстоятельства не сложились, все свободны.

Хотя получили прилично инвестиций - Data startup Cybersyn raises $63 mln in Snowflake-led funding round. Промотали все за 2 года.

Теперь фаундер может смело получить новые инвестиции и продолжить строить новый стартап, став серийным стартап-фаундером!

В целом для основателей стартапа это круто, и не так важно, что окажется на выходе. Ведь это опыт, и чем больше провалов, тем ближе успех. Инвесторы закладывают в риски, и если кто-то промотает 100+/- млн баксов, это нормально. Главное — не тратить эти деньги на роскошные вещи.

На второй картинке показана интересная статистика о выходе стартапов на IPO. Из нее видно, что топовые компании могут ожидать выхода на IPO около 15 лет.

Теперь если взять всю эту информацию, то есть очевидные факты:

1) Если у вас есть мечта создать стартап, и вы располагаете необходимыми ресурсами, то какой-нибудь YC может предоставить вам seed-инвестиции, если вам удастся туда попасть. (У меня даже есть идея по фану пройти YC в качестве некоего саббатикала, поехать в Сан-Франциско и попробовать поработать над стартапом вместе со студентами, раньше я хотел саббатикал в MBA MIT)

2) Если вы предпочитаете стабильную работу, и вам важно обеспечивать семью, то для вас более важны job security и стабильный растущий доход. Работать в стартапах, даже тех, что находятся на поздних стадиях и готовятся к IPO, становится все менее выгодно, особенно в последние годы. Опцион может стоить вам денег, а вы вынуждены ждать IPO. Кроме того, вас у вас нет бонусов или RSU, а иногда могут и уволить, ссылаясь на ‘тяжелую экономическую ситуацию’.

У меня был пример. Отработал 2 года в стартапе. При мне он получил 2 раунда, 2й был 600млн. Когда я уходил, мне предложили выкупить опцион за 60т CAD. Лучше эти 60к положить на S&P500 или классические активы с дивидендами.

3) Получается идеальный вариант это такой микс full time (бенефиты, страховка, зарплата по расписанию) и contract (контракт на какой-нибудь стартап). Можно и наоборот — работать в стартапе full-time, а в крупной компании по контракту. Вообще вариаций много. При этом налогообложение может стать интересной темой, если есть возможность совмещать проекты в разных странах.

Но прежде, чем думать про эти 3 пункта, надо стать хорошим и востребованным специалистом в какой-то области. Поэтому всему свое время, всем grow(th) mindset!

Инжиниринг Данных

22 Oct, 06:59


7 и 8 ноября в Москве пройдет Матемаркетинг — большая ежегодная конференция по маркетинговой и продуктовой аналитике для аналитиков, продакт-менеджеров, ML-специалистов и дата-инженеров

Я был только на самой первой конференции Матемаркетинг и с тех пор конференция стала круче. На ней можно узнать как топовые компании используют аналитики и данные, как создают и управляют аналитическими командами, множество реальных кейсов применения аналитики, инжиниринга данных и машинного обучения.

Вот доклад, с которым я выступал - Роль BI-систем и DWH в маркетинге. Архитектура и кейсы, и заодно сделал workshop по Snowflake + Tableau. И это было еще до того, как Snowflake стал mainstream.

Еще из интересного, именно на этой конференции я создал этот телеграмм канал, и если отмотать в самое начало, то там будет ссылка на Snowflake workshop. Уже после конференции, у меня было 600+ подписчиков. Поэтому, я вам точного говорю - отличная конференция, отличный нетворкинг, отличный опыт!

Программа: https://matemarketing.ru/program

Место проведения: МГУ, кластер «Ломоносов», Раменский бульвар 1.

Инжиниринг Данных

21 Oct, 23:59


Новая книга на O’Reilly - Data Visualization with Microsoft Power BI.

The sheer volume of business data has reached an all-time high. Using visualizations to transform this data into useful and understandable information can facilitate better decision-making. This practical book shows data analysts as well as professionals in finance, sales, and marketing how to quickly create visualizations and build savvy dashboards.

Alex Kolokolov from Data2Speak and Maxim Zelensky from Intelligent Business explain in simple and clear language how to create brilliant charts with Microsoft Power BI and follow best practices for corporate reporting. No technical background is required. Step-by-step guides help you set up any chart in a few clicks and avoid common mistakes. Also, experienced data analysts will find tips and tricks on how to enrich their reports with advanced visuals.

Внутри 25 глав про различные диаграммы и пошаговые примеры реализации в Power BI.

Well done! С Алексеем я лично знаком и рад поддержать книгу!

Инжиниринг Данных

21 Oct, 06:59


Яндекс Игры пришли к нам с запросом:


SELECT *
FROM subscribers
WHERE 1=1
AND channel_name = ‘rockyourdata’
AND technical_skills IN ('SQL', 'Airflow', 'MapReduce', 'DataLens')
AND data_driven_approach = true
AND analytical_mindset = true
AND years_of_experience >= 2;

Ребята ищут аналитика в свою команду. Яндекс Игры посещают более 40 млн пользователей в месяц, поэтому можно проверять кучу гипотез на крупных выборках и экспериментировать.

ВАЖНО. Проверенные гипотезы не пойдут «в стол», а будут помогать команде принимать взвешенные решения и влиять на развитие продукта.

Если у тебя есть опыт работы с продуктами, аналитический склад ума и необходимые навыки, — это отличный шанс быстро вырасти и прокачаться на интересных задачах.

Описание вакансии здесь, но лучше сразу пишите рекрутеру и договаривайтесь о собеседовании: @danny_md1

Инжиниринг Данных

20 Oct, 01:25


Все хотят хорошее качество данных! На собеседованиях вас обязательно спросят про качество данных.

Уже спрашивает чаще, чем про моделирование данных.

И вот книжка - Data Quality Fundamentals

Do your product dashboards look funky? Are your quarterly reports stale? Is the data set you're using broken or just plain wrong? These problems affect almost every team, yet they're usually addressed on an ad hoc basis and in a reactive manner. If you answered yes to these questions, this book is for you.

Many data engineering teams today face the "good pipelines, bad data" problem. It doesn't matter how advanced your data infrastructure is if the data you're piping is bad. In this book, Barr Moses, Lior Gavish, and Molly Vorwerck, from the data observability company Monte Carlo, explain how to tackle data quality and trust at scale by leveraging best practices and technologies used by some of the world's most innovative companies.

Build more trustworthy and reliable data pipelines

Write scripts to make data checks and identify broken pipelines with data observability
Learn how to set and maintain data SLAs, SLIs, and SLOs

Develop and lead data quality initiatives at your company

Learn how to treat data services and systems with the diligence of production software

Automate data lineage graphs across your data ecosystem

Build anomaly detectors for your critical data assets

Судя по описание хорошо подходит для инженера данных.

Инжиниринг Данных

19 Oct, 16:57


Еще один отзыв о Surfalytics. Очень рад за товарища, что он нашел свою первую работу на позиции Senior BA в Ванкувере. Зарплата оказалась ниже, чем мы рассчитывали (100к-120к CAD), но, как видно из текста ниже, трудность была связана с английским языком. От себя могу добавить, что одной из трудностей была частая смена фокуса — то аналитик, то продакт-менеджер, и, возможно, перерывы в обучении. Очень важно выбрать одну профессию или роль и к ней готовиться, а также крайне важно не делать перерывов в обучении. В целом, все отлично, и цели достигаются!

Как-то так получилось, что я захотел переехать в Канаду и стать дата инженером примерно одновременно. Готовился переезжать по Express Entry. А Data учил с помощью Data Learn. И то и другое весьма вяленько. Было это до войны.

А когда она грянула, мы таки смогли переехать в лучший город мира. Ванкувер.

Целый год я работал на старой работе, в маркетинге, и учил английский. В Ванкувере ппц дорого, мы платили за 2 bedroom 3800 канадских баксов (на треть меньше баксов США). Но пока была старая работа, кэшфлоу был позитивный благодаря своему небольшому бизнесу по продвижению сайтов.

Потом, спустя год, я понял, что совсем мало времени получается уделять поиску новой работы в Канаде и решил уйти со старой. Говорят же - меняй или должность (в рамках своей компании), или компанию, или домен. Или язык, на котором работаешь, видимо. А я хотел сразу поменять все: перейти из маркетолога в русскоязычной EdTech компании в data аналитика в канадской IT компании. Для такого надо дохрена времени на всякое:
Обучение
Подготовка резюме
Подготовка к собеседованиям
Английский язык
Нетворкинг

Короче, ушел со старой работы и понеслось. Кэш начал потихоньку таять (хотя запас приличный, но чувство ппц неприятное). А работа не торопилась находиться. Вообще. Было так себе. Все эти сокращения в IT вывалили на рынок труда кучу высококачественных профи. А компании наоборот, поубавили аппетиты в плане найма.

Только Surfalytics радовал. Классное комьюнити позитивных людей с ну ооочень активной жизненной позицией. Как говорят, стремитесь быть в комнате, где чувствуете себя самым глупым. Значит вы в правильном месте. Так у меня было на наших сходках аналитиков и инженеров. Кайф. Без сарказма.

В итоге работу я нашел ровно спустя год после ухода.

Должность Senior Business Analyst. Компания e-commerce, а не IT, к сожалению. По большей части в отделе маркетинга. 76000 CAD в год с повышением до 80000 CAD через 3-6 месяцев. Owner говорит, чтобы окупить эти деньги, я должен увеличить доход на лям $. Но он верит, что я смогу увеличить на все 3-5 миллионов. Посмотрим 🙂

Из классного - это кайф, когда ты можешь подаваться в dream companies типа Google, Microsoft, Deloitte, Stripe и даже получать какой-то отклик.

Инжиниринг Данных

19 Oct, 16:57


Что помогло больше всего:
Rock Your Data. Дима позволил указать его компанию в качестве последнего место работы, что добавило в мое резюме опыт настоящей канадской компании из Ванкувера. Киллер-фича.
Подавался на разные специальности: Data Analyst, Business Analyst, Marketing Manager, Product Manager, Product Owner, Project Manager, Scrum Master. Под каждую свое резюме.
Английский для аналитиков в Skyeng. Английский с хорошими преподавателями в Инглекс. Английский по 5 часов в день 4 раза в неделю офлайн в Ванкувере с канадским нейтивом в ISSofBC.
ChatGPT. Пишет cover letter, адаптирует резюме под вакансию, учит разным непонятным навыкам из вакансии для собеседования.
Референсы от товарищей и хороших людей из Surfalytics. В Канаде рекомендация скорее всего приведет к тому, что на ваше резюме таки взглянет человек.
Скорость. Очень важна. Мощные референсы и классно заточенные резюме пропадали из-за промедления в несколько дней. Кто первый - того и рассмотрят, а на остальных времени может не остаться.
Проекты в Surfalytics. Особенно очные в офисе. В плане хард скилов помогло не так сильно, потому что я все время сталкивался с какими-то сложностями (как будто уникальными для моего ноута). Но поддержка и общение с единомышленниками, понимание, что есть к кому обратиться за помощью, обучением, прожаркой резюме - это все бесценно и нигде больше не встретишь.
SQL курс на Data Learn. Нравится 🙂

Что теперь. Есть еще несколько собеседований, которые надо допройти (Deloitte, Hootsuite). Несколько подач по референсам, которые обычно долго реагируют (Google, Amazon, Appryse, Microsoft). Все же охота и в IT, и на зп повыше. И должность продакта манит.

А если все это не срастется, то тогда надо будет принести реально большую пользу той единственной компании, от которой я пока получил оффер, и которой я очень благодарен за это. Надо 3-5 миллинов, говорите?


#testimmonial

Инжиниринг Данных

19 Oct, 08:06


«Я всегда верил, что главное “попасть” куда-то, зацепиться, а там уже пробиваться наверх»

В гостях Дмитрий Аношин — автор канала Инжиниринг Данных и основатель проектов Datalearn, Surfalytics, Rock Your Data.

О чем мы поговорили?
🔵 О планах поработать инженером-конструктором на немецком заводе.
🔵 Об отсутствии финансовых перспектив в машиностроении.
🔵 О лучшем способе «зайти в Data»
🔵 О классных проектам в Amazon и Microsoft.

🔜 Подробности — в канале Карьера в Data | LEFT JOIN

Инжиниринг Данных

18 Oct, 22:29


Привет!

Мы сделали лендинг для начинающих аналитиков данных: https://surfalytics.com/pages/data-analyst-landing/

Страница рассчитана на тех, кто только начинает свой путь в аналитике и ищет первую работу в этой области.

Буду рад вашим отзывам в комментариях — насколько всё понятно, и что, возможно, стоит доработать.

В будущем планирую добавить похожие страницы для BI-разработчиков, инженеров по аналитике и инженеров данных.

Инжиниринг Данных

17 Oct, 23:44


Недавно, я написал статью для блога Анастасии Кузнецовой про работы с GitHub, CI/CD на пример SQL файлов. А сегодня Настя написала статью для моего блога Surfalytics:

Just Enough Data Viz for Data Professionals
Master the 20% of Techniques That Drive 80% of Dashboard Impact

Мне хотелось собрать все самое необходимое связанное с визуализацией данных и дашбордами, такой своего рода cheatsheet для новичков в data или уже опытных инженеров (которые не про data viz и BI), получилось МЕГА КРУТО! 🔥

PS не забудьте подписаться на ее телеграмм канал Настенька и Графики.

Инжиниринг Данных

17 Oct, 16:52


через 5 минут начинаем))

Инжиниринг Данных

16 Oct, 19:18


Вы как пользуетесь chatgpt на собесах или все «сами с усами»?

Главный навык это научиться решать задачки не привлекая внимания интервьюера. Собеседование теперь как охота на признаки «списывания», поэтому надо уже тренировать не leetcode, а навыки пользования всякими сервисами «без палево». Это я в своем discord предложил прокачивать такой навык:)

Как у вас собесы? Палите кандидатов? И сами пытаетесь списать?

Инжиниринг Данных

16 Oct, 00:04


Недавно мы тут говорил о качестве Co-Pilot, ChatGPT и других инструментов. Из комментариев я понял, что более менее это Cursor + Claude AI.

Я сам ни разу не использовал Cursor и даже не понял, что это такое. Я посмотрел, что это и расскажу в вкратце.

Cursor - это IDE наподобие VSCode, он сразу может все настройки импортировать из существующего VSCode. Дальше, открываем чат и выбираем AI модель, с которой будем работать, как на картинке. По идее он должен понимать ваш code base и ему не надо все copy-paste для контекста.

Мне еще предстоит понять все преимущества и недостатки, но начало хорошее. Возможно придется купить платный Cursor и Claude для максимальной эффективности.

Ссылки:
- Cursor AI IDE
- Claude AI 3.5
- статья Claude vs. Cursor AI: Creating an Intuitive To-Do Web App to See Which Works Better

Поделитесь вашим опытом с IDE + AI ⬇️

Инжиниринг Данных

15 Oct, 00:23


Мы тут обсуждали, что chatGPT не всегда помогает с кодом, зато мне вот помог с пельменями!

Инжиниринг Данных

14 Oct, 18:36


Для меня последние несколько лет использование CI/CD в аналитических проектах это must have, хотя до этого во всех компаниях в РФ мы никогда не использовали.

5 лет в Амазоне тоже обходился без CI/CD. В целом можно было использовать внутренний framework для этого, но совсем было непонятно с чего начинать.

А теперь на всех проектах, где я работаю, обычно первые 2 месяца уходят на создание правильного CI/CD framework или улучшения существующего.

С чего начать, если никогда не работали?

1. Понять GitHub на уровне создания branch, Pull request, Code review, Merge. (Module 0 Surfalytics)

2. Понять для каких задач это подойдет, а для каких нет. Например хранить XLS или Tableau Workbooks не самый лучший способ.

3. Внедрить pre-commit, linting для локальной разработки.

4. Добавить автоматические проверки в CI, начиная с linting/pre-commit и заканчиваю unit tests. Вы можете запускать в CI dbt, spark, pytest и использовать dummy данные или реальные.

У разных продуктов, есть разные способы проверки, например у Looker популярен Spectacles, у AWS Glue есть возможность использовать Glue Spark в контейнере, контейнер с Databricks.

5. Если код деплоится, добавить шаг CD и tags/releases.

Так же можно и для инфраструктуры с использованием Terraform, Helm Values и тп. Например, для Terraform часто используется Atlantis.

И все эти истории всегда killer features для собеседования на дата инженера!

Инжиниринг Данных

12 Oct, 18:52


Хороших выходных, элита.

Инжиниринг Данных

11 Oct, 16:25


Как это знакомо…

Все больше встречаю постов от опытных инженеров, что Co-Pilot/ChatGPT не очень то уж и помогают, а часто даже вредят работе.

Как у вас?

Инжиниринг Данных

10 Oct, 18:30


У меня давно была идея скопировать Data Learn из YouTube (или правильней запрещенная сеть?) в RUTUBE или VK Video.

Оказывается RUTUBE сделал космическую фичу - полностью копировать канал из YouTube, все видео и описания. Жалко, что обложки не копирует =/

Поэтому, чтобы посмотреть видео Data Learn или просто узнать, что такое аналитика и понять нужно вам это или нет совершенно бесплатно, теперь вам не нужен VPN, можете посмотреть на Rutube https://rutube.ru/channel/46386964/ (обязательно подпишитесь!)

В планах добавлять обзоры вакансий РФ по аналитическим профессиям и продолжать Data Learn. Может еще надо GitHub импорто заменить?

PS вопрос к знатокам, какой VPN самый лучший в РФ и какой аналог GitHub используется?

Инжиниринг Данных

10 Oct, 05:37


⚙️ От Postgres к Data Lake

Интересная статья с верхнеуровневым описанием эволюции внутренностей сервиса.

Notions - крутой органайзер с разнообразным функционалом.
Текстовые заметки, картинки, страницы, ... - представлены в виде "блока" в Postgres.

📶 До 2021 - все блоки хранились в 1 инстансе Postgres.
В 2021 стало 20 млн блоков.
Сейчас их 200 млрд. Как они хранятся?

🔡 Данные разбиты на 480 логических шардов, распределенных на 96 инстанцев Postgres.
БД обслуживала разнообразные запросы:
1) пользовательский траффик онлайн
2) оффлайн аналитику
3) машинное обучение

Было решено вынести от Postgres нагрузку 2), 3).

🔀 Воспользовались ETL:
Postgres -> connector -> Debezium -> Kafka -> S3 <- ...аналитика

Проффит:
1) Сэкономленный бюджет
2) Быстрая обработка
3) Новые возможности. Решение помогло быстрее внедрять AI функционал.

Подробности в статье:
https://blog.det.life/how-does-notion-handle-200-billion-data-entities-919b238c2846

Мой перевод на хабре:
https://habr.com/ru/articles/845446/

▶️ А у Вас есть проект с ETL? Какие видите в нём преимущества?

Инжиниринг Данных

09 Oct, 20:51


Кто такой CDO и что он делает?

Chief Data Officer (CDO) — это руководитель, который отвечает за управление и использование данных в организации. Основная роль CDO заключается в том, чтобы создавать и реализовывать стратегию работы с данными, помогая компании эффективно собирать, анализировать, хранить и использовать данные для принятия бизнес-решений.

Основные обязанности CDO:

Разработка стратегии данных: CDO определяет, как данные будут использоваться в организации для поддержки бизнес-целей. Это включает выбор инструментов, технологий и методов для работы с данными.

Управление данными: CDO отвечает за качество, безопасность и управление данными, включая защиту данных и обеспечение соответствия регуляторным требованиям.

Инновации с данными: CDO исследует, как организация может использовать данные для создания новых продуктов или услуг, улучшения процессов или получения конкурентного преимущества.

Аналитика данных: CDO управляет процессами анализа данных для извлечения ценности из них, включая машинное обучение и искусственный интеллект.

Координация с другими отделами: CDO тесно сотрудничает с IT, маркетингом, финансами и другими департаментами, чтобы обеспечить единое понимание и использование данных.

Обеспечение соблюдения законов: CDO следит за соблюдением требований в области конфиденциальности данных и защиты персональной информации.

CDO помогает трансформировать данные в активы компании, которые могут увеличить её ценность и помочь поставленных стратегических целей.

Одно время CDO было очень популярно, потом сошло на нет.

В каждой компании свой подход. Где-то можно встретить CDO (обычно в более традиционных индустриях как финансы), а где-то их нет. Вместо них VP по аналитике, директора по инжинирингу (Software Engineering), CPO (chief product officer).

Мне нравится, что картинка передает суть, что есть два мира и их нужно кем-то соединить, а как роль называется не важно. Главное, чтобы к данным и аналитике был продуктовый подход, и цели для команд аналитики ставились в зависимости от целей организации. В этом плане отлично работают OKR (Objective Key Results).

Как лучше наладить согласованность и сотрудничество между бизнесом и миром данных? И решение не в покупке новых инструментов или программного обеспечения. Необходимо сочетать 50% технических навыков и 50% навыков донесения информации на уровне C-suite.

У кого есть в компании CDO? А если нет, то кто рулит данными?

Инжиниринг Данных

08 Oct, 15:47


Должна быть интересная дискуссия - Beyond Lakehouse Table Formats
The original creators of Delta Lake and Apache Iceberg take on interoperability formats

Хоть посмотрите на людей, кто придумал новый формат таблиц для озера данных и теперь они оба работают в Databricks и мечтают о прекрасном будущем для lakehouse.

Инжиниринг Данных

07 Oct, 23:26


Новая книга - Building Medallion Architectures

In today's data-driven world, organizations must manage and analyze vast amounts of information to deliver the insights that give them a competitive advantage. Many turn to the medallion architecture because it's a proven and well-known design. Yet implementing a robust data pipeline can be difficult, particularly when it comes to using the medallion architecture's bronze, silver, and gold layers—done wrong, it can hamper your ability to make data-driven decisions. This practical guide helps you build a medallion architecture the right way with Azure Databricks and Microsoft Fabric.

Drawing on hands-on experience from the field, Piethein Strengholt demystifies common assumptions and complex problems you'll face when embarking on a new data architecture. Architects and engineers of all stripes will find answers to the most typical questions along with insights from real organizations about what's worked, what hasn't, and why.


Согласно описанию, книга будет посвящена примерам на базе Azure Databricks и Microsoft Fabric.

Я могу сказать, как это работает в Databricks. По факту, если вы строите озеро данных (data lake) или его улучшенную версию lake house (используете формат таблиц Delta, Iceberg), то вы разделяете хранение по уровням хранения данных:

- raw/bronze - может быть просто папка с blob storage, в которую вы грузите/копируете сырые данные и создаете таблицы, то есть абстракции в каталоге (Hive, Unity).

В случае dbt, это будет dbt source. Но dbt и databricks это какое-то modern data извращение.

- staging/silver - вы используете уже таблички из bronze, и делаете трансформации, но все еще данные raw (без агрегации), можете еще добавить joins.

- business/fact/dw/gold слой - там где у вас уже таблицы фактов/витрины/метрики, вы агрегируете данные и используете аналитические функции.

На второй картинке я привел свое решение на основе Microsoft Gaming. Я еще делал решение на Trino/dbt/Iceberg.

То есть medallion architecture просто подразумевает, что у вас есть несколько слоев в хранилище данных, и 30 лет назад когда делали хранилище даже и не догадывались, что они использовали архитектуру миньенчиков.

Инжиниринг Данных

07 Oct, 01:39


Data Engineering tool box выходного дня.

Сегодня будет выступление - Richard Dawkins, чтобы лучше информация воспринималась))