Инжиниринг Данных

@rockyourdata


Делюсь новостями из мира аналитики и вредными карьерными советами;)

8 лет в FAANG, инвестиции в недвижимость, компании и акции, solo entrepreneur🏄‍♂️

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Инжиниринг Данных

21 Jan, 00:26


7 и 8 ноября в Москве пройдет Матемаркетинг — большая ежегодная конференция по маркетинговой и продуктовой аналитике для аналитиков, продакт-менеджеров, ML-специалистов и дата-инженеров

Я был только на самой первой конференции Матемаркетинг и с тех пор конференция стала круче. На ней можно узнать как топовые компании используют аналитики и данные, как создают и управляют аналитическими командами, множество реальных кейсов применения аналитики, инжиниринга данных и машинного обучения.

Вот доклад, с которым я выступал - Роль BI-систем и DWH в маркетинге. Архитектура и кейсы, и заодно сделал workshop по Snowflake + Tableau. И это было еще до того, как Snowflake стал mainstream.

Еще из интересного, именно на этой конференции я создал этот телеграмм канал, и если отмотать в самое начало, то там будет ссылка на Snowflake workshop. Уже после конференции, у меня было 600+ подписчиков. Поэтому, я вам точного говорю - отличная конференция, отличный нетворкинг, отличный опыт!

Программа: https://matemarketing.ru/program

Место проведения: МГУ, кластер «Ломоносов», Раменский бульвар 1.

Инжиниринг Данных

21 Jan, 00:25


Новая книга на O’Reilly - Data Visualization with Microsoft Power BI.

The sheer volume of business data has reached an all-time high. Using visualizations to transform this data into useful and understandable information can facilitate better decision-making. This practical book shows data analysts as well as professionals in finance, sales, and marketing how to quickly create visualizations and build savvy dashboards.

Alex Kolokolov from Data2Speak and Maxim Zelensky from Intelligent Business explain in simple and clear language how to create brilliant charts with Microsoft Power BI and follow best practices for corporate reporting. No technical background is required. Step-by-step guides help you set up any chart in a few clicks and avoid common mistakes. Also, experienced data analysts will find tips and tricks on how to enrich their reports with advanced visuals.

Внутри 25 глав про различные диаграммы и пошаговые примеры реализации в Power BI.

Well done! С Алексеем я лично знаком и рад поддержать книгу!

Инжиниринг Данных

21 Jan, 00:24


Яндекс Игры пришли к нам с запросом:


SELECT *
FROM subscribers
WHERE 1=1
AND channel_name = ‘rockyourdata’
AND technical_skills IN ('SQL', 'Airflow', 'MapReduce', 'DataLens')
AND data_driven_approach = true
AND analytical_mindset = true
AND years_of_experience >= 2;

Ребята ищут аналитика в свою команду. Яндекс Игры посещают более 40 млн пользователей в месяц, поэтому можно проверять кучу гипотез на крупных выборках и экспериментировать.

ВАЖНО. Проверенные гипотезы не пойдут «в стол», а будут помогать команде принимать взвешенные решения и влиять на развитие продукта.

Если у тебя есть опыт работы с продуктами, аналитический склад ума и необходимые навыки, — это отличный шанс быстро вырасти и прокачаться на интересных задачах.

Описание вакансии здесь, но лучше сразу пишите рекрутеру и договаривайтесь о собеседовании: @danny_md1

Инжиниринг Данных

21 Jan, 00:23


Все хотят хорошее качество данных! На собеседованиях вас обязательно спросят про качество данных.

Уже спрашивает чаще, чем про моделирование данных.

И вот книжка - Data Quality Fundamentals

Do your product dashboards look funky? Are your quarterly reports stale? Is the data set you're using broken or just plain wrong? These problems affect almost every team, yet they're usually addressed on an ad hoc basis and in a reactive manner. If you answered yes to these questions, this book is for you.

Many data engineering teams today face the "good pipelines, bad data" problem. It doesn't matter how advanced your data infrastructure is if the data you're piping is bad. In this book, Barr Moses, Lior Gavish, and Molly Vorwerck, from the data observability company Monte Carlo, explain how to tackle data quality and trust at scale by leveraging best practices and technologies used by some of the world's most innovative companies.

Build more trustworthy and reliable data pipelines

Write scripts to make data checks and identify broken pipelines with data observability
Learn how to set and maintain data SLAs, SLIs, and SLOs

Develop and lead data quality initiatives at your company

Learn how to treat data services and systems with the diligence of production software

Automate data lineage graphs across your data ecosystem

Build anomaly detectors for your critical data assets

Судя по описание хорошо подходит для инженера данных.

Инжиниринг Данных

21 Jan, 00:22


Что помогло больше всего:
Rock Your Data. Дима позволил указать его компанию в качестве последнего место работы, что добавило в мое резюме опыт настоящей канадской компании из Ванкувера. Киллер-фича.
Подавался на разные специальности: Data Analyst, Business Analyst, Marketing Manager, Product Manager, Product Owner, Project Manager, Scrum Master. Под каждую свое резюме.
Английский для аналитиков в Skyeng. Английский с хорошими преподавателями в Инглекс. Английский по 5 часов в день 4 раза в неделю офлайн в Ванкувере с канадским нейтивом в ISSofBC.
ChatGPT. Пишет cover letter, адаптирует резюме под вакансию, учит разным непонятным навыкам из вакансии для собеседования.
Референсы от товарищей и хороших людей из Surfalytics. В Канаде рекомендация скорее всего приведет к тому, что на ваше резюме таки взглянет человек.
Скорость. Очень важна. Мощные референсы и классно заточенные резюме пропадали из-за промедления в несколько дней. Кто первый - того и рассмотрят, а на остальных времени может не остаться.
Проекты в Surfalytics. Особенно очные в офисе. В плане хард скилов помогло не так сильно, потому что я все время сталкивался с какими-то сложностями (как будто уникальными для моего ноута). Но поддержка и общение с единомышленниками, понимание, что есть к кому обратиться за помощью, обучением, прожаркой резюме - это все бесценно и нигде больше не встретишь.
SQL курс на Data Learn. Нравится 🙂

Что теперь. Есть еще несколько собеседований, которые надо допройти (Deloitte, Hootsuite). Несколько подач по референсам, которые обычно долго реагируют (Google, Amazon, Appryse, Microsoft). Все же охота и в IT, и на зп повыше. И должность продакта манит.

А если все это не срастется, то тогда надо будет принести реально большую пользу той единственной компании, от которой я пока получил оффер, и которой я очень благодарен за это. Надо 3-5 миллинов, говорите?


#testimmonial

Инжиниринг Данных

21 Jan, 00:22


Еще один отзыв о Surfalytics. Очень рад за товарища, что он нашел свою первую работу на позиции Senior BA в Ванкувере. Зарплата оказалась ниже, чем мы рассчитывали (100к-120к CAD), но, как видно из текста ниже, трудность была связана с английским языком. От себя могу добавить, что одной из трудностей была частая смена фокуса — то аналитик, то продакт-менеджер, и, возможно, перерывы в обучении. Очень важно выбрать одну профессию или роль и к ней готовиться, а также крайне важно не делать перерывов в обучении. В целом, все отлично, и цели достигаются!

Как-то так получилось, что я захотел переехать в Канаду и стать дата инженером примерно одновременно. Готовился переезжать по Express Entry. А Data учил с помощью Data Learn. И то и другое весьма вяленько. Было это до войны.

А когда она грянула, мы таки смогли переехать в лучший город мира. Ванкувер.

Целый год я работал на старой работе, в маркетинге, и учил английский. В Ванкувере ппц дорого, мы платили за 2 bedroom 3800 канадских баксов (на треть меньше баксов США). Но пока была старая работа, кэшфлоу был позитивный благодаря своему небольшому бизнесу по продвижению сайтов.

Потом, спустя год, я понял, что совсем мало времени получается уделять поиску новой работы в Канаде и решил уйти со старой. Говорят же - меняй или должность (в рамках своей компании), или компанию, или домен. Или язык, на котором работаешь, видимо. А я хотел сразу поменять все: перейти из маркетолога в русскоязычной EdTech компании в data аналитика в канадской IT компании. Для такого надо дохрена времени на всякое:
Обучение
Подготовка резюме
Подготовка к собеседованиям
Английский язык
Нетворкинг

Короче, ушел со старой работы и понеслось. Кэш начал потихоньку таять (хотя запас приличный, но чувство ппц неприятное). А работа не торопилась находиться. Вообще. Было так себе. Все эти сокращения в IT вывалили на рынок труда кучу высококачественных профи. А компании наоборот, поубавили аппетиты в плане найма.

Только Surfalytics радовал. Классное комьюнити позитивных людей с ну ооочень активной жизненной позицией. Как говорят, стремитесь быть в комнате, где чувствуете себя самым глупым. Значит вы в правильном месте. Так у меня было на наших сходках аналитиков и инженеров. Кайф. Без сарказма.

В итоге работу я нашел ровно спустя год после ухода.

Должность Senior Business Analyst. Компания e-commerce, а не IT, к сожалению. По большей части в отделе маркетинга. 76000 CAD в год с повышением до 80000 CAD через 3-6 месяцев. Owner говорит, чтобы окупить эти деньги, я должен увеличить доход на лям $. Но он верит, что я смогу увеличить на все 3-5 миллионов. Посмотрим 🙂

Из классного - это кайф, когда ты можешь подаваться в dream companies типа Google, Microsoft, Deloitte, Stripe и даже получать какой-то отклик.

Инжиниринг Данных

21 Jan, 00:22


«Я всегда верил, что главное “попасть” куда-то, зацепиться, а там уже пробиваться наверх»

В гостях Дмитрий Аношин — автор канала Инжиниринг Данных и основатель проектов Datalearn, Surfalytics, Rock Your Data.

О чем мы поговорили?
🔵 О планах поработать инженером-конструктором на немецком заводе.
🔵 Об отсутствии финансовых перспектив в машиностроении.
🔵 О лучшем способе «зайти в Data»
🔵 О классных проектам в Amazon и Microsoft.

🔜 Подробности — в канале Карьера в Data | LEFT JOIN

Инжиниринг Данных

21 Jan, 00:21


Привет!

Мы сделали лендинг для начинающих аналитиков данных: https://surfalytics.com/pages/data-analyst-landing/

Страница рассчитана на тех, кто только начинает свой путь в аналитике и ищет первую работу в этой области.

Буду рад вашим отзывам в комментариях — насколько всё понятно, и что, возможно, стоит доработать.

В будущем планирую добавить похожие страницы для BI-разработчиков, инженеров по аналитике и инженеров данных.

Инжиниринг Данных

21 Jan, 00:20


Недавно, я написал статью для блога Анастасии Кузнецовой про работы с GitHub, CI/CD на пример SQL файлов. А сегодня Настя написала статью для моего блога Surfalytics:

Just Enough Data Viz for Data Professionals
Master the 20% of Techniques That Drive 80% of Dashboard Impact

Мне хотелось собрать все самое необходимое связанное с визуализацией данных и дашбордами, такой своего рода cheatsheet для новичков в data или уже опытных инженеров (которые не про data viz и BI), получилось МЕГА КРУТО! 🔥

PS не забудьте подписаться на ее телеграмм канал Настенька и Графики.

Инжиниринг Данных

21 Jan, 00:19


через 5 минут начинаем))

Инжиниринг Данных

21 Jan, 00:18


Вы как пользуетесь chatgpt на собесах или все «сами с усами»?

Главный навык это научиться решать задачки не привлекая внимания интервьюера. Собеседование теперь как охота на признаки «списывания», поэтому надо уже тренировать не leetcode, а навыки пользования всякими сервисами «без палево». Это я в своем discord предложил прокачивать такой навык:)

Как у вас собесы? Палите кандидатов? И сами пытаетесь списать?

Инжиниринг Данных

21 Jan, 00:17


Недавно мы тут говорил о качестве Co-Pilot, ChatGPT и других инструментов. Из комментариев я понял, что более менее это Cursor + Claude AI.

Я сам ни разу не использовал Cursor и даже не понял, что это такое. Я посмотрел, что это и расскажу в вкратце.

Cursor - это IDE наподобие VSCode, он сразу может все настройки импортировать из существующего VSCode. Дальше, открываем чат и выбираем AI модель, с которой будем работать, как на картинке. По идее он должен понимать ваш code base и ему не надо все copy-paste для контекста.

Мне еще предстоит понять все преимущества и недостатки, но начало хорошее. Возможно придется купить платный Cursor и Claude для максимальной эффективности.

Ссылки:
- Cursor AI IDE
- Claude AI 3.5
- статья Claude vs. Cursor AI: Creating an Intuitive To-Do Web App to See Which Works Better

Поделитесь вашим опытом с IDE + AI ⬇️

Инжиниринг Данных

21 Jan, 00:15


Мы тут обсуждали, что chatGPT не всегда помогает с кодом, зато мне вот помог с пельменями!

Инжиниринг Данных

21 Jan, 00:15


Для меня последние несколько лет использование CI/CD в аналитических проектах это must have, хотя до этого во всех компаниях в РФ мы никогда не использовали.

5 лет в Амазоне тоже обходился без CI/CD. В целом можно было использовать внутренний framework для этого, но совсем было непонятно с чего начинать.

А теперь на всех проектах, где я работаю, обычно первые 2 месяца уходят на создание правильного CI/CD framework или улучшения существующего.

С чего начать, если никогда не работали?

1. Понять GitHub на уровне создания branch, Pull request, Code review, Merge. (Module 0 Surfalytics)

2. Понять для каких задач это подойдет, а для каких нет. Например хранить XLS или Tableau Workbooks не самый лучший способ.

3. Внедрить pre-commit, linting для локальной разработки.

4. Добавить автоматические проверки в CI, начиная с linting/pre-commit и заканчиваю unit tests. Вы можете запускать в CI dbt, spark, pytest и использовать dummy данные или реальные.

У разных продуктов, есть разные способы проверки, например у Looker популярен Spectacles, у AWS Glue есть возможность использовать Glue Spark в контейнере, контейнер с Databricks.

5. Если код деплоится, добавить шаг CD и tags/releases.

Так же можно и для инфраструктуры с использованием Terraform, Helm Values и тп. Например, для Terraform часто используется Atlantis.

И все эти истории всегда killer features для собеседования на дата инженера!

Инжиниринг Данных

21 Jan, 00:12


Хороших выходных, элита.

Инжиниринг Данных

21 Jan, 00:11


Как это знакомо…

Все больше встречаю постов от опытных инженеров, что Co-Pilot/ChatGPT не очень то уж и помогают, а часто даже вредят работе.

Как у вас?

Инжиниринг Данных

21 Jan, 00:09


У меня давно была идея скопировать Data Learn из YouTube (или правильней запрещенная сеть?) в RUTUBE или VK Video.

Оказывается RUTUBE сделал космическую фичу - полностью копировать канал из YouTube, все видео и описания. Жалко, что обложки не копирует =/

Поэтому, чтобы посмотреть видео Data Learn или просто узнать, что такое аналитика и понять нужно вам это или нет совершенно бесплатно, теперь вам не нужен VPN, можете посмотреть на Rutube https://rutube.ru/channel/46386964/ (обязательно подпишитесь!)

В планах добавлять обзоры вакансий РФ по аналитическим профессиям и продолжать Data Learn. Может еще надо GitHub импорто заменить?

PS вопрос к знатокам, какой VPN самый лучший в РФ и какой аналог GitHub используется?

Инжиниринг Данных

21 Jan, 00:08


⚙️ От Postgres к Data Lake

Интересная статья с верхнеуровневым описанием эволюции внутренностей сервиса.

Notions - крутой органайзер с разнообразным функционалом.
Текстовые заметки, картинки, страницы, ... - представлены в виде "блока" в Postgres.

📶 До 2021 - все блоки хранились в 1 инстансе Postgres.
В 2021 стало 20 млн блоков.
Сейчас их 200 млрд. Как они хранятся?

🔡 Данные разбиты на 480 логических шардов, распределенных на 96 инстанцев Postgres.
БД обслуживала разнообразные запросы:
1) пользовательский траффик онлайн
2) оффлайн аналитику
3) машинное обучение

Было решено вынести от Postgres нагрузку 2), 3).

🔀 Воспользовались ETL:
Postgres -> connector -> Debezium -> Kafka -> S3 <- ...аналитика

Проффит:
1) Сэкономленный бюджет
2) Быстрая обработка
3) Новые возможности. Решение помогло быстрее внедрять AI функционал.

Подробности в статье:
https://blog.det.life/how-does-notion-handle-200-billion-data-entities-919b238c2846

Мой перевод на хабре:
https://habr.com/ru/articles/845446/

▶️ А у Вас есть проект с ETL? Какие видите в нём преимущества?

Инжиниринг Данных

21 Jan, 00:08


Кто такой CDO и что он делает?

Chief Data Officer (CDO) — это руководитель, который отвечает за управление и использование данных в организации. Основная роль CDO заключается в том, чтобы создавать и реализовывать стратегию работы с данными, помогая компании эффективно собирать, анализировать, хранить и использовать данные для принятия бизнес-решений.

Основные обязанности CDO:

Разработка стратегии данных: CDO определяет, как данные будут использоваться в организации для поддержки бизнес-целей. Это включает выбор инструментов, технологий и методов для работы с данными.

Управление данными: CDO отвечает за качество, безопасность и управление данными, включая защиту данных и обеспечение соответствия регуляторным требованиям.

Инновации с данными: CDO исследует, как организация может использовать данные для создания новых продуктов или услуг, улучшения процессов или получения конкурентного преимущества.

Аналитика данных: CDO управляет процессами анализа данных для извлечения ценности из них, включая машинное обучение и искусственный интеллект.

Координация с другими отделами: CDO тесно сотрудничает с IT, маркетингом, финансами и другими департаментами, чтобы обеспечить единое понимание и использование данных.

Обеспечение соблюдения законов: CDO следит за соблюдением требований в области конфиденциальности данных и защиты персональной информации.

CDO помогает трансформировать данные в активы компании, которые могут увеличить её ценность и помочь поставленных стратегических целей.

Одно время CDO было очень популярно, потом сошло на нет.

В каждой компании свой подход. Где-то можно встретить CDO (обычно в более традиционных индустриях как финансы), а где-то их нет. Вместо них VP по аналитике, директора по инжинирингу (Software Engineering), CPO (chief product officer).

Мне нравится, что картинка передает суть, что есть два мира и их нужно кем-то соединить, а как роль называется не важно. Главное, чтобы к данным и аналитике был продуктовый подход, и цели для команд аналитики ставились в зависимости от целей организации. В этом плане отлично работают OKR (Objective Key Results).

Как лучше наладить согласованность и сотрудничество между бизнесом и миром данных? И решение не в покупке новых инструментов или программного обеспечения. Необходимо сочетать 50% технических навыков и 50% навыков донесения информации на уровне C-suite.

У кого есть в компании CDO? А если нет, то кто рулит данными?

Инжиниринг Данных

21 Jan, 00:06


Должна быть интересная дискуссия - Beyond Lakehouse Table Formats
The original creators of Delta Lake and Apache Iceberg take on interoperability formats

Хоть посмотрите на людей, кто придумал новый формат таблиц для озера данных и теперь они оба работают в Databricks и мечтают о прекрасном будущем для lakehouse.

Инжиниринг Данных

21 Jan, 00:05


Новая книга - Building Medallion Architectures

In today's data-driven world, organizations must manage and analyze vast amounts of information to deliver the insights that give them a competitive advantage. Many turn to the medallion architecture because it's a proven and well-known design. Yet implementing a robust data pipeline can be difficult, particularly when it comes to using the medallion architecture's bronze, silver, and gold layers—done wrong, it can hamper your ability to make data-driven decisions. This practical guide helps you build a medallion architecture the right way with Azure Databricks and Microsoft Fabric.

Drawing on hands-on experience from the field, Piethein Strengholt demystifies common assumptions and complex problems you'll face when embarking on a new data architecture. Architects and engineers of all stripes will find answers to the most typical questions along with insights from real organizations about what's worked, what hasn't, and why.


Согласно описанию, книга будет посвящена примерам на базе Azure Databricks и Microsoft Fabric.

Я могу сказать, как это работает в Databricks. По факту, если вы строите озеро данных (data lake) или его улучшенную версию lake house (используете формат таблиц Delta, Iceberg), то вы разделяете хранение по уровням хранения данных:

- raw/bronze - может быть просто папка с blob storage, в которую вы грузите/копируете сырые данные и создаете таблицы, то есть абстракции в каталоге (Hive, Unity).

В случае dbt, это будет dbt source. Но dbt и databricks это какое-то modern data извращение.

- staging/silver - вы используете уже таблички из bronze, и делаете трансформации, но все еще данные raw (без агрегации), можете еще добавить joins.

- business/fact/dw/gold слой - там где у вас уже таблицы фактов/витрины/метрики, вы агрегируете данные и используете аналитические функции.

На второй картинке я привел свое решение на основе Microsoft Gaming. Я еще делал решение на Trino/dbt/Iceberg.

То есть medallion architecture просто подразумевает, что у вас есть несколько слоев в хранилище данных, и 30 лет назад когда делали хранилище даже и не догадывались, что они использовали архитектуру миньенчиков.

Инжиниринг Данных

21 Jan, 00:04


Data Engineering tool box выходного дня.

Сегодня будет выступление - Richard Dawkins, чтобы лучше информация воспринималась))