Data Whisperer @data_whisperer Channel on Telegram

Data Whisperer

@data_whisperer


Navigating the Big Data Landscape


Интерактивный учебник SQL
https://querynomic.one/#/

по всем вопросам @just_vanich

Data Whisperer (Russian)

Если вы интересуетесь миром больших данных, то канал "Data Whisperer" именно для вас! Здесь вы найдете навигацию по ландшафту больших данных, а также интерактивный учебник по SQL, который поможет вам освоить этот важный инструмент. Канал создан для тех, кто хочет глубже погрузиться в мир аналитики данных и научиться работать с ними более эффективно. Для всех ваших вопросов вы можете обращаться к @just_vanich - эксперту в области данных, который будет рад помочь вам. Присоединяйтесь к сообществу ценителей данных, чтобы узнавать последние тенденции, делиться опытом и расширять свои знания в области аналитики данных!

Data Whisperer

13 Feb, 07:17


TableFlow: Новый подход к обработке потоковых данных с Kafka и Iceberg

В мире потоковой обработки данных появляются всё новые инструменты, которые меняют наше представление о том, как работать с большими объёмами информации.
Один из таких инструментов — TableFlow, концепция, которая объединяет мощь Apache Kafka и Apache Iceberg.

Что такое TableFlow?
TableFlow — это подход, который стирает границы между потоковой обработкой и табличными данными. Он позволяет использовать Kafka как потоковый источник, а Iceberg — как табличное хранилище, обеспечивая гибкость и эффективность в обработке данных.

Почему это важно?
• Гибкость: Вы можете работать с данными как в режиме реального времени, так и в пакетном режиме.
• Масштабируемость: Kafka и Iceberg отлично справляются с большими объёмами данных.
• Упрощение архитектуры: TableFlow уменьшает сложность системы, объединяя потоковую и табличную модели.

Как это работает?
1. Данные поступают в Kafka.
2. С помощью TableFlow они преобразуются и записываются в Iceberg-таблицы.
3. Вы можете анализировать данные как в реальном времени, так и в историческом контексте.

Если вы хотите глубже разобраться в теме, рекомендую прочитать оригинальный пост: TableFlow: The Stream-Table Kafka-Iceberg Duality.
Так же запись
Apache Kafka Meets Apache Iceberg: Real-Time Data Streaming • Kasun Indrasiri • GOTO 2024

@data_whisperer

Data Whisperer

05 Feb, 10:17


🦀 Как Rust тихо захватывает экосистему Python

В последнее время наблюдается интересная тенденция - Rust становится секретным ингредиентом многих инновационных инструментов Python. Как разработчик, ежедневно работающий с Python, я с интересом наблюдаю за эволюцией экосистемы.
Вот наиболее интересные проекты:

• Ruff: этот линтер работает невероятно быстро по сравнению с традиционными линтерами Python. Почему? Он написан на Rust. Речь идёт об ускорении в 10-100 раз.

• UV: ещё один инструмент, написанный на Rust - быстрый и надёжный установщик пакетов Python. UV как более быстрая альтернатива Poetry способная значительно ускорить установку зависимостей.

• Polars: эта библиотека DataFrame конкурирует с Pandas по производительности. И угадайте что? Под капотом - Rust.

• Maturin: делает создание Python-расширений на Rust предельно простым.

Самое интересное, что большинство Python-разработчиков даже не осознают, что используют инструменты на базе Rust. Похоже, Rust становится негласным помощником Python в вопросах производительности.

А что вы думаете об этой тенденции? Пробовали создавать расширения Python с помощью Rust?

@data_whisperer

Data Whisperer

04 Feb, 07:38


SQL injection

Data Whisperer

03 Feb, 09:34


Langflow

Langflow - новый визуальный фреймворк для создания мультиагентных приложений и систем на основе RAG (Retrieval-Augmented Generation).

🔑 Ключевые особенности:
• Открытый исходный код
• Работает на Python
• Полностью настраиваемый
• Поддерживает различные LLM и векторные хранилища

💡 Интуитивно понятный интерфейс позволяет легко управлять AI-компонентами, что дает разработчикам возможность быстро создавать прототипы и воплощать свои идеи в реальные решения.

👨‍💻 Независимо от того, опытный ли вы AI-разработчик или только начинаете свой путь, Langflow предоставляет все необходимые инструменты для реализации ваших AI-проектов.

Data Whisperer

03 Feb, 06:24


Что такое ИИ-агенты?

ИИ-агент - это программное обеспечение, которое может взаимодействовать с окружающей средой, собирать данные и использовать их для достижения заданных целей. ИИ-агенты могут выбирать наилучшие действия для достижения этих целей.

Ключевые характеристики ИИ-агентов:
Агент может выполнять автономные действия без постоянного вмешательства человека. При этом они могут иметь человека в цикле для сохранения контроля.

• У агентов есть память для хранения индивидуальных предпочтений и возможности персонализации. Они также могут хранить знания. Языковая модель может выполнять функции обработки информации и принятия решений.

• Агенты должны уметь воспринимать и обрабатывать информацию из окружающей среды.

• Агенты также могут использовать инструменты, такие как доступ в интернет, интерпретаторы кода и API-вызовы.

• Агенты могут взаимодействовать с другими агентами или людьми.

Существуют различные типы ИИ-агентов: обучающиеся агенты, простые рефлексивные агенты, рефлексивные агенты на основе модели, целевые агенты и утилитарные агенты.
Система с ИИ-агентами может быть построена с использованием различных архитектурных подходов:

Одиночный агент: Агенты могут служить персональными помощниками.

Мульти-агент: Агенты могут взаимодействовать друг с другом в режиме сотрудничества или конкуренции.

Человек-машина: Агенты могут взаимодействовать с людьми для более эффективного выполнения задач.

Использовали ли вы ИИ-агентов?

Data Whisperer

30 Jan, 18:03


𝐃𝐞𝐥𝐭𝐚 𝐋𝐚𝐤𝐞 𝐯𝐬. 𝐀𝐩𝐚𝐜𝐡𝐞 𝐈𝐜𝐞𝐛𝐞𝐫𝐠:

Пост на substack

TLDR

🔹 Delta Lake создан для Spark-heavy workflows , предлагает тесную интеграцию с Databricks и беспрепятственный прием потоковой передачи.

🔹 Apache Iceberg спроектирован с учетом совместимости нескольких движков, что делает его идеальным выбором для команд, совместно использующих Spark, Trino, Flink и Snowflake. Метаданные имеют значение.

Распределенная модель Iceberg легко масштабируется, а журнал транзакций Delta Lake может создавать узкие места за пределами Spark.

Эволюция схемы? Iceberg позволяет изменять столбцы без перезаписи данных, а Delta требует явных действий по слиянию.

Разделение? Айсберг автоматически адаптируется; Delta нуждается в предварительно определенных разделах, что часто требует дорогостоящей перезаписи.

🚀Преимущество в производительности? Iceberg представляет файлы Puffin для расширенной оптимизации запросов, чего не хватает Delta Lake.

💡 Что выбрать? Если вы ставите олл-ин на Spark и Databricks, выбирайте Delta.

Нужна межплатформенная гибкость? Айсберг побеждает.

А с каким табличным форматом работаете вы?

@data_whisperer

Data Whisperer

29 Jan, 16:27


Сегодня в 21:30 на канале СТАФФ инженеры будет стрим про современные базы данных.

Стрим на основе статьи, про которую был пост в канале.

Data Whisperer

29 Jan, 11:35


State of Open Source Read-Time OLAP Systems 2025

2024 год стал значимым для развития OLAP-систем с открытым исходным кодом. В данной статье рассматриваются основные тренды и технологии, которые будут определять развитие отрасли в 2025 году.

Ключевые тренды 2024 года:

• Apache Doris укрепил свои позиции как один из лидеров рынка, особенно в Китае

• ClickHouse продолжает активное развитие, фокусируясь на улучшении производительности и расширении функционала.
Так же Clickhouse остается безусловным лидером по всем направлениям.

Что ожидать в 2025:
Технологические тренды

• Развитие гибридных архитектур, объединяющих преимущества различных OLAP-систем
• Рост популярности облачных и serverless-решений
• Углубление интеграции с инструментами искусственного интеллекта и машинного обучения
• Фокус на real-time аналитику и потоковую обработку данных

Бизнес-тренды

• Увеличение спроса на специалистов по OLAP-системам
• Рост инвестиций в развитие open-source решений
• Расширение использования OLAP в средних и малых компаниях
• Повышение требований к безопасности и соответствию регуляторным нормам

💡 Интересные факты:
• За последний год количество проектов, использующих open-source OLAP решения, выросло более чем на 40%
• Более 60% крупных компаний планируют миграцию на open-source OLAP-системы в ближайшие 2 года
• Объем данных, обрабатываемых OLAP-системами, увеличился в 2.5 раза за последний год.

📊 Прогнозы на будущее:
Ожидается, что рынок open-source OLAP-систем продолжит активный рост, а конкуренция между различными решениями приведет к появлению новых инновационных функций и улучшению производительности существующих систем.

@data_whisperer

Data Whisperer

29 Jan, 09:40


Data Contracts

Низкое качество данных угрожает ‘дата командам’, рискуя доходами и доверием. Контракты данных решают эту проблему, обеспечивая качество данных посредством четких определений, владения и соблюдения требований CI/CD.
В этом руководстве рассматриваются основы архитектуры контрактов данных, от ее значения для реальных приложений и стратегий реализации, а также пропагандируется ее внедрение в организациях.

Скачать книгу можно по ссылке

Data Whisperer

24 Jan, 09:34


DLT Fundamentals: Бесплатное обучение с сертификацией

Хотите углубить свои знания в области DLT? У вас есть отличная возможность!

Что предлагается:

- Бесплатный курс от DltHub
- Практические задания с проверкой
- Сертификат по окончании

Важно: Следующий поток с проверкой домашних заданий и выдачей сертификатов стартует в марте 2025.

Почему стоит участвовать:

- Актуальные знания в сфере DLT
- Практический опыт работы с технологией
- Документальное подтверждение навыков

Материалы уже доступны для самостоятельного изучения:

https://github.com/dlt-hub/dlthub-education/tree/main/courses/dlt_fundamentals_dec_2024

Про DLT уже был пост на канале.

@data_whisperer

Data Whisperer

20 Jan, 09:53


Apache Airflow® Best Practices: ETL & ELT Pipelines

44 страницы исчерпывающего руководства по одному из самых распространенных сценариев использования в data engineering на ведущем open-source оркестраторе!

Что вы узнаете из руководства:

📊 Сравнение ETL vs. ELT для вашей архитектурной стратегии - какой подход выбрать и почему.

💡 Лучшие практики написания DAG в Airflow - как создавать эффективные и поддерживаемые пайплайны.

⚡️ Ключевые функции для улучшения ваших ETL & ELT пайплайнов - поднимите свои процессы обработки данных на новый уровень.

Станьте экспертом в оркестрации данных с этим подробным руководством!

Скачать можно по ссылке

@data_whisperer

Data Whisperer

19 Jan, 09:28


SQL Squid Game

Представьте себе: вас только что наняли на должность Data Scientist в загадочную организацию Squid Game. Front Man, руководитель игр, заманил вас обещаниями полностью удаленной работы и возможностью работать с передовым ИИ.
Но... сюрприз!
Классическая ситуация в мире данных: вас обманули.

Вместо обещанного вы получаете:
- Product Analytics на SQL.
- Гибридный график (5 дней в офисе, 2 дня возможно удаленно).

И пока вы размышляете о том, как бы пожаловаться на Reddit, Front Man приставляет пистолет к вашей голове и требует ответы на бизнес-вопросы.
Теперь ваша задача - писать SQL-запросы, чтобы выжить!

Готовы проверить свои навыки SQL в экстремальных условиях? Присоединяйтесь к игре!

Data Whisperer

18 Jan, 14:48


Вместе с коллегами мы накопали для вас крутые telegram-каналы про Data Engineering!

В нашей подборке вы найдете классные каналы про:

🔹 ETL/ELT - всё о том, как правильно готовить данные

🔹 Data pipeline - собираем потоки данных как конструктор

🔹 Big Data - работаем с огромными массивами данных

🔹 Data Warehouse - строим хранилища данных

🔹 Инструменты DE - все самые интересные новинки

Присоединяйтесь к нам - будем вместе следить за всем новым в Data Engineering!

📁 Вот тут все каналы:

https://t.me/addlist/a1B07iwrPxUxNWIy

Data Whisperer

08 Jan, 16:40


Бесплатные курсы по ИИ от ведущих компаний и университетов!

Хотите освоить искусственный интеллект в 2025 году? Google, Harvard и другие технологические гиганты предлагают бесплатные курсы! Вот 8 отличных вариантов:

1. Курсы Google AI
Google предлагает 5 различных курсов для изучения генеративного ИИ с нуля. Начните с введения в ИИ и получите полное понимание искусственного интеллекта.
🔗 Подробнее о курсах Google

2. Курс Microsoft по ИИ
От основ до нейронных сетей и глубокого обучения - Microsoft предлагает комплексный курс по ИИ.
🔗 Перейти к курсу Microsoft

3. Введение в ИИ с Python от Harvard
7-недельный курс от Гарвардского университета по изучению концепций и алгоритмов ИИ. Включает практику с библиотеками машинного обучения.
🔗 Записаться на курс Harvard

4. Промпт-инженерия для ChatGPT
6 модулей от Университета Вандербильта научат вас эффективно формулировать запросы к ChatGPT.
🔗 Изучить промпт-инженерию

5. Промпт-инженерия для разработчиков
Курс от OpenAI и DeepLearning с преподавателями Иса Фулфорд и Эндрю Нг. Практические занятия и лучшие практики.
🔗 Начать обучение

6. LLMOps
Новый курс от Google Cloud и DeepLearning. Научитесь работать с pipeline для обработки данных и настройки пользовательских языковых моделей.
🔗 Изучить LLMOps

7. Большие данные, ИИ и этика
4 модуля от Калифорнийского университета в Дэвисе о больших данных и Watson от IBM.
🔗 Узнать об этике ИИ

8. Приложения ИИ и промпт-инженерия
Вводный курс от edX по промпт-инженерии с углублённым изучением и созданием собственных приложений.
🔗 Начать обучение на edX

Data Whisperer

07 Jan, 18:22


🎓 Data Engineering Zoomcamp: Бесплатный курс стартует на следующей неделе!

Отличные новости для всех, кто интересуется Data Engineering! Уже в следующий понедельник начинается бесплатный курс, который охватит все ключевые аспекты работы с данными.

📚 Программа курса:
Модуль 1: Контейнеризация и Infrastructure as Code

Модуль 2: Оркестрация рабочих процессов

Практикум 1: Инжестинг данных

Модуль 3: Data Warehouse

Модуль 4: Analytics Engineering

Модуль 5: Пакетная обработка данных

Модуль 6: Потоковая обработка

🔗 Все материалы курса доступны на GitHub:
https://github.com/DataTalksClub/data-engineering-zoomcamp

Не упустите возможность прокачать свои навыки в Data Engineering!

Data Whisperer

06 Jan, 16:24


Benchmarking Batch Processing Tools

Сравнительный анализ инструментов пакетной обработки данных

📊 Пользователь с Reddit провел бенчмаркинг популярных инструментов для обработки больших данных на датасете из 160 миллионов слов!

Сравнивались:
• Spark (Scala)
• PySpark
• Hadoop
• Apache Beam (Java)
• Polars (Rust)
• Pandas

🔍 Особенности проекта:
• Все тесты можно воспроизвести локально простыми командами
• Хотя точные значения времени выполнения могут варьироваться, рейтинг производительности остается стабильным
• В статье подробно разобраны причины различий в производительности каждого инструмента

🔗 Подробности:
GitHub: github.com/VOSID8/Batch-Processing-Benchmark
Статья на Medium: medium.com/@siddharthbanga/benchmarking-batch-processing-tools-performance-analysis-26a8c844c4ce

Data Whisperer

05 Jan, 16:47


10 Lessons Learned In 10 Years Of Data

Интересным материалом о том, как изменилась сфера работы с данными за последнее десятилетие. Несмотря на то, что оригинальное видео не новое, выводы остаются актуальными и сегодня.

📝 Для удобства материал доступен в двух форматах:
• Видео-версия
• Текстовые посты: часть 1 и часть 2

Основные выводы 🎯

1️⃣ Облака не забрали наши рабочие места
Наоборот, создали новые возможности для развития.
2️⃣ "Безлимитные" облачные ресурсы могут создавать проблемы
Важно грамотно планировать и оптимизировать использование.
3️⃣ Data Science оказался не совсем таким, как ожидалось
Реальность отличается от изначальных представлений.
4️⃣ Важно находить баланс в работе с пользователями
Быть доступным, но сохранять профессиональные границы.
5️⃣ Роль дата-инженера слишком обширна
Требуется более четкая специализация.
6️⃣ Open-source стал стандартом индустрии
Открытые решения доминируют на рынке.
7️⃣ Выбор облачного провайдера в России
Yandex Cloud и VK Cloud - основные игроки на российском рынке.
8️⃣ Необходима консолидация стека данных
Важно стремиться к унификации инструментов.
9️⃣ Работа с данными - это разработка ПО
Требуются навыки программирования и инженерный подход.
🔟 Python и SQL - хорошо, Rust - эффективно
Рекомендую книгу "Rust for Data" для углубления знаний

Data Whisperer

05 Jan, 15:42


📚 Deciphering Data Architectures: A Guide Through Data Warehouse, Data Lake, and Data Lakehouse

Книга вышла в издательстве O'Reilly в 2024 году и уже успела стать важным ресурсом для специалистов в области данных.

🔑 Ключевые моменты:
- Детальный разбор трёх основных архитектур: хранилища данных (Data Warehouse), озёра данных (Data Lake) и гибридного решения Data Lakehouse.
- Практические примеры реализации каждой архитектуры с учётом современных технологий.
- Рекомендации по выбору оптимальной архитектуры под конкретные бизнес-задачи.

💡 Для кого эта книга:
Data Engineers и Data Architects
Solution Architects, работающие с большими данными
Technical Leaders, принимающие решения о выборе архитектуры данных.

👍 Сильные стороны:
Актуальность материала и современный взгляд на архитектуры данных.
Баланс между теорией и практикой.
Чёткая структура и понятное изложение сложных концепций.

📌 Вердикт: must-read для всех, кто работает с архитектурами данных или планирует развиваться в этом направлении. Книга поможет систематизировать знания и принимать более взвешенные решения при проектировании data-решений.
Книга достаточно небольшая, можно прочитать за пару дней.

Data Whisperer

03 Jan, 09:14


No time for staging

Босс: Скрипт миграции схемы уронил прод. Кто это сделал?

DBA: Это вызвало deadlock.

Security: Произошла утечка паролей?

Dev: Нет времени проверять на stage. Это было срочно

Data Whisperer

02 Jan, 12:34


Zasper

High Performance IDE 🚀 Massive concurrency 🐥 Inspired by Jupyter

Zasper - это интегрированная среда разработки (IDE), спроектированная с нуля для поддержки массивной параллельной обработки. Она обеспечивает минимальное потребление памяти, исключительную скорость и возможность обработки множества одновременных подключений.
Она отлично подходит для запуска приложений для обработки данных в стиле REPL, где Jupyter notebooks являются одним из примеров.
В настоящее время Zasper полностью поддерживается на Mac с ограниченной поддержкой на Linux.

Data Whisperer

30 Dec, 10:09


DBT Best Practices в действии: опыт проекта California Integrated Travels

TL;DR:
что у них сработало:

Четкое определение объема изменений с подробными комментариями и шаблонами PR

Автоматический отчет о влиянии на данные в каждом PR

Тщательное QA через сравнение prod и dev данных

🤔 Почему это важно?

С ростом популярности dbt проекты становятся все масштабнее, а количество людей, работающих с данными, постоянно растет. В таких условиях поддержание качества данных и стабильности production-среды становится серьезным вызовом.

📊 О проекте Cal-ITP:

- Почти 400 dbt моделей

- Охватывает платежи, расписания, остановки и даже переводы

- Сложная структура данных (хотя точные объемы не раскрываются)

💡 Ключевой вывод:

правильные практики разработки и тестирования критически важны для масштабных dbt проектов.

Статья на medium

Data Whisperer

23 Dec, 13:05


Думаю, если вы читаете этот текст, то наверняка знаете, что в этом году я освоил новый для себя редактор кода -- Neovim. Даже плейлист на ютубе про это есть. Поэтому повторяться не буду, коротко перечислю очевидные преимущества владения навыком уверенного редактирования в nvim/vim: нет мышки, терминал-нэйтив => на сервере как дома, движуха в комьюнити, выглядит "круто". 

Это то, что мы можем наблюдать при первом приближении к редактору, и, честно говоря, это слабые аргументы в пользу того, что бы месяц потратить на изучение непривычных комбинаций клавиш. 

Цель этого поста -- поделиться опытом фулл-тайм использования Neovim и подсветить моменты, которые можно назвать инсайтом, озарением, штукой, меняющей восприятие чего-то на "до" и "после".  Погнали. 

Уверенное владение Neovim-ом принесло в мою жизнь свободу. Да, вы не ослышались. Изучив vim моушены, прочитав книгу Practical Vim, посмотрев пять плейлистов на ютубе, прочитав блог Learn Vim (the Smart Way), записав собственный плейлист по изучению Neovim, заставив себя пыхтеть в терминале, нервничать, идти перпендикулярно окружающим, -- я почувствовал себя свободным. 

Что я имею в виду под словом "свобода" в этом посте? 

Первое. Свобода внутренняя. Мне больше не нужно придумывать логичные отговорки на тему того, почему я не буду делать X. X -- не имеет смысла, X -- задача другой команды, пусть они ворочают свои конфиги на серверах сами. Мое дело -- писать код.

Нооо ведь X -- это просто зайти на сервер по ssh, скопировать директорию etc/x, в etc/x.new и поправить пять строчек в конфиге, запустить сервис на другом порту и проверить curl-ом несколько методов ииии закомитить.  Минут 10 вроде, не больше? Зачем разговоры про другие команды? Зачем планировать митинг, писать агенду, пытаться объяснить что надо сделать? Ты же сам это можешь. Или нет?

Овладев Nvim-ом, я автоматически стал ближе к командной строке на пару порядков. Это означает, что мне проще зайти на сервак и сделать то, что нужно. Это тупо быстрее, чем просить кого-то. Или задачу в жире заводить. Или что мы там обычно делаем. 

Это я называю свободой внутренней. 

Второе. Свобода внешняя. Вот говорят вам все вокруг, что инструмент Y -- самый технологичный. Он умеет и A и Б и Ц и даже, Е А Б Ц одновременно! Порог вхождения -- нулевой. Ай-йай из коробки пол проекта напишет и даже джавадоки сгенерирует сам! Нахуй тебе этот neovim? Будь современным и используй крутые инструменты, а не форк дедовского vim, vi, ed.  

Да, этот инструмент Y пишет одна компания. Да, компания может собирать твои логи. Да, компания может ограничить доступ к продукту. Да. 

Пизда. Я не хочу зависеть от компании. Vi и командная строка всегда будут на сервере, где бы он не находился. Я всегда смогу спокойно написать код в этом редакторе, не опасаясь, что завтра этот редактор кода станет недоступным. 

Как же я без удобной интеграции с гитом, докером, спрингом, мавеном?  Как я буду ревьювить? Как коммитить? Что мне делать, если нужно подключиться к базе данных? 

Оказывается, все это можно делать и без Y. И ничего сложного в этом нет. Нужно лишь потратить месяц своего времени на изучение дедовского vim и соответствующих терминальных утилит. Месяц -- так ли это много на отрезке всей карьеры? 

Это я называю свободой внешней. 

До завтра.

Data Whisperer

22 Dec, 15:14


Программисты прогматик: Багаж знаний и изучение новых языков

Сейчас читаю книгу "Программист-прагматик" и хочу поделиться интересными мыслями об изучении языков программирования.

Автор предлагает изучать новый язык программирования каждый год. У меня двоякое отношение к этому совету:

За: Расширяет кругозор и понимание разных подходов к решению задач

⚠️ Против: Важнее сначала глубоко освоить свой основной язык

Мой текущий опыт подтверждает эту дилемму. Изучаю Clojure для своего проекта и столкнулся с отсутствием привычного функционала - нет встроенного Swagger как в FastAPI. Приходится либо писать документацию вручную, либо интегрировать сторонние библиотеки.

💡 Мой вывод: Изучение новых языков полезно, но только после того, как вы действительно освоили свой основной инструмент. Это позволит:

• Лучше понимать сильные и слабые стороны разных подходов

• Осознанно выбирать инструменты под конкретные задачи

• Расти как специалист, не распыляя внимание

Data Whisperer

22 Dec, 11:02


База для Data Engineer

Сегодня поговорим о том, какие скиллы нужно развивать DE. 🚀

В Data Engineering обычно приходят двумя путями:

- ▫️ Backend разработчики с опытом
- ▫️ Аналитики данных и специалисты смежных областей

Если для первых переход относительно простой, то вторым придется серьезно подтянуть техническую часть.

🎯 Вот топ-5 ресурсов, которые помогут вам освоить необходимые навыки:

1️⃣ Основы Linux
Курс "Введение в Linux" - must have для работы с терминалом

2️⃣ Базы данных
Fundamentals of Database Engineering - лучший курс для понимания СУБД

3️⃣ Python
Два отличных курса от Сергея Балакирева:
• Базовый Python
• Python ООP

4️⃣ Оркестрация
Выбирайте, что больше нравится:
• Airflow Academy
• Dagster University

5️⃣ Практика
DE Zoomcamp - бесплатный курс с реальными проектами


Я лично прошел все перечисленные курсы.
Это не просто список рекомендаций - это проверенный путь, который помог мне стать Data Engineer'ом.

Путь Data Engineer - это увлекательное путешествие, которое требует постоянного обучения и практики.
Начните с основ, постепенно наращивайте свои навыки, и не забывайте практиковаться на реальных проектах.
Помните, что технологии постоянно развиваются, поэтому важно следить за новыми инструментами и подходами в области Data Engineering.

Data Whisperer

22 Dec, 09:30


Effective Python Developer Tooling in December 2024

Хочу поделиться списком инструментов, которые делают работу с Python более эффективной в этом году.

Особенно впечатляет, как сильно этот список отличается от того, что мы использовали год-два назад.

🚀 Главные открытия года:

UV (@astralsh) Новый супербыстрый менеджер пакетов, заменяющий pip, poetry и virtualenv. Главная фишка - можно установить без Python!

Ruff (@astralsh) Молниеносный линтер и форматтер кода. Заменяет black, flake8 и isort. Автоматически исправляет большинство проблем с кодом.

Mypy
Проверка типов для Python. Ловит ошибки до запуска кода. Ждём альтернативу от Astral!

Pytest
Простой, но мощный фреймворк для тестирования. Параметризованные тесты, фикстуры - всё, что нужно.

🛠 Полезные утилиты:

• Cookiecutter + Cruft - генерация структуры проектов

• IPython - продвинутая консоль Python

• VS Code - лучшая IDE для Python

• pre-commit - автоматизация проверок кода

• direnv - управление окружением проекта

💡 Выводы:

Инструменты Python развиваются стремительно
Согласованность инструментов в команде критически важна
Изучайте документацию своих инструментов
Не бойтесь пробовать новое.

Полный пост тут

Data Whisperer

20 Dec, 07:28


AI Agents Market Landscape - Ecosystem

Интерактивная карта AI агентов - удобный инструмент для навигации по экосистеме искусственного интеллекта.

🔍 Что особенного в этой карте:

Наглядное представление всех основных игроков рынка AI агентов.
Удобная категоризация по типам и назначению.
Возможность быстро найти нужного агента под ваши задачи.
Регулярные обновления с появлением новых решений.

🔄 Ресурс постоянно обновляется, отражая динамичное развитие индустрии AI агентов.

Data Whisperer

19 Dec, 13:46


🚀 Создание систем реального времени с NATS и Pathway: альтернатива Apache Kafka и Flink

Интересным туториал от сообщества Pathway, который показывает, как использовать NATS и Pathway вместо традиционной связки Kafka + Flink.

📚 В туториале вы найдете пошаговые инструкции, примеры кода и реальный пример мониторинга. Вы узнаете, как упростить работу с потоками данных, сохраняя при этом возможность обработки больших объемов информации в режиме реального времени.

🔑 Ключевые преимущества:

• Простая интеграция: Нативные коннекторы Pathway для NATS
• Высокая производительность: Быстрая доставка сообщений и обработка в реальном времени
• Масштабируемость: Легкое масштабирование благодаря кластеризации NATS
• Гибкость форматов: Поддержка JSON, plaintext и raw bytes
• Легковесность: Простая модель pub/sub без сложностей Kafka-кластера
• Продвинутая аналитика: Поддержка ML, обработки графов и сложных преобразований

📝 Подробности и код:
https://pathway.com/blog/build-real-time-systems-nats-pathway-alternative-kafka-flink

Data Whisperer

18 Dec, 13:40


Data Scientist Handbook

Нашел отличный GitHub-репозиторий с тщательно подобранными ресурсами для изучения Data Science. Здесь собрано всё необходимое для успешного старта в 2025 году:

📊 Основы статистики и математики

🐍 Python для анализа данных

🤖 Машинное обучение

🧠 Нейронные сети и deep learning

📈 Визуализация данных

💼 Практические проекты

🔗 Полезный ресурс для всех, кто хочет развиваться в Data Science: Data Scientist Handbook