Data Life UA @analyst_ua Channel on Telegram

Data Life UA

@analyst_ua


Rock Your Data
{Chanel}

Admin: @xapa6apga

Our Group: https://t.me/+Ck6jpbqoqy43MTgy
FB: https://www.facebook.com/groups/840586934215534
WebSite: https://data-life-ua.com/

Rock Your Data (English)

Are you passionate about data analysis and eager to learn more about the latest trends in data life? Look no further than 'Rock Your Data' Telegram channel! Managed by the skilled administrator @xapa6apga, this channel is dedicated to providing valuable insights, tips, and resources for data analysts and enthusiasts.

Who is it? 'Rock Your Data' is a Telegram channel created for individuals interested in enhancing their data analysis skills and staying up-to-date with the ever-evolving data industry. It is a platform for learning, sharing knowledge, and connecting with like-minded professionals.

What is it? 'Rock Your Data' offers a wide range of content, including articles, tutorials, webinars, and discussions related to data analysis, data science, and data visualization. Whether you are a beginner looking to build a foundation in data analytics or an experienced professional wanting to expand your expertise, this channel has something for everyone.

Join the 'Rock Your Data' Telegram channel today and take your data analysis skills to the next level! For more information and updates, visit our website at https://data-life-ua.com/ and don't forget to follow us on Facebook at https://www.facebook.com/groups/840586934215534.

Data Life UA

31 Dec, 22:05


Від нашої спільноти від всіх дотичних, хочемо привітати вас з наступаючим Новим Роком! 🥳

По-перше, дякуємо всім захисникам та захисницям, котрі дали нам змогу займатись, тим чим ми займаємось і створювати своє майбутнє🇺🇦❤️
Також вдячний всім, хто нас підтримує, читає нас, допомагає іншим в наших спільнотах
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======

Бажаємо всім, щоб всі ваші цілі виконувались з точністю до 99.9%, не хворійте і розвивайтесь та допомагайте розвиватись іншим🦾

"Хай проблеми та незгоди не роблять вам у житті прогнози"

А також, якщо вам подобається наша діяльність і ви бажаєте почати рік з доброї справи, можете долучитись до збору для військових 210 ОШП Берлінго.
Від 300 грн, є можливість отримати "п*рський" дрон.
FaceBook всі деталі
або
банка для збору
https://send.monobank.ua/jar/8jBiCtgses

І також, якщо ви можете в коментарях, відписати, що вам подобається, що не подобається, які теми ви б хотіли отримувати більше і взагалі будь-який фідбек, будемо раді🤗👇

Всіх з Новим Роком!

Data Life UA

27 Dec, 16:40


Цікава стаття, де DE стикнулися з ситуацію, коли потрібно мігрувати.
🔗Від Redshift до Athena: шлях команди Data Engineering до скорочення витрат на 90% та підвищення продуктивності

Сподобалось що в цій статті, розкладений план дій, як робили, що робили і чому.
Я завжди ставлю такі питання на співбесідах, як одне з найулюбленіших це "В тебе є всі гроші світу, який стек технологій ти обереш і чому?"

Такі питання, дають зрозуміти, як людина міркує і чи може вона пояснити свої дії. Бо інколи буває:
- PostgreSQL нето, потрібно DuckDB
- Чому? в нас жеш вимога ACID (атомарність, консистетність/узгодженість, ізоляція, довговічність)
- зараз модно DuckDB
- 🙈

У нас в спільноті, частенько бувають різні питання з проблемою якогось інструменту, але чомусь іноді рекомендують змінити інструмент, але це не вирішення проблеми. Якщо вже компанія вирішила працювати з таким набором інструментів, то потрібно або звикнути або розробити план з поясненнями, що така міграція дасть нам оце, оце і оце. Якщо бізнес погодиться, почати реалізовувати кроки поступового, плавного переїзду.

Бо гнатись за "модерн" стеком це не завжди гарна ідея, скільки б нових БД не виходило, і скільки б не казали що реляційні БД помруть от-от (приклад з MongoDB (убивця реляційних БД)), воно всеодно буде працювати.

Я це все до того, що зважуйте всі за і проти, і завжди задавайте питання "Чому, Навіщо, Що це нам дасть" перед будь-якими глобальними або не глобальними діями.

"Щоб отримати правильну відповідь, потрібно поставити правильне питання"(с)

======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======

Data Life UA

24 Dec, 08:15


Зростайте в роботі з даними в 2025-му 🎄

До 31 грудня придбайте новорічні сертифікати від robot_dreams та отримуйте знижку до 40% на навчання в наступному році.

Серед курсів, які вже є в розкладі на 2025 рік:

📊 Дата аналітика — опануєте професію дата-аналітика з нуля, пройдете повний цикл аналізу продукту і додасте проєкт у портфоліо.

📗 Аналітика даних в Excel і Power BI — оптимізуєте рутинні завдання, навчитеся працювати з формулами, опануєте аналіз і візуалізацію даних завдяки можливостям Excel і Power BI.

📈 SQL Advanced для аналітики — навчитеся використовувати розширені функції SQL для проведення складної аналітики, оптимізації запитів та ефективної роботи з великими наборами даних.

Як отримати знижку:
👉 залишаєте заявку
👉 обираєте сертифікат — більший номінал = більша знижка
👉 заощаджуєте до 40%
👉 обираєте будь-який курс протягом усього 2025 року

Більше курсів та деталі акції ⬅️

Data Life UA

23 Dec, 08:02


Вже багато часу витратив, щоб зрозуміти як краще будувати архітектуру для PowerBI, щоб було швидко і дешево😆

І зрозумів, що десь 80% користувачів, роблять це не зовсім правильно, а саме:

Встановлюємо PowerBI Desktop, підключаємось до БД та інших джерел даних, в середині робимо "паутинку" зв'язків, щоб ніхто нічого не зрозумів надалі. Публікуємо, в PowerBI online налаштовуємо розклад оновлень і готово.

Цей підхід робочий на 100%, але він децентралізований і не атомарний. Тобто, коли у вас 10ь аналітиків, котрі публікують звіти, існує велика вірогідність, що один набір даних Х1-аналітика, може дорівнювати(дублювати), набір даних Х2-аналітика, або взагалі для всіх🙈
Із-за цього, ми отримуємо багато запитів до БД, на один і той самий набір даних, а це додаткове навантаження на БД + можливо додаткові витрати на читання.

Друга проблема, якщо нам потрібно змінити розрахунок якогось показника, тоді нам потрібно залізти в усі звіти та додати нову дію, а це час.

Як, на мою думку, це має працювати, два варіанти:
1. Це окремі полиці даних (DataMart), так званий бізнес рівень даних - тобто, для PowerBI формуються агреговані дані по всім показникам, котрі потребує бізнес. І вже з ці дані використовує PowerBI.
2. Зробити ці полиці/шухлядки в PowerBI, достатньо зручно це робиться через dataflow/datamart, це аналогічний варіант як і в першому прикладі, але це роблять аналітики, а не DataEngineer (якщо повезло канеша😈)

Цей підхід описується в цій статті
🔗Dataflow Power BI: все, що вам потрібно знати про інструмент самообслуговування ETL

І ці підходи набагато кращі, ніж ви будете робити зі "крижинки" робить ще раз "крижинки", котрі потім буду дуже важко переробить.
А як ви зробили вашу архітектуру?
Обговоримо в наших групах? 👇🏻
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======

Data Life UA

16 Dec, 08:35


Попалась цікава стаття про холівар, а які ж бувають аналітики і що вони виконують

🔗Які бувають аналітики: 10 ролей і ще 3

І на мою думку це реальна проблема, інколи дивишся запропоновані вакансії, шукають DataEngineer, а по факту їм потрібен розробник Django з навичками DevOps.
Або шукають DataAnalyst - а по факту їм потрібен BI Developer
Або шукають АНАЛІТИКА - а по факту, це має бути кіборг машина, котра має мати навички спілкування з замовниками як Sales Manager + має знати всю статистики від алгоритмів до нескінченості + має бути адміністратором DB всіх видів RDBMS + розумітись на архітектурних рішеннях + створення ML/AI/LLM і ще куча всього. І заробітна плата 25 000 грн ГРОСС💩

Коротче, всякі випадки бувають, я б це назвав "повторна альтерація"
Тобто колись, так років 15 назад, не було DevOps, не було DataAnalyst/DataEngineer але були потреби у виділенні деяких специфічних ролей у бізнесі, тобто поглинання частини обов'язків і знань декількох спеціальностей в одну.

DevOps
= адміністратор систем (50%) + розробник (10%) + адміністратор DB (10%) + архітектор (20%) і 10% ще на шось

DataAnalyst - статист статистик(50%) + розробник(10%) + менеджер бізнесу або domain experience (40%)

DataEngineer = адміністратор баз даних (40%) + розробник (30%) + архітектор (20%) + адміністратор систем (10%).

І так далі, а як ви думаєте, чому з'явилось і з'являються такі сегментації і чи погоджуєтесь з висловом вище?
Обговоримо в наших групах? 👇🏻
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======

Data Life UA

05 Dec, 11:23


🌎 Гіганти індустрії, як-от Amazon, Uber та Airbnb, використовують time series forecasting для передбачення майбутніх викликів і виявлення прихованих патернів у своїх даних.

На курсі «Прогнозування та аналіз часових рядів» ви навчитеся перетворювати історичні дані на чіткі прогнози — від простих моделей до сучасних нейромереж.

Після 14 занять ви:
працюватимете з моделями ARIMA та SARIMA
опануєте техніки кросвалідації для часових рядів
навчитеся будувати ансамблеві моделі на основі Random Forest і XGBoost
взаємодіятимете з нейронними мережами (LSTM)

В результаті — зможете будувати моделі прогнозування часових рядів для розв’язання реальних бізнес-завдань, як-от прогнозування попиту, продажів або фінансових показників.

Лекторка — Кристина Ісакова, яка має 7 років досвіду в Data Science, PhD у галузі математичного моделювання.

Старт — 10 грудня

Деталі, програма та реєстрація ⬅️

Data Life UA

25 Nov, 17:01


📣 Запрошуємо вас на щорічну EPAM AUTUMN DATA CONFERENCE 2024 – провідну онлайн-подію для всіх, хто живе даними та хоче бути в курсі новітніх технологічних трендів!
https://epa.ms/17jAJh

📅29 листопада | 🕛 12:00 | 💻 онлайн

👉 На вас чекає:
🔸 Main Stream: Architecture and StoryTelling:
🔸 Stream 2: Engineering Expertise Unleashed:
🔸 Stream 3: Cloud and AI Innovations:

👉 Наші спікери:
📌 JONATHAN RIOUX - Managing Principal, Data Analytics Consulting
📌VASYL LYASHKEVYCH - Manager, Data Analytics Consulting
📌OREST CHUKLA - Senior Software Engineer, Data Analytics
📌 STEPAN NOVIKOV - Senior Solution Architect
📌 THUENER SILVA - Lead Data Scientist, Data Analytics
📌 HONG ONG - Lead Software Engineer, Data Analytics

📩 Участь безкоштовна за попередньою реєстрацією.

Data Life UA

18 Nov, 08:35


Ви коли-небудь чули про EDA (Exploratory Data Analysis)?

🔗Як провести ефективний розвідувальний аналіз даних (EDA)

Це сучасна назва того, що раніше ми могли називати "описуючою статистикою". І якщо ви вже аналізували дані для пошуку закономірностей, очищення помилок або просто краще розуміли, що "ховається" у цифрах, то ви вже частково знайомі з EDA.

Оці нові визначення для мене як нові сленги від зумерів (спуф, чечік, краш і тд). Умовно існують визначенні поняття, котрі існують та існували багато років, але от потрібно зробити шось Modern, фешнбл, щоб було експенсів😆

Тому я завжди підкреслюю, що можливо ви і не знаєте якесь визначення, але існує велика вірогідність, що ви це вже використовуєте, просто не знаєте як воно зараз називається.

Не потрібно лякатись якихось речей, а ще краще це питати у людей у котрих є досвід, вони завжди будуть раді допомогти, можливо не усюди, але в нашіх спільнотах - це так, долучайтесь 🤗

======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======

Data Life UA

13 Nov, 09:01


Було трошки часу і долучився до формування статті і судячи з допису у статті не тільки я🤓

🔗Співбесіда з Big Data Engineer. Понад 200 запитань, практична частина і задачі на логіку

А ще приємно, що наша спільнота зростає і вносить ще більше корисних речей у розвиток напрямку роботи з даними🤗

Я надіюсь, що колись ми всі станемо більш відкритими і не будемо знущатись, заздрити та бути злими, а будемо допомагати один одному і підтримувати, щоб люди у котрих на цей час, є хоча б невеличка жага до цієї справа - вона не вгасала, а тільки збільшувалась!

Тому долучайтесь до наших груп і давайте покращувати цей світ разом🚀

======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======

Data Life UA

06 Nov, 08:30


@oleg_agapov
#data_engineer_ua

Нещодавно на data-life-ua.com з'явився переклад статті "Що таке dbt і навіщо він потрібен маркетинг-аналітику". Ця стаття чудово пояснює суть dbt і його потенційну користь для вас. Однак деякі аспекти в ній вже застаріли або втратили актуальність. Тому я хотів би внести доповнення та додати кілька нових моментів, щоб підвищити цінність статті до колишнього рівня.

🔗DBT – Data Build Tool, а що ще він може

@oleg_agapov
#data_engineer_ua

Data Life UA

14 Oct, 07:02


🔗Що таке dbt і навіщо він потрібен маркетинг-аналітику

DBT (Data Build Tool) – це потужний інструмент, який значно спрощує та автоматизує роботу з даними. Але навіщо він потрібен саме тобі як Data Engineer або Data Analyst? Ось кілька причин:

🚀 Для Data Engineer:

* Оптимізація ETL процесів: DBT дозволяє фокусуватися на трансформаціях даних після завантаження в сховище (ELT), що спрощує роботу з великими масивами даних.
* Модульність: Чисті та організовані SQL моделі спрощують підтримку та масштабування ETL пайплайнів.
* Автоматизація тестування: Інтегроване тестування моделей допомагає уникнути проблем з якістю даних на ранніх етапах.

📈 Для Data Analyst:

Прозорість: DBT допомагає створювати зрозумілі та повторювані трансформації даних, що робить аналітику більш прозорою для команди.
Швидка аналітика: Можливість будувати моделі на основі SQL спрощує та пришвидшує підготовку чистих наборів даних для аналізу.
Співпраця: Легке управління кодом та спільна робота через Git дозволяють створювати та перевіряти моделі даних командою.

Можемо обговорите це в наших спільнотах👇🏻

======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======

Data Life UA

10 Oct, 08:00


@oleg_agapov
#data_engineer_ua

Недооціненний скіл

На мою думку, найбільш недооцінений скіл у нашій галузі — це залишати проєкт у кращому стані, ніж коли ви почали над ним працювати. Розкажу на прикладі.

Нещодавно у мене була задача розширити функціонал SQL-моделі згідно з оновленою бізнес-логікою. Все, що вимагалось від мене, — це відкрити SQL-код, додати новий функціонал і змержити зміни. Але код цієї моделі був жахливий: купа незрозумілих CTE та їх юніонів, потім зверху був ще CASE WHEN, який обробляв крайові випадки. Коротше, я провів десь пів-дня, з'ясовуючи, як мені до всього цього ще додати нову логіку.

Так от, замість того щоб просто додати логіку і зробити Pull Request, я повністю переробив код моделі в частині того функціоналу, який треба було розширити. Більш того, я навіть зробив код коротшим та більш читабельним. Коли я показав новий варіант колезі і спитав, чи він розуміє, що тут коїться, він після кількох хвилин відповів позитивно. Тобто я зменшив ментальне навантаження у кілька разів.

Тому я завжди кажу, що рефакторинг повинен відбуватися постійно, а не тільки тоді, коли на нього вам виділять час. Дуже складно пояснити бізнесу, навіщо вам рефакторити код. Набагато легше переробляти цей код по маленьких частинах кожного разу, коли ви працюєте над суміжними фічами.

Тому завжди залишайте проєкт кращим після себе. Це шлях до зростання, як професійного, так і в житті.

@oleg_agapov
#data_engineer_ua

Data Life UA

08 Oct, 07:25


🔗Інженерія даних в Meta: Огляд внутрішнього технологічного стеку на високому рівні

Якщо брати уявлення виключно зі статті, шо коїться в середині, то виглядає це достатньо складно.
Багато своїх розробок, котрі підтримуються внутрішніми командами, але при цьому якась частина інфраструктури використовують open-source продукти Spark/Presto/Airflow.
Тобто вони беруть за базу вже шось готове і потім його в середині допилюють і дають назву, можливо для таких гігнатів це є нормую.

Скорочений перелік чим користуються🤯
*iData - для пошуку даних за ключовими словами. Умовний довідничок, а що, де лежить.
Presto/Spark - для зберігання та обробки даних, але вони використовують свої внутрішні форки від них.
*Scube - для швидкого відображення логів, шось потипу Kibana.
*Daiquery&Bento - для аналізу даних, потипу ноутбуки на базі Jupiter.
*Unidash - BI система для візуалізації даних.
*Dataswarm - оркестратор на базі Airflow.
...

Але ви просто уявіть скільки вам потрібно буде часу щоб розібратись у самописних продуктах + там мабуть система надання доступів буде просто дика.
Умовно, прийшов на роботу і три місяці чекаєш на доступ до якогось зі сектору даних, а без цього не можеш виконати завдання 😜

Я навпаки за готові рішення, легше знайти людину котра знаю Presto/Trino ніж людину котра знає MySuperMegoFastDB ...
А ви що гадаєте, як буде ліпше?

Можемо обговорите це в наших спільнотах👇🏻

======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======

Data Life UA

04 Oct, 08:10


Цікава історія про комунікацію з AWS🤓
На одному з проектів в нас було завдання переїхати зі старої платформи Legacy (там така срака-мотика була, не передать😆)
На хмарне рішення, і був вибір між AWS та GCP (Azure якось відразу відкинули, бо ніхто з ним не працював).

Була кровава бійка між мною та провідним нашим технічним експертом, бо я пропонував GCP (на той час дуже хотіли додаткову маркетингову аналітику, а це легше робить з GCP), а з іншої сторони вся розробка продукту - так я з цим не стикався, в нас був діалог, а що ж краще. Робити Multi-Cloud я не хотів, тому потрібно було обрати шось одне.

І було відправлено два запити на GCP та AWS. AWS майже відразу відреагував, запропонував супровід, всякі плюшки, навчальні workshop, додаткову підтримку (так як не всі в команді працювали з хмарними сервісами) і в цілому цим і покорили наші серця. Було важко обрати архітектуру - то до нас приїхали представники один з котрих був їх архітектор/інженер і він затвердив архітектуру запропоновану мною, людина була дуже відкрита, все пояснювала, розповідала підводні камені і тд. Для мене це було прям дуже приємно, він не продавав продукт, а розповідав, якщо у вас буде так, тоді краще так, якщо так, тоді ось так... Така підтримка дала можливість побудувати достатньо стійку інфраструктуру та архітектуру - дуже за це вдячний!

Бо я завжди кажу, якщо люди з якоїсь сфери будуть ділитись своїм досвідом, ця сфера буде найкраща в цьому регіоні де це відбувається🤗🇺🇦
Тому не лякайтесь шось питати у спільноті, не бійтесь допомагати.

І ось вам івент, котрий допоможе познайомитись, а як інші спеціалісти виконують ті чи інші рішення

24 жовтня запрошуємо вас на AWS Notes. Chapter 3. Data Engineering від AWS User Group Kyiv.

Третій розділ AWS Notes об'єднає українських та світових спікерів, щоб поділитися викликами, складнощами, досвідом та інсайтами у сфері Data Engineering. На вас чекають:
- 6 Tech Notes, де спікери поділяться своїм досвідом побудови та роботи із системами обробки та аналізу даних
- 2 короткі Snap Talks з концентрованими інсайтами про найсвіжіші технології та практики

З цієї нагоди ми збираємо разом провідних data експертів та сертифікованих AWS спеціалістів, серед яких: Юлія Шологонь з SoftServe, Тарас Сліпець з Flix, Alex DeBrie (AWS Data Hero), Ростислав Мироненко з Booking.com, Дмитро Сірант з OpsWorks та Максим Войтко з Honeycomb Software.

Для більш детальної інформації та реєстрації відвідайте сайт конференції: https://bit.ly/3BpSl9N

Реєструйтеся та до зустрічі!

Data Life UA

25 Sep, 16:05


@oleg_agapov
#data_engineer_ua

Як я роздаю права у Snowflake

Snowflake має дуже гнучку і розвинуту систему роботи з правами доступу. Є так звані ролі, які може створювати адміністратор, і ці ролі можуть мати різноманітні рівні доступу до схем та таблиць. Це дійсно гнучка система, яка дозволяє зробити конфігурацію будь-якої складності.

Крім того, у Snowflake є багато об’єктів та прав доступу до них. Є бази даних, схеми, таблиці, в’ю, формати файлів, стейджі, UDF та багато іншого. Ці об'єкти можна створювати, читати, видаляти, ділитися ними. Існують також FUTURE об'єкти — тобто ті, які ще не створено, але до яких хочеться мати доступ у майбутньому.

Коли я намагався керувати всім цим самостійно, голова йшла обертом. Варіативність того, що потрібно видати, зростає експоненційно.

На минулому проєкті ми використовували декларативний підхід. Тобто вся конфігурація об'єктів була описана у коді, а певний інструмент генерував DDL-код і виконував його для створення об'єктів та надання прав доступу.

Наразі є кілька варіантів для цього:

🔹 Terraform
🔹 Titan
🔹 Permifrost
🔹 SnowDDL

Для себе обрав SnowDDL.

Як це працює: у YAML-файлах створюються конфігурації для ролей, користувачів, воркхаузів. Бази даних і схеми оформлюються у вигляді дерева директорій. За бажанням можна створювати також таблиці.

Потім запускаємо SnowDDL CLI, і він генерує серію DDL-команд. Інструмент також визначає видалені об’єкти й генерує команди DROP. Ми можемо застосувати зміни автоматично або вручну (наприклад, для потенційно небезпечних змін, як DROP).

Таким чином я завжди знаю, хто і куди має доступ, які схеми та бази є в моєму сховищі. Вся команда працює через цю конфігурацію, і ніхто не має права вносити зміни поза цим інструментом.
Зручно🤗

@oleg_agapov
#data_engineer_ua

Data Life UA

18 Sep, 16:09


Ми працюємо, ми об'єднуємось і тепер в нас нова рубрика - авторські пости. 🚀
Олег це одна з тих людей, котра без будь-яких питань, був готовий допомогти мені розібратись зі Spark і я дуже йому вдячний за його допомого та вклад у розвиток спільноти людей, котрі бажають розвиватись в сфері Data, а також безпосередньо продукту Data-Life.❤️🇺🇦

📔👇🏻
Всі інженери при побудові софту завжди намагаються зробити код який легко масштабується до рівня Гугла, або є такий же ефективний як у Амазона і тп. Але реалії підказують що ви не Гугл і насправді є інші критерії за якими треба будувати продукт.

Візьмемо як приклад побудову дата платформи. Коли переді мною стала задача побудови дата платформи для обробки відносно невеликого обсягу даних (~7ТБ на момент старту), я вибрав для себе три головні критерії:

1. Простота використання
2. Легкий моніторинг
3. Максимальна автоматизація

Ось як я це бачу і втілюю у життя.

Простота використання

Простоту використяння я вимірюю так: чи зможе людина не знайома із системою досконально, підтримати її в разі відсутності спеціаліста (мене)? Для цього можна зробити кілька речей.

По-перше, зробіть нормальну документацію по “Getting Started”. Як мінімум, повинна бути дока, яка дає огляд на високому рівні всіх компонентів системи.

Друге, зменшуйте наявність неявних змін та налаштуваннь. Намагайтесь максильно зберігати конфігурацію системи у вигляді коду. Наприклад, видача прав на сховище повинна відбуватись через конфіг, а не через IT спеціаліста який видає хз які права. Таким чином набагато легше котролювати хто має доступ і куди. Я ще розкажу як я зробив це у себе для Snowflake.

Наостанок, використовуйте password manager або secrets store. Досить вже передавати паролі у Слаку або .env файлах.

Легкий моніторинг

Коректний моніторінг допомагає вам розуміти у якому стані ваша система знаходиться зараз.

Встановіть алерти для помилок дата пайплайнів та data quality тестів. Ви повинні знати про багу у даних раніше за бізнес юзерів.

Встановіть freshness тести. Для бізнес юзерів також зробіть показ “Last Updated At” значення на дашбордах із метріками.

Також можна моніторіти версії встановленного софту. Як мінімум дивіться на dependabot від Гітхаба. Також можна встановити 3rd-party порограми для моніторінгу останніх версій пакетів та наявних уразливостей.

Максимальна автоматизація

Намагайтесь мінімізувати ручнe роботу у рутинних задачах.

Наприклад, встановіть CI/CD. Перевіряйте якість коду та лінтінг при кожному PR за допомогою pre-commit хуків. Розберіться із командою де ви бажаєте “leading vs trailing” коми у SQL, та зафіксуйте це у SQLFluff.

А при мержі PR в основну гілку повинен бути пайплайн який деплоїть останні зміни без необходності робити щось вручну. (Іноді звичайно буває і таке, але вже більшіть змін викатується автоматично).

Ще досить новий варіант це робити impact аналіз, тобто на що вплинуть зміни, які ви робите. Наприклад можна дивитись на data-diff, тобто порівняти строки із прода і стейджа. Зараз вже існують цілі компанії які роблять data observability майже автоматично, включаючи аналіз імпакту.

@oleg_agapov
#data_engineer_ua

Data Life UA

17 Sep, 07:33


⚙️ Як обробляти більше 1-го Пбайта даних?

19 вересня
у robot_dreams стартує курс Data Engineering — для тих, хто хоче навести лад в архітектурі даних та опанувати ключові інструменти дата-інженера на практиці.

На курсі ви:
→ розберете рішення обробки Big Data, дізнаєтеся, на що зважати під час розробки системи та як не панікувати, якщо вимоги змінюються
→ навчитесь користуватися Hadoop, Apache Airflow, Apache Spark, SparkSQL
→ побудуєте два пайплайни даних для аналізу продажів на Google Cloud або PySpark і додасте кейс у своє портфоліо

Лектор — Денис Кулемза, Big Data Engineer в Intellias, який працював з великими міжнародними замовниками на кшталт Jabil та Inspire Brands, та запроваджував рішення у сфері логістики та виробництва

Деталі, програма та реєстрація 📌

Приєднуйтесь до курсу та відкрийте для себе новий підхід роботи з даними.

Data Life UA

13 Sep, 08:02


🚀 Хочете підкорити світ дата-аналітики, але не знаєте з чого почати?

🔥 TheWays та найвідоміший ментор для аналітиків-початківців в Україні Роман Повзик запускають бомбезний інтенсив "Як знайти першу роботу дата-аналітиком"!

🤯 Факт дня: 24 менті Романа, яких він взяв на менторство у цьому році, вже працюють в топових IT-компаніях.

Що ви отримаєте за 4 тижні?

План побудови кар'єри, що працює на всі 200%
Секретні фішки для створення killer-резюме
Техніки проходження співбесід зі 100% успіхом
І ще 100500 корисних речей

🎁 Бонус: Доступ до закритої спільноти data-ентузіастів
💣 Спецпропозиція: Спробуйте перший тиждень всього за 99 грн!

Доєднуйтесь 🔥

P.S. Наші випускники вже підкорюють Headway, Jooble, NetPeak Group. Ви наступні?

Data Life UA

12 Sep, 07:07


Зараз дуже важко з часом😭, тому статті публікуюця все рідше, якщо хтось бажає допомогти буду вдячний, потрібні:
* Люди котрі можуть вичитувати статтю
* Можуть робити ctrl+c/ctrl+v

Але ми не здаємось і тому 🚀

Цікавенька стаття про віконні функції SQL
🔗Освоєння SQL «Віконні Функції»: Повний посібник

А ще цікаво, що ця тема більше всього цікавить органічний трафік сайту🤓

Взагалі віконна функція спочатку здається шось дуже складне і не зрозуміло, але вам достатньо пару разів прогнати на одній табличці різну комбінацію по partition by/ order by

Наприклад мені допомогло візуалізувати це в EXCEL, я брав невеличкий кусок від таблиці і спочатку сам рахував те саме змінне середне (moving avg), а потім виконував запит в SQL, якщо результат сходився, тоді я правильно розумію, якщо ні, то звертався за допомогою.

В нашому випадку, завжди раді

======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======

Data Life UA

04 Sep, 16:10


Дуже часто питають які задачі виконує DataEngineer

Ділюсь досвідом 🤓

В групі

🔗Data Engineer UA

будемо обмірковувати ось таку звичайну задачу (дані в першому коментарі)

Вхідні дані, це логи змін статусу(тегу) користувача, якщо користувачу поставили тег, тоді в нього з'являється запис де actions == 'create', якщо видаляють 'delete'.
Потрібно побудувати табличку (data mart) яка буде мати стан тегів для користувача на кожен день.

Умовний приклад очікуємого результату:
Вхідні дані
[
{
"id": 900001,
"user_id": 123,
"tag": "Tag_777",
"created_at": "2024-09-01 22:45:11.000000",
"updated_at": "2024-09-01 22:45:11.000000",
"actions": "create",
"is_by_user": False,
"manager_id": None,
"service": None,
"comment": None,
"years": 2024,
"dates": "2024-09-01",
"p_years": 2024,
"p_dates": "2024-09-01"
}
]


Очікуємий результат
>>
[
{
"date_rep": "2024-09-01",
"user_id": 123,
"tag": "Tag_777"
},
{
"date_rep": "2024-09-02",
"user_id": 123,
"tag": "Tag_777"
},
{
"date_rep": "2024-09-03",
"user_id": 123,
"tag": "Tag_777"
},
{
"date_rep": "2024-09-04",
"user_id": 123,
"tag": "Tag_777"
}
]


Доєднуйтесь до обговорювань🤗

Data Life UA

23 Aug, 07:07


➡️ Чому всім корисно знати SQL?

robot_Dreams поділились гайдом про 7 найпопулярніших запитів SQL, з якими робота з даними стає простішою

навчитися самостійно писати складні SQL-запити та візуалізувати результати для ефективного аналізу даних — допоможе Олександр Сапєльніков, Head of Analytics у Solidgate

29 серпня стартує практичний онлайн-курс SQL для аналітики, на якому ви навчитесь знаходити інсайти, що допоможуть розвивати продукт 🙌🏼

разом з Олександром, — який перевірятиме ваші домашні завдання і даватиме особистий фідбек, — за 11 тижнів ви:

✔️детально вивчите структуру SQL-запитів

✔️працюватимете з MySQL, Google BigQuery, Looker Studio, PowerBI та Tableau для проведення досліджень, обробки та візуалізації даних, пошуку інсайтів та роботи з великими масивами даних

✔️щосереди протягом курсу матимете змогу відточити знання на онлайн-воркшопах

✔️ у фіналі курсу презентуєте проєкт — аналітику та звітність за основними напрямами діяльності певної компанії

Детальніше про курс 🔗

Data Life UA

19 Aug, 07:06


От тільки нещодавно піднімали питання, про BI системи, хто які використовує та що краще і тут попалась стаття (великий брат слухає нас 😆)

🔗 Топ-10 платформ візуалізації даних у 2024 році

В цілому з 10и запропонованих інструментів, я знаю тільки 4🫣 і в більшості випадків, коли спілкуюсь з DE/DA або з BI-engineer, майже в усіх випадках спеціалісти працюють або Looker або PoweBI або Tableau ... Але це я до чого, інструментів може бути і безліч, але не потрібно вчити їх всі,
1️⃣по-перше, є вірогідність що новий продукт, просто не приживиться на ринку. Тобто витратили час невідомо на що...
2️⃣по-друге, набагато легше знайти і адаптуватись на роботі, коли знаєш якісь топові інструменти
3️⃣ і трете, в цілому механізми/принципи роботи якогось сегменту інструментів, реляційні БД, БІ інструменти і тд, мають +/- однаковий підхід. Знаєш одне, розібратись в аналогічній іншій програмі/сервісі буде набагато легше.

Але може у вас інший погляд на це, тому може обговорити це в наших групах

======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======

Data Life UA

23 Jul, 07:06


І знову шось про нове

🔗Що таке потокова(streaming) база даних?

Достатньо цікавий момент але бачу в цьому 4и основні недоліки

* Складність впровадження: Використання потокових баз даних вимагає глибокого розуміння і технічних навичок, що може ускладнити їх впровадження та обслуговування.
* Витрати: Використання хмарних ресурсів для забезпечення масштабованості може бути досить витратним, особливо для великих обсягів даних.
* Вимоги до затримки: Для деяких додатків, які не чутливі до затримки даних, використання потокових баз даних може бути невиправданим з економічної точки зору.
* Не підтримка ANSI: в якийсь момент, якась частину даних ми не отримаємо або вона буде не вірна.

а так в цілому цікавенько-цікавенько
Можемо подискувати на цю тему в наших групах

======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======

Data Life UA

22 Jul, 12:03


📊Data Science експерти з досвідом від 1 до 3 років отримують $2000 згідно дослідження ДОУ. І не дивно, це та галузь, яку так потребують бізнеси сьогодні.


📚Доєднуйся до курсу Data Science від Sigma Software University та навчись затребуваній професії вже цієї осені! Зараз на курс діє рання ціна, тому встигни зареєструватись до 5 серпня включно.

Глибоко занурся у науку про дані на живих сесіях із тренером та відпрацюй знання на 5 практичних воркшопах із Principal Data Scientist-ом Андрієм Салатою.

🔸Коли: 12 вересня
🔸Тривалість: 21 заняття, 10 тижнів
🔸Рання ціна: діє до 5 серпня включно
🔸Програма та реєстрація


🧑🏼‍💻Ця професія підійде тим, хто любить працювати із даними, шукати закономірності й аномалії, має знання статистики та програмування, вміє розповідати історію про дані та презентувати їх

🔗Встигни зареєструватись до 5 серпня включно: ТУТ

Data Life UA

18 Jul, 09:47


І знову трошки про готові рішення з прикладами, прикольна стаття про
🔗ЯК АВТОМАТИЗУВАТИ ДАШБОРД-ЗВІТ ЗА ДОПОМОГОЮ PYTHON, SQL ТА POWER BI

Нічого не додати, не відняти, простий підхід
1. Є Python скрипт, котрий забирає дані з АПІ та кладе їх в БД
2. Є Windows Scheduler - котрий запускає по розкладу цей запит
3. Є SQL Server - котрий зберігає ці дані. Є view котрі збережені запити, для PowerBI
4. Є PowerBI - котрий забирає дані з БД та візуалізує дані.

Як для зрозуміння, для чого використовується Python, DB, PowerBI - топчик!

Вцілому я так робив десь років 7м назад, тільки замість Python було VBA🫣, замість PowerBI був Excel🦾

Принцип той самий, тільки різні інструменти... Зараз, вже все набагато складніше, ех були часи

А як ви створюєте візуалізацію/звітність ? Можемо подискувати на цю тему в наших групах

======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======

Data Life UA

08 Jul, 07:02


🔗PySpark, OOP, Solid, FP і це канеша шось ...

👆👆👆
Не вистачає базового функціоналу телеграма, спробуємо телеграф (пора в Slack переходить по підписці 😆)

======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======

Data Life UA

06 Jun, 07:21


☑️ Перетворювати терабайти даних на інсайти та передбачувати зміни — задача дата-саєнтистів.

Опануйте цю професію з нуля на курсі Data Scientist від robot_dreams, щоб вміти надати поради щодо покращення будь-якого бізнесу.

Вашим ментором буде Дмитро Безущак, Data Scientist / ML Engineer у провідній IT-компанії зі списку S&P 500.

Запрошений лектор — Владислав Яковенко, Engineering Manager у Bolt, який 9+ років у Data Science.

🗯 На курсі ви навчитеся:
▪️кодити на Python та працювати з його бібліотеками
▪️працювати з неструктурованими базами даних
▪️розв’язувати задачі класифікації й кластеризації
▪️автоматизувати обробку, аналіз і візуалізацію Big Data
▪️будувати моделі прогнозування та тренувати нейромережі

В результаті — ви опануєте повний скілсет дата-саєнтиста, додасте проєкт у портфоліо, навчитеся розуміти потреби бізнесу та допомагати знаходити рішення. Будете готовими до співбесіди та розв'язання задач Data Science.

▫️Старт: 19 червня
Програма курсу та реєстрація 🔗

Data Life UA

05 Jun, 15:59


Нещодавно не могли побороть завдання, котре було в наших групах
======
Data Analysis UA - група аналітиків даних
Data Engineer UA - група інженерів
FaceBook - загальна група в ФБ
Twitter (X) - канал Twitter (x)
======

На предмет, знайти ПІБ у тексті, нажаль універсального методи не знайшли, тому що скільки б там про ШІ не казали, людина може створювати такі непередбачувані моменти, шо цей ШІ просто трісне навпіл...

Для мене регулярні вирази також дуже важка справа, ніби все просто, але ці дужки, крапки і все виглядає як настінний напис середньовіччя, тому вирішив трошки позбирати інформації шоб в цьому розібратись

🔗REG_EXP регулярні вирази. Навіщо, як і для чого

А якщо ви знаєте як вирішити таке завдання, долучайтесь до наших груп та давайте допомагати один одному та становитись краще і допомагати іншим ставати розумнішими❤️🇺🇦