Это разве аналитика? @eto_analytica Channel on Telegram

Это разве аналитика?

@eto_analytica


Привет, я Андрей @ab0xa, bi / de / java dev

Анализ данных и визуализация, интересные ссылки, вакансии, уроки, юмор) и личный опыт

Стек технологий Python, Java, SQL, Tableau, Knime, Yandex.Облако, Yandex DataLens

Это разве аналитика? (Russian)

Приветствуем вас на канале "Это разве аналитика?"! Меня зовут Андрей, я разработчик bi / de / java и приглашаю вас присоединиться к нашему каналу @eto_analytica. Здесь вы найдете анализ данных и визуализацию, интересные ссылки, вакансии, уроки, юмор, а также личный опыт в сфере аналитики. Наш стек технологий включает Python, Java, SQL, Tableau, Knime, Yandex.Облако, Yandex DataLens. Если вы интересуетесь аналитикой данных, хотите узнать новое и поделиться опытом с единомышленниками, то этот канал для вас. Присоединяйтесь к нам и давайте вместе развиваться и делиться знаниями в области аналитики!

Это разве аналитика?

13 Jan, 11:32


Это мой сегодняшний день

Это разве аналитика?

12 Jan, 06:21


Проектирование DWH. Data Modeling. Kimball, Data Vault 2.0, Anchor Modeling

https://ivan-shamaev.ru/data-modeling-dwh-kimball-scd-types-data-vault-2-anchor-modeling/

Это разве аналитика?

11 Jan, 05:05


Исследование рынка BI 2024 года

Интересное исследование от Visiology рынка BI. В нем утверждается, что тройка мировых лидеров по-прежнему сильно лидирует на отечественном рынке и спрос на спецов по ним высокий. Чтобы я хотел дополнительно посмотреть, так это на сегменты бизнеса.

Крупный бизнес и гос. компании вряд ли будут активно развивать направление BI на ушедших инструментах, а это основной рынок для вендоров и внедрения их партнерами. Также растить свою экспертизу внутри на инструментах, которые официально не поддерживаются для них большой риск.

Возможно часть среднего и мелкий бизнес с целью экономии и используют решения мировых лидеров, т.к. для них риски не так высоки, как для более крупных компаний.

Ради интереса посмотрел динамику запросов по тройке лидеров в Wordstat от Яндекса. По Power BI и Qlick в целом изменений не заметно, а вот по Tableau явный тренд на снижение.

Интересно узнать ваше мнение по рынку и по обзору

Это разве аналитика?

10 Jan, 10:41


📉Как снизить риски, связанные с требованиями к IT-системе

Как бы мы хорошо не запланировали работы, всегда может что-то пойти не так. Поговорим о том, как управлять рисками, не позволить этим непредвиденным ситуациям сломать работу и повлиять на результат.

На уроке разберем:

- Кратко о рисках и способах управления ими;

- Риски выявления источников требований;

- Риски формирования требований к системе;

- Риски управления требованиями при изменениях.

В результате вебинара: Познакомимся с понятием рисков, их влиянием на результат и узнают о приемы управления рисками, связанными с требованиями, для снижения их влияния.

👉Записаться на урок и подробности о курсе Системный аналитик. Advanced.
https://clck.ru/3FfaJh

Реклама. ООО «Отус онлайн-образование», ОГРН 117774661857

Это разве аналитика?

09 Jan, 13:45


Чеклист для разработчиков по подготовке к техническому собеседованию — bool.dev
https://bool.dev/blog/detail/checklist-dlya-deva-po-podgotovke-tech-interview

Это разве аналитика?

09 Jan, 06:33


Бесплатные курсы по ИИ от ведущих компаний и университетов!

Хотите освоить искусственный интеллект в 2025 году? Google, Harvard и другие технологические гиганты предлагают бесплатные курсы! Вот 8 отличных вариантов:

1. Курсы Google AI
Google предлагает 5 различных курсов для изучения генеративного ИИ с нуля. Начните с введения в ИИ и получите полное понимание искусственного интеллекта.
🔗 Подробнее о курсах Google

2. Курс Microsoft по ИИ
От основ до нейронных сетей и глубокого обучения - Microsoft предлагает комплексный курс по ИИ.
🔗 Перейти к курсу Microsoft

3. Введение в ИИ с Python от Harvard
7-недельный курс от Гарвардского университета по изучению концепций и алгоритмов ИИ. Включает практику с библиотеками машинного обучения.
🔗 Записаться на курс Harvard

4. Промпт-инженерия для ChatGPT
6 модулей от Университета Вандербильта научат вас эффективно формулировать запросы к ChatGPT.
🔗 Изучить промпт-инженерию

5. Промпт-инженерия для разработчиков
Курс от OpenAI и DeepLearning с преподавателями Иса Фулфорд и Эндрю Нг. Практические занятия и лучшие практики.
🔗 Начать обучение

6. LLMOps
Новый курс от Google Cloud и DeepLearning. Научитесь работать с pipeline для обработки данных и настройки пользовательских языковых моделей.
🔗 Изучить LLMOps

7. Большие данные, ИИ и этика
4 модуля от Калифорнийского университета в Дэвисе о больших данных и Watson от IBM.
🔗 Узнать об этике ИИ

8. Приложения ИИ и промпт-инженерия
Вводный курс от edX по промпт-инженерии с углублённым изучением и созданием собственных приложений.
🔗 Начать обучение на edX

Это разве аналитика?

08 Jan, 19:01


🚨 На канале Дмитрия Аношина, вышло 2 офигенных видео по DBT, при этом дополнительно узнаете о "наборе джентльмена" в системе контроля версий Git, настройке CI/CD в Git Actions, основы организации хранилищ данных и кучу всего интересного.🤯

Оставлю их тут для вас, чтобы долго не искать!🫡

Это разве аналитика?

07 Jan, 18:32


🎓 Data Engineering Zoomcamp: Бесплатный курс стартует на следующей неделе!

Отличные новости для всех, кто интересуется Data Engineering! Уже в следующий понедельник начинается бесплатный курс, который охватит все ключевые аспекты работы с данными.

📚 Программа курса:
Модуль 1: Контейнеризация и Infrastructure as Code

Модуль 2: Оркестрация рабочих процессов

Практикум 1: Инжестинг данных

Модуль 3: Data Warehouse

Модуль 4: Analytics Engineering

Модуль 5: Пакетная обработка данных

Модуль 6: Потоковая обработка

🔗 Все материалы курса доступны на GitHub:
https://github.com/DataTalksClub/data-engineering-zoomcamp

Не упустите возможность прокачать свои навыки в Data Engineering!

Это разве аналитика?

06 Jan, 18:34


Классный сервис от яндекса, который объясняет решение математических задач

https://education.yandex.ru/tutor

Да всего 5-8 класс, но зато можно сфоткать сразу из учебника, есть пошаговое объяснение. Очень удобно для родителей и детей)

Это разве аналитика?

03 Jan, 18:13


Паттерны работы с базами данных

В большинстве проектов мы храним какие-то данные. Для этого используются разные виды баз данных: реляционные, nosql или даже специализированные HTTP API. Такие хранилища имеют специфическое API, которое мы обычно хотим скрыть от основного кода за некоторой абстракцией. Вот стандартные варианты, описанные, в частности, Мартином Фаулером.

Первая группа паттернов работы с БД - отделяющие реализацию операций с хранилищем от данных. Благодаря такому разделению, мы можем построить несколько реализаций шлюза, возвращающих однотипные структуры (например, для заглушек на время тестирования или использования нескольких источников данных). Обратите внимание, что в паттернах этой группы мы можем полностью скрыть детали организации хранилища.

DAO - наиболее простой вариант, он представляет собой достаточно тупой класс, который просто выполняет операции с хранилищем и возвращает данные в том или ином виде. Он не должен содержать какого-то своего состояния (будь то кэши или IdentityMap). Он получает и возвращает только данные в виде неких абстрактных RecordSet или простых DTO, то есть структур, не содержащих логики. Плюсы такого паттерна: простота реализации, возможность точечного тюнинга запросов. Паттерн описан в "Core J2EE Patterns", а у Фаулера встречается очень близкое описание под именем Table Data Gateway.

Data Mapper - в отличие от DAO занимается не просто передачей данных, а двусторонней синхронизацией моделей бизнес логики с хранилищем. То есть он может получать какие-то сущности и потом сохранять их обратно. Внутри он может содержать IdentityMap для исключения дублей модели с одним identity или создания лишних запросов на загрузку. Каждый маппер работает с моделью определенного типа, но в случае составных моделей он иногда может обращаться к другим мапперам (например, при использовании select-in load). При использовании Unit Of Work, тот обращается именно к мапперу для сохранения данных.

Repository - фактически вариант Data Mapper, предназначенный для работы с корневыми сущностями. Для прикладной бизнес логики репозиторий выглядит как коллекция, содержащая корни агрегатов. Он может использоваться для получения полиморфных моделей, а также может возвращать некоторую сводно-статистическую информацию (например, количество элементов или сумму полей) или даже выполнять какие-то расчеты, не выходящие за пределы общей компетенции хранилища данных. Это основной паттерн при использовании богатых доменных моделей. Паттерн описан у Эрика Эванса, а у Фаулера встречаются некоторые варианты его реализации.

Вторая группа - паттерны, смешивающие данные и работу с хранилищем. Их использование может усложнить тестирование или изменение кода, но, тем не менее, они используются.

Raw Data Gateway - предлагает каждой строке таблицы поставить в соответствие экземпляр класса. Мы получаем отдельный класс Finder для загрузки строк и собственно класс шлюза строки, который предоставляет доступ к загруженным данным и обладает методами сохранения себя в БД.

Active Record - вариант RDG, но содержащий бизнес логику. По факту, мы имеем богатые доменные модели не абстрагированные от хранилища. Часто методы загрузки данных реализованы просто как static-методы в этом же классе вместо выделения отдельного Finder.

Строит отметить, что многие ORM в Python реализуют Active Record и активно используют при этом неявный контроль соединений и транзакций. В отличие от них SQLAlchemy реализует паттерн Data Mapper и может дать больший уровень абстракции над хранилищем (обратите внимание на подход с map_imperatively).

Дополнительные материалы:
• http://www.corej2eepatterns.com/Patterns2ndEd/DataAccessObject.htm
• https://martinfowler.com/eaaCatalog/identityMap.html
• https://docs.sqlalchemy.org/en/20/orm/dataclasses.html#applying-orm-mappings-to-an-existing-dataclass-legacy-dataclass-use

Это разве аналитика?

01 Jan, 06:52


Котятки😻,
Каюсь, я люблю всякий опенсорс в двух случаях:
-у меня нет денег/бюджета
-класс решаемых задач в текущий и будущий момент настолько широк, что я понимаю, что рано или поздно придется брать напильник.
В остальных случаях я предпочитаю купить что-то вендорское или же страдаю, если нахожусь в архитектурных ограничениях.
Сегодня решала логическую задачку ‘что взять на data quality, если у тебя майкрософтовский стек’, и увлеклась - пошла тыкать в Great Expectations.
Про него можно почитать тут https://habr.com/ru/articles/739254/, а я шла по гайду тут https://anujsyal.com/mastering-data-quality-in-etl-pipelines-with-great-expectations и закончила туториалом https://github.com/datarootsio/tutorial-great-expectations/blob/main/tutorial_great_expectations.ipynb

Ну и документация, конечно же: https://greatexpectations.io
Ну что могу сказать?
-не верьте людям, которые питонячат в крупных компаниях как дата-инженеры, когда они говорят ‘да, есть коннекторы’ - они в качестве коннекторов понимают не тыкание на иконочку и ввод адреса и кредов, а sqlalchemy
-что хорошо дата-инженеру с airflow под боком - может быть не удобно с SSIS
-набор проверок (expectations) может быть недостаточен, особенно если это вас в качестве источника стоит интересная 1С.
Ну а так рекомендасьон, в целом норм.

Это разве аналитика?

30 Dec, 10:56


Полезный проект по переводу документации по dbt

https://docs.getdbt.tech/

Если вы еще не слышали про dbt, то это знак)

Это разве аналитика?

27 Dec, 18:49


DataLens Festival закончился, но материалы и воспоминания остались💛

Собрали в одном посте всё полезное по фестивалю:
Главный пост с материалами
Youtube-плейлист с видеодокладами
ТОП лайфхаки от участников конкурса
ТОП отчёты от участников конкурса
Разбор трёх частых ошибок в конкурсах
Фотографии с афтерпати
Материалы фестиваля 2023 года (там тоже было интересно)

💌 Если вы хотите поделиться впечатениями от мероприятия или идеями для следующего фестиваля — смело заполняйте форму.

Это разве аналитика?

27 Dec, 18:29


С наступающими праздниками!

Пусть новый год принесет только положительные эмоции.

Спасибо, что читаете.

Это разве аналитика?

27 Dec, 07:44


Секрет аналитиков Авито: карта дашбордов, которая меняет подход к аналитике.

В новой статье расскажем:

🔼как создавалась карта дашбордов для упрощения доступа к данным.
🔼как устранялись дублирующие и устаревшие отчёты.
🔼как сделать отчёты полезными и удобными для всех сотрудников.

Эта информация будет полезна аналитикам, менеджерам проектов и всем, кто работает с данными.
Подробности → по ссылке.

Реклама. ООО «Авито Тех».

Это разве аналитика?

27 Dec, 07:44


Закончил 2ю половину workshop по CI/CD на примере контейнера с DuckDB и 1м SQL файлом.

Во 2й части мы занялись deployment, и в качестве destination выбрали Docker Hub. Посмотрели на GitHub и Docker tags, добавили Release, все через GitHub Actions.

Вы можете самостоятельно все проделать.

Ссылка на инструкции: https://github.com/surfalytics/data-projects/tree/main/dataops-projects/01_git_and_ci_cd

Мое решение: https://github.com/dimoobraznii1986/surfalytics-ci-cd-project

Статьи в тему, которые мы написали с Настей:
- Part 1: How to work with SQL queries as a pro
- Part 2: How to work with SQL queries as a pro


Если не уверены в CLI, IDE, Docker, Git, начните с Модуля 0 (Surfalytics), там может и на английском, но все команды и примеры и так понятны https://www.youtube.com/watch?v=LJIiCLu2gr8&list=PLNCDg7zJiXhP5Z_-TXUdorz2n7sjYHHKE

Понимание, что такое CI/CD, Git, как это работает и как используют другие компании помогает лучше адаптировать DevOps практики для своих аналитических проектов и повышает качество проекта.

Это разве аналитика?

25 Dec, 13:27


🔥 Как стать востребованным Data Warehouse Analyst в 2025?

Ответь на вопросы и проверь свои знания. Сможешь сдать — сможешь претендовать на продвинутый курс "Data Warehouse Analyst" по специальной Новогодней цене 🎄 до 31.12.2024!

➡️ ПРОЙТИ ТЕСТ: https://clck.ru/3FSSjX

Дополнительный промокод на скидку 5% - DWH_NEWYEAR будет действовать с 01.01.25 до 12.01.25

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid 2VtzqvZbrQz

Это разве аналитика?

25 Dec, 06:56


Дэн Роэм / Визуальное мышление

"Визуализация — это простой и остроумный способ объяснить трудные проблемы и решить запутанные вопросы. Прочитав эту книгу, вы поймете, что один рисунок подчас стоит тысячи слов. Автор книги демонстрирует, как можно ясно представить идею путем ее визуализации и убедительно донести суть до других людей, зрительно разделив ее на отдельные компоненты и применив инструменты визуального мышления. Используя простые графические образы при обдумывании ситуации, вы научитесь находить и развивать новые идеи, решать проблемы неожиданным оригинальным способом."

Скачать книгу

Это разве аналитика?

25 Dec, 06:55


Apache Iceberg + StarRocks YouTube Playlist

StarRocks as LakeHouse Query Engine

24 видосика.
https://youtu.be/8Q5Vev4O1lQ?si=7DIuO3IuIOmf6aHi

=== PS ===

В доке пишут, что StarRocks превосходит по производительности ClickHouse и Trino https://docs.starrocks.io/docs/benchmarking/

Понятно, что надо смотреть на типы задач, настройки и структуры данных, но интересный инструмент в любом случае.

Еще 1 статья Сравнение трино и старрокс https://gavrilov.info/all/sravnenie-query-dvizhkov-trino-i-starrocks/

#Iceberg #StarRocks

Это разве аналитика?

24 Dec, 08:46


Эльбрус Буткемп 25-27 декабря проводит бесплатный трехдневный mini-camp для начала пути в веб-разработке

Что будет на интенсиве?

Руководитель московского кампуса расскажет о профессии веб-разработчика, публично препарирует веб-приложение, поможет освоить основы HTML, CSS и JavaScript и написать код, который будет генерировать поздравления за вас.

Регистрируйтесь на mini-camp по веб-разработке и ловите свой первый подарок в закрытом чате: https://clc.to/R5wEoA

Это разве аналитика?

23 Dec, 06:42


Гайд по теме Data Governance 2.0

2 года назад я публиковал data governance guide.
С тех пор я делал новую версию. Это мой способ подружить между собой абстракции, чтобы они не спорили как голоса в голове шизофреника, а логично и дружно жили. Возникая когда надо и не отсвечивали когда не нужны. Такая "ментальная парковка" и копинг стресса от информации.😭 😈

В декабре провели с BI Consult открытый курс по DG, мозг прогружен контекстом - возник шанс доделать.
Как и предыдущая версия - это все еще поверхностный взгляд на тему - он снимает верхний и средний слой проблематики. Гайд будет мало полезен людям с экспертным опытом, хотя местами есть хорошие ссылки и пасхалки.

🔗Ссылки
Новая версия -https://miro.com/app/board/uXjVPlrgODk=/?moveToWidget=3458764592641555934&cot=14
Старая версия - https://miro.com/app/board/uXjVPlrgODk=/?moveToWidget=3458764546661134226&cot=14

На курсе были хорошие "обмены" с участниками и гостями:
- Подтвердилась гипотеза что опыт яндекса с дата партнерами это красивая модель, но деление на стюардов и кустодианов все таки жизнеспособнее.
- Классный бизнес кейс DG Александра Платонова но новому раскрыл мне идею "DG как on-demand сервиса, помогающего стартовать/разблокировать бизнес-инициативу".
- DataOps, автоматизация разработки, тестирования и документирования - важная черепаха, под ногами слонов DG.
- dbt нужен всем, а вот без слоя метрик все обходятся - вещь красивая, но организационно оч сложная.
- Бекенд системы таки можно вовлечь в общий лайнедж каталога, как и раскатать дата контрактинг, есть примеры

Вообще кажется есть позитив в индустрии - все больше людей проходят цикл страха-ярости-апатии, начинают креативно и логично строить сложные сбалансированные фреймворки.

🍷 Все кому гайд "зашел" и кто готов вносить вклад в его развитие (хорошие ссылки / мысли) напишите мне.
Есть немало экспертов, кто лучше меня шарит за DG, за отдельные его элементы, не отмалчивайтесь.
💬Также можно оставлять комменты на борде с замечаниями/идеями (указывать на опечатки не нужно, не интересно).
У меня нет иллюзий - будет и третья версия через 2-3 года. От DG не убежать.

А пока, как обещал (самому себе), делаю паузу с DG, пора вернуться к BI. Приятный мир, где я почти не чувствую себя самозванцем.😑

Это разве аналитика?

22 Dec, 15:26


База для Data Engineer

Сегодня поговорим о том, какие скиллы нужно развивать DE. 🚀

В Data Engineering обычно приходят двумя путями:

- ▫️ Backend разработчики с опытом
- ▫️ Аналитики данных и специалисты смежных областей

Если для первых переход относительно простой, то вторым придется серьезно подтянуть техническую часть.

🎯 Вот топ-5 ресурсов, которые помогут вам освоить необходимые навыки:

1️⃣ Основы Linux
Курс "Введение в Linux" - must have для работы с терминалом

2️⃣ Базы данных
Fundamentals of Database Engineering - лучший курс для понимания СУБД

3️⃣ Python
Два отличных курса от Сергея Балакирева:
• Базовый Python
• Python ООP

4️⃣ Оркестрация
Выбирайте, что больше нравится:
• Airflow Academy
• Dagster University

5️⃣ Практика
DE Zoomcamp - бесплатный курс с реальными проектами


Я лично прошел все перечисленные курсы.
Это не просто список рекомендаций - это проверенный путь, который помог мне стать Data Engineer'ом.

Путь Data Engineer - это увлекательное путешествие, которое требует постоянного обучения и практики.
Начните с основ, постепенно наращивайте свои навыки, и не забывайте практиковаться на реальных проектах.
Помните, что технологии постоянно развиваются, поэтому важно следить за новыми инструментами и подходами в области Data Engineering.

Это разве аналитика?

04 Dec, 13:25


Топ вопросов на собеседовании по SQL- Часть 3

Топовая 3 часть, подоспела к вам ребзя. В ней я решил не просто сделать презентацию😊, а сделать небольшой интерактивчик😎, так что если захочешь потыкаться, все ссылки ниже👇.

В следующей части продолжим говорить о теоритически-практических вопросах собеседования, которые не привязать к определённым темам, поэтому будет "сборная солянка". 🥘 Ммммм....

Если у тебя уже есть блок вопросов, которые тебе задавали и ты их не услышал, пиши в комментариях. Ответ обязательно добавлю в следующих видео, тем самым ты поможешь не только себе, но и другим ребятам, которые вкатываются в IT.🆘

Ну тут уже можно сказать, что SQL часть собеседования ты прошёл на 5️⃣.

😘 Ссылка на видео.
😵 Презентация.
🔙 Блокнот по вопросам NULL.
🔙 Блокнот по агрегационным вопросам.

Не забывайте и про другие части🧑‍🎓:

😘 Часть 1.
😘 Часть 2.

Это разве аналитика?

04 Dec, 07:08


Как бизнесу анализировать данные проще и быстрее?

Обсудим на бесплатном вебинаре СберТеха «Platform V OLAP Analytics — бизнес-эффекты от интерактивного анализа данных».

Приглашаем 12 декабря в 11:00 — бизнес-аналитиков, руководителей аналитических отделов, CDO и CTO.

Platform V OLAP Analytics — распределенное хранилище аналитических данных. Инструмент упрощает анализ данных, формирует аналитическую отчетность и помогает в планировании.

Спикер Виктор Калачанов, Product Owner Platform V OLAP Analytics, расскажет о продукте и познакомит с его:

• основными функциями;
• ключевыми преимуществами;
• целевым сценарием использования;
демонстрацией на практике.

Ждем вас!
Регистрация по ссылке.

Узнать больше о продуктах для работы с данными Platform V можно в канале Data Platform V• .

Это разве аналитика?

04 Dec, 04:31


Топ вопросов на собеседовании по SQL- Часть 2

Ехххууууууу...... Вот и 2я часть подоспела. Затянул я её конечно за 30 минут, извиняйте 😖, старался как можно короче!

В следующей части поговорим о теоритически-практических вопросах собеседования.

Если у тебя уже есть блок вопросов, которые тебе задавали и ты их не услышал, пиши в комментариях. Ответ обязательно добавлю в следующих видео, тем самым ты поможешь не только себе, но и другим ребятам, которые вкатываются в IT.

С таким набором и на собес не страшно💀

😘 Ссылка на видео.
😵 Презентация.

Это разве аналитика?

03 Dec, 17:18


Друзья, рад сообщить о запуске сайта DataEngineers.pro, созданной мною для всех, кто интересуется Data Engineering! 🚀

Когда я только начинал изучать Data Engineering, я заметил, что не хватает удобного и структурированного ресурса, который мог бы помочь новичкам развиваться в этой области. Поэтому я решил создать такой сайт.

Основная функция сайта — агрегировать учебные и другие полезные справочные материалы. Есть функция отображения вакансий, но она пока простая. Вакансии активно публикуются на моём Telegram-канале — https://t.me/data_engineer_jobs

В будущем, возможно, появится Telegram-рассылка вакансий с учётом заданных пользователем параметров. Материалы сайта будут постоянно дополняться.

А пока на сайте вы найдёте:
Курсы: Рекомендуемые программы обучения для начинающих.
Техностек: Информация об инструментах, таких как SQL, Spark, Airflow и многих других
Библиотеку ресурсов: Полезные статьи, книги, видео, подкасты и Telegram-ресурсы.
Вакансии: Раздел для тех, кто ищет работу.
Менторы: Найдите наставника или станьте им.

Возможно, появятся ещё какие-то интересные идеи...

Пишите мне в ЛС @storm_de, чтобы:
- Подкинуть предложения и идеи!
- Сообщить о багах на сайте.
- Попросить добавить информацию о вас как о менторе, дата-инженере, блогере, разместить вакансию и т. д.

Буду рад любым обращениям!
Также вы можете поддержать мои усилия монетой. 💙

Это разве аналитика?

02 Dec, 20:44


Прикольный "музыкальный" оператор в airflow

https://airflow.apache.org/docs/apache-airflow/stable/_api/airflow/operators/smooth/index.html

Это разве аналитика?

02 Dec, 05:04


Как прокачать навыки A/B-тестирования?

Если уже владеете инструментами, то только через опыт и нестандартные задачи. В процессе работы скилл вырастет, но есть вероятность наделать ошибок. Ещё одна опция — присоединиться к бесплатному онлайн-вебинару «A/B тестирование на практике», который проведёте эксперт сферы Анатолий Карпов, CEO karpov courses, ex Ведущий Аналитик VK, уже пятого декабря.

Сплитование трафика, контроль ошибок, работа с необычными распределениями, проведение А/А-тестов, это лишь малая часть задач, с которыми работают аналитики.
На эфире вам расскажут из чего складывается А/B-тест на практике и что необходимо знать аналитику для грамотного проведения тестов.

Присоединяйтесь к бесплатному онлайн-вебинару: https://clc.to/erid_LjN8KMTJR

Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627.

Это разве аналитика?

01 Dec, 05:44


Adwent of code 2024

🎄 Завтра стартует Advent of Code 2024! Если вы еще не знакомы с этим замечательным ресурсом, обязательно обратите внимание.
Что это такое? Каждый день декабря открывается новая программистская головоломка, которую нужно решить - что-то вроде праздничного календаря для разработчиков, похожего на LeetCode.

💡 Pro tip: многие разработчики используют Advent of Code как отличную возможность изучить новый язык программирования. Это гораздо увлекательнее, чем просто читать официальные туториалы!

🔥 Кстати, команда Dagster запустила похожую инициативу - "30 Days of Orchestration". Это прекрасная возможность познакомиться с Dagster на практике.

Присоединяйтесь к этим челленджам - прокачайте свои навыки в декабре! 🚀

Это разве аналитика?

29 Nov, 16:46


Lineage для кода: Визуализация зависимостей в Python-проектах

В мире данных мы привыкли к инструментам вроде dbt и datahub, которые отлично справляются с построением графов зависимостей для таблиц в базах данных. Но что делать, когда нужно разобраться в структуре кодовой базы?

Проблема

Недавно я столкнулся с задачей анализа старого проекта, где:

- Множество взаимосвязанных модулей
- Отсутствие тестов
- Сложная логика взаимодействия компонентов

Решение: pydeps 🛠

В поисках инструмента для визуализации зависимостей я обнаружил pydeps - Python-модуль, который:

- Анализирует структуру проекта
- Строит наглядный граф зависимостей
- Экспортирует результат в SVG-формат

Преимущества использования

- Быстрое понимание архитектуры проекта
- Визуальное отслеживание зависимостей
- Помощь в рефакторинге и написании тестов

💡 Этот инструмент особенно полезен при работе с legacy-кодом или при погружении в новый проект.


pip install pydeps
pydeps your_project_path

Это разве аналитика?

29 Nov, 05:23


Давайте расскажу, что мы добавили на сайт dataengineer.ru

1. К ресурсу присоединились котрибьютеры и еще общаюсь с топ-экспертеми в разных областях, чтобы смогли добавлять самые полезные ресурсы для вас.
2. Завели табличку дата сообществ, пока туда добавляют котрибьютеры свои сообщества
3. Завели секция по поиску работы
4. Добавили уже несколько ключевых white papers для нашей индустрии
5. Стали добавлять книги.

И теперь по скилам и инструментам:
1. Добавили еще ресурсов в SQL
2. Новая секция большая про визуализацию данных
3. В секцию BI добавили видео - что такое BI
4. Добавили ресурсов про хранилище данных.
5. Вводная информация про моделирование данных
6. Добавили отечественных вендоров для облака
7. Создали секцию про DevOps (CI/CD, git, Linting, Docker, Kubernetes/Minikube). Секция новая пока, в процессе доработки.
8. Секция про IDE и CLI для инженеров и аналитиков.
9. Секция про AI в контексте инструментов для повседневной работы и помощи в работе.
10. Раздел про API
11. Языки программировани, пока только про Python
12. Apache Spark готова.

До других разделов у нас еще не дошли руки.

Планирую еще добавить разделы про:
- Безопасность
- Privacy/Compliance
- Сети
- Примеры архитектурных решений для аналитики (Open Source, Commercial, On-Premise, Cloud)
- Примеры решений в зависимости от размера компаний (от стартапа до большого Enterprise)

В существующие разделы нужно добавить рекомендации про инструменты (BI, хранилища данных, ETL и тп).

Пока просто собираем и добавляем самые лучшие ресурсы в одно место, потом начнется самое сложное, создать Road map для профессий и привязать его к ресурсам.

Это разве аналитика?

28 Nov, 07:09


Введение в dbt: основы моделирования данных

Тайм-коды:
00:00 Начинаем
02:04 Рассказываем об ИнженеркаТех
03:54 В чем практическая ценность dbt?
05:51 Начало Data Lake
08:35 Большие SQL скрипты
10:12 Glue Spark ETL
13:00 Решение через Data Builder
17:40 Как продать команде свое решение?
19:18 Преимущества data build tool
28:33 Анатомия проекта на дбт
30:00 Создаем проект
01:10:15 Моделирование данных с dbt
01:21:41 Проблемы с аналитикой в БД
01:27:50 Оркестрация data build tool
01:30:00 Преимущества на dbt
01:31:10 Подводные камни ди би ти

https://www.youtube.com/watch?v=BSge0lPJeHk

#dbt

Это разве аналитика?

27 Nov, 11:37


🤟 Конференция «Дата-сторителлинг 2024»
7 декабря пройдет вторая бесплатная онлайн-конференция о том, как рассказывать истории на основе данных.

Организатор – Андрей Дорожный, эксперт по визуализации данных, дата-журналист и автор проекта «Дата-сторителлинг»

В прошлом году было огненно — 5 докладов от лучших специалистов по анализу и визуализации данных. Участники слушали спикеров, болтали в чатах, знакомились и набирались опыта.

Еще больше спикеров, сфер и отраслей, где можно применять методы дата-сторителлинга. Это главное событие года в сфере анализа и визуализации данных, которое нельзя пропустить. На сайте можно следить за обновлением программы конференции. Конференция была и остаётся бесплатной, подключиться можно из любой точки земного шара

Регистрация

Это разве аналитика?

27 Nov, 09:00


Гибкие методологии проектирования Data Vault и Anchor Modeling | Евгений Ермаков

Еще есть вебинарчик на karpov.courses

Смена методологии — это всегда долгий и крайне сложный процесс. Особенно когда речь идёт о чём-то фундаментальном — например, о хранилищах данных. При проектировании детального слоя аналитического DWH [Data Warehouse] сейчас модно применять «гибкие методологии» — Data Vault и Anchor Modeling. Но всегда ли в них есть потребность или это просто мода, которая пройдёт со временем?

https://www.youtube.com/watch?v=fNGIOb8SJvU

Это разве аналитика?

27 Nov, 06:06


А на вашем рабочем месте есть мотивирующие надписи?)))

Это разве аналитика?

26 Nov, 04:20


What Goes Around Comes Around... And Around... Part I (Рубрика #Data)

Интересная обзорная статья 2024 года от Michael Stonebraker и Andrew Pavlo про развитие баз данных за последние 20 лет. Оба автора являются корефееями в области баз данных: Michael создал Postgres и еще кучу других баз, а Andrew - исследователь в области баз данных, профессор и преподаватель, лекции которого доступны на Youtube.

Сама статья продолжает статью 2005 года "What Goes Around Comes Around", которую написали Michael Stonebraker и Joseph M. Hellerstein. Они проанализировали историю развития баз данных за 35 лет и предсказали что модные тогда объектные и xml базы данных не смогут обойти по реляционную модель.

С тех пор прошло порядка 20 лет и пришло время сделать новый обзор мира баз данных. Для этого авторы решили посмотреть на это с двух сторон:
- Модели данных и языки запросов
- Архитектура баз данных

Начнем с разбора существующих data models и query languages:

1. MapReduce-системы
Изначально они были разработаны в Google для обработки больших объемов данных (веб-краулер). MapReduce не использует фиксированную модель данных или язык запросов, они выполняют пользовательские операции map и reduce. Открытой версией MapReduce стал Hadoop, который сейчас не очень популярен из-за низкой производительности и заменяется более современными платформами аля Apache Spark или просто СУБД.

2. Key-Value хранилища
У них максимально простая модель данных: пары "ключ-значение". Они используются для задач кэширования (Memcached, Redis) или хранения сессий. Возможности в модели ограничены - нет индексов или операций join, что усложняет применение для сложных приложений. Многие KV-хранилища (например, DynamoDB, Aerospike) эволюционировали в более функциональные системы с поддержкой частичной структуры (JSON). Среди популярных встроенных k/v решений популярны LevelDB и RocksDB.

3. Документные базы данных
Они хранят данные в виде документов (например, в формате JSON). Изначально получили популярность благодаря простоте интеграции с веб-приложениями (например, MongoDB), предлагая подход schema on read. Интресно, что к 2020-м годам большинство документных СУБД добавили SQL-подобные интерфейсы и поддержку ACID-транзакций, а иногда и schema on write.

4. Column-Family базы данных (wide columns)
По-факту, это упрощенная версия документной модели с ограниченной вложенностью. Начиналось все с Google BigTable, а в миру есть open source реализация в виде Apache Cassandra. Изначально в Cassandra не было вторичных индексов и транзакций. Но по мере развития они появились (но там все очень интересно)

5. Поисковые движки
Они нужны для полнотекстового поиска (Elasticsearch, Apache Solr). Поддерживают индексацию текста, но ограничены в транзакционных возможностях. Реляционные СУБД также предлагают встроенный полнотекстовый поиск, но с менее удобным API.

6. Базы данных для массивов
Они предназначены для работы с многомерными массивами, например, научные данные (SciDB, Rasdaman). Ниша ограничена специфическими областями применения: геоданные, изучение генома.

7. Векторные базы данных
Используются для хранения эмбеддингов из машинного обучения (Pinecone, Milvus). Основное применение — поиск ближайших соседей в высокоразмерных пространствах. Реляционные СУБД уже начали добавлять поддержку векторных индексов.

8. Графовые базы данных
Моделируют данные как графы (узлы и связи). Примеры: Neo4j для OLTP-графов, TigerGraph для аналитики. Большинство графовых задач можно реализовать на реляционных СУБД с помощью SQL/PGQ (новый стандарт SQL:2023).

Общие выводы
- Большинство нереляционных систем либо занимают нишевые рынки, либо постепенно сближаются с реляционными СУБД.
- SQL остается основным языком запросов благодаря своей гибкости и поддержке современных приложений.
- Реляционные СУБД продолжают развиваться и интегрировать новые возможности (например, JSON, векторные индексы), что делает специализированные системы менее конкурентоспособными.

В продолжении поста будет про архитектуру баз данных.

#Data #Architecture #Software #DistributedSystems

Это разве аналитика?

25 Nov, 17:00


Я знаю, сколько времени может уйти на поиск нужной информации в Telegram, поэтому регулярно делюсь полезными ссылками.

Сегодня подготовили для вас целую подборку каналов в
сфере “IT и Технологии” 📚

Тут вы точно найдете ответы на многие свои вопросы.  А главное - вам не придется, тратить на поиски информации несколько часов 😊 👇

Поэтому переходите, подписывайтесь и пользуйтесь на здоровье 📂😉

Хотите подборку?

Это разве аналитика?

25 Nov, 14:56


Как аналитики создают крутые решения?

🔥Узнайте об этом на онлайн-митапе от Авито!

5 декабря в 18:00 спикеры из Авито и Т-Банка расскажут про:

➡️ особенности внедрения RFM-сегментации клиентов
➡️ эффективное управление при запуске Discovery-процессов
➡️ использование ML Autotasking для автоматизации задач

Подробности и регистрация ➡️ по ссылке.

Это разве аналитика?

25 Nov, 14:24


Топ вопросов на соборовании по SQL- Часть 1

Вкатунам, которые бояться идти на собеседования из-за по их мнению "скудного набора знаний", посвящается — топ вопросов на собеседованиях по SQL.

В ближайшее время выйдет 2я часть, так что не теряйся!

Если у тебя уже есть блок вопросов, которые тебе задавали и ты их не услышал, пиши в комментариях. Ответ обязательно добавлю в следующих видео, тем самым ты поможешь не только себе, но и другим ребятам, которые вкатываются в IT.

Всё что нужно для успешного прохождения собеседования👍

😘Ссылка на видео.

Это разве аналитика?

25 Nov, 09:34


Data Engineering Zoomcamp 2025: Начни Новый год с погружения в Data Engineering! 🚀

Хотите начать 2025 год с освоения новых навыков в сфере Data Engineering? Тогда подключайтесь к обновленной программе DE Zoomcamp, где вы сможете изучить как основы, так и продвинутые темы, получая при этом реальный практический опыт.

📚 Программа курса:

🔹 Introduction & Prerequisites
🔹 Workflow Orchestration
🔹 Data Warehousing
🔹 Analytics Engineering
🔹 Batch Processing
🔹 Streaming
🔹 Capstone Project

Что особенного в курсе 2025?

Курс постоянно обновляется, чтобы соответствовать современным требованиям индустрии:

Новый инструмент оркестрации - Kestra (в замен прошлогоднего Mage)
Добавлен DLT для процессов извлечения данных
Гибкость в выборе инструментов - можно использовать привычные вам технологии, при этом не отклоняясь от всего курса.

Старт курса:
16 января 2025
Регистрация: Доступна по ссылке ниже 👇

https://airtable.com/appzbS8Pkg9PL254a/shr6oVXeQvSI5HuWD

Это разве аналитика?

25 Nov, 06:39


#зачем_нужно

Проблемы и решения в очистке данных 4/4


🔶 Нормализация unicode символов
 
translate(column, 'áéíóúàèìòùãẽĩõũâêîôûäëïöüçñ', 'aeiouaeiouaeiouaeiouaeioucn')

regexp_replace(column, '[^\x00-\x7F]+', '') /* удаление не ASCII символов */

Рассказать в следующем посте про colation настройки БД (или почему иногда сортировка одних и тех же данных может выдавать разный результат) ? :)

🔶 Конвертация часовых поясов
 
select timestampz_column at time zone 'Europe/Moscow'

coalesce(
try_cast(timestamp_column as timestamp with time zone),
timestamp_column::timestamp at time zone 'UTC'
) /* если не всегда указана временная зона */


🔶 Обработка спецсимволов в текстовых полях
 
regexp_replace(column, '[^a-zA-Z0-9\s]', '') /* только буквы, цифры и пробелы */

translate(column, '[]{}()*#$%@!?+=/\|', '') /* удаление конкретных символов */


🔶 Приведение булевых значений к стандартному виду
 
case
when lower(column) in ('1', 'yes', 'true', 'y', 't') then true
when lower(column) in ('0', 'no', 'false', 'n', 'f') then false
else null
end as bool_column


Ну что, как тебе формат? Голосуй реактами и комментами, если хочешь больше такого

Это разве аналитика?

24 Nov, 06:47


#зачем_нужно

Проблемы и решения в очистке данных 3/?

🔶 Даты из далёкого будущего или прошлого
 
case
when date_column between '1900-01-01' and '2100-12-31'
then date_column
else cast(null as date)
end as valid_date /* уточняй, как должно быть
по бизнес-требованиям. иногда даты из средне-далёкого
будущего это ок, например "плановая дата закрытия ипотеки" */


🔶 Объединить значения из нескольких строк в один массив

select key,
string_agg(values, ',')
from ...
group by key


🔶 Полные дубли (совпадают все поля)
 
select distinct col1, col2, col3
from table

/* или */

select col1, col2, col3
from table
group by col1, col2, col3

Вопрос со звёздочкой*: какая разница между distinct и group by в этом примере?

🔶 Неполные дубли (различаются технические поля)
with prep_cte as (
select col1, col2, business_key, updated_at,
row_number() over (
partition by business_key
order by coalesce(updated_at, '1900-01-01') desc
) as rn
from table
)
select * from prep_cte
where rn = 1
/* оставляем последнюю версию строки по каждому бизнес-ключу */


А здесь было что-то, что пригодится уже завтра на работе?

Это разве аналитика?

23 Nov, 17:59


Книга "Основы визуализации данных. Пособие по эффективной и убедительной подаче информации"

Это разве аналитика?

23 Nov, 10:12


#зачем_нужно

Проблемы и решения в очистке данных 2/?

🔶 Значение "по умолчанию" для отсутствия данных в виде пустой строки или "Nan", когда для обработки нужен NULL
case when trim(lower(column)) in (
'', 'null', 'none', 'n/a', 'na', '-',
'#n/a', '#н/д', '(empty)', 'undefined'
) or column ~ '^\s*$' /* только пробелы */
then null
else column
end as clean_column


🔶 Разный тип данных при union/union all или колонок из условия on в join
case when numeric_col ~ '^\d+(\.\d+)?$' 
then cast(numeric_col as decimal(18,2))
else null
end /* для последующих join по числовым полям */


cast(num_id as varchar(20)) as num_id /* для join, 
где с одной стороны поле varchar(20), а в другой -- числа */


union example:
select cast(id as varchar) as id, name from table1
union all
select id, name from table2 /* приводим к более широкому типу */


case when try_cast(date_field as date) is not null 
then try_cast(date_field as date)
else try_cast(date_field as timestamp)::date
end /* для разных форматов дат */


🔶 Вставка в таргет-таблицу NOT NULL поля из источника, где значение может отсутствовать
coalesce(column, 'default') as column 


🔶 У одного из объектов, объединяемых через union/union all, не достаёт колонки
cast(null as [data_type]) as column /* null может быть разных типов */


🔶 Разъединить одну колонку на несколько
split_part(full_name, ' ', 1) as surname,
split_part(full_name, ' ', 2) as name /* наивный подход,
для каждого отдельного случая может быть сильно сложнее, вплоть до регулярок */


🔶 Объединить несколько колонок в одну
concat_ws(' ', nullif(address_line_1, ''), nullif(address_line_2, '')) as address


А в этом посте уже было что-то новое? Делись в комментах

Это разве аналитика?

23 Nov, 10:12


Эксперимент — серия постов будет выходить средними кусочками несколько дней подряд

#зачем_нужно

Проблемы и решения в очистке данных 1/?

При загрузке данных из исходных систем мы почти всегда сталкиваемся с "грязными" данными - опечатки, разные форматы, технические ошибки. Если не обработать такие случаи, таблицы перестанут джойниться или будут выдавать мусор на выходе (в BI, отчётах и пр.).

Изучение и очистка данных на первом этапе помогает избежать неприятных сюрпризов в будущем и сэкономить время на исправлении ошибок. Вот основные трансформации, с которыми ты можешь столкнуться. Синтаксис стараюсь брать из ANSI или распространённых надстроек:

🔶 Название поля не соответствует naming convention в DWH
column as new_column

Лучше хотя бы на raw слое оставить исходные названия колонок для lineage и traceability. И старайся не множить сущности, где возможно, приводи к единому стилю (naming convention) и называй одинаковые параметры одинаково, а разные — по-разному.

🔶 Формат даты

try_cast(date_column as date) /* для безопасного приведения */

to_date(date_string, 'YYYY-MM-DD') /* если известен формат */

case when date_column ~ '^\d{4}-\d{2}-\d{2}$' then cast(date_column as date) end /* с валидацией */


🔶 JSON, который нужно распарсить и разложить по колонкам

case when is_valid_json(json_column) then /* проверка валидности */
json_value(json_column, '$.field_name'),
json_query(json_column, '$.contacts[*].phone'), /* массив */
json_value(json_column, '$.address.city'), /* вложенный объект */
(select string_agg(value, ',')
from json_table(json_column, '$.tags[*]' columns (value varchar path '$'))
) as tags /* массив в строку */
end

Не забывай обрабатывать случаи с пустыми JSON'ами и массивами.

🔶 Вручную заполняемые поля "перечисляемого типа", которые нужно привести к одному виду

Использовать нечёткое сопоставление, например splink на python, или вручную заполненный маппинг значений, предварительно приведённых к trim(upper(replace(column, ' ', ''))) или другому подобному формату.

Написание запросов а-ля lower(col) like '%sub%string%' плохо масштабируется и зачастую приводит к неожиданным результатам (когда под шаблон начинают попадать "не те" категории).

Это разве аналитика?

16 Nov, 07:10


Конспекты по Pandas

Будет полезно именно для Дата Аналитиков. Здесь в архиве 27 файлов. Там есть куча примеров + результаты выполнения кода. Все в Jupyter Notebook!

В описании каждого файла написана сразу тема. Все в формате html. Легко копировать к себе код!

Сохраняй себе и пересылай другу, который вкатывается в IT! Почитай на досуге!

СКАЧАТЬ АРХИВ

Это разве аналитика?

15 Nov, 10:52


🔥 Материалы для подготовки к собеседованиям от Start Career in DS и Alfa Advanced Analytics
Добавляем в избранное!

Вместе с Telegram-каналом Центра продвинутой аналитики Альфа-Банка подготовили для вас гайд по собеседованиям для Data Scientist’ов 🔥

В подборке — советы и инсайты от экспертов, а также примеры реальных заданий, которые могут встретиться вам на интервью в Альфа-Банк и не только. Будут полезны как новичкам в DS, так и опытным специалистам!

Сохраняйте подборку и заглядывайте в канал Alfa Advanced Analytics 🙂
А в канале Start Career in DS вы сможете найти много полезных материалов для развития в Data Sceince, а также регулярные квизы с призами!

Материалы для подготовки. Сохраняйте, чтобы не потерять:

🔗 Как вспоминать базовую математику - часть 1, часть 2
🔗 Пет-проекты для начинающего Data Scientist'а - ссылка
🔗 Открытый курс по прикладной статистике от Академии Аналитиков Авито - ссылка
🔗 Deep Learning: теоретический справочник по базовым концепциям - ссылка
🔗 Классический ML – база: справочник основных алгоритмов - ссылка
🔗 Учебник Школы анализа данных — смотреть  
🔗 Семестровый курс DLS — смотреть
🔗 Искусственный интеллект в финтехе — смотреть
🔗 Kaggle — смотреть
🔗 GitHub курса ML-1 в ВШЭ — смотреть

Это разве аналитика?

15 Nov, 04:52


Давно не публиковал проекты, к которым имею непосредственное отношение. Наконец-то, появился повод — запускаю в бета-тестирование микросервис Tilemapper по созданию плиточних карт России на основе данных пользователей:

https://mizinov.pro/tilemapper

Принцип работы простой:
1. Загружаете данные:
— в виде CSV файла (код региона | значение параметра) или
— в виде ссылки на Google-таблицу (должна быть доступна на чтение по ссылке)
2. Настраиваете цветовую легенду и другие параметры плиток
3. Скачиваете результат в формате PNG или SVG

Плиточную раскладку взял свою, которую использует ТАСС (можно скачать с github). Tilemapper ориентирован на задачи срочной визуализации, без необходимости программирования или регистрации в платных онлайн-сервисах. 😎

Дальше планирую добавить пресеты цветовых раскладок и сохранение пользовательских настроек в локальный кэш браузера.

Велкам, пишите баг-репорты и отзывы или просто пользуйтесь по необходимости. Если возникнут вопросы по использованию — задавайте. 😊

#сделалпроект

Это разве аналитика?

12 Nov, 16:30


Джин Желязны / Говори на языке диаграмм

Это разве аналитика?

12 Nov, 08:47


Кто последний за трендами?
21 ноября Т-Банк проведет конференцию «Продукты 24» для продакт-менеджеров и продуктовых аналитиков. На ней узнаете, из чего состоят крутые продукты и как их развивать.

Эксперты разберут на примерах:
Как создавать продукты будущего.
Как привлечь и удержать внимание клиента.
Как растить большие продукты с помощью аналитики.
Как влюблять в свой продукт.

Приходите на конференцию в Москве, в пространстве «Арма» или смотрите онлайн из любой точки мира.

Узнать больше и зарегистрироваться можно здесь

Это разве аналитика?

11 Nov, 09:26


Сделал небольшой Юпитер ноутбук для расшифровки сохраненных паролей в популярном просмотрщике баз данных Dbeaver.
Часто нужно посмотреть - а что же я сохранил в пароле)

https://github.com/berancad/dbeaver-creds

Запускать локально
Настраивается ключ расшифровки (актуальный всегда можно посмотреть в коде dbeaver)
Настраиваются пути поиска файла с паролями

Это разве аналитика?

11 Nov, 05:01


⁉️ Хотите понять, чем отличается асинхронная работа python-кода от многопоточной?

Не пропустите бесплатный открытый урок 12 ноября в 20:00 мск! Мы рассмотрим вытесняющую и кооперативную многозадачность, обсудим процессы и потоки на уровне ОС. Вы узнаете, что такое race conditions и как их избежать, а также получите практическое понимание, как работает asyncio в Python.

👨‍💻🛠👨🏻‍💻 Урок для аналитиков, для Python-разработчиков, Data Scientists и ML-инженеров, которые работают с базами данных, API и многозадачностью.

🔴 Запишитесь на урок и получите скидку на курс «Python для аналитики»: регистрация

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid 2Vtzqxdz4SZ

Это разве аналитика?

10 Nov, 07:03


Data Engineering bootcamp

Готовы апгрейднуть свой скилл-сет?

🗓️ Когда? 15 ноября дропаем 6-недельный фриварный интенсив!
🎬 Чекните видос с инфой

🧠 Программа курса:

🔥 Big Data стек: разберетесь с Apache Kafka, Flink, Spark - настоящий датаинжениринг-рок!

💾 Базы данных: Postgres

🏗️ Моделирование данных: Fact Data Modeling

🔄 Дата-оркестровка: Заджобите с Airflow и Data Quality - чтобы данные не лагали

🛠️ Дебаг пайплайнов: Научимся фиксить баги в потоках данных

📈 Визуализация данных: Tableau

📊 Аналитические паттерны: Growth accounting и проектирование кумулятивных таблиц

📚 Дополнительный ресурс:
Для углубленной подготовки автор рекомендует использовать The Data Engineering Handbook

📌 Что внутри Handbook:
📄 Whitepaper'ы по актуальным технологиям

💻 Технические блоги ведущих IT-компаний

🎥 Подборка YouTube каналов по Data Engineering
🎧 Тематические подкасты

Совет: Даже если вы не планируете проходить курс, в этом репозитории вы найдете много полезной информации.
Стань тем самым 10x инженером, о котором все говорят!
Let's rock this data world!

Это разве аналитика?

09 Nov, 19:23


Нормальные формы базы данных (YouTube)

00:00​ - О чём пойдёт речь в статье
00:45​ - Коротко о реляционных БД
01:20​ - Что такое нормализация
01:46​ - Зачем нужна нормализация БД
02:08​ - Что такое избыточность данных с примерами
04:51​ - Какие бывают нормальные формы БД и о процессе нормалиции в целом
08:00​ - Ненормализованная форма или нулевая нормальная форма с примером
09:37​ - Первая нормальная форма с примером нормализации
11:24​ - Вторая нормальная форма с примером нормализации
15:29​ - Что такое декомпозиция
16:18​ - Третья нормальная форма с примером нормализации
18:54​ - Нормальная форма Бойса-Кодда с примером нормализации
21:54​ - Четвертая нормальная форма с примером нормализации
27:45​ - Почему обычно никто не нормализует БД до 5 или 6 нормальной формы
29:14​ - Пятая нормальная форма с примером нормализации
34:23​ - Доменно-ключевая нормальная форма
35:39​ - Шестая нормальная форма
38:02​ - Выводы и заключение

https://youtu.be/zqQxWdTpSIA?si=9WUJIZbQ8Qu7QWjO

Это разве аналитика?

08 Nov, 15:26


Основные мысли со второго дня конфы

📍Шаблонная архитектура data platform с точки зрения хранения данных: S3 + Greenplum + Clickhouse

S3 - объектное хранилище, можно писать любые форматы с любой структурой данных. Используется как часть Data Lake и промежуточным слоем хранения данных между источниками и core
Greenplum - основная БД хранения данных по слоям. Удобен, т.к. open source и является MPP-решением, что позволяет работать с большими объемами данных
Clickhouse - базенка для аналитических витрин, используют в основном для BI слоя и отчетов с возможностью real time аналитики. Понятное решение, т.к. клик является колоночной базой, что позволяет более быстро крутить метрики витрин чем напрямую это делать в GP.

📍Со стороны ETL было удивлением, что многие уже внедрили dbt для описания правил трансформации данных, думал что тренд dbt с запада будет к нам чуть дольше идти. В остальном никакие новые тренды не услышал, все стандартно: Airflow как оркестратор, Kafka для очередей.

📍У многих болит тема Data Governance, особенно у тех кто переходит в Data mesh. Ну правильно, чтобы не получить data mess вместо data mesh - нужно внедрять общие практики управления данными (Federated DG/DM) на уровне всей компании)

Это разве аналитика?

08 Nov, 08:09


Разбираем тестовое задание на позицию Junior Аналитика в Самокат

Чтобы найти работу, мало пройти курс и сделать классное резюме. На практике, чтобы выделиться на собеседовании, нужно понимать, что лежит под капотом каждого инструмента, а не следовать конкретному заученному алгоритму.

Чтобы попрактиковаться в этом, приходите на бесплатный вебинар, где будем решать типичные задачи на SQL, которые дают на собеседованиях аналитикам на основании данных из Самоката.

Что будет на вебинаре:
- Проведем аналитику заказов и клиентов с помощью SQL

- Разберем фишки кода на SQL: CASE в агрегациях, удобная фильтрация и другие

- Построим мини-дашборд продаж в Metabase

Вебинар проведет Андрон Алексанян, CEO Simulative
🕗Встречаемся 12 ноября в 19:00

🎁Обязательно приходите смотреть вебинар в прямом эфире - в лайве будут дарить подарки, которые сильно бустанут старт карьеры в аналитике!

Зарегистрироваться на бесплатный вебинар

Это разве аналитика?

08 Nov, 07:01


Вселенная Telegram и tech каналы

Телеграм сейчас является основным источником контента для многих. Стало интересно сделать анализ всех телеграм каналов: подписчики, рейтинги, частота статей, процент репостов, процент рекламы и т.д., поэтому посмотрел как можно достать данные. Какого-то сервиса, где можно сразу быстро и просто взять все каналы и набор метрик по ним, я не нашел, поэтому посмотрел что есть из готовых данных.

Существуют агрегаторы данных телеграм типа tgstat. Похоже что наиболее простой способ - парсить данные агрегаторов. Варианты с ботами, виртуальными аккаунтами показались более затратными.

Итак, посмотрел несколько агрегаторов, взял на пробу три датасемпла. Самым адекватным показался семпл tgstat, поэтому, остановился на нем. В сервисе надо регистрироваться по телеграм аккаунту. Контент динамический, то есть, подгружается по клику. В парсинге всех данных не было смысла - важно было посмотреть что получится на семплах. Спарсил несколько категорий RU домена.

Сегодня расскажу про tech каналы с этой страницы. Это каналы категориии 'Технологии', Россия. Есть несколько каналов из этой категории, читаю их ежедневно, ну и этот канал тоже о технологиях.

Теперь о парсинге. У tgstat есть защита от ботов, регистрация по телеграм аккаунту, динамический контент (не все загружается сразу). Питоновская библиотека requests здесь не работает. Playwright не может регистрироваться с внутренних браузеров - ошибка. Поэтому, делаем максимально 'человеческий' скрипт. Скрипт повторяет действия человека. Запускается Хром в режиме отладки, скрипт логинится, нажимает кнопки для загрузки контента в этом браузере и скачивает данные. Все сохраняется в csv, поля:

Категории
1. id канала
2. Техническое название канала с @ в начале
3. Название канала
4. Ссылка на лого канала
5. Описание канала
Метрики:
6. Число подписчиков
7. Дата последней активности

Сохраняем только каналы с числом подписчиков 100 и больше, и из 15и тысяч остается 7635. С названиями каналов есть нюансы в парсинге, но обойти можно.

Итого, датасет готов, можно покрутить и поискать инсайты. Лого скачал скриптом. Первые 20 каналов сильно выделяются на фоне остальных огромным числом подписчиков. Поэтому хотелось показать сразу все каналы, построить 'вселенную' каналов. Визуализация - packed bubbles c лого и размерами кругов пропорциональными числу подписчиков.

Теперь к самой визуализации. Packed bubbles можно делать различными способами и в разных средах. В BI - большие ограничения, питон - долго считает (пробовал, но ждать долго). Поэтому, победил Процессинг, сделал на p5js, алгоритм collide. В коде js есть 7 параметров, их можно настраивать, получая разные вариации диаграммы. Долго игрался с этим, в итоге, в комментах приложил 3 визуализации в разрешении 8k:

1. Каналы 100 и более подписчиков. 7635 штук.
2. Каналы 1000 - 100000 подписчиков. 4535 штук.
3. Каналы 10000 - 100000 подписчиков. 1009 штук.

Получились своего рода вселенные со звездами и планетами (самое то на fullscreen). На одной картинке можете видеть все каналы и представить масштабы контента в телеграм. Разрешение высокое, можно зумить и искать интересные каналы. Контент 3ей категории читаю больше всего, поэтому, сделал интерактивный виз в Tableau именно в этом диапазоне подписчиков. Координаты кругов взял из js.

Интерактив с фильтрами и хайлайтами в Tableau

Здесь можно найти канал, выбирать диапазон подписчиков и рейтинги на основе числа подписчиков. Можно читать описание и переходить в сам канал по клику.
Из того что читаю: LEFT JOIN, Reveal the Data, Инжиниринг данных, Время Валеры, Чартомойка и другие.
Интересно получилось.

Cмотрел еще категории 'блоги' и 'спорт' . Там кривые по рейтингам другие совершенно. Про это тоже расскажу. До визуализации всей телеграм вселенной осталось немного.

Это разве аналитика?

07 Nov, 13:12


⚡️ Книги по скидке 40%! Дичайшая распродажа! Только до 10 ноября!

Друзья, мы начинаем нашу Черную пятницу! Только до 10 ноября на сайте издательства «ДМК Пресс» будут действовать мои дикие скидки на 40% на PDF и 30% на бумагу! И самое главное, что вы можете купить по этой скидке мою новую книгу «Python: Pandas на практике» (200 упражнений по анализу данных с решениями и пояснениями), которая выйдет в ближайшие недели! (недавно я анонсировал ее на своем канале)

Спешите!!! Скидки действуют на ВСЕ книги издательства "ДМК Пресс", а не только на мои! При покупке обязательно вводите мой промокод:

- на бумагу: Ginko_BlackFriday_2024
- на PDF: Ginko_BlackFriday_PDF_2024

Все мои книги собраны на отдельной странице издательства: https://dmkpress.com/content/authors/8024111/, но вы также можете покупать и любые другие книги, на них тоже будет распространяться скидка!

Скидку вы получите и без моих промокодов, но с ними вы сможете поддержать меня и наш с вами общий канал и внести вклад в мои будущие переводы!

Вот лишь несколько примеров цен на мои книги в Черную пятницу:
1) Подробное руководство по DAX: 2049 руб. >>> 1289 руб.
2) Введение в статистическое обучение с примерами на Python: 2499 руб. >>> 1499 руб.
3) Power Query и язык М. Подробное руководство: 2499 руб. >>> 1499 руб.
4) Python: Pandas на практике: 2599 руб. >>> 1559 руб.

Страница со всеми моими книгами на сайте: https://dmkpress.com/content/authors/8024111/

Это разве аналитика?

07 Nov, 10:54


📊 Как проверить, существует ли датафрейм в Python, прежде чем с ним работать?

Недавно столкнулась на работе с задачей, когда нужно было объединить два датафрейма — df1 и df2. Но тут был нюанс: иногда df1 просто не загружался из-за отсутствия данных. А мне нужно было учесть его, если данные вдруг появятся. Если бы пыталась объединить df1 и df2, когда df1 не существует, то это выдавало бы ошибку. Код и выдавал ошибку, чего уж там. 🤦‍♂️
Вот тут и пригодилась небольшая хитрость с проверкой на существование переменной.

В Python можно использовать функцию locals(), чтобы проверить, была ли создана переменная, прежде чем что-то с ней делать. Например, если я хочу проверить, существует ли df1, то пишу условие:
if 'df1' not in locals():
df1 = pd.DataFrame() # Создаем df1, если он не существует

Итак, накидаем примерчики.

🔹 Вариант 1: locals()
import pandas as pd

df2 = pd.DataFrame({
'status': [1, 2, 3],
'manager_name': ['Иванов', 'Петров', 'Сидоров'] })

# Проверка наличия df1
if 'df1' not in locals() or df1.empty:
df1 = df2.copy() # Если df1 пустой или не существует, присваиваем ему df2
else:
df1 = pd.concat([df1, df2], ignore_index=True) # Объединение строк


🔹 Вариант 2: try-except


Другой способ — использовать try-except, чтобы поймать ошибку NameError, если переменная df1 еще не была создана. Это помогает избежать лишних проверок на пустоту и существование:
try:
if df1.empty:
# Если df1 пустой, присваиваем ему значения df2
df1 = df2.copy()
else:
# Если df1 не пустой, объединяем его с df2
df1 = pd.concat([df1, df2], ignore_index=True)
except NameError:
# Если df1 не был создан, создаем его как копию df2
df1 = df2.copy()

df1

📝 Мне больше с locals() нравится. Кратко и по сути, и не надо дублировать код.

Это разве аналитика?

07 Nov, 06:33


❤️❤️❤️❤️❤️

До РУBIКОНФ осталась 1 неделя!

Уже рассказывал вам про РУBIКОНФ — масштабную конференцию по BI и бизнес-аналитике, до события осталась всего 1 неделя! Кто ещё не успел зарегистрироваться, самое время: места ограничены, а программа конференции обещает быть насыщенной и полезной.

Для тех, кто не сможет посетить РУBIКОНФ лично, будет организована онлайн-трансляция. А все новости и обзоры выступлений можно будет найти в Telegram-канале конференции, так что никто не пропустит интересные моменты!

Тем, кто планирует участие в офлайне, стоит воспользоваться уникальной возможностью пообщаться с ведущими экспертами в области BI лично.

Дата: 14 ноября, 10:00-18:00
Место: Москва, Цифровое Деловое Пространство, ул. Покровка, 47

🔗Регистрируйтесь по ссылке и станьте частью события!

Реклама. Рекламодатель АО «ОСТ»
ИНН:
9709108924

Это разве аналитика?

06 Nov, 19:09


Слышали про duckdb?! Вот быстренький туториал https://motherduck.com/blog/duckdb-tutorial-for-beginners/ можете пройти и пощупать руками.

Можно даже в браузере запустить: https://shell.duckdb.org/

Например удобный способ почитать Parquet файл, вместо Parquet CLI-утилит.

Одна из интересных фич “Larger-Than-Memory Workloads (Out-of-Core Processing)”

В целом большинство сценариев про локальное чтение файлов или чтение из S3/GCP/Azure Storage.

Пока не очень понятно как использовать DuckDB для реального распределенного озера данных (lakehouse, data lake). Вот в этой статье - Okta's Multi-Engine Data Stack, Jake рассказывает как они съехали со Snowflake на DuckDb для их security сценариев. (Я его хорошо знаю). Там и ссылка на его доклад.

В целом я отношу сие изделие к разряду fancy. Есть категория разработчиков, кто любит всякие такие штуки использовать, пока другие стучат молотком работают с Databricks, Snowflake, BigQuery и тп.

Статьи по теме:
Build a poor man’s data lake from scratch with DuckDB
Process Hundreds of GB of Data with DuckDB in the Cloud
🦆 vs ❄️ ... 💸 ?

Это разве аналитика?

06 Nov, 17:00


Я знаю, сколько времени может уйти на поиск нужной информации в Telegram, поэтому регулярно делюсь полезными ссылками.

Сегодня подготовили для вас целую подборку каналов в
сфере “IT и Технологии” 📚

Тут вы точно найдете ответы на многие свои вопросы.  А главное - вам не придется, тратить на поиски информации несколько часов 😊 👇

Поэтому переходите, подписывайтесь и пользуйтесь на здоровье 📂😉

Хотите подборку?

Это разве аналитика?

06 Nov, 13:00


Опора для коллег

Важная функция руководителя — быть опорой для коллег. Когда прод лежит, а сроки горят — тимлид должен приносить в команду спокойствие, а не тревогу. Когда прибыль падает, и CEO топчет ногами — COO должен поддерживать коллег, а не грозить всех уволить. Когда инвесторы отказываются от раунда, CEO должен верить в будущее, а не пропадать из офиса с бутылкой.

Собственник бизнеса имеет право на свою прибыль именно потому, что обязан оставаться спокойным и трезвым в любой ситуации. Даже когда когда корабль тонет и бизнес разоряется — команда должна видеть уверенного капитана, чтобы спокойно вычёрпывать воду.

Самое сложное в том, что надо не просто демонстрировать спокойствие и искриться улыбкой, а действительно быть таким внутри, иначе люди быстро распознают хуйню и станет только хуже. Это довольно сложная работа — чтобы выполнять её в собственных бизнесах, мне понадобилось 10 лет ежедневного руководства командами и 5 лет психотерапии. До сих пор есть, куда расти.

Мой идеал спокойствия — Людвиг Быстроновский, арт-директор, с которым я когда-то давно работал в студии. Судя по его рассказам (посмотрите его цикл лекций о шторме) — человек довольно взрывной внутри. Несмотря на это, всегда когда у меня случался полный пиздец (а в клиентской работе полные пиздецы случаются раз в неделю), если на проекте был Людвиг — я успокаивался гораздо быстрее. Он не применял никаких специальных инструментов — просто спокойно разговаривал о проблемах. Наверное это работало где-то на уровне химии и языка тела, не знаю. Часто мне даже не надо было с ним разговаривать — я садился писать ему письмо и, даже не дописав, понимал что делать. Сейчас я стараюсь быть таким же для своих коллег — давать уверенность и спокойствие, что бы ни происходило в бизнесе.

Так вот, к чему это я: если начали руководить даже двумя людьми — учитесь приносить им спокойствие. Тревоги им и без вас достаточно.

Это разве аналитика?

06 Nov, 05:29


Как наконец перестать делать ошибки в моделях процессов в нотации BPMN?!

Узнайте на бесплатном вебинаре онлайн-курса «BPMN: Углубленная практика» - «Как нарисовать модель процессов без ошибок»: регистрация

Структура вебинара:
1. Для чего нужна нотация BPMN;
2. Типовые ошибки в нотации BPMN;
3. Хороший стиль моделирования в нотации BPMN.

Урок идеально подойдёт:
· начинающим системным и бизнес-аналитикам,
· менеджерам проектов и продуктов.

🤝Понравится вебинар — продолжите обучение на курсе по специальной цене и даже в рассрочку!

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, Erid 2Vtzqw4x91P

Это разве аналитика?

05 Nov, 18:39


Книга "Расширенная аналитика с PySpark: Практические примеры анализа больших наборов данных с использованием Python и Spark"

Это разве аналитика?

05 Nov, 06:23


Бесплатный стартер-пак в науку о данных от karpov courses

Анализ данных необходим для улучшения продукта и повышения эффективности бизнеса, а спрос на внедрение работы с данными стабильно растёт каждый год. Если вы стремитесь к более фундаментальному пониманию профессий аналитика данных, инженера машинного обучения и работы с данными в целом, то обязательно обратите внимание на бесплатный стартер-пак в науку о данных от karpov.courses.

Ребята разложили сферу Data Science на составные элементы — от самых азов до продвинутого уровня. Вы познакомитесь с экспертами сферы, освоите необходимую терминологию, закрепите и структурируете имеющиеся знания, получите полезные советы от нанимающего тимлида и эйчара из крупных компаний о том, как перейти на более интересную/высокооплачиваемую роль.

Забрать стартер-пак или узнать подробнее о программе можно по ссылке: https://clc.to/erid_LjN8KKC6u

Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627.

Это разве аналитика?

04 Nov, 12:09


Книга "Apache Airflow и конвейеры обработки данных"

Это разве аналитика?

03 Nov, 06:06


Pro tip: поставьте рабочую почту и Slack (или аналог) на Mute. Удалите с телефона рабочие аккаунты — и будет вам счастье. Так работаю уже последние лет пять.

99% коммуникации — это FYI. Почту можно проверять раз в день. Очень часто срочность у нас в голове, и нам кажется, что, если мы не ответим на сообщение, то про нас подумают, что мы не работаем.

Исключение — это алерты о сбоях production. Здесь, наоборот, важно не пропустить. И, конечно, важно не пропускать встречи, но, как правило, для IC-ролей расписание встреч +/- устоявшееся.

Данный tip подходят для разработчиков и инженеров;)

Это разве аналитика?

02 Nov, 13:31


😂😂😂😂

Это разве аналитика?

02 Nov, 06:56


🦖 как вытаскивали динозавра в опенсорс

каджый яндексоид знаком с «ытём» — система хранения данных с sql-подобным доступом. я бы сказал, что YT находится в центре всех процессов яндекса, которые завязаны на анализ данных (это получается, практически всех?)

(недавно осознал, насколько это внушительный буст для команды, когда у тебя по дефолту уже есть данные в нужном месте и доступная инфра, чтобы быстро начать ими пользоваться)

а с не давних пор, посмотреть на этого дивного зверя могут все желающие — теперь YTsaurus доступен в опенсорс.

↓ доклад с прошлогоднего хайлоада с отчётом и рефлексией команды по итогам первой фазы этого эпического движа (да-да, с офф. релизом работа только началась))

⌘ откуда имя: чтобы у команды не развилась шизофрения, было принято верхнеуровневое решение придерживаться единой кодовой базы для внутреннего и внешнего решения. а те самые две буквы — YT — плотно сидят в куче разных мест и менять их было бы титаническим трудом.

⌘ нейминг : проверили-обсудили порядка 40 разных вариантов, в конце привлекли внешнее креативное бюро для помощи. у двухбуквенного имени практически нет шансов избежать юридических проблем или найти свободное место в умах пользователей. поэтому решили добавить что-то к первым фиксированным буквам.

⌘ по трудозатратам — год для команды 10 человек, и это только первый минимальный вариант «за который не стыдно»

⌘ полгода занял только оператор для кубернетеса, чтобы можно было деплоить всю эту махину вне сервисов яндекса

⌘ два техписателя и менеджер год работали над документацией: пересобрать, перевести, убрать ссылки на внутренние ресурсы, переписать с нуля раздел для админов (т.к. внутренние клиенты не занимаются администрированием)

https://youtu.be/Z7kv8tYVHx0

Это разве аналитика?

01 Nov, 13:37


Очень залипательно представлены разные виды сортировки

Это разве аналитика?

31 Oct, 18:54


Грубо, но точно)))

Это разве аналитика?

31 Oct, 16:55


Рождественский SQL-челлендж!

Готовы прокачать свои навыки SQL в праздничной атмосфере? С 1 декабря до Рождества стартует увлекательный SQL-марафон!

Что вас ждет:
📧 Ежедневные задания по электронной почте
🎁 Рождественская тематика в каждом задании
💾 Полный дамп базы данных для практики
📚 Подробные инструкции к каждому заданию

Погрузитесь в мир SQL с головой и сделайте обучение по-настоящему увлекательным!

Как участвовать:
1 Зарегистрируйтесь прямо сейчас

2 Ждите первое задание 1 декабря

3 Решайте задачи и прокачивайте навыки

Это разве аналитика?

30 Oct, 18:51


А тут список популярных вопросов с продуктовых собеседований в крупных западных кампаниях. На некоторые подобные мне приходилось отвечать на продуктовых секциях.

Нужно понимать, что правильных ответов нет и их ни к чему ботать. А пройти по вопросам, проработать их, чтобы, когда придется отвечать на что-то подобное, уже понимать, в какую сторону думать, очень даже поможет в будущем. Еще больше пригодится тем, у кого не так много опыта.

"Предугадывай, не импровизируй".

Это разве аналитика?

30 Oct, 18:51


Иногда (не сказать, что редко) ко мне приходят с вопросом типа "как стать продуктовым аналитиком". Простого ответа не него нет, каждый раз он разный. Это зависит от текущей профессии, опыта, в т.ч. "жизненного", тех. скиллов, типа мышления, желания, в конце концов, и т.д и т.п.
Автор статьи делает неплохой подход к построению данного пути, хотя бы в общих чертах. Другие его статьи тоже рекомендую почитать, жаль, что их мало.

Это разве аналитика?

30 Oct, 15:52


Дорогие программисты (особенно кто кодит не профессионально и не часто), если не пользовались Cursor — рекомендую попробовать.

Это редактор кода на основе VS Code, в который встроили хорошую поддержку AI. Можно выбирать API из множества провайдеров, он сам корректно добавляет контекст, очень удобно подсвечивает добавления/изменения кода.

Я часто прошу накинуть прототип, который дальше довожу до ума. Можно выделить кусочек кода и попросить в нем что-то поменять.

Лично для меня полезно, потому что я программирую редко и часто не помню интерфейсы библиотек (и даже части синтаксиса), но хорошо понимаю, что хочу получить.

Хорошие фул-тайм программисты говорят, что им полезно как мощный инструмент рефакторинга, который берет на себя рутину.

Я сижу на бесплатном тарифе, больше тяжелых запросов — за 20$ в месяц.

Upd. Коллеги напоминают, что совсем недавно Lex Fridman взял интервью у создателей — занимательный разговор!

Это разве аналитика?

29 Oct, 15:11


Услышав об этой акции сразу вспомнил анекдот про внука, бабушку и пельмени))) но, может подвоха действительно нет?)))

В Клубе анонимных аналитиков можно изучить sql с куратором с большой скидкой по стоимости. Также сказано, что вернут деньги тем, кто пройдет курс вовремя. На все про все дается 6 недель. Акция действует до 30 октября.

Это разве аналитика?

29 Oct, 11:04


​​Превратности панд 🐼
.
Кейс из серии явное лучше неявного. Многие сталкиваются с задачей конвертации строковой даты в собственно дату.
.
Рассмотрим пример в пандах для файлика (в нем ничего кроме даты нет):
import pandas as pd
print(pd.version)

df = pd.read_csv("sample.csv")
df["entry_date"] = pd.to_datetime(df["entry_date"])

.
И тут нас ждут тонкости, связанные с версией pandas:
- если вы используете pandas < 2.0, то вероятнее всего код выполнится без ошибок, но ошибки собирать вы будите дальше и сколько времени уйдет на поиска: часы или дни 🤷‍♂️
.
А что вообще происходит: по дефлоту пандас пытается угадать определить формат даты и преобразовать в дату. Но как выяснилось до версии 2.0 пандас делает это специфически. Открываем наш файл и видим что даты записаны как:
12/01/2018 08:26

Пока сложно: это 1 декабря или 12 января??? Поищем другие цифры и находим:
13/12/2018 09:02

Ага, значит наш формат - %d/%m/%Y %H:%M - супер. А теперь вишенка на торте, смотрим как преобразовал пандас наши строки:
12/01/2018 08:26 -> 2018-12-01 08:26:00
13/12/2018 09:02 -> 2018-12-13 09:02:00

12 января стало 1 декабря, а 13 декабря осталось 13 декабря 🤦‍♂️
.
Версии пандас >= 2.0 кидают ошибку:
ValueError: time data "13/12/2018 09:02" doesn't match format "%m/%d/%Y %H:%M", at position 881

И сразу предлагают воспользоваться аргументом format, в котором требуется указать пандасу с каким форматом даты он имеет дело.
☝️Будьте бдительны при использовании различных инструментов и старайтесь явно прописывать все настройки, не полагаясь на "умноту" этих средств - рано или поздно стрельнет в ногу.

ps: Clickhouse справился с задачей из коробки, только 🤫

SELECT
entry_date,
parseDateTime64BestEffort(entry_date) AS entry_date_dt
FROM
s3('https://storage.yandexcloud.net/public-bucket-6/sandbox/sample.csv',
'CSVWithNames')
WHERE
entry_date IN ('12/01/2018 08:26', '13/12/2018 09:02');

entry_date |entry_date_dt |
----------------+-------------------+
12/01/2018 08:26|2018-01-12 05:26:00|
13/12/2018 09:02|2018-12-13 06:02:00|


#pandas #datetime

Это разве аналитика?

28 Oct, 03:32


Показали классную штуку – briefer. Это как Notion, но для блокнотов с кодом и дэшей.

Позволяет создавать динамические блокноты, дэшборды и интерактивные приложения при помощи Markdown, Python и SQL. Конечное же, есть AI для помощи с геренацией кода.

Это разве аналитика?

24 Oct, 11:19


#база_знаний

Почему дату в СУБД и других хранилищах часто записывают в формате строки?

💡 Этот пост будет полезен новичкам, кто только начинает изучать SQL и задумывается, почему даты иногда хранятся не в привычном формате DATE или TIMESTAMP, а в виде строк.

Когда я только погружался в SQL на работе, для меня было болью, если дата была записана в формате строки. Ведь везде на курсах говорят, что дату нужно хранить в DATE формате, и не иначе.

Сейчас, для меня это является уже меньшей болью, но всегда полезно иметь под рукой формулы перевода или извлечения даты (и ее частей) из строкового формата.

Давайте разберемся, какие есть плюсы и минусы в таком подходе - хранить даты в строковом формате в хранилище.

Плюсы:

▪️Универсальность и читабельность. Формат YYYY-MM-DD (ISO 8601) стал стандартом для представления дат. Записав дату строкой, её легко понять как человеку, так и компьютеру. Это особенно важно, когда данные передаются между разными системами.

▪️Минимизация ошибок при парсинге. Системы могут по-разному интерпретировать даты, записанные в числовом формате. Например, 12/11/2023 в одной системе может означать 12 ноября, а в другой — 11 декабря. Формат строки, особенно ISO 8601, помогает избежать таких путаниц.

▪️Совместимость с разными системами. Не все базы данных или приложения умеют работать с типом DATE, особенно старые системы. Строки проще использовать при интеграции с такими системами.

Минусы:

▪️Неправильная сортировка. Строки сортируются по алфавиту, и это не всегда совпадает с хронологическим порядком. Например, '12/31/2023' может оказаться перед '01/01/2024', хотя по времени это не так. Если придерживаться формата YYYY-MM-DD, таких проблем не будет, но в других случаях возможны сложности.

▪️Ограниченные возможности работы с датами. В строковом формате нельзя сразу использовать встроенные функции для дат, такие как вычисление разницы между датами или извлечение дня недели. Для этого потребуется сначала преобразовать строку в DATE или TIMESTAMP.

▪️Ошибки валидации и формата. Строки не защищены от неверных данных. Например, можно ввести '2023-13-01' или '2023-02-30', и система их примет, хотя это некорректные даты. Тип данных DATE сразу бы отклонил такие значения.

❗️Когда стоит использовать строковый формат для дат?

Если вы работаете с системами, которые не поддерживают типы данных для дат или передаёте данные в текстовых файлах, строковый формат может оказаться удобным. Но в остальных случаях, особенно когда вам нужны точные операции с датами и их сортировка, лучше использовать специализированные типы данных.

Для новичков важно понимать: строковый формат может быть полезен, но лучше использовать типы данных, созданные для работы с датами, если это возможно. Это повысит точность работы и упростит управление данными.

Если работаете с датами в строковом формате, используйте маску ‘YYYY-MM-DD’, тогда проблем с интерпретацией даты, сортировкой и выполнению join возникать не будет.

🖥 Навигация по другим материалам группы.

А как вы предпочитаете хранить даты в ваших проектах дома или на работе?

Это разве аналитика?

24 Oct, 05:06


🤔Как изменить IT-продукт, чтобы он занял достойное место на рынке?

🚀Узнаете на открытом онлайн-уроке «Продуктовая гипотеза»

Будет интересно продуктовым аналитикам и продуктовым менеджерам

Вы узнаете:
– Какими бывают гипотезы в зависимости от этапа развития компании
– Как увеличить шансы на успех гипотезы
– Как правильно формировать гипотезу
– О чём говорят цифры?
– Какие гипотезы помогают пройти «долину смерти»

👨‍💻Вебинар проведёт Алькей Аманжолов – постоянный резидент главного национального центра IT-стартапов в Казахстане «Astana Hub»

🤝После вебинара можно записаться на курс «Продуктовая аналитика. Professional».

🕖28 октября, 20:00 Бесплатно

Записаться на событие

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

Это разве аналитика?

24 Oct, 04:06


Алгоритмы и структуры для массивных наборов данных [2023] Меджедович Дж., Тахирович Э.pdf

Стандартные алгоритмы и структуры при применении к крупным распределенным наборам данных могут становиться медленными — или вообще не работать. Правильный подбор алгоритмов, предназначенных для работы с большими данными, экономит время, повышает точность и снижает стоимость обработки.
Книга знакомит с методами обработки и анализа больших распределенных данных. Насыщенное отраслевыми историями и занимательными иллюстрациями, это удобное руководство позволяет легко понять даже сложные концепции. Вы научитесь применять на реальных примерах такие мощные алгоритмы, как фильтры Блума, набросок count-min, HyperLogLog и LSM-деревья, в своих собственных проектах.

Это разве аналитика?

23 Oct, 17:26


🌄 Зарубежные подкасты про данные

В конце "Fundamentals of DE" была ссылка на подкаст, который ведут авторы книги. И мне захотелось погуглить, а какие еще подкасты про де есть. Взяла за основу список с прошлогоднего поста на реддите, убрала неактивные и добавила новые. Поделитесь, кто что слушает и что рекомендуете?

Monday Morning Data Chat - от авторов
The Analytics Engineering Podcast
The Data Engineering Show
The Data Engineering Podcast
The Data Stack Show
Drill to Detail Podcast
Analytics Power Hour
DataTalks.Club
The Data Cloud Podcast
The MongoDB Podcast
The Analytics Everywhere Podcast
The Real Python Podcast
Plumbers of Data Science Podcast
What's New in Data?
The Datanation Podcast

Это разве аналитика?

23 Oct, 09:51


Тренажёр-практикум Python и SQL
(от NumPy и OpenCV до PostgreSQL) в аналитике данных и ML


Откройте карьерные возможности в машинном обучении и аналитике данных
- Научитесь проводить анализ больших объёмов данных.
- Создавайте интерактивные и 3D-визуализации для представления данных.
- Освойте работу с SQL-базами для хранения, модификации и извлечения данных.
- Оптимизируйте запросы и управляйте структурой данных в базах.

🫡 Для кого будет полезен этот тренажёр?

Аналитикам данных, бизнес-аналитикам и продуктовым специалистам:
Новичкам и продолжающим в области анализа и визуализации данных, которые хотят освоить ключевые инструменты для эффективного анализа и машинного обучения на практике.

Тем, кто уже знаком с Python и стремится развиваться в аналитике данных и ML:
Разработчикам и специалистам по данным, стремящимся углубить навыки обработки данных и визуализации.

Инженерам данных и всем заинтересованным:
Тем, кто сталкивается с трудностями при предобработке данных для моделей машинного обучения и хочет выстроить системный подход к работе с ними.

Тем, кто стремится автоматизировать процессы и управлять данными:
После курса вы научитесь эффективно работать с NumPy и Pandas, создавать визуализации через Matplotlib и Seaborn, а также управлять базами данных с PostgreSQL.

Примеры задач, которые вы решите в тренажёре:
- Анализ температурных данных
- Редактор изображений
- Временной анализ продаж

🎓 Попробуйте первые уроки бесплатно!
В демо-версии курса вы познакомитесь с основами библиотек NumPy, Pandas и Matplotlib, научитесь создавать и редактировать массивы, работать с изображениями и применять эти навыки для решения практических задач в разных областях.
Пройдите 6 практических заданий сразу!
PS. В демо также доступен ИИ-бот ДуДу с code review 24/7.

👉 Регистрация на демо-доступ

Реклама. ООО "Инженеркатех" ИНН 9715483673 Erid 2Vtzqwp4SYC

Это разве аналитика?

23 Oct, 05:57


Были ещё ответы, что проценты — это часть от целого, и нельзя визуализировать их кругами. Это не так.

Проценты бывают разные — в некоторых случаях они являются частью одного целого, а в некоторых — разных целых (как тут).

При визуализации надо отталкиваться, в первую очередь, от цели.
И цель тут — сравнить числа между собой, бабблы её вполне решают.

Это разве аналитика?

23 Oct, 05:57


Коллега из Школы Спикеров Яндекса принёс в чат сокурсников такую картинку.

И спросил:
Что в этом слайде плохого? И как его улучшить?

Мне этот вопрос показался дико любопытным. Но расскажу я о своих соображениях, если подтвержу гипотезу.

Напишите в комментариях свою версию ответа.
А если согласны с уже ответившим, просто поставьте лайк на его комментарии 👇

Это разве аналитика?

22 Oct, 18:51


♨️ Внимание, большой осенний розыгрыш книг стартовал!

Друзья, сегодня на моем канале начинается розыгрыш книг, который продлится ровно неделю – до воскресенья! В розыгрыше мы случайным образом определим целых 5 (!!!) победителей, трое из которых смогут выбрать любую книгу в моем переводе в любом удобном виде (бумага или PDF), и еще два победителя получат любую книгу в PDF!

Что нужно сделать, чтобы принять участие? Подписаться на моего бота (@alexanderginko_books_bot), нажать на кнопку Участвовать в розыгрыше, выбрать розыгрыш с именем «Осеннее читалово» и всё! А если еще и напишете отзыв о моем канале, нажав на кнопку Отзыв о книгах или боте, ваши шансы на выигрыш повысятся за счет кармы! 🙂

После этого вам останется дождаться воскресенья (27 октября) 20:00 по московскому времени, и мы вместе с вами в видеотрансляции выберем пять победителей, которые получат выбранные книги, включая новинку «Power Query и язык М. Подробное руководство», которая на днях выйдет! Итоги подведем прямо в боте, и он сразу разошлет победителям оповещение о выигрыше!

Кстати, мой новый перевод (книга «Python: практическое руководство по Pandas 200 упражнений» уже почти завершен, осталось дней 10! Если вы еще не успели сделать предзаказ, бегом к моему боту (ссылка выше), жмите на кнопку Оформить предзаказ на книги и выбирайте эту книгу. По ее выходу вы первым получите сообщение от моего бота со всеми промокодами и скидками!

Разошлите этот пост всем, кто умеет читать как в последний раз! Зовите друзей и недругов, мы рады всем и никому! Вперед к исследованию бота и участию в розыгрыше, он уже появился у меня в боте: @alexanderginko_books_bot

Это разве аналитика?

22 Oct, 05:06


🚀 Новый канал для аналитиков, маркетологов, продактов и всех, кто принимает решения на основе данных

На канале "Аналитика для самых маленьких" можно найти простое объяснение тому:

  🔘как построить дашборд для команды и какие цвета подобрать для визуализации

  🔘какие полезные отчеты есть в Яндекс Мeтрике и App Метрике

  🔘что такое Sticky Factory, N-Day Retention и рециркуляция


Тут собрано все в одном месте. Переходите и читайте про новые системы для A/B тестирования 🔆

Это разве аналитика?

22 Oct, 04:30


🩻 BI Adoption Health Check

Год назад я опубликовал BI Adoption Guide в MIRO, где выделял причины низкого трафика на BI контент в компаниях и мапил их на потенциальные решения.

C тех пор не сказать чтоб случился прорыв. Мы с интересом наблюдаем за эволюцией BI как сервиса, за экспериментами с производством более "инсайтного" интерфейса в виде ботов и алертинг тулов (как с LLM, так и без), но (сюрприз) от пользователя все равно нужна осведомленность, мотивация, доверие и усилие, а от BI разработчика - продуктовое мышление.

Короче зашел я снова на эту тему и обновил список факторов, засунув все это в google-sheets опросник (уходящий своими корнями в Матрицу компетенций Ромы Бунина). Держите:

🔗 BI Adoption Health Check Tool [на русском]

В опроснике форма - заполняешь и в идеале получаешь почву для размышления. Все инструкции внутри.

Я сделал этот тул для себя. Использую его в BI Health Check проектах как один из этапов анализа ситуации. Кому такой проект интересен - пишите. Там еще много чего внутри, но главное в итоге тейлорим роудмап комплексного развития BI под компанию.
Повышаем BI годноту и понижаем BI негодноту. 😎

Файл открыт для копирования - делайте копию, редактируйте, заполняйте про свою компанию.
Опросник изначально для BI менеджера и команды, он не подходит для кастдев опросов пользователей (там нужна форма сильно проще).

Фидбек
Если будут какие то толковые мысли как улучшить развить - буду рад.
Кто может - пошарьте мне в личку ссылкой и сам ваш результат, возможно позднее я соберу данные с рынка, чтобы найти бенчмарки и зависимости, но не факт.
Пока не забыл - спасибо Настеньке за ее неисчерпаемую готовность качественно тестить. Учел твои замечания 🙏

Это разве аналитика?

21 Oct, 18:58


Ещё раз хороним программирование. Земля пухом

С каждым выходом нового AI-агента или какой-нибудь софтины, которая сама пишет код, программирование хоронят. Фаундер очередного AI-агента пишет твитттер-тред с его возможностями. Подобные твиттер-треды, которые являются ни чем иным, как рекламой, берут на виллы разные предприниматели, менеджеры, AI-инфоцыгане, да и просто зеваки. «Это очередной прорыв, скоро программисты точно будут не нужны», — говорят они.

Этот пост — попытка ответить на вопрос, а что AI-агенты, AI Code Editor’ы и другие программы для написания кода могут прямо сейчас:

0. Обратите внимание. Демонстрация подобного софта в подавляющем большинстве случаев — написание чего-то с нуля. Так было и на последнем DevDay OpenAI, где AI писал софт для управления дроном, который запустили прямо в зал со зрителями. Но написания кода с нуля — немного искусственная задача. Работа программиста в 99.9% — ковырять существующий проект из нескольких десятков/сотен тысяч строк кода. Программист удаляет или рефакторит существующие куски, а также дописывает что-то новое.

А почему демонстрация происходит на новом проекте? Максимальный эффективный контекст большой языковой модели на данный момент — 64k токенов. Если мы, скажем, грубо, что в одной строке кода — 5 токенов, то 64k токенов — это проект на 12 000 строк. Это немного. В больших корпоратах даже шаблон нового репозитория может быть больше.

Производители агентов идут на ухищрения, сводя большие репозитории к нескольким тысячам строк кода, как это и делает кожаный программист. Это помогает, но без большого контекста в LLM, задача дописывания кода в большой репозиторий решается так себе.

1. Естественно, есть бенчмарк, который оценивает работу AI на больших репозиториях, SWE-bench. В SWE-bench входят 2300 реальных багов из 12 больших оупенсорсных репозиториев, написанных на Python. Как только этот бенчмарк появился год назад, лучшая модель закрывала 3% багов. Последний результат — 43% от AI-редактора кода Aide. 43% — мощно! Но есть «но».

В обучающей выборке моделей точно были все эти 12 больших оупенсорсных репозиториев. Модели знают о них очень много, даже специальную служебную информацию, например, хэши коммитов.

2. Есть видео Димы Рожкова, где он тестирует 6 AI-тулзов с небольшой задачей, где надо сходить в несколько API и сохранить данные. Дима в конце приходит к выводу, что непонятен конечный пользователь этих тулзов. Они до сих пор требуют много экспертизы и действий. Человек, не знакомый с написанием кода, просто не сможет воспользоваться этими инструментами. А программисту легче будет написать всё самому, так как агенты до сих пор требуют много времени. Вот твиттер-тред о написании обычного бэкенда с нуля инструментом Cursor Composer, изначальный промпт там аж в 250 строк — иногда легче написать код, чем такой запрос.

Вывод такой: пока это сырые инструменты. Но! Они уже могут помогать в чём-то. Нужно пробовать искать личные сценарии использования. Процент помощи вырастет, и тулы будут становиться всё полезнее. И AI точно заменит кожаного программиста, но когда — непонятно. До этого момента мы будем существовать в парадигме «менеджера» LLMок.

Так что, с одной стороны, те кто кричат, что программирование — всё, лукавят. Ну а с другой стороны, те, кто полностью отказываются от работы с AI, мол, я всё буду по старинке делать, похожи на неолуддитов.

Пост помог подготовить Игорь Котенков, автор лучшего, на мой взгляд, тг-канала про AI, Сиолошная. Моя искренняя рекомендация подписаться.

Это разве аналитика?

21 Oct, 10:33


Н. Паклин, В. Орешков / Бизнес-аналитика: от данных к знаниям

Это разве аналитика?

21 Oct, 07:01


Привет, друзья!

На днях наткнулся на информацию о конференции РУBIКОНФ, которая пройдёт 14 ноября в Москве, и понял, что не могу не поделиться с вами! Если вы, как и я, «фанаты» бизнес-аналитики, это событие — must-visit!

⚡️РУBIКОНФ — это не просто место притяжения ИТ-директоров, вендоров и BI-специалистов. Это реальная возможность разобраться в том, что происходит на рынке BI. В последние годы российские BI-системы, которые только начинали свой путь, теперь вполне могут конкурировать с западными аналогами. Но действительно ли это так?

На конференции вы сможете узнать, как ведущие российские компании уже сделали этот шаг и что из этого вышло. Здесь не будет скучных лекций — только реальные кейсы и практические советы от тех, кто уже прошёл через все «штуки» импортозамещения.

Кроме того, это отличная возможность выяснить, какие BI-решения подойдут именно вашему бизнесу и как грамотно интегрировать их в ваш ИТ-ландшафт. Общение с вендорами и обмен опытом с коллегами — это то, что поможет минимизировать риски при переходе на новые системы.

Где и когда?
14 ноября 2024, начало в 10:00
Москва, Цифровое Деловое Пространство, Покровка 47.


🔗И, самое крутое — участие бесплатное! Заходите на официальный сайт и регистрируйтесь.

Узнайте, как правильно прокачать свой бизнес с помощью лучших «легальных» BI-решений!

Реклама. Рекламодатель ИП Назаренко С.О.
ИНН: 183111053286

Это разве аналитика?

21 Oct, 04:25


Гайд по логированию за 12 минут

▫️Вы узнаете, что такое логи, зачем они нужны и как правильно их использовать.
▫️Как настроить логи с помощью библиотек, вместо простого вывода на консоль, чтобы не потерять данные.
▫️Уровни логирования (INFO, DEBUG, ERROR).
▫️Как интегрировать логи с ElasticSearch и использовать их в Spring проектах.

https://youtu.be/KHS8hPh8mtU?si=IIBATXhg3KhsOn4u

Это разве аналитика?

20 Oct, 08:28


Стажер нагнул ByteDance — молодой разраб устроился в компанию и изнутри подрывал проект по разработке нейросетей. Из-за стажёра-тролля 30 айтишников два месяца не могли понять, откуда спавнятся баги. Держитесь, это очень смешная история, как парня пытались найти и что он делал:

• Он загружал специальные Pickle-файлы со скрытым кодом, который был полон вирусов и вредоносных компонентов. Код в таких скриптах выполняется рандомно и автоматически, поэтому никто не мог понять, почему падают ВСЕ усилия команды.

• Хакер ПОЛНОСТЬЮ ИЗМЕНИЛ версию библиотеки PyTorch, на которой держались проекты. Он вносил туда маленькие изменения каждый день, а они обрушивали программы. При этом никто из разрабов даже не подумал посмотреть в исходный код — задачи продолжали падать с ошибками и тонной багов, а все эксперименты приносили только неверные результаты.

• Злыдень внес настоящий ХАОС в чекпоинты — это файлы, которые помогают обучать нейронки и сохранять их промежуточные состояния. Парень жонглировал параметрами моделей, менял данные обучения или просто тупо удалял все чекпоинты — наработки летели в мусорку!

😶😶😶😶😶 😶😶😶😶😶😶😶

Маньяка не могли поймать, потому что он ходил на КАЖДЫЙ митинг и собирал решения команды по фиксу проблем. После созвонов парень знал, как собираются фиксить баги, и придумывал новые. Команда каждый раз не понимала, что происходит.

Спойлер: его поймали по логам, но 3️⃣0️⃣человек целых два месяца работали впустую — у проекта сгорели все сроки, а деньги заказчиков были потрачены зря. Теперь компания хочет крови саботажника и готова сразиться с ним.

Люцифер освободил адский трон для этого парня.

👍 Бэкдор

Это разве аналитика?

20 Oct, 05:08


Spark в действии.pdf

О книге👇

Анализ корпоративных данных начинается с чтения, фильтрации и объединения файлов и потоков из многих источников. Механизм обработки данных Spark способен обрабатывать эти разнообразные объемы информации как признанный лидер в этой области, обеспечивая в 100 раз большую скорость, чем например Hadoop. Благодаря поддержке SQL, интуитивно понятному интерфейсу и простому и ясному многоязыковому API вы можете использовать Spark без глубокого изучения новой сложной экосистемы. Эта книга научит вас создавать полноценные и завершенные аналитические приложения. В качестве примера используется полный конвейер обработки данных, поступающих со спутников NASA.

Для чтения этой книги не требуется какой-либо предварительный опыт работы со Spark, Scala или Hadoop.

#spark #scala #hadoop

Это разве аналитика?

19 Oct, 14:28


Это гостевой пост. Автор: Денис Литвинов, вот его тг-канал: Разбогатей или IT. Ден — IT-предприниматель. Он изложит своё видение того, что происходит на глобальном и российском IT-рынке. То, что пишет Ден, я несколько лет слышу от фаундеров, других предпринимателей, C-левелов. В комментах будет культурная дискуссия, в которой поучаствует и Ден тоже. Пост:

Тема с сокращениями в ABBYY очень интересная, которая мне близка. Подобный вижн у меня стал появляться впервые, наверное, еще в конце 2020 года. За это в целом я словил много говна и хейта по жизни, но этот вижн стал сбываться, как предсказания Ванги.

Я вижу сейчас в Твиттере и Телеграме много бугурта и непонимания у разного рода «соевых» релокантов по поводу того, как же можно (о боже) сократить разработку и сверху нанести хук в эго, заменив их индусами.

Надо пытаться понять макро причины происходящего и принять реальность такой, какая она есть. Конечно, это все грустно, но как бы закономерно. А закономерно, потому что и у фаундеров, и у разработчиков произошел тотальный отрыв от реальности.

Я вижу несколько причин для этого:

1. RU рынок.

Рынок уникален желанием компаний делать сначала сверхкачественные продукты, а потом из этих продуктов создавать сверхкачественные экосистемы, которые никому в мире больше не нужны. Это создало огромный спрос на разработку, а предложение все эти годы было ограничено.

2. Сверхприбыль международной связки 10-х годов, особенно после падения рубля.

Было время, когда стреляла воткнутая в землю палка, то есть ты что-то запрогал, оно как-то там +/- само полетело: валютная выручка, рублевые косты, маржа 90%.

3. Стоимость жизни.

Низкая стоимость жизни создала рынок очень дешевой (!) и качественной разработки. Не настолько дешевой как в Индии, но куда более качественной и культурно понятной.

И так появился тонированный мыльный пузырь толщиной с палец.

Так а что поменялось-то сейчас?

Тут можно расписать множество причин, но не хватит знаков в посте, поэтому я бы выделил: сепарацию от RU рынка с попыткой сохранить качество жизни, тотальный отрыв от реальности у фаундеров, падение потребительского спроса на новые продукты и завершающийся жизненный цикл у продуктов 10-х годов.

И вот имеем, что имеем: на рынок вышла толпа 30-летних «детей» с огромным эго, по большей части бесполезных в текущих рыночных реалиях. Не потому что они плохие разработчики, а потому что это сейчас не нужно.

Вслед за ABBYY мы увидим еще очень много таких кейсов, не до всех быстро доходит, но против макро рыночного тренда идти не сможет никто.

Тренд вполне прост, и я говорю об этом пару лет как минимум. Запрогать можно все что угодно, а вот продать – нет. В структуре расходов это будет значить, что 90% будет отдаваться маркетингу и продажам – как в зарплатах, так и в бюджетах, а на то, что осталось, будут делать разработку.

Так а что делать разработчику?

Понять, что происходит, и использовать ситуацию себе на пользу.

Если в вашей компании не было 3-4-5 лет назад простроенных маркетинговых и сейлз-воронок, это значит, ваш работодатель долгие годы был оторван от реальности, и скорее всего прямо сейчас так же живет в своем манямирке, а значит, он уже активно режет косты и думает, как вас заменить на индусов, потому что денег нет, а как их достать по-другому, он не знает.

И тут тогда вопрос: нахуя это все вам нужно?

Сидите, получайте зарплату на жизнь, где дают и пока дают, делайте свои полторы таски в неделю, а параллельно повышайте скиллы в продажах/маркетинге и/или ищите себе партнеров, кто это умеет делать, и итеративно в режиме марафона ищите новые возможности. Я вас уверяю, большинство из тех, на кого вы работаете, не переживут текущий кризис, и не важно, срезали ли они косты за счет индусов или нет. Понятно, что у большинства вряд ли выйдет что-то создать, но вы хотя бы на практике поймете что к чему, и сможете с опытом влиться в новые ниши которые сейчас активно создаются, просто они пока не на слуху.

Думайте)

Если вы — digital-ниндзя, и хотите написать текст в мой канал, то welcome. У вас должна быть интересная тема и занятная фактология под ней.

Это разве аналитика?

19 Oct, 05:06


Аналитик DWH, ты тут? 😎 Специально для тебя запустили бесплатный онлайн-интенсив в Открытых школах Т1! Прокачай скилы и, если повезет, попади в штат Холдинга Т1 — крупнейшей ИТ-компании по выручке в России по версии RAEX и CNews Analytics 2023.

Зачем участвовать?

🔵Бесплатное обучение в гибком формате: по вечерам, онлайн, из любого города РФ
🔵Уникальный рыночный опыт. Проекты Т1 ежегодно побеждают в ИТ-конкурсах: Global CIO, Национальной банковской премии и др. Тебя обучит и поддержит команда профессионалов.
🔵Возможность влиять на развитие ключевых отраслей экономики: в портфеле Т1 800+ высокотехнологичных проектов и 70+ продуктов и услуг на современном техстеке для крупнейших компаний и госсектора.
🔵Карьерный рост и поддержка. Уникальный карьерный фаст-трек для выпускников Открытых школ помогает молодым специалистам прокачаться до уровня мидла в Т1 за 1,5 года.

Успей подать заявку до 25 октября!

Реклама. ООО «Т1» ИНН: 7720484492. Erid: 2SDnjcPYZeB

Это разве аналитика?

18 Oct, 06:42


Хорошего пятничного настроения)

Это разве аналитика?

18 Oct, 03:18


🚀 Изучаем SQL индексы!

Индексы в базах данных — это структуры, которые помогают ускорить поиск и извлечение данных.

Вот основные типы индексов:
B-Tree индексы: Наиболее распространённый тип индексов. Используется для диапазонного поиска и поддерживает сортировку данных. Работает по принципу сбалансированного дерева.
Hash индексы: Используются для быстрого поиска по точному совпадению. Не поддерживают диапазонные запросы, но могут быть очень быстрыми для конкретных значений.
GiST (Generalized Search Tree): Позволяет создавать индексы для сложных типов данных, таких как географические данные. Поддерживает множество операций поиска.
GIN (Generalized Inverted Index): Эффективен для индексации массивов и полнотекстового поиска. Использует инвертированный индекс, что делает его подходящим для текстовых данных.
Кластеризованные индексы: Определяют физический порядок хранения данных в таблице. То есть физически сортирует строки таблицы в соответствии с индексом. Обычно создаются на первичном ключе и позволяют значительно ускорить чтение данных.
Некластеризованный индекс (Nonclustered): Создаются отдельно от основной таблицы и содержат указатели на строки данных. Позволяют создавать несколько индексов для одной таблицы.
Составные индексы: Индексы, которые включают несколько колонок таблицы. Полезны для запросов, которые фильтруют данные по нескольким полям.


В этом посте собраны полезные статьи и видео на YouTube о SQL индексах, которые помогут вам разобраться в этой важной теме:

📌 Статья: Влияние индексов БД на производительность выборки данных
📌 Статья: Обслуживание индексов MS SQL Server: как, когда и, главное, зачем?
📌 YouTube: Что такое SQL ИНДЕКСЫ за 10 минут: Объяснение с примерами
📌 YouTube: ИНДЕКСЫ В БАЗАХ ДАННЫХ. СОБЕС В OZON.
📌 YouTube: Как устроен B-TREE индекс в базах данных
📌 YouTube: EXPLAIN в базах данных за 10 минут
📌 YouTube: Андрей Сальников — Индексы в PostgreSQL. Как понять, что создавать
📌 YouTube: Оптимизация запросов с помощью индексов
📌 Статья: 14 вопросов об индексах в SQL Server, которые вы стеснялись задать

#Индексы #btree #hashindex #index

Это разве аналитика?

17 Oct, 05:14


Совершенно потрясащий сайт Misinformed By Visualization

Внутри автор Leo Yu-Ho Lo собрал случаи, когда графики вводят нас в заблуждение. Все разделено на основные категории ака причины, по которым графики могут врать:
1. Исходные данные - проблемы с данными или статистикой, которую мы рассчитываем.
2. Дизайн визуализации - неудачный выбор типа графика, настройки осей или неправильное использование цветов.
3. Построение графика - проблемы с расположением или отсутствие важных элементов графика.
4. Восприятие - Визуальные иллюзии, такие как 3D-эффекты, кодирование областей или неправильное использование соотношений площадей.
5. Интерпретация - вводящий в заблуждение текст, некорректные сравнения или ложные корреляции.

Прям очень советую потыкать. Работа огроменная.

Это разве аналитика?

16 Oct, 16:11


Актуально😂😂😂😂

Это разве аналитика?

16 Oct, 06:51


Делюсь с вами большущей доской, на которой собраны различные инструменты для OSINT — разведки по открытым данным. А вот тут еще можно посмотреть вебинар с обзором этих инструментов.

Автор — Клаудия Титце (Claudia Titze), известный в узких кругах OSINT специалист. Еще на ее сайте можно найти интересные видео, в которых она рассказывает про некоторые свои расследования.

@dataviznews

Это разве аналитика?

16 Oct, 05:12


Что использовать в Python вместо встроенных классов данных?
Библиотеку Pydantic!

Если вы работаете с парсингом, скрейпингом или занимаетесь разработкой API, приходите на открытый онлайн-урок «Pydantic, здравствуй»

Вы узнаете:
- как пробросить данные от одного коллбека к другому с помощью кортежей, словарей, схем Pydantic
- как реализовать контракт API с помощью схем Pydantic

Урок проведёт Евгений Ревняков, преподаватель OTUS и старший инженер ПО.

После вебинара вы можете приобрести курс OTUS «Python для аналитики».

21 октября, 20:00
Бесплатно

Записаться на вебинар

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576 Erid 2VtzqvzVTv3

Это разве аналитика?

15 Oct, 16:24


Физический JOIN в SQL: Как это работает?

В процессе выполнения запросов SQL важным моментом является физическое соединение (Physical Join) таблиц. Это фундаментальная операция, когда данные из двух источников объединяются на уровне строк.
В этом посте обсудим три основных алгоритма физического JOIN таблиц в SQL.

В статье по первой ссылке очень хорошие gif, отлично поясняющие работу каждого JOIN.

Nested Loop Join:
Используется, когда одна таблица небольшая, а вторая более крупная. SQL Server пробегает по каждой строке одной таблицы и ищет соответствующие строки во второй. Эффективно при небольших наборах данных и наличии индексов.

Сложность O(NlogM)
✓ Обычно используется, когда одна таблица значительно мала.
✓ Большая таблица имеет индекс, который позволяет искать ее с помощью ключа соединения.

Merge Join:
Этот метод требует предварительной сортировки обеих таблиц по полю соединения. Если данные уже отсортированы, такой join работает очень быстро, так как просто последовательно проходит по строкам обеих таблиц. Отлично подходит для больших таблиц с отсортированными данными.

Сложность O(N+M)
✓ Обе таблицы данных отсортированы по ключу соединения.
✓ Используется оператор равенства.
✓ Отлично подходит для очень больших таблиц.

Hash Join:
Подходит для ситуаций, когда таблицы не отсортированы и содержат большой объем данных. SQL Server создает хэш-таблицу для одной из таблиц, затем сравнивает строки другой таблицы с хэш-таблицей. Это один из самых мощных методов для работы с большими объемами данных.

Сложность O(N+M), если игнорировать затраты на потребление ресурсов. Требует подготовительных действий надо построить хэш-таблицу.
✓ При соединении хешированием строки одного набора помещаются в хеш-таблицу, содержащуюся в памяти, а строки из второго набора перебираются, и для каждой из них проверяется наличие соответствующих строк в хеш-таблице.
✓ Ключом хеш-таблицы является тот столбец, по которому выполняется соединение наборов строк.
✓ Как правило, число строк в том наборе, на основе которого строится хеш-таблица, меньше, чем во втором наборе.
✓ Более высокая стоимость в плане потребления памяти и использования дискового ввода-вывода.

Подборка статей и видео по теме физического JOIN:

📌 Статья: Типы физического соединения таблиц в Microsoft SQL Server. Описание Nested Loops, Merge и Hash Match
📌 YouTube: 30.1. Планы выполнения запросов. Физические соединения: nested loop, merge join, hash join. Индексы
📌 YouTube: 30.2. Планы выполнения запросов. Физические соединения: nested loop, merge join, hash join. Индексы
📌 YouTube: #mergejoin #hashjoin #nestedloopjoin Алгоритмы объединения таблиц
📌 YouTube: Физические операторы соединений SQL Server. Разработчик MS SQL ч.5
📌 Статья ENG: Python & Data Engineering: Under the Hood of Join Operators

💡Правильный выбор физического оператора соединения — ключ к оптимизации производительности запросов!

#SQLServer #DataEngineering #PhysicalJoin #NestedLoop #MergeJoin #HashJoin

Это разве аналитика?

15 Oct, 16:16


https://www.uber.com/en-DE/blog/query-gpt/

Как Uber SQL в чат засунул

Очень интересная статья из инженерного блога Uber о том, как они прикрутили в чат text-to-sql (nlp, вся фигня), накрутив сверху еще с десяток фич, например, подсказка и выбор таблицы из которой тянуть данные.
Видел я тут одну штуковину в стиле "А давайте сделаем бота в Whatsapp, который будет директору отвечать про стандартные метрики!"


@ohmydataengineer - канал "🕯Труба Данных" против неразумного применения LLM

Это разве аналитика?

15 Oct, 12:46


📈Идеальная инфографика для увеличения продаж в строительном магазине

Это разве аналитика?

15 Oct, 05:55


Хотите узнать, как автоматизировать аналитические процессы и управлять большими объемами данных?

Ждем вас на открытом вебинаре 21 октября в 20:00 мск, где мы разберем:

- что такое Apache Airflow и зачем он нужен;
- как Airflow помогает решать сложные аналитические задачи;
- основные компоненты и функциональность платформы;
- примеры использования Airflow в реальных проектах.

Урок для разработчиков, инженеров данных, аналитиков и менеджеров аналитики.

Встречаемся в преддверии старта курса «Продуктовая аналитика. Professional». Все участники вебинара получат специальную цену на обучение! Регистрируйтесь прямо сейчас, чтобы не пропустить мероприятие: ссылка

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

Это разве аналитика?

15 Oct, 05:14


Для меня последние несколько лет использование CI/CD в аналитических проектах это must have, хотя до этого во всех компаниях в РФ мы никогда не использовали.

5 лет в Амазоне тоже обходился без CI/CD. В целом можно было использовать внутренний framework для этого, но совсем было непонятно с чего начинать.

А теперь на всех проектах, где я работаю, обычно первые 2 месяца уходят на создание правильного CI/CD framework или улучшения существующего.

С чего начать, если никогда не работали?

1. Понять GitHub на уровне создания branch, Pull request, Code review, Merge. (Module 0 Surfalytics)

2. Понять для каких задач это подойдет, а для каких нет. Например хранить XLS или Tableau Workbooks не самый лучший способ.

3. Внедрить pre-commit, linting для локальной разработки.

4. Добавить автоматические проверки в CI, начиная с linting/pre-commit и заканчиваю unit tests. Вы можете запускать в CI dbt, spark, pytest и использовать dummy данные или реальные.

У разных продуктов, есть разные способы проверки, например у Looker популярен Spectacles, у AWS Glue есть возможность использовать Glue Spark в контейнере, контейнер с Databricks.

5. Если код деплоится, добавить шаг CD и tags/releases.

Так же можно и для инфраструктуры с использованием Terraform, Helm Values и тп. Например, для Terraform часто используется Atlantis.

И все эти истории всегда killer features для собеседования на дата инженера!