Данялитика. Анализ данных @gptjob Channel on Telegram

Данялитика. Анализ данных

@gptjob


Блог Данилы Елистратова.
Преподаю в Центральном Университете Т-Банка и в Skypro.
Рассказываю про аналитику, статистику, программирование и математику, а иногда про экономику и лингвистику.

Курс по аналитике со мной: https://go.sky.pro/analytics_danya

Данялитика (Russian)

Добро пожаловать в канал 'Данялитика'! Здесь вы найдете личный блог Данилы Елистратова, преподавателя в Центральном Университете Т-Банка и в Skypro. Данила делится своими знаниями и опытом в области аналитики, статистики, программирования и математики. Если вы хотите углубить свои знания в этих областях или просто узнать что-то новое, то этот канал для вас. Не упустите возможность пройти курс по аналитике вместе с Данилой: https://go.sky.pro/analytics_danya. Присоединяйтесь к нам прямо сейчас и откройте для себя увлекательный мир аналитики и математики вместе с 'Данялитика'!

Данялитика. Анализ данных

11 Feb, 05:58


Друзья, всем привет! 🔥

Давненько мы с вами не разбирали тестовые задания (особенно по SQL!)
Хочу предложить вам вот такое тестовое из одного крупного банка🙃

Тестовое не самое простое, в нём вам как минимум потребуются оконные функции. Также рекомендую вам создать семплы (примеры) таблиц из заданий на каком-нибудь сервере, например, на sqlite online.

Обязательно пишите ваши ответы в комментариях!
А я, со своей стороны, через некоторое время сделаю полный разбор этого тестового😉

#аналитика #data_analysis #тестовое #sql

Данялитика. Анализ данных

07 Feb, 06:42


Дорогие подписчики, привет!☀️

Вижу у нас на канале массивное пополнение, рад, что вы к нам присоединились!👋

Сегодня хотелось бы поговорить о вечно актуальном вопросе - классификация аналитиков. Какие виды аналитиков бывают, являются ли эти названия общепринятыми и чем они занимаются?

Начнём с того, что и так очевидно: аналитик - это тот кто... делает анализ (капитан очевидность не даст соврать)😄
А вот анализ можно очень условно поделить на два больших куска: анализ цифр и технический анализ.

Начнём с технического анализа, так как я с таковым никогда не работал и мне почти нечего про него сказать. Техническим анализом занимаются те, кого зачастую называют системными аналитиками или бизнес-аналитиками (второе очень спорно!). Они выполняют работу, чем-то схожую с работой проджект-менеджера:
- Чаще всего это сбор технических требований, общение с заказчиком, контроль тестирования и сбор обратной связи.
- Работа с цифрами может присутствовать, но не является самоцелью
- Частые упоминания инструментов (которые у "цифровых"аналитиков , скорее всего, не встретятся): BPMN, REST, SOAP, Agile
- В вакансиях может встретиться формулировка "необходим хоть какой-нибудь язык программирования"
- Примеры вакансий: раз и два

Теперь перейдём к тому, что я знаю лучше: "цифровые" аналитики или "дата-аналитики"🙂
Задача (как не сложно догадаться) - работа с цифрами: выгрузки, расчёты, ответы на бизнес-вопросы, разработка отчётности, проведение продуктовых экспериментов и многое-многое другое.
Дата-аналитиков можно бесконечно делить на различные типы:
- BI-аналитики - специалисты, которые строят красивые операционные и управленческие дашборды (т.е. панели с графиками) в BI-инструментах (Power BI / Tableau / Datalens / Superset / etc.). Нужны SQL и BI. Пример вакансии вот.
- Продуктовые аналитики - чаще всего занимаются улучшением продукта и маркетплейса путём тестирования новых дизайнов, фичей и прочего. Тут понадобится всё: и SQL, и Python, и BI. Пример вакансии вот.
- Финансовые аналитики - отличаются от продуктовых коллег в первую очередь тем, что метрики, с которыми они работают, завязаны не на продуктовое клиентское поведение а напрямую на деньги. Здесь в большей степени может пригодиться Excel/Google Sheets, но без SQL в любом случае никуда). Пример вакансии вот.
- Web-аналитики - акцент больше на технический анализ клиентского пути на сайтах и приложениях. Здесь дополнительно могут потребоваться такие инструменты, как Яндекс.Метрика или Google Analytics (без SQL по-прежнему никуда). Пример вакансии вот.
- и многие-многие другие, будь то маркетинговые аналитики, операционные аналитики и так далее. Вопрос лишь в специфике объекта "цифрового анализа"🙂

А в каком направлении хотели бы развиваться вы? Пишите в комментариях!
Свои вопросы по вакансиям и хардам/софтам также пишите в комментариях🔥

Напоминаю вам, что на этом канале существует рубрика hh_surfing, в рамках которой мы смотрим и комментируем вакансии по анализу данных. Посты и видео можно найти по соответствующему хештегу, а общий список хештегов представлен в сообщении в закрепе.

Всем хорошего дня!🙃

#аналитика #data_analysis

Данялитика. Анализ данных

05 Feb, 07:13


Дорогие друзья, всем привет!

Выкладываю видео с нашего стрима с Тахминой! (извиняемся за периодические проблемы со связью).
Если у вас остаются вопросы про проджект-менеджменту, то вы можете задать его в комментариях к этому посту👇

Также хочу анонсировать следующие этапы нашей серии стримов: на очереди у нас разработчик на языке GO (Golang), а также дата-сайентист (то есть специалист по машинному обучению в области индустрии).

С кем вы бы хотели стрим в первую очередь? Ставьте реакции!

🔥 - Разработка на GO
👍 - Data Science

#аналитика #менеджмент #интервью

Данялитика. Анализ данных

03 Feb, 17:58


Live stream finished (1 hour)

Данялитика. Анализ данных

03 Feb, 16:57


Live stream started

Данялитика. Анализ данных

03 Feb, 16:52


Всем привет! ☀️
Мы начинаем стрим через 10 минут и проведём его прямо здесь, в Телеграме!
Ждём всех!🔥
Вопросы, которые хотели бы задать Тахмине, пишите в комментарии к этому посту⬇️
Ссылка на стрим: https://t.me/gptjob?livestream=021a6b66466cb91837

Данялитика. Анализ данных

02 Feb, 16:24


Дорогие друзья, всем привет!👋

Пишу напомнить, что завтра 03.02 в 20:00 мск у нас состоится стрим с Тахминой, которая расскажет о проджект-менеджменте и о своём пути в этой профессии. Поговорим о разнице в сферах бизнеса, о разнице между продактом и проджектом, а также о самых востребованных навыках в этой профессии!
Ссылку пришлю завтра.

Пишите в комментариях вопросы, которые хотели бы задать, и очень будем рады видеть вас на стриме! Обязательно оставляйте реакцию или коммент, если придёте🙂

Данялитика. Анализ данных

01 Feb, 07:17


Всем хорошей субботы!🔥

Многие, наверное, уже слышали про головокружительные успехи (особенно с точки зрения костов) китайского ИИ DeepSeek.

Дешевизна объясняется, в первую очередь, очень дешёвым алгоритмом обучения, то есть он требует значительно меньшие затраты, чтобы достичь сопоставимого качества обучения на выходе.
Получается это благодаря так называемой Group-Relative Policy Optimization (букв. Метод относительной внутригрупповой оптимизации).
До конца я, честно говоря, и сам не понимаю, в чём смысл этого новшества, но почитать можно тут или тут😀
Общий смысл в грамотной группировке моделей в рамках процесса обучения и масштабировании результатов обучения.

Это, в свою очередь, больно ударило по производителям чипов и не только: пострадали буквально все гиганты, так или иначе связанные с отраслью.📊

В связи с чем мем (спойлер: на нём та самая изменившая всё математика)😄

#meme #аналитика #ai

Данялитика. Анализ данных

29 Jan, 06:39


Дорогие подписчики, доброе утро!☀️

Молодцы, что попробовали "потыкать" в инструмент kepler в связи с предыдущим постом) у кого ещё не получилось - обязательно попробуйте!🙂

Алгоритм действий следующий: передаёте csv-файл, выбираете гексагоны (шестиугольники) вместо точек и настраиваете их таким образом, чтобы цвет обозначал долю выполненных заказов (т.е. среднее от flag_trip), а высота столбика - количество заказов в этом гексагоне.
На скрине виден тот кусочек, в котором было очень много заказов, которые в результате отменялись.

Пишите в комментариях, если тема BI-инструментов вам интересна и вы бы хотели разбор других BI-инструментов🙂

Хочу также сделать анонс!🔥
В ближайшее время на канале состоится несколько стримов, на которых я проинтервьюирую представителей самых разных IT-профессий из разных стран и компаний.
Мы поговорим и с проджектом, и с ML-щиком, и с разработчиками и узнаем специфику их работы!✍️

В следующий понедельник 03.02 в 20:00 (мск) состоится интервью с Тахминой, которая расскажет о проджект менеджменте в двух больших сферах - в банковском деле и в онлайн-образовании!
Отметьтесь пожалуйста реакцией 👌, если вы намерены прийти на стрим!
А также пишите в комментариях, какие вопросы надо задать Тахмине🙂

Данялитика. Анализ данных

27 Jan, 07:33


Дорогие друзья, всем привет!🌻

Хочу сегодня поделиться с вами специфическим BI-инструментом, про который я записывал урок в эту субботу в ЦУ- называется он Kepler 🙂

Давайте начнём с того, что такое вообще BI-инструмент.
Это инструмент визуализации, то есть некая оболочка, в рамках которой удобно и быстро можно изобразить данные в разных разрезах на разных графиках и (в идеале) собрать единый дашборд со всеми графиками, на которые захотят смотреть заказчики.

Среди BI-инструментов можно выделить Tableau, Power BI, Datalens, Superset и многие-многие другие. И у всех у них весьма схожий функционал, который совсем несложно освоить (это вам не язык программирования или область математики😄)

Но сегодня хочу показать вам Кеплер, который существенно отличается от классического BI-инструмента. Дело в том, что он очень полезен для геоаналитики, то есть визуализации метрик не в разрезе дней или клиентских типов, а в разрезе географических районов (буквально изображение на карте, например, Москвы).🪆

Вот ссылка на него (он открывается в браузере).
Рассмотрим пример файла из агрегатора такси (приложен к первому комментарию к этому посту).

В файле должны быть поля latitude и longitude (т.е. широта и долгота). Тогда все заказы такси могут быть нанесены на карту или точками, или агрегированными гексагонами (шестиугольниками).

С помощью такой аналитики можно вычленить проблемные районы и, например, повысить там водительские мотивации и привлечь больше водителей.🚕

А у вас получится выявить проблемный кусок Москвы с помощью файла и ссылки?
- Где и когда были проблемы?
- Как вы думаете, почему эти проблемы случились?
- Как лучше изобразить геоаналитику, чтобы предоставить слайд менеджменту?


Пишите ваши мысли и результаты в комментарии!🔥

P.S. Сегодня появляется новый хештег #BI - сюда будем вносить всё, что связано с визуализацией!

#аналитика #data_analysis #BI #year25

Данялитика. Анализ данных

25 Jan, 11:07


Теперь и в ЦУ проходит съемка уроков!🎉🔥

#цу #т_банк #из_жизни #year25

Данялитика. Анализ данных

21 Jan, 07:24


Дорогие друзья, всем привет!👋

Сегодня хочу поделиться с вами одним из самых известных вопросов с собеседований касательно онлайн-кинотеатров 🎦

Вы работаете аналитиком в онлайн-кинотеатре, и всему отделу продукта была глобальная квартальная цель - поднять лайфтайм пользователя (напомню, что лайфтайм - это среднее количество условных периодов, в течение которых пользователь остаётся у нас на платформе).
Ваш коллега вынес предложение повысить долю "длинных подписок" за счёт маркетинга. "Длинная подписка" - это подписка дольше чем на месяц, например, на 90 дней или на целый год.
Логично, что если вырастет доля длинных подписок при прочих равных, то и пользователь будет жить в среднем дольше. Так что, кажется, предложение вашего коллеги - супер!
Так ли это, дорогие подписчики? Видите ли вы какие-то проблемы в его предложении?🤔
Пишите свои мысли в комментарии! Давайте обсудим!

Кто работал/работает в Окко/START/Кинопоиске/Иви/..., напишите плиз в комментариях, действительно ли данный вопрос находится у вас в процессе обсуждения🙂
А как у вас выработана стратегия определения оптимальной доли длинных подписок?

#аналитика #data_analysis #тестовое #year25

Данялитика. Анализ данных

19 Jan, 08:20


А вот и сам архив со шпаргалками!
Данное сообщение в канале закрепляю)

#аналитика #data_analysis #cheatsheet #python #year25

Данялитика. Анализ данных

19 Jan, 08:20


Всем привет в это солнечное воскресенье!☀️

Сегодня хочу поделиться с вами красивыми , а главное, полезными картинками, которые помогут утрамбовать и упорядочить знания по Python для анализа данных🙂

Во вложении архив, в котором вы найдёте так называемые cheatsheets (от англ.cheat - списывать, подсматривать, "читерить" и от англ. sheet - лист), т.е. шпаргалки😆

На них вы найдёте все необходимые методы и аргументы, чтобы начать базово программировать на Python с целью решения задач анализа данных!🐍

А что бы вы еще туда добавили? Каких тем/разделов, по вашему мнению, не хватает на этих "читшитах"?

#аналитика #data_analysis #cheatsheet #python #year25

Данялитика. Анализ данных

15 Jan, 06:56


Всех поздравляю с серединой рабочей недели (почти)😁

Сегодня хотелось бы порассуждать на тему того, насколько важно в математике абстрактное мышление (или даже, можно сказать, "философские абстракции").🤔

На картинке-1 во вложении находится, возможно, моя любимая метафора из мира математики: дискретность и непрерывность на примере суммы.

Казалось бы, сумма - это элементарная операция, которая понятна 3-летнему ребёнку.
Однако прикол в том, что мы привыкли думать о сумме в её дискретном смысле, т.е. суммировании отдельно взятых элементов/цифр.
Но как бы вы просуммировали множество, представляющее из себя бесконечное количество элементов?
Возьмём, например интервал (1, 3). На данном интервале существует бесконечное количество различных чисел. Как же просуммировать их?

Именно для этой операции и используется его величество интеграл.
В этом и заключается его смысл🙂
На картинке-2 во вложении содержатся формулы, которые по своей сути идентичны: что вы пробегаетесь суммой по всем объектам i, что вы рассчитываете интеграл по di - вы делаете одно и то же, просто для разных "шкал", для дискретной и непрерывной.

Пока философское осознание производной и интеграла не пришло ко мне, математический анализ давался очень и очень тяжело 🤯

P.S.
В рамках этого поста я предлагаю запустить новый хештег: #матан
Этим хештегом будем помечать посты, которые имеют отношение к математике в её чистом первозданном виде (а особенно к производным и интегралам).

#year25 #матан

Данялитика. Анализ данных

11 Jan, 09:02


Дорогие подписчики, всех поздравляю с субботой!☀️

Сегодня продолжаем с вами тему необычных типов данных, с которыми встречаются аналитики.
Давайте поговорим про XML.
XML (Extensible Markup Language) — это расширяемый язык разметки, предназначенный для хранения и передачи данных в структурированном виде. То есть каждый элемент структуры (например, строка таблицы или ключ JSON-объекта) будет заключён в угловые скобки.

Рассмотрим пример таблицы во вложении. В XML-формате информация в таблице будет выглядеть следующим образом:
<?xml version='1.0' encoding='utf-8'?>
<data>
<row>
<index>0</index>
<id_order>112508.0</id_order>
<id_driver>3874.0</id_driver>
<order_time>2021-07-31 15:13:56</order_time>
<assign_time>2021-07-31 15:19:56</assign_time>
<arrive_to_client_time>2021-07-31 15:25:56</arrive_to_client_time>
<order_finish_time>2021-07-31 16:12:56</order_finish_time>
<name_city>Москва</name_city>
<name_tariff>Комфорт</name_tariff>
</row>
<row>
<index>1</index>
<id_order>118366.0</id_order>
<id_driver>3955.0</id_driver>
<order_time>2021-08-20 19:50:00</order_time>
<assign_time>2021-08-20 19:53:00</assign_time>
<arrive_to_client_time>2021-08-20 20:00:00</arrive_to_client_time>
<order_finish_time>2021-08-20 20:54:00</order_finish_time>
<name_city>Москва</name_city>
<name_tariff>Эконом</name_tariff>
</row>
</data>

Несложно заметить, что строки открываются конструкцией <row>, а закрываются с помощью добавления слеша: </row>.
То же верно и для "открытия" и "закрытия" каждого столбца в рамках каждой строки: пишем, например, <order_finish_time> и затем </order_finish_time>.
Не забывайте про индексы (которые в нашем случае равны 0 и 1), а также про "открытие" и "закрытие" самого объекта таблица с помощью <data> и </data>.

И вуаля, можно считать, что вы знакомы с форматом XML😀

Напишите в комментариях, встречались ли вы уже с ним в рабочих задачах? Или, может быть, встречались ещё с чем-то, кроме JSON и XML?

#data_analysis #аналитика #year25

Данялитика. Анализ данных

09 Jan, 07:11


Хотел продолжить тему JSON, но увидел это и не удержался😂
В следующем посте обязательно продолжим))

Кто не помнит, что такое дисперсия (и до кучи стандартное отклонение), - срочно повторите!🔥

#meme @year25

Данялитика. Анализ данных

07 Jan, 09:27


Channel name was changed to «Данялитика. Анализ данных»

Данялитика. Анализ данных

07 Jan, 08:12


Доброе утро, дорогие подписчики!☀️

Сегодня будет вторая часть поста про JSON, и мы начнём с небольшого примера на Python.

Рассмотрим сайт https://sunrise-sunset.org/
С его помощью можно узнать по координате (широта/latitude - долгота/longitude), во сколько происходит закат и рассвет.🌆

На большинстве сайтов можно найти описание того, как работать с API в рамках этого сайта (т.е. как подключиться к нему с помощью, например, Python и вытащить интересующую информацию, чтобы не делать ctrl+C - ctrl+V множество раз).
Например, на этом сайте достаточно кликнуть на графу Free API! внизу стартовой страницы.

Узнаем с помощью Python, во сколько сегодня восходит и заходит Солнце в Москве.
Для этого загуглим координаты Москвы, запишем долготу и широту, а также дату в словарь params и с помощью библиотеки requests получим результат в формате JSON.🔥
import requests

URL = 'https://api.sunrise-sunset.org/json'

params = {
'lat': 55.7565408,
'lng': 37.6149202,
'date': '2025-01-07'
}

sun_r_s = requests.get(URL, params=params)
sun_r_s.json()


Получим следующий результат:
{'results': {'sunrise': '5:53:43 AM',
'sunset': '1:18:02 PM',
'solar_noon': '9:35:52 AM',
'day_length': '07:24:19',
'civil_twilight_begin': '5:10:42 AM',
'civil_twilight_end': '2:01:02 PM',
'nautical_twilight_begin': '4:22:50 AM',
'nautical_twilight_end': '2:48:54 PM',
'astronomical_twilight_begin': '3:38:00 AM',
'astronomical_twilight_end': '3:33:45 PM'},
'status': 'OK',
'tzid': 'UTC'}

Как видим, выдаётся не только восход/закат, но и "сумерки", и другие астрономические отметки во времени⌛️

А при чём же здесь SQL, спросите вы?
В некоторых базах данных в рамках одной ячейки таблицы может храниться не скалярное (т.е. единичное) значение, но и векторный тип данных, среди которых можно встретить не только списки и кортежи, но и JSON'ы.
Особенно это относится к ныне популярному Clickhouse - вот ссылка на функции Clickhouse по работе с JSON.

Например, добавим столбец с годом рождения в нашу таблицу из прошлого поста
(111, "Иван", 1992)
(112, "Виктор", 1985)
(113, "Ксения", 2003)

Вместо таблицы с тремя столбцами можем перейти обратно к двум столбцам, свернув имя и год рождения в JSON:
(111, {"name":"Иван", "birth_year":"1992"})
(112, {"name":"Виктор", "birth_year":"1985"})
(113, {"name":"Ксения", "birth_year":"2003"})

Разумеется, две колонки хранить дешевле, чем три🙂

Пишите в комментариях, хотели бы вы продолжение разговора про этот тип данных?🤓

#data_analysis #аналитика #sql #clickhouse #year25

Данялитика. Анализ данных

05 Jan, 08:49


Оливье добито, возвращаемся к серьёзным постам😀

Сегодня хотелось бы поговорить про один из самых часто используемых типов данных в анализе данных: Jason Voorhees JSON.

JSON (JavaScript Object Notation) — текстовый формат данных, основанный на JavaScript.
Несмотря на происхождение из языка JavaScript, этот тип данных активно используется и в других языках программирования (даже в SQL!).

Вот хорошая статья на habr про этот формат.

Данный формат имеет одну отличительную особенность: он характеризуется не просто набором значений, а набором пар ключ-значение.
В этом JSON очень похож на классический формат словаря (dictionary) в Python, который тоже характеризуется парой ключ-значение.📚

Однако существует несколько ключевых отличий:
- JSON - это по-прежнему строка, несмотря на своё строение и наличие специфических символов
- Ключами JSON могут быть только строки, а в словаре - любые неизменяемые типы данных
- Ключи могут повторяться в JSON, но не могут в словаре.
- И некоторые другие отличия, о которых можно прочитать в этой статье.

Где же аналитики встречаются с этим форматом?🤔

1. Хранение данных в не-табличной форме.

Рассмотрим пример таблицы из трёх строк и двух колонок.
Пусть таблица содержит колонки "ID" и "ИМЯ", а также строки со следующими парами значений: (111, "Иван"), (112, "Виктор"), (113, "Ксения").

Чаще всего в базах данных таблицы хранятся непосредственно как таблицы.
Однако следует помнить, что таблица - это довольно громоздкий объект ввиду сложности его конфигурации: надо отдельно хранить структуру, индексы, заполнение и т.д.

Куда проще сохранить объект в форме (опустим различия между json и dict на этом этапе):
my_json = {"111":"Иван", "112":"Виктор", "113":"Ксения"}
Подобный объект весит меньше таблицы и может быть легко в таблицу преобразован в случае необходимости.

2. Работа с API

Зачастую аналитикам приходится подключаться к неким web-источникам для обновления информации.
Например:
- Скачивать погоду для прогноза количества водителей в такси.🚕
- Скачивать всю картотеку аниме с их рейтингами, чтобы определить, какие из них нужны нашему онлайн-кинотеатру.📺
- Определять время рассвета и заката в зависимости от координаты.☀️

Подобная операция требует подключения к внешнему ресурсу и с вероятностью 99% возвращённая ресурсом информация будет именно в JSON-формате. Далее уже с помощью Python можно перевести её в удобную табличную форму.

В следующем посте я расскажу о том, какая связь между JSON и SQL, а также приведу еще несколько примеров его использования в мире анализа данных🙂

#data_analysis #аналитика #year25

Данялитика. Анализ данных

03 Jan, 09:58


Всех приветствую в новом 2025 году!🔥

А вы давали себе обещание "начать новую жизнь" в 2025 году?😀
Очень многие в мире делают так каждый год, и вот немного цифр об успешности данного мероприятия на примере США🇺🇸

Рассмотрим данные об обещаниях, которые люди дали себе по окончании 2023 года (т.е. на 24 год), опубликованные в исследовании Forbes.

Основными приоритетами в "новой жизни" стали
1. Фитнесс/спорт (48%) 🚴‍♀️
2. Финансы, т.е. повышение финансовой дисциплины, учёт расходов, и прочее (38%)💲
3. Улучшение ментального здоровья (36%) 🤕

Какие же метрики покажут нам успешность этих программ?
Конечно же, Retention / Churn!

Краткое напоминание:
- Retention - клиентское удержание в рамках подписки или приложения
- Churn - клиентский отток, т.е. метрика, обратная Retention.


Ретеншен традиционно настолько низкий, что вторая пятница января зачастую называется "днём прогульщика/лодыря" (Quitter's Day).

Цепной ретеншен представлен на графике во вложении.
Если перейти к базовому ретеншену, то увидим, что 30% бросают свои планы за два месяца, а больше половины опрошенных - за три месяца.

Через базовый ретеншен мы можем определить лайфтайм, т.е. количество месяцев, которые опрошенный продержится в среднем.
Этот показатель составляет 3.7 месяца, т.е. меньше трети периода, на который коммитились опрошенные.

В комментариях пишите:
- помните/знаете ли вы, в чём разница между цепным и базовым ретеншеном? (могу сделать про это отдельный пост)
- Давали ли вы себе обещание в этом году?
- Как вы думаете, сможете ли вы превысить средний лайфтайм США 2023 года?🙂

#аналитика #year25

Данялитика. Анализ данных

30 Dec, 08:24


Дорогие друзья, от всей души поздравляю вас с наступающим Новым Годом!🌲

Хочу сказать всем спасибо за ваше участие в течение этого года: решение задач, обсуждение метрик, предложение тем и многое-многое другое👏

Вот несколько цифр о канале за этот год:
- В канале суммарно было больше 220 постов
- Средняя частота постинга - 1 пост в 1.8 дней
- Самый обсуждаемый пост - это задача про русскую рулетку (71 коммент) 😀

Напоминаю, что на канале предусмотрена система хештегов, чтобы можно было легко вернуться к посту с нужной информацией.

Топ-15 хештегов по количеству постов следующие:
1. #аналитика - 84
2. #data_analysis - 32
3. #тестовое - 27
4. #meme - 20
5. #из_жизни - 16
6. #hh - 14
7. #словарь - 14
8. #sql - 12
9. #вопрос_ответ - 11
10. #статистика - 10
11. #ab_test - 7
12. #экономика - 6
13. #лингвистика - 6
14. #резюме - 5
15. #статья - 5

Хочу также напомнить, что:
- Полный список и описание хештегов находится в посте.
- По хештегу #hh_surfing было выложено 4 видео с разбором вакансий на hh.ru.
- Было проведено два стрима, и этот показатель я точно буду увеличивать🔥
- По хештегу #анонс можно отслеживать различные ивенты из мира аналитики и находить записи этих встреч.

Буду очень рад вашим предложениям! 🙂
Какие рубрики интереснее всего вам и какие новые хештеги имеет смысл ввести в 2025 году?

P.S. Хочу похвастаться, что вновь попал в топ-200 каналов, за которыми следят аналитики (они выпустили вторую часть исследования)🎃
Получилось даже попасть в топ-9 каналов, которые были упомянуты "вне предложенного списка", т.е. в графе со свободным вводом 🥹
За что вам, дорогие подписчики, огромное спасибо❤️

Данялитика

26 Dec, 10:10


Всем привет!

Спасибо за ваши обсуждения в комментарии к прошлому посту!
Там есть несколько весьма интересных идей🔥
Особенно понравилась идея про "якорные тайтлы", то есть те, которые являются "базовыми" и будут закуплены в любом случае.

Давайте я расскажу несколько подходов для аллокации выручки, которые используются на практике.
Будем использовать следующий пример: у нас есть "Игра престолов" и "Властелин колец" 📺
- 1000 человек посмотрели "Игру Престолов" на 30К часов, и общее количество просмотров составило 35К
- 1500 человек посмотрели "Властелин колец" на 8К часов. Общее количество просмотров составило 9К.
- Суммарно мы получили 200К рублей за этот месяц. Также суммарно имеем 38К часов просмотров и 44К просмотров (в штуках).

1. Самое простое и очевидное - это распределить выручку за месяц на тайтлы в соответствии с тем, какой тайтл сколько смотрели.
В нашем примере было 38К часов просмотров, из которых 30К часов смотрели "Игру престолов". Таким образом 200К * (30/38) - это выручка, "порождённая" именно этим тайтлом.
Сразу же бросается в глаза, что данное распределение нечестное, и у сериала априорное преимущество ввиду большей длительности. Даже такая длинная трилогия, как "Властелин колец", значительно короче большинства сериалов. Таким образом, вклад фильмов занижается.

2. Вместо времени просмотра можно посмотреть количество просмотров. Но в данном случае проблема первого пункта остаётся, так как к просмотру сериала в среднем приступают больше раз, чем к просмотру фильма.

3. Решением может быть оценка досматриваемости вместо просматриваемости. Если предположить, что досматриваемость коррелируют с условной "клиентской удовлетворённостью", то мы можем оценить "эффективность" тайтла по средней досматриваемости. Далее выручка аллоцируется в соответствии с относительной эффективностью тайтла.
Однако в данном случае, наоборот, страдают сериалы, так как тайтл, состоящий из множества серий, досмотреть сложнее, чем единый фильм.

4. Можно также оценить по количеству уникальных пользователей: трилогию Толкиена посмотрело на 50% людей больше, чем сериал Мартина. В соответствии с этим отношением, можно аллоцировать выручку.
Однако тут проблема в том, что не учитывается ни досматриваемость, ни кол-во минут, и мы можем влиять на эту "метрику касания" путём расстановки тайтлов в линейках и прочих UX-механиках✍️

Что же делать?
Комбинировать метрики. Например, выставлять тайтлу некий рейтинг, основанный и на количестве/длине просмотров, и на досматриваемости. А дальше останется только перевести абсолютный рейтинг в относительный и аллоцировать выручку🙂

Однозначного всесторонне честного алгоритма, к сожалению, придумать не получится, так как в формировании выручки всегда много факторов, включая сторонние.

#data_analysis #аналитика

Данялитика

23 Dec, 08:29


Поздравляю всех с завершающей рабочей неделей 2024!🔥

Сегодня хотел бы предложить вам на обсуждение весьма интересную аналитическую тему из мира онлайн-кинотеатров.
Сразу скажу, что готового правильного ответа у этой задачи нет и над этим вопросом прямо в режиме реального времени бьются реальные аналитики😀

Проблема:
Мы хотим понять, отбивает ли свою цену закупленный контент, т.е. хотим оценить качество текущей стратегии закупки контента.

Решение:
Чтобы ответить на этот вопрос, нам необходимо понимать, какие тайтлы (от англ. title - заглавие) сколько выручки сгенерировали.
Прикинуть, какой тайтл сколько приносит можно, произведя аллокацию (от англ. allocation - распределение) выручки на имеющиеся тайтлы.
То есть у нас есть информация о том:
- Какие тайтлы у нас есть сейчас.
- Какие тайтлы просматривали пользователи и сколько времени.
- Какой пользователь сколько раз в какое время продлевал подписку.
Если вам, как аналитику, потребуются ещё какие-то данные, то напишите, что бы вы хотели и будем считать, что эти данные у нас есть.

Методология аллокации
Как же честно определить, какой тайтл сколько денег принёс, исходя из просматриваемости этого тайтла?💵
Какие бы вы предложили алгоритмы аллокации суммарной выручки на конкретные тайтлы из нашей библиотеки?

P.S.
Следует обратить особое внимание на сравнение полнометражных фильмов/мультфильмов с сериалами/мультсериалами.
Ведь, разумеется, суммарное время смотрения сериала в среднем будет значительно выше времени смотрения фильма. 🕙
Если распределять выручку пропорционально распределению суммарного валового времени смотрения, то фильмы будут априори проигрывать и не попадать в план закупки контента.

Жду ваши идеи!🔥🔥🔥

#data_analysis #аналитика

Данялитика

20 Dec, 11:43


Дорогие друзья!

Прошу прощения за дневную задержку! наконец, возвращаюсь к вам с ответом на задачку про револьвер) и спасибо вам за такое активное обсуждение в комментариях, тем более что неоднократно был упомянут верный ответ!

Проще всего решить эту задачу можно, нарисовав барабан и отметив условные две соседние пули на рисунке, как это сделала Ирина в комментариях🙂

На картинке крестиками обозначены пули, а галочками - потенциальные положения офицера Иванова. Мы можем сделать такой вывод, так как он не застрелился, т.е. попал в один из 4 пустых слотов.
Что же происходит с револьвером после нажатия им курка?
Барабан проворачивается на один слот (притом направо, или налево - в данном случае совершенно неважно).
Тогда отметим буквами "Я" те слоты, в которых гипотетически можете находиться вы :)

Что же получается?
- Из 4 возможных положений для вас смертельным является одно, т.е. вероятность выживания составляет 75%.
- Если мы перераскрутим барабан, то сотрём всю информацию о ходе Иванова, и наша вероятность выжить будет равна 4/6 (т.е. 2/3), т.к. после раскрутки мы не можем предсказать на какой слот мы попадем, они все равновероятны.

Таким образом, барабан лучше не раскручивать)))
По поводу экстраполяции решения на другие количества пуль и слотов - оставляю вам еще на подумать)

#тестовое

Данялитика

18 Dec, 08:06


Всем привет!

Сегодня хочу поделиться с вами ещё одной легендарной задачкой с собеседований.
Можно называть её задачей на логику, можно на теорию вероятностей, можно на смекалку)

Студенты и выпускники Skypro могли уже встречаться с этой задачей в рамках своего курса🙂

Вы армейский офицер в Российской империи и вы играете в русскую рулетку с вашим коллегой, офицером Ивановым.
Правила игры таковы, что в 6-слотовый револьвер вы вставляете две пули в обязательно соседние слоты.
Иванов раскручивает барабан, стреляет в себя и... выживает - его слот оказался пустым.
Он передаёт револьвер вам, теперь ваша очередь. Вопрос к вам: будете ли вы перераскручивать барабан или будете стрелять так?


Пишите ваши рассуждения и ответы в комментариях!
А я в следующем посте опубликую ответ🙂

А те, для кого задача окажется слишком лёгкой, могут попробовать ответить на следующие вопросы:
- Как будет меняться ответ в зависимости от количества соседствующих пуль?
- Как будет меняться ответ в зависимости от количества слотов в револьвере?
- Как изменится ответ, если пули будут не соседствующие?

Данялитика

16 Dec, 07:35


Дорогие подписчики, доброго утра!

У нас очередной понедельник, и предлагаю начать его с нескольких интересных фактах о понедельнике как о дне недели🌙

1. В понедельник на 24% больше сердечных приступов, чем в другие дни (осознание, что впереди целая рабочая неделя, может сразить наповал не подготовленного)💗

2. Понедельник - день номер два по частоте оформления больничного.
После... да, вы всё правильно поняли: пятницы👍

3. В понедельник всем настолько грустно, что существует даже термин "Blue Monday", который призван описать понедельничное ощущение тоски, вызванное нехваткой сна, переработками или социальной изоляцией.
Вообще термин blue, от которого происходит музыкальный жанр blues, означает чувство грусти и/или безысходности.🔷

4. Из всех дней недели в понедельник меньше всего женятся. Без комментариев😀

5. Ну и конечно же "начало новой жизни"! Вот чем действительно характеризуется понедельник. Прикрепляю график, на котором видна интересная закономерность в паттернах "здорового поведения"😂

А какие у вас есть наблюдения относительно "лунного дня"?)

Данялитика

13 Dec, 14:30


Дорогие друзья!

Вчера мы провели совместный стрим-эфир с Анастасией Кузьминковой, автором канала про софт-скиллы (ссылка на канал), на котором разобрали множество вакансий, связанных с профессией "аналитик данных".

Запись мы выложили в VK, вот ссылка!🔥

Буду рад вашей обратной связи, пожеланиям и вопросам, которые мы сможем разобрать на наших следующих эфирах, которые, безусловно, будут🙂

Данялитика

12 Dec, 16:22


Начинаем в 19:30! Приходите по ссылке!

Данялитика

11 Dec, 07:42


Дорогие подписчики, доброго утра!☀️

Это пост-напоминание о том, что завтра в 19:30 у нас состоится совместный стрим-эфир со специалистом по софт-скиллам Анастасией Кузьминковой! 📷
Мы будем разбирать вакансии по анализу данных и не только.

Многие уже написали свои пожелания о темах, которые необходимо поднять на нашем стриме. Кто еще не отписался, не стесняйтесь, пишите свои вопросы и сомнения!

Также поставьте, пожалуйста, реакции или оставьте комменты, если вы уже точно знаете, что сможете прийти.😀

- Запись сделаем и выложим, но очень бы хотелось бы видеть побольше людей вживую❤️
- Ссылка на зум-конференцию тут

Всех очень ждём!

Данялитика

10 Dec, 07:16


Есть тьма, в которую лучше не вглядываться...🎃

Но тем, кто хочет вглядеться, вот ссылка

Данялитика

08 Dec, 14:39


Добрый день!

Дорогие друзья, 12.12 у канала будет важное событие - ему исполняется один год😁🔥🎉

По этому случаю я приглашаю вас на стрим-эфир, который будет посвящен поиску работы по профессии «аналитик данных».

Мы проведем его с Анастасией Кузьминковой, экспертом по софт скиллз, бизнес-тренером и hr’ом с более чем 10-летним опытом! Анастасия также является преподавателем в ИТМО и автором канала Soft Skills Club.

Вместе мы с Анастасией пробежимся по некоторым вакансиям, прокомментируем их и расскажем о полезных лафхаках: я со стороны хардов, а Анастасия со стороны софтов😀

Это точно будет полезно всем, кто задумывается о смене работы или уже на таковую решился🔥

12 декабря приходите в 19:30 в зум по ссылке и обязательно приносите свои вопросы🙂

Данялитика

05 Dec, 07:54


Привет, дорогие подписчики!👋

Тема специфических метрик хорошо зашла на примере "оранжевого сайта", поэтому я продолжаю искать для вас необычные и неочевидные метрики.

Сегодня хочу поделиться ещё несколькими (конечно, не такие hottest как в тот раз, но всё же😂).
Сегодняшние метрики из поля бехевиористского (или поведенческого от англ. behavior) анализа.

1. 🤬Rage click (от англ. rage - ярость) - яростное кликанье по какой-нибудь иконке или опции может сигнализировать о раздражении клиента, о его непонимании элементов интерфейса или отсутствии реакции системы на его клики.
Вообще со словом rage много подобных выражений, которые чаще всего относятся к компьютерным играм: rage quit, rage buyback, rage cancel etc.

2. 🔤U-turn на английском означает поворот на 180 градусов.
А с точки зрения продукта/сайта U-turn - это заход клиента на страницу Y со страницы X и последующий возврат на страницу X без каких-либо совершённых действий на странице Y. Большое количество/доля u-turn ивентов на конкретном переходе может сигнализировать о наличии багов, а также о неочевидности клиентского пути сквозь приложение.

3. ⚽️Bounce rate - метрика, очень похожая на U-turn, название которой происходит от английского слова to bounce (отпрыгивать, отскакивать). Под "баунсом" зачастую подразумевается то же событие - заход и сразу же выход с определённой страницы или формы.
Чем сильнее вовлечение пользователей, тем ниже будут количества/доли как bounce'ов, так и u-turn'ов.

4. 📜Scroll depth - глубина скролла (прокрутки, от англ. scroll - крутить, закручивать). Показывает, как долго клиенту пришлось скроллить перед тем, как совершить целевое действие вроде просмотра или клика. Логично, что долгий скроллинг может быть сигналом для починки рекомендательной системы или изменения линеек с контентом, например, в онлайн-кинотеатре.

А почитать побольше про эти метрики и десяток дополнительных можно тут

Желаю всем продуктивной недели и пишите в комментариях, какие специфические метрики встречали вы🙂

Данялитика

02 Dec, 10:22


Всех поздравляю с наступившим последним месяцем в году🙂

Самое время, чтобы окончательно добить наш файл с 50 вопросами аналитикам с собеседований🔥 Сегодня нас ждут вопросы 42 - 50. 4️⃣2️⃣ - 5️⃣0️⃣

42. С помощью какой функции можно менять типы данных столбцов?

В SQL есть весьма популярная функция CAST A FIREBALL. С помощью нее можно превращать типы данных друг в друга, если такое физически возможно. Как ни старайся, из букв А.О,П,Ж не сложить слово "вечность" из строки "ABC" не получится сделать integer.
Также в некоторых БД/диалектах работает двойное двоеточие. Например: my_column::date - это приведение столбца my_column к типу данных date.

43. У вас есть колонка с показателем возраста. Как можно создать новый столбец, в котором возраст был бы разбит на интервалы по 20 лет?

Вопрос, конечно же, про конструкцию CASE WHEN, с помощью которой любой столбец можно привести к желаемому количеству уникальных значений. В более широком смысле данная операция называется интервалированием или бинированием или (реже) бендированием. Происходят термины, соответственно, от слов interval, bin и band, которые имеют примерно одинаковое значение в этом контексте :)

44. Пусть у нас есть две таблицы — t1 и t2. В обеих есть колонка id. В t1 есть записи с id in (1, 2, 3, 4). В t2 есть записи с id in (1, 1, 2, 5). Сколько строк дадут inner, left, right и full join'ы?

И вновь закрепим джойны))
INNER JOIN даст нам три строки
LEFT JOIN даст пять строк
RIGHT JOIN даст четыре строки
FULL JOIN даст шесть строк
CROSS JOIN даст 16 строк

45. Встречались ли вы когда-нибудь с CROSS JOIN? Что он делает?

CROSS JOIN - это SQL-аналог Декартова произведения. То есть при cross join двух таблиц по 10 строк в каждой мы получим 100 строк, так как к каждой строке таблицы-1 "приделаем" всю таблицу-2.
Любой джойн в своей основе имеет именно cross join, и уже после операции декартова произведения происходит проверка и сопоставление ключей.

46. В чём разница между UNION и UNION ALL?

Оба оператора отвечают за вертикальное соединение таблиц.
UNION (в отличие от UNION ALL) удаляет все дубликаты в таблицах. Притом удаляются как дубликаты родом из разных таблиц, так и родом из одной таблицы.

47. Что такое квантиль?

Квантиль - это пороговое значение, которое не превышается с некоторой вероятностью.
Более простыми словами, квантиль (или персентиль) - это то значение выборки, которое делит отранжированную выборку в определённом соотношении.
Например, медиана - это квантиль уровня 0.5. Половина значений выборки меньше, чем медиана. а половина - выше.
Квартили ("четвертинки") бывают:
- первым (квантиль уровня 0.25, такой что четверть наблюдений меньше него, а три четверти - выше).
- вторым, он же медиана
- третьим (квантиль уровня 0.75, такой что три четверти наблюдений меньше него, а четверть - выше).
Бывают также децили, т.е. десятые части, которые режут выборку в соотношениях 10 на 90, 20 на 80, 30 на 70 и тд

48. Что такое стандартное отклонение?

Стандартное отклонение - это "мера разброса" распределения, которая представляет из себя корень из дисперсии.
Стандартное отклонение часто используется в статистике и даже чаще чем дисперсия, так как, в отличие от дисперсии, стандартное отклонение это сигма-самец измеряется в тех же единицах измерения, что и сама случайная величина.

49. Что такое мода?

Тут всё очень просто)) Мода - это стиль всего лишь самое частое значение в выборке)

50. В чём разница между LTR и LTV?

Разница между ними ровно такая же, как между выручкой и прибылью.
LTR (Lifetime Revenue) - это суммарная выручка, которую мы получим с клиента за всё время его "продуктовой жизни". Мы не учитываем в данном случае, сколько денег мы затратили на привлечение или содержание клиента.
LTV (Lifetime Value) эти косты учитывает и именно поэтому чаще всего является одной из north-star метрик продуктовых команд и компаний.

А какие еще вопросы с собеседований вы бы хотели разобрать?🤓

Данялитика

29 Nov, 09:24


Всем привет!

К сожалению, последние три дня болел и валялся с горлом и температурой, сегодня первый день получше☀️

Пока валялся - задумался о том, есть ли применение анализа данных в мире медицины?
Разумеется! - скажете вы, но позвольте объяснить, что я имею в виду.
Рассмотрим пару примеров:

1. Есть, например, отрасль фармакологии. Безусловно, в ней трудятся тысячи аналитиков, которые, однако, прикладывают свой анализ не к самой разработке и улучшению лекарств, а к коммерческой составляющей, т.е. те же самые иксель (и не только) калькуляторы, позволяющие рассчитывать оптимальные цены на тот или иной аспирин.
Это, конечно, можно назвать "анализом данных", но всё же это куда ближе к "финансовому анализу" или "бизнес-анализу", чем к "анализу данных".

2. Есть, например, нейросети, которые могут считывать и расшифровывать километровые кардиограммы и распознавать там то, что не вооружённым взглядом разглядеть невозможно (скину еще раз сюда видео с канала Skypro моего интервью с топовым дата-сайентистом, который сейчас трудится в Газпромнефти). Но и это не совсем аналитика - это уже ML (Machine Learning, машинное обучение, тот самый AI-ИИ).

Подумайте: как еще в данной сфере может пригодиться анализ данных, который не скатывается в финансовые расчёты или AI-моделирование?
Я сейчас думаю минимум об одном важном направлении🙂

Напишите также, кто из вас имеет бекграунд, связанный с медициной, а сейчас переквалифицируется в аналитика и хотел бы продолжить работать в медицине/фарме/здравоохранении/экологии(?)

Данялитика

25 Nov, 08:00


Всех с понедельником!🔥

Сегодня будет весьма необычная задача-хохма, которая уже давно гуляет по аналитическому комьюнити.
Я слышал о ней уже немало раз от разных людей😀

Существует всем известный сайт с ХХХ-видео под названием Pornhub, aka "Оранжевый сайт".
На этом сайте есть различные категории видео (с точки зрения подборок/линеек).

Например, есть "самые популярные". Сразу понятна метрика для определения этой категории - топ-видео с точки зрения количества и/или суммарной длительности просмотра.
Есть "с самой высокой оценкой". Здесь тоже всё понятно - видео с самой высокой средней оценкой.

А вот есть категория под загадочным названием "самые горячие".
Напишите ваши мысли в комментариях - как именно определяются "the hottest" видео?

Ответ настолько оригинален, что он вас удивит. Мы ведь с вами часто говорим про онлайн-кинотеатры. Считайте, что это тоже своего рода онлайн-кинотеатр😂

Данялитика

22 Nov, 13:43


Привет, дорогие подписчики!🌻

Надеюсь, что ваша неделя прошла хорошо, а мы продолжаем наш путь сквозь файл с 50 вопросами аналитику.
Сегодня пройдём вопросы 35-41 3️⃣5️⃣ - 4️⃣1️⃣

35. Пользовались ли вы PowerPivot? Какие возможности у него есть?

Power Pivot - это надстройка в Excel, которая частично имитирует принцип DAX из BI-инструментов. Одним из самых важных приложений является "создание сложных мер", которые представляют из себя отношение мер (т.е. вычисляемых полей).

Например: Для каждого города России нам необходимо рассчитать конверсию из заказа в завершённую поездку. Данная конверсия представляет из себя отношение количества завершённых поездок к количеству созданных заказов. То есть для каждого города необходимо рассчитать две агрегации (кол-во заказов и кол-во поездок), а затем поделить их друг на друга. Именно это отношение и позволяет прописать PowerPivot🙂

36. Пользовались ли вы PowerQuery? Какие возможности у него есть?

PowerQuery плотно ассоциируется с понятием ETL, т.е. Extract-Transform-Load. ETL - это процессы обработки данных, которые можно автоматизировать, а не выполнять руками каждый раз.

Например, при каждом импорте файла определённого вида мы хотим выкинуть оттуда все полные дубликаты строк, избавиться от нуллов в наборе полей, а также причесать типы данных. Все эти автоматические действия можно зашить в надстройку Excel PowerQuery👍

37. Чем отличается мера от измерения?

При группировке (агрегации) таблицы используется два вида полей: меры и измерения.
Измерение - это поле (или комбинация полей), для каждого значения которого мы проводим подсчёт (т.е. применение агрегации).
Мера - это поле, к которому применяется агрегация.

Например: подсчитайте среднюю стоимость заказа такси и количество заказов для каждой комбинации города и тарифа. Тогда измерения - это город и тариф, а мера - это стоимость заказа (применяется агрегация "среднее") и идентификатор заказа (применяется агрегация "счёт").

38. Как, используя сводную таблицу, посчитать среднюю оплату по месяцам?

Пусть у нас есть таблица с тремя колонками: идентификатор купившего клиента, дата+время покупку и размер платежа.
Тогда расчёт производится с помощью следующей агрегации: в качестве измерения выступает вторая колонка, приведённая (транкованием/обрезанием) к уровню месяца, а в качестве меры выступает размер платежа, к которому применяется группировочная функция "среднее".

39. Можно ли ссылаться формулой на ячейки сводной таблицы?

По умолчанию можно, однако существует специальная настройка в Excel, которая позволяет менять этот принцип. Чаще всего, конечно, удобнее использовать ячейки сводной таблицы в качестве обычных ячеек.
Чтобы почитать дополнительно о плюсах и минусах этого рубильника, почитайте подробнее про функцию ПОЛУЧИТЬ.ДАННЫЕ.СВОДНОЙ.ТАБЛИЦЫ

40. Какой командой можно вернуть все строки таблицы T, где поле Comment содержит пробел (но не NULL)?

Возвращаемся от Excel обратно к SQL :)
SELECT *
FROM table
WHERE Comment like "% %"

С помощью выражения LIKE можно отфильтровать только те строки, которые содержат определённый символ.

41. Какие бывают типы данных в SQL?

Самыми частыми являются:
- int (integer - целое число)
- float (число с дробной частью)
- bool (логическая переменная True / False)
- char (character - строка фиксированной длины)
- varchar (строка не фиксированной длины)
- date / datetime / timestamp (различные виды временных отметок)
- timedelta / interval (различные виды временных отрезков)

И не будем забывать, что в некоторых БД (например, Clickhouse) бывают еще векторные типы данных, такие как array.

Фух, надеюсь в следующий раз добьём этот список😀🔥

Данялитика

21 Nov, 07:22


Доброго всем четверга, а мы продолжаем делиться с вами полезными ресурсами🔥

Вскоре состоится крупная конференция от Яндекса под названием PlayButton!🎉
Ссылка: https://playbutton.yandex.ru/

Ребята расскажут:
- О "Спорттехе" и системе live-статистики в спортивных трансляциях ⚽️
- Как справиться с огромным притоком пользователей в онлайн-кинотеатре на примере Кинопоиска 🍿
- Как Кинопоиск помогал Яндекс.Музыке повышать качество звука 🎧

Запись такой же конференции с прошлого года можно найти прямо на стартовой странице.

Всем желаю хорошего продуктивного дня!☺️

Данялитика

19 Nov, 07:11


Доброго дня!☀️

Сегодня хочу поделиться с вами полезной ссылкой: https://hardclient.com/

Это сайт об управлении клиентским опытом, здесь есть куча интересных наблюдений про тот или иной продукт (его плюсы и минусы), а также множество интересных статей про инструменты/подходы/сферы и многое-многое другое.🔥

Это подойдёт как продуктовым (и не только) аналитикам, так и исследователям, менеджерам, тестировщикам, а также просто всем тем, кому интересны подходы к оценке качества того или иного продукта🙂

P.S. Я тут обнаружил, что через три недели этому каналу стукнет ровно год 3️⃣6️⃣5️⃣
Хотели бы вы, чтобы в этот день я провёл стрим с ответом на накопившиеся вопросы?
Пишите, готовы ли подключиться и, возможно, тоже поучаствовать в обсуждении, а также ваши пожелания касательно тем разговора❤️

Данялитика

16 Nov, 09:56


Поздравляю всех с выходными!🕶

Сегодня захотелось сделать небольшой пост с ответом на последний полученный в комментариях вопрос: "назовите все способы как избавиться от дубликатов в SQL".

Давайте обговорим три способа, а я вас попрошу накинуть ещё в комментариях, если придумаете))

Первое, о чём надо сказать, - это определение дубликата.
Дубликат - это, очевидно, строчка таблицы, которая является дублем другой строчки с точки зрения значений в столбцах.
Но в каких именно столбцах? Во всех? Или существует некий набор колонок, который определяет дубликат?

Вариант 1
Оператор distinct. Этот оператор ставится в select-части, после него перечисляются колонки, уникальные комбинации которых мы хотим вывести.

Например,
SELECT distinct id_purchase, id_client, id_item
FROM table


Выведет только уникальные комбинации идентификаторов покупки, клиента и объекта покупки.

Вариант 2
Оператор GROUP BY. Может использоваться абсолютно так же, как и distinct.
Только к нему еще можно дописать агрегации над мерами, так как поля с уникальными комбинациями становятся измерениями группировки.

Например,
SELECT id_purchase, id_client, id_item
FROM table

GROUP BY id_purchase, id_client, id_item

Вариант 3
Оконная функция DENSE_RANK / RANK (аналог ROW_NUMBER), c помощью которой можно расставить ранги строк с точки зрения оконной разбивки по полю или набору полей.

Например,
SELECT table.*
, DENSE_RANK() over (order by id_purchase, id_client, id_item) as rn
FROM table

Тогда мы получим различные значения рангов в столбце rn для строк, которые обладают различными значениями комбинации полей id_purchase, id_client, id_item.

К вам вопрос: как теперь удалить дубликаты поля rn и оставить все колонки?

Данялитика

12 Nov, 11:21


Всем отличного вторника👻

Форвардю вам сообщение о возможности регистрации на нашу конфу 🙂

Регистрируйтесь, пока не поздно, будет очень полезно!

Данялитика

12 Nov, 11:21


Мы в Т-Банке проводим своё первое большое событие для продактов и аналитиков — конференцию “Продукты 24”. Со смыслом, красиво и бесплатно.

Со смыслом
Мы придумали 2 зала: визионерский и “мясной”. В первом будем рассказывать про продукты и тренды, переворачивающие индустрию. Из продуктового мира и не только. Например, из мира искусства и науки. Во втором — как данные и технологии помогают создавать успешные продукты и укреплять лояльность клиентов.

Красиво
Всё будет проходить в Арме (экс-Мутабор) — это уже красиво! Тема “Продукты 24” не просто так — мы вдохновились атмосферой, навеянной вывесками магазинов у дома, осовременили её и планируем устроить настоящий тематический день… и вечер. Я, конечно, подиджею на афтерпати (считаю это апогеем своей диджейской “карьеры” хах)

Бесплатно,
но места в оффлайне ограничены. К сожалению, даже при большом желании, не сможем вместить всех желающих, поэтому бегите регистрироваться, пока не поздно (спойлер — это ненадолго): https://producty24conf.tbank.ru/

21 ноября, с 11:30
Москва, Арма (экс-Мутабор)

PS: оффлайн места ограничены, но онлайн вместит всех желающих 🫶

Данялитика

11 Nov, 10:27


Всех поздравляю с новой рабочей неделей!
До Нового Года остался всего 51 день!😀🫠

А у нас с вами осталось 25 вопросов из файла. Сегодня продолжим и разберём вопросы 26-34.
3️⃣4️⃣

26. Что такое предобработка данных и как ее делать?

Вопрос очень широкий, но чаще всего с "предобработкой" ассоциируется аббревиатура ETL, т.е. Extract-Transform-Load, буквально Извлечение-Трансформация-Загрузка.
Данные необходимо достать из источника, привести к нужному виду, очистить от нуллов/пустот/выбросов/дубликатов и прочего "мусора", затем обработать строчные и временные данные (с точки зрения хотя бы формата), сохранить результат в нужной форме и этот результат в конце концов загрузить туда, где его увидит заказчик.

27. Какие вы знаете функции управления таблицами? (Очистка, создание, удаление и т. д.)

Допустим, что разговор идёт про SQL, а не про Excel/Python.
В SQL есть набор функций, которые не просто "селектят" из таблицы, а могут эти самые таблицы трансформировать.
- CREATE - операция создания таблицы с обозначением колонок и типов данных в них
- INSERT - вставка строк в существующую таблицу
- UPDATE - изменение значений в существующих строках
- DELETE - удаление строк по условию
- TRUNCATE - удаление всех строк таблицы без удаления самой таблицы
- DROP - удаление таблицы
Все эти операции очень просты с точки зрения синтаксиса.

Самой необычной, уникальной и полезной является операция MERGE, которая является объединением UPDATE и JOIN (т.е. апдейтим значения не просто по условиям, а по совпадению ключей).

28. Если мы стимулируем людей покупать более дешевые товары, чем нам это грозит?

Любая стратегия "грозит" всегда просадкой финального результата, то есть финансов😀
С одной стороны, удешевление среднего товара приведёт к увеличению количества покупок (при прочих равных). Но в то же самое время каждая из этих возросших покупок будет дешевле.
Наш финансовый результат можно описать как следующую мультипликативную модель
TR = P*Q
- TR (Total Revenue) - выручка
- P (Price) - цена
- Q (Quantity) - количество.
В данном кейсе будем говорить только про выручку и не будем касаться костов/издержек или прибыли.
С помощью скидок/удешевлений мы растим Q, но можем обрушить P настолько сильно, что TR станет меньше чем был раньше. Чтобы в явном виде аллоцировать (распределить) эффект, можем воспользоваться факторным анализом.

29. Какие профессиональные компетенции вы больше всего хотите в себе прокачать?

Этот вопрос, как вы понимаете, скорее софтовый и весьма индивидуальный)
Я всегда говорил, что мне интересно кодить на python, а также максимально использовать математику, которую я годами учил в универе🙂

30. Как вы решили стать аналитиком и чего ожидаете от работы у нас?

Опять софтовый вопрос :)
В качестве основных направлений анализа можете озвучить:
- Продуктового аналитика (статистика, много python и активное участие в процессах A/B тестирования).
- BI-аналитика (дашборды, ТЗ, запросы, BI-инструменты).
- Начинающего DE / Data Engineer (проекты в хранилище, ТЗ на создание витрин/таблиц, оптимизация запросов и расчётов).
- Начинающего DS / Data Scientist (построение моделей машинного обучения, интерпретация их результатов и создание инфраструктуры для них).

31. Чем отличается JOIN от UNION?

Этот вопрос у нас уже встречался. Напоминаю вам, что бывает "горизонтальное соединение таблиц", а бывает "вертикальное соединение таблиц" 🤓

32. Что такое абсолютные и относительные ссылки в ячейках Excel?

Абсолютная ссылка (aka задолларивание ячейки) - это фиксация положения ячейки, чтобы оно не менялось при протягивании ячейки, как это бывает в классических формулах. "Долларить" можно как только строку или только столбец, так и ячейку полностью.

Объединим 33 и 34 вопросы.
Что такое функция VLOOKUP? И бывает ли функция горизонтального поиска по аналогии с VLOOKUP?


VLOOKUP (Vertical Look Up, т.е. Вертикальный Поиск) - это ВПР.
ГПР, в свою очередь, будет в английской версии HLOOKUP (Horizontal Look Up).

Друзья, если бы вы хотели накинуть дополнительных вопросов к этому списку, то велком в комментарии!🔥

Всем хорошего дня!☀️

Данялитика

07 Nov, 10:09


А мы с вами продолжаем концерт по заявкам разбор файла "50 вопросов аналитику"! 5️⃣0️⃣

Сегодня пройдёмся по вопросам 18-25.

18. Функции какого рода использовали в Excel?

Основными, наверное, можно считать функции агрегации: СУММ, СРЗНАЧ, СУММЕСЛИ, СРЗНАЧЕСЛИ, СУММ(СРЗНАЧ)ЕСЛИМН (и всё то же самое с функцией СЧЁТ).
Также ВПР и ГПР (которые можно эффективно заменить функциями ПОИСКПОЗ и ИНДЕКС в Google Sheets).
В GS можно отдельно обозначить функции IMPORTRANGE и QUERY, с помощью которых можно ворочать данные из разных листов и файлов.
А вообще их превеликое множество)

19. Какие агрегатные функции вы использовали?

Без привязки к языку или программе основными функциями агрегации можем назвать количество, сумма, среднее, максимум. минимум, количество уникальных элементов, медиана, мода, дисперсия, стандартное отклонение
Функции из Excel мы перечислили в прошлом пункте)

20. Как можно соединять таблицы? Через какие операторы?

Формулировка вопроса немного странная, но давайте вспомним, что соединение таблиц бывает:
- горизонтальным (ВПР в Excel, JOIN в SQL, merge в Python)
- вертикальным (UNION в SQL, concat в Python)

21. Как еще можно объединять таблицы, кроме Join?

Считаю, что про горизонтальное соединение мы сказали достаточно, но можно напомнить, что существует также горизонтальное соединение не по ключу, т.е. аналог UNION, но "приклеиваем" таблицу В не снизу от таблицы А, а справа.
В Python для этого есть специальная функция в библиотеке numpy: hstack. Вертикальным аналогом (копия логики UNION) является функция vstack.

22. Что, на ваш взгляд, делают аналитики в компании?

Вопрос очень широкий, конечно, так что ответим кратко:
работу аналитика можно условно разделить на два типа задач:
- Разовые запросы (ad hoc, исследования)
- Автоматизация (создание отчётности, внешней и внутренней)
От аналитиков требуется настройка инфраструктуры отчётов, расчёт и вывод цифр, интерпретация результатов, дальнейшие рекомендации и т.д. и т.п.

23. Что значит «второй тип нормализации баз данных»?

Второй тип нормализации БД (2NF) - это следующее требование к базе данных:
- БД должна находиться в первой нормальной форме (1NF)
- Каждый неключевой атрибут полностью зависит от ключа таблицы.

Пример для второго пункта:
Клиент с id=112 совершил покупку в городе с id=12. В третьей колонке таблицы также содержится информация, что эта покупка была совершена в Новосибирске. Третья колонка нарушает вторую форму нормальности, так как "Новосибирск" - это расшифровка id=12, т.е. неключевой признак (название города) зависит от другого признака (id города), а не от ключа таблицы (id клиента)

24. Каким аналитиком вы хотите быть?

Когда я начинал работать аналитиком, такой профессии в явном виде ещё не существовало, и мы назывались специалистами, методологами, экспертами - кем угодно, но не аналитиками😂
Ближе всего по духу мне продуктовая аналитика, больше всего опыта у меня с финансовой аналитикой, а дальше всенго от меня BI-аналитика) как-то так.

25. Как поменяется результат работы запроса, если мы поменяем inner join на full join?

Количество строк в результирующей таблице увеличится (или в крайнем случае останется таким же), так как теперь останутся все строки таблиц А и В, для которых не нашлось пары по ключу в противоположной таблице.

Давайте поздравим себя с достижением экватора!😋🌐

#аналитика #тестовое #hh

Данялитика

05 Nov, 15:20


Добрый вечер! 🌛
Все оклемались после 6-дневной недели?🙈

Хочу всем сказать спасибо за активное участие в голосовании за интересные темы!
Обязательно прислушаюсь к вашему решению, ведь три темы-победителя - это:
1. Разбор тестовых заданий с рынка на позицию аналитика данных.
2. Разговоры о бизнесе и метриках из различных сфер.
3. Жизовые истории аналитика данных.

Если есть темы, которые вы бы хотели обсудить, но которых не было среди вариантов для голосования, пишите в комментариях к этому посту!

В следующем посте обещаю вам разбор тестового

А в этот раз хочу задать вам вопрос с банковских собеседований:

У вас есть график, сравнивающий две стратегии (картинка во вложении)
Какую стратегию вам лучше выбрать, при условии что по оси Y откладывается накопленная метрика прибыльности?
Данной метрикой может быть, например, накопленный процент возврата кредитных средств к месяцу Х.
Знаете ли вы о каких-либо терминах, использование и применение которых поможет вам ответить на этот вопрос?


#аналитика #тестовое

Данялитика

30 Oct, 10:07


Всем привет! 👋

Как и заведено по нашей старой-доброй традиции, выкладываю очередную сессию сёрфинга по hh.ru 🏄

И, как обычно, если хотите разобрать конкретные вакансии или получить ответ на конкретный вопрос, пишите в комментариях🙂
#hh_surfing #hh #тестовое #вопрос_ответ #аналитика

Данялитика

28 Oct, 07:55


Дорогие друзья, время очередной рабочей недели и время продолжить отвечать на вопросы из файла ☺️

В прошлом посте мы прошлись по первым 10 вопросам (ссылка на 1 часть)
Сегодня возьму вопросы с 11 по 17 включительно.

Поехали!🙂

11. Что будет, если в одной из таблиц есть дубликаты? Например, вы делаете left join - и в правой таблице есть дубликаты. Что будет?

При джойне строки могут замножаться. Например: в левой таблице есть id=112 один раз, а в правой этот жа айди встречается 10 раз. В результирующей таблице (после джойна) будет 10 строк с id=112 (что и отличается join от того же ВПР в Excel).
Но если мы хотим, чтобы замножения не происходило, а подтянулся бы просто любой из мэтчей, то для этого есть специальное выражение any join (в более новых языках).

12. Какие способы упрощения запросов вы знаете?

В данном вопросе про "упрощением" имеем в виду с точки зрения визуального восприятия
Во-первых, это конечно же индентация (indent = красная строка) и комментарии. Например, в селекте следует разносить столбцы на разные строки, а в where писать каждое условие на своей строке.
Во-вторых, следует давать элиасы (alias - название/имя) новым столбцам и таблицам, чтобы аутпут (output - вывод) был читаемым.
Во-третьих, в некоторых ситуациях следует выносить подзапросы во внешние структуры - СТЕ. Например, если один и тот же подзапрос встречается несколько раз.
(ну и много-много других лайфхаков🙂)

13. Что такое маржинальность?

Грубо говоря, это прибыльность.
Маржинальность - это доля маржи (т.е. простыми словами прибыли) в выручке.
Например, мы получили 1000 рублей выручки и потратили на это 800 рублей. Тогда маржинальность составит 20%.

14. Про порядок выполнения запроса со стороны базы данных — в каком порядке это происходит?

В простейшем запросе последовательность следующая:
- Сначала часть FROM (включая все джойны внутри)
- Затем WHERE (т.е. фильтрация строк по условиям)
- Затем GROUP BY (т.е. агрегация данных по измерениям)
- Затем HAVING (т.е. фильтрация по агрегированным мерам)
- В конце часть SELECT (т.е. выбор нужных колонок) и ORDER BY (т.е. ранжировка таблицы по признаку или признакам).

15. Как вычисляется среднее геометрическое? Когда оно применяется? Какие ограничения оно имеет?

Среднее геометрическое из n элементов - это корень степени n из произведения этих n элементов.
У данной оценки есть следующие ограничения:
- Нельзя применять к набору, в котором есть хотя бы один ноль.
- Нельзя применять к набору, допускающему отрицательные числа (например, коэффициент прироста).
- Нельзя применять к слишком большим числам в связи с вычислительной затратностью.

Применять его можно в случае выполнения всех этих условий. Самый лучший вариант - ряд чисел со значениями от 0 до 1 и гарантированно без 0.

16. Чем отличается среднее от медианы?

Среднее (чаще всего, в значении арифметическое) - это сумма элементов, делённая на их количество.
Медиана - это такое значение выборки, что меньше него половина выборки и больше него половина выборки.
Они могут значительно отличаться отличаться друг от друга в случае наличия выбросов в выборке, т.е. слишком больших или слишком маленьких значений. Подобные значения сильно влияют на среднее, но слабо влияют на медиану.

17. Как часто находите у себя ошибки в процессе работы в аналитике?

Ох, частенько😂
Смотря что считать ошибкой - неверное заполнение таблиц, ошибки в дашбордах, неучитывание отдельных сегментов и логик при проведении ad hoc исследований. Всё это - неизбежная реальность работы аналитиком.
Вопрос только в том, насколько быстро и гибко вы реагируете на обнаружение и исправление подобных ошибок.

#аналитика #тестовое #hh

Данялитика

26 Oct, 08:25


Поздравляю всех с выходными!😉

Ловите мемчик про незаслуженно униженную статистику))

Кстати сейчас как раз будет семинар по статистике в магистратуре, будем говорить про тестирование гипотез и p-value🙂

А чем по выходным занимаетесь обычно вы?
Как вы относитесь к учёбе и работе в выходные?
Для вас это табу или еженедельная реальность?

Поделитесь своим ритмом жизни в комментариях!
#из_жизни #meme #аналитика

Данялитика

24 Oct, 09:43


Всем привет!🤝

Давненько мы не пополняли словарь англицизмов.
Давайте сегодня поговорим про несколько метрик-аббревиатур, которые очень легко перепутать и которые привнесут полезные английские слова в вокабуляр (от англ.vocabulary - словарь) аналитика.

1. CR (conversion rate) - конверсия.
Мы неоднократно упоминали это слово - оно обозначает процент пользователей (или других единиц наблюдения), которые совершили целевое действие. Например:
- Конверсия в подписку - это доля пользователей, которые подписались среди всех тех, кто зашёл на ресурс.
- Конверсия в завершённую поездку (O2R, order-to-ride) - доля заказов, которые успешно завершились в точке В.
и многие-многие другие. Конверсии - это основа как продуктовой, так и маркетинговой аналитики.

2. CTR (Click-through-Rate) - конверсия из показа в клик.
Например, реклама была показана 1000 пользователям, и всего 10 кликнули на неё и перешли на сайт рекламодателя.
Тогда CTR=0.1% ил CTR=0.001.
Эта метрика - одна из ключевых в маркетинге.
Ссылка с описанием CTR

3. CPR (Cost per Result) - стоимость клиентского действия.
Рассчитываться может по-разному, так как клиентские действия бывают разными. Например, CPR based on clicks будет рассчитываться как отношение затраченных ресурсов на рекламу и размещение к количеству произведённых целевых действий, т.е. кликов на форму регистрации или форму оплаты.
Ссылка с описанием CPR

4. ACR (App Conversion Rate) - конверсия из скачивания приложения в совершение целевого действия (чаще всего оплаты).
Ссылка с описанием ACR
Также, что забавно, ACR используется для обозначения специфической метрики из мира колл-центров и саппорт десков - Abandoned Call Rate, т.е. конверсии из начала звонка в его прерывание, или доли прерванных звонков.

Слова на сегодня:
Conversion, Rate, Click, Cost, App

С сегодняшнего дня я возрождаю пост со словарём аналитика (в закрепе канала) и добавляю туда сегодняшние слова.

Всем хорошего четверга!🌻
#словарь #лингвистика #аналитика #data_analysis

Данялитика

21 Oct, 08:35


Друзья, в комментариях меня попросили поразбирать документ с 50 вопросами аналитику данных)
5️⃣0️⃣
Предлагаю сегодня в качестве эксперимента пробежаться по первой десятке. 1️⃣0️⃣
Я буду давать короткие ответы, так что, вполне возможно, что на собеседовании вам нужно будет подольше развивать эти мысли🙃

1. У вас есть дашборд с графиками, на котором выводятся все средние метрики. Однажды вы просыпаетесь —
прибегает менеджер и говорит, что всё упало. Ваши действия, как вы будете эту проблему отслеживать?

Во-первых, убедимся, что не сломались сами данные: проверяем таблицы и обновляемость данных в них. Затем убеждаемся, что не сломался сам дашборд (логика расчёта, обновление по расписанию и тд). Если всё ок - присутпаем к исследованию причин реалнього падения метрики.

2. Что такое CAC и CPA и в чём разница между ними?
САС (Customer Acquisition Cost) - это издержки на привлечение одного (любого) клиента.
CPA (Cost per Action) - это стоимость одного клиентского действия, и этим действием вовсе не обязано быть "привлечение". СРА может рассчитываться относительно любого продуктового или финансового действия.

3. Расскажите, какие оконные функции вы знаете и как с ними работать?
- Ранжировочные оконные функции (row-number, rank, dense_rank) используются для проставления ранга в рамках определенной ранжировки.
- LAG/LEAD используются для перехода к прошглому или будущему значению в рамках ранжировки
- Группировочные функции в роли оконных используются для группировки таблицы без изменения её структуры.

4. Чем отличается left join от inner join?
При inner join в результирующей таблице остаются только ключи, которые присутствуют в обеих таблицах. В left join останутся все ключи из левой таблицы.

5. Почему вы выбрали именно аналитику?
Отвечу мемом во вложении😄

6. Смотрите: из того, что вы там делали, работа с Excel-таблицами — насколько хорошо вы знакомы? И умеете ими пользоваться?
Особый акцент хотелось бы сделать на автоматизации: настройка процессов ETL и другие процессы по автоматической очистке и подготовке данных для анализа и визуализации. Конечно же, построение сводных таблиц и графиков для ad hoc запросов.

7. Можете рассказать, какие виды ретеншена бывают? Что это такое? Для чего это нужно?
Retention - это показатель клиентского удержания, который чаще всего употребляется совместно с понятием "когорта".
- Абсолютный Retention Х - какое количество человек из когорты "дожили" до периода Х
- Относительный базовый Retention Х - какая доля от когорты "дожила" до периода Х
- Относительный цепной Retention Х - какая доля от доживших до прошлого этапа "дожила" до периода Х

8. Что такое ClickHouse?
Столбцовая система управления базами данных.
Обладает своим диалектом, который по некоторым нюансам отличается от более "классических диалектов", таких как MySQL или Oracle. В частности, допускает работу с массивами и имеет множество собственных функций, в первую очередь, для обработки массивов.

9. 10 станков производят слитки весом 10 кг. Один станок бракованный и производит слитки весом 9 кг. Есть весы с одной чашей. Нужно за одно взвешивание этих слитков (количество у вас неограниченное) определить, какой станок производит бракованные слитки. Какой из этих десяти станков?
Нам потребуется определить "меру ошибки": берём 10 деталей с 10 станка, 9 деталей с 9 станка и т.д. Рассчитываем насколько наши 55 деталей отличаются по весу от того, как должно было быть, и по масштабу ошибки определяем "виновный" станок.

10. Что вы знаете о джоинах (Join): чем отличаются, какие знаете?
- inner - "пересечение". т.е. остаются только ключи, которые были и в А и в В
- left - "левое пересечение". т.е. остаются только ключи, которые были в А
- right - "правое пересечение". т.е. остаются только ключи, которые были в В
- full - "объединение". т.е. остаются все ключи
- cross - Декартово произведение двух таблиц

#аналитика #тестовое #hh

Данялитика

17 Oct, 09:42


Добрый день, дорогие подписчики!☀️

Хочу с вами поделиться полезным ресурсом: https://getmatch.ru/🔥

Он предоставляет:
1. Кучу вакансий, организованных на подобии hh.ru
2. Аналитику по зарплатам на рынке IT (вот, например, интерактивный график, на котором можно посмотреть распределение зарплат для выбранной профессии)
3. Телеграм-канал со всякими полезностями касательно собеседований и вакансий
4. Телеграм-бота, который будет присылать вам релевантные вакансии и который можно настроить с основной страницы ресурса.

Надеюсь, гетматч будет вам полезен☺️

Также возникла идея в ближайшие недели провести стрим, онлайн-встречу в ТГ, на которой я могу поотвечать на вопросы, посёрфить hh.ru, ну или пишите, о чём было бы интересно поговорить🙂
Хочу понять востребованность такого рода мероприятий, без вашего фидбека никак))

Всем хорошего дня!

#аналитика #резюме

Данялитика

14 Oct, 13:30


Всех с понедельником!
А москвичей ещё и с крайне снежным понедельником❄️

Продолжаем говорить про алёртинг.⚠️
И в связи с этим важным аналитическим понятием предлагаю рассмотреть основополагающий термин из математической статистики: ошибка первого 1️⃣ и второго 2️⃣ рода.

Их очень часто путают, и без них никак не получится подтвердить или опровергнуть эффективность тестовой механики в рамках АБ теста, будь то маркетплейс или финансовое учреждение.

Допустим, есть некоторая гипотеза. Назовём её латинской буквой H [аш]. Она заключается, например, в том что "небо - голубое". Этой гипотезой может быть любое высказывание/утверждение, но чаще всего на практике это высказывание касается данных: например, "средний чек увеличился", или "конверсия из заказа в поездку не стала хуже".

Мы совершаем ошибку первого рода, если мы отвергаем гипотезу H, которая на самом деле верна.
Мы совершаем ошибку второго рода, если мы принимаем гипотезу H, которая на самом деле не верна.

Как говорил давным-давно наш преподаватель по эконометрике из ВШЭ Мамонтов:
"С точки зрения христианина, Иисус - это ошибка первого рода".

Что же это значит?

Если вы христианин, то гипотеза "Иисус - Бог" для вас верна. (ну или "богочеловек", не будем уходить в теософию).
Соответственно, что сделали люди в нулевых годах? Совершили ошибку первого рода, так как решили что он не Бог, то есть отвергли истинную гипотезу.

В качестве обратного примера ошибки второго рода можно было бы привести в пример какого-нибудь пророка-самозванца, которого ошибочно посчитали Богом, хотя на самом деле гипотеза "он Бог" не является истинной.

А теперь от религии к алёртингу😀
Обозначим гипотезу: "Данное значение является выбросом, и о нём нам должен сообщить алёртинг".
- Ошибка первого рода 1️⃣ - мы пропустили важный выброс, система нам о нём не сообщила, так как посчитала, что выбросом он не является.
- Ошибка второго рода 2️⃣ - система постоянно нам маякует о якобы выбросах, которые являются вполне рядовыми значениями, и мы не хотели бы получать алёртинг об этих значениях.

Много ошибок первого рода - мы пропустили все критические точки и не среагировали.
Много ошибок второго рода - начинается сказка о мальчике, который кричал "Волки!"😄🐺

Вот и приходится нам всегда жить в поисках той самой золотой середины, чтобы не провалиться в крайности))

#data_analysis #аналитика #статистика

Данялитика

10 Oct, 09:06


Дорогие друзья, всем привет!☀️

За последнее время было много постов про "жизнь": аналитические митапы, рейтинги и прочее.
Пришло время разбавить их старой-доброй аналитикой📊

Сейчас мы со студентами в ЦУ на курсе по "Основам статистики" проходим доверительные интервалы. Но поговорить в этом посте хотелось бы не про них, а про так называемый "алёртинг" (от англ. alert - сигнал, тревога).📡

Смысл алёртинга заключается в том, чтобы прислать нам сообщение (или маякнуть каким-то другим способом) о том, что значение метрики вышло за пределы некоторого "коридора адекватности", т.е. метрика показала слишком большое или, наоборот, слишком маленькое значение с точки зрения отклонения от среднего, привычного нам исторического бенчмарка (от англ. benchmark - эталон, отметка).

Например, рассмотрим конверсию из заказа в поездку в агрегаторе такси, т.е. долю заказов, которые обернулись завершёнными в точке В поездками. 🚕
Эта метрика очень важна для "здоровья" всего маркетплейса, поэтому нам важно быстро узнать и среагировать в ситуации, когда этот процент падает ниже, допустим, 60 процентов.

Доверительные интервалы помогают настроить автоматически эти самые границы, вылет метрики из которых призывает сообщения алёртинга. Грубо говоря, они показывают те значения, которые находятся слишком далеко от выборочного среднего.

Как вы думаете, что хуже: алёртинг, который пропускает истинные провалы метрики, или алёртинг, который бесконечно спамит незначимыми провалами?🤔

Во вложении пример графика. Он показывает конверсию из просмотра поста/рекламы в реакцию на этот самый пост (т.е. процент пролайканных постов из просмотренных). Синими точками отмечены те самые "выбросы", о которых система нам маякует.📡
По середине можно проследить тот самый "коридор адекватности" без синих точек.

А вам приходилось когда-то настраивать подобные системы алёртинга? Делитесь в комментариях своими историями👇

#аналитика #data_analysis #статистика

Данялитика

07 Oct, 09:14


Дорогие подписчики, всем привет!

Я тут, это, попал в список «500 экспертов, за которыми следят аналитики», оказывается😀🙈🔥

Исследование провело крупное рекрутинговое агентство NEWHR.
В качестве референса на компанию предоставляю их исследование рынка аналитиков 2023.

Дорогие друзья, хочу поблагодарить вас за то, что продолжаете оставаться со мной на этом канале (вон, я даже в топ-чартах оказываюсь благодаря вам😂)

Теперь ребята хотят актуализировать информацию за 2024 год, им требуется максимально репрезентативная и многочисленная выборка🙂
Что исследуется?
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков
👉 Где и как работают аналитики
👉 Как меняется зона ответственности аналитиков
👉 Как аналитики ищут работу и выбирают работодателя.
👉 Чему учатся аналитики
👉 Каких экспертов котируют

Ссылка на опросник тут

Друзья, прошу вас поучаствовать в этом опросе, чтобы исследования в области дата анализа могли похвастаться богатой выборкой!

#из_жизни #аналитика

Данялитика

01 Oct, 09:03


Всех с началом октября, дорогие подписчики!🍂

Как и обещал, делюсь с вами всеми ивентами/записями ивентов, которые устраивают IT-компании для обсуждения аналитики, продукта и прочих животрепещущих тем.

В этот раз у нас ОзонТех.
Они провели кучу конференций на всевозможные темы 28 и 29 сентября.
К сожалению, к самому ивенту я не поспел, но вот записи они выкладывают в открытый доступ🙂

Записи можно найти по ссылке.

Считаю прослушивание подобных выступлений очень полезным занятием для погружения не только в темы логистики и маркетплейсов, но и аналитики и продакт-менеджмента в целом.

Желаю всем продуктивной недели🔥

#аналитика #data_analysis #менеджмент #machine_learning

Данялитика

30 Sep, 08:41


А вот уже и сентябрь пролетел. Вроде только недавно заканчивалось лето🫠

А я возвращаюсь к вам с новым выпуском HH_surfing, рубрики, в которой мы путешествуем по hh.ru и исследуем различные вакансии, так или иначе связанные с анализом данных.🚗

Сегодня я разобрал три вакансии, которые были мне присланы заранее, а также ещё несколько позиций, связанных и с BI-анализом, и с дата инженерией, и с финансами.💰
Жду от вас обратную связь в комментариях, а также ссылки на вакансии, которые вы хотели бы разобрать в следующий раз🙂
Желаю всем хорошего дня!

#hh_surfing #hh #тестовое #вопрос_ответ #аналитика

Данялитика

25 Sep, 06:59


Доброе утро!

Как и обещал, пересылаю вам ссылку с записью аналитического митапа, организованного онлайн-кинотеатром Окко👁, о котором я рассказывал в своём посте.

Краткое содержание:
1. "Фрод как двигатель прогресса" или как сократить косты на пользовательские регистрации (Онлайн-кинотеатр Иви)
2. "По результатам года пользователи не узнали свои любимые треки" или как корректно определять "любимые треки" (VK Музыка)
3. Онлайн-кинотеатр START о сплит-системе в проведении продуктовых экспериментов
4. Онлайн-кинотеатр KION о тех случаях, когда "подглядывать в будущее в экспериментах можно"
5. Онлайн-кинотеатр Окко об одном из ключевых аналитических подходов в маркетинге - Marketing Mix Modeling

Также прикладываю https://habr.com/ru/companies/okko/articles/ на профиль Окко на Хабр - там вы можете посмотреть статьи, вакансии и многое-многое другое🔥

#из_жизни #ab_test #аналитика

Данялитика

23 Sep, 09:04


Поприветствуем же новую рабочую неделю! 😀🫠😫

Хочу сказать, что я помню про своё обещание о выкладывании видео с hh-сёрфингом каждые пару недель, и в ближайшие пару дней я обязательно такое видео выложу💪

Сегодня же давайте сделаем то, что не делали уже давным-давно, - рассмотрим классический пример на SQL из тестовых заданий (встречал такое минимум дважды, и в банках, и в маркетплейсах).

Даны две таблицы:

1. Таблица покупок purchases:
- id_purchase - уникальный идентификатор покупки
- date_payment - дата покупки
- id_object - уникальный идентификатор товара

2. Таблица ценовых логов price_logs:
- id_object - уникальный идентификатор товара
- price - цена товара
- start_date - цена действует с
- end_date - цена действует по

Задача:
Напишите SQL-скрипт, который рассчитает выручку на каждый день за октябрь 2023 года (разумеется, все покупки учитываются по актуальным на момент покупки ценам).
Если на момент покупки нет актуальной цены, то необходимо взять среднюю цену на этот товар за все его прошлые логи. Если по товару нет прошлых логов, то не учитывать его.
Реализовать задачу необходимо за один запрос, не используя команды типа update или insert.

Очень хорошая задача на понимание скриптов :)
Приглашаю вас писать своё решение в комментариях и обсуждать решения других🔥
А я потом обязательно дам решение, как я его вижу.

#sql #тестовое #hh

Данялитика

20 Sep, 09:51


Всех поздравляю с пятницей😀

Вчера мы с Катей ездили на "митап" (сходку) аналитиков со всех онлайн-кинотеатров☺️
Было пять докладов от представителей Иви, Окко, KION, START (как раз Катин) и VK Музыка.
Был также отличный фуршет, множество напитков и два стенд-ап выступления 🔥🍷

Спикеры просто огнище, мы встретили кучу наших бывших и текущих коллег и произвели настоящий "нетворкинг".

Дорогие друзья, всем рекомендую мониторить подобные события, ведь они в большинстве случаев бесплатные, а пользы море☺️

#из_жизни #ab_test #аналитика

Данялитика

17 Sep, 07:55


Всем привет!

Я вернулся в холодную солнечную Москву из холодной солнечной Франции! ☀️
И настало время пар!🤓

Делюсь с вами фотками из нового учебного кампуса Центрального Университета🔥

#из_жизни #т_банк #цу

Данялитика

13 Sep, 10:23


Дорогие подписчики, всем привет!👋

Сегодня хотелось бы рассмотреть очень популярное у аналитиков и менеджеров слово "прокси" (или, как иногда говорят, "проксЯ")) пост наполовину про лингвистику, наполовину про аналитику)

Сам корень PROXI происходит от латинского слова prōcūrō, которое означает "представлять, администрировать, управлять". ✍️
Да, слово "прокурор" происходит именно отсюда))
Но с течением времени оно приобрело ещё одно значение: "ближний, близость".
Оба значения корня продолжают существовать бок о бок в различных словах.

Этот корень до сих пор активно используется в романских (и не только) языках, например:
- Proche - ближний (франц.)🇫🇷
- Prossimo - следующий (итал.)🇮🇹
- Próximo - следующий (исп.)🇪🇸
- Proximity - близость (англ.)🏴󠁧󠁢󠁥󠁮󠁧󠁿

Мы очень часто встречаемся с этим корнем и в русском языке (не считая прокуратуры).
Например:
- Проксима Центавра называется так, потому что она находится близко (относительно, конечно🙂)
- Прокси-войны называются так, потому что они "представлены" не теми странами, которые напрямую участвуют в войне. Можно сказать, что это "управляемые" конфликты.
- Прокси-сервер - это сервер-посредник между пользователем и ресурсом. То есть вместо самого сервера с пользователем общается прокси-сервер (по аналогии с прокси-войнами).

Но и у аналитиков нашлось своё применение этому корню: "прокси-метрика".

Что же такое прокси-метрика?
Допустим, у нас есть некая ключевая метрика, за которой все следят и от которой напрямую зависит наш финансовый результат или "здоровье" нашего маркет-плейса.

В рамках, например, онлайн-кинотеатра это может быть клиентский лайфтайм, то есть количество платных периодов подписки, которые проживает у нас среднестатистический клиент.
Чем дольше клиент у нас живёт, тем больше денег мы в результате с одного клиента будем получать в нашу казну.

Представим, что в августе 2024 года к нам на сервис пришли N новых пользователей.
Что это за пользователи: холодные или горячие? Сколько они у нас "проживут"? Покажут ли они лайфтайм выше или ниже, чем пользователи, зарегистрировавшиеся в прошлые месяцы-годы?

Определить это, разумеется, с ходу невозможно. Ведь чтобы посчитать лайфтайм по ним, надо, чтобы они все этот самый лайфтайм "прожили". Если средний лайфтайм составляет полгода, то оценить качество когорты августа мы сможем только плюс-минус через полгода.
Ждать не хочется!🫠

Для примерной оценки их будущего лайфтайма мы используем прокси-метрику, то есть метрику, которая сильно связана (коррелирована) с лайфтаймом, но которую мы можем увидеть практически сразу.
Например, в онлайн-кинотеатре такой метрикой является интенсивность смотрения контента в течение первого месяца "жизни":
- Если клиент смотрит активно, то он проживёт дольше.
- Если он не показывает заинтересованности в нашем контенте и не смотрит уже с первого дня, то и вероятность, что он проживёт долго, весьма невысока.

В бизнесе такие показатели на вес золота, ведь именно с помощью них можно принимать оперативные и эффективные решения.
В комментариях напишите, а встречались ли вы с такими прокси-показателями в рамках вашей работы или, может быть, в бытовой жизни?
#аналитика #data_analysis #лингвистика #словарь

4,063

subscribers

122

photos

12

videos