Данялитика

@gptjob


Личный блог Данилы Елистратова. Преподаю в Центральном Университете Т-Банка и в Skypro.
Рассказываю про аналитику, статистику, программирование и математику.

Курс по аналитике со мной: https://go.sky.pro/analytics_danya

Данялитика

21 Oct, 08:35


Друзья, в комментариях меня попросили поразбирать документ с 50 вопросами аналитику данных)
5️⃣0️⃣
Предлагаю сегодня в качестве эксперимента пробежаться по первой десятке. 1️⃣0️⃣
Я буду давать короткие ответы, так что, вполне возможно, что на собеседовании вам нужно будет подольше развивать эти мысли🙃

1. У вас есть дашборд с графиками, на котором выводятся все средние метрики. Однажды вы просыпаетесь —
прибегает менеджер и говорит, что всё упало. Ваши действия, как вы будете эту проблему отслеживать?

Во-первых, убедимся, что не сломались сами данные: проверяем таблицы и обновляемость данных в них. Затем убеждаемся, что не сломался сам дашборд (логика расчёта, обновление по расписанию и тд). Если всё ок - присутпаем к исследованию причин реалнього падения метрики.

2. Что такое CAC и CPA и в чём разница между ними?
САС (Customer Acquisition Cost) - это издержки на привлечение одного (любого) клиента.
CPA (Cost per Action) - это стоимость одного клиентского действия, и этим действием вовсе не обязано быть "привлечение". СРА может рассчитываться относительно любого продуктового или финансового действия.

3. Расскажите, какие оконные функции вы знаете и как с ними работать?
- Ранжировочные оконные функции (row-number, rank, dense_rank) используются для проставления ранга в рамках определенной ранжировки.
- LAG/LEAD используются для перехода к прошглому или будущему значению в рамках ранжировки
- Группировочные функции в роли оконных используются для группировки таблицы без изменения её структуры.

4. Чем отличается left join от inner join?
При inner join в результирующей таблице остаются только ключи, которые присутствуют в обеих таблицах. В left join останутся все ключи из левой таблицы.

5. Почему вы выбрали именно аналитику?
Отвечу мемом во вложении😄

6. Смотрите: из того, что вы там делали, работа с Excel-таблицами — насколько хорошо вы знакомы? И умеете ими пользоваться?
Особый акцент хотелось бы сделать на автоматизации: настройка процессов ETL и другие процессы по автоматической очистке и подготовке данных для анализа и визуализации. Конечно же, построение сводных таблиц и графиков для ad hoc запросов.

7. Можете рассказать, какие виды ретеншена бывают? Что это такое? Для чего это нужно?
Retention - это показатель клиентского удержания, который чаще всего употребляется совместно с понятием "когорта".
- Абсолютный Retention Х - какое количество человек из когорты "дожили" до периода Х
- Относительный базовый Retention Х - какая доля от когорты "дожила" до периода Х
- Относительный цепной Retention Х - какая доля от доживших до прошлого этапа "дожила" до периода Х

8. Что такое ClickHouse?
Столбцовая система управления базами данных.
Обладает своим диалектом, который по некоторым нюансам отличается от более "классических диалектов", таких как MySQL или Oracle. В частности, допускает работу с массивами и имеет множество собственных функций, в первую очередь, для обработки массивов.

9. 10 станков производят слитки весом 10 кг. Один станок бракованный и производит слитки весом 9 кг. Есть весы с одной чашей. Нужно за одно взвешивание этих слитков (количество у вас неограниченное) определить, какой станок производит бракованные слитки. Какой из этих десяти станков?
Нам потребуется определить "меру ошибки": берём 10 деталей с 10 станка, 9 деталей с 9 станка и т.д. Рассчитываем насколько наши 55 деталей отличаются по весу от того, как должно было быть, и по масштабу ошибки определяем "виновный" станок.

10. Что вы знаете о джоинах (Join): чем отличаются, какие знаете?
- inner - "пересечение". т.е. остаются только ключи, которые были и в А и в В
- left - "левое пересечение". т.е. остаются только ключи, которые были в А
- right - "правое пересечение". т.е. остаются только ключи, которые были в В
- full - "объединение". т.е. остаются все ключи
- cross - Декартово произведение двух таблиц

#аналитика #тестовое #hh

Данялитика

17 Oct, 09:42


Добрый день, дорогие подписчики!☀️

Хочу с вами поделиться полезным ресурсом: https://getmatch.ru/🔥

Он предоставляет:
1. Кучу вакансий, организованных на подобии hh.ru
2. Аналитику по зарплатам на рынке IT (вот, например, интерактивный график, на котором можно посмотреть распределение зарплат для выбранной профессии)
3. Телеграм-канал со всякими полезностями касательно собеседований и вакансий
4. Телеграм-бота, который будет присылать вам релевантные вакансии и который можно настроить с основной страницы ресурса.

Надеюсь, гетматч будет вам полезен☺️

Также возникла идея в ближайшие недели провести стрим, онлайн-встречу в ТГ, на которой я могу поотвечать на вопросы, посёрфить hh.ru, ну или пишите, о чём было бы интересно поговорить🙂
Хочу понять востребованность такого рода мероприятий, без вашего фидбека никак))

Всем хорошего дня!

#аналитика #резюме

Данялитика

14 Oct, 13:30


Всех с понедельником!
А москвичей ещё и с крайне снежным понедельником❄️

Продолжаем говорить про алёртинг.⚠️
И в связи с этим важным аналитическим понятием предлагаю рассмотреть основополагающий термин из математической статистики: ошибка первого 1️⃣ и второго 2️⃣ рода.

Их очень часто путают, и без них никак не получится подтвердить или опровергнуть эффективность тестовой механики в рамках АБ теста, будь то маркетплейс или финансовое учреждение.

Допустим, есть некоторая гипотеза. Назовём её латинской буквой H [аш]. Она заключается, например, в том что "небо - голубое". Этой гипотезой может быть любое высказывание/утверждение, но чаще всего на практике это высказывание касается данных: например, "средний чек увеличился", или "конверсия из заказа в поездку не стала хуже".

Мы совершаем ошибку первого рода, если мы отвергаем гипотезу H, которая на самом деле верна.
Мы совершаем ошибку второго рода, если мы принимаем гипотезу H, которая на самом деле не верна.

Как говорил давным-давно наш преподаватель по эконометрике из ВШЭ Мамонтов:
"С точки зрения христианина, Иисус - это ошибка первого рода".

Что же это значит?

Если вы христианин, то гипотеза "Иисус - Бог" для вас верна. (ну или "богочеловек", не будем уходить в теософию).
Соответственно, что сделали люди в нулевых годах? Совершили ошибку первого рода, так как решили что он не Бог, то есть отвергли истинную гипотезу.

В качестве обратного примера ошибки второго рода можно было бы привести в пример какого-нибудь пророка-самозванца, которого ошибочно посчитали Богом, хотя на самом деле гипотеза "он Бог" не является истинной.

А теперь от религии к алёртингу😀
Обозначим гипотезу: "Данное значение является выбросом, и о нём нам должен сообщить алёртинг".
- Ошибка первого рода 1️⃣ - мы пропустили важный выброс, система нам о нём не сообщила, так как посчитала, что выбросом он не является.
- Ошибка второго рода 2️⃣ - система постоянно нам маякует о якобы выбросах, которые являются вполне рядовыми значениями, и мы не хотели бы получать алёртинг об этих значениях.

Много ошибок первого рода - мы пропустили все критические точки и не среагировали.
Много ошибок второго рода - начинается сказка о мальчике, который кричал "Волки!"😄🐺

Вот и приходится нам всегда жить в поисках той самой золотой середины, чтобы не провалиться в крайности))

#data_analysis #аналитика #статистика

Данялитика

10 Oct, 09:06


Дорогие друзья, всем привет!☀️

За последнее время было много постов про "жизнь": аналитические митапы, рейтинги и прочее.
Пришло время разбавить их старой-доброй аналитикой📊

Сейчас мы со студентами в ЦУ на курсе по "Основам статистики" проходим доверительные интервалы. Но поговорить в этом посте хотелось бы не про них, а про так называемый "алёртинг" (от англ. alert - сигнал, тревога).📡

Смысл алёртинга заключается в том, чтобы прислать нам сообщение (или маякнуть каким-то другим способом) о том, что значение метрики вышло за пределы некоторого "коридора адекватности", т.е. метрика показала слишком большое или, наоборот, слишком маленькое значение с точки зрения отклонения от среднего, привычного нам исторического бенчмарка (от англ. benchmark - эталон, отметка).

Например, рассмотрим конверсию из заказа в поездку в агрегаторе такси, т.е. долю заказов, которые обернулись завершёнными в точке В поездками. 🚕
Эта метрика очень важна для "здоровья" всего маркетплейса, поэтому нам важно быстро узнать и среагировать в ситуации, когда этот процент падает ниже, допустим, 60 процентов.

Доверительные интервалы помогают настроить автоматически эти самые границы, вылет метрики из которых призывает сообщения алёртинга. Грубо говоря, они показывают те значения, которые находятся слишком далеко от выборочного среднего.

Как вы думаете, что хуже: алёртинг, который пропускает истинные провалы метрики, или алёртинг, который бесконечно спамит незначимыми провалами?🤔

Во вложении пример графика. Он показывает конверсию из просмотра поста/рекламы в реакцию на этот самый пост (т.е. процент пролайканных постов из просмотренных). Синими точками отмечены те самые "выбросы", о которых система нам маякует.📡
По середине можно проследить тот самый "коридор адекватности" без синих точек.

А вам приходилось когда-то настраивать подобные системы алёртинга? Делитесь в комментариях своими историями👇

#аналитика #data_analysis #статистика

Данялитика

07 Oct, 09:14


Дорогие подписчики, всем привет!

Я тут, это, попал в список «500 экспертов, за которыми следят аналитики», оказывается😀🙈🔥

Исследование провело крупное рекрутинговое агентство NEWHR.
В качестве референса на компанию предоставляю их исследование рынка аналитиков 2023.

Дорогие друзья, хочу поблагодарить вас за то, что продолжаете оставаться со мной на этом канале (вон, я даже в топ-чартах оказываюсь благодаря вам😂)

Теперь ребята хотят актуализировать информацию за 2024 год, им требуется максимально репрезентативная и многочисленная выборка🙂
Что исследуется?
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков
👉 Где и как работают аналитики
👉 Как меняется зона ответственности аналитиков
👉 Как аналитики ищут работу и выбирают работодателя.
👉 Чему учатся аналитики
👉 Каких экспертов котируют

Ссылка на опросник тут

Друзья, прошу вас поучаствовать в этом опросе, чтобы исследования в области дата анализа могли похвастаться богатой выборкой!

#из_жизни #аналитика

Данялитика

01 Oct, 09:03


Всех с началом октября, дорогие подписчики!🍂

Как и обещал, делюсь с вами всеми ивентами/записями ивентов, которые устраивают IT-компании для обсуждения аналитики, продукта и прочих животрепещущих тем.

В этот раз у нас ОзонТех.
Они провели кучу конференций на всевозможные темы 28 и 29 сентября.
К сожалению, к самому ивенту я не поспел, но вот записи они выкладывают в открытый доступ🙂

Записи можно найти по ссылке.

Считаю прослушивание подобных выступлений очень полезным занятием для погружения не только в темы логистики и маркетплейсов, но и аналитики и продакт-менеджмента в целом.

Желаю всем продуктивной недели🔥

#аналитика #data_analysis #менеджмент #machine_learning

Данялитика

30 Sep, 08:41


А вот уже и сентябрь пролетел. Вроде только недавно заканчивалось лето🫠

А я возвращаюсь к вам с новым выпуском HH_surfing, рубрики, в которой мы путешествуем по hh.ru и исследуем различные вакансии, так или иначе связанные с анализом данных.🚗

Сегодня я разобрал три вакансии, которые были мне присланы заранее, а также ещё несколько позиций, связанных и с BI-анализом, и с дата инженерией, и с финансами.💰
Жду от вас обратную связь в комментариях, а также ссылки на вакансии, которые вы хотели бы разобрать в следующий раз🙂
Желаю всем хорошего дня!

#hh_surfing #hh #тестовое #вопрос_ответ #аналитика

Данялитика

25 Sep, 06:59


Доброе утро!

Как и обещал, пересылаю вам ссылку с записью аналитического митапа, организованного онлайн-кинотеатром Окко👁, о котором я рассказывал в своём посте.

Краткое содержание:
1. "Фрод как двигатель прогресса" или как сократить косты на пользовательские регистрации (Онлайн-кинотеатр Иви)
2. "По результатам года пользователи не узнали свои любимые треки" или как корректно определять "любимые треки" (VK Музыка)
3. Онлайн-кинотеатр START о сплит-системе в проведении продуктовых экспериментов
4. Онлайн-кинотеатр KION о тех случаях, когда "подглядывать в будущее в экспериментах можно"
5. Онлайн-кинотеатр Окко об одном из ключевых аналитических подходов в маркетинге - Marketing Mix Modeling

Также прикладываю https://habr.com/ru/companies/okko/articles/ на профиль Окко на Хабр - там вы можете посмотреть статьи, вакансии и многое-многое другое🔥

#из_жизни #ab_test #аналитика

Данялитика

23 Sep, 09:04


Поприветствуем же новую рабочую неделю! 😀🫠😫

Хочу сказать, что я помню про своё обещание о выкладывании видео с hh-сёрфингом каждые пару недель, и в ближайшие пару дней я обязательно такое видео выложу💪

Сегодня же давайте сделаем то, что не делали уже давным-давно, - рассмотрим классический пример на SQL из тестовых заданий (встречал такое минимум дважды, и в банках, и в маркетплейсах).

Даны две таблицы:

1. Таблица покупок purchases:
- id_purchase - уникальный идентификатор покупки
- date_payment - дата покупки
- id_object - уникальный идентификатор товара

2. Таблица ценовых логов price_logs:
- id_object - уникальный идентификатор товара
- price - цена товара
- start_date - цена действует с
- end_date - цена действует по

Задача:
Напишите SQL-скрипт, который рассчитает выручку на каждый день за октябрь 2023 года (разумеется, все покупки учитываются по актуальным на момент покупки ценам).
Если на момент покупки нет актуальной цены, то необходимо взять среднюю цену на этот товар за все его прошлые логи. Если по товару нет прошлых логов, то не учитывать его.
Реализовать задачу необходимо за один запрос, не используя команды типа update или insert.

Очень хорошая задача на понимание скриптов :)
Приглашаю вас писать своё решение в комментариях и обсуждать решения других🔥
А я потом обязательно дам решение, как я его вижу.

#sql #тестовое #hh

Данялитика

20 Sep, 09:51


Всех поздравляю с пятницей😀

Вчера мы с Катей ездили на "митап" (сходку) аналитиков со всех онлайн-кинотеатров☺️
Было пять докладов от представителей Иви, Окко, KION, START (как раз Катин) и VK Музыка.
Был также отличный фуршет, множество напитков и два стенд-ап выступления 🔥🍷

Спикеры просто огнище, мы встретили кучу наших бывших и текущих коллег и произвели настоящий "нетворкинг".

Дорогие друзья, всем рекомендую мониторить подобные события, ведь они в большинстве случаев бесплатные, а пользы море☺️

#из_жизни #ab_test #аналитика

Данялитика

17 Sep, 07:55


Всем привет!

Я вернулся в холодную солнечную Москву из холодной солнечной Франции! ☀️
И настало время пар!🤓

Делюсь с вами фотками из нового учебного кампуса Центрального Университета🔥

#из_жизни #т_банк #цу

Данялитика

13 Sep, 10:23


Дорогие подписчики, всем привет!👋

Сегодня хотелось бы рассмотреть очень популярное у аналитиков и менеджеров слово "прокси" (или, как иногда говорят, "проксЯ")) пост наполовину про лингвистику, наполовину про аналитику)

Сам корень PROXI происходит от латинского слова prōcūrō, которое означает "представлять, администрировать, управлять". ✍️
Да, слово "прокурор" происходит именно отсюда))
Но с течением времени оно приобрело ещё одно значение: "ближний, близость".
Оба значения корня продолжают существовать бок о бок в различных словах.

Этот корень до сих пор активно используется в романских (и не только) языках, например:
- Proche - ближний (франц.)🇫🇷
- Prossimo - следующий (итал.)🇮🇹
- Próximo - следующий (исп.)🇪🇸
- Proximity - близость (англ.)🏴󠁧󠁢󠁥󠁮󠁧󠁿

Мы очень часто встречаемся с этим корнем и в русском языке (не считая прокуратуры).
Например:
- Проксима Центавра называется так, потому что она находится близко (относительно, конечно🙂)
- Прокси-войны называются так, потому что они "представлены" не теми странами, которые напрямую участвуют в войне. Можно сказать, что это "управляемые" конфликты.
- Прокси-сервер - это сервер-посредник между пользователем и ресурсом. То есть вместо самого сервера с пользователем общается прокси-сервер (по аналогии с прокси-войнами).

Но и у аналитиков нашлось своё применение этому корню: "прокси-метрика".

Что же такое прокси-метрика?
Допустим, у нас есть некая ключевая метрика, за которой все следят и от которой напрямую зависит наш финансовый результат или "здоровье" нашего маркет-плейса.

В рамках, например, онлайн-кинотеатра это может быть клиентский лайфтайм, то есть количество платных периодов подписки, которые проживает у нас среднестатистический клиент.
Чем дольше клиент у нас живёт, тем больше денег мы в результате с одного клиента будем получать в нашу казну.

Представим, что в августе 2024 года к нам на сервис пришли N новых пользователей.
Что это за пользователи: холодные или горячие? Сколько они у нас "проживут"? Покажут ли они лайфтайм выше или ниже, чем пользователи, зарегистрировавшиеся в прошлые месяцы-годы?

Определить это, разумеется, с ходу невозможно. Ведь чтобы посчитать лайфтайм по ним, надо, чтобы они все этот самый лайфтайм "прожили". Если средний лайфтайм составляет полгода, то оценить качество когорты августа мы сможем только плюс-минус через полгода.
Ждать не хочется!🫠

Для примерной оценки их будущего лайфтайма мы используем прокси-метрику, то есть метрику, которая сильно связана (коррелирована) с лайфтаймом, но которую мы можем увидеть практически сразу.
Например, в онлайн-кинотеатре такой метрикой является интенсивность смотрения контента в течение первого месяца "жизни":
- Если клиент смотрит активно, то он проживёт дольше.
- Если он не показывает заинтересованности в нашем контенте и не смотрит уже с первого дня, то и вероятность, что он проживёт долго, весьма невысока.

В бизнесе такие показатели на вес золота, ведь именно с помощью них можно принимать оперативные и эффективные решения.
В комментариях напишите, а встречались ли вы с такими прокси-показателями в рамках вашей работы или, может быть, в бытовой жизни?
#аналитика #data_analysis #лингвистика #словарь