Данялитика @gptjob Channel on Telegram

Данялитика

@gptjob


Личный блог Данилы Елистратова. Преподаю в Центральном Университете Т-Банка и в Skypro.
Рассказываю про аналитику, статистику, программирование и математику.

Курс по аналитике со мной: https://go.sky.pro/analytics_danya

Данялитика (Russian)

Добро пожаловать в канал 'Данялитика'! Здесь вы найдете личный блог Данилы Елистратова, преподавателя в Центральном Университете Т-Банка и в Skypro. Данила делится своими знаниями и опытом в области аналитики, статистики, программирования и математики. Если вы хотите углубить свои знания в этих областях или просто узнать что-то новое, то этот канал для вас. Не упустите возможность пройти курс по аналитике вместе с Данилой: https://go.sky.pro/analytics_danya. Присоединяйтесь к нам прямо сейчас и откройте для себя увлекательный мир аналитики и математики вместе с 'Данялитика'!

Данялитика

21 Nov, 07:22


Доброго всем четверга, а мы продолжаем делиться с вами полезными ресурсами🔥

Вскоре состоится крупная конференция от Яндекса под названием PlayButton!🎉
Ссылка: https://playbutton.yandex.ru/

Ребята расскажут:
- О "Спорттехе" и системе live-статистики в спортивных трансляциях ⚽️
- Как справиться с огромным притоком пользователей в онлайн-кинотеатре на примере Кинопоиска 🍿
- Как Кинопоиск помогал Яндекс.Музыке повышать качество звука 🎧

Запись такой же конференции с прошлого года можно найти прямо на стартовой странице.

Всем желаю хорошего продуктивного дня!☺️

Данялитика

19 Nov, 07:11


Доброго дня!☀️

Сегодня хочу поделиться с вами полезной ссылкой: https://hardclient.com/

Это сайт об управлении клиентским опытом, здесь есть куча интересных наблюдений про тот или иной продукт (его плюсы и минусы), а также множество интересных статей про инструменты/подходы/сферы и многое-многое другое.🔥

Это подойдёт как продуктовым (и не только) аналитикам, так и исследователям, менеджерам, тестировщикам, а также просто всем тем, кому интересны подходы к оценке качества того или иного продукта🙂

P.S. Я тут обнаружил, что через три недели этому каналу стукнет ровно год 3️⃣6️⃣5️⃣
Хотели бы вы, чтобы в этот день я провёл стрим с ответом на накопившиеся вопросы?
Пишите, готовы ли подключиться и, возможно, тоже поучаствовать в обсуждении, а также ваши пожелания касательно тем разговора❤️

Данялитика

16 Nov, 09:56


Поздравляю всех с выходными!🕶

Сегодня захотелось сделать небольшой пост с ответом на последний полученный в комментариях вопрос: "назовите все способы как избавиться от дубликатов в SQL".

Давайте обговорим три способа, а я вас попрошу накинуть ещё в комментариях, если придумаете))

Первое, о чём надо сказать, - это определение дубликата.
Дубликат - это, очевидно, строчка таблицы, которая является дублем другой строчки с точки зрения значений в столбцах.
Но в каких именно столбцах? Во всех? Или существует некий набор колонок, который определяет дубликат?

Вариант 1
Оператор distinct. Этот оператор ставится в select-части, после него перечисляются колонки, уникальные комбинации которых мы хотим вывести.

Например,
SELECT distinct id_purchase, id_client, id_item
FROM table


Выведет только уникальные комбинации идентификаторов покупки, клиента и объекта покупки.

Вариант 2
Оператор GROUP BY. Может использоваться абсолютно так же, как и distinct.
Только к нему еще можно дописать агрегации над мерами, так как поля с уникальными комбинациями становятся измерениями группировки.

Например,
SELECT id_purchase, id_client, id_item
FROM table

GROUP BY id_purchase, id_client, id_item

Вариант 3
Оконная функция DENSE_RANK / RANK (аналог ROW_NUMBER), c помощью которой можно расставить ранги строк с точки зрения оконной разбивки по полю или набору полей.

Например,
SELECT table.*
, DENSE_RANK() over (order by id_purchase, id_client, id_item) as rn
FROM table

Тогда мы получим различные значения рангов в столбце rn для строк, которые обладают различными значениями комбинации полей id_purchase, id_client, id_item.

К вам вопрос: как теперь удалить дубликаты поля rn и оставить все колонки?

Данялитика

12 Nov, 11:21


Мы в Т-Банке проводим своё первое большое событие для продактов и аналитиков — конференцию “Продукты 24”. Со смыслом, красиво и бесплатно.

Со смыслом
Мы придумали 2 зала: визионерский и “мясной”. В первом будем рассказывать про продукты и тренды, переворачивающие индустрию. Из продуктового мира и не только. Например, из мира искусства и науки. Во втором — как данные и технологии помогают создавать успешные продукты и укреплять лояльность клиентов.

Красиво
Всё будет проходить в Арме (экс-Мутабор) — это уже красиво! Тема “Продукты 24” не просто так — мы вдохновились атмосферой, навеянной вывесками магазинов у дома, осовременили её и планируем устроить настоящий тематический день… и вечер. Я, конечно, подиджею на афтерпати (считаю это апогеем своей диджейской “карьеры” хах)

Бесплатно,
но места в оффлайне ограничены. К сожалению, даже при большом желании, не сможем вместить всех желающих, поэтому бегите регистрироваться, пока не поздно (спойлер — это ненадолго): https://producty24conf.tbank.ru/

21 ноября, с 11:30
Москва, Арма (экс-Мутабор)

PS: оффлайн места ограничены, но онлайн вместит всех желающих 🫶

Данялитика

12 Nov, 11:21


Всем отличного вторника👻

Форвардю вам сообщение о возможности регистрации на нашу конфу 🙂

Регистрируйтесь, пока не поздно, будет очень полезно!

Данялитика

11 Nov, 10:27


Всех поздравляю с новой рабочей неделей!
До Нового Года остался всего 51 день!😀🫠

А у нас с вами осталось 25 вопросов из файла. Сегодня продолжим и разберём вопросы 26-34.
3️⃣4️⃣

26. Что такое предобработка данных и как ее делать?

Вопрос очень широкий, но чаще всего с "предобработкой" ассоциируется аббревиатура ETL, т.е. Extract-Transform-Load, буквально Извлечение-Трансформация-Загрузка.
Данные необходимо достать из источника, привести к нужному виду, очистить от нуллов/пустот/выбросов/дубликатов и прочего "мусора", затем обработать строчные и временные данные (с точки зрения хотя бы формата), сохранить результат в нужной форме и этот результат в конце концов загрузить туда, где его увидит заказчик.

27. Какие вы знаете функции управления таблицами? (Очистка, создание, удаление и т. д.)

Допустим, что разговор идёт про SQL, а не про Excel/Python.
В SQL есть набор функций, которые не просто "селектят" из таблицы, а могут эти самые таблицы трансформировать.
- CREATE - операция создания таблицы с обозначением колонок и типов данных в них
- INSERT - вставка строк в существующую таблицу
- UPDATE - изменение значений в существующих строках
- DELETE - удаление строк по условию
- TRUNCATE - удаление всех строк таблицы без удаления самой таблицы
- DROP - удаление таблицы
Все эти операции очень просты с точки зрения синтаксиса.

Самой необычной, уникальной и полезной является операция MERGE, которая является объединением UPDATE и JOIN (т.е. апдейтим значения не просто по условиям, а по совпадению ключей).

28. Если мы стимулируем людей покупать более дешевые товары, чем нам это грозит?

Любая стратегия "грозит" всегда просадкой финального результата, то есть финансов😀
С одной стороны, удешевление среднего товара приведёт к увеличению количества покупок (при прочих равных). Но в то же самое время каждая из этих возросших покупок будет дешевле.
Наш финансовый результат можно описать как следующую мультипликативную модель
TR = P*Q
- TR (Total Revenue) - выручка
- P (Price) - цена
- Q (Quantity) - количество.
В данном кейсе будем говорить только про выручку и не будем касаться костов/издержек или прибыли.
С помощью скидок/удешевлений мы растим Q, но можем обрушить P настолько сильно, что TR станет меньше чем был раньше. Чтобы в явном виде аллоцировать (распределить) эффект, можем воспользоваться факторным анализом.

29. Какие профессиональные компетенции вы больше всего хотите в себе прокачать?

Этот вопрос, как вы понимаете, скорее софтовый и весьма индивидуальный)
Я всегда говорил, что мне интересно кодить на python, а также максимально использовать математику, которую я годами учил в универе🙂

30. Как вы решили стать аналитиком и чего ожидаете от работы у нас?

Опять софтовый вопрос :)
В качестве основных направлений анализа можете озвучить:
- Продуктового аналитика (статистика, много python и активное участие в процессах A/B тестирования).
- BI-аналитика (дашборды, ТЗ, запросы, BI-инструменты).
- Начинающего DE / Data Engineer (проекты в хранилище, ТЗ на создание витрин/таблиц, оптимизация запросов и расчётов).
- Начинающего DS / Data Scientist (построение моделей машинного обучения, интерпретация их результатов и создание инфраструктуры для них).

31. Чем отличается JOIN от UNION?

Этот вопрос у нас уже встречался. Напоминаю вам, что бывает "горизонтальное соединение таблиц", а бывает "вертикальное соединение таблиц" 🤓

32. Что такое абсолютные и относительные ссылки в ячейках Excel?

Абсолютная ссылка (aka задолларивание ячейки) - это фиксация положения ячейки, чтобы оно не менялось при протягивании ячейки, как это бывает в классических формулах. "Долларить" можно как только строку или только столбец, так и ячейку полностью.

Объединим 33 и 34 вопросы.
Что такое функция VLOOKUP? И бывает ли функция горизонтального поиска по аналогии с VLOOKUP?


VLOOKUP (Vertical Look Up, т.е. Вертикальный Поиск) - это ВПР.
ГПР, в свою очередь, будет в английской версии HLOOKUP (Horizontal Look Up).

Друзья, если бы вы хотели накинуть дополнительных вопросов к этому списку, то велком в комментарии!🔥

Всем хорошего дня!☀️

Данялитика

07 Nov, 10:09


А мы с вами продолжаем концерт по заявкам разбор файла "50 вопросов аналитику"! 5️⃣0️⃣

Сегодня пройдёмся по вопросам 18-25.

18. Функции какого рода использовали в Excel?

Основными, наверное, можно считать функции агрегации: СУММ, СРЗНАЧ, СУММЕСЛИ, СРЗНАЧЕСЛИ, СУММ(СРЗНАЧ)ЕСЛИМН (и всё то же самое с функцией СЧЁТ).
Также ВПР и ГПР (которые можно эффективно заменить функциями ПОИСКПОЗ и ИНДЕКС в Google Sheets).
В GS можно отдельно обозначить функции IMPORTRANGE и QUERY, с помощью которых можно ворочать данные из разных листов и файлов.
А вообще их превеликое множество)

19. Какие агрегатные функции вы использовали?

Без привязки к языку или программе основными функциями агрегации можем назвать количество, сумма, среднее, максимум. минимум, количество уникальных элементов, медиана, мода, дисперсия, стандартное отклонение
Функции из Excel мы перечислили в прошлом пункте)

20. Как можно соединять таблицы? Через какие операторы?

Формулировка вопроса немного странная, но давайте вспомним, что соединение таблиц бывает:
- горизонтальным (ВПР в Excel, JOIN в SQL, merge в Python)
- вертикальным (UNION в SQL, concat в Python)

21. Как еще можно объединять таблицы, кроме Join?

Считаю, что про горизонтальное соединение мы сказали достаточно, но можно напомнить, что существует также горизонтальное соединение не по ключу, т.е. аналог UNION, но "приклеиваем" таблицу В не снизу от таблицы А, а справа.
В Python для этого есть специальная функция в библиотеке numpy: hstack. Вертикальным аналогом (копия логики UNION) является функция vstack.

22. Что, на ваш взгляд, делают аналитики в компании?

Вопрос очень широкий, конечно, так что ответим кратко:
работу аналитика можно условно разделить на два типа задач:
- Разовые запросы (ad hoc, исследования)
- Автоматизация (создание отчётности, внешней и внутренней)
От аналитиков требуется настройка инфраструктуры отчётов, расчёт и вывод цифр, интерпретация результатов, дальнейшие рекомендации и т.д. и т.п.

23. Что значит «второй тип нормализации баз данных»?

Второй тип нормализации БД (2NF) - это следующее требование к базе данных:
- БД должна находиться в первой нормальной форме (1NF)
- Каждый неключевой атрибут полностью зависит от ключа таблицы.

Пример для второго пункта:
Клиент с id=112 совершил покупку в городе с id=12. В третьей колонке таблицы также содержится информация, что эта покупка была совершена в Новосибирске. Третья колонка нарушает вторую форму нормальности, так как "Новосибирск" - это расшифровка id=12, т.е. неключевой признак (название города) зависит от другого признака (id города), а не от ключа таблицы (id клиента)

24. Каким аналитиком вы хотите быть?

Когда я начинал работать аналитиком, такой профессии в явном виде ещё не существовало, и мы назывались специалистами, методологами, экспертами - кем угодно, но не аналитиками😂
Ближе всего по духу мне продуктовая аналитика, больше всего опыта у меня с финансовой аналитикой, а дальше всенго от меня BI-аналитика) как-то так.

25. Как поменяется результат работы запроса, если мы поменяем inner join на full join?

Количество строк в результирующей таблице увеличится (или в крайнем случае останется таким же), так как теперь останутся все строки таблиц А и В, для которых не нашлось пары по ключу в противоположной таблице.

Давайте поздравим себя с достижением экватора!😋🌐

#аналитика #тестовое #hh

Данялитика

05 Nov, 15:20


Добрый вечер! 🌛
Все оклемались после 6-дневной недели?🙈

Хочу всем сказать спасибо за активное участие в голосовании за интересные темы!
Обязательно прислушаюсь к вашему решению, ведь три темы-победителя - это:
1. Разбор тестовых заданий с рынка на позицию аналитика данных.
2. Разговоры о бизнесе и метриках из различных сфер.
3. Жизовые истории аналитика данных.

Если есть темы, которые вы бы хотели обсудить, но которых не было среди вариантов для голосования, пишите в комментариях к этому посту!

В следующем посте обещаю вам разбор тестового

А в этот раз хочу задать вам вопрос с банковских собеседований:

У вас есть график, сравнивающий две стратегии (картинка во вложении)
Какую стратегию вам лучше выбрать, при условии что по оси Y откладывается накопленная метрика прибыльности?
Данной метрикой может быть, например, накопленный процент возврата кредитных средств к месяцу Х.
Знаете ли вы о каких-либо терминах, использование и применение которых поможет вам ответить на этот вопрос?


#аналитика #тестовое

Данялитика

30 Oct, 10:07


Всем привет! 👋

Как и заведено по нашей старой-доброй традиции, выкладываю очередную сессию сёрфинга по hh.ru 🏄

И, как обычно, если хотите разобрать конкретные вакансии или получить ответ на конкретный вопрос, пишите в комментариях🙂
#hh_surfing #hh #тестовое #вопрос_ответ #аналитика

Данялитика

28 Oct, 07:55


Дорогие друзья, время очередной рабочей недели и время продолжить отвечать на вопросы из файла ☺️

В прошлом посте мы прошлись по первым 10 вопросам (ссылка на 1 часть)
Сегодня возьму вопросы с 11 по 17 включительно.

Поехали!🙂

11. Что будет, если в одной из таблиц есть дубликаты? Например, вы делаете left join - и в правой таблице есть дубликаты. Что будет?

При джойне строки могут замножаться. Например: в левой таблице есть id=112 один раз, а в правой этот жа айди встречается 10 раз. В результирующей таблице (после джойна) будет 10 строк с id=112 (что и отличается join от того же ВПР в Excel).
Но если мы хотим, чтобы замножения не происходило, а подтянулся бы просто любой из мэтчей, то для этого есть специальное выражение any join (в более новых языках).

12. Какие способы упрощения запросов вы знаете?

В данном вопросе про "упрощением" имеем в виду с точки зрения визуального восприятия
Во-первых, это конечно же индентация (indent = красная строка) и комментарии. Например, в селекте следует разносить столбцы на разные строки, а в where писать каждое условие на своей строке.
Во-вторых, следует давать элиасы (alias - название/имя) новым столбцам и таблицам, чтобы аутпут (output - вывод) был читаемым.
Во-третьих, в некоторых ситуациях следует выносить подзапросы во внешние структуры - СТЕ. Например, если один и тот же подзапрос встречается несколько раз.
(ну и много-много других лайфхаков🙂)

13. Что такое маржинальность?

Грубо говоря, это прибыльность.
Маржинальность - это доля маржи (т.е. простыми словами прибыли) в выручке.
Например, мы получили 1000 рублей выручки и потратили на это 800 рублей. Тогда маржинальность составит 20%.

14. Про порядок выполнения запроса со стороны базы данных — в каком порядке это происходит?

В простейшем запросе последовательность следующая:
- Сначала часть FROM (включая все джойны внутри)
- Затем WHERE (т.е. фильтрация строк по условиям)
- Затем GROUP BY (т.е. агрегация данных по измерениям)
- Затем HAVING (т.е. фильтрация по агрегированным мерам)
- В конце часть SELECT (т.е. выбор нужных колонок) и ORDER BY (т.е. ранжировка таблицы по признаку или признакам).

15. Как вычисляется среднее геометрическое? Когда оно применяется? Какие ограничения оно имеет?

Среднее геометрическое из n элементов - это корень степени n из произведения этих n элементов.
У данной оценки есть следующие ограничения:
- Нельзя применять к набору, в котором есть хотя бы один ноль.
- Нельзя применять к набору, допускающему отрицательные числа (например, коэффициент прироста).
- Нельзя применять к слишком большим числам в связи с вычислительной затратностью.

Применять его можно в случае выполнения всех этих условий. Самый лучший вариант - ряд чисел со значениями от 0 до 1 и гарантированно без 0.

16. Чем отличается среднее от медианы?

Среднее (чаще всего, в значении арифметическое) - это сумма элементов, делённая на их количество.
Медиана - это такое значение выборки, что меньше него половина выборки и больше него половина выборки.
Они могут значительно отличаться отличаться друг от друга в случае наличия выбросов в выборке, т.е. слишком больших или слишком маленьких значений. Подобные значения сильно влияют на среднее, но слабо влияют на медиану.

17. Как часто находите у себя ошибки в процессе работы в аналитике?

Ох, частенько😂
Смотря что считать ошибкой - неверное заполнение таблиц, ошибки в дашбордах, неучитывание отдельных сегментов и логик при проведении ad hoc исследований. Всё это - неизбежная реальность работы аналитиком.
Вопрос только в том, насколько быстро и гибко вы реагируете на обнаружение и исправление подобных ошибок.

#аналитика #тестовое #hh

Данялитика

26 Oct, 08:25


Поздравляю всех с выходными!😉

Ловите мемчик про незаслуженно униженную статистику))

Кстати сейчас как раз будет семинар по статистике в магистратуре, будем говорить про тестирование гипотез и p-value🙂

А чем по выходным занимаетесь обычно вы?
Как вы относитесь к учёбе и работе в выходные?
Для вас это табу или еженедельная реальность?

Поделитесь своим ритмом жизни в комментариях!
#из_жизни #meme #аналитика

Данялитика

24 Oct, 09:43


Всем привет!🤝

Давненько мы не пополняли словарь англицизмов.
Давайте сегодня поговорим про несколько метрик-аббревиатур, которые очень легко перепутать и которые привнесут полезные английские слова в вокабуляр (от англ.vocabulary - словарь) аналитика.

1. CR (conversion rate) - конверсия.
Мы неоднократно упоминали это слово - оно обозначает процент пользователей (или других единиц наблюдения), которые совершили целевое действие. Например:
- Конверсия в подписку - это доля пользователей, которые подписались среди всех тех, кто зашёл на ресурс.
- Конверсия в завершённую поездку (O2R, order-to-ride) - доля заказов, которые успешно завершились в точке В.
и многие-многие другие. Конверсии - это основа как продуктовой, так и маркетинговой аналитики.

2. CTR (Click-through-Rate) - конверсия из показа в клик.
Например, реклама была показана 1000 пользователям, и всего 10 кликнули на неё и перешли на сайт рекламодателя.
Тогда CTR=0.1% ил CTR=0.001.
Эта метрика - одна из ключевых в маркетинге.
Ссылка с описанием CTR

3. CPR (Cost per Result) - стоимость клиентского действия.
Рассчитываться может по-разному, так как клиентские действия бывают разными. Например, CPR based on clicks будет рассчитываться как отношение затраченных ресурсов на рекламу и размещение к количеству произведённых целевых действий, т.е. кликов на форму регистрации или форму оплаты.
Ссылка с описанием CPR

4. ACR (App Conversion Rate) - конверсия из скачивания приложения в совершение целевого действия (чаще всего оплаты).
Ссылка с описанием ACR
Также, что забавно, ACR используется для обозначения специфической метрики из мира колл-центров и саппорт десков - Abandoned Call Rate, т.е. конверсии из начала звонка в его прерывание, или доли прерванных звонков.

Слова на сегодня:
Conversion, Rate, Click, Cost, App

С сегодняшнего дня я возрождаю пост со словарём аналитика (в закрепе канала) и добавляю туда сегодняшние слова.

Всем хорошего четверга!🌻
#словарь #лингвистика #аналитика #data_analysis

Данялитика

21 Oct, 08:35


Друзья, в комментариях меня попросили поразбирать документ с 50 вопросами аналитику данных)
5️⃣0️⃣
Предлагаю сегодня в качестве эксперимента пробежаться по первой десятке. 1️⃣0️⃣
Я буду давать короткие ответы, так что, вполне возможно, что на собеседовании вам нужно будет подольше развивать эти мысли🙃

1. У вас есть дашборд с графиками, на котором выводятся все средние метрики. Однажды вы просыпаетесь —
прибегает менеджер и говорит, что всё упало. Ваши действия, как вы будете эту проблему отслеживать?

Во-первых, убедимся, что не сломались сами данные: проверяем таблицы и обновляемость данных в них. Затем убеждаемся, что не сломался сам дашборд (логика расчёта, обновление по расписанию и тд). Если всё ок - присутпаем к исследованию причин реалнього падения метрики.

2. Что такое CAC и CPA и в чём разница между ними?
САС (Customer Acquisition Cost) - это издержки на привлечение одного (любого) клиента.
CPA (Cost per Action) - это стоимость одного клиентского действия, и этим действием вовсе не обязано быть "привлечение". СРА может рассчитываться относительно любого продуктового или финансового действия.

3. Расскажите, какие оконные функции вы знаете и как с ними работать?
- Ранжировочные оконные функции (row-number, rank, dense_rank) используются для проставления ранга в рамках определенной ранжировки.
- LAG/LEAD используются для перехода к прошглому или будущему значению в рамках ранжировки
- Группировочные функции в роли оконных используются для группировки таблицы без изменения её структуры.

4. Чем отличается left join от inner join?
При inner join в результирующей таблице остаются только ключи, которые присутствуют в обеих таблицах. В left join останутся все ключи из левой таблицы.

5. Почему вы выбрали именно аналитику?
Отвечу мемом во вложении😄

6. Смотрите: из того, что вы там делали, работа с Excel-таблицами — насколько хорошо вы знакомы? И умеете ими пользоваться?
Особый акцент хотелось бы сделать на автоматизации: настройка процессов ETL и другие процессы по автоматической очистке и подготовке данных для анализа и визуализации. Конечно же, построение сводных таблиц и графиков для ad hoc запросов.

7. Можете рассказать, какие виды ретеншена бывают? Что это такое? Для чего это нужно?
Retention - это показатель клиентского удержания, который чаще всего употребляется совместно с понятием "когорта".
- Абсолютный Retention Х - какое количество человек из когорты "дожили" до периода Х
- Относительный базовый Retention Х - какая доля от когорты "дожила" до периода Х
- Относительный цепной Retention Х - какая доля от доживших до прошлого этапа "дожила" до периода Х

8. Что такое ClickHouse?
Столбцовая система управления базами данных.
Обладает своим диалектом, который по некоторым нюансам отличается от более "классических диалектов", таких как MySQL или Oracle. В частности, допускает работу с массивами и имеет множество собственных функций, в первую очередь, для обработки массивов.

9. 10 станков производят слитки весом 10 кг. Один станок бракованный и производит слитки весом 9 кг. Есть весы с одной чашей. Нужно за одно взвешивание этих слитков (количество у вас неограниченное) определить, какой станок производит бракованные слитки. Какой из этих десяти станков?
Нам потребуется определить "меру ошибки": берём 10 деталей с 10 станка, 9 деталей с 9 станка и т.д. Рассчитываем насколько наши 55 деталей отличаются по весу от того, как должно было быть, и по масштабу ошибки определяем "виновный" станок.

10. Что вы знаете о джоинах (Join): чем отличаются, какие знаете?
- inner - "пересечение". т.е. остаются только ключи, которые были и в А и в В
- left - "левое пересечение". т.е. остаются только ключи, которые были в А
- right - "правое пересечение". т.е. остаются только ключи, которые были в В
- full - "объединение". т.е. остаются все ключи
- cross - Декартово произведение двух таблиц

#аналитика #тестовое #hh

Данялитика

17 Oct, 09:42


Добрый день, дорогие подписчики!☀️

Хочу с вами поделиться полезным ресурсом: https://getmatch.ru/🔥

Он предоставляет:
1. Кучу вакансий, организованных на подобии hh.ru
2. Аналитику по зарплатам на рынке IT (вот, например, интерактивный график, на котором можно посмотреть распределение зарплат для выбранной профессии)
3. Телеграм-канал со всякими полезностями касательно собеседований и вакансий
4. Телеграм-бота, который будет присылать вам релевантные вакансии и который можно настроить с основной страницы ресурса.

Надеюсь, гетматч будет вам полезен☺️

Также возникла идея в ближайшие недели провести стрим, онлайн-встречу в ТГ, на которой я могу поотвечать на вопросы, посёрфить hh.ru, ну или пишите, о чём было бы интересно поговорить🙂
Хочу понять востребованность такого рода мероприятий, без вашего фидбека никак))

Всем хорошего дня!

#аналитика #резюме

Данялитика

14 Oct, 13:30


Всех с понедельником!
А москвичей ещё и с крайне снежным понедельником❄️

Продолжаем говорить про алёртинг.⚠️
И в связи с этим важным аналитическим понятием предлагаю рассмотреть основополагающий термин из математической статистики: ошибка первого 1️⃣ и второго 2️⃣ рода.

Их очень часто путают, и без них никак не получится подтвердить или опровергнуть эффективность тестовой механики в рамках АБ теста, будь то маркетплейс или финансовое учреждение.

Допустим, есть некоторая гипотеза. Назовём её латинской буквой H [аш]. Она заключается, например, в том что "небо - голубое". Этой гипотезой может быть любое высказывание/утверждение, но чаще всего на практике это высказывание касается данных: например, "средний чек увеличился", или "конверсия из заказа в поездку не стала хуже".

Мы совершаем ошибку первого рода, если мы отвергаем гипотезу H, которая на самом деле верна.
Мы совершаем ошибку второго рода, если мы принимаем гипотезу H, которая на самом деле не верна.

Как говорил давным-давно наш преподаватель по эконометрике из ВШЭ Мамонтов:
"С точки зрения христианина, Иисус - это ошибка первого рода".

Что же это значит?

Если вы христианин, то гипотеза "Иисус - Бог" для вас верна. (ну или "богочеловек", не будем уходить в теософию).
Соответственно, что сделали люди в нулевых годах? Совершили ошибку первого рода, так как решили что он не Бог, то есть отвергли истинную гипотезу.

В качестве обратного примера ошибки второго рода можно было бы привести в пример какого-нибудь пророка-самозванца, которого ошибочно посчитали Богом, хотя на самом деле гипотеза "он Бог" не является истинной.

А теперь от религии к алёртингу😀
Обозначим гипотезу: "Данное значение является выбросом, и о нём нам должен сообщить алёртинг".
- Ошибка первого рода 1️⃣ - мы пропустили важный выброс, система нам о нём не сообщила, так как посчитала, что выбросом он не является.
- Ошибка второго рода 2️⃣ - система постоянно нам маякует о якобы выбросах, которые являются вполне рядовыми значениями, и мы не хотели бы получать алёртинг об этих значениях.

Много ошибок первого рода - мы пропустили все критические точки и не среагировали.
Много ошибок второго рода - начинается сказка о мальчике, который кричал "Волки!"😄🐺

Вот и приходится нам всегда жить в поисках той самой золотой середины, чтобы не провалиться в крайности))

#data_analysis #аналитика #статистика

Данялитика

10 Oct, 09:06


Дорогие друзья, всем привет!☀️

За последнее время было много постов про "жизнь": аналитические митапы, рейтинги и прочее.
Пришло время разбавить их старой-доброй аналитикой📊

Сейчас мы со студентами в ЦУ на курсе по "Основам статистики" проходим доверительные интервалы. Но поговорить в этом посте хотелось бы не про них, а про так называемый "алёртинг" (от англ. alert - сигнал, тревога).📡

Смысл алёртинга заключается в том, чтобы прислать нам сообщение (или маякнуть каким-то другим способом) о том, что значение метрики вышло за пределы некоторого "коридора адекватности", т.е. метрика показала слишком большое или, наоборот, слишком маленькое значение с точки зрения отклонения от среднего, привычного нам исторического бенчмарка (от англ. benchmark - эталон, отметка).

Например, рассмотрим конверсию из заказа в поездку в агрегаторе такси, т.е. долю заказов, которые обернулись завершёнными в точке В поездками. 🚕
Эта метрика очень важна для "здоровья" всего маркетплейса, поэтому нам важно быстро узнать и среагировать в ситуации, когда этот процент падает ниже, допустим, 60 процентов.

Доверительные интервалы помогают настроить автоматически эти самые границы, вылет метрики из которых призывает сообщения алёртинга. Грубо говоря, они показывают те значения, которые находятся слишком далеко от выборочного среднего.

Как вы думаете, что хуже: алёртинг, который пропускает истинные провалы метрики, или алёртинг, который бесконечно спамит незначимыми провалами?🤔

Во вложении пример графика. Он показывает конверсию из просмотра поста/рекламы в реакцию на этот самый пост (т.е. процент пролайканных постов из просмотренных). Синими точками отмечены те самые "выбросы", о которых система нам маякует.📡
По середине можно проследить тот самый "коридор адекватности" без синих точек.

А вам приходилось когда-то настраивать подобные системы алёртинга? Делитесь в комментариях своими историями👇

#аналитика #data_analysis #статистика

Данялитика

07 Oct, 09:14


Дорогие подписчики, всем привет!

Я тут, это, попал в список «500 экспертов, за которыми следят аналитики», оказывается😀🙈🔥

Исследование провело крупное рекрутинговое агентство NEWHR.
В качестве референса на компанию предоставляю их исследование рынка аналитиков 2023.

Дорогие друзья, хочу поблагодарить вас за то, что продолжаете оставаться со мной на этом канале (вон, я даже в топ-чартах оказываюсь благодаря вам😂)

Теперь ребята хотят актуализировать информацию за 2024 год, им требуется максимально репрезентативная и многочисленная выборка🙂
Что исследуется?
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков
👉 Где и как работают аналитики
👉 Как меняется зона ответственности аналитиков
👉 Как аналитики ищут работу и выбирают работодателя.
👉 Чему учатся аналитики
👉 Каких экспертов котируют

Ссылка на опросник тут

Друзья, прошу вас поучаствовать в этом опросе, чтобы исследования в области дата анализа могли похвастаться богатой выборкой!

#из_жизни #аналитика

3,990

subscribers

104

photos

11

videos