来自 Мир аналитика данных (@analysts_world) 的最新 Telegram 贴文

Мир аналитика данных Telegram 帖子

Мир аналитика данных
Пишу о рабочих буднях и о том как я сменила профессию.
Можно отблагодарить данатами за контент boosty.to/analysts_world

Автор канала: @Valeria_Shuvaeva
4,383 订阅者
83 张照片
2 个视频
最后更新于 12.03.2025 01:32

Мир аналитика данных 在 Telegram 上分享的最新内容

Мир аналитика данных

28 Dec, 11:40

2,916

🤪 Друзья, проведем анализ по результатам 2024.

Че там по метрикам в сравнении с 2023?

Подписчики: было 1762, стало 3753 — +113% (больше чем в 2 раза!)
Публикации: было 56, стало 94 — прирост +68%
Комментарии: с 461 до 492 — +7%
Пересылки: 730 → 964 — +32%
Реакции: 1.2K → 1.5K — +25%
Просмотры: 90.5K → 186.1K — +106%
Вывод: Канал вырос по сравнению с прошлым годом. 📈📊

🔥 Спасибо всем, кто комментирует, пересылает посты друзьям, кликает «нравится» и просто заглядывает на огонёк. Без вас такие результаты были бы невозможны! ❤️

Я подготовила список самых интересных публикаций за 2024 год:

🐍 Python и Pandas

✔️ Делим на группы: np.where() и loc против pd.cut (биннинг данных).

✔️Опять биннинг: как «нарезать» интервалы по 10 тыс. с помощью pd.cut и pd.interval_range.

✔️ Пример использования case в SQL, но и о питоне чуть — однако полезно заглянуть, как это в коде (часть публикации про Python-практику).

✔️ Как строить сводные таблицы методом pivot_table, заполнять пропуски и работать с fillna.

✔️ Шифрование телефонных номеров при помощи hashlib и встроенной hash()

✔️ Объединяем датафреймы так, чтобы сохранить порядок строк (пример с merge и сортировкой по изначальному индексу).

✔️Примеры кода: как сгруппировать данные и вывести их по аккаунтам (разбор рабочих задач).

✔️ Ищем idxmax внутри группировки, чтобы оставить строку с максимальным значением.

✔️ Сортировка и фильтрация: когда лучше использовать .iloc вместо .loc после группировок/срезов.

✔️ Анализ данных с регулярными выражениями в Python пример с re.findall

✔️«Хитрые задачки с работы» о том, как парсить и фильтровать ставки (процентные) без циклов в Python, используя регулярки, extractall и группировки: https://t.me/analysts_world/151 и https://t.me/analysts_world/154.

✔️ Проверка существования датафрейма в Python (через locals() или try-except).

✔️ Как считать сумму покупок по порядку (1-я, 2-я, 3-я) без оконных функций: groupby().cumcount() и т.д.

✔️ Пример с обёрткой SQL-запроса в Python-функцию (pandas + pandasql), чтобы гибко менять периоды выгрузки.

💾 SQL и базы данных
✔️ CASE в SQL, пример расчёта сумм с разными валютами (RUB/RUR).

✔️ Извлечение доменов почт клиентов (SUBSTRING_INDEX)

✔️Тестовое задание по SQL: две таблицы (отделы и персонал), примеры группировки и сравнения зарплаты сотрудника с зарплатой начальника.

✔️LEFT JOIN с условием в ON или в WHERE: объяснение, почему результаты могут отличаться.

✔️Хитрый приём для IN в SQL, если у вас в списке одно значение (добавляем фиктивный).

✔️Пример с обёрткой SQL-запроса в Python-функцию (pandas + pandasql), чтобы гибко менять периоды выгрузки.

🤔💭 Полезные мысли и карьера

Как влиться в IT, если вы только начинаете; страхи, женские квоты. Статья с Хабра.

Какой курс/обучение стоит выбрать, если планируете «войти» в IT. Советы по Excel, SQL и обретению опыта.

Прокрастинация и личный баланс: про фитнес-клуб и необходимость отдыха.

Баланс, фитнес, и почему нам нужно отдыхать.

«Красные маркеры» у работодателей и «красные флаги» у соискателей (пост о возрастных ограничениях и т.п.).

И хоть сегодня последний рабочий день, и, признаемся, учиться уже вряд ли хочется, всё же сохраните этот список — он пригодится, когда захочется прокачать скиллы после праздников. 🥳🎁😀🔔
Мир аналитика данных

23 Dec, 09:01

2,309

Разбираем тестовое задание на позицию Junior Аналитика в Яндекс

Чтобы найти работу, мало пройти курс и сделать классное резюме. На практике, чтобы выделиться на собеседовании, нужно понимать, что лежит под капотом каждого инструмента, а не следовать конкретному заученному алгоритму.

Чтобы попрактиковаться в этом, приходите на бесплатный вебинар, где будем разбирать реальное тестовое задание, которое дают аналитикам в подразделении Яндекс Картинки.

Что будет на вебинаре:
🟠С помощью Pandas проанализируем Яндекс-запросы за несколько недель, загрузив их из json-файла
🟠Найдём закономерности и отличия использования сервиса на мобильных устройствах и компьютерах
🟠Разберём фишки Pandas: сложную агрегацию, маппинг, конкатенацию, чейнинг и др.

Вебинар проведет Андрон Алексанян, CEO Simulative
🕗Встречаемся 24 декабря в 19:00

🎁Обязательно приходите смотреть вебинар в прямом эфире - в лайве будут дарить подарки, которые сильно бустанут старт карьеры в аналитике!

Зарегистрироваться на бесплатный вебинар
Мир аналитика данных

21 Dec, 17:53

2,187

🔥 200+ экспертов и каналов, за которыми следят аналитики

Делимся первыми инсайтами из исследования аналитиков, которое команда NEWHR провела в 2024 году. Это рейтинги и списки экспертов отрасли и каналов.

Выборка в исследовании получилась солидная — 1293 человека.

Вот кого опрошенные нами аналитики чаще всего отмечали в списке экспертов:
1. Анатолий Карпов
2. Валерий Бабушкин
3. Роман Бунин

А рейтинге каналов самыми известными оказались:
1. karpov.courses
2. Reveal the Data
3. настенька и графики

🔗 Изучить полные рейтинги и списки экспертов из исследования можно по ссылке.

💙 Мы благодарим наших информационных партнёров, которые помогли нам собрать такую внушительную выборку!

🎄 Команда NEWHR продолжает обрабатывать полные результаты исследования аналитиков: это данные о зарплатах, местах работы, желанных работодателях и многое другое. Мы опубликуем их в 2025 году. Следите за обновлениями!
Мир аналитика данных

17 Dec, 10:54

2,438

Гипотезы под контролем: Effort/Impact Framework

Опять гипотеза провалилась? Это нормально: 9 из 10 гипотез не выживают.

Почему?
Высокие затраты. Каждая гипотеза требует времени, денег и усилий команды. Даже «дешёвый» тест обходится дорого.
Слабый эффект. Метрики чуть поднимаются, но реального влияния на бизнес нет.
Ошибки в анализе. Иногда успешный тест интерпретируют неверно: масштабируют неработающую гипотезу или отказываются от перспективной.

Effort/Impact Framework помогает сократить риски ещё на этапе планирования. Два параметра:
Effort (усилия): сколько ресурсов требует тест?
Impact (эффект): насколько гипотеза изменит ключевые показатели?

Идея проста: тестируйте гипотезы с минимальными усилиями и максимальным эффектом.
Например:
— Effort = 1, Impact = 5 — приоритет.
— Effort = 5, Impact = 1 — в архив.

С этим инструментом вы сможете структурировать процесс, сократить ненужные траты и сосредоточиться на реальных результатах.

Хотите научиться эффективно тестировать гипотезы и строить стратегии? В Changellenge >> Education учат превращать идеи в решения! 🚀

В декабре в школе проходит новогодняя ярмарка! При покупке курса по предзаписи в декабре вы сразу получите доступ ко всем курсам, учебник по решению кейсов, поучаствуйте в приветственной встрече 25 декабря, где начнете знакомиться друг с другом и с аналитикой до нового года!🎁
Станьте востребованным аналитиком в 2025 году – забронируйте место на курсе “Аналитик PRO” со скидкой 40 000 рублей по промокоду ПРОФЕССИЯ и получите в подарок индивидуальный план развития: https://u.to/FSESIQ

Реклама. ООО «Высшая школа аналитики и стратегии». ИНН 7716917009. erid: 2VtzqwThFAZ
Мир аналитика данных

16 Dec, 17:06

2,301

⚡️ Удобство функций в аналитике данных: пример на практике

Я не так часто работаю с функциями, но иногда это действительно помогает оптимизировать работу. Бывает, что они - настоящее спасение. ☝️

🎯 Давайте рассмотрим ситуацию: вам нужно извлекать данные за определенные периоды времени. Вместо того чтобы писать SQL-запрос каждый раз заново, можно обернуть сам запрос в функцию.

🛠 С функцией легко менять диапазон дат, просто передав другой список в параметрах.
Используем библиотеку pandasql, которая позволяет выполнять SQL-запросы по DataFrame, как будто это таблица из базы данных.
import pandas as pd
from pandasql import sqldf

# Создаем небольшой DataFrame
data = {
'id': [1, 2, 3, 4, 5],
'created_at': ['2024-12-01', '2024-12-05', '2024-12-07', '2024-12-09', '2024-12-15'],
'user_id': [182, 256, 550, 306, 457]
}
df = pd.DataFrame(data)

# Преобразуем столбец created_at в datetime
df['created_at'] = pd.to_datetime(df['created_at'])

Теперь напишем саму функцию (пусть называется get_sql) для выборки данных через SQL:
def get_sql(df, dates):
query = f"""
SELECT *
FROM df
WHERE created_at >= '{dates[0]}' -- первая дата
AND created_at < '{dates[1]}' -- вторая дата
"""
return sqldf(query, locals())


🔍И теперь можно обращаться к ней столько раз, сколько нужно
dates1 = ['2024-12-01', '2024-12-10'] 
df_part1 = get_sql(df, dates1)

После выполнения этого кода вы получите таблицу с отфильтрованными данными (первые 4 строки).

Конкретный пример использования, чтобы сразу запомнилось, а не что-то абстрактное. 😂

Когда нужно выгрузить данные по рассылкам писем, обычно работаешь с очень большими базами. За один раз данные за месяц не получить — слишком объемно. Но можно разбить процесс на небольшие интервалы, например, выгружать данные по несколько дней.

🍕 Написал такой скрипт один раз, и потом спокойно запускаешь его 15 раз, собирая потом части в единое целое! 🚀
Мир аналитика данных

02 Dec, 10:16

440

Как аналитики создают крутые решения?

🔥Узнайте об этом на онлайн-митапе от Авито!

5 декабря в 18:00 спикеры из Авито и Т-Банка расскажут про:

➡️ особенности внедрения RFM-сегментации клиентов
➡️ эффективное управление при запуске Discovery-процессов
➡️ использование ML Autotasking для автоматизации задач

Подробности и регистрация ➡️ по ссылке.
Мир аналитика данных

01 Dec, 16:09

2,712

Наверно многие знают Пашу Бухтика Head of Product Analytics. Так вот у него завтра начинается курс по AБ и я выбила для вас 5% скидку. Нужно только сказать «я от Валерии / мира аналитики данных».


🎉 Курс по АБ – старт уже 2 декабря!

Ты хочешь прокачать навык АБ-тестирования, но устал от кусочных знаний из статей и книг?
Ты пробовал курсы, но на работе вопросов стало только больше? Или, может быть, тебя разворачивали на собеседованиях, потому что не хватало глубины?

👉 Тогда этот курс для тебя!

Паша Бухтик собрал все это:
✔️ Систему подходов, методов и инструментов для АБ,
✔️ Глубокое понимание и практику ключевых навыков,
✔️ Лучшие примеры из своей реальной практики за 7 лет.

Это не просто обучение. Это:
🔸 12 онлайн-занятий в Zoom – максимум структуры и ответов на все вопросы;
🔸 12 практических занятий в малых группах – кейсы, задачи, прикладной опыт;
🔸 12 комплектов доп. материалов – чеклисты, статьи, книги;
🔸 Индивидуальные домашки и обратная связь;
🔸 Активное комьюнити единомышленников!

🚀 Зачем тебе это? Чтобы выйти на новый уровень:
- Наконец увидеть большую картину.
- Разобраться, как всё работает в реальных рабочих задачах.
- Получить ответы на свои вопросы и перестать «спотыкаться».

🤝 Успей присоединиться! На второй поток.

🔗 Заявку оставляй на сайте: nodatanogrowth.com/product-analyst-ab-testing

Войди в 2024 с навыком, который сделает тебя экспертом. 💪
Мир аналитика данных

29 Nov, 10:46

2,667

🔍 Как посчитать суммы покупок клиентов без оконных функций в SQL? Простое решение на Python! 🐍

Поступила мне тут задачка посчитать сумму покупок для каждого пользователя на определенном этапе его покупок: например, для 1-й, 2-й или 3-й покупки. В идеале это можно решить с помощью оконных функций в SQL. Но что делать, если они не доступны? 🤔

Я сделала, как обычно, с помощью Python и библиотеки pandas! Давайте разберемся, как это сделать шаг за шагом.

Итак, у нас есть таблица df с такими данными:
data = {
#дата покупки
'created_at': ['2024-10-25', '2024-10-30', '2024-10-30', '2024-11-03', '2024-11-04', '2024-11-05'],
#идентификатор пользователя
'user_id': [1, 1, 2, 2, 2, 1],
#номер сделки
'deal_id': [101, 102, 103, 104, 105, 106],
#сумма покупки
'amount': [200, 300, 150, 250, 100, 200]
}
df = pd.DataFrame(data)
df['created_at'] = pd.to_datetime(df['created_at'])

Мы добавляем столбец month, который извлекает месяц из даты покупки (created_at), так как мне нужна была именно по месяцам разбивка.
df['month'] = df['created_at'].dt.to_period('M')


Оказывается есть метод cumcount(), чтобы рассчитать порядок покупок для каждого пользователя. 📊
df['rank'] = df.groupby('user_id').cumcount() + 1


Теперь у нас есть столбец rank, который говорит нам, какая по счету покупка была сделана пользователем.

И уже можно легко фильтровать их по порядку (первая, вторая, третья) и посчитать суммы для каждого из этих этапов.
# Сумма первых покупок
first_deals = df[df['rank'] == 1].groupby('month', as_index=False)['amount'].sum()

# Сумма вторых покупок
second_deals = df[df['rank'] == 2].groupby('month', as_index=False)['amount'].sum()

# Сумма третьих покупок
third_deals = df[df['rank'] == 3].groupby('month', as_index=False)['amount'].sum()


📈 Вот так любимый python-чик может все! ❤️🔥🎯
Мир аналитика данных

26 Nov, 10:00

1,279

Как начинающему аналитику выбрать работодателя?

Казалось бы, все очевидно: зарплата, карьерные перспективы, удаленка. Но на старте карьеры есть еще один фактор, который упускает каждый второй джун, — это уровень зрелости работы с данными.

Переход на data-driven подход — задача не на одну неделю, и даже если компания ищет аналитика, это не значит, что все готово к его работе. На графике показали пять уровней развития аналитической культуры и джунам настоятельно рекомендуем выбирать компании не ниже третьего уровня.

В компаниях «пониже» процессы могут затянуться настолько, что через год вы по-прежнему окажетесь джуном без знания современных инструментов и соответствующей зарплатой. Вывод: идем за третьим уровнем!

С работодателем определились. Дело за прокачкой «хардов» и «софтов».

Курс «Аналитик PRO» – это реальные проекты:

— Практика на 75% курса, кейсы уровня Тинькофф;
— Работа в тиме и соло с разными инструментами;
— МК от экспертов из Avito, Google, VK, HR-консультации.

В Changellenge >> Education проходит черная пятница со скидками 50% до 30 ноября. При покупке «Аналитик PRO» вы в подарок получите 2 мини-курса и разработку индивидуального плана развития с карьерным консультантом!
Оставьте заявку, чтобы забронировать место со скидкой >>

Реклама. ООО «Высшая школа аналитики и стратегии», ИНН 7716917009, erid: 2VtzqvoEuQs
Мир аналитика данных

15 Nov, 09:42

3,585

«Яндекс» опроверг наличие в компании «красных маркеров» при отборе кандидатов (возраст 40+, работа в госструктурах)

💼 На рынке труда часто ценят не только профессиональные навыки, но и соответствие негласным "маркерам" и стереотипам.

12 ноября 2024 года «Яндекс» опроверг в пояснении ситуации для Хабра наличие в компании «красных маркеров» при отборе кандидатов (возраст 40+, с опытом работы в госструктурах, частая смена работодателя и так далее), так как подобные правила противоречат внутренним политикам компании.

😏 Поверили ли мы сразу? Скажем так — рынку проще отсеивать, чем разбираться. И в этом грусть: многих достойных специалистов отсекают по признакам, которые не имеют отношения к их компетентности. Шансы попасть на собеседование часто сводятся к нулю по причинам, которые от кандидата никак не зависят.

⚖️ Конечно, приходится адаптироваться к этой реальности, но у соискателей тоже есть свои "красные маркеры". Один раз, к примеру, я была на собеседовании, где руководитель финансового отдела выглядел до предела уставшим человеком. Тогда я подумала: ну, всякое бывает, может, у компании непростой период. Как выяснилось позже, этот "период" длился уже давно, и в тот год до моего прихода сменился весь финансовый отдел, включая руководителя. Я тоже ушла спустя четыре месяца, так как возвращаться домой за полночь не слишком устраивало мою семью.

Расскажите, а вам попадались "красные флаги" у работодателей или в откликах на резюме?