Статистика и R в науке и аналитике

@stats_for_science


Всем привет!
Подробнее о канале со списком самого интересного: https://t.me/stats_for_science/108
Чат канала: https://t.me/chat_stats_for_science
По всем вопросам - @lena_astr

Статистика и R в науке и аналитике

22 Oct, 14:15


Исследование рынка аналитиков 📊

NEWHR проводит очередное исследование рынка аналитики, и меня пригласили распространить опрос как эксперта. Это очень круто, что подобные исследования проводятся, так как повышают прозрачность рынка, дают большее понимание и сравнение разных компаний в плане зарплат, задач, повышений и тп. Также здорово, что организаторы стремятся сделать наиболее репрезентативную выборку, и распространяют опрос по разным источникам.

С результатами исследования за 2023 год можно ознакомиться здесь. Кстати, его можно считать примером очень хорошей визуализации данных, рекомендую ознакомиться (даже если вы не аналитик), любопытно про топ и антитоп компаний для трудоустройства.

Если вы дата-, продуктовый, веб-, маркетинговый, BI-аналитик, обязательно найдите время (у меня прохождение опроса заняло минут 10-15) на опрос, это будет очень ценно для всего сообщества.

Результаты исследования планируют выложить в начале 2025 года, однако с участниками обещают поделиться промежуточными результатами, и рекомендованными каналами экспертов в аналитике.

#recommendation

P.S. Немного грустно, что последнее исследование рынка зарплат в биотехе проводилось Бластимом аж в 2021 году.
В комментариях дополнили, что обзор проводился в 22-23 году, а чтобы ознакомиться с результатами, нужно вступить в закрытый чат

Статистика и R в науке и аналитике

06 Oct, 07:00


⚡️ Розыгрыш книг по статистике, программированию в R и продуктовой аналитике

Нас уже больше 2600 🎉
В честь этого объявляю розыгрыш книг по тематике канала. Предлагаю на выбор книги из списка:

📊 По статистике:

• “Статистика для всех” Сары Бослаф
• “В поисках эффекта. Планирование экспериментов и причинный вывод в статистике” Хантингтон-Клейн Н.

🖥 По R:

• "R. К вершинам мастерства" Хэдли Викхама в переводе Александра Гинько
• "R в действии. Анализ и визуализация данных с использованием R и Tidyverse" Кабаков Роберт И.
• "Изучаем Shiny" Хэдли Викхама в переводе Александра Гинько

📈 По продуктовой аналитике:

• "Доверительное A/B тестирование" Кохави

Для участия в розыгрыше нужно:

Подписаться на канал "Статистика и R в науке и аналитике"
✍️ Написать комментарий под этим постом о том, что лично для вас интереснее всего читать в канале, пожелания к развитию.

Будет определено три победителя рандомайзером, для получения подарка нужно иметь возможность забрать книгу с озона или с почты России.
Комментарии принимаются до воскресенья, 13 октября 17.00 МСК. Подведение итогов розыгрыша будет в этот же день, результаты выложу в комментарии к посту. Также для автора самого интересного комментария (по моему мнению) подарю телеграм-премиум на три месяца.
Кроме этого, возможен подарок книги не из этого списка, если это укладывается в ценовой диапазон и связано с тематикой канала.

Жду ваших комментариев!

#stat_gifts

Статистика и R в науке и аналитике

30 Sep, 13:13


🔥Список очень крутых каналов по статистике и доказательной медицине

💜 BioStat <- R | Чат по статистике и R
Чат создан преподавателями и выпускниками Института биоинформатики (Санкт-Петербург). Основная направленность обсуждений - современные методы биостатистики и их реализация в среде программирования R.

💜 Data Medicine
Канал врача и исследователя Артемия Охотина о биостатистике, эпидемиологии и политике в медицине. «Listen to your data, it is telling you the diagnosis»(с) В канале разбираются хорошие и плохие исследования, откровенно обсуждаются вопросы интерпретации их результатов.

💜 Ebm_base
Канал, где описываются основы и нюансы доказательной медицины, статистики и эпидемиологии. Автор (к слову, хирург) старается сам разобраться в сложных вещах и рассказать о них. Иногда (несмешные) шутки над чем угодно. Осторожно, токсичный контент!

💜 «Lobastov’s Scientific Library»
Личный канал (с перчинкой) доктора медицинских наук, врача-флеболога Кирилла Викторовича Лобастова с свежими исследованиями, интересными клиническими случаями, критическим разбором статей и ссылками на полезные ресурсы из мира научной флебологии и не только.

💜 Канал medstatistic
Блог, где понятным языком рассказывается о статистическом анализе медицинских данных. Ведет блог доцент Казанской государственной медицинской академии и один из создателей программы StatTech Дамир Марапов.

💜 medstatistic ЧАТ
Один из старейших чатов для обсуждения вопросов статистического анализа медицинских данных. Здесь можно задать любой вопрос о своём исследовании и получить компетентный ответ от экспертов.

💜 Канал "НЕЗАВИСИМОЙ НАЦИОНАЛЬНОЙ АКАДЕМИИ ДОКАЗАТЕЛЬНОЙ МЕДИЦИНЫ"
На этой платформе вы найдете материалы в области доказательной медицины и критической оценки научных публикаций. Если захотите высказаться, то есть чат ННАДМ.

💜 Сообщество "ОСНОВАНИЕ"
Сообщество врачей Казани, разделяющих принципы доказательной медицины. В канале публикуются рекомендации, основанные на клинических исследованиях, мнение экспертов, материалы о принципах чтения научных статей.

💜 Статистика и R в науке и аналитике
Автор канала биоинформатик Елена Убогоева пишет о простых и сложных вещах в статистике, рассказывает про особенности языка программирования R, а также выкладывает материалы о продуктовой аналитике и смежных темах

Подборка подготовлена ННАДМ и Мараповым Дамиром.

P.S. Очень приятно попасть в подборку, спасибо Дамиру за высокую оценку

#recommendation

Статистика и R в науке и аналитике

18 Sep, 13:54


Сегодня пост про расчет размера выборки вызвал нешуточную дискуссию в чате канала.
Обсудили, можно ли найти значимые различия на трех мышах, применим ли подход расчета размера выборки в биологии или является карго-культом, и еще я узнала про тесты эквивалентности, спасибо Артему Черемухину за комментарий

Присоединяйтесь и вы!

Статистика и R в науке и аналитике

18 Sep, 09:45


О размере эффекта и расчете объема выборки в научных задачах

Я в последнее время активно читаю теорию A/B-тестирования. По сути это классические эксперименты с контрольной и тестовой группами (case/control), с которыми постоянно сталкиваются ученые, но с учетом особенностей бизнеса.

📊 Важным этапом при проведении A/B-тестирования является расчет MDE (minimum detectable effect), минимально обнаруживаемый эффект. Например, в эксперименте мы хотим зафиксировать увеличение конверсии на 2% и мы можем рассчитать необходимый размер выборки для тестовой и контрольной группы, исходя из этого. Для этого нам нужно знать минимально обнаруживаемый размер эффекта (определили выше), дисперсию в контрольной и тестовой группе, а также уровень ошибки первого рода (стандартно 0.05) и желаемую мощность теста (обычно 80%).

На всякий случай напомню: мощность - это вероятность найти статистически значимые различия там, где они действительно есть (то есть единица минус вероятность ошибки II рода, про ошибки мнемоническое правило в прикрепленной картинке)

Меня заинтриговал этот подход, потому что он отталкивается от практических соображений.
🌱Интересно было бы применить такой концепт в биологических исследованиях. Например, сначала определить, какой эффект был бы биологически значимым, и после этого рассчитывать необходимый размер выборки. К примеру, мы изучаем влияние фитогормона на рост корня и знаем по предыдущим экспериментам длину корня растений определенного возраста (также можем рассчитать дисперсию). Можно зафиксировать, что для нас биологически важным будет изменение длины корня на 10%. После этого по формуле MDE, мы можем рассчитать необходимый размер выборки, чтобы зафиксировать такой эффект.
🐀 Хорошо, если полученный размер выборки окажется допустимым для исследования, так как при работе с мышами или другими животными, есть риск, что необходимый статистически размер выборки не одобрит биоэтический комитет.
Но тут есть такая особенность, что чем больше эффект, тем меньше нужна выборка, чтобы его обнаружить. Можно для себя решить, что совсем небольшие изменения не несут особой биологической ценности и рассчитывать выборку для бОльших эффектов.

Как вы думаете, возможен ли такой подход в научных исследованиях?

#product #analytics

Статистика и R в науке и аналитике

30 Aug, 15:45


С днем рождения меня 🎈

И почти с днем рождения телеграм-канал, он был основан 26 августа 2021-го года 🎉
Очень приятно, что мой канал с заметками по статистике так расширился, и здесь собрались настолько разные подписчики: биологи, психологи, социологи, аналитики данных, даже есть представители астрофизики! (в комментариях к опросу можно заценить, а также написать свою область 😎)

Лучшим поздравлением для меня будет поделиться ссылкой с друзьями и коллегами, а также написать в комментариях, что интереснее всего читать, в чем для вас канал представляет ценность.

Спасибо всем, что читаете, комментируете, ставите реакции, это мотивирует развиваться и писать еще!

Статистика и R в науке и аналитике

22 Aug, 05:00


Пост-навигация для знакомства с каналом

Я пишу здесь разбор простых и сложных вещей в статистике, рассказываю про особенности языка программирования R, а также выкладываю материалы о продуктовой аналитике и смежных темах. Иногда серьезность постов разбавляю мемами, но не слишком часто.

1) Немного обо мне: я по образованию биоинформатик, в настоящий момент работаю аналитиком данных в 🖤 и интересуюсь продуктовой аналитикой, подробнее можно почитать в постах ниже:
- Пост-знакомство
- Как биологу стать аналитиком данных

2) Преподаю статистику и анализ данных в R для биологов, медиков и не только:
результаты за 2023 год и актуальные условия

3) Подборка наиболее ценных материалов для знакомства с каналом

📊О статистике:
Поправки на множественное тестирование
Пределы погрешностей (error bar), какие бывают виды и как интерпретировать
Список рекомендуемых источников для изучения статистики
Лекции на ютубе по основам статистики
Ошибки первого и второго рода - как запомнить и больше не путать
Сравнение медиан и средних бутстрепом

Про 🖥:
Подборка источников материалов для изучения R
Мой курс по tidyverse на Stepik
Советы для эффективной организации работы в R, проект-ориентированный подход
Установка R, разбор ошибок и подводных камней
Множественные t-тесты в R с применением `tidyverse` подхода
Подборка источников по ggplot2, purrr
История факторов в R
Почему в R используется <- как оператор присваивания

Продуктовая аналитика:
Решение контеста по A/B тестам от samokat.tech
О пуш-уведомлениях и выгоде подписок

4) Основные хештеги для удобства поиска
#R - все, что связано с R
#analytics - материалы по аналитике
#stats - общий хештег по теме статистика
#base_stats - относительно простые вещи по статистике
#stat_hard - более сложные темы статистики, например бутстреп
#stat_fun - иногда публикую что-то забавное по темам, связанным со статистикой и аналитикой, например, анекдот про p-value

Новым подписчикам - добро пожаловать, по возможности, пожалуйста, проголосуйте в опросе о вашем бэкграунде.
По всем вопросам - пишите в личку @lena_astr, оставляйте комментарии к постам, на все стараюсь отвечать.
Можно вступать в чат канала, планирую его развивать как площадку для дискуссий

Статистика и R в науке и аналитике

08 Aug, 06:00


О пуш-уведомлениях, определении целевых пользователей и выгоде годовой подписки

Я пользуюсь разными приложениями для аренды самокатов 🛴 и в одном из них даже оплатила годовую подписку на бесплатный старт. Подписка продавалась по скидке, и я посчитала, что примерно за 10 поездок смогу отбить ее стоимость. Однако мне все еще поступают пуш-уведомления с предложением купить подписку на один или три месяца. Это слегка раздражает и говорит о том, что в компании видимо не проводят сегментацию пользователей и просто раскатывают пуши на всех, вне зависимости, есть ли у них уже подписка или нет.

Для начинающего продуктового аналитика очень полезно пытаться рассмотреть все, что используешь в повседневной жизни, с точки зрения продукта. Я попробовала накидать идей, как можно было бы улучшить взаимодействие с пользователем посредством пушей, и в целом подумать о метриках и механиках монетизации продукта.

Например, в другом приложении был полезным пуш, о том что я давно не каталась на самокатах, со скидкой 20% на следующую поездку. Мне как раз тогда нужно было поехать на самокате, и пуш, и скидка были очень вовремя, я воспользовалась предложением и повысила их метрику конверсий пушей в поездки 😎. Для первого упомянутого приложения тоже намного более полезным было бы напомнить о наличии подписки, о бесплатном старте, чтобы я как пользователь чаще каталась.
Тут правда возникла мысль, что возможно из-за бесплатного старта самокаты начинают работать в убыток 🤔, и им выгоднее, чтобы люди купили подписку и как можно реже пользовались. Но все равно мне кажется продукту нужно увеличивать метрики DAU, WAU, MAU (это аббревиатуры daily, weekly, monthly active users), плюс удержание пользователей (retention), и вряд ли наличие подписки это как-то отменяет. Я понимаю, что метрики активности пользователей не являются самоцелью, а конечная цель продукта состоит в получении прибыли, но поскольку поездки при наличии подписки не становятся бесплатными, значит, юзер будет продолжать приносить прибыль, пользуясь самокатами и при наличии подписки. Так что я не думаю, что при бесплатном старте самокаты становятся убыточными, такая бизнес-схема была бы странной.

А что думаете вы по этому поводу? Выгодно ли при наличии подписки напоминать пользователю о себе, или оптимально, если человек купил и забыл про нее и не использовал приложение?

#product #analytics

@stats_for_science

Статистика и R в науке и аналитике

31 Jul, 12:30


Всем привет!

Написала обещанный большой пост о моем переходе из биоинформатики в аналитику данных. Подробно расписала мотивацию и выбор области, а также курсы и рекомендации.

Пишите комментарии, вопросы, на все постараюсь ответить!

#analytics

Статистика и R в науке и аналитике

09 Jul, 06:00


Новый курс по tidyverse 📈 на stepik

В начале мая мы совместно с Blastim и Мишей выпустили мини-курс, посвященный разбору tidyverse, в основном dplyr 🔧.
Я настояла на том, чтобы курс был бесплатным и пройти его могли все желающие.
Можно проходить в любое время, дедлайнов нет, есть лекционный материал и задания на проверку пройденного. Курс рассчитан как на начинающих, кто только знакомится с R, так и на тех, кто уже знаком с основными функциями R и пакетом dplyr, но желает структурировать информацию. На мой взгляд, получилось достаточно неплохо, думаю дальше продолжать развивать это направление, например уделить время разбору функционального подхода к программированию в R и пакету purrr, а также философии графиков ggplot2. Правда, по последнему кажется, что материалов и так хватает. Но в целом у каждого преподавателя свой стиль подачи материала и акценты на разные ключевые моменты, поэтому я считаю, что чем больше будет источников и курсов - тем лучше.

Записывайтесь на курс, пишите комментарии и отзывы, всех жду!

#R #tidyverse #recommendation

@stats_for_science

Статистика и R в науке и аналитике

19 Jun, 07:00


Отзыв о конференции Aha'24 👍

Две недели назад (06.06) сходила на конференцию Aha по продуктовой аналитике, про которую писала в прошлый раз.

Вообще я в первый раз посетила именно айти конференцию, по сравнению с научными специфика и формат сильно отличается. Понравилось, что помимо докладов было достаточно много стендовых оффлайн-активностей, викторины, настольные игры и прочее. Неплохо было бы добавить такое на научные конференции для упрощения нетворка, но конечно это маловероятно, да и скорее всего неуместно.
Атмосфера тоже отличается от научных конференций, как будто люди в целом проще и можно было спокойно поговорить со спикерами + нет ощущения, что часть людей присутствует на конференции только для того чтобы отчитаться по грантам.

Было много параллельных секций докладов, из-за чего сразу не получилось послушать все, что хотелось, но можно посмотреть в записи, хотя с ними были небольшие технические проблемы. Понравились доклады про сетевые эффекты в юнит экономике и про размен метрик (как паковать молоко по 0.9 л).

Удалось познакомиться лично и пообщаться с админами телеграм-каналов: Борзило, аналитика на кубах, Не AБы какие тесты и просто с аналитиками из разных компаний (что удивительно, без телеграм каналов).
Очень прикольно было поучаствовать в различных викторинах от яндекса и сбермаркета, где вопросы были примерно как на собеседованиях, но в игровой форме.
Фотографий на конференции особо не делала, прикрепляю выигранный мерч и стикерпаки, которые раздавали все компании со стендами.

В целом для меня самое полезное в конференции — это знакомство и общение с продуктовыми аналитиками и возможность обсудить рабочие и не только вопросы, плюс осталось много непросмотренных докладов, которые собираюсь досмотреть.
Конференцию рекомендую, обязательно съезжу еще, если получится.

#product #analytics

@stats_for_science

Статистика и R в науке и аналитике

29 May, 12:01


Задачка по дизайну A/B тестов

Пару недель назад участвовала в контесте от Samokat.tech по продуктовой аналитике. Вчера объявили результаты, оказалось, я попала в топ-10 лучших решений и выиграла оффлайн-билет на конференцию Aha'24 в Москве 🎉🎉🎉 (в прикрепленном фото результаты отсортированы по алфавиту, точных баллов не говорили, а имена остальных участников скрыты из соображений приватности).

Суть задачи была в том, чтобы
1) предложить продуктовые решения по борьбе с мошенниками-продавцами на маркетплейсе;
2) сделать дизайн A/B теста, который будет сравнивать новую ML-модель детекции мошенников с ручным определением. Соответственно, нужно было определить, какой статистический тест использовать, рассчитать MDE и мощность, сплит на группы и разобраться с данными, которые предоставили для решения.

Было очень интересно решать реальную задачу e-commerce, где понятно, что за продукт и почему это важно, так что спасибо команде организаторов конференции и аналитиков самоката за возможность проверить свои силы на реальной задаче.

С моим решением можно ознакомиться по ссылке, пишите вопросы и комментарии, если возникли.

#product

@stats_for_science

Статистика и R в науке и аналитике

17 May, 14:10


Пятничный мем

— Привет.
— Привет.
— Как там ваши дела с Кристиной? Еще не поженились?
— Нет, мы расстались.
— А что случилось?
— Мне надоело, у нее были слишком большие запросы.
— Например какие?
— Ну например update instance inner join (select groupid as group_id, (select messageid from message inner join thread on threadid = message.thread_id where location_id = location_id and language_id = language_id and concat(group_key, '.') like concat(group.key, '.%') order by message.created desc limit 1) as last_message_id, (select count(*) from thread where location_id = location_id and language_id = language_id and concat(group_key, '.') like concat(group.key, '.%')) as thread_count, (select if(sum(thread.message_count) is null, 0, sum(thread.message_count)) from thread where location_id = location_id and language_id = language_id and concat(group_key, '.') like concat(group.key, '.%')) as message_count from group where group_key like concat(key, '.%')) as statistics on statistics.group_id = instance.group_id set instance.message_id = statistics.last_message_id, instance.thread_count = statistics.thread_count, instance.message_count = statistics.message_count where instance.location_id = location_id and instance.language_id = language_id;

Статистика и R

#SQL #stat_fun

Статистика и R в науке и аналитике

08 May, 14:01


Пост-знакомство с Еленой, создательницей и ведущей этого канала

Всем привет! В последнее время появилось много новых подписчиков, а общее число перевалило за 2000. Новым подписчикам — добро пожаловать, старым — спасибо, что остаетесь и продолжаете читать.

Этот пост, чтобы обновить информацию о себе, потому что про себя я рассказывала почти два года назад, за это время много что изменилось.

Я решила уйти из биоинформатической аспирантуры и перейти в дата аналитику. На первую работу в этой области устроилась в мае 2023 года, а в настоящий момент уже два месяца работаю в X5 Tech (в направлении аналитики и визуализации), стек SQL (ClickHouse), R, Grafana.

Мне нравится, что в нашей группе получается применить навыки работы в R + использовать самые передовые подходы, например работу в data.table. Задач по статистике пока нет, но мне хватает преподавания и записи ютуб-лекций. Кроме этого, изучаю материалы по продуктовой аналитике, в особенности что касается проведения A/B тестов.

Для перехода в DA понадобилось выучить SQL и научиться работать с дашбордами, а R и python у меня уже были на достаточно хорошем уровне. Если интересно, могу в следующих постах рассказать чуть более подробно про то, насколько сложно было перекатиться в другую область.

По поводу преподавания можно посмотреть обновленную информацию здесь.

На канале собираюсь выкладывать в том числе материалы, посвященные продуктовой аналитике

Статистика и R

Статистика и R в науке и аналитике

07 Apr, 14:45


Новое видео про описательные статистики 📊

Я после перерыва выпустила первое видео из серии статистики, посмотреть его можно здесь. К сожалению не успела на этих выходных записать продолжение, но чуть позже должна найти время на запись. Немного непривычен формат коротких лекций без общения с аудиторией, психологически проще рассказывать кому-то и в менее сжатой форме. Для ютуб-формата нужно делать материал более концентрированным с четкими границами тем. Думаю, это более удобно для слушателя, но сложнее для лектора.

А какой формат для восприятия более удобен и привычен вам? Короткие 10-15 минутные видео по одной теме или полуторачасовые лекции на более широкий спектр тем? Пишите в комментарии или ставьте реакции: ✍️ за длинные лекции, 👀 за более короткий ютуб-формат.

#stats #base_stat

Статистика и R в науке и аналитике

06 Mar, 05:42


Channel photo updated

Статистика и R в науке и аналитике

05 Mar, 17:05


Не только tidyverse: материалы по data.table

По работе понадобилось разбираться с data.table, который я игнорировала достаточно долгое время, в силу отсутствия особой необходимости работы с большими объемами данных. На самом деле давно пора было, потому что он реально нужен в арсенале инструментов аналитика данных.

Для быстрого освоения data.table рекомендую материалы (учебник и запись вебинаров) Филиппа Управителева, очень здорово расписано. Также документация по dt написана достаточно лаконично и исчерпывающе (что соответствует dt-подходу в целом).

В целом, в извечном споре tidyverse vs data.table (спор при этом не совсем корректен, так как tidyverse — экосистема пакетов, а data.table один пакет для обработки таблиц) можно не занимать какую-то сторону, а использовать преимущества обоих подходов, подробнее можно почитать у Ильи Шутова на канале R in Action.

Еще вчера вышел перевод Advanced R от Александра Гинько, я уже купила pdf-версию, хочу более внимательно прочитать часть про метапрограммирование, круто, что такие книги появляются на русском языке + можно купить бумажное издание.

#R #tidyverse #data_table

Статистика и R

Статистика и R в науке и аналитике

15 Feb, 17:05


Channel name was changed to «Статистика и R в науке и аналитике»