Start Career in DS @start_ds Channel on Telegram

Start Career in DS

@start_ds


№ 5141779667

Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev

Start Career in DS (Russian)

Хотите начать карьеру в области Data Science? Тогда канал "Start Career in DS" (@start_ds) идеально подойдет для вас! Здесь публикуются материалы для развития навыков в области Data Science и подготовки к собеседованиям.

На канале вы найдете полезные статьи и советы по работе с техническими инструментами, визуализации данных, решению бизнесовых задач, а также разборы ML-алгоритмов. Автором канала является @RAVasiliev, который делится своим опытом и знаниями в этой области.

Присоединяйтесь к каналу "Start Career in DS" и начните свой путь в Data Science прямо сейчас!

Start Career in DS

13 Feb, 17:15


📚 Weekend offer в Яндексе

На связи Рома Васильев, создатель этого канала.

Проводим 1-2 марта оффер выходного дня для аналитиков в Яндексе, будем нанимать в том числе и в мою команду (аналитики международного Поиска)!

Что будет:
- В субботу (1 марта) - технические секции (будут алгоритмы, секция на написание кода для анализа данных и секция по теорверу-матстату-аналитике)
- В воскресенье (2 марта) - финалы с командами и офферы

Почему оно стоит того:
- Многие жалуются на то, что секции в Яндексе долгие и томные, а тут есть возможность порешать всё за 2 дня.
- Нанимают сейчас в разные клёвые команды Большого Яндекса (Поиск, Алиса, Карты и тд)
- Яндекс предлагает вполне хорошие условия

Как готовиться:
- Вспомнить алгоритмы на python можно например тут, плюс хорошо бы освежить в голове написание кода для анализа данных
- Вспомнить теорию по теорверу и матстату можно на основе постов в нашем канале (например тут) 🙂
- Подумать о том, как грамотно рассказать о себе и своём опыте на финале

Где зарегистрироваться:
Вот тут

Start Career in DS

11 Feb, 15:05


🎯 Как вкатиться в NLP: подборка основных RoadMaps

🔥Современный мир Data Science стремительно меняется, и чтобы оставаться востребованным специалистом, важно следить за актуальными трендами. Для этого мы собрали подборку RoadMaps по развитию в NLP и готовы поделиться им с вами!

0⃣ [ENG] NLP-Course от Лены Войты
Не RoadMap, но этот курс заслуживает, чтобы быть в подборке.
Курс затрагивает ключевые NLP-темы: Word Embeddings, классификация текстов, языковое моделирование и многое другое.
Хватит с головой, чтобы погрузиться в NLP.

1️⃣ [ENG] Step-by-Step RoadMap по NLP
Дорожная карта поэтапно описывает основные шаги изучения NLP, начиная от базовых тем (текст пре-процессинг, векторное представление текста, описание основные NLP задач) и заканчивая более продвинутыми (деплой NLP-моделей, Transfromers, LLM-библиотеки и MLOps для NLP).

2️⃣ [ENG] RoadMap to Learn NLP and LLMs
RoadMap погружает в NLP, рассказывая об основных принципах, методах и алгоритмах, используемыми в NLP (токенизация, стемминг, лемматизация, NER и многое другое).
Также в источнике есть блоки о продвинутом NLP с Deep Learning, сопровождая все темы дополнительными источниками для изучения.

3️⃣ [ENG] Git-репозиторий с RoadMap по NLP
RoadMap 2019 года, но в нем содержится избыточный набор тем по Text Mining, Probability & Statistics и classic-ML.
Покрывает все базовые концепции классического NLP для изучения более продвинутых и современных тем.

4️⃣ [RU] Git-репозиторий c NLP Compass на русском
Репозиторий содержит несколько ключевых информативных диаграмм, которые постоянно обновляются:
- Python-библиотеки при работе с NLP
- Диаграмма Эйлера-Венна по навыкам и обязанностям от NLP-разработчика до исследователя
- Большая дорожная карта по NLP (есть даже современные ТОП-темы - PEFT, Промпт-инжиниринг)
В добавок в репозитории есть огромный набор NLP-туториалов по разным темам.

5️⃣ [ENG] GIt-репозиторий с LLM-курсами и RoadMaps
Репозиторий содержит огромный набор курсов и источников по современному NLP и LLMs.
Курсы разбиты по трем разным уровням: LLM Fundamentals, LLM Scientist, LLM Engineer.
Также есть RoadMaps по каждому уровню с доп. источниками и ссылками на Colab с кодом.

Не забывайте ставить ❤️ и 🔥за крутые подборки!
Пишите комментарии и делитесь своими ресурсами!
До встречи👋

Start Career in DS

08 Feb, 14:02


🔥 Сборники тестовых заданий и видео разборы реальных тестовых 👇


📦 Сборник тестовых заданий для Product Analyst и Data Analyst - задачи с реальных собеседований с решением, задачи разделены про грейдам, сферам компаний и тематикам: аб тесты, SQL, Python, логика и тд

📦 [eng/ru]Home assignments for data science positions - тестовые задания от разных компаний, на позицию, связанную с DS. Например, задания от Альфабанка, МТС, Wargaming, Uber


📹 Решаем реальное тестовое задание позицию Data Scientist - решение тестового задания, которое сгенерировал чат GPT. Чистка данных и  заполнение пропусков, построение random forest и обучение модели

📹 Разбор тестового задания на позицию junior аналитика данных - Анатолий Карпов сам решает тестовое, нужно провести базовый когортный анализ, пример использования Pandas (генерация данных, фильтрация, группировка)

📹 Разбор тестового задания на позицию junior-аналитика в Банк ВТБ - разбор от школы Simulative, нужно оценить эффективность маркетинговой кампании, пример использования Pandas и sqlite3 (фильтрация, группировка, агрегация)

📹 Разбираем тестовое задание в OZON на джуниор-аналитика - разбор от школы Simulative, несколько задач: генерация датасета, подсчет среднего значения, алгоритмическая задача, задача на знание статистики. Используется Pandas и Numpy

Сохраняйте подборку! Ставьте 🔥 и ❤️!

Start Career in DS

30 Jan, 15:20


💻 Где искать вакансии в Data-профессиях?

Многие утверждают, что прохождение собеседований - чуть ли не отдельный навык, который нужно тренировать. А чтобы его тренировать, нужно ходить по собеседованиям и развивать соотвествующую мышцу 🙂

Сделали для вас подборку каналов для поиска вакансий в Data-профессиях (DS/DA/DE/ML/etc.):

1. Your Dream Data Job
Вакансии на позиции в аналитике/ml/data science в российские компании .
К каждой вакансии прилагается короткое описание позиции + полезная статья, релевантная к позиции.

2. Offer Inside Job
Вакансии в международных компаниях с русскими фаундерами и командами.
Помимо самих вакансий, у ребят есть сопровождение по составлению CV и подготовке к секциям

3. Нескучный Data Science Jobs
Вакансии от Жени Смирнова с подробным описанием: от имеющегося для железа до роли data science в этой компании

4. Data Science Jobs
Частые вакансии буквально на любые роли - от преподавателей на курсы по ML до руководительсиких позиций в международные компании.

Оставляйте свои 🔥 если хотите вторую часть поборки!

Start Career in DS

24 Jan, 15:17


📚 Книги по ML/DS

Мы периодически рекомендуем вам книги по DS или разыгрываем их в канале, решили собрать полезные книги в одном посте! 📚

💻 Если знакомы с DS/ML слабо и хотите чуть лучше понять где и как это может применяться:
0. Роман с Data Science
Автор книги Роман Зыков - человек, который строил с нуля аналитику в Ozon.ru, а также основал свою компанию, которая занимается анализом данных. В книге он рассказывает о своих
1. Машинное обучение для бизнеса и маркетинга
На пальцах про все основные возможности применения машинного обучения в классическом бизнесе (на самом деле, совсем не только в маркетинге!)
2. DS для карьериста
Достаточно старая книжка, но многие советы ещё актуальны!
Про то, как строить карьеру в DS


💼 Если хотите натаскаться к собеседованиям и отточить знания основ:
0. [ENG]Cracking the coding interview
Тут собраны все задачки с алгоритмических интервью в корпорациях, а также ключевые идеи и подходы к их решению
1. Серия "Грокаем": сложные вещи описаны простым языком и дополнены нестандартными иллюстрациями
- Грокаем алгоритмы
- Грокаем машинное обучение
- Грокаем глубокое обучение
2. Доверительное А/В-тестирование
Ключевые идеи АВ-тестирования понятным языком

🥷 Если уже знаете основы и хотите углубить свои знания:
0. [ENG]Machine Learning System Design
Книга Валерия Бабушкина и Арсения Кравченко по ML System Design. И этим всё сказано 🙂
1. [ENG]Understanding Deep Learning
Книга с лекциями, презентациями и приложенными юпитер-ноутбуками для того, чтобы разобраться в DL. Часто обновляется (последний апдейт 21 November 2024)

Обязательно ставьте ❤️ и 🔥 под постом, если подборка полезна!

Start Career in DS

22 Jan, 15:16


📊 Как оценивать LLM: бенчмарки [Ч.2]

В прошлой части данной темы мы подробно разобрали метрики, с помощью которых можно оценивать LLM. Сегодня поговорим про оценку через бенчмарки.

❗️Бенчмарк - это набор тестовых вопросов для оценки конкретного навыка модели.

Как правило, он работает следующим образом:
1. Берут некоторый стандартный набор запросов к LLM
2. Собирают ответы модели
3. С помощью асессоров/либо автоматической метрикой получают некоторую оценку качества модели

🗑Виды бенчмарков:

1️⃣ Открытые: создаются, как эталоны, для оценки конкретного навыка модели, что позволяет сравнить производительность любой LLM. Зачастую под данными бенчмарками понимаются: MMLU, GSM8K, HumanEval и т.д.
Проблема таких бенчмарков в том, что вся тестовая выборка хранится в открытом доступе (где-нибудь на GitHub), что зачастую приводит к утечке данных в train-датасеты.
ℹ️GSM8K - содержит математические задачи уровня начальной школы; MMLU - создан для проверки уровня фактических знаний LLM по гуманитарным наукам, социальным наукам, истории и даже право; HumanEval - содержит задачи по программированию

2️⃣ Закрытые: имеют аналогичную цель, однако, их особенность в закрытом тестовом наборе данных, которые LLM в процессе обучения не видели. Сюда могут входить: MT-Bench, SQuAD, RE-Bench и т.д.

3️⃣ Собственные (доменные): не всегда доступные бенчмарки пригодны для вашей задачи, поэтому зачастую приходится формировать свои тестовые примеры и способы оценки.

📚Дополнительная литература:
- Простая и очень полезная статья по бенчмаркам от команды Яндекса. Здесь же можно почитать про недостатки различных бенчмарков и этого подхода в целом
- Материалы из прошлой статьи
- Большой набор описаний наиболее популярных бенчмарков
- Статья про самые популярные LLM-бенчмарки
- Статья "Полный гид по бенчмаркам LLM"

Обязательно ставьте ❤️ и 🔥 под постом!
Пишите свои комментарии 🙂

Start Career in DS

17 Jan, 13:02


Всем привет!
Хотим поделиться с вами каналом «Задачи DS - Собеседования, Соревнования, ШАД»

Ребята на своем канале делают обзоры различных направлений в компаниях, разбирают тестовые задания и различные задачи с собеседований.

Что интересного можно у них почитать:
- О направлениях команд в Big Tech, работающих с ML
- О популярных задачах с собеседований по направлениям ML и DS
- Разбор задачи с собеседования в БКС Банк (DS)

Start Career in DS

09 Jan, 17:36


🔗 Базовая теория по DL, которую должен знать каждый

👨‍💻 Умение строить нейронные сети и понимать, как они работают, является обязательным навыком практически для любого ML-специалиста. Поэтому разберем основные структурные компоненты нейронных сетей.

1️⃣ Искусственный нейрон
Нейрон, Входы (X), Веса (Weights), Смещение (Bias) и Функция активации.
Схему искусственного нейрона и его частей можете изучить тут.

2️⃣ Слои нейронной сети
Слои, виды слоёв (входной слой, скрытый слой, выходной слой) и функциональности
(линейный слой, сверточный слой, рекурентный слой).
Про эти и другие наиболее распространенные виды слоев читайте тут. Также изучаем схему простой нейронной сети (перцептрона), про сложность - читаем тут.

3️⃣ Функции активации
Наиболее популярными функциями активаций являются: Sigmoid, Tanh, ReLU, Softmax.
Про эти и другие функции активации читайте тут.

4️⃣ Слои нормализации
Проблема взрыва и затухания градиента.
Основные виды нормализаций активаций в нейронной сети: LayerNorm, BatchNorm, RMSNorm. О каждом более подробно читайте тут.

5️⃣ Dropout и Attention слои
О способе решения проблемы переобучения с Dropout читайте тут.
Attention-механизм
стал наиболее популярным в моделях Transformer, позволяя нейронной сети «фокусироваться» на важных частях входного сигнала через attention-score. Подробно о самом механизме читайте тут.

📚 Дополнительно читаем и преисполняемся:
- Наш большой справочник по Deep Learning
- Серия постов с видео по нейронным сетям - [Ч.1], [Ч.2]
- Доступный курс для каждого новичка по основам нейронных сетей
- Пишем свой нейрон на Python: практика для любого уровня
- Основы нейронных сетей с интересным разбором разных тем
- Математика, лежащая в основе нейронных сетей: серия простых статей

Обязательно ставьте ❤️ и 🔥 за наш труд!
Пишите комментарии и задавайте вопросы!
До встречи👋

Start Career in DS

30 Dec, 15:02


🩵 Итоги 2024 и планы на 2025!

Всем привет, на связи Рома Васильев, автор этого канала 🙂
Хочу сказать спасибо всем вам, наши любимые подписчики, за участие в жизни Start Career in DS каждому из вас!)

Хотим вместе с командой поделиться с вами своими итогами и планами, чтобы вы понимали что у нас происходит 🙂

Итоги 2024:
1. Нарастили число подписчиков до 12к (почти +3 тысячи подписчиков!)
2. Число просмотров за год составило 922 тысячи, число перерепостов - 25.5 тысяч, а общее число реакций - почти 6 тысяч!
3. Начали делать квизы по машинному обучению и наградили кучу победителей. Их фото красуется рядом с этим постом, давайте поздравим еще раз ребят своими ❤️
4. Пересобрали команду! Теперь над каналом работают аж 3 человека: Рома, Руслан и Катя. Делаем лучший контент для вас!
5. В том числе сделали ряд очень хорошо залетевших постов:
- Классический ML – база: справочник основных алгоритмов
- Почему Polars быстрее, чем Pandas
- Предлагаем вспомнить базовую математику. Справочник материалов
- Открытый курс по прикладной статистике от Академии Аналитиков Авито
- Leetcode по ML/DS

Планы на 2025:
1. Продолжать расти и делать интересный контент в канале для вас!
2. Возродить подготовку материалов для ютуб-канала. Число просмотров говорит о том, что материалы полезны
3. Организовать митап/серию митапов. Эта идея переезжает с 2024 на новый, 2025 год :)

Ставьте ❤️ если вам нравится наш контент и пишите чего вам бы хотелось видеть больше в Start Career in DS!

Start Career in DS

29 Dec, 16:09


🏆 Рады сообщить об окончании новогоднего квиза и поздравить участников и победителей!

⛄️ @the_vicad
Получает полугодовую подписку ТГ-премиум!

🏂 @luckyrimsky @disgur00 @lena_pena_dreamer
Получают в подарок книги!

💬 Ребята, мы придем ко всем в личку в ближайшее время, просьба открыть доступы 🙂
🫶 Спасибо вам за активное участие, надеемся вы повеселились и узнали что-то новое!☃️

Ставьте ❤️ и 🔥, если хотите ещё подобных квизов!

Start Career in DS

26 Dec, 15:44


🎄🪄«Новогодний квиз» [Ч.2]

Общие вопросы по Machine Learning:

1️⃣ Почему в линейных ML-моделях переобучение отождествляется с высокими абсолютными значениями весов?

2️⃣ Что такое data leakage? И какие существуют способы его избежать?

3️⃣ Какие существуют алгоритмы оптимизации гиперпараметров в ML-моделях? Кратко опишите, как они работают.

4️⃣ Какой основной параметр ML-алгоритмов, построенных на Decision Tree, отвечает за возможное переобучением модели?

5️⃣ Какие существуют методы и алгоритмы для устранения дисбаланса классов в выборке?

👇🏻 Ждём ваших ответов под постом!
Также не забывайте нас поддерживать и ставить ❤️ и 🔥!

Start Career in DS

24 Dec, 16:01


🎊🎄«Новогодний квиз» [Ч.1]

Вопросы о нашем канале за последний год:


1️⃣ Сколько постов на нашем канале вышло за 2024 год?

2️⃣ Какой пост в 2024 году на нашем канале набрал больше всего просмотров?

3️⃣ Сколько в 2024 году было проведено квизов на нашем канале, и сколько человек получили в них призы?

🤪 Для верных ответов придётся немного поисследовать наш канал
👇🏻 Ждём ваших ответов в комментариях под данным постом!

Также ждём ваших реакций ❤️ и 🔥под постом!

Start Career in DS

23 Dec, 16:01


🎉🎄Новогодний квиз на «Start Career in DS»

🎅🏼Дорогие подписчики, вся команда нашего прекрасного канала от всей души поздравляет Вас с наступающим Новым годом и желает в 2025 году достичь всех поставленных целей.

🌟Также в преддверии праздника мы рады объявить о «Новогоднем квизе» на нашем канале, и, желая порадовать своих подписчиков, мы подготовили интересные вопросы и кучу подарков.

❗️Правила «Новогоднего квиза»:
⭕️ Квиз будет состоять из двух частей: ответы на вопросы по нашему каналу и общие вопросы по Machine Learning.
⭕️ Собственные ответы необходимо оставлять в комментариях под постом
⭕️ Верные ответы будут прикреплены в комментариях под каждым постом через 24 часа после его публикации
⭕️ Ответ засчитывается при схожести с нашими заготовленными ответами
⭕️ Мы также учитываем скорость ответа: более ранний ответ будет иметь больший вес, если мы столкнёмся с одинаковым количеством верных ответов нескольких участников

Как участвовать:

1️⃣ Следите за постами в течение текущей недели
2️⃣ Для участия достаточно ответить на вопросы хотя бы в рамках одного поста
3️⃣ Свои ответы опубликуй в комментариях под постом
4️⃣ Готово! Ты - участник нашего «Новогоднего квиза»!

🎁 Выбор победителей и призы:
🎲 Один счастливчик будет выбран случайным образом и сможет забрать полугодовую подписку ТГ-премиум!
🧠 И ещё три победителя будут выбраны по максимальному количеству набранных баллов в ответах
🎁 Каждый из победителей фиксировано получит одну из книг по Data Science:
1. "Практическая статистика для специалистов Data Science"
2. "Грокаем глубокое обучение"
3. "Математические основы Машинного обучения"

Ставьте ❤️ и 🔥 если ждете запуска «Новогоднего квиза»!

Start Career in DS

20 Dec, 16:01


Собрали для вас курсы степика, которые могу пригодиться начинающим и продолжающим) Есть как бесплатные так и платные, но доступные по цене

🐍 Python
Поколение Python - первый курс из линейки по изучению питона с нуля с множеством задач для тренировки написания кода
Добрый, добрый Python - курс для начинающих и для тех, кто уже знаком с Python, но хотел бы повысить/проверить свой уровень
Программирование на Python - вводный курс по питону от Института биоинформатики
Python: основы и применение - курс по питону для продолжающих, тоже от Института биоинформатики


📊 SQL
Интерактивный тренажер по SQL - практика написания SQL-запросов с минимумом теории, сложность возрастает по мере прохождения курса
SQL База - основы SQL от Left Join
Основы SQL - обучение SQL с нуля на примере MySQL
Продвинутый SQL - сложные запросы, транзакции, тригеры и оконных функций в MySQL


⚛️ ML/DL
Deep Learning (семестр 1, осень 2024) и Deep Learning (семестр 2, осень 2024): бесплатный двухсеместровый курс по глубокому обучению от МФТИ
Машинное Обучение в Python - требуется только базовое знание Python, математика добавляется постепенно, поэтому курс подойдет для начинающих
Добрый, добрый ИИ от Сергея Балакирева - первые шаги в ML, нужны знания математики и Python
Нейронные сети и обработка текста - для тех, кто уже имеет базу в ML и хочет научиться применять нейронные сети для решения задач NLP


Math
Математика для всех от Савватеева - курс поможет разобраться в математической логике и механизмах работы математики
Ликбез по дискретной математике - обзорный курс по дискретной математике
Линейная алгебра - краткое изложение основ линейной алгебры
Теория вероятностей - базовыме понятия теории вероятностей, много примеров и задач
Основы статистики от Карпова - база в статистике, уже неоднократно писали про этот курс в канале
Добрая теория вероятностей от Балакирева - школьная база по теории вероятности

Ждём ваших ❤️ и 🔥! Делитесь в комментариях какие курсы проходили вы и можете порекомендовать 🧑‍🏫

Start Career in DS

18 Dec, 07:02


📊 Как оценивать LLM: метрики [Ч.1]

🤖 Оценка языковых моделей также необходима, как и при работе с классическими ML-моделями. Однако, в случае с LLM задача усложняется тем, что мы должны оценивать текстовые данные.

💯 В этой части поста мы расскажем про наиболее популярные NLP-метрики для оценки языковых моделей, а уже в следующем посте поговорим про более продвинутые техники, включая бенчмарки.

А в чем, собственно, отличие между метриками и бенчмарками:

Метрики - используются для измерения конкретных навыков аспектов работы модели (например, точность перевода с русского на английский) или могут использоваться, как часть бенчмарка.
Бенчмарки же — это наборы тестов, которые обычно включают множество задач и способов их оценок (метрик). Бенчмарки дают более масштабную оценку качества работы моделей, не в рамках отдельной задачи.

Поговорим про статистические метрики:


1️⃣ Перплексия:
Перплексия показывает, насколько точно модель предсказывает следующий токен: чем ниже значение, тем уверенее предсказание.
Например, если перплексия равна 1000, это означает, что модель в среднем имеет 1000 равновероятных вариантов для каждого следующего слова, что указывает на плохое качество предсказаний. Через перплексию в LLM можно определить галлюцинации, хоть и сама метрика не всегда коррелирует с качеством генерации текста.
Более подробно про перплексию и формулу данной меры читайте тут.

2️⃣ BLEU и ROUGE:
О данных метриках мы писали в одном из вопросов недавнего квиза (п.5) и оставляли хорошие материалы для изучения, советуем вернуться и ознакомиться.

3️⃣ METEOR:
Данная метрика создавалась, как улучшенная альтернатива BLEU, которая учитывает не только точное совпадение слов в сгенерированном тексте с эталонными примерами, но и их синонимы и морфологические варианты, что делает её более гибкой и устойчивой к разнообразным формулировкам. В добавок, метрика выдает штраф за неправильную фрагментацию текста и неверный порядок слов. Подробно про методику расчет METEOR смотрите в этом видео.

4️⃣ Классические ML-метрики:
Оценивать текст можно также, как и числа, используя ML-метрики. Например, посчитать количество слов (токенов) в сгенерированном примере, вошедшие в эталонный пример - accuracy. Или посчитать recall через количество слов, вошедшие в эталонный пример (TP), но, учитывая недостающие токены (FN).

Теперь поговорим про model-based метрики:

5️⃣ BERTScore:
Данная метрика в процессе расчета использует BERT-модели, чтобы через векторные представления слов в предложении оценивать схожесть текстов. Кратко процесс оценки выглядит следующим образом: получение эмбеддингов для каждого слова в сгенерированном и эталонном текстах с помощью BERT. И затем (в упрощенном виде) по косинусному сходству токены из сгенерированного текста сопоставляются с токенами эталонного текста, после чего высчитывается Recall-BERT, Precision-BERT F-BERT. Более детально про архитектуру подсчета BERTScore читайте тут.

6️⃣ G-Eval:
G-Eval
(Generative Evaluation) создан для того, чтобы преодолеть ограничения статистических метрик (неустойчивость к формулировкам, разные длины сравниваемых текстов, непренимость к сложным задачам). В G-Eval в виде оценщика используются другие GPT-модели, например, GPT-4 от OpenAI. Оценка проводится через сравнительный анализ сгенерированного текста и эталонного примера по заранее выбранным критериям (согласованность, точность и т.д.).

🔥 Однако, это не весь список метрик, с помощью которых можно оценивать LLM, дополнительно читайте тут:

- Серия постов на Хабре про эволюцию NLP-метрик
- Ещё две статьи тут и тут про метрики, фреймворки и лучшие практики для оценки LLM.
- Отличная статья для погружения в бечнмаркинг LLM
- Статья с объяснением подхода "LLM-as-a-Judge" (LLM, как судья) [ENG]
- Evaluating-Cookbook - руководство по оценке LLM, созданное командой Hugging Face.

Ставьте ❤️ и 🔥 под постом!
Также пишите свои комментарии и вопросы! До встречи👋

Start Career in DS

16 Dec, 07:02


Всем привет! Хотим посоветовать вам канал Макса @zasql_python - продуктового аналитика в Яндекс Лавке. В своем блоге он пишет про различные интересные вещи, связанные с ML, A/B тестами + старается актуализировать трек обучения для вкатышей в аналитику / DS. Вот, например, его пост с роадмапом в продуктовой аналитике 🥰

Также выходила достаточно интересная серия постов с A/B и различными методами оценки результатов:
1. Хэш с солью
2. Выбросы в A/B тестах
3. Causal Inference, Propensity Score Matching...
4. Как доверительные интервалы могут решать задачи бизнеса

Относительно недавно он запустил формат, в котором каждую неделю подписчики могут сами выбирать какой пост будет на следующей неделе. Если вам это откликнулось, подписывайтесь, здесь много всего интересного

Start Career in DS

14 Dec, 07:02


🤖 Собрали для вас несколько роадмэпов по разным областям: Data Analyst, AI and Data Scientist, A/B Testing RoadMap, SQL, Python

Каждый из них содерджит последовательность областей, которые стоит изучить, что начать разбираться в соответствующей профессии

Python Developer - Step by step guide to becoming a Python developer in 2024
SQL Roadmap - Step by step guide to learning SQL in 2024
AI and Data Scientist - Step by step guide to becoming an AI and Data Scientist in 2024
Data Analyst Roadmap - Step by step guide to becoming an Data Analyst in 2024
A/B Testing RoadMap - Пошаговое руководство по проведению А/Б-тестов

Ставьте 🔥 если хотите общий roadmap по Data Science от нашего канала!

Start Career in DS

04 Dec, 07:15


Собрали для вас подборку исследований связанных DS и ключевые инсайты из них👇

💻 Условия работы:
- Исследование рынка аналитиков 2023 года от NEW HR:
▪️ топ компаний для трудоустройства: Яндекс, Авито, Авиасейлс
▪️ всего 3% хотят сменить сферу, большинство хочет развиваться внутри аналитики: расти по грейду, стать экспертом, сменить работодателя и т. д.

- Исследование релокации IT-специалистов 2022-2024 всех, не только аналитиков, тоже от NEW HR:
▪️ каждый 3-й релокант работает в отчасти российских компаниях (связаны с РФ, но работают за рубежом)
▪️ «релокацию оплачиает работодатель» - миф: 2/3 опрошенных, уезжавших из России, перемещались за свой счёт

🎓 Обучение:
- Независимое исследование онлйна курсов по аналитике от Left Join: сравнение популярных и не очень курсов по аналитике
▪️ топ платформы для обучения - Яндекс Практикум и Karpov.Courses

- Портрет специалистов, работающих в DS/ML/AI-направлении от DevCrowd, в исследовании есть большая подборка полезных книг, курсов, подкастов и Telegram-каналов по теме DS
▪️ 47% респондентов хотят улучшить свои знания фундаментальной математики
▪️ каждый третий обучился своей профессии самостоятельно

💭Ещё интересные исследования:
- За кем следят продуктовые и дата-аналитики от NEW HR: список самых часто упоминаемых экспертов. Весь список тут
▪️ топ-3 экспертов: Карпов Анатолий, Бунин Роман, Бабушкин Валерий

- ИТМО провел исследование ML/Data Open Source решений в России: какие компании лидируют, какие проблемы и перспективы есть у инструментов
▪️ лидеры в разработке собственных открытых решений: Яндекс, Сбер, Т-Банк
▪️ почти все компании-разработчики открытых решений в Data/ML находят пользователей не только на внутреннем, но и на международном рынке

Ждем ваших 🔥 и ❤️!

Start Career in DS

29 Nov, 09:10


Новый сезон конкурса грантов на обучение в Центральном университете!

Есть возможность поступить на одно из направлений бакалавриата по искусственному интеллекту, разработке и бизнес-аналитике с грантом до 2,8 млн рублей. Программы поддерживаются более чем 40 ведущими компаниями, среди которых Т-Банк, VK, Avito и Kaspersky, — с возможностью пройти стажировку и начать карьеру.

Помимо диплома государственного образца и практико-ориентированного образования студенты получат:

-знания и навыки, с которыми не придется переучиваться на работе;
-оплачиваемую стажировку в одной из компаний-партнеров;
-личного ментора из индустрии;
-современный кампус в Москве и сильное сообщество.

С ноября уже стартовал новый сезон конкурса грантов — подать заявку можно уже сейчас. Подробнее о том, как получить место в вузе уже сейчас, и об университете вы можете прочитать здесь.

Реклама. АНО ВО "Центральный университет", инн 7743418023, erid:2RanymSwKBv

Start Career in DS

27 Nov, 16:53


🥷🏻 ML-System Design: справочник материалов для подготовки

❗️ML System Design - один из важнейших этапов на собеседовании в топовую компанию. Строить грамотные ML-решения хочет каждый, и поэтому мы подготовили для вас общий справочник со всей актуальной информацией по данной теме.

🔥Погнали:

- Пошаговая методичка на GitHub, как правильно дизайнить ML-решения
- Ещё один репозиторий с интересным фреймворком и примерами решений ML System Design кейсов
- Огромная база знаний с описанием +500 реальных ML и LLM кейсов из мировых BigTech компаний, сможете прокачать экспертизу и набраться новых подходов
- Большой набор ТГ-постов от Саши Исакова по каждому этапу DS-собеседований, включая ML System Design
- Курс видеолекций на ODS по ML System Design с нуля
- Научиться писать ML System Design Docs можете тут, а познакомиться с тем, что вообще такое дизайн-документ тут
- Статья на Хабре «Как деплоить и тестировать модели в продакшне» - важный этап в процессе MLSD
- Серия постов для подготовки к DS-собеседованиям, с отдельной частью про System Design, включая большое количество дополнительных материалов и книг
- Статья для новичков «Чтобы я хотел знать про ML System Design раньше»
- Большой плейлист на YouTube с собеседованиями от karpov.courses, включая мок-собеседования по ML System Design с Валерием Бабушкиным

👇🏻Также призываем в комментариях делиться актуальными материалами по данной теме!
Ставьте ❤️ и 🔥 за крутой пост!
До встречи👋

Start Career in DS

25 Nov, 16:55


▶️ Продолжение серии видео от 3Blue1Brown про нейронные сети!

Ранее мы уже писали про серию их постов, переведённую на русский язык, там были видео про работу нейронных сетей в целом, градиентный спуск и обратное распространение ошибки.

Ребята в комментариях дополнили, что у 3B1B на английском есть ещё 3 видео!
Дополняем свою подборку ими. Кроме того, у этих видео есть весьма качественный русский дубляж 🙂

[ENG + RUS] Transformers (how LLMs work) explained visually | DL5
Объясняет что происходит внутри трансформера в начале и в конце обучения. Показывает геометрическое представаление эмбеддинга слов в многомерном пространстве

[ENG + RUS] Attention in transformers, visually explained | DL6
Иллюстрация работы механизмов внимания на примере простого предложения. Показывает взаимодействие эмбеддингов слов в предложении между собой и разницу между self-attention и cross-attention

[ENG + RUS] How might LLMs store facts | DL7
Как устроены многослойные перцептроны. Понятная иллюстрация того, как модель сохраняет факты

Ждём ваших ❤️ и 🔥!

Start Career in DS

23 Nov, 09:14


⚡️ Хакатон Т1 2024 в Москве с призовым фондом в 1 200 000 рублей!

Когда: 26-29 ноября 2024
Формат: гибридный
Призовой фонд: 1 200 000 рублей

Кому будет релевантно:
– Студентам старших курсов технических вузов;
– Специалистам по frontend или backend-разработке, системный аналитикам, Data Scientist’ам

❗️На хакатоне будут предложены 2 кейса:

1. Хаб: объединение данных пользователя в золотую запись
Задача - создать методику, которая поможет найти "золотую запись" в большом наборе данных, используя признаки актуальности, частоты и полноты.

2. Окно знаний: цифровой ассистент базы знаний
Задача - создать платформу, которая позволит пользователям разрабатывать окна взаимодействия с ассистентом, интегрируя собственные базы знаний.

▶️ Регистрация открыта по ссылке до 24 ноября, 23:59 МСК

Start Career in DS

20 Nov, 15:33


ℹ️ Всё про токенизацию и токенизаторы в языковых моделях

Токен -
это минимальная единица текста, с которой работают современные языковые модели. В качестве токена могут выступать как полноценные слова, так и части слов, слоги или отдельные символы.
✂️ Например, в некоторых моделях слово «привет» может разбиваться на токены: [«при», «вет»].

Токенизация — процесс предобработки входного текста в список токенов. Обычно далее каждый токен векторизуется и весь этот массив векторов подаётся модели на вход, с чем она начинает работать.

🤯 В моделях Transformer токенизаторы обучаемы. Обучение токенизаторов не схоже с тем, как обучаются ML-модели, наоборот, это статистический процесс, который определяет, какие сочетания символов (подслов, слов) лучше всего выбрать для корпуса текста, с которым мы работаем.

🔝Современные токенизаторы можно разделить по следующим видам:

1. Byte-Pair Encoding (используется в GPT-like моделях, обучается слиянием символов из основного корпуса, выбирая пары по наибольшей частоте встречаемости, подробно про алгоритм и реализацию кода обучения читайте тут)
2. WordPiece (используется преимущественно в BERT-like моделях, также обучается слиянием, но используется не частота встречаемости, а более универсальная формула, также подробно читайте про реализацию и формулу тут)
3. Unigram (не так применим, однако, для полноты картины читайте о нем тут)

❗️Почему это важно:

1️⃣ Фертильность
(мера, показывающая среднее количество токенов на одно слово после токенизации предложения):
Напрямую влияет на стоимость использования любой модели: больше токенов после токенизации предложения -> больше входная последовательность в LLM -> больше стоимость.

2️⃣ Качество работы
:
Правильно токенизированная последовательность также сильно влияет на качество модели из-за появления символов, которых модель не видела или из-за особенностей некоторых языков, где нет, например, пробелов.
Очень грамотно и подробно этот нюанс описан тут.

3️⃣ Скорость работы:
Следствие из первого пункта: чем больше последовательность токенов, тем больше вычислений стоит делать, что также влияет на скорость ответа модели.

🔥 Дополнительная информация по теме:

-
Краткий обзор токенизаторов на Хабре
-
О токенизаторах с NLP-курса на Hugging Face
-
«Насколько хорош Ваш Токенайзер» - статья на arxiv [ENG]
- Статья на английском для начинающих о токенах в LLM [ENG]

Теперь вы знаете, как работают токенизаторы🔥
Ждём ваших лайков и обратной связи❤️
До встречи👋🏻

Start Career in DS

18 Nov, 13:59


Привет! На связи создатель канала Рома Васильев и команда канала Start Career in DS 🙂

Мы хотим узнать о вас больше и понять какие материалы вам действительно будет интересно читать, поэтому мы подготовили для вас небольшой опрос. Опрос займет не более минуты, ждем ваших голосов и комментриев👇

Start Career in DS

15 Nov, 09:52


🔥 Материалы для подготовки к собеседованиям от Start Career in DS и Alfa Advanced Analytics
Добавляем в избранное!

Вместе с Telegram-каналом Центра продвинутой аналитики Альфа-Банка подготовили для вас гайд по собеседованиям для Data Scientist’ов 🔥

В подборке — советы и инсайты от экспертов, а также примеры реальных заданий, которые могут встретиться вам на интервью в Альфа-Банк и не только. Будут полезны как новичкам в DS, так и опытным специалистам!

Сохраняйте подборку и заглядывайте в канал Alfa Advanced Analytics 🙂
А в канале Start Career in DS вы сможете найти много полезных материалов для развития в Data Sceince, а также регулярные квизы с призами!

Материалы для подготовки. Сохраняйте, чтобы не потерять:

🔗 Как вспоминать базовую математику - часть 1, часть 2
🔗 Пет-проекты для начинающего Data Scientist'а - ссылка
🔗 Открытый курс по прикладной статистике от Академии Аналитиков Авито - ссылка
🔗 Deep Learning: теоретический справочник по базовым концепциям - ссылка
🔗 Классический ML – база: справочник основных алгоритмов - ссылка
🔗 Учебник Школы анализа данных — смотреть  
🔗 Семестровый курс DLS — смотреть
🔗 Искусственный интеллект в финтехе — смотреть
🔗 Kaggle — смотреть
🔗 GitHub курса ML-1 в ВШЭ — смотреть

Start Career in DS

13 Nov, 16:54


🦜RAG: Классический подход и современные улучшения [Ч.2]

📖 В прошлой статьей мы разбирали для чего нужны и какую задачу решают RAG-системы.
Сегодня мы перейдем к описанию классических подходов и как они строятся, а также поговорим про более продвинутые техники.

🔍 Базовая архитектура RAG:

❗️Пререквизит:
В своей системе RAG использует так называемые векторные представления — способ представления текста в виде вектора (точки в многомерном пространстве). Чем ближе друг к другу в этом пространстве находятся две точки, тем больше их текстовые представления похожи по смыслу. Это позволяет находить релевантные части контекста, даже если они используют другие слова или фразы.

1️⃣ Чанкинг базы знаний
Чанкинг — разбиение больших документов на маленькие части (чанки). Например, длинный текст книги можно разбить на абзацы или предложения. Таким образом, система может искать ответ в средних отрывках текста и получать более конкретные результаты без потери контекста или его избыточности. Ответы по большим или очень маленьким блокам зачастую ухудшают RAG-систему.

2️⃣ Сохранение векторов чанков в векторную БД
После этапа чанкирования необходимо векторизовать все полученные куски и сохранить их в векторную базу данных для дальнейшего семантического поиска и извлечения наиболее релевантных.

3️⃣ Получение пользовательского запроса и его векторизация
Для того, чтобы сравнивать пользовательский запрос с теми частями, которые мы сохранили в базу данных, нам также необходимо его векторизовать.

4️⃣ Отбор релевантных чанков
Здесь начинается процесс семантического поиска. В RAG-системе вектор пользовательского запроса сравнивается со всеми векторами в БД через какую-либо меру сходства. Куски, имеющие наибольшую величину сходства, передаются на следующий этап.

5️⃣ Передача найденных чанков в генеративную модель
После отбора самых релевантных чанков RAG передает их в LLM, которая генерирует ответ на все тот же пользовательский запрос, но уже с использованием полученного контекста.

🔝 Однако, такой классический подход не всегда даёт должного результата, и в таком случае стоит переходить к более продвинутым техникам и улучшениям:

- Подробная статья про Advanced RAG
- Про хитрости и улучшения RAG на ODS
- Совсем недавний подход от Anthropic по построению контекстного поиска в RAG
- Статья с набором придвинутых техник в RAG
- Серия постов на Хабре про RAG

📚 Ещё дополнительной литературы на эту тему:

- Простое и понятное объяснение RAG
Дополнительная статья про векторные БД
- Advanced RAG [ENG]
- Алгоритм BM25, который иногда используется для поиска в RAG

Обязательно ставьте лайки❤️
До скорых встреч👋🏻

Start Career in DS

11 Nov, 15:25


📊 Обзор инструментов BI - систем для построения дашбордов

Мы уже делали обзор библиотек по визуализации данных. Сегодня хотим рассказать про BI инструменты:

🔘 Power BI
Отличается быстрой интеграцией с Excel и другими продуктами Microsoft, что упрощает построение регулярных отчётов и аналитики. Хорош для средних и крупных компаний, где важна удобная работа с данными внутри Microsoft Office.
Пример: маркетинговый отчёт

🔘 Tableau

Популярен в крупных компаниях, помогает обрабатывать и визуализировать большие массивы данных из разных источников. Доступен функционал сложных интерактивных отчётов. Однако, он ушёл из РФ и для многих компаний России больше недоступен
Пример дашборда: [ENG]Time Series Analyse in Tableau

🔘 DataLens
BI-система от ребят Яндекса, работающая в Yandex Cloud.
Очень быстро развивается, особенно в последние годы (после ухода tableau), т.к. многие компании перешли на него.
Отлично интегрируется с облаком и позволяет быстро собирать практически любые базовые отчёты
Примеры: DataLens Demo Dashboard и Обзор дашборда Yandex DataLens от LeftJoin

🔘 Metabase
Бесплатная и простая платформа с минимальными настройками для небольших команд. Особенность: фокус на SQL-запросах, которые пользователи могут писать прямо в интерфейсе, и лёгкость получения отчётов без сложных технических навыков. Подходит для небольших компаний, которым нужен быстрый анализ данных.
Пример: [ENG] Metabase Tutorials - можно посмотреть как созадавать графики и дашборды

🔘 Redash
Сделан для команд, которые хотят быстро визуализировать данные на основе SQL-запросов. Отличие от Metabase — в фокусе на минималистичном интерфейсе и возможности получать быстрые результаты по запросам в базах данных. Подходит небольшим командам, знакомым с SQL, но не требует глубоких технических знаний.
Пример: Как создать дашборд в Redash?

🔘 Apache Superset
Инструмент с большим потенциалом для настройки, отличающийся гибкостью и мощной поддержкой SQL для опытных аналитиков. В отличие от Metabase и Redash, поддерживает более сложные визуализации и кастомные отчёты, что делает его идеальным для проектов с нестандартными запросами и профессиональных команд.
Пример: Обзор визуализаций в Apache Superset



Что ещё можно почитать про BI-системы:
- Канал Ромы Бунина - гуру визуализаций - @revealthedata
- Вводную статью про datalens тут
- Туториал по tableau тут
- Статью
Как найти сокровища в данных, или Зачем нужна BI-система

Start Career in DS

02 Nov, 14:22


📹 Рекомендуем серию видео от 3Blue1Brown про нейронные сети. Как всегда красивые визуализации и понятное объяснение принципов работы нейронных сетей.

Видео 1: объясняет что такое нейронная сеть на примере решения классической задачи по распознаванию рукописных цифр. Видео показывает что такое скрытые слои, веса и сдвиги.

Видео 2: показывает как обучаются сети. Понятная визуализация градиентного спуска, функции ошибки и того, что происходит с весами при активации нейрона.

Видео 3: как найти отрицательный градиент функции оценки с помощью метода обратного распространения, объяснение с иллюстрациями и без формул.

Видео 4: объяснение механики метода обратного распространения уже с формулами и с точки зрения математического анализа.

Start Career in DS

29 Oct, 15:58


🏆 Авито ML Cup

Ребята из Авито проводят турнир по машинному обучению с призовым фондом.

Задача: создать модель, которая будет передавать пользователю наиболее релевантную рекламу, основываясь на его выборе и характеристиках. Победит модель, которая лучше всего предсказывает вероятность клика.

🔴 Старт соревнования: 5 ноября
🔴 Команды до 4 человек
🔴 Призовой фонд: 600 000 рублей!

Зарегистрироваться можно по ссылке

Start Career in DS

25 Oct, 15:47


🦜🔗LangСhain - библиотека, расширяющая возможности LLM

Недавно в нашем канале был опубликован пост Hugging Face Hub и библиотека transformers, а сегодня мы хотим расширить тему наиболее популярных инструментов при работе с LLM и расскажем про ключевые особенности библиотеки и всей экосистемы LangChain.

LangСhain - популярная библиотека, которая упрощает разработку LLM-Driven приложений, предоставляя все необходимые инструменты для создания агентских систем, цепочек вызовов и взаимодействия языковых моделей с внешними API.

Основные особенности LangChain:

1️⃣ RAG (Retrieval Augmented Generation)
В нашем предыдущем посте мы рассказывали про концепцию создания RAG-систем. LangChain оснащен всеми необходимыми инструментами для построения классического RAG.
Например, перед вами поставили задачу построить QnA чат-бота в онлайн-поддержке. С помощью LangChain вы сможете сформировать правильную базу знаний из источников, по которым должен отвечать бот, и на пользовательский запрос находить релевантные части потенциальных ответов для дальнейшей генерации конечного ответа LLM’кой.

2️⃣ Chains (цепочки)

LangСhain запросто позволяет создавать последовательности операций (цепочки) для задач обработки естественного языка, которые могут состоять из различных этапов обращений к LLM, использованию внешних API и составления промптов.
Такой подход может использоваться абсолютно в любой задаче, где процесс обработки пользовательского запроса моделью имеет цепочечный вид: запрос пользователя -> формирование промптов для модели -> получение ответа модели -> преобразование ответа и вывод.
Более детально про цепочки в LangChain читайте из официальной документации.

3️⃣ Агентские системы
Концепция Агентов сейчас набирает большую популярность в задачах, где LLM могут использоваться для решения более сложных задач, нежели просто генерация текста.
Например, дать возможность LLM вызывать API прогноза погоды для предоставления актуальной информации пользователю по данному вопросу. В роли API может выступать более продвинутые инструменты - базы данных, несколько API, пользовательские функции. LangChain расширяет возможности работы LLM в такой роли и упрощает разработку агентских-систем.

4️⃣ LangGraph
Это дополнительная библиотека в экосистеме LangChain, которая позволяет создавать рабочие процессы на основе графов. Сюда может входить, как создание рабочих цепочек, исполняющихся агентом, так и формирование графов знаний, который могут выступать заменой классическим базам знаний в RAG.
🔥Введение в LangGraph смотрите тут и тут

5️⃣ LangSmith
Среда для создания LLM-Driven приложений, которая объединяет все инструменты экосистемы LangChain, а также даёт возможность визуально отслеживать и улучшать разработку таких приложений.
Например, отображает RAG-пайплайн и выводит логи на каждом шаге.
🔥 Изучение LangSmith можете начать тут и тут

📌 Что ещё стоит изучить:
- Серия практикоориентированных постов на Хабре по созданию AI-агентов с помощью LangChain
- Официальный LangChain CookBook с огромным количеством реализаций различных задачек с LLM под капотом
- Как создана концепция экосистемы из официальной страницы
-
Дополнительно про агенты читайте здесь

В следующем посте хотим рассказать про особенности AI-Агентов на базе LLM!
Ставьте:
🔥 - если текущий пост был полезен!
❤️ - если ждете следующий!
До встречи👋🏻

Start Career in DS

23 Oct, 15:01


🧠 Про критическое мышление

Знание статистики, умение программировать и пользоваться Pandas - всё это необходимые навыки для успешной работы в DS. Но одним из ключевых софтовых навыков является умение критически мыслить.

Для успешной карьеры в DS важно понимать задачи бизнеса, правильно задавать вопросы, смотреть на проблему под разными углами и делать выводы полезные для бизнеса.


👇Как критическое мышление можно проявлять в работе DS'a:

📎 Задавать вопросы про природу процессов и данных.
Важно искать смысл за данными и понимать что они за собой несут. Разобраться откуда данные пришли, почему возникли пропущенные значения и тд, и только после этого использовать какие-либо алгоритмы

📎 Придумывать альтернативы. Стараться понимать какой смысл за моделями стоит и, когда и какую из них применять. Самое простое решение во многих задачах классического ML - взять градиентный бустинг и применить, но это может быть не самым логичным решенем для вашей задачи. Нужно понимать что стоит за данными, думать наперед и понимать как этот алгоритм будет применяться дальше

📎 Отслеживать тенденции в своей области. Прежде чем приступать к задаче, проверьте в интернете кто и как делал эту задачу до вас. К примеру, если вы строите модель предсказания спроса, то вероятно кто-то уже строил эту модель. Можно сэкономить время на ошибках и сделать работу эффективнее, если провести предварительную подготовку

📎 Расширять кругозор. Очень круто читать и анализировать профильную литературу и научные статьи, смотреть какие новые методы появляются в сфере и как можно их использовать. Однако важно не только разбираться в технической части, но и узнавать как новые методы будут интегрироваться в бизнес и в продукт, то есть - понимать как это будет выглядеть на практике и на что повлияет. Тут можем порекомендовать несколько книжек по теме ▶️

Расширить кругозор в области применения машинного обучения:
📚 Машинное обучения для бизнеса и маркетинга - отличная книжка, которая проведёт вас по основам машинного обучения в практически всех областях (не только маркетинга!)

Понять что такое критическое мышление в общем смысле этого слова:
📚 Гарри Поттер и методы рационального мышления - история про то, как всем известная история могла бы пойти по другому пути

---
Мы стараемся делать контент более разнообразным и полезным для вас! И нам важна обратная связь 🙂

Поставьте ❤️ этому посту, если вам нравится периодически почитывать про софты и 👍, если хотите больше технических материалов

Start Career in DS

20 Oct, 07:14


☁️ RAG: концепция [Ч.1]

🚫
Современные LLM обладают впечатляющими навыками решать новые задачи без необходимости обучения. Однако, если в тренировочном датасете были данные или факты, имеющие временную изменчивость, то ответы модели могут приводить к галлюцинациям.

📌 Базовый пример: мы хотим, чтобы LLM отвечала по внутренним документам нашей компании для помощи клиентам.

Очевидно, что любая LLM не имеет точных и актуальных знаний для правильного ответа на любые запросы подобного рода, поэтому и была придумана RAG-концепция.

🔍 RAG (Retrieval Augmented Generation) - метод поиска и извлечения релевантных данных по пользовательскому запросу из внешней или внутренней базы знаний с целью расширить контекст модели актуальной информацией.

🗂 В качестве базы знаний тут могут выступать различные структурированные (базы данных, таблицы) и неструктурированные (книги, журналы, документы) источники информации.

❗️Глобально RAG помогает решать не только проблему актуализации данных, но при этом экономит много ресурсов и времени для продукта, если бы задача обновления знаний решалась через дообучение LLM.

Разберем основные части RAG:

- Retrieval - часть системы, которая отвечает за поиск и извлечение информации, так и называют — ретривер (retriever).
- Retrieval Augmented — дополнение запроса пользователя найденной релевантной информацией.
- Retrieval Augmented Generation — генерация ответа пользователю с учетом дополнительно найденной информацией.

📚 Дополнительное чтиво:
- Простое объяснение RAG на Хабре
- Подробно о генерации с дополненной выборкой на AWS Amazon
-
GPT и RAG технологии в Базе знаний InKnowledge

В следующих частях данной серии поговорим про современные подходы к построению RAG, а также от нашей команды вы получите общий справочник по данной теме.
Ставьте ❤️ и 🔥 за интересный пост!
До встречи👋

Start Career in DS

18 Oct, 12:54


📺 Митап Яндекса по аналитике данных

Data Driven — это ежегодная конференция для тех, кто анализирует данные, чтобы принимать бизнес-решения.

26 октября приглашают всех, кто интересуется DS и Анализом данных, послушать спикеров из Крауда, Рекламы, Алисы и других команд.

В программе: доклады о фичах на основе пользовательских отзывов, машинном переводе, обучении YandexGPT, метриках KPI и многом другом.

📍Место: Москва, ст. м. «Парк культуры»

📅 Дата: 26 октября в 12:00

💻 Регистрация

Реклама. ООО "Яндекс", ИНН 7736207543.

Start Career in DS

14 Oct, 17:55


💥Итоги Квиза по Machine Learning💥

🔥🏆 Рады сообщить об окончании квиза по ML и поздравить участников и победителей!

Результаты получились следующие

🥇 Шесть финалистов:

▫️
По набранным баллам:
@Ilyashenko_Roman
@disgur00
@yannyL

▫️Выбранные рандомайзером:
@serttyzar
@lllFaNToMlll
@Schizandraceae

Получают в подарок книги!

🏆 Один победитель:
@foxybyte получает персональную консультацию от админа-канала Ромы Васильева!

💬 Ребята, мы придем ко всем в личку в ближайшее время, просьба открыть доступы

🫶 Спасибо вам за активное участие!
🧠 Надеемся вам было полезно и вы узнали много нового!

Ставьте ❤️, если было интересно и 🔥, если ждёте следующего квиза!
🚀 Победители и все участники принимают поздравления в комментариях!

Start Career in DS

11 Oct, 16:03


💯 Квиз №3 по NLP и LLM

⬆️ Посты с вопросами на первый и второй квизы

🦾А мы приступаем к тематическим вопросам, связанные с «NLP и LLM»:

1️⃣ Как обучается Word2Vec?

2️⃣ Какие основные отличия между RNN и Трансформерами?

3️⃣ В чем отличие Encoder-блоков Трансфомера от Decoder-блоков.

4️⃣ Для чего нужен Position Encoding в архитектуре Трансформер?

5️⃣ Что такое BLUE и ROUGE? В чем их отличия и в каких задачах применяется?

👇Ждём ваших ответов под постом!
А также ставьте ❤️ и 🔥 за интересные вопросы!

❗️Данный пост является последним в текущем квизе. Успейте принять участие, ответив на вопросы текущего поста в комментариях!

Start Career in DS

09 Oct, 15:47


🔥Квиз №2 по Machine Learning🔥

💯Рады сообщить, что сегодня запускаем вторую часть нашего нового квиза с вопросами на понимание ключевых концепций Data Science и Machine Learning!
👆Первую часть квиза вы можете найти тут

☑️Основные правила остаются теми же, а мы приступаем к вопросам по Machine Learning!

🤖Вопросы:

1️⃣ Как работает KNN Imputer?

2️⃣ В чем разница между стохастическим градиентным спуском (SGD) и градиентным спуском (GD)?

3️⃣ Как объяснить, что означают ошибки I и II рода?

4️⃣ Как работает алгоритм SVD?

5️⃣ Кратко опишите основные подходы к feature selection

Ставьте ❤️ и 🔥 за интересные вопросы!

👇Участвуйте в опросе и пишите свои варианты в комментариях!
⌚️Совсем скоро мы опубликуем правильные ответы!

Start Career in DS

07 Oct, 15:54


🔥Квиз №1 по Python🔥

☝️ Выше мы объявляли анонс новой серии квизов по Machine Learning. Сегодня решаем 1-ю часть вопросов, касающихся Python.

🐍Вопросы:

1️⃣ Что такое интерполяция строк?

2️⃣ В чем разница между func и func()?

3️⃣ Где быстрее поиск: в словарях или списках?

4️⃣ Что такое globals() и locals()?

5️⃣ В чем отличие Cython и CPython?

Ставьте ❤️ и 🔥 за интересные вопросы!

👇Участвуйте в опросе и пишите свои варианты в комментариях!
⌚️Совсем скоро мы опубликуем правильные ответы!

Start Career in DS

07 Oct, 07:39


🆘 Анонс квиза по Machine Learning🆘

🚀 Возвращаясь к нашей предыдущей инициативе, которая проходила в августе, команда Start Career in DS приглашает вас принять участие в новом захватывающем трехэтапном квизе по различным разделам машинного обучения!

💬 Формат Квиза:
- Длительность: 1 неделя
- Темы: Python, Machine Learning, NLP
- 3 поста по каждой теме (всего 15 вопросов)

📣 Структура постов:
1. Вопросы по синтаксису и особенностям языка Python
2. Вопросы по основам Machine Learning
3. Вопросы по базовым концепциям NLP и LLM

Как участвовать:
1️⃣ Следите за постами в течение недели
2️⃣ Для участия достаточно ответить на вопросы хотя бы в рамках одного поста из трех
3️⃣ Свои ответы опубликуй в комментариях под постом
4️⃣ Готово! Ты - участник нашего квиза, остается дело за малым - победить!

🛑Правила:
◽️Каждый квиз содержит по 5 вопросов выбранной тематики, которые часто можно встретить на собеседованиях
◽️Верные ответы будут прикреплены в комментариях под каждым постом через 24 часа после его публикации
◽️Свои ответы оставляйте также под постом в комментариях
◽️Ответ засчитывается при схожести с нашими заготовленными ответами
◽️Мы также учитываем скорость ответа: более ранний ответ будет иметь больший вес, если мы столкнёмся с одинаковым количеством верных ответов нескольких участников
◽️В комментариях будут добавлены ссылки на материалы, с которыми можно будет ознакомиться, чтобы лучше разобраться в вопросах, не пропускайте!!!

Выбор победителей и призы:
🎲 3 счастливчика будут выбраны случайным образом - победить сможет каждый!
🧠И ещё один победитель будет выбран по ответам по максимальному количеству набранных очков
🎁 Каждый из победителей фиксировано получит одну из книг по Data Science:
1. "Практическая статистика для специалистов Data Science"
2. "Грокаем глубокое обучение"
3. "Математические основы Машинного обучения"

🏆 А счастливчик, выбранный из участников рандомно, также в подарок получит персональную консультацию от админа канала Ромы Васильева

🔥Даже одно решение может принести вам призы, не упускайте шанс поучаствовать!

Заходите в комментарии этого поста, чтобы увидеть победителей прошлого квиза 👉

Ставьте ❤️ и 🔥 если ждете запуска нового квиза!

Start Career in DS

28 Sep, 16:01


📚Deep Learning: теоретический справочник по базовым концепциям

🔥Предыдущий пост в виде справочника по Machine Learning обрадовал нас вашей реакцией, и поэтому хотим сделать аналогичную подборку для изучения Deep Learning.

1️⃣ Введение в Deep Learning:
- Знакомство с полносвязанными нейронными сетями на Яндекс Учебнике
- Лекция от Нейчева Радослава по «Введению в нейронные сети»
- Поверхностное погружение в глубинное обучение
- Русский перевод «Что же такое нейронная сеть» от 3Blue1Brown на YouTube
- Как обучаются нейронные сети или про метод обратного распространения ошибки
- Видео на YouTube про градиентный спуск в нейронных сетях

2️⃣ Функции активации:
- Статья на Хабре про самые распространенные функции активации и как выбрать подходящую для вашей задачи
- Статья с разбором основных функций активаций
- Видео-обзор на YouTube про функции активации нейронных сетей с практикой

3️⃣ Оптимизаторы в нейронных сетях:
- Принципы работы оптимизаторов - объяснение на пальцах
- Методы оптимизации в Deep Learning от Яндекс Учебника
- Наиболее распространенные методы оптимизации с математическим объяснением для более продвинутых
- Optimizers for Neural Networks на Medium

4️⃣ Регуляризация глубоких нейронных сетей:
- Про инициализацию весов в нейронных сетях и виды регуляризации на Яндекс Учебнике
- Dropout - как метод решения проблемы переобучения нейронных сетей
- Что такое Weight Decay - простой объяснение на LinkedIn
- Огромная презентация с подробным объяснением методов регуляризации в нейронных сетях

5️⃣ Нормализация в нейронных сетях:

- Про все виды нормализации в нейронных сетях на Medium
- Что такое Batch Normalization
- Доступное объяснение нормализации в нейронных сетях на русском
- RMSNorm на GitHub

📌 Что ещё:
- Ответы на интересные вопросы нашего квиза по Deep Learning
- С этих постов можно начать изучение LLM - тут, тут и тут
- Пост про ТОП-вопросов из собеседований по NLP
- Самый популярный фреймворк для любой работы с нейронными сетями PyTorch и статья на Хабре о его возможностях
- Бесплатный курс видео-лекций по Deep Learning от Сергея Балакирева на YouTube
- Курс с лекциями от преподавателей МФТИ, начиная с Введения в Deep Learning и заканчивая более продвинутыми темами
- Немного практики для новичков
- Краткий курс по нейронным сетям в виде большой статьи на Хабре
- Книга с теорией + практика в Jupyter-ноутбуках: Understanding Deep Learning

Ставьте ❤️ и 🔥 если ждете подобные справочники и материалы для изучения Computer Vision и NLP!
Делитесь своими ресурсами в комментариях!
До встречи👋

Start Career in DS

19 Sep, 15:02


🦾Классический ML – база: справочник основных алгоритмов

🆙 Сегодня будем разговорить про основу основ – про существующие алгоритмы машинного обучения в рамках ключевого справочника, к которому вы сможете обратиться, если что-то вдруг забыли.

1️⃣ Линейные модели:

- Две части разбора алгоритма линейной регрессии и подготовка к собеседованиям по теме данной теме на нашем YouTube-канале: Ч.1 и Ч.2
- Про основы линейной регрессии читайте тут.
- Как насчет вспомнить работу логистической регрессии? Читайте подробный обзор про LogReg на Хабре.
- Также разберите особенности и принципы работы алгоритма "метод опорных векторов" на пальцах. В данном алгоритме есть ключевой гиперпараметр - kernel. С ним можете познакомиться по этой ссылке.
❗️Почитать про линейные модели от Яндекс Учебника можете тут либо изучить мини-курс по линейным моделям от ODS.

2️⃣ Деревья и их ансамбли:

- Понять работу решающих деревьев, на котором строятся самые сильные ансамбли, можете тут. Также для визуалов смотрите ML-Course про деревья и их ансамбли на ODS. Документация и объяснение работы решающих деревьев из scikit-learn.
- Разобраться, как работает случайный лес (RandomForest), можете, изучив следующие материалы: ML для начинающих с разбором RandomForest, про Бутстрэп и Бэггинг и документация scikit-learn.
- Бустим свои знания о градиентном бустинге. Также читаем статью "Градиентный бустинг - просто о сложном".

❗️Дополнительно:
- Про построение всех ансамблей в ML от Яндекс Учебника.
- Особенности алгоритмов CatBoost и LightGBM - статья на Хабре.
- Сравнение всех 3-х алгоритмов градиентного бустинга [ENG].
- Случайный лес в Spark ML.

3️⃣ Временные ряды:

- Хорошая статья про анализ временных рядом.
- Познакомиться с решением задачи временных рядов можно в статье на Яндекс Учебнике.
- Качественный вводный курс по ключевым моментам в задаче временных рядов.
- Модели вида ARIMA.
- Используем statsmodels для временных рядов или пробуем предсказать будущее с помощью библиотеки Prophet.

4️⃣ Кластеризация:


- Избыточный гайд по кластеризации в ML c теорией и практикой
- Кластеризация на Яндекс Учебнике
- Обзор всех методов кластеризации на scikit-learn
- Метод локтя - или как правильно выбирать количество кластеров
- Оценка качества кластеризации - полная статья на Хабре

🔥Курсы и доп. материалы:
- Осенний курс по всем ML-моделям от ODS
- Курс на GitHub с множеством русскоязычных ресурсов по всем темам Data Science и Machine Learning
- Старый, но всегда полезный курс Евгения Соколова по машинному обучению, выложенный на GitHub
- Англо-говорящим рекомендуется от ODS

☝️Помните: глубокое понимание каждого ML-алгоритма +1 к вашему спокойствию на следующем собесе!
🔝Не стесняйтесь в комментариях предлагать ресурсы и материалы, которыми вы пользуетесь!

Ставьте ❤️ и 🔥 за активный труд нашей команды!

Start Career in DS

17 Sep, 15:03


📝 Как составлять промпты для нейросетей

🖋️ Основные техники написания промптов:

◾️Zero-shot подход. Запрос без специфики, без дополнительных данных и без примеров ответа, подразумевается короткий ответ, часто просто положительный или отрицательный

◾️One-shot и few-shot подходы. Запрос должен быть четким и конкретным, должен содержать контекст и детали + один или более пример ответа

◾️Chain-of-thought подход ❗️ Запрос содержит вопрос и пример ответа с описанием процесса как прийти к этому ответу. Буквально нужно описать ход своих мыслей
❗️В новой модели OpenAI серии o1 не требуется использовать подход CoT. Модели o1 ‘обдумывают’ ответ и могут создавать длинную внутреннюю цепочку рассуждений, прежде чем одать ответ.

В промптах этих моделей сдедует писать запрос просто и коротко, и избегать промптов в виде цепочки мыслей (так как модель делает это сама). Подробнее про новую модельммодно почитать тут.

🔍 Гайды для промптинга:

[eng]Prompt engineering guide - гайд от Open AI

Руководство по промпт-инжинирингу - подробный гайд с описанием
техник и примерами применения

[eng]Prompt Engineering Guide - гайд от простого к сложному, подойдет для новичков и для продвинутых пользователей


🧠 Идеи использования нейросетей в жизни:

👉 Найти ошибку в коде: просто даем код и просим найти ошибку или добавляем контекста и возможные варианты ошибок

👉 Создать задачи для отработки навыков написания кода или sql запросов: Создай задачи на закрепления материала по теме joins in postgre sql

👉 Объяснить простыми словами методы/техники: написать объяснение работы метода tostring в numpy, с примерами кода и задачами для закрепления материала

👉 Создать scv датасет: создай csv датасет - 40 рядов и 5 столбцов, датасет содержит данные клиентов сети фитнес клубов

👉 Брейншторм идей: запрос на генерацию списков по теме мозгового штурма

Ставтье 🔥 и делитесь в комментариях для чего вы используете нейросети в работе и в жизни 🙌

Start Career in DS

13 Sep, 17:42


📊 Обзор библиотек для визуализации данных

🔘 Matplotlib
Одна из самых старых и широко используемых библиотек. Позволяет создавать и отображать почти любой график, но для сложной визуализации потребуется больше кода, чем в продвинутых библиотеках.
[eng]Matplotlib Crash Course, видео курс

🔘 Seaborn
Библиотека основана на Matplotlib и с ней можно создать специфическую визуализацию: тепловые карты, временные ряды и скрипичные диаграммы. Плюс по умолчанию диаграммы более визуально приятные.
Подробный гайд по Seaborn

🔘 Plotly
Умеет создавать графики и диаграммы аналогичные Matplotlib и Seaborn. Плюс позволяет создавать интерактивные визуализации данных — пользователи могут масштабировать, перемещать графики, кликать на элементы и всячески взаимодействовать с графиками.
Шпаргалка по Plotly для начинающих

🔘 Bokeh
Базируется на JavaScript-библиотеке D3.js и поддерживает создание интерактивных и динамических визуализаций, позволяет масштабировать, перемещать, выделять и аннотировать элементы. Графики можно легко интегрировать в веб-страницы.
[eng] Гайд по использованию Bokeh

🔘 Dash
Пстроена на базе Plotly, позволяет создавать интерактивные дашборды, используя только код Python.
Подробный обзор библиотеки на Хабре

Дополнительно:
- Библиотеки с нестандартными стялями визуализации
- Полезная статья с базовыми правилами - как создавать понятные и эффективные визуализации

Не забываем, что визуализация должна быть не только красивой и интерактивной, но и полезной. Основная цель графиков — донести мысль)

Ждем ❤️ и 🔥! И рассказывайте в комментариях про ваш опыт работы с библиотеками по визуализации!

Start Career in DS

10 Sep, 16:43


🤗 Hugging Face Hub и библиотека transformers: что стоит знать и как лучше использовать

🤖 Сегодня поговорим про Hugging Face Hub и библиотеку transformers, которую в первую очередь стоит использовать при работе с ML-моделями основанными на архитектуре Transformer. Об этих моделях рассказывали тут и тут.

💯Ключевые особенности библиотеки transformers:

1. Разнообразие моделей на Hugging Face Hub:
Огромное количество предобученных моделей на базе архитектуры Transformer: BERT, LLaMA, T5, ViT, LLaVA и много других, доступных "из коробки" на HF-Hub.

2. Мультимодальность, многозадачность и доступность
- Поддержка моделей, работающих не только с текстом (генерация, классификация, перевод), но и с другими модальностями: таблицами, изображениями, звуком и др.
- Возможность выбора модели подходящего размера для каждой модальности и задачи в зависимости от доступных вычислительных ресурсов.

3. Простота использования
Загрузка и применение моделей может быть выполнено буквально в несколько строк кода:

# Простой пример с анализом настроения текста
!pip install -q transformers

from transformers import pipeline

classifier = pipeline("sentiment-analysis")
result = classifier("I love machine learning!")
print(result)


4. Поддержка различных фреймворков и инструментов
- Поддержка PyTorch, TensorFlow, и JAX.
- Возможность дообучать модели на своих данных и под свою задачу, используя дополнительные Hugging Face библиотеки datasets и trl.
- Возможность оптимизировать обучение модели через библиотеки accelerate, peft и др.

5. Бесплатные ресурсы и обучающие курсы
Разработчики библиотеки очень активно развивает работу с open-source, включая бесплатные обучающие материалы и курсы для коммьюнити.

6. Работа со Spaces
Также Hugging Face позволяет разработчикам использовать бесплатные мощности для создания LLM-driven приложений в интернете.
А недавно в рамках программы ZeroGPU команда выделила ресурсы для предоставления доступа разработчикам к GPU за очень выгодную стоимость.

🔝Основные ссылки:
- Маршрутизация по Hugging Face Hub
- Документация Hub'a
- Курс от Hugging Face по NLP на русском
- Туториал по работе с библиотекой и Hugging Face Hub'ом

Попробуйте добавить свои преимущества использования библиотеки transformers в комментарии!
Ставьте ❤️ и 🔥 если этот пост был полезным!

Start Career in DS

06 Sep, 15:08


🧑‍🏫 Как найти ментора?

Менторство это отличный способ развития и прокачки скиллов в короткие сроки. В комментах к посту про карьерные консультации вы спрашивали про менторство. Самый быстрый способ найти ментора — специальные сервисы для поиска менторов:

Getmentor Выбираете специалиста в каталоге и оставляете заявку. Есть бесплатные и платные менторы. 2000+ специалистов из Авито, Яндекса, Google и других компаний.

Solvery.io Бесплатных менторов нет, но нижняя граница прайса около 2000 рублей. Есть бесплатное тестовое занятие на 15 минут, чтобы познакомиться с ментором и есть помощь в подборе ментора.

Эйч Гораздо меньше менторов, чем в первых двух сервисах, но тоже можно найти того самого. Бесплатных менторов нет, но есть помощь в подборе ментора.


Самостоятельный поиск ментора. Если сервисы для поиска вам не по душе, то менторов можно искать в соц сетях. Например, многие спецы ведут каналы/блоги и одновременно занимаются менторством. Такой способ имеет преимущество — можно заочно и бесплатно познакомиться с человеком через его контент.

▪️LinkedIn. Соц сеть подходит как для поиска работы, так и для поиска ментора. Можно увидеть места работы, стек, почитать посты и понять подходит вам человек ли нет.

▪️Telegram. Обращайте внимание на небольшие тг каналы от специалистов из индустрии. Часто такие блоги создаются для личного использования, но их авторы могут быть ценными специалистами, с которыми можно попробовать договориться о менторстве.

💡Бонус — если учитесь в хорошем техническом университете, можно найти ментора среди студентов старших курсов. Старшекурсники часто обладают значительными знаниями и готовы поделиться опытом.

Также можно искать ментора на офлайн/онлайн митапах, на вашей текущей работе, на форумах, и тд

Ставьте ❤️ и делитесь своими лайфхаками по поиску ментора в комментариях 👇

Start Career in DS

04 Sep, 16:41


📊 Метрики качества в задаче мультиклассовой классификации [2/2]

🎯 Расширяя ваш кругозор в решении задачи мультиклассовой классификации из первой части, сегодня поговорим про то, как в подобных задачах правильно оценивать качество работы нашей модели.

☑️ Метрики, используемые для оценки качества модели в задачах с множеством классов, никак не отличаются от задачи с бинарными метками: все также используется Accuracy, Recall, Precision, F1-measure, ROC-AUC.
Однако, из-за наличия нескольких классов меняется подход к их расчету, где существует: micro-усреднение, macro-усреднение и weighted-усреднение.
Разберем каждый по порядку:

1. Micro-average:
Означает долю верных срабатываний по всем классам, что аналогично метрике accuracy. Потому micro-усреднение любой метрики будет выдавать одинаковое значение равное accuracy.
Подходит, когда важно общее количество правильных предсказаний без учета дисбаланса классов.

2. Macro-average:
Вычисляет конкретную метрику, например, recall для каждого класса отдельно и затем берет среднее арифметическое, что и будет финальной величиной метрики по macro-усреднению. Работает аналогично для любой другой метрики классификации.
Подходит для оценки производительности модели одинаково по всем классам, независимо от дисбаланса классов в датасете.

3. Weighted-average:
Также вычисляет целевую метрику для каждого класса отдельно, как в п.2, но усреднение происходит по взвешенному способу, в зависимости от количества объектов в каждом классе.
Применяется, когда классы несбалансированы и важно учесть их численность в итоговой оценке.

❗️Чтобы поменять подход к расчету метрики в sklearn, требуется использовать параметр average (default="binary"), передав в него один из следующих аргументов {‘micro’, ‘macro’, ‘samples’, ‘weighted’, ‘binary’}:


from sklearn.metrics import precision_score

y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]
precision_score(y_true, y_pred, average='macro’)

# Output: 0.22...

📚 В каких местах ещё можно погрузиться в эту тему:

- База по метрикам в любых задачах, включая по multiclass, от ЯндексУчебника
- Отличная визуализация принципов усреднения различных F-мер для нескольких классов
- Про все разновидности метрик классификации читай тут
- Очень доступное объяснение на русском языке для новичков на YouTube
- Обширная лекция по метрикам качества в многоклассовой задаче

Ставьте ❤️ и 🔥 если данная информация была вам полезна!
Пишите свои комментарии и вопросы под постом👇

Start Career in DS

30 Aug, 15:50


🔎 Аналитик данных и data scientist — в чём разница?

Data Science это совокупность различных дисциплин. Термином data scientist работодатели в описании вакансий обозначают большой спектр навыков и задач: работа в Excel, написание скриптов в SQL, визуализация данных, а/б тесты, создание рекомендательных систем, создание систем компьютерного зрения и тд.

Мы предлагаем поделить профессии согласно схеме на картинке по 3 параметрам: domain (сфера бизнеса, экспертные знания), math (метрики, ав-тесты, математизация процессов), dev (разработка, технические инструменты). Разберем три самые распространенные направления:

▪️ ML Engineerсконцентрирован на построении моделей машинного обучения.
Глубоко разбирается в своём направлении с точки зрения техники, изучает статьи по нужной тематике, спокойно может реализовывать новые подходы

▪️ Data Analystработает на стыке бизнеса и данных.
Разбирается в доменной области, проводит исследования на данных, разрабатывает дашборды и сетапит АВ-тесты. Как правило, не погружается глубоко в технические задачи

▪️ Data Engineerуправляет потоками данных.
Эти ребята, как правило, отвечают за потоки данных: настраивают процессы обновления витрин, следят за полнотой доезжающих данных, пишут сложные Data-пайплайны.

Но важно понимать, что от компании к компании роли могут меняться кардинально.
Где-то Data Analyst может строить модели, а где-то ML-инженеров припрягают разбираться в бизнес-проблемах 🙂

Хорошие материалы на поизучать:
- Видео Валерия Бабушкина, в котором он рассказывает про напрввления в Data Science
- Статья Евгения Смирнова на Хабре, в которой он пишет про то, что нужно спросить у работодателя на собеседовании, в том числе про роль дата сайентиста в компании

Start Career in DS

28 Aug, 15:34


Завтра в Data №1: от анализа данных при продаже кумыса до руководителя международной аналитики

Запускаем новую рубрику, где расскажем об экспертах в сфере Data — об их крутых проектах, пройденном пути и накопленном опыте.

🔜 Гость пилотного выпуска — Роман Васильев, руководитель международной аналитики «Яндекс Поиск».

Автор Telegram-каналов Start Career in DS и я так понимаю, Роман Васильев.

О чем это интервью?
🔵Как развиваться в Data новичку: университет, курсы или самостоятельное обучение.
🔵О факторах, влияющих на успех в сфере.
🔵О подводных камнях в работе.
🔵Что читать и смотреть, чтобы развиваться в Data (ссылки оставили в комментариях).

Все подробности — в карточках 🔥

А задать любые интересующие вопросы Роману можно в комментариях!

🔜 @leftjoin_career