Блог о Data Science 💻 @notedatascience Channel on Telegram

Блог о Data Science 💻

@notedatascience


Работаю аналитиком в Яндексе, учусь NLP в Вышке и веду этот канал про применение Data Science в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Чат канала: t.me/notedatasciencechat

Автор: @travelwithtagir

Блог о Data Science 💻 (Russian)

Добро пожаловать на канал notedatascience в Telegram! Меня зовут Тагир, я работаю аналитиком в Яндексе и учусь NLP в Вышке. Я создал этот канал для тех, кто интересуется применением Data Science в компаниях. Здесь вы найдете новости индустрии, обзор рынка труда, информацию о мероприятиях и другие актуальные темы вокруг науки о данных. Хотите быть в курсе последних трендов и разработок в сфере аналитики и машинного обучения? Тогда подписывайтесь на наш канал и не упустите ни одной важной новости! Дополнительно, у нас есть чат, где вы можете обсудить интересующие вас вопросы и делиться опытом с другими участниками. Присоединяйтесь к нашему сообществу и будьте в курсе всех событий в мире Data Science! Подпишитесь на канал notedatascience прямо сейчас и станьте частью нашей дружной и образовательной аналитической команды! С уважением, Тагир (@travelwithtagir).

Блог о Data Science 💻

20 Nov, 21:58


🤝 Результаты эксперимента «AI Art Turing Test»

В блоге Astral Codex Ten недавно опубликовали результаты эксперимента «AI Art Turing Test». Участникам предлагалось отличить произведения искусства, созданные человеком, от изображений, сгенерированных искусственным интеллектом

Вот некоторые цифры из результатов:

🤝 Средняя точность ответов участников составила примерно 60%
🤝 Только около 5% участников смогли правильно идентифицировать более 75% изображений.
🤝 Примерно 25% участников показали точность ниже 50%
🤝 Некоторые изображения вводили в заблуждение особенно часто: одно из AI generated изображений было идентифицировано как человеческое более чем в 70% случаев.

Подробнее об эксперименте и его выводах можно узнать в оригинальной статье: How Did You Do On The AI Art Turing Test?

@notedatascience

Блог о Data Science 💻

20 Nov, 18:00


💵 Хакатон: 21 трек и призовой фонд в 6.000.000₽

В октябре я участвовал в одном ML соревновании. Участники решали интересную задачу, общались друг с другом и боролись за большой призовой фонд. Мне было интересно и полезно порешать задачи, отличные от рабочей деятельности

До 26 ноября вы можете зарегистрироваться на Всероссийский Хакатон ФИЦ 2024. Там представлен 21 различный трек, а призовой фонд – 6.000.000 рублей 💸

Направлений много, но вот мои любимые:

📌 Учет личных финансов
📌 Оценка уровня экспертности по резюме
📌 Контекстный перевод названий научных работ
📌 Разработка сервиса печати этикеток для производителей одежды
📌 Формирование фото и видео контента с использованием нейросетей на основе биографии и фото персоны

Хакатон проходит в 2 этапа – онлайн отборочный этап пройдет с 29 ноября по 2 декабря, а оффлайн финальный этап пройдет с 3 по 4 декабря

📝 Успей зарегистрироваться по этой ссылке до 26 ноября 23:59, а в комментариях можно найти себе команду

Блог о Data Science 💻

25 Oct, 14:06


🎵 Как Spotify ускорил разметку данных для ML в 10 раз

Spotify недавно рассказал, как они ускорили разметку данных для ML-моделей в 10 раз. Главный секрет — использование LLM в сочетании с работой аннотаторов. Модели берут на себя первичную разметку, а люди дорабатывают и проверяют сложные случаи, что дает трехкратный прирост производительности

В стриминговом сервисе, который очень быстро растет, важно уметь создавать масштабируемые решения для снижения костов. Например, этот способ используется для выявления нарушений политики платформы

Их стратегия разметки строится на трех столпах:

⚡️ Масштабирование человеческой экспертизы: аннотаторы проверяют и уточняют результаты, чтобы повысить точность данных.
⚡️ Инструменты для аннотации: создание эффективных инструментов, которые упрощают работу аннотаторов и позволяют быстрее интегрировать модели в процесс.
⚡️ Фундаментальная инфраструктура и интеграция: платформа разработана так, чтобы обрабатывать большие объемы данных параллельно и запускать десятки проектов одновременно.

Этот подход позволил Spotify запускать десятки проектов одновременно, снизить затраты и сохранить высокую точность. Подробнее узнать об их решении можно в статье на их сайте 🎵

@notedatascience

Блог о Data Science 💻

30 Sep, 07:01


📱 Illuminate by Google: paper to podcast service

Google запустил в экспериментальном формате проект Illuminate – text-to-speech сервис, который превращает научные статьи по computer science в подкаст 🎧

Сначала создаются краткие резюме статей и вопросы-ответы, а потом два сгенерированных AI-голоса — интервьюер и эксперт — разворачивают вокруг статьи короткое интервью (3-7 минут), объясняющее суть работы 🤫

На сайте Google Illuminate уже можно послушать несколько примеров. Можно записаться в waitlist, чтобы получить доступ к самостоятельным генерациям. Я уже там как несколько недель, но доступа еще нет 🤗

Вот несколько примеров генераций:

⚡️Attention Is All You Need: audio, paper
⚡️Chain-of-Thought Prompting Elicits Reasoning in Large Language Models: audio, paper
⚡️Efficient Estimation of Word Representations in Vector Space: audio, paper

Если сервис будет развиваться, мы, вероятно, получим возможность генерировать свой контент без привязки к источникам – сейчас можно загружать статьи только с arXiv. Но и сейчас это отличная возможность получать в понятном формате статьи для прослушивания – например, во время тренировок 🤔

@notedatascience

Блог о Data Science 💻

03 Sep, 19:35


🔄 Зачем тестировать ML-системы?

Помните, как ребята из Microsoft в 2016 году запустили чат-бота по имени Тау, который обучался в реальном времени, анализируя ответы пользователей и генерируя собственные ответы? 🪟

Вы наверняка помните, что в течение 16 часов после запуска Tay начал генерировать оскорбительные и неприемлемые сообщения, что привело к значительным репутационным потерям для Microsoft. Наверное, на графиках можно отследить снижение капитализации 🔥

Если не хотите быть как Microsoft, рекомендую прочитать Хабр статью о тестировании ML систем — с подводкой, примерами кейсов, мемами, кодом и объяснением различных видов тестов 😵

@notedatascience

Блог о Data Science 💻

02 Aug, 09:10


🔄Практикуем математику в формате LeetCode

На некоторых проектах или позициях часто происходит так, что после собеседования необходимость в постоянной тренировке математического аппарата отпадает. Одно дело — заботать задачи к собесу, другое — добровольно решать это, когда нет дедлайна и требований🖍️

Но практиковаться надо. Я нашел парочку сайтов, где в формате LeetCode дают задачи на линейную алгебру, DL и ML, а также теорию вероятности и математическую статистику. Первые 3 блока можно решать здесь, последние два — здесь 📥

На сайтах очень приятный интерфейс с оглядкой на LeetCode — есть деление по категориям сложности [Easy, Medium, Hard]. А еще можно самому коммитить свои задачи 📁

Не уверен, что такие сайты будут пользоваться популярностью, пока математика не станет повсеместным однотипным этапом отбора, как это произошло с алгоритмами и систем дизайном. А что считаете вы? 🖼️

Блог о Data Science 💻

29 Jul, 14:02


🔄Главный миф, который стоит за Leetcode

Вчера я рассказал про аналог Литкода от Яндекса и задумался о том, как люди вообще воспринимают эту площадку. Я часто слышу, как людям, которые хотят заботать алгоритмы, советуют просто решать задачки на Литкоде. Но правильно ли это? 👋

У нас в Вышке был полноценный курс по алгоритмам, на котором мы все разбирали. А насколько вообще эффективно нарешивать задачи, когда у человека нет теоретической базы? 💺

Конечно, можно пару часов посидеть над задачей, заглянуть в обсуждения и еще на полгода забить на Литкод. А можно подойти более фундаментально и набраться теоретической базы 👓

Ведь изначально алгоритмические секции делаются не для того, чтобы проверить, как человек запомнил решение задачи и сколько их он прорешал — компания хочет понимать, что человек будет писать оптимальный код 💃

Можно прослушать на ютубе курс лекций и параллельно решать задачи. А можно воспользоваться хэндбуком от Яндекса — там в формате интерактивного учебника в правильном порядке подаются темы по алгоритмам 💻

Еще можно параллельно смотреть на neetcode.io, где есть подробный роадмэп по задачам — без теории, но хотя бы порядок решения задач/тем будет верным 🔍

Пишите в комментариях, что думаете про необходимость алгоритмических секций на собесах — а нужно ли это вообще? Кто-то пользовался этим хэндбуком от Яндекса? 👀

@notedatascience

Блог о Data Science 💻

28 Jul, 10:09


🔄Новый портал для тренировки алгоритмов

У Яндекса все свое. Не Jira, а Трекер. Не Zoom, а Телемост. Ребята даже свой SQL изобрели. А еще недавно они выпустили CodeRun — тренажер для решения алгоритмов вдобавок к своему хэндбуку по алгоритмам, о котором я писал здесь 📒

Это аналог Leetcode, который делают наши коллеги из Яндекса. Из плюсов — там есть подборки по машинному обучению, анализу данных и других областей. Еще там есть авторские подборки от сотрудников — от руководителя ШАДа, от чемпиона мира ICPC 2023, от СТО Поиска и других людей 🖥

А еще до 27 августа проходит контест среди участников, где лучшим подарят какие-то призы и фаст-трек на собесы. Очевидно, что такие вещи делаются для найма — если хотите в Яндекс, то можно что-то порешать для тренировки 💻

Из минусов — некоторые люди пишут, что заходят в Easy задачки, ничего не понимают и выходят. Сам я еще не решал, но добавил себе в копилку ресурсов для момента, когда буду снова ботать алгоритмы 🕷

А вы уже решали задачки на CodeRun? Там правда такие сложные задачи? Ставьте реакции китов 🐳 — нас обязательно заметят и сделают еще один сервис под названием Яндекс Кит ✉️

@notedatascience

Блог о Data Science 💻

25 Jul, 17:12


🔄Подборка зарубежных мероприятий по Data Science

Принес вам подборку зарубежных школ и мероприятий в аналитике и Data Science. Взял подборку в канале моего товарища @computerscienceabroad, где публикуются подобные подборки об иностранных возможностях – PhD, cтажировки, работы и курсы🌐

Участие в подобных мероприятиях позволяет глубже погрузиться в сферу, обрасти полезными контактами и просто отдохнуть, а может – съездить в командировку🖼

Computational Linguistics Fall School
📌Где: University of Passau, Германия
🕐Когда: September 16 - 27

Data 2030 Summit 2024
📌Где: Стокгольм, Швеция/Онлайн
🕒Когда: 25-26 сентября 2024

Lambda World
📌Где: Кадис, Испания
🕓Когда: 2-4 октября 2024

Machine Learning Week Europe
📌Где: Мюнхен, Германия
🕐Когда: 18-19 ноября 2024

International Workshop on Adaptable, Reliable, and Responsible Learning
📌Где: Абу-Даби, ОАЭ
🕑Когда: 9 декабря 2024

Advanced Language Processing Winter School
📌Где: Centre Paul-Langevin, Франция
🕑Когда: 30 марта - 4 апреля 2025

Подавайте заявки, оформляйте командировки, ставьте реакции китов и записывайтесь на визу, если она вам нужна😁

@notedatascience

Блог о Data Science 💻

03 Jul, 09:42


🔄Обучаем нейросеть проходить змейку в терминале

Вы когда-нибудь хотели обучить модель проходить змейку? Я — нет, а вот некий Bones-ai в двух проектах показал, как это работает. С помощью генетического алгоритма модель достигает идеальных результатов в змейке, а видео к посту — наглядная визуализация процесса обучения 🪩

В архитектуре нейросети используется 24 инпута. Эти инпуты предоставляют информацию о состоянии окружающей среды и самой змейки, что позволяет модели принимать решения о следующем движении📀

Обучение модели занимает около 30 минут и осуществляется через генетический алгоритм, который эволюционирует популяцию из 1000 агентов, каждый из которых представляет уникальную конфигурацию весов нейросети:

🔗Инициализация популяции: Начальная популяция агентов создаётся с случайными весами.

🔗Оценка производительности: Каждый агент оценивается по его способности собирать пищу и избегать столкновений.

🔗Отбор: Лучшие агенты выбираются для размножения на основе их "приспособленности" — чем дольше агент выживает и чем больше собирает пищи, тем выше его шансы быть выбранным для следующего поколения.

🔗Кроссовер и мутации: Веса выбранных агентов комбинируются и мутируют с небольшой вероятностью (0.1), создавая новое поколение агентов, которое потенциально наследует успешные стратегии своих предшественников.

Если хотите подробнее ознакомиться с проектом, то здесь можно найти его первую версию, здесь — вторую, а вот тут находится тред на Reddit, где автор отвечает на вопросы🖼️

Рассказывайте в комментариях, что вы думаете о таких проектах? Как вы думаете, для чего автору это нужно?🎬

@notedatascience

Блог о Data Science 💻

02 Jul, 15:26


🔄Статья, которая чуть не осталась за кулисами

Недавно статья авторов Ravid Shwartz-Ziv и Amitai Armon "Tabular Data: Deep Learning is Not All You Need" достигла более 1000 цитирований. По такому поводу Ravid написал пост, в котором рассказал, как они чуть НЕ не опубликовали статью 🐱

Статья показала, что традиционные методы машинного обучения, такие как XGBoost, часто работают лучше для табличных данных, чем сложные модели глубокого обучения. Авторы столкнулись с проблемой: их выводы казались слишком очевидными, поэтому несколько воркшопов отклонили их работу из-за "недостатка новизны" 😌

Тем не менее, в 2021 году они решили разместить статью на arXiv. Само собой, дальше к ним посыпались предложения от изданий опубликовать их исследование, и статья получила широкое признаний 🐱

В конце поста Ravid отмечает, что даже "очевидные" результаты могут быть важны. Важно делиться всем, что вы находите в своей работе, даже если это кажется простым или уже известным 🙏

Что думаете про этот случай? Часто ли вы бракуете свои идеи из-за того, что они уже были реализованы? 😴😴

@notedatascience

Блог о Data Science 💻

01 Jul, 17:41


🔄Графы в рекомендательных системах [часть 1]

Недавно Даня Картушов писал научную статью с AIRI по графовым рекомендательным системам. В процессе исследования он записывал небольшие черновики про графы, которые теперь хочет превратить в серию статей 💡

Сегодня на Хабре вышла первая статья из этой серии, в которой он рассматривает базовые понятия, концепции и простые модели с их ключевыми особенностями 🙂

Вторую часть напишут ребята из WildRecSys, где они расскажут о lightGCN и поделятся своим опытом использования этой модели 🚀

В статье мне особенно понравились три вещи: отсылка к человеку-пауку, красивые визуализации и супер приятные объяснения – какие-то концепции вообще раскрываются на примере World of Warcraft 😊

Заваривайте чай и переходите читать статью по этой ссылке 🧠

@notedatascience

Блог о Data Science 💻

01 Jul, 06:30


🔄Самый главный пост. Что это за канал?

Привет! Я Тагир Хайрутдинов, аналитик в Яндекс Плюс ⚡️, студент НИУ ВШЭ программы «Компьютерная лингвистика» и автор каналов Тагир Анализирует и Журнал «Зарплатник». Раньше я делал аналитику в Альфа-Банке🐤 и в Ozon💙

Раньше этот канал вел Даня Картушов, который теперь пишет много интересного в @persecond300k, а я с недавнего времени — новый владелец и автор этого канала. Сейчас канал проходит этап перестройки, но уже скоро здесь будет интересный регулярный контент

🗣Для кого этот канал?
Вам стоит подписаться, если вы интересуетесь Data Science и технологиями вокруг этой сферы. В канале будут публиковаться посты про применение DS в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Уже скоро в канале выйдут посты про собеседования в FAANG, использование AI для научных работ, realtime-матчинг в одном маркетплейсе и тематические подкасты

🗣Ссылки на соседние каналы
@tagir_analyzes – аналитика, датавиз и новости индустрии
@zarplatnik_analytics – анонимные истории с зарплатами специалистов из аналитики и Data Science
@persecond300k – релизы и новости из AI вместе с обзорами на статьи по RecSys, LLM, System Design

Блог о Data Science 💻

30 Jun, 07:30


🔄Активные денежные соревнования на Kaggle

Собрал для вас подборку из 9 соревнований на Kaggle, к которым еще можно присоединиться. Призовой фонд в каждом из них — от $50.000 до $1.100.000. Некоторые соревнования заканчиваются уже совсем скоро, а некоторые запустили пару дней назад 🤡

Вот сами соревнования с ссылками:

🗣Learning Agency Lab - Automated Essay Scoring 2.0 | ссылка
Цель: Улучшение алгоритмов оценки эссе для повышения образовательных результатов студентов.
Количество команд: 2694.
Дата завершения: 1 июля 2024.

🗣NeurIPS 2024 - Predict New Medicines with BELKA | ссылка
Цель: Прогнозирование взаимодействий малых молекул с белками с использованием BELKA.
Количество команд: 1835.
Дата завершения: 9 июля 2024.

🗣LEAP - Atmospheric Physics using AI (ClimSim) | ссылка
Цель: Симуляция высокого разрешения атмосферных процессов с использованием климатической модели.
Количество команд: 449.
Дата завершения: 16 июля 2024.

🗣USPTO - Explainable AI for Patent Professionals | ссылка
Цель: Помощь патентным специалистам в понимании результатов ИИ через привычный язык запросов.
Количество команд: 315.
Дата завершения: 25 июля 2024.

🗣LMSYS - Chatbot Arena Human Preference Predictions | ссылка
Цель: Прогнозирование предпочтений пользователей.
Количество команд: 929.
Дата завершения: 29 июля 2024.

🗣LLM 20 Questions | ссылка
Цель: Угадать секретное слово в сотрудничестве.
Количество команд: 362.
Дата завершения: 29 июля 2024.

🗣ISIC 2024 - Skin Cancer Detection with 3D-TBP | ссылка
Цель: Определение рака кожи на обрезанных фотографиях из 3D-снимков всего тела.
Количество команд: 129.
Дата завершения: 29 августа 2024.

🗣RSNA 2024 Lumbar Spine Degenerative Classification | ссылка
Цель: Классификация дегенеративных состояний поясничного отдела позвоночника.
Количество команд: 519.
Дата завершения: 29 сентября 2024.

🗣ARC Prize 2024 | ссылка
Цель: Разработка ИИ-систем, способных эффективно осваивать новые навыки и решать открытые задачи без полагания исключительно на обширные наборы данных.
Количество команд: 315.
Дата завершения: 29 октября 2024.

Пишите в комментариях, планируете ли вы участвовать в каком-то из соревнований. Если у вас есть интерес к какому-то из соревнований, я готов подробнее рассказать о нем в отдельном посте. С вас — реакции 🐳

@notedatascience

Блог о Data Science 💻

04 Jun, 08:24


VWE (Variance Weighted Estimator) - как еще один метод снижения дисперсии.

🚙 Зачем это нужно?

Мы хотим по-прежнему снизить дисперсию для преобразования метрики к более чувствительной. Как следствие - снижение длительности эксперимента.

💡 Основная идея

Дать пользователям с меньшей дисперсией метрики больший вес для снижения общей дисперсии эффекта.

🖥 Как реализовать?

Предположим, мы хотим оценить ARPU и применить к выручке на пользователя для того чтобы снизить дисперсию. Основная реализация заключается в том, что мы смотрим на то, как изменялась метрика в предпериоде и тем самым мы знаем ее дисперсию и как следствие вес. Затем, мы берем вес для метрики на пользователя, равный 1 / дисперсию, тем самым становится очевидно, что при больших дисперсиях вес становится меньше и затем рассчитываем среднее в группе A и группе B. Код который можно реализовать у себя ниже при сплите 50 / 50 с историей в 21 день (это также можно поресерчить, например, если у нас есть бОльшая история по пользователям, будет меньшее смещение, как мне кажется). Чем-то похоже на стратификацию, где каждой страте мы присваиваем вес, только здесь вес рассчитывается на истории пользователя:

import numpy as np
import pandas as pd

n_users = 1000
days = 21
pre_experiment_revenue = np.random.normal(loc=5, scale=2, size=(n_users, days))

control_group_revenue = np.random.normal(loc=5, scale=2, size=500)
treatment_group_revenue = np.random.normal(loc=5.5, scale=2, size=500)

pre_experiment_df = pd.DataFrame(pre_experiment_revenue, columns=[f'day_{i+1}' for i in range(days)])
pre_experiment_df['user_id'] = np.arange(n_users)

experiment_df = pd.DataFrame({
'user_id': np.arange(n_users),
'group': ['control'] * (n_users // 2) + ['treatment'] * (n_users - n_users // 2),
'revenue': np.concatenate([control_group_revenue, treatment_group_revenue])
})

data = pd.merge(experiment_df, pre_experiment_df, on='user_id')
data['user_variance'] = data[[f'day_{i+1}' for i in range(days)]].var(axis=1)
data['weight'] = 1 / data['user_variance']
data['weighted_revenue'] = data['revenue'] * data['weight']


👎 Минусы VWE:

Аномалии могут поломать оценку
Метод может быть чувствителен к аномальным значениям в предэкспериментальных данных, что может привести к некорректным оценкам весов

Необходима история по пользователям, должна быть богатая история по действиям, например, когда замеряем CTR
VWE требует значительного объема предэкспериментальных данных для точного расчета дисперсий и весов. В случае недостатка данных, результаты могут быть менее надежными

Может давать смещение
При расчете в оценке среднего мы можем получить небольшое смещение из-за перевзвешивания. Другая задача - это получение несмещенной оценки (например, как корректировка средним значением в преэкспериментальной группе при CUPED

Можно использовать с CUPED с уже перевзвешенными значениями. В статье от Facebook удалось добиться следующих результатов по снижению дисперсии в %.

CUPED only - 37,24%
VWE only - 17,31%
CUPED + VWE - 48,38%


На стратификации не смотрели, как я понимаю, но можно было бы еще, наверное снизить либо есть какие-то ограничения про которые я не знаю. А с Ratio-метрикой так вообще прикол: линеаризируем, VWE, CUPED, стратификацию

Этот метод еще освещался на Avito Analytics Meetup + был разбор статьи на YouTube

😉 Ставьте реакции, если пост был полезен, пишите комментарии. Дальше разберем стратификацию и линеаризиацию

Блог о Data Science 💻

02 Jun, 10:37


🔄Рекомендации аудиокниг в Spotify

Недавно Spotify представил пользователям аудиокниги. Новый тип контента требует новых алгоритмов персонализированных рекомендаций. В своей новой статье AI рисерчеры из компании рассказывают о том, как они решали эту задачу 🎵

Аудиокниги, в отличие от музыки и подкастов, требуют более точных рекомендаций, так как пользователи не могут прослушать их перед покупкой. Здесь же возникает еще больше проблем с данными, потому что большинство пользователей ещё не знакомы с аудиокнигами на платформе 👋

В Spotify разработали систему рекомендаций 2T-HGNN. Используя гетерогенные графовые нейронные сети и Two Tower model, они улучшили точность рекомендаций. Этот подход уменьшает сложность модели и повышает её скорость 🙂

Текущие результаты: +46% к числу новых запусков аудиокниг и +23% к общему времени прослушивания. Более того, модель положительно повлияла и на уже знакомые пользователям подкасты 🤣

Пишите в комментариях, что вы думаете о таком подходе? Какие сложности вы видите при работе с рекомендациями аудиокниг? Ставьте реакции китов 🐳

@notedatascience

Блог о Data Science 💻

11 May, 11:44


Вместе с Данилом с канала @persecond300k подготовили для себя и для вас Бинго-карточку для предстоящей трансляции OpenAI, чтоб было интереснее наблюдать!

Некоторые факты субъективные (например, что такое «существенные улучшения»?), но мы постараемся судить объективно! 👍

Правила такие:
1. Когда случается то, что написано — вычёркиваем или обводим
2. Когда выбиваем линию — выпиваете (алкоголь, содовую или сок)
3. Если закрыто 3 линии — то повторяем «Ну Сама, ну даёт!»

Заполненные карточки по ходу трансляции можно скидывать в чат или в комментарии к этому посту!

(файл в оригинальном разрешении скину в комментарии)

Блог о Data Science 💻

07 May, 09:18


‼️ ОТКУДА DEEZER ЗНАЕТ, КАКАЯ МУЗЫКА НРАВИТСЯ НОВЫМ ПОЛЬЗОВАТЕЛЯМ?

В этом посте я расскажу о том, как музыкальная платформа Deezer, используя метаданные и нейросети, с первых секунд начала рекомендовать новым пользователям персонализированные треки!

В статье вы можете узнать про:
1️⃣ Почему холодный старт важен
2️⃣ Зачем сервисы следят за вами
3️⃣ Зачем нужна кластеризация
4️⃣ Как Deezer научились персонализировать Cold Start

ЧИТАТЬ ПО ССЫЛКЕ


Отдать голос за канал
https://t.me/boost/persecond300k

Вступить в чат
https://t.me/persecond300kchat

#RECSYS

Блог о Data Science 💻

09 Apr, 11:51


Продолжаем раскрывать тему трансформеров в проде.

Сегодня про переход от задачи next item prediction к задаче next basket prediction, комбинирование фидбека и переиспользование эмбеддингов в других задачах.

https://telegra.ph/Vyzhimaem-maksimum-iz-ALBERT4Rec-04-09

Блог о Data Science 💻

20 Mar, 09:21


ПРЕВРАТИТЕ СВОЙ ПЕТ-ПРОЕКТ ИЗ ХОББИ В КАРЬЕРУ

Написал свой долгожданный пост на ХАБР, где рассказал как делать достойные пет-проекты, который помогут вам быстро развиваться!

Затронул очень много тем:
🛠 о том как быстро набирать навыки и стоп флажках в обучении
🏆 какие пет-проекты успешные и почему они станут вашим будущим стартапом
🚀 какие есть этапы в пет-проектах и почему вам нужны пользователи
💪 как не потерять мотивацию
🔍 и оформить это в резюме!


ЧИТАТЬ ПО ССЫЛКЕ

Отдать голос за канал

https://t.me/boost/persecond300k

#EDUCATION