PER SECOND 300K @persecond300k Channel on Telegram

PER SECOND 300K

@persecond300k


История одного research and develop MLE в RecSys 👀

В закрепе навигации и топ посты #WHOIS

💬 Вступай в чат @persecond300kchat
👨🏼‍🎓 Автор: @redpf

PER SECOND 300K (Russian)

PER SECOND 300K - это канал, посвященный истории исследования и разработки MLE в области рекомендательных систем. В этом канале вы найдете увлекательные истории и полезные советы от автора @redpf. Не пропустите самые интересные публикации в закрепе навигации и топ посты #WHOIS. Если вы хотите обсудить темы канала или просто пообщаться, присоединяйтесь к чату @persecond300kchat. Участвуйте в обсуждениях, делитесь идеями и узнавайте новое вместе с сообществом PER SECOND 300K!

PER SECOND 300K

09 Nov, 17:17


Мой ТОП-10 проверенных и популярных моделей RecSys.

Для меня модели рекомендаций начинаются с тех, которые можно построить на данных формата (user_id, item_id, timestamp). Если у вас есть такие наборы данных, то с помощью следующих моделей можно составить список персональных рекомендаций для каждого пользователя внутри датасета. Этот список я составил по субъективной популярности и уверенности в том, что модели проверены временем:

1. iALS (2008, 4к+ цитирований) - масштабируемая на большие объемы данных матричная факторизация. Крупные компании в РФ часто упоминают ее как кандидатогенератор, рассказывают про различные трюки с оптимизациями. Скорее всего, про ALS на собеседованиях хотят слышать в первую очередь.
2. EASE (2019, 250+ цитат) - моя любимая модель. Один гиперпараметр, решение в явном виде. Моделька - матрица весов item*item. Топ-1 модель по мнению авторов из Сбера. Мы взяли первое место на Hack the cart, используя только эту модель. Ее минус - большие каталоги айтемов, но на них можно использовать ELSA или SANSA.
3. SLIM (2011, 900+ цитат) - аналог EASE. Матрица весов разреженная, зависимость от гиперпарметров более сильная, их больше. По качеству SLIM похуже EASE. С ней возиться сложнее. Однако, в силу разреженности матрицы весов есть и плюс. Помню, SLIM весил 100 Кб, а EASE около 600 МБ на одинаковых размерах.
4. MultiVAE (2018, 1350+ цитат) - модель от Netflix. Та самая, которая в обзоре are we really... выиграла SLIM и стала единственной нейронкой, которая это сделала. На вход модели идет только вектор интеракций, поэтому ее можно обучить на 1000 юзерах, а инференсить на 100к юзерах без дообучения - это прекрасно!
5. ItemKNN (2001, 13к+ цитат). Про этот алгоритм обычно не говорят на собеседованиях, так как "что-то на старом", а зря. У recsys есть open benchmark BARS, и на датасете Amazon Books ItemKNN занимает второе место среди многих моделей. И ни GCN, ни LightGCN, ни даже UltraGCN его не побеждают.
6. GRU4Rec (2015, 3400+ цитат). В 2019 году я занял 17/264 место в Rekko Challenge от Okko. Тогда я в первый раз обучил нейронку для рекомендаций, и это была GRU4Rec. Ожидния не оправдались, но для старта нормально. Кстати, недавно автор разобрал популярные ошибки в ее имплементации.
7. SASRec (2018, 2400+ цитат). Это трансформер для next-item recommendation. Основа основ для использования трансформеров в мире рекомендаций. Имеет множество расширений (TiSASRec).
8. BERT4Rec (2019, 1900+ цитат). Чуть лучше SASRec, например, по статье Саши Петрова. По опыту, часто нет смысла использовать SASRec и BERT4Rec вместе, лучше выбрать что-то одно.
9. LightGCN (2020, 3300+ цитат) - графовая сверточная сеть. В графе есть только юзеры и айтемы, модель оценивает связи user-item с точки зрения графа и делает рекомендации. На мой взгляд, крайне громоздкая, медленно обучаемая и негибкая модель, куда лучше ее улучшение в виде GFCF.
10. TIFU KNN (2020, 120+ цитат). Если в ваших данных есть повторные действия между юзерами и айтемами (например, покупки в супермаркетах), то, скорее всего, все модели выше проиграют по качеству TIFU KNN. Эта модель играет вокруг персональной частоты покупок пользователя. Если человек купил 100 раз молоко, именно TIFU KNN без проблем порекомендует его 101 раз и не ошибется. Остальные модели могут повторить персональные частоты, но все равно по качеству уступят TIFU KNN.

Мне кажется, если вы хотите ввести модель полноценно в свой инструментарий, надо сделать следующее:

Прочитать оригинальную статью.
Посмотреть ее имплементацию: какие идут данные на вход на трейне и инференсе, как данные идут внутри, что на выходе.
Запустить модель на любом датасете, посмотреть за метриками, возможно, на рекомендации.
Изучить гиперпараметры, посмотреть, как они влияют на модель.
Повторить то же для расширений модели. Например, EASE -> ELSA, Lightgcn - GFCF и т.д..
В идеале, применить на проде в АБ или в рамках соревнования.

Выучив все эти модели и пройдя чек-листы, уже можно уверенно ориентироваться в основных моделях, но на этом recsys не заканчивается, а только начинается)

PER SECOND 300K

30 Oct, 10:48


📱 RU Arena LLM

Если у вас есть желание помочь CIS Research`у, можете воспользоваться LLM Arena.

Вводите свой запрос, выбираете какая модель дала лучший ответ!

Я например вот спросил как избавиться от popular bias и на удивление Qwen была лучше чем 4 turbo 😐

➡️ https://llmarena.ru/

PER SECOND 300K

27 Oct, 16:06


Обзоры статей с RecSys

Не так давно проходил ACM RecSys на котором вышло много интересных статей. Подумал что мне лень писать саммари и при этом порекомендовать вам интересные каналы о которых вы могли не знать!

➡️ Reading club и чатик по рекомендашкам!

➡️ Канал Олега Лашинина, это вообще маст-хев подписка должна быть

➡️ Ребятки из яндекса сделали канал и пишут саммари про статьи

➡️ Ну и канал Кирилла с пропагандой трансформеров

#RECSYS #RESEARCH

PER SECOND 300K

19 Oct, 20:44


😐 Инструкция для тех кто в Ru регионе

1. Пкм по windows (снизу слева)
2. Windows Power Shell (Администратор)
3. Set-WinSystemLocale -SystemLocale en-US
4. Ребутим систему
5. Заходим по ссылке сверху и скачиваем файл
6. Done!

Просьба тех кто заберет себе в каналы репост или укажите авторство тк я первый кто пофиксил проблему

PER SECOND 300K

15 Oct, 12:53


📱 VK RecSys Challenge

Соревнование от AI VK по предсказанию явного фидбэка (лайков/дизлайков) пользователей VK Клипов.

Метрикой соревнования кстати стало RocAuc 😐

Соревнование длится до 22 декабря, можно участвовать как индивидуально, так и объединяться в команды.

➡️ Участвовать в соревновании

PER SECOND 300K

13 Oct, 12:42


Для истории: успех, добро пожаловать в новую эру исследования космоса!

PER SECOND 300K

04 Oct, 00:14


Как я задизайнил холодный старт в Rutube

Недавно я участвовал в хакатоне Rutube, в котором нужно было задизайнить холодный старт для рутуба. Задачка то актуальная, но как очень быстро сойтись к предпочтениям пользователя о которых мы ничего не знаем?

➡️ Читайте в моем небольшом лонгриде

#RECSYS #MLSYSDES

PER SECOND 300K

03 Oct, 20:43


Cursor GG, это очень удобно

PER SECOND 300K

03 Oct, 17:15


Пробуем?

PER SECOND 300K

11 Sep, 20:31


WildConf — Как работают рекомендашки на ВБ

Сегодня был на конференции Wildberries, вроде как первой МЛ конфе от них.

Жаль что простудился и ужасно болит горло. Но понравилось два доклада, фотки как обычно в описании!

1. Александр Сидоров — Head DS
Рассказал о том как устроены рекомендашки и поиск на ВБ, поговорили о систем дизайне, проблемах и том какие задачи ВБ решает для своих пользователей и внутри бизнеса.

2. Александр Тришин — RecSys ML
Если вдруг вы не читали наши посты о том как работают графы, и как их заводили в вб — то обязательно читайте. Спасибо Саше за подробное объяснение о том как заводить lgcn и решать проблему популярных товаров в графах.

Кстати про графы, коллаборативный сигнал и матричные факторизации скоро выйдет лонгрид.