По следам классного поста о топ-10 моделях в рек системах. Когда вы их выучите и внедрите, то 100% столкнетесь с проблемами
То, какие проблемы вы заметите и качественно решите, часто и определяет уровень синьерности. Поехали!
Проблемы уровня Junior
Их обычно заметно невооруженным взглядом. Их достаточно часто могут определить даже далекие от рексис люди, посмотрев визуально рекомендации для себя
1. Нерелевантные аспекты
Непопадание в пол, ценовой сегмент или не учет явных интересов пользователя
Классика жанра, встречается практически во всех моделях
Решается очень по-разному: обучением отдельных моделей под сегменты пользователей, фичами в ранжирующем бустинге, костылями на проде - придется быть креативным 😇
2. Почти дубли + Низкое разнообразие
99% моделей оценивают некий скор релевантности товара пользователю. Часто очень похожие товары примерно одинаково релевантны, поэтому могут забить весь топ рекомендаций. Например, разные версии айфонов
Решается продуктово склейкой почти одинаковых товаров в одну карточку товара и на уровне ранжирования учетом разнообразия через DPP / MMR. Есть и более современные подходы: наиболее близки к этой теме multi-interest learning, listwise ranking
3. Кликбейт
Принимает разные формы:
- Слишком дешевые товары
- Слишком дорогие товары (золотой айфон за 1 млн)
- Кричащие заголовки / картинки (Напиток для похудения за 3 дня,
- Фрод продавцов или создателей контента (Фейковые отзывы, самовыкупы, циклические короткие видео)
- И еще добрая сотня вариантов
В основном борятся с кликбейтом аккуратным выбором таргета (вместо кликов использовать только долгие клики, например) и фильтрацией отдельных товаров/продавцов/тем по рейтингу, CTR и продуктовым свойствам
А как бы вы решали эти 3 проблемы?)