MISIS Neychev Loss — призёры E-CUP от OZON Tech🥈
С 19 августа по 13 сентября прошло масштабное соревнование для ML-разработчиков в сфере e-commerce — «E-CUP: Everything as Code».
Команда MISIS Neychev Loss почти месяц работала над решением задачи в треке «Матчинг товаров». Основная цель — разработать ML-модель, которая по названиям, атрибутам и картинкам сможет определить, одинаковые ли товары.
Итоговое решение команды — это ансамбль моделей градиентного бустинга, которые обучены на признаках, полученных как с помощью глубокого обучения, так и без него. Вот как это работает:
🟢Препроцессинг данных: команда извлекала такие признаки, как категории, бренды, страны, нормализовала тексты, выделяла числа из названий и описаний товаров.
🟢Генерация признаков: создавались признаки для списков, рассчитывались отношения длин названий и описаний, а также косинусные сходства на основе различных текстовых представлений (TF-IDF, эмбеддинги BERT и ResNet). Использовались методы частичного сопоставления строк и вычислялись различные метрики для названий товаров.
🟢Признаки на основе глубокого обучения: применялись готовые модели, такие как DistilBERT и RuBERT, которые были обучены на описаниях товаров и их атрибутах. Результаты этих моделей (логиты) подавались в ансамбль градиентных бустингов.
Эта технология может быть использована для улучшения поисковых алгоритмов на маркетплейсах и для поиска дубликатов товаров.
Команда заняла 2-е место и выиграла 150 000 рублей, а также получила возможность посетить масштабную ИТ-конференцию E-CODE.
Состав команды: Рыжичкин Кирилл (БИВТ-23-9), Груздев Александр (ИРНИТУ), Литвинов Максим (БПМ-21-3), Замышевская Арина (НИУ ВШЭ), Аксеновский Максим (СПбГУ)
Поздравляем команду и гордимся вашими достижениями! 💚