Зачем вообще я его проводил
В разные моменты карьеры мне посчастливилось заниматься всеми перечисленными задачами: многими своими руками, другими - в рамках задач моих подразделений. Это привело к тому, что я давно хотел сделать достаточно исчерпывающий курс по приложениям ML в бизнесе. Мы с Никитой Зелинским (CDS из Big Data МТС) провели первый такой курс весной в МФТИ и ВШЭ и сейчас готовим к запуску адаптированную версию у нас в школе MLinside.
Но одно дело наполнить курс на основе своего опыта и ранжирования задач по экономическому эффекту для бизнеса, и совершенно другое - узнать, а какие задачи ML видят вокруг люди. И здесь было несколько интересных открытий.
Больше денег - меньше хайпа
Самой редко вспоминаемой оказалась история про оптимизацию затрат, которая часто приносит огромный эффект в деньгах. Например, если у вас есть бюджет в 5, 10, 50, 100 млрд рублей в год на расширение сети магазинов в ритейле, базовых станций в телекоме, банкоматов в банке, оптимизация на несколько процентов уже дает огромный эффект в абсолюте.
Работает это так: вы строите модель, которая прогнозирует эффект, а дальше решаете задачу оптимизации поверх этих прогнозов. Иногда оптимизация простая часть и решение строится жадным алгоритмом, а иногда требуется что-то посложнее, но прогнозная модель в основе решения как правило остается. Самые дотошные могут заметить, что сравнивать эффект нужно не с отсутствием оптимизации, а с оптимизацией без ML, но даже так эффекты остаются большими за счет масштаба задачи.
Много хайпа - не очень много денег
Чаще всего вспоминали рекомендательные системы и поиск. В случае с поиском есть конечно небольшое количество компаний в мире, которые нашли там сверхприбыли (и то за счет рекламы), для остальных же поиск не сильно денежная вещь в плане эффектов. Что касается рекомендаций, то даже обожаемый всеми Netflix никогда не репортил публично (на моей памяти, буду рад, если кто-то поправит) эффект от рекомендаций больше 4% от своей выручки. На практике же даже в ритейле подтвержденный A/B тестами эффект в 1-2% на количество покупок и отсутствие статзначимого эффекта на выручку - вполне стандартная история. Конечно, если посчитать какой-нибудь last-click/first-click без учета каннибализации, элементарно нарисовать двузначные эффекты в процентах, а без А/В или с «грамотно организованным» вообще можно показать любые числа. Одна проблема - бизнес больше зарабатывать от этих упражнений в счете не станет.
В чем же секрет популярности рекомендательных систем? Я думаю в том, что мы любим делать то, что любим, а не то, что больше всего надо. В рекомендациях есть где развернуться - тут вам и матричные разложения, и факторизационные машины, и бустинги, и сетки, и reinforcement learning, да и A/B сразу надо учиться быстро проводить. Короче, очень интересно. Не буду отрицать, что я бы сам из всего перечисленного выбрал бы заниматься рекомендациями (и часто выбирал :)). Но к определенному перекосу в восприятии эффектов Data Scientist’ами развитость рекомендательных систем точно приводит.
Опять же, самые дотошные скажут, что таргетирование рекламы это те же рекомендации с правильным взвешиванием, и будут правы. Так что конечно получить большие эффекты можно, но на масштабах всего CRM в компании или в рекламном бизнесе.
Еще одно очень важное наблюдение: рекомендации в контентных сервисах это то, без чего сейчас не получится быть конкурентоспособным. В наше время это базовый инструмент взаимодействия с контентом наряду с поиском, поэтому тут хороший вопрос, что считать эффектом, когда весь бизнес без хороших рекомендаций становится бессмысленным. Ну представьте TikTok без рекомендаций - шляпа какая-то :) Так что с рекомендациями и поиском все сложно: вроде если попытаться посчитать, получается совсем не восторг, а если подумать, часто без них и вообще нельзя.
С остальными задачами тоже есть, что обсудить, но эти поля слишком узки, и кажется я уже приближаюсь к лимиту на длину поста
#ML_in_business