Practical ML Digest
1️⃣
#MLПост #PMD
Начал расширять свой кругозор по МЛ в рабочих проектах. Поэтому решил некоторыми докладами делиться и с вами
Дисклеймер: не для всех докладов нужны жесткие знания в МЛ, поэтому если тема интересная, то смело читайте пост и смотрите доклад
💬 Делитесь в комментах интересными докладами, которые вы смотрели. А я начну здесь:
"Личный наставник в лице GPT"
Год: 2024
Спикер: Андрей Смирнов, ML Engineer, Яндекс Практикум
Посмотреть: Ютуб
Рассказал про то, в каких местах ГПТ может помочь как наставник, а в каких нет. Если кратко: репетиторов еще не заменят, поэтому записывайтесь на занятия)
Показал кратко архитектурно как идет ответ на вопрос ученика в чате Практикума. А именно, что на вход ГПТшке идет вопрос ученика + контекст задания и урока, в котором ученик
Также, упомянул дальнейшие улучшения такого чата:
* Выбор какой моделью генерить ответ. Если вопрос простой - легкая модель, сложный - тяжелая и т.п.
* Увеличение поля для retrieval - искать не только в текущем уроке, но и других, а может и других курсах
* Агенты. Для подсчета математических выражений, запуска кода и прочего
И бонусом докладчик поведал про основные типы дообучения модели:
* zero/one/few shot,
* PTune,
* Finetune
* Обучение с нуля
"Генеративные аугментации в задачах компьютерного зрения"
Год: 2024
Спикер: Андрей Филатов, Senior Data Scientists Sber AI
Посмотреть: Ютуб
Аугментации в CV по типу Crop, Rotation и прочие это, конечно, хорошо, но иногда хочется большего. Возникает идея: раз есть крутые модели, генерирующие картинки, то может их и заиспользовать для получения новых данных?
Докладчик рассказывает про несколько работ в этом направлении и в конце приводит свою идею, которую хочет добить до статьи. Опишу только 2 из них
FreeMask: Synthetic Images with Dense Annotations Make Stronger Segmentation Model
Получение новых данных для задачи сегментации. Из реальных данных берем семантическую маску и подаем на вход диффузионке как condition. В итоге для 1 примера из датасета получаем несколько похожих версий синтетических данных. Метрики для SOTA моделей такими данными на несколько процентов растут
Ресерч идея докладчика
Получение новых данных для задачи детекции. Идея простая - давайте некоторые объекты с фоток просто удалять. Как это делается: в датасете кроме bbox должна быть еще и маска объекта и тогда, подав на вход генеративке маску объекта + входное изображение, получим фотку без объекта. Конечно, еще выкидываем bbox этого объекта, так как на новой фотке его нет
Плюса в метрике mAP достичь смогли. Но большего плюса удалось достичь, когда сделали похожим образом замену объекта на фотке
"10 не ML лайфхаков для ML решений в проде"
Год: 2024
Спикер: Антон Воронов, Газпром ИД, Руководитель службы рекомендательных сервисов
Посмотреть: Ютуб
В общем и целом, докладчик немного приземляет и доказывает, что не нужно сразу сувать МЛ везде и всюду)
На конкретных примерах задач поиска и рекомендаций в Rutube показывается, как можно, особенно на старте, не упарываться в МЛ и при этом все равно получать профит в данных задачах за короткое время реализации
Основными инструментами, конечно, являются SQL-запросы по логам и регулярки) Но стоит глянуть, что именно ими они сделали
А еще, кто сможет найти в каком из кейсов были бандиты?)
Также, из прикольного приведен пример, как они обошли долгий релизный цикл кода: один раз написали инфру для обработки графа вычислений (из 1 стадии данные идут в другую, запускается такая-то модель и т.п.), сам граф брался из конфига, который можно было легко менять и быстро релизить