Секция AI/ML на UFADEVCONF 2024
Захар Варфоломеев - ML Researcher & Developer X-Labs AI. Занимается IT 5 лет, начинал с backend разработки, сейчас ML researcher & developer в аудио домене. Выступает с докладами по машинному обучению и читает лекции в вузах. Развивает русскоговорящее IT сообщество, проводит мероприятия. Ведет телеграм & ютуб канал: @vf_science. Применяет машинное обучение для обработки звука, NLP, CV. В основном занимается генерацией аудио, как музыки, так и любого другого.
Захар расскажет о переводе аудио в ноты фортепиано:
«Моя задача создать ML модель способную извлекать из аудио ноты фортепиано разной сложности.
Сейчас задача решена, приходите послушать мою историю:
1. Идея проекта и как она зародилась.
2. Какие данные нужны, как их собрать и как анализировать? Смотрим на спектрограммы и слушаем музыку.
3. Есть 2 пути: распознавание нот по спектрограммам или генерация токенов на основе репрезентаций из моделей JukeBox, EnCodec.
4. Разделение звуковых источников и обнаружение звуковых событий нейронными сетями. Подходы и способы оценки результатов.
5. Постановка end-2-end задачи. Использование репрезентаций из предобученных для генерации музыки/речи моделей.
6. Дальнейший вектор развития.
Зачем это нужно:
Любите играть на гитаре, скрипке, пианино или на любом другом музыкальном инструменте? Если да, то у вас есть музыка, которую вы любите играть. Чтобы играть любимую музыку, нужны ноты. Найти ноты удается не всегда, а если удается, то они могут быть слишком сложными. Нужно подбирать ноты самостоятельно. Не всем это умение дано и не всем это хочется. Наличие моей модели поможет оптимизировать процесс перевода аудио в ноты.»
Программа конференции http://dc.ufacoder.com