👾 Изменяем свой голос в реальном времени с помощью нейросети
Сегодня я расскажу как изменять свой голос в реальном времени на ПК. Заранее предупреждаю, чтобы добиться приемлемого качества голоса, придется долго учить нейросеть на основе различных голосовых записей, для этого потребуется десятки гигабайт аудиофайлов и несколько сотен часов.
1️⃣ Переходим по ссылке и скачиваем архив (скриншот 1);
2️⃣ Скачиваем готовый сет для клонирования голоса;
3️⃣ Если вы когда-нибудь устанавливали "Avatarify" (ПО для подмены лица), то у вас должна быть установленная "Anaconda prompt", если нет, то скачиваем версию под "Python 3.7" (на официальном сайте размещены более поздние версии, поэтому гугл в помощь);
4️⃣ На этом подготовка не заканчивается — скачиваем и устанавливаем тулкит "CUDA 10.0";
5️⃣ После всех действий запускаем "Anaconda prompt (miniconda3)" и прописываем в консоли код "conda create -n clone python=3.6
" (скриншот 3). В появившемся окне прописываем "Y
" и нажимаем "Enter" (скриншот 4);
6️⃣ Теперь нам нужно активировать виртуальную среду, которую мы только что создали — для этого прописываем там же "conda activate clone
", после чего устанавливаем необходимые пакеты в консоли "Анаконды": "conda install pytorch
" и подтверждаем действия (скриншот 5);
7️⃣ Распаковываем архив с "Github", который мы скачали в 1-м пункте и копируем его путь. Далее в консоли "Анаконды" пишем команду "cd *ваш путь к файлам с архива*
" (скриншот 6), затем "pip install -r requirements.txt
" (скриншот 7);
8️⃣ Как только закончится установка необходимых модулей, прописываем еще одну команду "conda install numba
";
9️⃣ Теперь распаковываем тот дополнительный архив с именем "pretrained.zip
", который мы скачивали ранее, в папку с программой "Real-TimeVoice-Cloning-master". Переходим к второму архиву (если вы его скачивали, конечно же) — в папке с программой создаем подраздел "LibriSpeech
", в нем создаем папку "train-clean-100
" и скидываем туда файлы с распакованного архива;
└ Так же, что бы не было ошибок, закидываем в папку утилиты dll файлы "CUDA" — "cudart64_100.dll
" и "cudnn64_7.dll
", их можно найти в папке "C:ProgramDataMiniconda3pkgspytorch-1.0.0-py3.7_cuda100_cudnn7_1Libsite-packagestorchlib
". Если вы устанавливали "Avatarify", то тут: "ProgramDataMiniconda3envsavatarifyLibsite-packagestorchlib[/SIZE][/SIZE][/SIZE]
";
1️⃣0️⃣ Фух, было потно. Теперь пробуем запустить нашу софтину, для этого прописываем в "Анаконде" команду "python demo_toolbox.py
";
└ Заранее предупреждаю, процесс жрет невероятно дофига оперативной памяти — на системе с 16 ГБ ОЗУ пришлось закрыть все программы;
1️⃣1️⃣ У нас откроется главное меню (скриншот 8). Сверху нажимаем кнопку "Browse" и загружаем нужный нам образец голоса в формате ".wav", либо записываем фрагмент своего голоса с помощью кнопки "Record" (скриншот 9);
└ Вы должны понимать, что речь должна быть четкой, состоящей из 10 слов минимум. Натренированные данные заточены под английский язык;
1️⃣2️⃣ Как только мы загрузили голос, пишем нужный текст на английском вверху справа, и нажимаем кнопку "Synthesize and vocode", после чего, мы услышим полученный вариант голоса;
└ Если несколько раз повторить данный алгоритм действий, то качество голоса будет улучшаться самостоятельно (прилагаю пример записи до и после нескольких проходов);
1️⃣3️⃣ Сохраняем полученный результат — редактируем файл "demo_cli.py
", прописываем нужный текст и имя исходного файла (скриншот 10). Сохраняем и в "Анаконде" прописываем "python demo_cli.py
" вместо "python demo_toolbox.py
", после чего начнется процесс генерации. По завершению мы получим готовый вариант в той же папке