Ух ты: сегодня на первом месте в топе paper of the day на Hugging Face статья от Sber AI и AIRI
Она посвящена новой и первой опенсорсной (!) модели переноса головы с картинки на картинку GHOST 2.0.
Задача похожа на face swap, но немного сложнее: тут нужно адаптировать голову под всю сцену, следить за цветом кожи, контрастом и другими характеристиками. В то же время, решения получаются практичнее. Например, в отличие от face swap, ничего не ломается, если форма лиц source (откуда переносим) и target (куда переносим) разная.
Архитектура GHOST 2.0 похожа на единственное существовавшее до этого момента решение – модель HeSer (Head Swapper), из которой позаимствовали идею двух основных модулей.
1. Aligner – модуль, реконструирующий голову для вставки в таргет. В основе подобие StyleGAN, входной эмбеддинг для которого генерируют три энкодера. Первые два считывают лицо, прическу и другие детали с source изображения. Последний – позу и выражение лица с target изображения, и меняли относительно HeSer именно его.
В старом решении один из энкондеров был избыточен, обучался с ликами и сильно все портил. Пришлось корректировать и архитектуру, и лосс, и датасет, и процесс трейна. На этом этапе уже виден огромный прогресс по сравнению с HeSer (см. картинку 1).
2. Blender – вставка головы в target фон. В оригинале здесь работала связка извлечения цветного референса для раскраски + сама зашивающая в таргет все маски и изображения модель UNet. Однако оказалось, что генератор цвета провоцирует появления серых областей, а из-за UNet вокруг головы образуется белое пространство.
Поэтому в архитектуре заменили принцип работы и того, и другого. Color Creator теперь сам заполняет все серые области на основе общих оттенков изображения, а в UNet добавили механизм экстраполяции маски, который как бы накладывает фон еще раз поверх вставки головы. При этом, чтобы вырезанных областей от маски не оставалось, картинки еще и постобрабатывали с помощью Kandinsky 2.2. Он с помощью простого запроса качественно закрашивал серость без необходимости файнтюнинга.
Результат – на лицо голову. Метрики подросли, да и на глаз качество результатов сильно приятнее предыдущих алгоритмов.
🔥 Страница проекта | Хабр | Статья | Демо