Новая диффузионная модель от Nvidia: Sana
Основные особенности:
— DC-AE энкрдер, (если интересно вот ссылка) который понижает в 32 раза, вместо привычных 8ми для vqVAE, без сильных потерь
— Линейный DiT: по сути ViT, где фьюз происходит не через аттеншен, а через марицу рангом d << n (где, n это количество image token’ов). Подробнее про метод у Яныка на ютубе. Имхо это не аттеншн, но называйте как хотите.
— Вместо T5 взяли small LLM (decoder only), не прошло и 2 лет…
— Кастомный сэмплер: Flow-DPM-Solver
Обещают может и не лучшее качество, но супер быструю скорость и резолюшн 4096х4096 (благодаря DC-AE).
💻 Code (будет тут)
📝 paper
😈 demo на градио
p.s.: погененрил в демо, 1024х1024 работает норм, но пишет с ошибками.