Система использует мультимодальную языковую модель, чтобы в реальном времени угадывать, что вы хотите сделать с изображением, избавляя от необходимости писать промпты. Для работы нужна видеокарта с 8GB VRAM, но можно попробовать и в онлайн-демо на Huggingface или веб-версию, где можно отключить автоматическое заполнение промптов.
Доступны исходники и пейпер.
Сергей Булаев AI 🤖 - об AI и не только