Всем привет!
Давно не писал в группу (слишком много дел и мало свободного времени), но тут просто нельзя пройти мимо.
Итак, всем известный разработчик lllyasviel (автор контролнета, Фооокуса, Форджа, свежего Релайта) выпустил новую шикарную вещь.
Omost - https://github.com/lllyasviel/Omost
Это LLM (большая языковая модель), которая по вашему запросу создаёт крутейшую картину с максимальным вниманием к деталям. Что бы было понятнее, принцип как у Dalle-3: вы даёте короткий промт (или максимально развёрнутый, по желанию), а ЛЛМ очень подробно расписывает ваш запрос, раскладывает его на составные части, планирует как всё это будет выглядеть в общем и в частностях.
Если интересно в подробностях, загляните на страницу, Иллия расписал всё сверхпонятно: как описывается начало, как разбивается на регионы, каким образом редактировать растояние до "зрителя", развёртка каждой части промта. После подготовительного этапа вся эта информация отправляется на генерацию. По умолчанию используется чекпоинт XL RealVisXL_V4.0 но можно подкинуть ему любой (в формате Диффузерсов). "Подготовительные" ЛЛМ, кстати, тоже стандартные (ллама-3, phi-3 и дельфин 2.9), единственное что - им требуется специальная дотренировка.
Выше я приложил картинки, которые получаются у Omost. Первые сделаны по простым промтам (битва тысяч орков и людей у города, орк бежит возле рушающейся стены, эльфийки плывут, идут вброд по реке), а следующая - подробно описана (цвет штанов, куртки, футболки, надпись на ней, ночной город с многоэтажками, стилистика аниме/не аниме). Конечно, проблемы нейросетей никуда не делись, но следование промту и внимание к деталям очень хороши.
Как же всё это потрогать, спросите вы?
Во-первых, есть готовая демка на Обнимашках. Работает она быстро (к тому же, абсолютно бесплатно и без ограничений), но порой не хочет рендрить картинку. Тут претензия к самим обнимашкам, да. Где-то 5 из 10 запросов у меня отработало нормально.
И конечно же, Иллия не был бы собой, если бы всё это не было доступно локально! Ссылка на инструкцию по локальной установке. Пройдёмся по пунктам.
Во-первых, естествинно, вам нужен Питон. Автор рекомендует 3.10.хх, соответственно, скачиваете 3.10.6 или 3.10.11 (что бы точно всё заработало). Если вы скачаете последнюю версию - ничего не заработает!
Далее нужны установленные git и Анаконда для 3.10.
Поставив всё в такой очерёдности (не забывайте обязательно ставить галки "добавить в ПУТЬ" и "интеграция с питоном" где они есть), открываем Anaconda Prompt (miniconda3) появившуюся у вас в Пуске и поочерёдно выполняем строчки инструкции на странице выше. Когда всё скачается и установится (5-20 минут) откроется ваш браузер по адресу http://localhost:7860 где будет простенький интерфейс для работы.
Что по памяти? Тут всё отлично, "базовая" ллама-3 q4 спокойно входит в 8 гигабайт VRAM (Скриншоты выше - во время работы ЛЛМ), ну а картинки рисуются на XL, что так же спокойно помещается там же.
На моей 3060 предварительный этап (развёртка через ЛЛМ) занимает где-то полторы-две минуты, рисовка картинки 1536х896 - секунд 40 без Хайрес-фикса и 3-4 минуты с ним.
Интерфейс, пока, максимально простой - нет ни смены чекпоинта, ни семплеров, ни сохранения картинок, ни даже батника запуска. Очень надеюсь на сообщество, что это нам быстро прикрутят :) Но если вы хотите пощупать одним из первых - то уже можно.