Stable diffusion, ComfyUI, Flux @ai_sd Channel on Telegram

Stable diffusion, ComfyUI, Flux

@ai_sd


Все вместе тут: обучающие ролики по Stable diffusion, ссылки на что полезное, генерации, промпты. Донат https://boosty.to/stable/donate

Stable diffusion, ComfyUI, Flux (Russian)

Название нашего канала - Stable diffusion, ComfyUI, Flux, и здесь мы собрали все самое интересное по этим темам. Мы предлагаем обучающие ролики по Stable diffusion, полезные ссылки, генерации и промпты. Если вы хотите углубить свои знания в этих областях или узнать что-то новое, то наш канал - идеальное место для этого. Мы также принимаем донаты, чтобы поддержать развитие канала и создание еще большего контента. Присоединяйтесь к нам и окунитесь в мир Stable diffusion, ComfyUI и Flux вместе с нами!

Stable diffusion, ComfyUI, Flux

19 Nov, 00:28


Дайджест:

📹 ВИДЕО + АРТ 🎨

PostShot: появилась интеграция с UE 5.4 для редактирования в нём сплатов, исправили баги при тренировке сцен и импорте/экспорте файлов, и другие улучшения.

Runway: расширили генерацию видео до 20 сек. Плюс обновили API, добавив доступ к контролю камеры Turbo.

Neurogen: появилась оптимизированная версия дипфейкера DeepFaceLab, а также FaceFusion 3.1.

Recraft: обновили свой генератор картинок до V3 и вышли в топ text-2-image моделей, обогнав Flux, MJ, Ideogram, и всех остальных. Можно бесплатно опробовать у них на сайте. Также есть версия, которая затюнена выдавать SVG.

BFL: релизнули Flux 1.1 Pro Ulta для генерации изображений в 4MP и RAW версию с имитацией "обычных фото". Доступно только по API.

Bytedance: выпустили SeeEdit для стайлтрансфера картинки с высокой точностью.

Nvidia: дропнули Llama Mesh для генерации 3D мешей по текстовому описанию с помощью LLM, плюс чата и редактирования.

DimensionX: опенсорсное создание видео с контролем камеры на основе одного изображения. На данный момент движение есть влево и вверх. Работает в связке с CogVideoX.

MagicQuill: онлайн редактирование изображение рисованием и промтом. Напоминает Invoke.

PyramidFlow: ещё один открытый видеогенератор с поддержкой Img2Video. Теперь с кадрами на основе Flux. На выходе видео 768p длиной в 10 сек. Установка через Pinokio.

Bria: обновлённый удалятор фона RMBG-2. Хорошо работает со сложной композицией, есть пакетная обработка, и можно кормить картинки как с компа, так и по ссылкам. Установка через Pinokio.

InstantX: выкатили апскейлер изображений InstantIR. Есть восстановление с точным следованием рефу или по "своему видению" (creative restoration). Установка в Pinokio.

Также они опубликовали метод более точного следования промту в t2i без тренировки + ещё одна работа на эту тему (спс @JohnDoe171).

CogVideoX: выпустили версию v 1.5 своего генератора видео с 5B параметрами. Тесты.

Vidu: обновили видеогенератор до V 1.5. Подняли качество генераций, улучшили следование промту, добавили консистентную работу с персонажами.

Добавление текста на задний фон с его настройкой.

🎸 ЗВУК 🎸

DeepL: представили Voice режим для перевода голоса в текст для бизнес сегмента.

SI: выпустили Hertz-dev, генератор речи (TTS) работающий в audio-2-audio с маленькой задержкой. Может выдавать как слова за одно человека, так и за двоих.

Hallucinator: моделька на основе Hertz выше для продолжения слов в загруженном аудио семпле.

e2f5: появилась возможность делать генерацию речи на основе фантюнов e2f5 от других людей через выбор Custom модели для инференса. На русском не видно пока тюнов.

Веб-интерфейс для работы с разными опенсорсными TTS.

🤖 ЧАТЫ 🤖

Alibaba: рвёт и мечет и после своего опенсорсного кодера, выпустили Turbo — языковую модель (LLM) с контекстом 1 млн токенов. Можно скормить книг 10, или 150 часов транскрибации речи, или 30к строк кода. Демо. API дешевле GPT-4o-mini.

Llama 3.2-11B, умеющая из коробки чатиться по визуалу, вышла в тираж и доступна в Ollama через OpenWebUI. Нужно минимум 8ГБ VRAM.

Mistral: выпустили Pixtral Large, визуальную языковую модель (VLM) для чата по визуалу, которая на бенчах лучше других открытых и закрытых, но размером 124B и её не погонять дома в отличие от Ламы 3.2-11B. Онлайн демо.

MinerU: конвертер PDF файлов в текст с markdown форматированием или JSON.

Google: выкатили Gemini-Exp-1114 и он попал в топ лидерборда LLM. Можно погонять на арене.

OpenAI: дропнули приложение ChatGPT на Windows.

Anthropic: с помощью Computer Use можно дать Claude выполнять задания на компе через API. Плюс тулза от сообщества для этого на Win/Mac... Microsoft Recall ты ли это?

AnyChat: в онлайн чат, где есть последние модели Qwen, Claude итд, добавили DeepSeek v2.5. Некоторые можно потестить бесплатно.

Cinnamon: выпустили Kotaemon, фреймворк, который пользователи могут использовать для чата по докам, а разрабы как шаблон для RAG.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Stable diffusion, ComfyUI, Flux

17 Nov, 19:09


Нашел призанятнейший сайтец, на котором можно создавать игры с помощью нейронки не написав самостоятельно вообще ни строчки кода. Просто выбираем шаблон и говорим нейронке, что мы хотим получить, а она поэтапно с этим помогает. Скрафтил это примерно за пару часов с нескольких попыток (нейронка порой люто тупит, хотя и понимает запросы на русском). Сайт позволяет генерировать ассеты графона прямо на нем, но я предпочел сгенерить их в другом месте и притащить туда уже готовые. Сгенерил всю графику, музыку и звуки.

Вашему вниманию представляю мини-игру Sailor Moon Pineapple Maze
Цель игры - заработать как можно очков. Очки зарабатываются при совершении шагов, сборе ананасов, убийстве монстров и прохождении уровня. Изначально дается 75 шагов. Битва с монстром отнимает шаги. Сбор ананасов добавляет. Убил всех монстров? Получи бонус! Собрал все ананасы? Еще бонус! Чтобы перейти на следующий уровень необходимо собрать все ананасы и пройти в дверь (и получить за это еще бонус естественно). А как далеко вы сможете зайти? делитесь скринами ваших результатов в комментариях! Также пробуйте тоже создавать свои игры и делитесь ссылками на них.

Управление мышь/стрелочки/wasd

Попробовать игру (а также опробовать сам сайт и сотворить свою) можно тут: https://play.rosebud.ai/games/5e96ef6c-6739-4676-84ba-86ab5df772ee

Stable diffusion, ComfyUI, Flux

16 Nov, 07:09


Стабили выпустило статью о том, как правильно писать промпт
https://stability.ai/learning-hub/stable-diffusion-3-5-prompt-guide?utm_medium=email&_hsenc=p2ANqtz--A0C0EPeK_YqE72Mk3xDVM9NWzEsTDyHvwk1Xu5Izbe_0TQsfzPCc__ltlrYgHWobHVZMzsM0NrDLBNv58g9_ermZfxw&_hsmi=98780518&utm_content=98780518&utm_source=hs_email

Stable diffusion, ComfyUI, Flux

08 Nov, 00:33


Подборка бесплатных онлайн нейронок для работы с фото.

PuLID for FLUX. При помощи данного инструмента вы можете сгенерировать как нейросетевое фото, так и арт с вашим лицом или лицом любого человека. Работает на базе Flux, по этому качество генераций весьма достойное.
Попробовать PuLID for FLUX

Expression Editor. Позволяет менять выражение лица и мимику на фото. Также можно поменять положение головы, направление взгляда. Работает достаточно быстро, но из минусов - кропает картинку до квадрата.
Попробовать Expression Editor

IC-Light V2. Данный инструмент позволяет сделать релайт фотографии - поменять освещение в кадре. Важный момент - также меняется фон, а также нормально работает только с изображениями в портретной ориентации.
Попробовать IC-Light V2

Diffusers Image Outpaint. Позволяет дорисовать фон на изображении, тем самым расширяя его.
Попробовать Diffusers Image Outpaint

Neurogen - подпишись, тут рассказывают про нейросети

Stable diffusion, ComfyUI, Flux

06 Nov, 21:09


Воркфлоу для Комфи, который показывает как делать инпэйнт во Флаксе. Для новичков объясню. При помощи inpaint вы можете дорисовать или поменять ненужные объекты в генерации. К примеру, вы сгенерировали животное, а у него 5 копыт, закрашиваете одно копыто и пишите в промпте, что должна быть трава. https://civitai.com/models/397069/flux-inpaint-and-outpaint-workflow

Stable diffusion, ComfyUI, Flux

30 Oct, 01:38


SD 3.5 Medium вышла

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

И что тут можно сказать? я слегка так пощупал, ну.. и не сказать что бы в восторге, ну и не сказать что прям вот совсем говно.

Из того что я прощупал - в текст может, но иногда бывают проблемы даже при юзании Т5. (хотя может с сидом не повезло)
В целом если же на sd3.5 Turbo вполне можно обходится без Т5 и даже так она вполне сносно могёт в текст, то тут без Т5 прям порою грустно в целом.

Касаемо анатомии так же всё плохо как и на старших моделях, в обнажёнку - может, но ультра всрато, хотя это считайте не баг а фича. C- Cтабилити так сказать. Из хорошего что можно отметить, вполне сносно могёт в арт и подобное.

По скорости - ну для меня на моей 1660S тут всё грустно, но у вас бояр должно летать, в примере ВФ от стабилити они юзают 40 шагов, CFG 5.5, семплер dpmpp_2m и планировщик sgm_uniform, я же тестил в разрешении 768х1024, на 20 шагах, CFG 5.5, euler_a, sgm_uniform, и по времени эти 20 шагов у меня заняли 1 минуту и 40 секунд, SD 3.5 turbo при 4 шагах, euler, simple у меня генерится 30 секунд. (справедливости ради на тех же настройках что и турбо, Medium у меня отрабатывает за 9 секунд) поэтому когда зовезут оптимизашки всякие по типу хайпер лор и т.п, будет и на моей улице праздник, хотя а надо ли оно когда есть турбо?

P.S что бы щупать модельку в комфи, комфи нужно обновить, vae уже вшит в модельку

Stable diffusion, ComfyUI, Flux

28 Oct, 14:36


Если будет скучно в Forge, загляните на вкладку Spaces. Впечатления, как будто открыл дверь в шкаф, а вместо одежды видишь поляну с двумя единорогами, Сказложопом и Наруто играющим в джуманджи с Морти Смитом. Простыми словами, здесь можно установить через Forge локально еще 9 нейронок и использовать в отдельных вкладке браузера🔥🔥🔥. Удобное и простое решение.
P.S. Для себя эту вкладку обнаружил недавно, пришлось обновить Forge, Она там давно?
#tips

Stable diffusion, ComfyUI, Flux

26 Oct, 22:33


Ну так это ведь стабилити, когда у них базовые модели выходили хорошие?

Стабилити ни разу не выпустили по настоящему хорошую модель, которую можно было бы прям брать и юзать, абсолютно все их модели - говно, и это незыблемый факт.

Базовая 1.5 - ужасна. Если бы не комьюнити, то врятли кто-либо юзал бы её сейчас.

2.0/2.1 базовые - тоже были плохи, а из-за того что ещё и сисечки вырезали, никому они были не нужны, комьюнити не подхватило, модели - умерли так и не родившись.

SDXL - базовая - мыльное мыло и без сисечек, опять же без комьюнити она может быть и не повторила бы судьбу 2.0/2.1, но все бы больше предпочли юзать допиленную 1.5, и юзали бы SDXL чисто для референсов

Посему когда стабилити что-то выпускает, на это всегда нужно смотреть как на говно, но с пометочкой что из этого люди могут сделать конфетку, как сделали с 1.5, Sdxl, Pony так вообще отдельный разговор, но вот с sd3 они прям вот жидко оподливилсь, т.е ладно бы если бы модель была просто говном, ничего нового, но она изначально вышла сломанной, её сломали ещё на этапе обучения, и никакими файнтюнами это было уже не исправить, ну а вот SD3.5 , как минимум не сломанная, и даже худо бедно я поглядел может в сисечки, конечно очень плохо, но даже это уже хорошо, есть за что зацепится при файнтюне, т.е в датасете как минимум была обнажёнка, и с этим можно уже работать

Stable diffusion, ComfyUI, Flux

24 Oct, 07:36


https://youtu.be/DJ5OCYH7Lf4?si=CnLcguicpsJvDl3U

Stable diffusion, ComfyUI, Flux

24 Oct, 07:14


https://youtu.be/LcCicJh3ZlI?si=YcB5baFJHpFua5hX

Stable diffusion, ComfyUI, Flux

24 Oct, 04:21


Попробовал SD 3.5. Кратко - всё плохо.
Поподробней. Не знаю, что я делаю неправильно, но кажется еще хуже, чем в третьей версии. На больших разрешениях вообще все ломается. Там где Flux Schnell легко справляется, а именно прекрасно генерирует природу под формат рабочего стола, то sd 3.5 просто рассыпается в дребезги. В общем прикладываю генерации, сами судите.