Метаверсище и ИИще

@cgevent


Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn

Метаверсище и ИИще

22 Oct, 15:35


Девушки трогают траву. Ver 3.5

Начинаем тестировать и тренировать файнтюны и лоры под SD3.5

Вот тут гайд по тренировкам (забавно, что в ноушене):
https://stabilityai.notion.site/Stable-Diffusion-3-5-Large-Fine-tuning-Tutorial-11a61cdcd1968027a15bdbd7c40be8c6

Тренировка Лор потребует 24Гига ВРАМ для SD35 Large, а для полного файнтюна понадобится как минимум одна H100.
Первые Лоры для 3.5:
https://huggingface.co/Shakker-Labs/SD3.5-LoRA-Linear-Red-Light
https://huggingface.co/Shakker-Labs/SD3.5-LoRA-Futuristic-Bzonze-Colored
https://huggingface.co/Shakker-Labs/SD3.5-LoRA-Chinese-Line-Art

Вот тут уже есть поддержка Комфи, тестируем:
https://comfyanonymous.github.io/ComfyUI_examples/sd3/

Update to the latest version of ComfyUI

Download Stable Diffusion 3.5 Large or Stable Diffusion 3.5 Large Turbo to your models/checkpoint folder

Download clip_g.safetensors, clip_l.safetensors, and t5xxl_fp16.safetensors to your models/clip folder (you might have already downloaded them)

Smaller fp8 version here: https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8

Все как обычно, го пробовать.

@cgevent

Метаверсище и ИИще

22 Oct, 15:23


Новый Sonnet и Haiku от Anthropic!
https://www.anthropic.com/news/3-5-models-and-computer-use
Claude 3.5 Sonnet сильно прокачали по всем фронтам, особенно в кодинге (где дальше o1 обошли). А маленький Claude 3.5 Haiku теперь на уровне прошлой большой модели, в том числе в кодинге и размышлениях, при этом стоит копейки.

Плюс сделали фичу Computer Use - https://www.anthropic.com/news/developing-computer-use
Теперь можно попросить модель "использовать компьютер за вас": двигать мышкой, кликать, вводить. Пока только для разработчиков и работает нестабильно, но выглядит круто. RPA-провайдеры нервно закурили

Смотрите крутой видос - https://youtu.be/ODaHJzOyVCQ

Метаверсище и ИИще

22 Oct, 15:06


А пробуем обнову тут:
https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large

Метаверсище и ИИще

22 Oct, 14:22


Stable Diffusion 3.5 Large and Stable Diffusion 3.5 Large Turbo.

Девушки снова могут лежать на траве!

Пока коротенечко, без тестов.
https://stability.ai/news/introducing-stable-diffusion-3-5

Веса:
https://huggingface.co/stabilityai/stable-diffusion-3.5-large/tree/main

Код:
https://github.com/Stability-AI/sd3.5

16гиг. Это 8B. Здоровенная дурь.

А дообученную Medium обещают 29 октября.

Ну и начнется: а где контролнет, а скоро ль файнтюнить можно будет, а Лоры тренить как?

Метаверсище и ИИще

22 Oct, 14:07


RhymesAI: полку опенсорсных генераторов видео пополнение — Allegro.

Что тут у нас:
* Видео 720p в 15 к/с. Пока только text-2-video, вроде с хорошим следованием промту. Можно интерполировать до 30 к/с через EMA-VFI. Если что, с помощью Flowframes можно и больше.
* Нужно 9,3 ГБ VRAM ибо модель маленькая, но эффективная (175M VideoVAE // 2,8B DiT). Остальное пойдёт в RAM. Если вырубить CPU offload, то будет жрать 27,5 ГБ VRAM.
* Ухватывает контекст 88 кадров (до 6 сек), что может пригодиться для продления видео как у Adobe, или редактирования как в Movie Gen
* Ограничения по контенту минимальные
* Код и веса открыты
* Лицензия Apache 2

Генерируемые видео по качеству и консистентности лучше, чем у CogVideoX и других опенсорных альтернатив. Я бы даже сказал, если оно реально как на примерах, то может стать щелчком по лбу и некоторым платным моделям. Но сколько уходит на 1 видео и насколько контролируем в реальности результат неясно. Надо тестить.

Дальше планируют: image-2-video, мульти-GPU генерацию, контроль движения, и создание видео на основе раскадровок. Если последнее будет как когда-то было обещано в NUWA — будет ништяк.

Анонс
Гитхаб
Хаггинг

Метаверсище и ИИще

22 Oct, 13:04


Похоже вот-вот появится код от NVIDIA SANA

Как я писал ночью, они развернули репозитарий на Гитхабе. Утром поправили картинку-лого)

Но уже можно самим попробовать - они открыли демо.
Одна проблема, демо все время падает и выдает ошибку, поэтому вот вам лайфхак.

Идете сюда: https://github.com/NVlabs/Sana
И жмете DEMO|MIT сразу над общей картинкой-коллажем.

Попадаете в gradio-demo со случайным id, пробуете генерить там.
Если выдает ошибку(часто), то закрываете, обновляете страничку с Гитхабом(F5), и снова жмете на DEMO|MIT - попадаете на другое демо с другим id, которое крутится на другом серваке\GPU.

Я нашел вот такое например:
https://8876bd28ee2da4b909.gradio.live/

Не падает и даже считает в 4096х4096, как гордо заявлено на сайте, но, как в анекдоте про машинистку, получается ерунда какая-то.

В общем, не ждите качества, это попытка резко ускорить генерацию за счет нового энкодера Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models.

И если пройтись по авторам SANA, то репозитарием на Гитхабе ведает Junsong Chen, тот самый, который писал и тренировал Пиксарт-Альфу и Пиксарт-Сигму. А теперь работает в Нвидия.

Ну и пока я не очень вижу хоть какое-то качество, а в 4096 все совсем уж разъезжается. Первые две картинки как раз 4096.

Не очень понимаю, как они будут конкурировать с Флюкс Турбо с одной стороны и SDXL Turbo с другой(если речь про расход памяти).

@cgevent

Метаверсище и ИИще

22 Oct, 09:51


Вслед за Krea потянулась череда проектов, которые агрегируют у себя на сайте апи ко всем видеогенераторам, прикручивают систему кредитов и платежей, и ну зарабатывать.

Каждый из них будет запихивать какие-то фишечки, но в целом это перепродажа API.

Но меня больше всего бесит реклама "встречайте наш новый видеогенератор".

Вот поглядите на ещё один такой.
Ну и free plan роскошный конечно - одно видео в месяц.
https://app.playjump.ai/pricing

Метаверсище и ИИще

21 Oct, 23:04


У мега-ультра-супербыстрого генератора картинок от Nvidia под названием SANA появился репозитарий на Гитхабе. Но кода пока нет, а Readme обновилось 3 часа назад. Ждем-с...
https://github.com/NVlabs/Sana

Метаверсище и ИИще

21 Oct, 13:41


Ого, ого. Новый клиент для ComfyUI.

Отдельное standalone приложение. Windows / macOS / Linux

Весит 200MB. Ставится локально, как обычная программа, без всяких ГитКлонов, ПипИнсталов и requirements.

ComfyUI Manager Shipped by Default

Табы как в браузеры и произвольные хоткеи.

Новый UI - меню со своими пунктами, трей, БИБЛИОТЕКА МОДЕЛЕЙ.

Ну и вот: ComfyUI теперь позволяет пользователям вставлять url/id модели в рабочий процесс и автоматически загружать ее. Например, если вы открываете шаблоны, но у вас нет модели, ComfyUI предложит вам загрузить недостающие модели, определенные в рабочем процессе.

Comfy Node Registry (CNR) - база кастомных нод.

PyTorch 2.5 по дефолту

Для серверов на рунпод: On the backend, you will still use the same thing as before. On the frontend, we will be able to support you to connect to runpod backend.

Да, будет портабл версия

It will install PyTorch by default. Will not affect system python

Да, будет код.

Старый пользовательский интерфейс в настоящее время находится в режиме maintenance и не получит новых возможностей. Мы призываем всех разработчиков пользовательских узлов и расширений поддержать новый пользовательский интерфейс.

Я зарегался вбету:
https://www.comfy.org/waitlist

Подробности:
https://blog.comfy.org/comfyui-v1-release/

@cgevent

Метаверсище и ИИще

21 Oct, 13:31


Ого, ого. Новый клиент для ComfyUI.

Метаверсище и ИИще

21 Oct, 12:01


Прастити, меня тут продолжает штырить от Флюкса и chatGPT.

Я скрестил сегодняшний промпт типа "нарисуй меня в в виде [object] на основе той информации, что ты про меня знаешь" и техники типа "Cutaway diagram of a [object], detailed with interior component, on a white background. High-resolution, with a focused technique and text callouts providing information about each part. Interior details, hyper-realistic appearance" из своего же поста выше.

Ну и получил отличные картинки для всех этих книжек по йоге и метапрактикам, с иллюстрациями того, где расположены вот эти вот все чакры, енергетические центры, сгустки энергии, точки силы и прочие недоказательные локации. Для обложек спиритических книжек должно зайти на ура.

Ну или пилите стартап - пользователь присылает фото и свой "диагноз", а ваш ИИ рисует ему карту его "енергетических вспышек на сегодня". Как астрологические прогнозы, только красивее.

Редактируете текст выносок (текст тоже может chatGPT написать) и ну рассылать.

Так же будет работать на псах, котиках, хомяках и других священных домашних животных, за которых владельцы будут вписываться деньгами.

Профит!

@cgevent