Psy Eyes @psy_eyes Channel on Telegram

Psy Eyes

@psy_eyes


Креатив + AI + Web3... и мемы

Личная страница @andrey_bezryadin

Psy Eyes (Russian)

Добро пожаловать в мир 'Psy Eyes'! Этот Telegram канал сочетает в себе креатив, искусственный интеллект и технологии Web3, а также увлекательные мемы. Он представляет собой уникальное сообщество, где вы сможете насладиться умным юмором, интересными идеями и новейшими технологиями. Личная страница основателя канала @andrey_bezryadin добавляет личность и уникальность контенту, делая 'Psy Eyes' еще более привлекательным. Канал призван объединить людей, заинтересованных в творчестве, технологиях и развлечениях, и создать гармоничное пространство для обмена идеями и впечатлениями. Присоединяйтесь к 'Psy Eyes', чтобы погрузиться в увлекательный мир креатива, инноваций и веселых мемов!

Psy Eyes

19 Nov, 12:53


не нерфничай

В PostShot, софте для работы со сплатами, начиная с V 0.4.181 больше не будет возможности тренировать NeRF сцены — профили для этого удалены.

Это сделано, потому что: сплаты выдают лучше качество, тренируются быстрее, потребляют меньше памяти, и вызывают меньше ошибок при работе.

Если таки хотите потестить тренировку нерфов через PostShot, можете скачать предыдущие версии отсюда. Или к вашим услугам NerfStudio и аналоги.

Psy Eyes

19 Nov, 11:53


GSOPs: обновлённый до V2 плагин для работы со сплатами в Houdini.

С его помощью можно импортировать, рендерить, редактировать, и экспортировать сплаты, или генерить синтетические тренировочные данные.

GSOPs эффективен в изолировании объектов, их цветокоррекции и работе с освещением, удалении шумов и артефактов, изменении мешей и анимации, а также общей сборке сцен.

Гитхаб

Psy Eyes

19 Nov, 10:42


Выкатили на всех нашу WorldModel Colorization V1, как она работает я напишу чуть позже, но вот пара советов:

— Если цвета вам кажутся неудачными, то можете просто заново поставить колоризацию фото, цвета будут каждый раз разные

— WorldModel Colorization V1 настолько мелкие детали иногда красит, что способна убрать эффект красных фото — который очень тяжело чинится

— Специально тренировали модель, чтобы она работала с любимы видами повреждений фотографий — приложил пару примеров где она различает цвета, хотя я бы не смог заметить объекты

— Если есть на счету кредиты, можете указать сколько версий картинок должно приходить (до 3х)

— Платная фича: за раз можно покрасить 100 фотографий

— Бесплатно генерируется с вотермаркой и лимитами

Планы:

— Через какое-то время можно будет промптом указать какие цвета лучше использовать

— Эта наша первая версия диффузионного колоризатора, мы знаем как его сделать и в разы лучше и точнее, но прежде чем инвестировать в него дальше мы посмотрим насколько он понравится и сколько будет денег приносить, так как тренировки стоят нам денег и это все еще предстоит окупать

Хорошего time-traveling, путник!

Ссылка:
https://neural.love/photo-colorization

Psy Eyes

19 Nov, 09:42


BlockadeLabs: добавили в BlendBox возможность загружать картинки как слои и генерить в режиме коллажа без промта.

До этого там была только генерация слоёв без фона из текста... Как в LayerDiffuse.

Сайт

Psy Eyes

18 Nov, 22:17


Дайджест:

📹 ВИДЕО + АРТ 🎨

PostShot: появилась интеграция с UE 5.4 для редактирования в нём сплатов, исправили баги при тренировке сцен и импорте/экспорте файлов, и другие улучшения.

Runway: расширили генерацию видео до 20 сек. Плюс обновили API, добавив доступ к контролю камеры Turbo.

Neurogen: появилась оптимизированная версия дипфейкера DeepFaceLab, а также FaceFusion 3.1.

Recraft: обновили свой генератор картинок до V3 и вышли в топ text-2-image моделей, обогнав Flux, MJ, Ideogram, и всех остальных. Можно бесплатно опробовать у них на сайте. Также есть версия, которая затюнена выдавать SVG.

BFL: релизнули Flux 1.1 Pro Ulta для генерации изображений в 4MP и RAW версию с имитацией "обычных фото". Доступно только по API.

Bytedance: выпустили SeeEdit для стайлтрансфера картинки с высокой точностью.

Nvidia: дропнули Llama Mesh для генерации 3D мешей по текстовому описанию с помощью LLM, плюс чата и редактирования.

DimensionX: опенсорсное создание видео с контролем камеры на основе одного изображения. На данный момент движение есть влево и вверх. Работает в связке с CogVideoX.

MagicQuill: онлайн редактирование изображение рисованием и промтом. Напоминает Invoke.

PyramidFlow: ещё один открытый видеогенератор с поддержкой Img2Video. Теперь с кадрами на основе Flux. На выходе видео 768p длиной в 10 сек. Установка через Pinokio.

Bria: обновлённый удалятор фона RMBG-2. Хорошо работает со сложной композицией, есть пакетная обработка, и можно кормить картинки как с компа, так и по ссылкам. Установка через Pinokio.

InstantX: выкатили апскейлер изображений InstantIR. Есть восстановление с точным следованием рефу или по "своему видению" (creative restoration). Установка в Pinokio.

Также они опубликовали метод более точного следования промту в t2i без тренировки + ещё одна работа на эту тему (спс @JohnDoe171).

CogVideoX: выпустили версию v 1.5 своего генератора видео с 5B параметрами. Тесты.

Vidu: обновили видеогенератор до V 1.5. Подняли качество генераций, улучшили следование промту, добавили консистентную работу с персонажами.

Добавление текста на задний фон с его настройкой.

🎸 ЗВУК 🎸

DeepL: представили Voice режим для перевода голоса в текст для бизнес сегмента.

SI: выпустили Hertz-dev, генератор речи (TTS) работающий в audio-2-audio с маленькой задержкой. Может выдавать как слова за одно человека, так и за двоих.

Hallucinator: моделька на основе Hertz выше для продолжения слов в загруженном аудио семпле.

e2f5: появилась возможность делать генерацию речи на основе фантюнов e2f5 от других людей через выбор Custom модели для инференса. На русском не видно пока тюнов.

Веб-интерфейс для работы с разными опенсорсными TTS.

🤖 ЧАТЫ 🤖

Alibaba: рвёт и мечет и после своего опенсорсного кодера, выпустили Turbo — языковую модель (LLM) с контекстом 1 млн токенов. Можно скормить книг 10, или 150 часов транскрибации речи, или 30к строк кода. Демо. API дешевле GPT-4o-mini.

Llama 3.2-11B, умеющая из коробки чатиться по визуалу, вышла в тираж и доступна в Ollama через OpenWebUI. Нужно минимум 8ГБ VRAM.

Mistral: выпустили Pixtral Large, визуальную языковую модель (VLM) для чата по визуалу, которая на бенчах лучше других открытых и закрытых, но размером 124B и её не погонять дома в отличие от Ламы 3.2-11B. Онлайн демо.

MinerU: конвертер PDF файлов в текст с markdown форматированием или JSON.

Google: выкатили Gemini-Exp-1114 и он попал в топ лидерборда LLM. Можно погонять на арене.

OpenAI: дропнули приложение ChatGPT на Windows.

Anthropic: с помощью Computer Use можно дать Claude выполнять задания на компе через API. Плюс тулза от сообщества для этого на Win/Mac... Microsoft Recall ты ли это?

AnyChat: в онлайн чат, где есть последние модели Qwen, Claude итд, добавили DeepSeek v2.5. Некоторые можно потестить бесплатно.

Cinnamon: выпустили Kotaemon, фреймворк, который пользователи могут использовать для чата по докам, а разрабы как шаблон для RAG.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Psy Eyes

12 Nov, 18:38


Я хз как вам, но как по мне мучать ллм вопросом кем тебе приходится тот или иной родственник намного практичнее, чем "сколько будет 2 + 2,1?"

Никогда в этом не шарил, математика и то кажется проще.

Пока правильно ответили только Qwen 2.5, Command-R, Gemma 2.

Psy Eyes

12 Nov, 18:07


Alibaba: выпустили выпустили мощную модель для кодинга — Qwen 2.5 Coder 32B.

На бенчах показывает себя лучше других опенсорсных и сопоставима по результатам с GPT-4o.

Поддержка уже вшита в LMStudio, OpenWebUI + Ollama, и HuggingChat. Можно гонять версии под нужное количество VRAM вашей видюхи: модельный ряд включает в себя версии в размерах от 0.5B до 32B (Q4_K_M квант 32B весит 20 ГБ и влезает в 4090) и контекстом от 32К до 128К (можно кормить книжки). Есть онлайн демо с Artifacts. Такое же можно получить в интерфейсе OpenWebUI. Ещё можно прицепить к редактору кода Cursor.

Анонс
Веса модели
Демо (хаггинг)
Демо (hugging.chat)
Гитхаб

Psy Eyes

12 Nov, 10:45


AutoVFX: Да простит меня Даня, но щас вот за VFX. Не чокаясь.

Это очень забавная работа китайских студентов из Иллинойса.
Но это прям полноценная попытка сделать однокнопочный Гудини или Майю. Вместе с Нюком до кучи.

Замысел на миллион - загружаете видео и голосом говорите, каких эффектов навалить и как приподвзорвать объекты в сцене.

И оно такое - апажалста.

Я сначала дам цитату, а потом разберу работу, уж больно лихие амбиции (в духе этого канала)

"Мы представляем AutoVFX, фреймворк, который автоматически создает реалистичные и динамичные VFX-видео из одного видео и инструкций на естественном языке. Используя нейро-3Д-моделирование сцены, генерацию кода на основе LLM и физическую симуляцию, AutoVFX способен обеспечить физически корректные, фотореалистичные эффекты, которыми можно управлять непосредственно с помощью инструкций на естественном языке."

Каково?

Поглядите примеры тут:
https://haoyuhsu.github.io/autovfx-website/

А теперь пробежимся, из какого опен-сорса и палок они собирают эту монструозную конструкцию.

Gaussian Splatting submodules
diff-gaussian-rasterization
segmentation & tracking modules
Grounded-Segment-Anything and GroundingDINO
recognize-anything
lighting estimation modules
PyTorch3D
Trimesh
Tracking-Anything-with-DEVA
По дороге ставится Блендор!
We use BakedSDF implemented in SDFStudio for surface reconstruction. Please make sure to use our custom SDFStudio for reproducibility. We recommend to create an extra environemnt for this part since CUDA 11.3 has been tested on this repo.

Это больше похоже, конечно, на эксперимент и дипломную работу, но безумство и отвага меня восхищают.
Почитайте их Гитхаб, это прям дерзко:
https://github.com/haoyuhsu/autovfx

@cgevent

Psy Eyes

12 Nov, 09:45


Как я и реквестировал, Mochi скрестили с FasterCache и ускорили генерацию с 320 сек до 184 сек на 848х480 при длительности в 163 кадра. Это на 4 А100. Посмотрим как быстро как дела будут на 4090.

Также FasterCache работает с CogVideoX-5B, который тоже стремительно разрастается, и ускорение здесь с 206 сек до 126 сек на 480p видео в 48 кадров.

Сайт
Гитхаб

Psy Eyes

07 Nov, 20:20


И немного Валгаллы с викингами во времена Рагнарёка.

Psy Eyes

07 Nov, 20:14


Так как снижение количества кадров до 25 сняло все напряги на производительность Mochi 1, и позволило за ~1 мин 8 сек получать видосы в максимальном качестве начал массово генерить. Вот вам немного тестов.

Mochi 1 bf16, качество 100, 25 кадров, остальные настройки дефолтные.

Psy Eyes

07 Nov, 10:41


Мучаем Mochi.

В прошлом году Genmo не раз мелькали в новостях со своим генератором видео, но в последнее время от них ничего не было слышно.

Недавно они выпустили в опенсорс модель Mochi 1, которую чтобы гонять нужно было 4 H100 или иди к ним на сайт, где фришные генерации уже висят неделю. Следом подтянулись пожатые GGUF версии и vid-2-vid варики.

И вот теперь команды Comfy и Genmo объединись и оптимизировали базовую Mochi 1 для запуска в Comfy на пользовательском железе.

Чтобы начать обновите Comfy, или скачайте последнюю версию с гитхаба. Если у вас Comfy стоит через Pinokio, в боковой панели при старте нажимаете update —> перезагрузите Pinokio —> запустите Comfy —> в боковой панели появится Quick Installers —> выбираете вариант Mochi на 17 ГБ VRAM или 22 ГБ VRAM. Дальше скрипт сам скачает все модели.

Воркфлоу (отсюда или отсюда) в виде видео формата webp сохраняете к себе на комп и вкидываете в открытый интерфейс Comfy. Если делали через Pinokio, все ноды сами встанут как нужно — вам останется только вписать промт и поиграться с настройками. Если через гитхаб, то вручную укажите модель, энкодер, VAE как написано тут.

bf16 версия наиболее качественная и во время генерации будет кушать 21-22 ГБ VRAM при дефолтных настройках: 848х480, 24 fps, 30 шагов, cfg 4.5, качестве 80, и длительности в 37 кадров. На одно видео при этом уходит примерно 1 мин 45 сек на 4090.

fp8 при тех же настройках даёт качество похуже, но занимает 17-18 ГБ при генерации. Однако на последнем этапе, во время декода VAE, потребление VRAM стрельнёт резко вверх, и по факту 24 гигов и то с трудом хватит, может и зависнуть (кратко или с концами). Так что закрывайте все приложения по максимуму, или если у вас 2 GPU юзайте ту, что не подключена к дисплею. Хотя не факт, что это поможет ибо после генерации VRAM целиком не освобождается и для следующего захода памяти остаётся меньше, чем для предыдущего. Время на генерацию кстати меньше особо не становится: ~1 мин 30 сек.

Причём нынешняя модель генерит в 480p, а в конце года обещают выложить веса для вывода в HD... воет по 2х5090'ньи

Про качество: Mochi очень хорошо понимает промт и грамотно выстраивает композицию, что особенно важно с моделью, где на одну генерацию уходят минуты. Ползунок Quality как по мне выкрученный на 100 мало что меняет, максимум видеоряд становится менее шумным и плавнее (но при этом и зависнуть может). Кипение и нестабильность тут есть, но это 480p, а если глянуть HD у них на гитхабе, то там всё красиво. На сайте, кстати, заявленного качества как-то не выцепил (раз и два, остальное зависло).

Если сравнивать с Allegro, который по умолчанию генерит в HD, то у Mochi чувствуется под капотом high quality датасет с киношными кадрами, игровыми синематиками, рекламой, итд, а с Allegro такого нет. Причём по кадрам нередко кажется, что это не генерация, а рандомный выбор видео из каталога, и кто-то вот-вот скажет "Да это же моё видео!". Также в Allegro сложнее промтом добиться нужной и стабильной картинки, а времени на генерацию уходит больше.

Таким образом Mochi 1 это лучший опенсорсный видеогенератор на данный момент.

PS, ещё пара наблюдений: генерация в Comfy с гитхаба занимает 1:45 сек, а в Pinokio 1:55. При этом энергопотребление в родном Comfy доходит до 521 Вт, а в Pinokio значительно ниже, в районе 430 Вт, и я это не раз замечал и с другими моделями. Скорее всего дело в паках-библиотеках-зависимостях, где с Comfy используется что ты сам поставишь в систему и папку с прилой, а Pinokio сам подбирает.

UPDATE: при установке длительности в 25 кадров, вообще никаких проблем не наблюдается на bf16, в том числе и надекоде VAE. Генерация при этом занимает ~1 мин 13 сек или ~2.43s/it на дефолтных настройках. А, да, я ещё качество до 100 поднял.

Анонс
Гитхаб Mochi 1
Comfy воркфлоу
Блогпост про Mochi 1

Psy Eyes

04 Nov, 23:07


Тренировка Лор для Клинг!

На своих (чужих, нужных) лицах.

Да, в Клинге появляются Лоры - они их зовут "AI Custom model"

Для тренировки своей модели:

Вам потребуется сделать горизонтальный ролик, где вы смотрите в камеру продолжительностью 10-15 секунд, в формате 1080p и размером менее 100 МБ. На заднем плане не должно быть других кожаных, и убедитесь, что это HQ с хорошим освещением.

Ну а потом загрузить в Клинга 10-30 таких (!разнообразных!) роликов. Важно держать длину 10-15 секунд на ролик, качество 1080p и отсутствие людей на заднем плане. Они рекомендуют загружать от 10 до 30 роликов. 20 тоже ок.

Тренинг идет всего 15 минут (это пока все непонаехали). А потом у вас появляется Face Model в text-to-video option.

Пишете промпт: [facemodel] wearing cyberpunk armor and holding a futuristic rifle. Inspecting a dark laboratory. Lantern lights, dramatic atmosphere.

И все, Клингонская Лора в действии!

Поглядите примеры. Этот ж новый нормальный кастинг.

Вместо базы актеров - база Лор. Кем играть сегодня будем? Так, для испанского проката натренируйте Пенелопу Крус, благо материала полно.


@cgevent

Psy Eyes

04 Nov, 20:13


Хотел я в Minimax покрутить камеру вокруг кота, а он мне: "шатал я твой крути камеру!"

При этом самого котана спокойно разворачивает.

Psy Eyes

04 Nov, 17:41


Сделайте полноэкранный режим для миниапов с десктопа. Заклинаю!

Psy Eyes

04 Nov, 17:41


🤩 Новые фишки для Mini Apps //

Павел Дуров анонсировал масштабное обновление платформы мини-приложений в Telegram.

По его словам, новые функции позволят разработчикам создавать десятки новых видов приложений и игр.

— В ближайшее время появится полноэкранный режим, ярлыки на главном экране и планы подписки.

— Мини-приложения смогут запрашивать у пользователей доступ к геолокации, данные об ориентации устройства, доступ к статусу Emoji.

— Также мини-приложения получат поддержку обмена медиафайлами, отправки подарков, расширенные лимиты обмена сообщениями и монетизацию рекламы.

Глава Telegram подчеркнул, что последние две фишки уже работают, при этом остальное будет запущено в течение 2-4 недель.

@d_code

Psy Eyes

28 Oct, 20:16


Для видеогенератора Allegro появился 1-кнопочный установщик в Pinokio.

Я затестил. Напомню что на выходе 6 сек видео 1280х720 в fps от 15 до 30. От комьюнити ещё появилась опция в 60 fps. Чтобы генерить полностью в видюхе нужно около 30 ГБ VRAM. По умолчанию включен CPU offload и в видюху идёт 9 ГБ, а остальное выгружается в RAM.

На дефолтных настройках в Guidance 7,5 и 20 шагов видео не особо стабильное с качеством 23 года и генерится оно 30 минут на 4090 (на 3090 по словам разрабов 1 час). Чтобы получить качество как в примерах из их галереи нужно ставить 100 шагов и использовать "теги на качество", например те, что они дают:

Prompt: (masterpiece), (best quality), (ultra-detailed), (unwatermarked),

твой промт

emotional, harmonious, vignette, 4k epic detailed, shot on kodak, 35mm photo, sharp focus, high budget, cinemascope, moody, epic, gorgeous


Негативный промт тоже уже вписан, но можно добавить/убавить.

Генерация в 100 шагов займёт 2 с небольшим часа. Ещё на хаггинге написано можно подрубить библиотеку imageio для улучшения картинки, но к этому не идёт никаких деталей. Кстати не заметил, чтобы выбор FPS влиял на время.

На выходе тогда будет видео с лучшим качеством из опенсорсных вариантов (возможно лучше только Moshi 1 от Genmo, который тоже просится на тест). Если бы Allegro вышел в прошлом году, то мог бы посоперничать с Gen-2, Pika 1, и некоторыми другими платными аналогами, но они уже ушли дальше с более качественными продуктами.

Разрабы планируют запилить Img-2-video и контроль движения. Это хорошо, но вот ещё бы скорости, а то 2 часа на 6 сек это не интерактивчик. Возможно FasterCache и другие оптимизации скоро завезут, и тогда станет ловчее.

Установка в Pinokio
Подробнее про Allegro

Psy Eyes

28 Oct, 16:21


Можете на моём компе погенерить во Flux Lite, раскатал вам доступ. Работает и с компа и с телефона.

Воркфлоу в коментах. Вкиньте его в комфи как интерфейс откроется. Либо загрузите нажав Load и выбрав где оно. Если вы с телефона, скачайте файл (можно в телеге выбрать в меню файла Save to Downloads) и через Load укажите где он.

Убедитесь, что энкодеры указаны Clip L и Т5, а не Clip G (!). См. скрины в комментах

Для тех, кто мало знаком с комфи, чтобы сгенерить изображение пишете промт в поле ClipTextEncoderFlux и нажимаете Queue в панельке справа (если что гляньте скрины на оригинальном посте по Flux Lite). Промт надо писать два раза: один идёт для энкодера CLIP L, другой для T5. Ваша позиция в очереди отражается рядом с Queue, а в левом верхнем углу в процентах прогресс генерации.

Сохраняйте к себе понравившиеся картинки. Когда сессия закончится они удалятся.

Правила:
Хотелось бы чтобы VRAM хватало и не было сильных очередей (интересно посмотреть как комфи это разрулит). Поэтому меняйте только промт. Количество генераций (batch size), разрешение, количество шагов, итд, оставляйте как есть. И тогда у всех по идее на 1 картинку будет по ~13 сек.

Если знаете, что и как менять, так чтобы очередь для всех не становилась длиннее, то ок, заодно поделитесь опытом для всех в комментах.

UPD: сессия закрыта. Ожидайте следующую

Ссылка:
https://cu-ae-bradley-feeds.trycloudflare.com/

Psy Eyes

28 Oct, 15:39


Потестил Flux Lite от Freepik, являющийся ускоренной версией Flux Dev (дистилляция дистилляции?).

Данная версия имеет 8B параметров вместо 12B у оригинала. В ходе исследований Freepik выяснилось, что блоки в середине можно убрать без вреда для качества картинки.

Это позволило модели стать на 23% быстрее и занимать на 7 ГБ меньше RAM, без потери качества картинки. Изображения на выходе масимально близкие к базовой Dev. У меня на генерацию в среднем уходило 13-14 сек при CFG 3.5 в 24 шага 1024х1024, а сама модель не забивала все 24 ГБ VRAM.

Ostris уже опробовал и успешно натренировал лору на ней с помощью AI-Tools.

Рекомендуют Guidance_Scale ставить 3.5, а количество шагов между 22 и 30.

Freepik продолжать работать над тем, чтобы Flux в BF16 вмещался целиком в 24 ГБ VRAM.

Воркфлоу для комфи идёт в комплекте.

Быстрее SD 3.5 Large и несравнимо качественнее. Берём в работу!

Хаггинг
Воркфлоу

Psy Eyes

28 Oct, 13:15


FasterCache: метод ускорения инференса видеогенераторов без потери качества и тренировки.

Выяснилось, что повторное использование и кэширование схожих элементов кадра, имеющих небольшое различие, ведёт к деградации изображения. Вместо прямого повторного задействования кэшированных элементов предлагается использовать динамическое, которое более эффективно.

Также исследователи представили CFG-Cache: новый подход, разработанный для учета как высоко-, так и низкочастотных смещений, в сочетании с адаптивной к временному шагу техникой улучшения.

Уже работает с CogvideoX-2B, Open-Sora 1.2, Open-Sora-Plan 1.1, Latte, и Vchitect 2.0.

Теперь пусть подрубят это к Allegro и Genmo, и оптимизируют потребление памяти. Гоу!

Сайт
Гитхаб

Psy Eyes

28 Oct, 09:28


Runway: раскатали публичный доступ к Act One, инструменту для переноса своей мимики на персонажей.

Специального оборудования не требуется — достаточно видео с собой. Похоже на LivePortrait... и скорее всего он и есть под капотом.

Runway предоставили гайд как добиться лучших результатов.

Стоит 10 кредитов/сек, минимум 50 кредитов на видео. Максимальная длина видоса 30 сек. В безлимитном тарифе есть Explore Mode.

Сайт
Гайд

Psy Eyes

26 Oct, 17:53


1000 звёзд 21 день спустя таки пришли. Ловите процесс их конвертации в TON на Fragment.

Кошелёк для получения TON можете использовать любой. Я выбрал Tonkeeper потому что он некастодиальный (ключ от кошелька (сид фраза) хранится у тебя), наценка на комиссии сети ниже, чем в TON Space и MyTonWallet, и много функционала.

Кстати, сумма для вывода в TON динамически меняется: когда зашёл на страницу вывода было 3.336347538 TON, а когда залинковал кошель стало показываться 3.335582452 TON, в момент вывода уже 3.336827682 TON.

Так что не щёлкайте. Особенно потому что сессия на вывод работает где-то минут 10-15, а потом обрубается. У меня так первый раз было и пришлось ждать около часа пока появится новая возможность вывода. Благо не ещё раз 21 день.

Psy Eyes

25 Oct, 21:29


OpenWebUI: веб-интерфейс для локального чата с языковыми моделями (LLM) обновилися и там теперь можно организовывать чаты по папкам; через RAG обращаться к конкретным файлам, а не ко всей базе знаний; внедрили tiktoken — обработку текста по токенам, а не по символам; и много других ништяков.

Я ранее писал о проекте. Если ставили через Pinokio, при запуске OpenWebUI нажмите в боковой панели Stop и затем Update... Надо им сказать чтобы отдельную кнопку для обновления запили без запуска.

Гитхаб
Установка через Pinokio

Psy Eyes

25 Oct, 16:03


Playcanvas: обновили свой просмотрщик 3D файлов до V 5.

Фичи:
* Под капотом браузерной движок PlayCanvas Engine 2.1
* Есть рендер с помощью WebGPU
* Поддержка сплатов в формате .ply (вкинул и просматривай)
* Можно делиться ссылкой/QR кодом на просмотр
* Опенсорс, можно раскатывать где хочешь и внедрять к себе
* Улучшенная поддержка glTF 2.0

Сайт
Гитхаб

Psy Eyes

25 Oct, 14:46


Пара слов про рекламный видос, который был выше.

Я некоторое время назад писал сценарии для разных брендов и сам помогал в съёмках.

Сначала ты на стадии разработки просаживаешь кучу времени с правками туда-сюда, и обычно чем больше контора, тем дольше ждать ответа на каждую итерацию. Потом подготовка к съёмкам: найти людей, оборудование, место, сверить графики, договориться об оплате, итд. Во время продакшена и актриса может опоздать, и животное не двигаться по нужной траектории, и дублей уже тьма а аренда площадки подходит к концу, да и в целом нужно координировать людей, чтобы никто не потерялся в процессе. Всё сняли — выдохнули. Теперь на посте собираем это, показываем заказчику, и начинается новый сет правок тоже длительностью в недели или месяцы, в результате которых принятый материал неизвестно когда выйдет и выйдет ли вообще.

Так вот, от предложения о рекламе выше до итогового видео и его принятия прошло меньше часа. Сгенерил картинку локально во Flux, благо он сразу делает marketing-ready контент. Тут же кинул в Kling (у меня оставались кредиты на подписке), сделал несколько вариантов в V 1.5 и в V 1.0, где есть Motion Brush, и вуаля!

Да есть вопросы к фону, да хотелось бы, чтобы пламя во рту и глазницах двигалось чуть иначе под слова "огонь в глазах", и липсинк! (я пробовал, с тыквой не прокатило на английском, русский вообще не принимает) Но когда ты знаешь, что пост проживёт в канале 24 часа, смысла тратить на его разработку больше 1 часа не много.

Визуал к ролику и слова в озвучке я сделал сам. Мне был дан только текст поста и вводная, что оно под хэлуин.

Я люблю рекламу, которая креативная, развлекательная, и в идеале образовательная. Думаю с помощью нейронок мы сможем больше такого встречать, и заодно экономить время и бюджеты.

Psy Eyes

25 Oct, 13:08


Как начинающему аналитику выбрать работодателя?

Казалось бы, все очевидно: зарплата, карьерные перспективы, удаленка. Но на старте карьеры есть еще один фактор, который упускает каждый второй джун, — это уровень зрелости работы с данными.

Переход на data-driven подход — задача не на одну неделю, и даже если компания ищет аналитика, это не значит, что все готово к его работе. Существует пять уровней развития аналитической культуры и джунам настоятельно рекомендуем выбирать компании не ниже третьего уровня.

В такой компании вы быстро вольетесь в работу и познакомитесь со стандартами индустрии. А по мере профессионального роста переходите в менее «зрелые» компании на руководящие позиции и развивайте культуру работы с данными, основываясь на собственном опыте.

В компаниях «пониже» процессы могут затянуться настолько, что через год вы по-прежнему окажетесь джуном без знания современных инструментов и соответствующей зарплатой. Вывод: идем за третьим уровнем!

С работодателем определились. Дело за прокачкой «хардов» и «софтов».

А еще больше полезностей как по хардам, так и по софтам — на курсе «Аналитик PRO» онлайн-школы Changellenge >> Education.

В Changellenge >> Education проходит акция в честь Хэллоуина, где вы можете купить курсы с жуткими скидками до 60 000 рублей до 28 октября 23:59.
Оставьте заявку по ссылке на бесплатную консультацию.
С Changellenge >> Education переходить в аналитику не страшно!

Реклама. ООО «Высшая школа аналитики и стратегии». ИНН 7716917009. erid: 2VtzqwFX6jv

Psy Eyes

25 Oct, 13:08


Anthropic: добавили в Claude инструмент для анализа данных, напоминающий Code Interpreter у OpenAI.

С его помощью можно строить графики и другие визуализации, а также запускать код и наблюдать его результаты.

Твит
Сайт

Psy Eyes

25 Oct, 12:00


Midjourney тоже, как и обещали, выкатили новый web-editor для картинок.

"Тоже" - потому что вчера Ideogram зарелизил свой Canvas - и там, наверное, все выглядит понаряднее, с учетом идеограмского inpaint и outpaint.

В Midjourney теперь есть свой ControlNet (вроде как Depth) и возможность загружать картинки извне и использовать их как контролирующие изображения. Ну и редактор картинок.

Те, кто сидят на Stable Diffusion\Flux\Fooocus\Invoke\Krita просто пожмут плечами сочувственно, у них это есть 2 тысячи лет уже.

Идеограммщики скажут, а у нас лучше.

chatGPT и DALL·E 3 такие: нет, не слышали, но вы держитесь.

Midjourney фанаты, подобно поклонникам эппле, радостно возопят "ура".
Ну и это здорово, что есть конкуренция, все-таки у мидджуниоров огромное сообщество и оно, наконец, дождалось, пусть ограниченного, но контролНета и возможностью хоть как-то управлять картинками.

Я-то жду от них совсем других новостей до конца года.

Но есть коричневая вишняшка: это только для тех, кто нагенерил 10 000 картинок через Midjourney. Остальным будет позже.

Подсобрал вам видосов и картинок, как это выглядит.

И да, retexturing - это ребрендинг ControlNet Depth от Midjourney.

@cgevent

Psy Eyes

24 Oct, 21:37


Так вот, про тренировку генератора речи e2f5 на датасете с русским языком.

На днях появился скрипт для файнтюна. Поставить можно либо с гитхаба, либо обновив/переустановив приложение в Pinokio. Если пойдёте вторым путём, при запуске e2f5 нажмите Stop в боковой панели и следом Train. Если появится тот же интерфейс, что и до этого, нажмите Refresh вверху Pinokio и тогда появится интерфейс для тренировки...Либо нажмите Stop в боковой панели... В общем смотрим первое видео в посте. UI/UX так себе, да.

По словам разработчика, здесь не получится на небольшом семпле данных зафайнтюнить модель — нужно тренировать с нуля на крупном датасете в 10к+ часов записей. Для справки: базовая модель тренилась на 95к часов английского и китайского в течении недели на 8 A100 с 80 ГБ VRAM.

Датасеты с русской речью есть на хаггинге. Но пока вижу, что звучащие дельно варианты входят в состав крупных мультиязычных датасетов и не ясно сколько там семплов на русском и как их выцеживать. Есть смысл достать нужное где-то ещё.

На гитхабе народ обсуждает процесс тренировки и у кого-то даже получается на 60 часах получить что-то годное после дня трени.

Локально, я закинул 3 минуты для теста. Оно сначала дробит файл на семплы и с помощью Whisper транскрибирует речь в текст.

Дальше на вкладке Train Data можно поиграться с настройками трени, или нажать авто, после чего настройки подберутся самостоятельно. На одну эпоху уходит ~17 секунд на 4090, а потребляется в это время около 19-20 ГБ VRAM. Возможно, если Whisper выгрузить из памяти то можно 4-5 ГБ ещё освободить. Кстати чекпоинты тяжелые, я сделал две трени (вторая на видео) и не успел оглянуться как в папке chkpt возлежало 194 ГБ с каждым файлом по 5 ГБ.

После трени идём во вкладку Test Model и там, где написано Chekpoint вставляем адрес до конкретного чекпоинта, на основе которого хотите генерить. Включая название файла и его расширение.

Нажимаем Random Sample и получаем кусок из закинутого ранее датасета (в моём случае 3 минут) с его транскрибацией. Вероятно этот шаг работает как guidance для модели, иначе не знаю зачем оно. Ниже пишем текст, который хотим озвучить и жмём Infer.

У меня на основе 3 минут получилась белиберда по содержанию, но тембр похож на мой. Первый раз когда прогонял было с китайским акцентом. Вероятно потому, что оно по умолчанию использует англо-китайский датасет Emilia.

В общем для весомых тестов нужно больше данных.

Гитхаб
Требования к датасету
Установка через Pinokio
Обсуждение процесса тренировки

Psy Eyes

22 Oct, 23:50


StabilityAI: стараются исправиться и выпустили Stable Diffusion 3.5.

В релиз входят версии Large и Turbo. Первая имеет 8B параметров и заточена работать в разрешении 1024х1024, а вторая является её ускоренной (дистиллированной) версией, выдающей в 4 шага при CFG 1.2 результат схожий с 30 шагами в базовой модели. 29 октября ещё выкатят Medium 2.5B с исправленной MMDiT-X архитектурой и возможностью генерить до 2048х2048.

В этот раз Stability оптимизировали модель для тренировок на её основе. Также это привело к тому, что результаты по одному и тому же промту могут быть разные, даже если сид зафиксирован. Нужно писать промты детальнее.

Пока генерить можно либо в командной строке из папки с SD 3.5, либо в Comfy (обновитесь до последней версии).

Весят Large и Turbo одинаково по 16,5 ГБ и жрут до 20 ГБ VRAM на одну x1024 картинку, если гонять их через Comfy (22 ГБ на 4 картинки). Если просто запускать командами из папки, то не хватит и 24 ГБ — оно полезет в RAM.

В Large на одно 1024х1024 изображение в 30 шагов нужно около 15 секунд на 4090, на 4 картинки 1 минута. В Turbo при 4 шагах 2-3 сек. Это в Comfy, из командной строки в Large 40 сек на картинку тратится мбо модель, clip и vae загружаются/выгружаются при каждой генерации.

Обе модели промту следуют так себе, а качество вообще швах, временами словно на голую SD 1.5 смотришь. Опять артефакты, lowres шакальность и проблемы с анатомией. Я с Flux уже забыл, что это такое.

И если Flux это была любовь с первого промта, то тут видать только острозаточенные лоры дадут поймать то, что ты ищешь. Из коробки может только если что-то абстрактное или артовое даётся приемлемо. Видать поэтому фокус действительно на кастомизиции-тренировке модели.

При этом TDP (энергопотребление) доходит до 499 Вт, что даже выше целевых 480 Вт для игрового режима у 4090.

Нормально ли видюху долго гонять на мощностях выше целевых при условии, что охлаждение удерживает температуру в пределах 65-75 градусов? Пишите в комментах.

В плане лицензии, SD 3.5 позволяет свободное коммерческое использование, если годовой заработок на ней до $1 млн.

В общем, комьюнити сделало из SD 1.5 конфетку. Будем наблюдать, как сообщество примет и разовьёт SD 3.5.

Анонс
Гитхаб
Хаггинг
Comfy воркфлоу
Демо Large
Демо Turbo

Psy Eyes

19 Oct, 19:48


Yes, please

Psy Eyes

19 Oct, 13:49


Пока недалеко отошли от Adobe и 3D. Я уже рассказывал, что через их новую апу Substance 3D Viewer можно просматривать 3D файлы в фотошопе.

Так вот с её помощью можно работать в режимах Text-to-3D или 3D-to-Image, то есть и генерить из текста 3D, или на голые 3D меши накатывать текстуры с фоном.

Причём можно выбирать:
* Создать фон под уже текстурированный 3D объект
* Поменять текстуры объекта и фон
* Поменять текстуры объекта и не трогать фон

Adobe предоставляют гайд по всему процессу и 3D объект для тестов. Либо вы можете сделать сплат чего-нибудь под рукой в Postshot, например.

Кстати про сплаты. В режиме text-to-3D меш генерится именно в них. Но в Substance нет возможности экспортировать 3D (ибо он работает как привязка к фотошопу). Однако в папке с временными файлами находятся .ply, которые можно закинуть в SuperSplat или другие редакторы с поддержкой сплатов. На гитхабе есть конвертор на эту тему, как и линк на коллаб, если мощей компа не хватает. Думается Adobe эту лазейку как-то закроет, но пока можно пользоваться.

Гайд по Substance 3D от Adobe
Тестовый 3D объект
Гитхаб 3D конвертор

Psy Eyes

19 Oct, 09:57


Adobe: в обновлённом Illustrator векторную графику можно крутить как 3D объекты. Выделяешь что нужно, жмёшь Generate Views, и можешь менять горизонтальное / вертикальное положение, используя новые виды. Причём изменения в одном объекте, можно применить другим таким же (см. рога у летучих мышей). Также оно понимает как работать с освещением при ротации.

Мы видели генерацию новых видов в опенсорсных 3D генераторах, типа Zero123++ и иже с ними. Но, тут оно всё положено под капот с желанным UI/UX.

Ну и создание анимации на основе таких 3D объектов в афтере выглядит неплохо. Для какой-нибудь простой ютуб открывашки или низкобюджетной рекламы сойдёт.

Другой проект, где можно вкинуть SVG и делать из него 3D это Meimu.

У кого адобовская подписка дайте фидбек как оно по ощущениям в ваших задачах.

Твит

Psy Eyes

18 Oct, 18:54


От приписок in-game footage к —> in-browser footage

Psy Eyes

18 Oct, 18:52


PlayCanvas: обновили браузерный игровой движок с поддержкой WebGPU до V 2.1.0.

Что нового:
* HDR
* TAA
* SSAO
* Исправлен рендеринг сплатов в VR
* Улучшена обработка .ply
* и не только

Кстати у них же есть веб-редактор сплатов SuperSplat, а также список проектов с примерами использования движка. Там и игры, и технодемки, и виртуальные инсталляции, итд.

Судя по видео, мы не так далеко от какого-нибудь браузерного NFS Most Wanted на WebGPU, или чего пографонистей. Если не на PlayCanvas, то вполне возможно на Unity, которые поддерживают WebGPU. Можете эти примеры погонять в хроме или другом браузере с поддержкой WebGPU:
* GPU Skinning
* VFX Graph
* URP BoatAttack

Гитхаб
Видео Unity + WebGPU

Psy Eyes

18 Oct, 16:10


LMStudio: в версии V 0.3.4 появился MLX-движок, для эффективной работы на маках с языковыми моделями (LLM) и визуальными моделями (VLM) в формате MLX.

В приложении можно найти и сразу скачать LLM/VLM в нужном формате. И использовать в удобном UI или командной строке.

MLX-движок сделан командой LMstudio и выложен в опенсорс по лицензией MIT.

Также теперь можно запускать одновременно несколько LLM.

Анонс
Скачать приложение
MLX-движок

Psy Eyes

18 Oct, 14:55


Ну и сладкие остатки с AdobeMax.

Вы конечно помните все эти ситуации, когда к вам приходит (вставить нужное) и говорит:
а можно теперь для инсты квадратное?
и для сторисов можно стоячее?
а еще в шапку фб плоское?
ну и на сайт стандартное?
а, там еще размерчики новые пришли..

ты же уже сделал основную картинку, там поправить немного, да?

А у тебя глаз дергается...

Одна кнопка, Карл!

@cgevent

Psy Eyes

18 Oct, 13:54


Кстати про FaceFusion. Там FusionLabs выпустили свою модель для работы с лицами — ArcFace Converter. С её помощью можно конвертировать лицевые эмбеддинги между разными ArcFace архитектурами в ONNX формате.

В то время как inswapper полагается на эмбеддинги оригинального ArcFace, модели вроде HiFiFace, GHOST, и SimSwap используют свои архитектуры, 200 МБ каждая. Новые конверторы весят по 20 МБ и повторно используют лицевые эмбеддинги, которые были сгенерированны для распознавания лица, и ускоряют процесс.

Если у вас стоит FaceFusion 3.0.0, то оно уже под капотом и используется. Ежели какая-то другая сборка, можете скачать новые модели отсюда и положить их .assets/models, где установлен FaceFusion.

Гитхаб

Psy Eyes

18 Oct, 12:20


Nvidia: ускорили Flux на видюхах с поддержкой TensorRT. Прирост производительности составляет 20%. А ранее Alibaba выпустили Turbo версию Flux.

Чтобы достичь ускорения, надо модель, скажем Flux Dev, пропустить через ComfyUI TensorRT. На выходе можно получить или динамический оптимизированный движок, который будет работать с разными разрешениями, или статический работающий в одном разрешении, зато потребляющий меньше памяти.

На данный момент, чтобы провести оптимизацию нужно 48 ГБ VRAM и видюха с поддержкой BF16 типа А5000. После этого, оптимизированную Dev можно будет гонять на 4090. Но скорее всего ничего другого параллельно работать не сможет и экраны нужно будет отключить. Не забудь поставить свечку для аутентичности.

Тем не менее, будем следить за развитием событий. Я тут опробовал TensorRT в новом FaceFusion и оумай! оно просто летать начало, даже по сравнению с CUDA.

Анонс
Гитхаб Comfy TensorRT
Обсуждение на гитхабе

Psy Eyes

18 Oct, 11:06


Вышел PyTorch 2.5.

Что нового:

* Новый CuDNN "Fused Flash Attention" бэкенд. Если гоняете H100 в облаке или предоставляете сервисы, скажем через ботов, на них, прибавка в скорости может быть до 75%.

* Поддержка видюх Intel. Написано, что речь про те, что в датацентрах и у пользователей. Интересно имеются ввиду дискретные Arc или втройки в проц типа UHD Graphics 770 тоже считаются? Если да, то можно ли заставить их использовать вагон RAM как на маках?

* Другие оптимизации и улучшения

Анонс
Гитхаб

Psy Eyes

17 Oct, 11:19


Huggingface заколлабились с Ollama и теперь можно любую языковую модель (LLM), у которой на хабе есть GGUF от квантизации, запустить прямо в командной строке вбив строчку формата:

ollama run hf.co/{username}/{repository}


Можно попробовать на чём-то из этого:
ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF
ollama run hf.co/mlabonne/Meta-Llama-3.1-8B-Instruct-abliterated-GGUF
ollama run hf.co/arcee-ai/SuperNova-Medius-GGUF
ollama run hf.co/bartowski/Humanish-LLama3-8B-Instruct-GGUF


На память команды знать не обязательно. Ловчей будет зайти в хабе на страницу интересующей модели, перейти в Quantizations, выбрать создателя кванта (ориентируйтесь по скачиваниям), нажать "скопировать" рядом с названием модели, а дальше в командной строке вбить ollama run hf.co/ и вставить скопированное. Если нужна конкретная квантизация, например Q4_0, то она дописывается в конце рез двоеточие. LLM скачается и с ней можно будет общаться.

Также может понадобиться Ollama добавить в PATH, чтобы оно могло запускаться из любого места в командной строке. Для этого найдите куда приложение установлено (например нажав на иконке и открыв "расположение файла"). Это что-то вроде: C:\Users\PsyEyes\AppData\Local\Programs\Ollama. И в переменных среды найдите строчку Path » изменить » создайте новую строку и впишите в неё адрес.

Сегодня в заголовках Nvidia с их тюном ламы, красиво светящимся на бенчах против последних моделей Anthropic и OpenAI. Просто GGUF весит 48 гб. Чтобы подрубить пожатый 1-битный и, возможно, нерепрезентативный квант, весящий 16 гигов и занимающий 20 ГБ VRAM, надо вбить:

ollama run hf.co/bartowski/Llama-3.1-Nemotron-70B-Instruct-HF-GGUF:IQ1_M


Хотя мне конечно через командную строку общаться не близко. Нужен UI, чтоб можно было и чаты разные вести, и файлики свои подгружать, итд. Будет ништяк, если это подрубят в OpenWebUI с Artifacts, а то там сейчас список поддерживаемых моделей ограничен.

Анонс
Список LLM на хаггинге

Psy Eyes

17 Oct, 10:00


Pika: продолжают через мемы раскрывать возможности своего генератора видео v 1.5, который умеет в физику, чёткость движений, и высокое качество картинки.

В этот раз добавили эффекты:
* Crumble (разрушить)
* Deflate (спустить)
* Dissolve (дезинтегрировать ака ты чего наделал)
* Ta-Da (фокусы за 200)

Заодно прицепил прошлый трейлер V 1.5, чтобы все эффекты в наличии были в одном посте.

Pika правильно делают. Мемы это массадопшн для AI. Надо только бесплатный тариф как-то проработать, а то 3 дня на одну генерацию это так себе.

Твит
Сайт

Psy Eyes

17 Oct, 08:48


Апдейт для E2-F5 в пинокио уже подъехал. Модель подрубили к официальному репо в гитхабе и обновили до всех последних фишек.

Теперь можно локально делать подкасты, генерить в разных эмоциях, и регулировать скорости речи/паузу.

Если update в боковой панели не обновит модель, то снесите её, закройте пинокио, и поставьте E2-F5 заново.

Установка через Pinokio
Про E2-F5