Psy Eyes @psy_eyes Channel on Telegram

Psy Eyes

18 Feb, 14:50

Light-a-video: смена освещения на видео.

Пока мы ждём, когда lllsviel выложит в паблик IC-Light v2, другие чуваки пришивают релайтер на основе IC-Light v1 к видео. Ещё там под капотом animatediff и CogVideoX.

Код есть, но с лёту не завёлся. Генерация идёт через вызов в командной строке нужного yaml файла в папке configs. Промт и настройки задаются как раз через yaml файл. Делайте его копию, меняйте название, и настраивайте всё под себя.

После установки по командам с гитхаба, при запуске оно пожаловалось на numpy 2. Perplexity говорит удаляй его и ставь версию ниже.

Сделал раз
pip uninstall numpy

и два

 
pip install "numpy<2.0"

Далее оно посетовало, на Pytorch и CUDA. Поставил всё отсюда
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124

Вот теперь завелось и скачало все нужные модели для генерации.

Сам входной видос должен быть 8 к/с и 512х512. Его надо положить в папку input_animatediff для обычного релайта, или в input_animatediff_inpaint, если фон надо сгенерить. На одну генерацию уходит примерно 8 мин на 4090. На втором прогоне было уже 10 мин. Сжирает все 24 ГБ VRAM моментально.

Итоговое видео будет в папке output. Дальше, чтобы повысить разрешение кидаем это в апскелер а-ля Topaz, а фреймрейт повышаем через Flowframes или что-ещё.

Сайт
Гитхаб

537

Psy Eyes

18 Feb, 12:00

Хуньянь image-2-video, но не от них самих, а от SkyReels.

SkyReels-V1, это генератор видео в i2v и t2v вариантах с фокусом на людях в кадре. Зафайнтюнен на 10 млн видосов высокого качества. Используется 3D реконструкция тел для улучшения взаимодействия объектов в кадре. Выдаёт 544px960p длиной 97 кадров при 24 к/с.

Заточено под мульти-гпу сетапы (распределенка), и говорят SkyReelsInfer, их фреймворк с оптимизацией, на 58% быстрее по генерации, чем XDiT при использовании четырёх 4090. Хорошо параллелится и на 8 GPU, причём 8x4090 (159 сек) не сильно отстают от 8xA800 (107 сек) с 80 ГБ VRAM каждая.

На одной 4090 пишут можно запустить, если генерить не более 4 сек. Тогда на одно видео уйдёт почти 15 мин. Но нужен линукс и triton.

Пока я это писал Kijai уже начал ваять это всё под Comfy. Mochi также начинал: сначала 4xH100, а в итоге оптимизировали под работу на 4090.

На гитхабе ни слова как генерить на основе картинок. Скорее всего вместо текста указать адрес к файлу. Скормил код Perplexity, говорит есть возможность переключения типа ввода между text или img. Попробовал по его примеру вбить команды, не завелось. Набор "Собери сам", кароч.

Альтернативно у них есть сайт, который вчера лежал, а теперь отлёг. Одну генерацию дают потестить. Кота нормально повернул, геометрия ок, глаза уже не наклейки на очках, цепочка фактурная. Даже мех ощущается. Текст правда на майке залип, но это скорее всего потому что он наложился на водяной знак, который должен держаться стабильно.

Сам сайт прям копипаста Kling и Hailuo: есть генерация видео, картинок, липсинк. Однако есть режим Storyboard, позволяющий генерить фрагменты, которые потом можно связать и режим Generate Drama, где по шагам, сначала закидываешь идею (текст, картинки), потом генеришь, создаёшь персонажей, и затем уже ваяешь раскадровки на основе этого.

Сайт
Гитхаб
Хаггинг
Kijai

4,122

Psy Eyes

14 Feb, 18:10

Прогресс примерно за 2 года.

Скоро ранние артефакты будут восприниматься с ностальгией, как VHS гличи, и появятся инструменты добавляющие такой "эффект старины". Я и сейчас нахожу нечто притягательное в упоротых GAN генерациях.

1,592

Psy Eyes

13 Feb, 13:02

Телега ещё на шаг ближе к функционалу ютуба. Обложки для видео, расшаривание с таймкодом, продолжение просмотра там, где остановился....

Осталось только монетизацию через рекламную сеть Telegram Ads подрубить, или за звёзды/TON со списанием пропорционально просмотру.

Ещё бы телега сама кропила и поджимала видосы под автовоспроизведение, было бы супер.

Сайт

1,635

Psy Eyes

11 Feb, 08:58

POV: нейронка с Civitai получает промт

3,300

Psy Eyes

10 Feb, 17:42

Luma: добавили image-2-video для видеогенератора Ray2.

Позже в режим добавят начальный/конечный кейфреймы, расширение, и зацикливание видео.

Сейчас доступно владельцам Unlimited подписок. Другим раскатают на днях.

Сайт
Твит

8,361

Psy Eyes

10 Feb, 17:17

Немного крутых работ с дискорда Banodoco.

Дискорд

1,712

Psy Eyes

10 Feb, 15:36

Недавно была новость, что Comfy воркфлоу теперь можно конвертировать в интерфейс на Gradio и публиковать на Хаггинге. Но по отзывам народа такое решение забивает оперативку.

Вот вам альтернативный варик с преобразованием воркфлоу в мини-приложение на Glif. Если что, у них есть API.

Сайт
Подробнее про Glif
Твит

1,531

Psy Eyes

09 Feb, 09:05

Музыкальный генератор YuE был ускорен для работы в 2-3 раза быстрее (4 минуты вместе 12) благодаря народу в лице оптимизатора deepbeepmeep. Его сборки выходят с приставкой GP (GPU Poor), таким образом здесь имеем YuEGP.

Также в Pinokio подъехала версия, где на вход можно подавать музыкальный референс и перекладывать его стиль на ваши завывания/демки. Она запускается из сайдбара. Если кнопки не видно нажмите Update там же и перезапустите Pinokio.

Pinokio
Гитхаб YuEGP
Гитхаб YuE
Твит

1,680

Psy Eyes

07 Feb, 15:06

Что ни говори, но Krea умеют в UI/UX.

Дальше только лучше: больше объектов в одном кадре, сегментация и детальный контроль над отдельными мелкими элементами, итд.

Сайт

1,547

Psy Eyes

07 Feb, 13:59

Blockadelabs: добавили 32-битную HDRI обработку 360° сцен для получения реалистичного освещения и улучшенного динамического диапазона 3D проектов. Файлы HDR и EXR генерируются из ваших скайбоксов.

Также теперь есть бесплатный семплпак ассетов, чтобы изучить новые возможности перед обновлением.

Сайт

1,485

Psy Eyes

06 Feb, 13:20

Как в Simulon выглядит общий процесс работы и загрузка своих 3D ассетов через десктопное приложение.

С мобильным коннектится через сканирование QR кода.

1,405

Psy Eyes

06 Feb, 12:32

Simulon: вышел в тираж! Я уже погонял и оно действительно как на демках. Ловите инвайт в бету TestFlight и заодно их дискорд.

Нужен айфон. Ради такого дела даже в гости сгонял (сам буду ждать на дройдех). Ставите на айфон TestFlight и через него устанавливаете приложение по инвайту выше.

Открываем приложение и там три секции:
* Home — лента рендеров других людей (не надо будет шерстить твиттер, уже хорошо)
* Create — сканирование сцен, расположение в них 3D ассетов, и рендеринг фото или видео.
* Assets — если у вас нет своих 3D объектов, их можно скачать из встроенной библиотеки или добавить в закладки, что удобно. Просматриваются удобно (у них свой вьюер сплатов), грузятся почти моментально. Свои ассеты (как анимированные, так и нет) можно закидывать через десктопный софт с их сайта. Есть гайд с требованиями к 3D объектам.

Чтобы сделать рендер, зходим в Create и создаём сцену. Выбираем как будем рендерить на серверах Simulon или на своём железе, где установлен десктопный софт Simulon. В первом случае можно использовать все ассеты из встроенной библиотеки приложения, а во втором только свои загруженные 3D объекты с лицензией. Выбираем снимаем в помещении или снаружи. Свет естественный или искусственный. Сканируем камерой пространство вокруг, заполняя шар (отличный UI/UX). Задаём поверхность для вписывания 3D ассетов, либо сканируя окружение, либо указывая напрямую.

Дальше начинается этап расположения 3D ассетов в сцене. Нажимаем на кнопку добавить и выбираем из нашей библиотеки до 4 объектов (расставляются последовательно). Размер и положение меняются пальцами. Для некоторых (вроде динозавров) есть выбор анимации.

На этом этапе ассеты ещё отображаются в предварительном виде, но уже отлично сидят в сцене и при максимально приближении к ним ты их словно физически ощущаешь, особенно когда делаешь масштаб посерьёзнее.

Обратите внимание на глаза велоцираптора, в них отражается квартира.

Потом можно срендерить либо фотки, либо видео. Нажимаете на кнопку съёмки и сцена отправляется на обработку. Очередь на рендеринг можно наблюдать в правом верхнем углу на иконке облака (локально вероятно также). Фотки обрабатываются довольно быстро, видео минут 5-10. На выходе готовая сцена с качественно просчитанным освещением.

Пока не ясно как открыть ту же сцену и изменить её. Мне приходилось делать всё заново. Но это всё мелочи, которые поправят. А по результату у нас на руках очень крутой продукт.

Пока всё бесплатно. Там есть баллы, которые тратятся на рендеринг и похоже зарабатываются за какую-то активность. Так что дерзаем! Закидывайте своё 3D из Хуньяня, Postshot, Tripo, итд и скидывайте в комменты, что получилось.

Сайт
Приложение
Гайд по загрузке своих 3D объектов
Дискорд

6,816

Psy Eyes

05 Feb, 14:36

Pinokio к версии 3.6 так нормально проапгрейдили. Наконец-то есть домашняя страница с иконками AI-приложений. Также пофиксили много багов всплывавших при установке, перешли на UV для ускорения загрузки, и ещё много всего подкапотного.

Заставку можно менять, кстати.

Сайт
Скачать

1,390

Psy Eyes

05 Feb, 13:47

2025 только начался, а OTOY уже приглашает тебя в 2026.

OctaneRender, движок для рендеринга 3D и эффектов, обзавёлся поддержкой сплатов в версии 2026.1 Alpha 1.

На видео показано как сплаты рендерятся в реальном времени при работе с DOF камеры, и как меняется освещение, когда другой объект добавляется в сцену.

Сплаты с трассировкой лучей работают медленнее, чем подходы на основе растеризации, однако есть все преимущества рейтрейсинга: сплаты видны в отражениях и преломлениях, могут освещать объекты сцены и отбрасывать на них тени.

Также внедряют поддержку разных AI сервисов: Kling, Luma, Black Forest Labs (Flux), итд.

Сайт
Скачать

7,712

Psy Eyes

03 Feb, 15:32

Команда «Море данных» datasea.me открывает вакансии на расширение.

Наша команда работает как на крупных заказчиков (Газпромнефть, СберУниверситет, Полюс Золото, корпорация Синергия) так и на собственных продуктовых линейках в сфере образования и цифрового HR. В команде как специалисты по ИИ так и разработчики, продуктологи, методисты.
Сейчас нас 30+ человек. Работаем на самом переднем крае образовательных инноваций, специализируемся на ИИ в образовании, датацентричном дизайне образовательного опыта, образовательном дата инжениринге. По результатам нашей работы вышла русская глава в книге Салмана Хана "Новые Миры образования".

Основные направления работы: цифровое образование, анализ качества речи с помощью ИИ, цифровые двойники способные к рассуждению, digital HR, конвертация текстов в графы знаний, цифровая диагностика с применением ИИ, работа с данными рынка труда. Пример

Ищем душевных людей, небезразличных к современному образованию, способных работать в 100% удаленке в режиме эксперимента и исследования над созданием инновационных сервисов на основе ИИ.

1️⃣ Middle/Senior Data Scientist/ Machine Learning (NLP)
(сейчас в команде 3 таких специалиста)

* На 50% ставки
* Удаленка, гибкий график.
* Оклад: 200-400 тр. (согласно квалификации)
* Возможно временное оформление: договор ГПХ, самозанятые, ИП

Требования:
— знание NLP стека и опыт работы в данной области
— понимание принципов устройства и обучения LLM и генеративных трансформеров
— опыт разработки NLP-моделей
— подтвержденный опыт работы с LLM
— подтвержденный опыт работы с RAG
— опыт работы со звуком (например апи elevenlabs)
— желателен опыт работы с deep learning

Резюме присылать в тг https://t.me/YuliaChuykova с пометкой ‘Data Scientist’

2️⃣ Prompt engineer
(сейчас в команде 5 таких специалистов)

* Оклад: 90 - 160 тр. (согласно квалификации)
* Удаленка, гибкий график
* Обязанности: написание промптов и промпт-сценариев для больших языковых моделей

Требования:
— Понимание принципов работы LLM, тюнинга поведения LLM с помощью промптов; обучаемость.
— Подтвержденный опыт проектов с прмт инженерией для языковых моделей
— интерес к сфере образования

Резюме присылать в тг https://t.me/YuliaChuykova с пометкой ‘промт инженер’

3️⃣ Дата инженер
(сейчас в команде 3 таких специалиста)

* Оклад (согласно квалификации)
* Удаленка, гибкий график.

Требуется опыт выполнения задач:
— Проектирование, создание, оптимизация схем данных для БД (PostgreSQL, MongoDB, возможно MySQL), включая индексы и, для реляционных баз, внешние ключи.
— Разработка и развёртывание автоматизированных краулеров для выгрузки данных со сторонних сайтов (как через парсинг страниц, так и через АПИ).
— Настройка пайплайнов обработки данных .
— Разработка конвертеров для данных и подготовка выгрузок в формате согласно требованиям аналитиков.
— Разработка и развёртывание REST API для доступа к данным.
— Настройка и поддержка резервного копирования данных.
— Возможны работы по CI/CD для ПО отдела (дата-инженерное ПО: краулеры, пайплайны, АПИ; аналитическое ПО: дашборды, ML-модели и т.д.).
— Возможны задачи по текущему администрированию и поддержке Linux-серверов отдела для работы на них упомянутого ПО.
Знание инструментов и технологий (по убыванию важности): Python, PostgreSQL, ssh/bash, REST API, Linux, MongoDB; желательно

Резюме присылать в тг https://t.me/YuliaChuykova с пометкой ‘дата инженер’

978

Psy Eyes

03 Feb, 15:31

🤖 ЧАТЫ 🤖

PyTorch: вышла V 2.6: появилась поддержка FP16 для x86 процессоров как в режиме eager, так и в режиме Inductor; улучшена работоспособность на видюхах Intel; и другое по мелочи.

Deepseek: про R1 отдельно поговорим.

OWUI: в релизах 0.5.4 — 7 теперь есть нативный тег thinking для моделей вроде DeepSeek R1, можно делиться чатами, расширенное управление моделями и правами пользователей, итд.

LM Studio: в V 0.3.7 — 9 thinking UI для DeepSeek R1, поддержка KV кэша для llama.cpp моделей, улучшение рендеринга LaTeX, улучшения в рантаймах.

Sakana: представили Transformer², систему в которой веса модели автоматически адаптируются под задачи. Так же они выпустили маленькую языковую модель, заточенную эффективно работать на мобилках. Правда только на японском.

OpenAI: выкатили агента Deep Research, который может глубоко уходить в анализ и возвращаться, когда всё прошерстил. Открыли бесплатным пользователям доступ к 03 mini (её ~~натальная~~ системная карта). Canvas теперь работает с o1 и может рендерить код на HTML и React. Также выпустили фичу Operator, позволяющую давать AI-агенту контроль над браузером. Для Pro подписчиков в США.

Browser Use: или дай опенсорсному AI-агенту на выбор выполнять задания у тебя в браузере бесплатно.

Bytedance: релизнули UI-TARS, фреймворк для выполнения AI-агентом заданий на компьютере, а не только в браузере.

Hailuo: выпустили в опенсорс генератор текста MiniMax-Text-01 размером 456B с контекстом 4М токенов (можно скормить библиотеку, но дома не погонять). Плюс чат по картинкам MiniMax-VL-01, но он тоже здоровый.

HuggingFace: запартнёрились с провайдерами компьюта Replicate, TogetherAI, Fal, итд. Теперь можно запускать модели прямо на Хаггинге при наличии API ключа. Реквистирую Runpod!

Alibaba: на волне хайпа по DeepSeek R1 вышли с Qwen2.5-Max самой мощной моделью в их линейке (доступна только в облаке), и Qwen2.5-1M с контекстом 1М (вагон документации) в размерах от 7B до 14B (можно гонять на видюхах). Также подогнали визуальную языковую модель Qwen 2.5 VLдля чата по видео и картинками, для которой народ уже сделал MLX на маки. Онлайн демо здесь или тут.

Tencent: выпустили языковые модели Hunyuan Large размером 389B и помельче 7B в виде Instruct и Pretrain вариков. Плюс размышляющую ллм Doubao 1.5 Pro на архитектуре MoE.

Mistral: выложили ллм Small 3, которая влезает в 4090 и на их бенчах кладёт модели размером 70B.

Perplexity: представили поисковую систему Sonar и Sonar Pro для соперничества с браузерными поисковиками и ллм.

Google: выпустили обновлённый Gemini Flash Thinking 01-21. Погоняй на арене.

X-Plug (alibaba): AI-агент для выполнения заданий на смартфоне.

VideoLlama3: обновлённые VLM для чата по видео и картинкам в размерах 2B и 7B.

AllenAI: выпустили Tülu 3 размером от 8B до 405B. Использование метода RLVR улучшило результаты в математике.

Anthropic: Claude теперь может цитировать ваши источники по API.

SmollVLM: выложен код использованный для тренировки модели.

OmAgent: библиотека на питоне для разработки AI-агентов.

Autonomy-of-Experts Models: исследование архитектуры с улучшенным взаимодействием экспертов, чем в MoE.

RLVR: Метод Reinforcement Learning with Verifiable Rewards, показывает себя лучше CoT в определенных задачах.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

1,129

Psy Eyes

03 Feb, 15:31

DeepSeek: сделали модель Janus Pro 7B, которая может и генерить картинки (не убийца Flux конечно) и чатиться по загруженным.

Flex.1 Alpha: Ostris сделал версию Flux на основе шнель с лицензией Apache. 8B параметров, можно гонять на видюхе.

SVFR: фреймворк для восстановления лиц на видео. Есть колоризация, инпейтинг, BFR.

Phygital+: улучшения в генерации 3D по картинке, поддержка лор на Flux.

PAR: параллелизация генераций без изменения архитектуры и токенайзера.

FitDit: новая виртуальная примерочная. Есть комфи.

DiffuEraser: сегментируем объекты на видео и удаляем их с учётом фона через инпейнт.

Google: дают пощупать Imagen 3, нужен IP на США.

Alibaba: по-тихому выпустили свой генератор видео в чате с Qwen. Примеры генераций.

Создание векторной бд с данными о видео записях, чтобы потом быстро находить нужный видос по кадру. Похоже на Marengo, только с CLI + Comfy.

Video Depth Anything: получаем карту глубины видео.

Shuttle Jaguar: генератор картинок с фокусом на эстетичных кадрах.

Hallo: выпустили V 3 аниматора портретов и датасет на хаггинге.

🎸 ЗВУК 🎸

YuE: новый опенсорсный генератор музыки. Пока песочно и дизгармонично (не конкурент Udio или Suno), но лучше MusicGen и любой движ в эту сторону уже хорошо. В принципе для инструменталок или семплов может сгодиться. Лицензия на днях сменилась на Apache, что позволяет коммерческое использование.

Suno: V4 стала доступна всем. Плюс треки в своей библиотеке теперь можно группировать в рабочие пространства (Workspaces). И появился AI-соавтор музыки для детальной работы с лирикой.

Riffusion: представили генератор музыки FUZZ. Звучит годно (не только на поп/рэп) и есть инструменты для контроля аудио. Небольшая предыстория проекта.

MMaudio: генератор аудио, анализирующий беззвучное видео и выдающий походящий звук. Крутилки в наличии.

Style TTS 2: давний генератор речи и клонер голоса, для которого появился установщик в Pinokio. Ещё есть демка.

Hailuo: сделали модель для работы с голосом T2A-01. Есть клонирование, генератор речи (TTS), и изоляция голоса. Крутилки присутствуют. В наличии HD версия для результатов в высоком качестве, и Turbo.

Kokoro: маленький, шустрый, и неплохой генератор речи, который можно гонять дома, а генерации использовать в коммерческих целях (Apache 2). Русского нет, но можно научить. Можно смешивать голоса в студии.. Гитхаб

915

Psy Eyes

03 Feb, 15:31

Дайджест:

📹 ВИДЕО + АРТ 🎨

Pika: добавили Turbo режим, позволяющий генерить видео в 3 раза быстрее, в 7 раз дешевле, и ,по заверениям, особой без потери качества. Также выпустили Pika V 2.1, генерящую видео в 1080p, высокой детализаций, контролем камеры и четким следованием промту. Ещё появилась апа для iOS.

Nvidia: выкатили генератор картинок SANA-1.5, который может выдавать 4096x4096 меньше, чем за 1 секунду на 16 ГБ VRAM ноуте. Релизу идёт 8-битный оптимизатор для экономии VRAM во время тренировки и масштабирования с 1.6B до 4.8B плюс 4-битный движок для инференса на 8 ГБ VRAM (демо). Также чуть ранее они выпустили генератор видео Cosmos, который выдаёт 1280x704 длиной в 121 кадр за 10 мин на 4090.

Tripo: в версии V2.5 улучшена геометрия мешей (особенно с острыми углами). Улучшенный PBR рендеринг.

ACE++: фреймворк для получения стабильных персонажей и объектов при их генерации на картинках.

HeyGen: добавили к контроль камеры к видео с аватарами. Даёте описание желаемого движения и вперед.

Sa2VA: выделение объектов на видео промтом. Работает на связке SAM2 и LLaVA.

Sketch-to-3D: делаем набросок от руки и получаем 3D объект через Trellis.

ZLUDA: CUDA для видюх AMD. Появились ночные релизы.

Hailuo: релизнули генератор видео T2V-01-Director с фокусом на контроле камеры промтом, её кинематографичных движениях и переходах. Помимо этого внедрили генерацию стабильных персонажей по реф картинке в модели S2V-01.

Kling: Добавили в V 1.6 генерацию видео по начальному и конечному кадру, мемные эффекты к видео как в Pika, а также фичу Elements, которая берёт элементы с нескольких реф картинок и делает, например, стабильного персонажа в нужном сеттинге. Для генерации картинок в Kolors завезли работу по рефу. Ещё Kling обзавёлся мобильной апой (iOS или Android). Что занятно, похожие мемные эффекты и комбинирование элементов недавно запилили у себя Pika.

DiffSplat: шустрый генератор 3D на основе сплатов и t2i диффузионных моделей.

MangaNinja: колоризация манги.

Frame Painter: интерактивное редактирование изображения скетчем на основе видео диффузионных приоров.

Luma: теперь можно апскейлить сгенерированные видео до 4К, и выпустили API для Ray 2.

HipScript: онлайн компилятор CUDA и HIP кода для WebGPU.

Comfy: завели реестр кастомных нод, упростили установку десктопного приложения, добавили поддержку 5090... которые так пока никто пощупать и не может.

Кстати воркфлоу теперь можно конвертировать в интерфейс на Gradio и публиковать на Хаггинге.

Netflix: выпустили модель для анимации картинок, через перетаскивание выделенных объектов на них.

Krea: объекты на реф картинках теперь можно конвертировать в 3D и крутить/перемещать/совмещать их в сцене до нужного результата. Если целевой объект, стиль, или продукт нужно сгенерить, то как раз завезли реалтайм тренировку — можно тренить, скажем персонажа, и крутить его в сцене. Или воспользоваться интегрированными стабильными персонажами Hailuo.

Runway: выпустили генератор картинок Frames. На этой странице можно посмотреть примеры генераций картинок во Frames и промты к ним. Плюс релизнули апскейл до 4k.

Midjourney: теперь можно смешивать несколько мудборд кодов, а также смешиват их со sref кодами.

Sony: исследование по тренировке микробюджетных генераторов картинок — Microdiffusion.

Tencent: выпустили Хуньянь 3D V2, который делает 3D меш по картинке на уровне Trellis. Лучше всего работает если закидывать объект под углом со считываемым освещением. Нужно минимум 8 ГБ VRAM. Сообщество уже наваяло аддон для блендора, портативную сборку на Windows, поддержку в комфи от Kijai, вписали модель в ComfyUI-3D-Pack.

Для видеогенератора Хуньянь GPU Poor версия (от 12 ГБ VRAM) обзавелась поддержкой лор и TeaCache для ускоренной генерации с меньшим количеством артефактов. В комфи от Kijai добавился улучшитель Enhance-A-Video, генерация в IP2V режиме (vlm вытаскивает описание реф картинки и скармливает видеогенератору).

1,151

Psy Eyes

16 Jan, 13:23

Perfection

2,410

Psy Eyes

14 Jan, 16:35

Котаны, на Tripo3D набралось 30 зарегавшихся по моей ссылке. Можно заклеймить Pro подписку и сделать обзор всех фич.

Кидайте в комменты ваши картинки/текст, которые хотите сгенерить в 3D, опробуем.

2,594

Psy Eyes

13 Jan, 13:53

Krea: добавили к себе генерацию видео в Kling 1.6, Хуньянь, и 01-Live (Хайлуо). Также теперь к нему можно генерить и звук.

Бесплатным пользователям дали доступ к генерации видео.

Твит

2,606

Psy Eyes

13 Jan, 12:34

Luma: начали выдавать доступ к своему новому видеогенератору Ray 2.

Модель натренирована напрямую на видео высокого качества, и хорошо понимает как в кадре должно работать взаимодействие людей, животных, и объектов. А также как создавать стабильных персонажей.

Может выдавать 1080p длиной 5-10 сек на основе текста или картинок.

Больше примеров в твиттере и по хэштегу #Ray2 там же.

Сайт
Amazon Bedrock

2,520

Psy Eyes

12 Jan, 19:42

На десерт сегодня треня лоры для Flux. Можно через Fluxgym или One Trainer.

* Стиль и личность хорошо перенимаются.
* Высокое качество генераций.
* На пяти картинках в 1000 шагов с кропом 512 тренировка на 4090 занимает 15 минут. На 20 в районе 1-2 часов.

Для генерации на полученной лоре нужно использовать базовую модель Dev. Предоставлю интерфейс для инференса, если нет мощностей.

По желанию можно устроить треню в чём-то другом или на другую модель.

/////////////////////

Ссылка на вход отправлена участвующим в личку.

1,889

Psy Eyes

12 Jan, 18:12

В недавнем дайджесте упоминал бота от подписчика @kostebasov, в котором можно генерить видео в Runway на русском и закидывать пачку картинок и промтов для генерации на их основе.

Костя попросил удалить того бота из поста потому, что случился конфликт: разработчик скопировал в своего нового бота весь фунционал и перевел туда подписчиков, а предыдущего забросил и у Кости нет к нему доступа.

Отсюда и дальше он описывает ситуацию.

1,364

Psy Eyes

12 Jan, 16:15

TwelveLabs: обновили Marengo, поиск объектов на видео и футажа в целом, до v 2.7. Я писал о них раньше.

Что нового:
* Объекты распознаются даже, если они занимают меньше 10% экрана. Хорошо подойдёт для поиска лого, номеров игроков в спорте, текста, итд.
* Поиск по картинке. Вкидываешь картинку с бананом и он ищет все бананы на проиндексированных видосах.
* По аудио (речь, музыка, пространственные звуки) тоже идёт поиск.

Натренено на:
100 млн видео со звуком
500 млн изображений
500 000 аудио

Сайт
Технический отчёт

1,395

Psy Eyes

12 Jan, 09:54

Irrealix: завезли сплаты в Nuke. Ранее они выпустили плагин для Davinci Resolve, а также After Effects.

Фичи:
* Импорт .ply файлов или сжатого .ply из SuperSplat
* Обрезка объектов
* До 10 сплатов в одной сцене
* Цветокоррекция объектов
* Анимация появления сцены и динамические эффекты для объектов
* Рендер в реальном времени на GPU
* Рендер Depth Pass для 3D композа

Поддерживает .ply из Luma, Polycam, Postshot, Nerfstudio, и Scaniverse.

Плагин на сайте Irrealix
Плагин на aescripts

1,595

Psy Eyes

11 Jan, 19:22

⬆️⬆️⬆️

Те, кто задонатил, могут скинуть мне фото/видео для трени и получения из них 3D объектов. Могу и дать потренить самостоятельно.

1,064

Psy Eyes

11 Jan, 19:18

Postshot: в котором можно рендерить 3D объекты и сцены из фото и видео в виде сплатов, обновился до v0.5

Что нового:
* Улучшена детализация
* Можно комбинировать и редактировать объекты в одной сцене
* Поддержка динамических сплатов
* Плагин для After Effects и Unreal Engine (включая 5.5)

Сайт
Скачать

1,171

Psy Eyes

11 Jan, 18:45

Tripo3D: обновили интерфейс своего 3D генератора и сделали его более удобным.

Теперь можно контролировать количество полигонов (Face Limit) в настройках генерации, для баланса между качеством и скоростью.

На вход можно подавать как текст (который можно улучшить), так и одну картинку или множество изображений.

Сайт — сгенерите первую модель получите 300 кредитов. Или вот код: USR9E6

5,939

Psy Eyes

31 Dec, 20:58

С наступающим Новым Годом, котаны!

Пусть нейронки в 2025 помогут вам добиться новых высот, открыть новые вертикали, освободиться от рутины, и стать продуктивнее.

Впереди интересные времена!

774

Psy Eyes

30 Dec, 15:43

Собрал новый комп пару месяцев назад. Теперь дорвался и тестирую подряд все модели, на которые до этого с ноута только облизывался.

При этом он холодны и тихий в отличие от моего ноута, с которым я просидел рядом с 2018 года.

Если интересны характеристики:

Материнка: MEG Z690 ACE
Видюха: 24 ГБ RTX 4090
Проц: i9 12900k
СЖО: EK-Nucleus AIO CR360 Lux D-RGB
Блок питания: 1600 ВТ Cooler Master V 1600 Platinum V2
Оперативка: 128 ГБ DDR5 Kingston Fury Beast
Хранилище: 2 x 4 ТБ NVMe M.2 SSD Kingston KC3000
Корпус: Phanteks Enthoo Pro II Server Edition
Вентиляторы: 5 x Phanteks T30

Причины почему выбраны те или иные комплектующие, и какой паркур по всему миру им пришлось преодолеть, думаю разложить в видосе на ютубе.

Тем, кто задонатил мне на День Рождения, я первым дал в личку ссылки погенерить на нём в Comfy или Forge.

Остальные тоже могут на нём погонять AI-модели или потренить лоры. Просто ставите звёзды постам, и когда их накапливается 50 (можно их и сразу в любой пост вбить), то получаете доступ к модельке раскатанной локально у меня на компе. Это может быть в виде ссылки в посте как мы недавно пробовали, миниапки (тут много плюсов), или контент и UI локально у вас, а моя 4090 по API или ещё как просто удалённо обрабатывает ваши запросы на генерацию.

Тут нужно ещё некоторые вопросы провентилировать, ибо прямого апи на работу со звёздами нет — придётся пойти на некоторый брейкданс с костылями. Но мне нравится вариант, что вы размеренно ставите звёзды понравившимся постам, и хоп: у вас появляется плюха. И я думаю в зависимости от количества поставленных звёзд, плюшек может быть больше, и они могут быть не только в виде компьюта.

Скоро начнём. Stay tuned!

1,017

Psy Eyes

30 Dec, 13:48

🤖 ЧАТЫ 🤖

DeepSeek: выпустили LLM (языковую модель) DeepSeek V3 с 671B параметров. Показывает себя по многим метрикам лучше других опенсорсных, а также Claude Sonnet и GPT-4o... но весит сотни гигов. Зато обновили V 2.5, она стала лучше в коде, математике и поиске.

TensorRT-LLM: в v 0.16 добавлена поддержка DeepSeek v1, Qwen2-VL, SDXL, и не только.

TensorRT: к v 10.7 добавлена поддержка BF16 и FP8 для пайплайна с Flux Dev и Schnell, а также стриминг весов, и работа в low-vram режиме c 32 ГБ VRAM... в воздухе веет призраком 5090. Хотя какой там призрак, до CES 2025 осталась считай неделя.

Ollama: добавлена поддержка Falcon 3 и ответов структурированных через JSON.

OpenWebUI: появились каналы как в дискорде, для взаимодействия юзеров с ботами; асинхронные чаты, в которых AI будет продолжать генерить в фоновом режиме, пока вкладка не активна; итд.

OpenAI: за 12 дней стримов анонсировали публичный доступ к o1 и o1 Pro за $200/мес, превью o3/o3 mini (бренд o2 занят), поддержку видеострима в голосовом режиме, и другое.

Google: тоже провёл свою презу и представил Gemini 2 Flash, который быстрее предшественника и может помимо текста брать на вход длинные видео + аудио и отвечать по ним голосом, исполнять код, и гуглить. Ещё показали рассуждающую ллм Flash Thinking Experimental как аналог o1. Можно погонять на арене.

X: Илон сделал Grok-2 доступным для всех бесплатно (открывается в боковой панели твиттера по кнопке /). Можно генерить текст и картинки через модель Aurora (сравнение с Flux).

Запрещёнка вышла с ламой 3.3. Только в размере 70B, но говорят выдаёт результаты ламы 3.1 405B. Минимум 26 ГБ VRAM. Ollama плюс хаггинг.

Alibaba: дропнули VLM (визуальную языковую модель) QvQ 72B, превью версию модели с пошаговым мышлением по визуалу. До этого ранее вышла модель чисто по тексту QwQ 32.

Arch: обработчик промтов для AI-агентов. Персонализирует ллм для пользователя, отсеивает джеилбрейки, подрубает вызов функций/RAG, итд.

CrewAI: фреймворк для назначения AI-агентам разных ролей и поручения им заданий. По умолчанию работает с апи OpenAI, но можно подключить локальные ллм.

Replit: их AI-разработчик вышел из раннего доступа и стал доступен публично, но за подписку, минимальная — $25.

InternVL: обновлённый до v 2.5 чат по визуалу в размерах от 1B (смартфоны) до 78B (сервер/рабочая станция). Улучшения в рассуждениях, а также работе с доками и математикой. Лицензия MIT.

Microsoft: дропнули Florence-VL, которая основана на Florence-2, но лучше в работает в формате чата (а не просто распознавания), меньше ловит галлюнов и точнее.

Ещё майки сделали бесплатный тариф Copilot для VS Code с лимитом в 2000 дополнений кода/мес или 50 сообщений к AI. На выбор под капотом GPT-4o или Claude 3.5 Sonnet.

Nvidia: выпустили Jetson Orin Nano, микрокомпьютер для ML задач с 67 TOPS за $249. Похожее — Turing Pi.

Ivy-VL: маленькая моделька (3B) для чата по картинкам и тексту на телефонах и смарт очках.

LG: выпустили ллм EXAONE в размерах от 2.4B до 32B, с фокусом на работе мобильных устройствах и пользовательском железе.

Cohere: сообщество научило модель Aya 8B видеть и отвечать на вопросы по визуалу.

Gradio демка для голосового чата в реалтайме с моделью OpenAI. Нужен их API.

Anthropic: Claude теперь может анализировать крупные эксельки (30 МБ), и фича с анализом работает в мобильной апе.

CogAgent: опенсорсный AI-агент, который может видеть интерфейс пользователя и выполнять задания. Чтобы гонять нужно 29 ГБ VRAM.

TII: выпустили ллм Falcon 3 в размерах от 1B до 10B с контекстом 32К. По сравнению с предыдущей версией модель стала лучше рассуждениях, написании кода и математике.

Apollo: модель, которая может просматривать часовое видео и отвечать по нему.

Подсветка синтаксиса Gradio Lite в VS Code.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

890

Psy Eyes

30 Dec, 13:48

Marigold-DC: улучшенный метод получения карт глубины из контента на котором не тренировали, а также когда параметры с большим разбросом.

PSHuman: получение из одного фото человека его 3D меша. Работает на удивление неплохо.

Leffa: виртуальная примерочная с контролем позы. Есть Comfy.

EdgeCape: нахождение опорных точек в позе объекта той же категории.

Генератор картинок в трёхмерном стиле. Объекты на пикчах в основном сразу под углом, так что можно сразу кормить их 3D генераторам.

Tencent: релизнули FreeSplatter, генератор 3D по картинке с выбором модели под капотом (Хуньянь или Zero123++). Ещё запилили BrushEdit, для редактирования изображения текстом в автоматическом или ручном режиме. А также ColorFlow для колоризации манги, комиксов, скетчей итд.

FlowEdit: тоже редактор изображения текстом. Для обработки можно выбирать между SD3 или Flux. Промта слушается хорошо даже без настроек, с флюксом артефактов меньше, результат довольно ловкий.

FireFlow: и это редактор изображения текстом. Автоматом подгоняет изображение под х1024, три метода обработки на выбор, можно качество регулировать шагами и другими крутилками.

NVComposer: генерация новых видов из картинки для контроля камеры в видео или получения 3D объекта. Тоже Tencent, кстати.

Исследование на тему параллелизация генерации визуала. Из похожего, например, AsyncDiff и другие проекты на генерацию в распределенке.

InvSR: апскейлер картинок. Зачастую заметно отсебятничает артефактами в деталях.

ObjCtrl-2.5D: выделение элементов картинки и их анимация по заданной траектории. Двухмерные направляющие конвертируются в 3D используя глубину, а передаются на контроль камеры.

OneDiffusion: новый генератор картинок с персонализацией и другими фичами, но пока нужно 40 ГБ VRAM.

GIMM-VFI: интерполяция видео с генерацией промежуточных кадров. (спс @JohnDoe171)

Material Anything: генератор PBR материалов для 3D объектов обзавёлся скриптами для рендера.

MoGe: получение 3D геометрии объекта или сцены (карта точек /меш) из фото.

GSOPS: плагин для работы со сплатами в Houdini обзавёлся коммерческой лицензией.

Stable-diffusion.cpp: инференс SD и Flux на C/C++.

Samurai: сегментатор Samurai прицепили к Nuke.

TRELLIS: генератор 3D из картинок. Может вытаскивать меш в GLB и в виде сплата.

Genesis: платформа симуляции физики для AI-приложений и робототехники. Участников больше, чем звёзд на небе.

MV-Adapter: генерация разных точек обзора из одной картинки. На удивление юзается SDXL.

Multi-HMR: вытаскивание из картинки позы и 3D меша одного человека или нескольких людей. Работает шустро и весьма неплохо.

Odyssey: показали Explorer, генератор трёхмерных сцен на сплатах для создания детальных видео. Пока пощупать нельзя.

Маркировка видео кодовой фразой. Устойчиво к лёгким изменениям видоса. Демо.

🎸 ЗВУК 🎸

Suno: мобильные апы для Android и iOS вышли и дают десяток халявных кредитов на V4.

Udio: начислили всем халявных кредитов в честь праздников. Они не сгорят и после.

ElevenLabs: релизнули модель Flash для реалтайм разговоров с задержкой 75 мс (у OpenAI где-то 200 мс). Доступно на их платформе для разработчиков.

MMAudio: генерация аудио для беззвучного видео. 6 ГБ VRAM хватит.

Nexa: модель Omni-2.6B может шустро отвечать текстом на голосовые сообщения, и заточена под мобильные устройства. На русском не лопочет.

OuteTTS: генератор речи (TTS) работающий локально в браузере через WebGPU.

696

Psy Eyes

30 Dec, 13:48

Дайджест:

📹 ВИДЕО + АРТ 🎨

Comfy: в версии v 0.3.10 появилась возможность запускать видеогенератор Хуньянь на видюхах с 8 ГБ VRAM благодаря темпоральному тайлингу. Хотя я пока вижу на свих тестах 16+ ГБ. Ранее Хуньянь обзавёлся FP8 версией и официальным комфи. Также добавлена поддержка генератора картинок PixArt.

Diffusers: в v 0.32 добавлена поддержка 4 новых видео моделей (Mochi-1, Allegro, LTX, Хуньянь), пайплайнов для Flux Tools, SD 3.5 и Sana, квантизаций в GGUF и TorchAO, а также тренировочных скриптов.

Zluda: CUDA для карт AMD позволяет стабильно гонять веб-интерфейс SD Forge.

Рейтресинг на WebGPU.

Kling: выпустили Kling v 1.6. Улучшилось качество видео и его динамика. В v 1.5 добавили контроль через указание последнего кадра в img-2-video (режим профи). Также обновили генератор картинок Kolors до v 1.5, улучшив эстетичность, работу с цветами и промтом. Плюс для липсинка теперь доступен выбор эмоций и два новых голоса. И да, виртуальную примерочную AI Virtual Try-On переименовали в AI Outfit.

Runway: запустили Talent Network, где авторы, использующие AI для создания видео, могут найти заказчиков. Похожая инициатива есть у Kling. Ещё добавили контроль генерации через промежуточный кейфрейм.

Google: показали видеогенератор Veo 2, который выдаёт хорошие ~~черрипики~~ результаты в 4К и солидно понимает промт. Но неизвестно когда будет доступен глобально и даст ли цензура тебе сгенерить, что ты хочешь. Также обновили генератор картинок Imagen 3, улучшив качество и следование промту, а плюс представили платформу Whisk, своего рода Comfy без лапши, где можно смешивать картинки без промта.

Midjourney: работают над холстом Patchwork для создания нелинейных интерактивных историй (как и Runway), постепенно выкатывают новую инфраструктуру для персонализации, и дают на праздники всем генераций анлим.

OpenAI: выпустили Sora и Sora Turbo (быстрее, но хуже). 50 генераций в месяц владельцам Plus и 500 быстрых генераций тем у кого Pro. С людьми генерить может только в тарифе за $200/мес, и то не факт. Цензура перекручена. Реакция сообщества смешанная: конкуренты в лице Kling, Minimax, итд уже давно догнали, а в чём-то и прегнали Сору.

Pika: выпустили видеогенератор Pika 2.0 с улучшенным качеством, динамикой, и следованием промту. А также фичей Scene Ingredients, позволяющей загружать картинки с людьми, объектами и локациями, для их соединения в одном видео.

LTX: в версии 0.91 генерация видео стала чётче (пример), интегрировали STG для стабильности кадров, уменьшили количество артефактов. Гитхаб

Сравнение актуальных видеогенераторов бок-о-бок: раз + два + три

Recraft: открыли генерацию картинок по API. И добавили реффки: уважьте дядю не хлеба ради. Вам начислится 200 кредитов после того как зарегаетесь с декстопа и сделаете 1 генерацию. Если у вас только мобилка думаю, если переключить мобильный браузер в режим десктопа должно сработать.

Neurogen: вышла руссифицированна версия дипфейкера RopeMod 2.7.1.

Phygital+: добавили ноду Compose для смешивания до 6 картинок за раз, и генерацию видео через Runway. Плюс обновление сайта.

OiO: подписчик @kostebasov сделал бота OiO, через которого можно генерить видосы из Runway в телеге. Промт можно писать на русском, он автоматом переведётся. Есть и улучшение промта с помощью AI. Я потестил, работает гладко.

Domo AI: обновили модели для генерации видео в стиле аниме (v5) и 3D мультика (v4.), и добавили модель на реализм.

PixVerse: ещё один генератор видео. Очень шустр, хорошо следует промту, даже ваяет надписи/текст, но качество не айс. Хотя есть апскейл до 4к.

FastHunyuan: сторонняя лаба сделала дистиллированную FP8 версию Хуньяня, для качественной генерации в 6 шагов, вместо 50 как у оригинала.

Krea: открыли для всех редактор изображений и тренировку на своих картинках для инпейтинга в сцену.

Инструмент для смены разрешения видео, формата кадра, кодека, и некоторых других параметров. Работает локально в браузере.

BRIA Gen Fill: это удалятор фона обзавёлся инпейтингом, который неплохо работает.

860

Psy Eyes

08 Dec, 09:32

Принёс вам красивого ❤️

2,108

Psy Eyes

07 Dec, 23:02

Runway: обновили Act One, инструмент для переложения своей лицевой анимации с липсинком на визуал. Раньше оно работало с картинками, а теперь пашет и с видео.

Можно менять слова сказанные персонажем, сделать дубль более экспрессивным без пересъёмок, или на препродакшене потестить что работает, а что нет. Причём можно и песни кормить, на вокал тоже реагирует.

По примерам видно, что чем ближе к камере персонаж в кадре, и чем менее он подвижен, тем лучше результат получается. Если нужно "ре-анимировать" чью-то экспрессивную актёрскую игру с новыми словами, то придётся повторить движения героя в кадре, иначе будет рассинхрон.

В отличие от DeepfaceLab или FaceFusion это работает с животными и мультипликацией, и чувствуется что анимация идёт изнутри лица, а не поверх. Хотя в каких-то случаях ими тоже можно достичь похожего результата.

Дальше будет только лучше.

PS: в гайде кстати сказано, что только людей можно анимировать.

Твит
Сайт
Гайд

10,673

Psy Eyes

07 Dec, 17:55

Заметил, что YouTube начал генерить под описаниями некоторых видосов их выжимку.

https://youtu.be/K-Mg9w-yQb4?si=adLOXx6w2p4Z4V03

1,523

Psy Eyes

06 Dec, 18:49

В следующий раз, когда к тебе подойдёт тимлид с предложением что-то добавить/убавить, можешь апеллировать "казна опустела милорд".

1,509

Psy Eyes

06 Dec, 17:23

Вот что прям нужно в телеге как по мне, так это возможность прицеплять форумы к каналам.

Что это даёт:
* Народ сможет в соответствующих ветках обсуждать модели, подходы к трене, делиться артом, оставлять визитки, находить заказы, вместе мутить проекты, итд.
* Есть те, кому чат кажется мало активным/дублирующим новости, и они уходят из чата, оставаясь подписанными на канал. В форуме будет больше движа и больше вариантов найти что-то для себя.
* Те, кому наоборот чат кажется очень активным, могут замьютить лишние ветки и оставить только те, что им нужны.
* Если будет возможность разные каналы делать отдельными ветками форума, это будет плюс. Например, у вас много разных каналов на схожую тематику, и так их можно было бы соединить воедино.

Канал + форум = match made in heaven

Но на данный момент я не могу взять чат, который используется для коментов и сконвертировать его в форум, пока он используется как дискуссионная группа. А если чат отцепить, то все коменты под постами пропадут. В итоге форумы как не пришей манде рукав болтаются у людей в описании каналов, в которые ещё должна быть причина чтобы заглянуть.

А нужно-то всего, чтобы при сцепливании ты выбирал ветку в которую идут новости и в которую идут коменты (или оставить general для этого). Я не нахожу причин почему это до сих пор не сделано за 2 года. Возможно есть какие-то технические ограничения.

У телеги есть страница, где собираются фичи и баги. Я не ожидаю, что Паша и ко её смотрят, но попытка не пытка. Нашёл три тикета на тему близкую к тому, что я описал. На всех проголосовал.

https://bugs.telegram.org/c/22766

https://bugs.telegram.org/c/33822

https://bugs.telegram.org/c/22905

1,421

Psy Eyes

06 Dec, 13:25

То, что партнёрки так легко из своего мини-апа делать, как и вписываться в них это прям найс.

Кстати как у вас новый плеер для видео работает и вложение картинок к уже существующим постам? У меня плеер не оптимизирует видео какие варики ни грузи, и нет выбора качества на какие видосы бы не натыкался. Аттач картинок работает как-то местечково. Может нагрузка увеличилась и решили откатить? Будем наблюдать.

https://telegram.org/blog/affiliate-programs-ai-sticker-search/ru

1,379

Psy Eyes

22 Nov, 12:16

JoyVASA: анимация картинок людей и животных по аудио с липсиком.

На первом этапе используется система раздельного представления лица, которая отделяет динамические выражения эмоций от статических лицевых 3D-представлений. Такое разделение позволяет системе генерировать более длинные видео, комбинируя любое статическое 3D-представление с динамическими последовательностями движений. Затем, на втором этапе, диффузионный трансформатор обучается генерировать последовательности движений непосредственно из аудиосигналов, независимо от идентичности персонажей. Наконец, генератор, обученный на первом этапе, использует 3D-представление лица и сгенерированные последовательности движений в качестве входных данных для создания высококачественной анимации.

Видео на выходе не шакалится, а рот не "жуётся" в пиксельную кашу. Но расти всё ещё есть куда, ибо пока результат кажется оторванным от реальности. Тем не менее, здесь есть код, а это не частая история для таких моделек.

Похожее из опенсорса: LivePortrait (который тут под капотом и испольуется), EchoMimic, V-express, DreamTalk, MuseTalk, и Hallo. Из закрытых HeyGen и Runway Act One, например.

Сайт
Гитхаб
Хаггинг

923

Psy Eyes

22 Nov, 11:27

Krea: смешивание картинок на основе Flux с указанием веса стиля мышкой стало доступно всем бесплатно.

Сайт
Твит

1,241

Psy Eyes

21 Nov, 18:08

Black Forest Labs: выпустили Tools, набор моделей для тонкой работы с генерацией изображений.

В него входит:
* FLUX.1 Fill: модель для инпейтинга и аутпейтинга, позволяющая вписывать/менять объекты на картинках или расширять кадр.
* FLUX.1 Depth: изменение картинки на основе карты глубины.
* FLUX.1 Canny: изменение картинки на основе карты очертаний.
* FLUX.1 Redux: адаптер для получения вариаций изображения.

Canny и Depth идут в двух вариантах: полных моделях с максимальным качеством, и лоры (Canny Lora плюс Depth Lora) на основе Dev для упрощенной разработки.

Всё это уже можно крутить в Comfy (обновляемся до последней версии).

Данные решения от BFL показывают себя лучше, чем контролнеты собранные сообществом, вроде варианта от Alibaba (хотя в анонсе ссыль ведёт на альфа версию контролнета, а уже есть обновлённая бета). Также пишут, что картинки на выходе лучше других моделей, но на их бенчах нет Recraft V3.

В целом, BFL молодцы, что работают и на комьюнити, продвигая опенсорс, и себя не забывают с платными фишками по API.

Анонс
Хаггинг
Гитхаб
Запуск в Comfy

8,053

Psy Eyes

21 Nov, 15:41

RealityCapture: софт для фотограмметрии обновился до v 1.5.

Что нового:
* Экспорт Radiance Fields Transform и COLMAP для работы со сплатами и нерфами;
* Ускорение текстуризации;
* Вывод в USD и USDZ форматах;
* Дефрагментация текстур, для улучшения их качества и ускорения обработки;
* и другие улучшения.

А ёще недавно в RC стал бесплатен, если ваш доход меньше $1 млн/год.

Если у вас стоит v 1.4.2, то её нужно будет удалить, перезапустить лаунчер, и тогда появится возможность установить v 1.5.

Анонс
Полное видео на YouTube

1,147

Psy Eyes

21 Nov, 14:36

Студентка по скетчам от руки сделала 3D модели персонажей и их анимацию.

Использовались:
* Edit mode и --Sref из Midjourney
* Krea
* Tripo3D
* Minimax

Понятно, что есть огрехи, неконсистентность, и мало контроля. Но для черновых анимаций, дабы понимать что работает, а что нет, вполне вариант.

Твит

1,162

Psy Eyes

21 Nov, 13:10

Так, а теперь завершаем 2D->3D марафон и складываем все в одну коробочку.

Вчера постил благую весть, о том, что CogVideo 1.5 завезли в Комфи, перебрав все косточки по дороге.
Приводил пример видео генерации с лорой на движение камеры от автора интеграции.
А сегодня смышленые парни уже берут такие генерации кормят их в postshot и получают метаверсик этого сгенеренного мира. Пример нечищеный, как есть.

И да, это 3dgs - гауссианы, полученные из postshot.

Кто не знает про postshot - глядите сюда https://www.jawset.com/ (надо немного знать 3Д).

А я проматываю на пару лет вперед и вижу то самое королевство кривых зеркал (может и прямых, кстати).

Вы силой мысли(или дрожащим голосом) генерите любую влажную картинку из ваших фантазий, а потом просто заныриваете в нее. Ибо мир уже готов, гауссианы ждут вас в свои объятия. Хотя через пару лет это уже будут наверное нано-латентные-пиксели, учитывающие вашу биохимию.

А если отставить нейродедовский юмор, то Midjourney как раз что-то лопотали про это на своих Open Hours. Писал об этом тут.

Ох, куда катится мир... в какие картинки.

@cgevent

616

Psy Eyes

21 Nov, 12:10

Как-то пролетело мимо радаров. У HotShot ещё и можно персонализировать видео, закинув своё фото.

Это доступно, начиная со Standard за $29. Даётся 200 генераций в месяц, и безлимитное количество дневных круток (вероятно имеются ввиду ежедневные бесплатные генерации как в Kling).

1,031

Psy Eyes

21 Nov, 11:40

Hotshot: этот генератор видео выкатил управление видео по рефу. Работает и с синтетическими направляющими: второе видео я сгенерил в Mochi, а третье это результат из Hotshot.

Промт:

A robot standing at a night cyberpunk city street. It is smiling, nodding, saying something, and appears to be looking at something. The robot is made of metal and plastic and is standing in front of a crosswalk. There is traffic in the background, including cars and a traffic light.

Похоже на Movie Gen, видеолоры в Kling, отчасти Act One от Runway, ну и опенсорсный LivePortrait. Но команда HotShot состоит из всего нескольких человек вроде.

На сайте видео по рефу генерятся за секунды. По крайне мере пока, залетайте. Там 3 бесплатные генерации в день.

Сайт

1,189

Psy Eyes

20 Nov, 11:06

Suno: выкатили V4 своего генератора музыки. Голоса стали чище, структура треков композиционно насыщеннее, а тексты стали лучше ложиться на инструменты.

Вместе с этим добавились новые фичи: ремастер треков до варианта от V4 (вероятно работает только с генерациями внутри Suno), улучшенное создание текстов с помощью ReMi, работа с обложками. Старые фичи Covers и Personas тоже получили апгрейд.

Примеры звучания V4 от авторов Suno.

Раздел Explore также обновился, и можно покрутить барабан обновлённых жанров. Есть только ощущение, что там не весь контент обновлён, но его в любом случае весело крутить.

Пока V4 доступна только платным подписчикам.

Сайт
Анонс
Примеры V4

1,132

Psy Eyes

20 Nov, 09:29

Kling: обновили тарифные планы и теперь в бесплатный триал включено 366 кредитов в месяц, плюс доступ к платным функциям: профессиональному режиму (5 генераций) и расширению видео (2 генерации).

Ещё они недавно добавили в API доступ к V 1.5 с профессиональным режимом и расширением видео за те же деньги, что и V 1.

谢谢 братьям китайцам!

Сайт

1,115

Psy Eyes

19 Nov, 12:53

не нерфничай

В PostShot, софте для работы со сплатами, начиная с V 0.4.181 больше не будет возможности тренировать NeRF сцены — профили для этого удалены.

Это сделано, потому что: сплаты выдают лучше качество, тренируются быстрее, потребляют меньше памяти, и вызывают меньше ошибок при работе.

Если таки хотите потестить тренировку нерфов через PostShot, можете скачать предыдущие версии отсюда. Или к вашим услугам NerfStudio и аналоги.

330

Psy Eyes

19 Nov, 11:53

GSOPs: обновлённый до V2 плагин для работы со сплатами в Houdini.

С его помощью можно импортировать, рендерить, редактировать, и экспортировать сплаты, или генерить синтетические тренировочные данные.

GSOPs эффективен в изолировании объектов, их цветокоррекции и работе с освещением, удалении шумов и артефактов, изменении мешей и анимации, а также общей сборке сцен.

Гитхаб

437

Psy Eyes

19 Nov, 10:42

Выкатили на всех нашу WorldModel Colorization V1, как она работает я напишу чуть позже, но вот пара советов:

— Если цвета вам кажутся неудачными, то можете просто заново поставить колоризацию фото, цвета будут каждый раз разные

— WorldModel Colorization V1 настолько мелкие детали иногда красит, что способна убрать эффект красных фото — который очень тяжело чинится

— Специально тренировали модель, чтобы она работала с любимы видами повреждений фотографий — приложил пару примеров где она различает цвета, хотя я бы не смог заметить объекты

— Если есть на счету кредиты, можете указать сколько версий картинок должно приходить (до 3х)

— Платная фича: за раз можно покрасить 100 фотографий

— Бесплатно генерируется с вотермаркой и лимитами

Планы:

— Через какое-то время можно будет промптом указать какие цвета лучше использовать

— Эта наша первая версия диффузионного колоризатора, мы знаем как его сделать и в разы лучше и точнее, но прежде чем инвестировать в него дальше мы посмотрим насколько он понравится и сколько будет денег приносить, так как тренировки стоят нам денег и это все еще предстоит окупать

Хорошего time-traveling, путник!

Ссылка:
https://neural.love/photo-colorization

235

Psy Eyes

19 Nov, 09:42

BlockadeLabs: добавили в BlendBox возможность загружать картинки как слои и генерить в режиме коллажа без промта.

До этого там была только генерация слоёв без фона из текста... Как в LayerDiffuse.

Сайт

608

Psy Eyes

18 Nov, 22:17

Дайджест:

📹 ВИДЕО + АРТ 🎨

PostShot: появилась интеграция с UE 5.4 для редактирования в нём сплатов, исправили баги при тренировке сцен и импорте/экспорте файлов, и другие улучшения.

Runway: расширили генерацию видео до 20 сек. Плюс обновили API, добавив доступ к контролю камеры Turbo.

Neurogen: появилась оптимизированная версия дипфейкера DeepFaceLab, а также FaceFusion 3.1.

Recraft: обновили свой генератор картинок до V3 и вышли в топ text-2-image моделей, обогнав Flux, MJ, Ideogram, и всех остальных. Можно бесплатно опробовать у них на сайте. Также есть версия, которая затюнена выдавать SVG.

BFL: релизнули Flux 1.1 Pro Ulta для генерации изображений в 4MP и RAW версию с имитацией "обычных фото". Доступно только по API.

Bytedance: выпустили SeeEdit для стайлтрансфера картинки с высокой точностью.

Nvidia: дропнули Llama Mesh для генерации 3D мешей по текстовому описанию с помощью LLM, плюс чата и редактирования.

DimensionX: опенсорсное создание видео с контролем камеры на основе одного изображения. На данный момент движение есть влево и вверх. Работает в связке с CogVideoX.

MagicQuill: онлайн редактирование изображение рисованием и промтом. Напоминает Invoke.

PyramidFlow: ещё один открытый видеогенератор с поддержкой Img2Video. Теперь с кадрами на основе Flux. На выходе видео 768p длиной в 10 сек. Установка через Pinokio.

Bria: обновлённый удалятор фона RMBG-2. Хорошо работает со сложной композицией, есть пакетная обработка, и можно кормить картинки как с компа, так и по ссылкам. Установка через Pinokio.

InstantX: выкатили апскейлер изображений InstantIR. Есть восстановление с точным следованием рефу или по "своему видению" (creative restoration). Установка в Pinokio.

Также они опубликовали метод более точного следования промту в t2i без тренировки + ещё одна работа на эту тему (спс @JohnDoe171).

CogVideoX: выпустили версию v 1.5 своего генератора видео с 5B параметрами. Тесты.

Vidu: обновили видеогенератор до V 1.5. Подняли качество генераций, улучшили следование промту, добавили консистентную работу с персонажами.

Добавление текста на задний фон с его настройкой.

🎸 ЗВУК 🎸

DeepL: представили Voice режим для перевода голоса в текст для бизнес сегмента.

SI: выпустили Hertz-dev, генератор речи (TTS) работающий в audio-2-audio с маленькой задержкой. Может выдавать как слова за одно человека, так и за двоих.

Hallucinator: моделька на основе Hertz выше для продолжения слов в загруженном аудио семпле.

e2f5: появилась возможность делать генерацию речи на основе фантюнов e2f5 от других людей через выбор Custom модели для инференса. На русском не видно пока тюнов.

Веб-интерфейс для работы с разными опенсорсными TTS.

🤖 ЧАТЫ 🤖

Alibaba: рвёт и мечет и после своего опенсорсного кодера, выпустили Turbo — языковую модель (LLM) с контекстом 1 млн токенов. Можно скормить книг 10, или 150 часов транскрибации речи, или 30к строк кода. Демо. API дешевле GPT-4o-mini.

Llama 3.2-11B, умеющая из коробки чатиться по визуалу, вышла в тираж и доступна в Ollama через OpenWebUI. Нужно минимум 8ГБ VRAM.

Mistral: выпустили Pixtral Large, визуальную языковую модель (VLM) для чата по визуалу, которая на бенчах лучше других открытых и закрытых, но размером 124B и её не погонять дома в отличие от Ламы 3.2-11B. Онлайн демо.

MinerU: конвертер PDF файлов в текст с markdown форматированием или JSON.

Google: выкатили Gemini-Exp-1114 и он попал в топ лидерборда LLM. Можно погонять на арене.

OpenAI: дропнули приложение ChatGPT на Windows.

Anthropic: с помощью Computer Use можно дать Claude выполнять задания на компе через API. Плюс тулза от сообщества для этого на Win/Mac... Microsoft Recall ты ли это?

AnyChat: в онлайн чат, где есть последние модели Qwen, Claude итд, добавили DeepSeek v2.5. Некоторые можно потестить бесплатно.

Cinnamon: выпустили Kotaemon, фреймворк, который пользователи могут использовать для чата по докам, а разрабы как шаблон для RAG.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

955

Psy Eyes

12 Nov, 18:38

Я хз как вам, но как по мне мучать ллм вопросом кем тебе приходится тот или иной родственник намного практичнее, чем "сколько будет 2 + 2,1?"

Никогда в этом не шарил, математика и то кажется проще.

Пока правильно ответили только Qwen 2.5, Command-R, Gemma 2.

1,635

Psy Eyes

12 Nov, 18:07

Alibaba: выпустили выпустили мощную модель для кодинга — Qwen 2.5 Coder 32B.

На бенчах показывает себя лучше других опенсорсных и сопоставима по результатам с GPT-4o.

Поддержка уже вшита в LMStudio, OpenWebUI + Ollama, и HuggingChat. Можно гонять версии под нужное количество VRAM вашей видюхи: модельный ряд включает в себя версии в размерах от 0.5B до 32B (Q4_K_M квант 32B весит 20 ГБ и влезает в 4090) и контекстом от 32К до 128К (можно кормить книжки). Есть онлайн демо с Artifacts. Такое же можно получить в интерфейсе OpenWebUI. Ещё можно прицепить к редактору кода Cursor.

Анонс
Веса модели
Демо (хаггинг)
Демо (hugging.chat)
Гитхаб

1,177

Psy Eyes

12 Nov, 10:45

AutoVFX: Да простит меня Даня, но щас вот за VFX. Не чокаясь.

Это очень забавная работа китайских студентов из Иллинойса.
Но это прям полноценная попытка сделать однокнопочный Гудини или Майю. Вместе с Нюком до кучи.

Замысел на миллион - загружаете видео и голосом говорите, каких эффектов навалить и как приподвзорвать объекты в сцене.

И оно такое - апажалста.

Я сначала дам цитату, а потом разберу работу, уж больно лихие амбиции (в духе этого канала)

"Мы представляем AutoVFX, фреймворк, который автоматически создает реалистичные и динамичные VFX-видео из одного видео и инструкций на естественном языке. Используя нейро-3Д-моделирование сцены, генерацию кода на основе LLM и физическую симуляцию, AutoVFX способен обеспечить физически корректные, фотореалистичные эффекты, которыми можно управлять непосредственно с помощью инструкций на естественном языке."

Каково?

Поглядите примеры тут:
https://haoyuhsu.github.io/autovfx-website/

А теперь пробежимся, из какого опен-сорса и палок они собирают эту монструозную конструкцию.

Gaussian Splatting submodules
diff-gaussian-rasterization
segmentation & tracking modules
Grounded-Segment-Anything and GroundingDINO
recognize-anything
lighting estimation modules
PyTorch3D
Trimesh
Tracking-Anything-with-DEVA
По дороге ставится Блендор!
We use BakedSDF implemented in SDFStudio for surface reconstruction. Please make sure to use our custom SDFStudio for reproducibility. We recommend to create an extra environemnt for this part since CUDA 11.3 has been tested on this repo.

Это больше похоже, конечно, на эксперимент и дипломную работу, но безумство и отвага меня восхищают.
Почитайте их Гитхаб, это прям дерзко:
https://github.com/haoyuhsu/autovfx

@cgevent

632

Psy Eyes

12 Nov, 09:45

Как я и реквестировал, Mochi скрестили с FasterCache и ускорили генерацию с 320 сек до 184 сек на 848х480 при длительности в 163 кадра. Это на 4 А100. Посмотрим как быстро как дела будут на 4090.

Также FasterCache работает с CogVideoX-5B, который тоже стремительно разрастается, и ускорение здесь с 206 сек до 126 сек на 480p видео в 48 кадров.

Сайт
Гитхаб

1,118

Psy Eyes

07 Nov, 20:20

И немного Валгаллы с викингами во времена Рагнарёка.

1,836

Psy Eyes

07 Nov, 20:14

Так как снижение количества кадров до 25 сняло все напряги на производительность Mochi 1, и позволило за ~1 мин 8 сек получать видосы в максимальном качестве начал массово генерить. Вот вам немного тестов.

Mochi 1 bf16, качество 100, 25 кадров, остальные настройки дефолтные.

916

Psy Eyes

07 Nov, 10:41

Мучаем Mochi.

В прошлом году Genmo не раз мелькали в новостях со своим генератором видео, но в последнее время от них ничего не было слышно.

Недавно они выпустили в опенсорс модель Mochi 1, которую чтобы гонять нужно было 4 H100 или иди к ним на сайт, где фришные генерации уже висят неделю. Следом подтянулись пожатые GGUF версии и vid-2-vid варики.

И вот теперь команды Comfy и Genmo объединись и оптимизировали базовую Mochi 1 для запуска в Comfy на пользовательском железе.

Чтобы начать обновите Comfy, или скачайте последнюю версию с гитхаба. Если у вас Comfy стоит через Pinokio, в боковой панели при старте нажимаете update —> перезагрузите Pinokio —> запустите Comfy —> в боковой панели появится Quick Installers —> выбираете вариант Mochi на 17 ГБ VRAM или 22 ГБ VRAM. Дальше скрипт сам скачает все модели.

Воркфлоу (отсюда или отсюда) в виде видео формата webp сохраняете к себе на комп и вкидываете в открытый интерфейс Comfy. Если делали через Pinokio, все ноды сами встанут как нужно — вам останется только вписать промт и поиграться с настройками. Если через гитхаб, то вручную укажите модель, энкодер, VAE как написано тут.

bf16 версия наиболее качественная и во время генерации будет кушать 21-22 ГБ VRAM при дефолтных настройках: 848х480, 24 fps, 30 шагов, cfg 4.5, качестве 80, и длительности в 37 кадров. На одно видео при этом уходит примерно 1 мин 45 сек на 4090.

fp8 при тех же настройках даёт качество похуже, но занимает 17-18 ГБ при генерации. Однако на последнем этапе, во время декода VAE, потребление VRAM стрельнёт резко вверх, и по факту 24 гигов и то с трудом хватит, может и зависнуть (кратко или с концами). Так что закрывайте все приложения по максимуму, или если у вас 2 GPU юзайте ту, что не подключена к дисплею. Хотя не факт, что это поможет ибо после генерации VRAM целиком не освобождается и для следующего захода памяти остаётся меньше, чем для предыдущего. Время на генерацию кстати меньше особо не становится: ~1 мин 30 сек.

Причём нынешняя модель генерит в 480p, а в конце года обещают выложить веса для вывода в HD... воет по 2х5090'ньи

Про качество: Mochi очень хорошо понимает промт и грамотно выстраивает композицию, что особенно важно с моделью, где на одну генерацию уходят минуты. Ползунок Quality как по мне выкрученный на 100 мало что меняет, максимум видеоряд становится менее шумным и плавнее (но при этом и зависнуть может). Кипение и нестабильность тут есть, но это 480p, а если глянуть HD у них на гитхабе, то там всё красиво. На сайте, кстати, заявленного качества как-то не выцепил (раз и два, остальное зависло).

Если сравнивать с Allegro, который по умолчанию генерит в HD, то у Mochi чувствуется под капотом high quality датасет с киношными кадрами, игровыми синематиками, рекламой, итд, а с Allegro такого нет. Причём по кадрам нередко кажется, что это не генерация, а рандомный выбор видео из каталога, и кто-то вот-вот скажет "Да это же моё видео!". Также в Allegro сложнее промтом добиться нужной и стабильной картинки, а времени на генерацию уходит больше.

Таким образом Mochi 1 это лучший опенсорсный видеогенератор на данный момент.

PS, ещё пара наблюдений: генерация в Comfy с гитхаба занимает 1:45 сек, а в Pinokio 1:55. При этом энергопотребление в родном Comfy доходит до 521 Вт, а в Pinokio значительно ниже, в районе 430 Вт, и я это не раз замечал и с другими моделями. Скорее всего дело в паках-библиотеках-зависимостях, где с Comfy используется что ты сам поставишь в систему и папку с прилой, а Pinokio сам подбирает.

UPDATE: при установке длительности в 25 кадров, вообще никаких проблем не наблюдается на bf16, в том числе и надекоде VAE. Генерация при этом занимает ~1 мин 13 сек или ~2.43s/it на дефолтных настройках. А, да, я ещё качество до 100 поднял.

Анонс
Гитхаб Mochi 1
Comfy воркфлоу
Блогпост про Mochi 1

5,474

Psy Eyes

04 Nov, 23:07

Тренировка Лор для Клинг!

На своих (чужих, нужных) лицах.

Да, в Клинге появляются Лоры - они их зовут "AI Custom model"

Для тренировки своей модели:

Вам потребуется сделать горизонтальный ролик, где вы смотрите в камеру продолжительностью 10-15 секунд, в формате 1080p и размером менее 100 МБ. На заднем плане не должно быть других кожаных, и убедитесь, что это HQ с хорошим освещением.

Ну а потом загрузить в Клинга 10-30 таких (!разнообразных!) роликов. Важно держать длину 10-15 секунд на ролик, качество 1080p и отсутствие людей на заднем плане. Они рекомендуют загружать от 10 до 30 роликов. 20 тоже ок.

Тренинг идет всего 15 минут (это пока все непонаехали). А потом у вас появляется Face Model в text-to-video option.

Пишете промпт:

[facemodel] wearing cyberpunk armor and holding a futuristic rifle. Inspecting a dark laboratory. Lantern lights, dramatic atmosphere.

И все, Клингонская Лора в действии!

Поглядите примеры. Этот ж новый нормальный кастинг.

Вместо базы актеров - база Лор. Кем играть сегодня будем? Так, для испанского проката натренируйте Пенелопу Крус, благо материала полно.

@cgevent

269

Psy Eyes

04 Nov, 20:13

Хотел я в Minimax покрутить камеру вокруг кота, а он мне: "шатал я твой крути камеру!"

При этом самого котана спокойно разворачивает.

668

Psy Eyes

04 Nov, 17:41

Сделайте полноэкранный режим для миниапов с десктопа. Заклинаю!

700

Psy Eyes

04 Nov, 17:41

🤩

Новые фишки для Mini Apps //

Павел Дуров анонсировал масштабное обновление платформы мини-приложений в Telegram.

По его словам, новые функции позволят разработчикам создавать десятки новых видов приложений и игр.

— В ближайшее время появится полноэкранный режим, ярлыки на главном экране и планы подписки.

— Мини-приложения смогут запрашивать у пользователей доступ к геолокации, данные об ориентации устройства, доступ к статусу Emoji.

— Также мини-приложения получат поддержку обмена медиафайлами, отправки подарков, расширенные лимиты обмена сообщениями и монетизацию рекламы.

Глава Telegram подчеркнул, что последние две фишки уже работают, при этом остальное будет запущено в течение 2-4 недель.

@d_code

719

Psy Eyes

28 Oct, 20:16

Для видеогенератора Allegro появился 1-кнопочный установщик в Pinokio.

Я затестил. Напомню что на выходе 6 сек видео 1280х720 в fps от 15 до 30. От комьюнити ещё появилась опция в 60 fps. Чтобы генерить полностью в видюхе нужно около 30 ГБ VRAM. По умолчанию включен CPU offload и в видюху идёт 9 ГБ, а остальное выгружается в RAM.

На дефолтных настройках в Guidance 7,5 и 20 шагов видео не особо стабильное с качеством 23 года и генерится оно 30 минут на 4090 (на 3090 по словам разрабов 1 час). Чтобы получить качество как в примерах из их галереи нужно ставить 100 шагов и использовать "теги на качество", например те, что они дают:

Prompt: (masterpiece), (best quality), (ultra-detailed), (unwatermarked),

твой промт

emotional, harmonious, vignette, 4k epic detailed, shot on kodak, 35mm photo, sharp focus, high budget, cinemascope, moody, epic, gorgeous

Негативный промт тоже уже вписан, но можно добавить/убавить.

Генерация в 100 шагов займёт 2 с небольшим часа. Ещё на хаггинге написано можно подрубить библиотеку imageio для улучшения картинки, но к этому не идёт никаких деталей. Кстати не заметил, чтобы выбор FPS влиял на время.

На выходе тогда будет видео с лучшим качеством из опенсорсных вариантов (возможно лучше только Moshi 1 от Genmo, который тоже просится на тест). Если бы Allegro вышел в прошлом году, то мог бы посоперничать с Gen-2, Pika 1, и некоторыми другими платными аналогами, но они уже ушли дальше с более качественными продуктами.

Разрабы планируют запилить Img-2-video и контроль движения. Это хорошо, но вот ещё бы скорости, а то 2 часа на 6 сек это не интерактивчик. Возможно FasterCache и другие оптимизации скоро завезут, и тогда станет ловчее.

Установка в Pinokio
Подробнее про Allegro

718

Psy Eyes

28 Oct, 16:21

Можете на моём компе погенерить во Flux Lite, раскатал вам доступ. Работает и с компа и с телефона.

Воркфлоу в коментах. Вкиньте его в комфи как интерфейс откроется. Либо загрузите нажав Load и выбрав где оно. Если вы с телефона, скачайте файл (можно в телеге выбрать в меню файла Save to Downloads) и через Load укажите где он.

Убедитесь, что энкодеры указаны Clip L и Т5, а не Clip G (!). См. скрины в комментах

Для тех, кто мало знаком с комфи, чтобы сгенерить изображение пишете промт в поле ClipTextEncoderFlux и нажимаете Queue в панельке справа (если что гляньте скрины на оригинальном посте по Flux Lite). Промт надо писать два раза: один идёт для энкодера CLIP L, другой для T5. Ваша позиция в очереди отражается рядом с Queue, а в левом верхнем углу в процентах прогресс генерации.

Сохраняйте к себе понравившиеся картинки. Когда сессия закончится они удалятся.

Правила:
Хотелось бы чтобы VRAM хватало и не было сильных очередей (интересно посмотреть как комфи это разрулит). Поэтому меняйте только промт. Количество генераций (batch size), разрешение, количество шагов, итд, оставляйте как есть. И тогда у всех по идее на 1 картинку будет по ~13 сек.

Если знаете, что и как менять, так чтобы очередь для всех не становилась длиннее, то ок, заодно поделитесь опытом для всех в комментах.

UPD: сессия закрыта. Ожидайте следующую

Ссылка:
https://cu-ae-bradley-feeds.trycloudflare.com/

812

Psy Eyes

28 Oct, 15:39

Потестил Flux Lite от Freepik, являющийся ускоренной версией Flux Dev (дистилляция дистилляции?).

Данная версия имеет 8B параметров вместо 12B у оригинала. В ходе исследований Freepik выяснилось, что блоки в середине можно убрать без вреда для качества картинки.

Это позволило модели стать на 23% быстрее и занимать на 7 ГБ меньше RAM, без потери качества картинки. Изображения на выходе масимально близкие к базовой Dev. У меня на генерацию в среднем уходило 13-14 сек при CFG 3.5 в 24 шага 1024х1024, а сама модель не забивала все 24 ГБ VRAM.

Ostris уже опробовал и успешно натренировал лору на ней с помощью AI-Tools.

Рекомендуют Guidance_Scale ставить 3.5, а количество шагов между 22 и 30.

Freepik продолжать работать над тем, чтобы Flux в BF16 вмещался целиком в 24 ГБ VRAM.

Воркфлоу для комфи идёт в комплекте.

Быстрее SD 3.5 Large и несравнимо качественнее. Берём в работу!

Хаггинг
Воркфлоу

921

Psy Eyes

28 Oct, 13:15

FasterCache: метод ускорения инференса видеогенераторов без потери качества и тренировки.

Выяснилось, что повторное использование и кэширование схожих элементов кадра, имеющих небольшое различие, ведёт к деградации изображения. Вместо прямого повторного задействования кэшированных элементов предлагается использовать динамическое, которое более эффективно.

Также исследователи представили CFG-Cache: новый подход, разработанный для учета как высоко-, так и низкочастотных смещений, в сочетании с адаптивной к временному шагу техникой улучшения.

Уже работает с CogvideoX-2B, Open-Sora 1.2, Open-Sora-Plan 1.1, Latte, и Vchitect 2.0.

Теперь пусть подрубят это к Allegro и Genmo, и оптимизируют потребление памяти. Гоу!

Сайт
Гитхаб

846

Psy Eyes

28 Oct, 09:28

Runway: раскатали публичный доступ к Act One, инструменту для переноса своей мимики на персонажей.

Специального оборудования не требуется — достаточно видео с собой. Похоже на LivePortrait... и скорее всего он и есть под капотом.

Runway предоставили гайд как добиться лучших результатов.

Стоит 10 кредитов/сек, минимум 50 кредитов на видео. Максимальная длина видоса 30 сек. В безлимитном тарифе есть Explore Mode.

Сайт
Гайд

5,327

Psy Eyes

26 Oct, 17:53

1000 звёзд 21 день спустя таки пришли. Ловите процесс их конвертации в TON на Fragment.

Кошелёк для получения TON можете использовать любой. Я выбрал Tonkeeper потому что он некастодиальный (ключ от кошелька (сид фраза) хранится у тебя), наценка на комиссии сети ниже, чем в TON Space и MyTonWallet, и много функционала.

Кстати, сумма для вывода в TON динамически меняется: когда зашёл на страницу вывода было 3.336347538 TON, а когда залинковал кошель стало показываться 3.335582452 TON, в момент вывода уже 3.336827682 TON.

Так что не щёлкайте. Особенно потому что сессия на вывод работает где-то минут 10-15, а потом обрубается. У меня так первый раз было и пришлось ждать около часа пока появится новая возможность вывода. Благо не ещё раз 21 день.

1,141

Psy Eyes

25 Oct, 21:29

OpenWebUI: веб-интерфейс для локального чата с языковыми моделями (LLM) обновилися и там теперь можно организовывать чаты по папкам; через RAG обращаться к конкретным файлам, а не ко всей базе знаний; внедрили tiktoken — обработку текста по токенам, а не по символам; и много других ништяков.

Я ранее писал о проекте. Если ставили через Pinokio, при запуске OpenWebUI нажмите в боковой панели Stop и затем Update... Надо им сказать чтобы отдельную кнопку для обновления запили без запуска.

Гитхаб
Установка через Pinokio

1,129

Psy Eyes

25 Oct, 16:03

Playcanvas: обновили свой просмотрщик 3D файлов до V 5.

Фичи:
* Под капотом браузерной движок PlayCanvas Engine 2.1
* Есть рендер с помощью WebGPU
* Поддержка сплатов в формате .ply (вкинул и просматривай)
* Можно делиться ссылкой/QR кодом на просмотр
* Опенсорс, можно раскатывать где хочешь и внедрять к себе
* Улучшенная поддержка glTF 2.0

Сайт
Гитхаб

940

Psy Eyes

25 Oct, 14:46

Пара слов про рекламный видос, который был выше.

Я некоторое время назад писал сценарии для разных брендов и сам помогал в съёмках.

Сначала ты на стадии разработки просаживаешь кучу времени с правками туда-сюда, и обычно чем больше контора, тем дольше ждать ответа на каждую итерацию. Потом подготовка к съёмкам: найти людей, оборудование, место, сверить графики, договориться об оплате, итд. Во время продакшена и актриса может опоздать, и животное не двигаться по нужной траектории, и дублей уже тьма а аренда площадки подходит к концу, да и в целом нужно координировать людей, чтобы никто не потерялся в процессе. Всё сняли — выдохнули. Теперь на посте собираем это, показываем заказчику, и начинается новый сет правок тоже длительностью в недели или месяцы, в результате которых принятый материал неизвестно когда выйдет и выйдет ли вообще.

Так вот, от предложения о рекламе выше до итогового видео и его принятия прошло меньше часа. Сгенерил картинку локально во Flux, благо он сразу делает marketing-ready контент. Тут же кинул в Kling (у меня оставались кредиты на подписке), сделал несколько вариантов в V 1.5 и в V 1.0, где есть Motion Brush, и вуаля!

Да есть вопросы к фону, да хотелось бы, чтобы пламя во рту и глазницах двигалось чуть иначе под слова "огонь в глазах", и липсинк! (я пробовал, с тыквой не прокатило на английском, русский вообще не принимает) Но когда ты знаешь, что пост проживёт в канале 24 часа, смысла тратить на его разработку больше 1 часа не много.

Визуал к ролику и слова в озвучке я сделал сам. Мне был дан только текст поста и вводная, что оно под хэлуин.

Я люблю рекламу, которая креативная, развлекательная, и в идеале образовательная. Думаю с помощью нейронок мы сможем больше такого встречать, и заодно экономить время и бюджеты.

1,059

Psy Eyes

25 Oct, 13:08

Как начинающему аналитику выбрать работодателя?

Казалось бы, все очевидно: зарплата, карьерные перспективы, удаленка. Но на старте карьеры есть еще один фактор, который упускает каждый второй джун, — это уровень зрелости работы с данными.

Переход на data-driven подход — задача не на одну неделю, и даже если компания ищет аналитика, это не значит, что все готово к его работе. Существует пять уровней развития аналитической культуры и джунам настоятельно рекомендуем выбирать компании не ниже третьего уровня.

В такой компании вы быстро вольетесь в работу и познакомитесь со стандартами индустрии. А по мере профессионального роста переходите в менее «зрелые» компании на руководящие позиции и развивайте культуру работы с данными, основываясь на собственном опыте.

В компаниях «пониже» процессы могут затянуться настолько, что через год вы по-прежнему окажетесь джуном без знания современных инструментов и соответствующей зарплатой. Вывод: идем за третьим уровнем!

С работодателем определились. Дело за прокачкой «хардов» и «софтов».

А еще больше полезностей как по хардам, так и по софтам — на курсе «Аналитик PRO» онлайн-школы Changellenge >> Education.

В Changellenge >> Education проходит акция в честь Хэллоуина, где вы можете купить курсы с жуткими скидками до 60 000 рублей до 28 октября 23:59.
Оставьте заявку по ссылке на бесплатную консультацию.
С Changellenge >> Education переходить в аналитику не страшно!

Реклама. ООО «Высшая школа аналитики и стратегии». ИНН 7716917009. erid: 2VtzqwFX6jv

516

Psy Eyes

25 Oct, 13:08

Anthropic: добавили в Claude инструмент для анализа данных, напоминающий Code Interpreter у OpenAI.

С его помощью можно строить графики и другие визуализации, а также запускать код и наблюдать его результаты.

Твит
Сайт

891

Psy Eyes

25 Oct, 12:00

Midjourney тоже, как и обещали, выкатили новый web-editor для картинок.

"Тоже" - потому что вчера Ideogram зарелизил свой Canvas - и там, наверное, все выглядит понаряднее, с учетом идеограмского inpaint и outpaint.

В Midjourney теперь есть свой ControlNet (вроде как Depth) и возможность загружать картинки извне и использовать их как контролирующие изображения. Ну и редактор картинок.

Те, кто сидят на Stable Diffusion\Flux\Fooocus\Invoke\Krita просто пожмут плечами сочувственно, у них это есть 2 тысячи лет уже.

Идеограммщики скажут, а у нас лучше.

chatGPT и DALL·E 3 такие: нет, не слышали, но вы держитесь.

Midjourney фанаты, подобно поклонникам эппле, радостно возопят "ура".
Ну и это здорово, что есть конкуренция, все-таки у мидджуниоров огромное сообщество и оно, наконец, дождалось, пусть ограниченного, но контролНета и возможностью хоть как-то управлять картинками.

Я-то жду от них совсем других новостей до конца года.

Но есть коричневая вишняшка: это только для тех, кто нагенерил 10 000 картинок через Midjourney. Остальным будет позже.

Подсобрал вам видосов и картинок, как это выглядит.

И да, retexturing - это ребрендинг ControlNet Depth от Midjourney.

@cgevent

517

Psy Eyes

24 Oct, 21:37

Так вот, про тренировку генератора речи e2f5 на датасете с русским языком.

На днях появился скрипт для файнтюна. Поставить можно либо с гитхаба, либо обновив/переустановив приложение в Pinokio. Если пойдёте вторым путём, при запуске e2f5 нажмите Stop в боковой панели и следом Train. Если появится тот же интерфейс, что и до этого, нажмите Refresh вверху Pinokio и тогда появится интерфейс для тренировки...Либо нажмите Stop в боковой панели... В общем смотрим первое видео в посте. UI/UX так себе, да.

По словам разработчика, здесь не получится на небольшом семпле данных зафайнтюнить модель — нужно тренировать с нуля на крупном датасете в 10к+ часов записей. Для справки: базовая модель тренилась на 95к часов английского и китайского в течении недели на 8 A100 с 80 ГБ VRAM.

Датасеты с русской речью есть на хаггинге. Но пока вижу, что звучащие дельно варианты входят в состав крупных мультиязычных датасетов и не ясно сколько там семплов на русском и как их выцеживать. Есть смысл достать нужное где-то ещё.

На гитхабе народ обсуждает процесс тренировки и у кого-то даже получается на 60 часах получить что-то годное после дня трени.

Локально, я закинул 3 минуты для теста. Оно сначала дробит файл на семплы и с помощью Whisper транскрибирует речь в текст.

Дальше на вкладке Train Data можно поиграться с настройками трени, или нажать авто, после чего настройки подберутся самостоятельно. На одну эпоху уходит ~17 секунд на 4090, а потребляется в это время около 19-20 ГБ VRAM. Возможно, если Whisper выгрузить из памяти то можно 4-5 ГБ ещё освободить. Кстати чекпоинты тяжелые, я сделал две трени (вторая на видео) и не успел оглянуться как в папке chkpt возлежало 194 ГБ с каждым файлом по 5 ГБ.

После трени идём во вкладку Test Model и там, где написано Chekpoint вставляем адрес до конкретного чекпоинта, на основе которого хотите генерить. Включая название файла и его расширение.

Нажимаем Random Sample и получаем кусок из закинутого ранее датасета (в моём случае 3 минут) с его транскрибацией. Вероятно этот шаг работает как guidance для модели, иначе не знаю зачем оно. Ниже пишем текст, который хотим озвучить и жмём Infer.

У меня на основе 3 минут получилась белиберда по содержанию, но тембр похож на мой. Первый раз когда прогонял было с китайским акцентом. Вероятно потому, что оно по умолчанию использует англо-китайский датасет Emilia.

В общем для весомых тестов нужно больше данных.

Гитхаб
Требования к датасету
Установка через Pinokio
Обсуждение процесса тренировки

1,163

Psy Eyes

22 Oct, 23:50

StabilityAI: стараются исправиться и выпустили Stable Diffusion 3.5.

В релиз входят версии Large и Turbo. Первая имеет 8B параметров и заточена работать в разрешении 1024х1024, а вторая является её ускоренной (дистиллированной) версией, выдающей в 4 шага при CFG 1.2 результат схожий с 30 шагами в базовой модели. 29 октября ещё выкатят Medium 2.5B с исправленной MMDiT-X архитектурой и возможностью генерить до 2048х2048.

В этот раз Stability оптимизировали модель для тренировок на её основе. Также это привело к тому, что результаты по одному и тому же промту могут быть разные, даже если сид зафиксирован. Нужно писать промты детальнее.

Пока генерить можно либо в командной строке из папки с SD 3.5, либо в Comfy (обновитесь до последней версии).

Весят Large и Turbo одинаково по 16,5 ГБ и жрут до 20 ГБ VRAM на одну x1024 картинку, если гонять их через Comfy (22 ГБ на 4 картинки). Если просто запускать командами из папки, то не хватит и 24 ГБ — оно полезет в RAM.

В Large на одно 1024х1024 изображение в 30 шагов нужно около 15 секунд на 4090, на 4 картинки 1 минута. В Turbo при 4 шагах 2-3 сек. Это в Comfy, из командной строки в Large 40 сек на картинку тратится мбо модель, clip и vae загружаются/выгружаются при каждой генерации.

Обе модели промту следуют так себе, а качество вообще швах, временами словно на голую SD 1.5 смотришь. Опять артефакты, lowres шакальность и проблемы с анатомией. Я с Flux уже забыл, что это такое.

И если Flux это была любовь с первого промта, то тут видать только острозаточенные лоры дадут поймать то, что ты ищешь. Из коробки может только если что-то абстрактное или артовое даётся приемлемо. Видать поэтому фокус действительно на кастомизиции-тренировке модели.

При этом TDP (энергопотребление) доходит до 499 Вт, что даже выше целевых 480 Вт для игрового режима у 4090.

Нормально ли видюху долго гонять на мощностях выше целевых при условии, что охлаждение удерживает температуру в пределах 65-75 градусов? Пишите в комментах.

В плане лицензии, SD 3.5 позволяет свободное коммерческое использование, если годовой заработок на ней до $1 млн.

В общем, комьюнити сделало из SD 1.5 конфетку. Будем наблюдать, как сообщество примет и разовьёт SD 3.5.

Анонс
Гитхаб
Хаггинг
Comfy воркфлоу
Демо Large
Демо Turbo

1,297

Psy Eyes

19 Oct, 19:48

Yes, please

905

Psy Eyes

19 Oct, 13:49

Пока недалеко отошли от Adobe и 3D. Я уже рассказывал, что через их новую апу Substance 3D Viewer можно просматривать 3D файлы в фотошопе.

Так вот с её помощью можно работать в режимах Text-to-3D или 3D-to-Image, то есть и генерить из текста 3D, или на голые 3D меши накатывать текстуры с фоном.

Причём можно выбирать:
* Создать фон под уже текстурированный 3D объект
* Поменять текстуры объекта и фон
* Поменять текстуры объекта и не трогать фон

Adobe предоставляют гайд по всему процессу и 3D объект для тестов. Либо вы можете сделать сплат чего-нибудь под рукой в Postshot, например.

Кстати про сплаты. В режиме text-to-3D меш генерится именно в них. Но в Substance нет возможности экспортировать 3D (ибо он работает как привязка к фотошопу). Однако в папке с временными файлами находятся .ply, которые можно закинуть в SuperSplat или другие редакторы с поддержкой сплатов. На гитхабе есть конвертор на эту тему, как и линк на коллаб, если мощей компа не хватает. Думается Adobe эту лазейку как-то закроет, но пока можно пользоваться.

Гайд по Substance 3D от Adobe
Тестовый 3D объект
Гитхаб 3D конвертор

957

Psy Eyes

19 Oct, 09:57

Adobe: в обновлённом Illustrator векторную графику можно крутить как 3D объекты. Выделяешь что нужно, жмёшь Generate Views, и можешь менять горизонтальное / вертикальное положение, используя новые виды. Причём изменения в одном объекте, можно применить другим таким же (см. рога у летучих мышей). Также оно понимает как работать с освещением при ротации.

Мы видели генерацию новых видов в опенсорсных 3D генераторах, типа Zero123++ и иже с ними. Но, тут оно всё положено под капот с желанным UI/UX.

Ну и создание анимации на основе таких 3D объектов в афтере выглядит неплохо. Для какой-нибудь простой ютуб открывашки или низкобюджетной рекламы сойдёт.

Другой проект, где можно вкинуть SVG и делать из него 3D это Meimu.

У кого адобовская подписка дайте фидбек как оно по ощущениям в ваших задачах.

Твит

942

Psy Eyes

18 Oct, 18:54

От приписок in-game footage к —> in-browser footage

960

Psy Eyes

18 Oct, 18:52

PlayCanvas: обновили браузерный игровой движок с поддержкой WebGPU до V 2.1.0.

Что нового:
* HDR
* TAA
* SSAO
* Исправлен рендеринг сплатов в VR
* Улучшена обработка .ply
* и не только

Кстати у них же есть веб-редактор сплатов SuperSplat, а также список проектов с примерами использования движка. Там и игры, и технодемки, и виртуальные инсталляции, итд.

Судя по видео, мы не так далеко от какого-нибудь браузерного NFS Most Wanted на WebGPU, или чего пографонистей. Если не на PlayCanvas, то вполне возможно на Unity, которые поддерживают WebGPU. Можете эти примеры погонять в хроме или другом браузере с поддержкой WebGPU:
* GPU Skinning
* VFX Graph
* URP BoatAttack

Гитхаб
Видео Unity + WebGPU

968

Psy Eyes

18 Oct, 16:10

LMStudio: в версии V 0.3.4 появился MLX-движок, для эффективной работы на маках с языковыми моделями (LLM) и визуальными моделями (VLM) в формате MLX.

В приложении можно найти и сразу скачать LLM/VLM в нужном формате. И использовать в удобном UI или командной строке.

MLX-движок сделан командой LMstudio и выложен в опенсорс по лицензией MIT.

Также теперь можно запускать одновременно несколько LLM.

Анонс
Скачать приложение
MLX-движок

998

Psy Eyes

18 Oct, 14:55

Ну и сладкие остатки с AdobeMax.

Вы конечно помните все эти ситуации, когда к вам приходит (вставить нужное) и говорит:
а можно теперь для инсты квадратное?
и для сторисов можно стоячее?
а еще в шапку фб плоское?
ну и на сайт стандартное?
а, там еще размерчики новые пришли..

ты же уже сделал основную картинку, там поправить немного, да?

А у тебя глаз дергается...

Одна кнопка, Карл!

@cgevent

593

Psy Eyes

18 Oct, 13:54

Кстати про FaceFusion. Там FusionLabs выпустили свою модель для работы с лицами — ArcFace Converter. С её помощью можно конвертировать лицевые эмбеддинги между разными ArcFace архитектурами в ONNX формате.

В то время как inswapper полагается на эмбеддинги оригинального ArcFace, модели вроде HiFiFace, GHOST, и SimSwap используют свои архитектуры, 200 МБ каждая. Новые конверторы весят по 20 МБ и повторно используют лицевые эмбеддинги, которые были сгенерированны для распознавания лица, и ускоряют процесс.

Если у вас стоит FaceFusion 3.0.0, то оно уже под капотом и используется. Ежели какая-то другая сборка, можете скачать новые модели отсюда и положить их .assets/models, где установлен FaceFusion.

Гитхаб

978

Psy Eyes

18 Oct, 12:20

Nvidia: ускорили Flux на видюхах с поддержкой TensorRT. Прирост производительности составляет 20%. А ранее Alibaba выпустили Turbo версию Flux.

Чтобы достичь ускорения, надо модель, скажем Flux Dev, пропустить через ComfyUI TensorRT. На выходе можно получить или динамический оптимизированный движок, который будет работать с разными разрешениями, или статический работающий в одном разрешении, зато потребляющий меньше памяти.

На данный момент, чтобы провести оптимизацию нужно 48 ГБ VRAM и видюха с поддержкой BF16 типа А5000. После этого, оптимизированную Dev можно будет гонять на 4090. Но скорее всего ничего другого параллельно работать не сможет и экраны нужно будет отключить. Не забудь поставить свечку для аутентичности.

Тем не менее, будем следить за развитием событий. Я тут опробовал TensorRT в новом FaceFusion и оумай! оно просто летать начало, даже по сравнению с CUDA.

Анонс
Гитхаб Comfy TensorRT
Обсуждение на гитхабе

1,062

Psy Eyes

18 Oct, 11:06

Вышел PyTorch 2.5.

Что нового:

* Новый CuDNN "Fused Flash Attention" бэкенд. Если гоняете H100 в облаке или предоставляете сервисы, скажем через ботов, на них, прибавка в скорости может быть до 75%.

* Поддержка видюх Intel. Написано, что речь про те, что в датацентрах и у пользователей. Интересно имеются ввиду дискретные Arc или втройки в проц типа UHD Graphics 770 тоже считаются? Если да, то можно ли заставить их использовать вагон RAM как на маках?

* Другие оптимизации и улучшения

Анонс
Гитхаб

1,105

Psy Eyes

17 Oct, 11:19

Huggingface заколлабились с Ollama и теперь можно любую языковую модель (LLM), у которой на хабе есть GGUF от квантизации, запустить прямо в командной строке вбив строчку формата:

ollama run hf.co/{username}/{repository}

Можно попробовать на чём-то из этого:

ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF
ollama run hf.co/mlabonne/Meta-Llama-3.1-8B-Instruct-abliterated-GGUF
ollama run hf.co/arcee-ai/SuperNova-Medius-GGUF
ollama run hf.co/bartowski/Humanish-LLama3-8B-Instruct-GGUF

На память команды знать не обязательно. Ловчей будет зайти в хабе на страницу интересующей модели, перейти в Quantizations, выбрать создателя кванта (ориентируйтесь по скачиваниям), нажать "скопировать" рядом с названием модели, а дальше в командной строке вбить ollama run hf.co/ и вставить скопированное. Если нужна конкретная квантизация, например Q4_0, то она дописывается в конце рез двоеточие. LLM скачается и с ней можно будет общаться.

Также может понадобиться Ollama добавить в PATH, чтобы оно могло запускаться из любого места в командной строке. Для этого найдите куда приложение установлено (например нажав на иконке и открыв "расположение файла"). Это что-то вроде: C:\Users\PsyEyes\AppData\Local\Programs\Ollama. И в переменных среды найдите строчку Path » изменить » создайте новую строку и впишите в неё адрес.

Сегодня в заголовках Nvidia с их тюном ламы, красиво светящимся на бенчах против последних моделей Anthropic и OpenAI. Просто GGUF весит 48 гб. Чтобы подрубить пожатый 1-битный и, возможно, нерепрезентативный квант, весящий 16 гигов и занимающий 20 ГБ VRAM, надо вбить:

ollama run hf.co/bartowski/Llama-3.1-Nemotron-70B-Instruct-HF-GGUF:IQ1_M

Хотя мне конечно через командную строку общаться не близко. Нужен UI, чтоб можно было и чаты разные вести, и файлики свои подгружать, итд. Будет ништяк, если это подрубят в OpenWebUI с Artifacts, а то там сейчас список поддерживаемых моделей ограничен.

Анонс
Список LLM на хаггинге

6,763

Psy Eyes

17 Oct, 10:00

Pika: продолжают через мемы раскрывать возможности своего генератора видео v 1.5, который умеет в физику, чёткость движений, и высокое качество картинки.

В этот раз добавили эффекты:
* Crumble (разрушить)
* Deflate (спустить)
* Dissolve (дезинтегрировать ака ты чего наделал)
* Ta-Da (фокусы за 200)

Заодно прицепил прошлый трейлер V 1.5, чтобы все эффекты в наличии были в одном посте.

Pika правильно делают. Мемы это массадопшн для AI. Надо только бесплатный тариф как-то проработать, а то 3 дня на одну генерацию это так себе.

Твит
Сайт

1,199

Psy Eyes

17 Oct, 08:48

Апдейт для E2-F5 в пинокио уже подъехал. Модель подрубили к официальному репо в гитхабе и обновили до всех последних фишек.

Теперь можно локально делать подкасты, генерить в разных эмоциях, и регулировать скорости речи/паузу.

Если update в боковой панели не обновит модель, то снесите её, закройте пинокио, и поставьте E2-F5 заново.

Установка через Pinokio
Про E2-F5

1,114

Psy Eyes

Psy Eyes (Russian)

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes

Psy Eyes