📹 ВИДЕО + АРТ 🎨
PostShot: появилась интеграция с UE 5.4 для редактирования в нём сплатов, исправили баги при тренировке сцен и импорте/экспорте файлов, и другие улучшения.
Runway: расширили генерацию видео до 20 сек. Плюс обновили API, добавив доступ к контролю камеры Turbo.
Neurogen: появилась оптимизированная версия дипфейкера DeepFaceLab, а также FaceFusion 3.1.
Recraft: обновили свой генератор картинок до V3 и вышли в топ text-2-image моделей, обогнав Flux, MJ, Ideogram, и всех остальных. Можно бесплатно опробовать у них на сайте. Также есть версия, которая затюнена выдавать SVG.
BFL: релизнули Flux 1.1 Pro Ulta для генерации изображений в 4MP и RAW версию с имитацией "обычных фото". Доступно только по API.
Bytedance: выпустили SeeEdit для стайлтрансфера картинки с высокой точностью.
Nvidia: дропнули Llama Mesh для генерации 3D мешей по текстовому описанию с помощью LLM, плюс чата и редактирования.
DimensionX: опенсорсное создание видео с контролем камеры на основе одного изображения. На данный момент движение есть влево и вверх. Работает в связке с CogVideoX.
MagicQuill: онлайн редактирование изображение рисованием и промтом. Напоминает Invoke.
PyramidFlow: ещё один открытый видеогенератор с поддержкой Img2Video. Теперь с кадрами на основе Flux. На выходе видео 768p длиной в 10 сек. Установка через Pinokio.
Bria: обновлённый удалятор фона RMBG-2. Хорошо работает со сложной композицией, есть пакетная обработка, и можно кормить картинки как с компа, так и по ссылкам. Установка через Pinokio.
InstantX: выкатили апскейлер изображений InstantIR. Есть восстановление с точным следованием рефу или по "своему видению" (creative restoration). Установка в Pinokio.
Также они опубликовали метод более точного следования промту в t2i без тренировки + ещё одна работа на эту тему (спс @JohnDoe171).
CogVideoX: выпустили версию v 1.5 своего генератора видео с 5B параметрами. Тесты.
Vidu: обновили видеогенератор до V 1.5. Подняли качество генераций, улучшили следование промту, добавили консистентную работу с персонажами.
Добавление текста на задний фон с его настройкой.
🎸 ЗВУК 🎸
DeepL: представили Voice режим для перевода голоса в текст для бизнес сегмента.
SI: выпустили Hertz-dev, генератор речи (TTS) работающий в audio-2-audio с маленькой задержкой. Может выдавать как слова за одно человека, так и за двоих.
Hallucinator: моделька на основе Hertz выше для продолжения слов в загруженном аудио семпле.
e2f5: появилась возможность делать генерацию речи на основе фантюнов e2f5 от других людей через выбор Custom модели для инференса. На русском не видно пока тюнов.
Веб-интерфейс для работы с разными опенсорсными TTS.
🤖 ЧАТЫ 🤖
Alibaba: рвёт и мечет и после своего опенсорсного кодера, выпустили Turbo — языковую модель (LLM) с контекстом 1 млн токенов. Можно скормить книг 10, или 150 часов транскрибации речи, или 30к строк кода. Демо. API дешевле GPT-4o-mini.
Llama 3.2-11B, умеющая из коробки чатиться по визуалу, вышла в тираж и доступна в Ollama через OpenWebUI. Нужно минимум 8ГБ VRAM.
Mistral: выпустили Pixtral Large, визуальную языковую модель (VLM) для чата по визуалу, которая на бенчах лучше других открытых и закрытых, но размером 124B и её не погонять дома в отличие от Ламы 3.2-11B. Онлайн демо.
MinerU: конвертер PDF файлов в текст с markdown форматированием или JSON.
Google: выкатили Gemini-Exp-1114 и он попал в топ лидерборда LLM. Можно погонять на арене.
OpenAI: дропнули приложение ChatGPT на Windows.
Anthropic: с помощью Computer Use можно дать Claude выполнять задания на компе через API. Плюс тулза от сообщества для этого на Win/Mac... Microsoft Recall ты ли это?
AnyChat: в онлайн чат, где есть последние модели Qwen, Claude итд, добавили DeepSeek v2.5. Некоторые можно потестить бесплатно.
Cinnamon: выпустили Kotaemon, фреймворк, который пользователи могут использовать для чата по докам, а разрабы как шаблон для RAG.