Generative Ai @deeplearning_ru Channel on Telegram

Generative Ai

18 Feb, 13:38

SkyReels V1: Human-Centric Video Foundation Model

Генератор видео по тексту и по картинке на основе Hunyuan

Заточен на человеков в кадре, там под капотом помогает 3D реконструкция человеков

На 4090 должен вывозить 97 кадров 960px544

Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V

Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу

Их канал на Youtube

#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx

135

Generative Ai

17 Feb, 15:09

Step-Video-T2V

Новый опенсорсный китайский видеогенератор

30B параметров
544px992, 204кадров
80gb VRAM

Код
HF

Попробовать - вход по телефону. Мне по российскому телефону код пришел в телеграм

#text2video

275

Generative Ai

17 Feb, 09:03

🌐 Погружайтесь в мир данных и ИИ вместе с The Data Economy! 📊🚀

Почему вам стоит присоединиться? 🤔

🔮 Ловите тренды будущего: узнавайте первыми о том, как инновации в области искусственного интеллекта трансформируют бизнес и общество.

💡Кейсы и лайфхаки: получайте советы и методики работы с ИИ от признанных экспертов.

🌍 Глобальные инсайты: обзоры и исследования со всего мира, показывающие, как лучшие компании используют ИИ и технологии для роста.

🎁 Бонусы для подписчиков: участники канала получают доступ к материалам с мероприятий, которые недоступны широкой аудитории.

🚀 Станьте частью сообщества The Data Economy получите максимум от ИИ!

@TheDataEconomy

345

Generative Ai

15 Feb, 23:01

Ух ты, Микрософт опенсорснул новую версию OmniParser V2. С коннекторами.

Нет, это не ответочка Operator-y и не агент для управления вашим компом.

Это улучшайзер первой части работы Оператора и ему подобных систем - сильно оптимизированное распознавание содержимого вашего экрана.

Так и пишут: OMNIPARSER, метод разбора скриншотов пользовательского интерфейса на структурированные элементы, который значительно повышает способность GPT-4V генерировать действия.

Более того, этот парсер-распознаватель экрана может быть пристегнут (опенсорс жеж) как плагин и к другим LLM.

И по этому поводу они также релизнули OmniTool: Control a Windows 11 VM with OmniParser + your vision model of choice. И вот это круто ибо тул может работать с: OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) или Anthropic Computer Use

Интересно наблюдать за процессом "декомпозиции" мозгов LLM. Помните писал про Глубокую Клодку, что расщепление на рассуждающую и отвечающую часть, приводит к улучшению качества ответов. Теперь можно отщепить "зрение" или воспринимающую часть. И комбинировать разные "восприниматоры" и "отвечаторы".

А "восприниматоры" тоже можно разделить по областям: распознаватели экрана, спортивных трансляций, жизни насекомых. Надеваем на LLM разные очки и ну улучшать качество ответов вижен-моделей и не только.

В общем мозги для ИИ сделали, пока заняться нервной системой.

Код и все дела тут:
https://microsoft.github.io/OmniParser/

@cgevent

470

Generative Ai

14 Feb, 13:04

Авито нанимает!

Ускоренный отбор за выходные и возможность попасть в одну из пяти DS-команд: автомодерация, монетизация, поисковое ранжирование, AI Lab и вертикальные команды DS.

Вас ждет:
➡️ конкурентная зарплата и удаленка по всей России;
➡️ реальные задачи на большом масштабе — разработка алгоритмов для проверки объявлений, внедрение ML-моделей, оптимизация процессов и DS-поддержка;
➡️ участие в разработке новых продуктов — предлагаем для этого мощное железо и бюджет на обучение;
➡️ сильное IT-комьюнити, которое любит опенсорс.

Регистрируйтесь по ссылке до 27 февраля и развивайте крупнейший в мире сервис объявлений.

218

Generative Ai

13 Feb, 21:36

ComfyUI_PuLID_Flux_ll

Обновка ноды персонализатора для #Flux в #ComfyUI

#personalization

574

Generative Ai

13 Feb, 18:41

Magic 1-For-1: Generating One Minute Video Clips within One Minute

Новый опенсорсный китайский видеогенератор

Чего-то там наоптимизировали чтобы минутный ролик создавался за одну минуту в несколько шагов

Ест 30GB VRAM для 540x960

Веса будут на днях

Код

#text2video #image2video

292

Generative Ai

12 Feb, 21:32

Сэм Альтман рассказал о дальнейших планах OpenAI.

Планируют выпустить GPT-4.5 (подтвердили, что это Orion) в ближайшие недели — это будет последняя “нелинейно размышляющая” (non-chain-of-thought) модель.

Затем последует GPT-5, которая объединит модели o-series и GPT-series, станет универсальнее. Будет доступна как в приложении, так и через API.

GPT-5 заменит o3, а сама o3 не будет выпускаться отдельно. Бесплатные пользователи ChatGPT получат доступ к GPT-5 (на стандартном уровне интеллекта). Plus-подписчики получат улучшенную версию GPT-5. Pro-подписчики получат ещё более мощную версию, включающую голос, canvas, поиск, deep research и другие функции (какие?).

GPT-4.5 – через несколько недель!
GPT-5 – через несколько месяцев!

493

Generative Ai

12 Feb, 09:48

🗣

Стартап Zyphra выпустил модель для клонирования голоса.

Бесплатная бета-версия Zonos обещает мгновенное клонирование, безупречное качество и полный контроль над звучанием.

— Для этого нужно загрузить фрагмент длиной от 10 до 30 секунд или записать аудио.
— Есть настройка скорости речи, высоты тона, частоты и эмоций.
— Может скопировать голос с записи на русском языке, но пока не озвучивает русскоязычный текст.

• Попробовать
• Github

#neural #нейросети

@aiaiai

585

Generative Ai

10 Feb, 17:38

Lumina-Video-f24R960

Новая модель убийцы всего
Генератор видео со звуком (без звука тоже может) по тексту

#text2video #text2audio #multimodal

576

Generative Ai

10 Feb, 12:11

🔥Хочешь узнать, как нейросети могут улучшить твою жизнь?🔥

Меня зовут Влад, я — AI-маркетолог. В своём Telegram-канале простым языком рассказываю о нейросетях и о том, как правильно писать промпты. В моём канале ты найдёшь:

✔️Реальные кейсы внедрения AI: Узнай, как компании используют нейросети для автоматизации задач и повышения эффективности.

✔️Обзоры топовых AI-инструментов: Открой для себя лучшие решения для анализа данных, прогнозирования спроса и улучшения клиентского сервиса.

✔️Пошаговые гайды по интеграции нейросетей: Получай подробные инструкции по внедрению AI в твои бизнес-процессы.

Почему это важно?

Внедрение нейросетей помогает:

Автоматизировать рутинные задачи: Сократи время на выполнение однообразных операций и сосредоточься на стратегических задачах.

Улучшить обслуживание клиентов: Используй AI для персонализации предложений и быстрого реагирования на запросы клиентов.

Принимать обоснованные решения: Анализируй большие объемы данных и получай инсайты для развития бизнеса.

Не упусти шанс быть впереди конкурентов!
Подписывайся прямо сейчас!

🔗 Лямин о нейросетях

590

Generative Ai

03 Feb, 22:01

🖥 Разрабы запустили бесплатный аналог OpenAI Operator!
Называется он - Browser Use.

Новый ИИ-агент в открытом доступе на GitHub:
▸ Автоматизирует задачи по одному запросу, как у OpenAI
▸ Работает с ChatGPT-4o, Claude 3, Deepseek-R1
▸ Бесплатно + доступ в РФ.

На первый взгляд выглядит круто, но больше подойдёт для программистов/кодеров, для обычных людей может поставить напоминания в календарик не более.
А прогуглить мы и сами можем 😄

Качайте тут, если заинтересовало пишите че как ⬇️

1,198

Generative Ai

01 Feb, 13:55

🦢 Goose: автономный AI-агент для автоматизации инженерных задач

Goose — это локально работающий AI-ассистент для программистов, способный автономно выполнять сложные задачи: от отладки до деплоя. Инструмент гибко настраивается, поддерживает кастомные LLM-модели и интеграцию с внешними API.

### 🔹 Возможности:
- Локальный запуск — все вычисления выполняются на вашей машине
- Автономность — сам справляется с разными инженерными задачами
- Расширяемость — можно подключать свои модели и API
- Открытый исходный код — настраивайте и модифицируйте под себя

### ⚡ Применение:
✔️ Генерация и исправление кода
✔️ Автоматизация тестирования и отладки
✔️ Создание API-запросов и документации
✔️ Интеграция с CI/CD

📌 Репозиторий: [github.com/block/goose](https://github.com/block/goose)

1,182

Generative Ai

31 Jan, 20:33

OpenAI выпустили o3-mini - бесплатно

Лимиты бесплатным пользователям пока непонятные, Pro подписчикам дают безлимит, Team и Pro - 150 сообщений в день. Также к o3-mini, в качестве эксперимента, прикрутили поиск.

Модель доступна одновременно как и в чате так и в API, куда добавили поддержку function calling и structured output для этой модели. Цену скинули в три раза - стоит новая модель $1.10/$4.40 за миллион токенов, что лишь немногим дороже R1 с официального API (и дешевле многих неофициальных).

У новой модели есть три режима работы:
(1) быстрый режим low compute,
(2) обходящий o1-mini режим medium (всё равно на 24% быстрее),
(3) и опережающий o1 на большинстве бенчей, более медленный режим high compute.

Есть и нюансы - как и оригинальная o1-mini, o3-mini не поддерживает мультимодальный ввод, а одну из требующих агентности задач модель полностью провалила - использовала bash вместо питона не смотря на все попытки уговорить её это не делать.

Модель очень интересная, классно что бесплатным пользователям наконец-то дали reasoning модель. Ощущается как OpenAI задвигались, когда появилась конкуренция - и цены сбрасывают, и доступ бесплатным юзерам дают, и поиск прикручивают.

@ai_newz

894

Generative Ai

29 Jan, 09:01

В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1

https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1

857

Generative Ai

24 Jan, 16:40

Админ трогал траву как не в себя, но наконец добрался рассказать вам про самую поразительную работу за 2024.

Я считаю, что про неё недостаточно говорят, а про решателей шокльной математики (o1/o3) и агентов слишком много. Ваша любимая 400b VLM плохо рисует bounding boxes, а эта 770m шутка делает их отлично хоть на CPU. При этом VLM обучалась на немыслимом количестве данных, а у этой штуки было меньше примеров, чем у CLIP. Да что далеко ходить: у меня друг делает стартап по CV, мы с ним обсуждали эту модель, он её попробовал и перестал обучать свои YOLO детекторы: потому что эта штука просто работает. Причем несмотря на необходимость обнаруживать строительные машины на фотографиях с плохих камер в родной атмосфере слякоти и грязи.

#обзор_статьи
# Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
Скачивайте и играйтесь на HF.

Что если я скажу, что есть модель, которая умеет хорошо делать Zero-Shot детекцию, сегментацию, captioning и OCR? Что при этом её можно промптить, например требуя найти на картинке всех собак или сделать сегментацию объекта внутри ббокса? Вы наверное подумаете, что это новая огромная VLM. Но нет, эта модель размером всего 770M, то есть как большой ViT. Можно запускать хоть на CPU. Более того, её можно дообучать, в том числе легко сделать из неё supervised детектор прикрутив ей свою любимую голову, скажем от DETR.

В Computer Vision у всех комплексы по поводу foundational models. Мы завидуем ребятам из NLP. Стало модно выпускать большие модели и говорить: "теперь у нас тоже фаундейшнл!" Однако что такого foundational, скажем, в Segment Anything? Это просто сегментатор обученный на большом количестве качественной синтетики. В моем понимании foundational это когда ты в свободной форме даешь модели любую задачу и она её решает, как GPT-4o, а не когда тебе нужно определенным образом зампромптить модель, чтобы получить решение задачи сегментации.

Florence-2 это первая модель в CV которую я действительно готов назвать foundational. С одной стороны из-за её широкой полезности, так как она позволяет решать все популярные задачи в CV. Но так же из-за того, каким образом она сделала. Минимум костылей, как вы сейчас увидите.

Перейдем к сути, благо статья простая и благодаря этому очень красивая. Авторы рассуждают последовательно.

Чего мы хотим от универсальной CV модели?
1. Image-level understanding: понимание высокоуровневой семантики. Например, на картинке кошка или собака? Можно так же сказать, что это способность связать изображение и текстовое описание. Эту задачу отлично решает CLIP.
2. Region/pixel-level recognition: обнаружение объектов на изображениях и понимание их расположения. С этим отлично справляются supervised классификаторы, детекторы и сегментаторы.
3. Fine-grained visual-semantic alignment: связь между областями изображения, в том числе совсем маленькими, и текстом. Обнаружение частей изображений которые относятся к фразам, объектам, атрибутам и отношениям. Это способность обнаружить и отличить "нос собаки", "нос собаки слева", "нос рыжей собаки", "коричневый нос собаки" и так далее.

Когда желания определены дело за малым: выбрать данные, функцию ошибки и архитектуру. Через эти компоненты мы по факту формируем оптимизационную задачу.

Авторы решили, что для получения трех компонент понимания изображений нужно много разных аннотаций, которые можно распределить по двум осям:
1. Spatial hierarchy: аннотации должны включать разные масштабы изображений, чтобы модели требовалось понимание и на уровне изображения, и на уровне пикселей.
2. Semantic granularity: в текстах (описаниях, промптах, лейблах) должны встречаться разные уровни абстракции, требующие от модели как понимания общих концептов, так и небольших деталей и нюансов.

1,349

Generative Ai

23 Jan, 19:13

Пока OpenAI начинают раскатывать Operator на Pro юзеров (похоже релиз действительно будет сегодня вечером!), китайская ByteDance подгадала момент и выкатила своего такого же агента в опенсорс

Он называется UI-TARS и вышел под лицензией Apache 2.0 (репозиторий). Основан агент на VLM (есть варианты на 2B, 7B и 72B, вот тут веса), на вход принимает картинки аля кадры экрана, а на выход генерирует человекоподобные действия, то есть движения мыши или нажатия на клавиатуру.

Самое интересное: в агенте есть ризонинг! Его обучали как на простых "интуитивных" сценариях, так и на CoT, так что для сложных задач он может поключать размышление и какое-то подобие планирования. Датасеты там, конечно, огромные, и собранные самими ByteDance.

На бенчмарках выглядит ничего. Учитывая, что Operator, вероятно, будет доступен только за 200 долларов, довольно приятный релиз.

Статья здесь

1,093

Generative Ai

23 Jan, 14:42

🔺 DeepSeek-R1 и DeepSeek-R1-Zero

Как было сказано ранее, модели от китайских исследователей выложены в открытый доступ и показывают результаты на уровне o1.

🔸 Например, в отчете пишут, что модель пробивает рейтинг в 2000 на Codeforces (хорошие соревнования по программированию с довольно сложными задачками), это лучше 96% участников.

🔸 Локальный запуск: запустить эти модели будет непросто из-за их размера, поэтому авторы сделали ряд моделей поменьше, используя дистилляцию. От 1.5B до 70B.

🔸 Попробовать: полная R1 доступна на официальном сайте в режиме DeepThink.

🔸 Приложение: мобильное приложение работает бесплатно, ссылки есть тут.

🔸 Мини-обзор: https://hfday.ru/u/2501.12948.html

891

Generative Ai

20 Jan, 09:46

🖥

Google опубликовали один из лучших официальных гайдов по ИИ-агентам. И его действительно стоит прочитать.

В нем содержится все, что вам нужно знать:
> Описание агентов, компонентов и когнитивных архитектур.
> Разобраны инструменты по работе с агентами: расширения, написании функций и хранилища данных.
> Описываются методы обучения для повышения производительности агентов.
> Описываются методы создания агентов с использованием LangChain и LangGraph

▪ Читать гайд

@ai_machinelearning_big_data

#aiagents #ai #llm #ml #machinelearning

1,056

Generative Ai

17 Jan, 09:04

🎓 Бесплатный сертифицированный курс по агентам от Hugging Face!

- Понимание агентов: Изучение основ работы AI-агентов, включая восприятие окружающей среды, логические рассуждения и выполнение действий.

- Работа с фреймворками: Освоение популярных инструментов, таких как LangChain, LlamaIndex и smolagents, для создания сложного поведения агентов.

- Реальные приложения: Примеры использования агентов для автоматизации SQL-запросов, генерации кода и суммаризации сложных документов.

- Сертификация: Получение сертификата после завершения курса, реализации практического кейса и прохождения итоговой оценки.

Курс предназначен для разработчиков, дата-сайентистов и всех, кто интересуется будущим AI. Начало курса запланировано на февраль.

🔗 [Записаться на курс](https://bit.ly/hf-learn-agents)

1,260

Generative Ai

11 Jan, 07:37

Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Diffusion Transformer Networks

Новое поколение липсинка от Baidu

Работает и с головными уборами.
Анимирует не только лицо но и фон.

Все потому что внутри претрейн Cogvideox-5b-i2v

Код
Веса

#lipsync #talkinghead #humananimation #portraitanimation

1,518

Generative Ai

10 Jan, 20:32

ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

Оценка позы по изображению и по видео

Код
Веса
Демо по картинке
Демо по видео/картинке
Колаб

#poseestimation #image2pose #video2pose

1,388

Generative Ai

10 Jan, 08:47

🎬 TransPixar: генерация видео с прозрачным фоном от Adobe

TransPixar — новый open-source проект, разработанный Adobe, предназначенный для генерации видео с прозрачным фоном. Он построен на основе генератора CogVideoX и позволяет создавать RGBA-видео из текстовых описаний, что особенно полезно для визуальных эффектов и композитинга.

🔗 [GitHub репозиторий](https://github.com/wileewang/TransPixar)

1,326

Generative Ai

07 Jan, 14:00

Cosmos-1.0-Diffusion: A Suite of Diffusion-based World Foundation Models

NVIDIA выпустила семейство видеогенераторов с пониманием физического мира. Они предпочитают о них говорить как о генераторах мира по тексту и изображению.

Хронометра; 121 кадр

Позиционируется для разработчиков, в помощь в симуляции мира.

Лицензия на бесплатное коммерческое использование.

Нужно 80GB VRAM

Дают попробовать!
Примеры видео спрятаны в демо

Гитхаб
Веса
Демо

#text2video #image2video #simulation #text2world #image2world

1,448

Generative Ai

06 Jan, 21:31

🖥

nv-ingest - NVIDIA Ingest

NVIDIA-Ingest - это масштабируемый, ориентированный на высокую производительность микросервис для парсинга неструктурированных документов и метаданных очень большого размера.

Инструмент поддерживает PDF, Word и PowerPoint и использует специализированные микросервисы NVIDIA NIM для поиска, контекстуализации и извлечения текста, таблиц, диаграмм и изображений для использования в генеративных приложениях.

NVIDIA Ingest позволяет распараллелить процесс разбиения документов на страницы, где содержимое классифицируется (как таблицы, диаграммы, изображения, текст), извлекается в дискретный контент и далее контекстуализируется с помощью оптического распознавания символов (OCR) в четко определенную схему JSON.

После этого NVIDIA Ingest может опционально вычислением эмбедингов для извлеченного контента, а также опционально храненииь данные в векторной базе данных Milvus.

📌GitHub
📌Документация

@ai_machinelearning_big_data

#NVIDIA #parsing #embedding

1,277

Generative Ai

06 Jan, 13:04

LatentSync: Audio Conditioned Latent Diffusion Models for Lip Sync

Липсинк от ByteDance.
Двигает губы (и челюсть) под звук речи.
Работает по видео.

первое видео на французском - оригинал, второе на английском - липсинк

Код
Демо
ComfyUI
Попробовать на fal.ai (если есть кредиты)

#lipsync #speech2video #video2video

1,158

Generative Ai

05 Jan, 13:51

Что это за канал и для кого?
Делюсь опытом работы над стартапом SuperDuperAi.co - генератором Ai видеоисторий.
Целюсь сделать из него агента-режиссера для визуализации любой идеи.
Рефлексирую на этом пути, рассказываю новости Ai.
Подробнее

Кто я?
Рустам Салаватов - https://www.linkedin.com/in/rustam-salavatov/
В инстаграм лайфстайл https://instagram.com/life2film
Автор телеграм канала Generative Ai

Я — предприниматель и инженер по искусственному интеллекту, CTO.
10 лет назад LIFE2FILM.com — сервиса для автоматического видео-монтажа и анализа с миллионом пользователей, но сейчас сфокусирован на создание SuperDuperAi.co.
Также работаю CTO в финтех-стартапе Zenpulsar.com

Жили раньше в Башкортостане (РФ), сейчас с семьей живем в Турции (3ий год , получили визу цифрового кочевника), но планирую переезд в США (новости об этом тоже публикую). Моя жена Алина - ведет активно блог про жизнь в Турции @miralinka_life

Также интересуюсь экологией, кино и созданием технологий меняющих мир. Активизм.

Избранные публикации:
* Как открывали компанию в Делавер, США https://t.me/life2film/250
* Как создать своего персонажа https://t.me/life2film/390
* Сравнение image2video генераторов https://t.me/life2film/389
* Будущее ИИ кино от Бена Аффлека https://t.me/life2film/370
* Канал про ИИ фильмы https://t.me/life2film/344
* Грант 150.000$ от Майкрасофт для стартапов https://t.me/life2film/312
* Про РОСТ и ПРОДАЖИ в стартапе https://t.me/life2film/436

Общие темы:
* Что я думаю про фильм Субстанция https://t.me/life2film/360
* GPT ассистент для изучения английского https://t.me/life2film/346
* Тестирование Junior программистов https://t.me/life2film/343
* Как меняется счастье https://t.me/life2film/293
* Кто ты NPC или Герой? https://t.me/life2film/280 и https://t.me/life2film/276

SuperDuperAi посты:

Пример видео для нашего адвайзера https://t.me/life2film/367
Пример рождественнсого видео https://t.me/life2film/386

Тренировка модели на своих фото https://t.me/life2film/411
Статистика по пользователям - 1500 https://t.me/life2film/287

А еще специально для подписчиков канала:
Скидка 19$ https://t.me/life2film/380

Всегда открыт к общению и сотрудничеству.
Ищу сейчас различные Use-case где полезно использовать мой опыт по работе с генеративным ИИ.

1,017

Generative Ai

29 Dec, 13:15

🌟 Google Cloud собрала 321 реальный пример использования GenAI от ведущих мировых компаний.

Большая подборка примеров внедрения генеративного ИИ от ведущих компаний, правительств, исследовательских институтов и стартапов по всему миру. Они демонстрируют, как организации используют ИИ-агентов для повышения производительности, автоматизации процессов и улучшения клиентского опыта, что в итоге приводит к ощутимой отдаче от инвестиций.

▶️ Розничная торговля

🟢Best Buy использует Gemini для создания виртуального ассистента, способного решать проблемы с продуктами и управлять доставками;
🟢BrainLogic использует Claude для персонального ИИ-ассистента Zapia, ориентированного на латиноамериканский рынок;
🟢Carrefour Taiwan разработал AI Sommelier, который помогает клиентам выбирать вино.

▶️ Автоконцерны

🟠Continental интегрировал разговорный ИИ в Smart Cockpit HPC, решение для управления речевыми командами в автомобиле;
🟠General Motors улучшила OnStar с помощью разговорного помощника, который лучше распознают намерения собеседника;
🟠Volkswagen создал виртуального ассистента в приложении myVW, который помогает водителям изучать руководства и задавать вопросы.

▶️ Здравоохранение

🟢Freenome разрабатывает диагностические тесты на основе ИИ для раннего выявления рака;
🟢Orby применяет ИИ и нейротехнологии для реабилитации пациентов.

▶️Финансы

🟠NG Bank разработал чат-бота для поддержки сотрудников, чтобы повысить качество ответов на запросы клиентов.
🟠Scotiabank использует Gemini для персонализации клиентского опыта.

▶️Производство

🟢Motorola использует Gemini и Imagen для улучшения UX/UI смартфонов;
🟢Samsung применяет Gemini Pro и Imagen 2 в Galaxy S24 для обработки текста и редактирования изображений;
🟢ScottsMiracle-Gro создал ИИ-агента для консультаций по садоводству.

▶️ Госсектор

🟠Justicia Lab разрабатывает AI-помощника для упрощения юридических процессов для иммигрантов;
🟠Министерство труда Катара запустило платформу Ouqoul для поиска работы выпускниками-экспатами.

▶️ Медиа

🟢Formula E может создает 2-минутные подкасты на любом языке из двухчасовых комментариев.
🟢Globant разработала Advance Video Search для поиска контента по кадрам.

🔜 Читать полную подборку примеров

@ai_machinelearning_big_data

#ai #ml

1,403

Generative Ai

27 Dec, 13:12

🌟 На GitHub вирусится ScreenPipe — ваш личный ИИ-ассистент, который беспрерывно записывает экран ПК вместе с микрофоном и сохраняет контекст всей (!) вашей цифровой активности.

Нейронка напишет саммари рабочего дня, подведёт итоги созвона, составит логи разработки, ответит на сообщения на основе прошлых переписок и даже продолжит кодить с того места, где вы остановились.

Важно: тулза хранит все данные локально на устройстве и работает без интернета! Джарвис уже лежит тут.

@notboring_tech

1,458

Generative Ai

24 Dec, 06:45

🌟 VidTok: Универсальный токенизатор видео от Microsoft.

VidTok – универсальный и открытый видео токенизатор, демонстрирующий высокую производительность как в непрерывной, так и в дискретной токенизации.

Токенизация видео, преобразующая исходные данные в компактные латентные токены - важнейший шаг для задач генерации и понимания видео. VidTok предлагает ряд улучшений, которые позволяют ему превзойти существующие методы: модельную архитектуру, методы квантования и стратегии обучения.

В архитектуре VidTok пространственное и временное сэмплирование обрабатываются раздельно, используя 2D свертки для пространственных модулей и оператор AlphaBlender для временных, при этом сохраняя 3D свертки для слияния информации.

Для дискретной токенизации используется конечное скалярное квантование (FSQ), которое оптимизирует неявный кодовый словарь, улучшая стабильность обучения. Эффективность обучения достигается двухэтапной стратегией: предварительное обучение на видео с низким разрешением, а затем дообучение декодера на видео с высоким разрешением.

VidTok обучался на датасете видеоданных с разным разрешением (400 000 видео 480p и 10 000 видео 1080p). Производительность измерялась с использованием метрик PSNR, SSIM, LPIPS и FVD, результаты показали превосходство VidTok по сравнению с другими токенизаторами как в дискретной, так и в непрерывной токенизации.

При сравнении с MAGVIT-v2, OmniTokenizer, CV-VAE, Open-Sora и Cosmos-Tokenizer, VidTok достиг лучших показателей, с меньшим размером модели.

▶️ В открытый доступ опубликованы 12 чекпоинтов, расшифровка нейминга:

🟢

vidtok - базовое название;

🟢

kl или fsq - тип регуляризации и квантования латентного пространства;

🟢

causal или noncausal - тип обработки временной информации (покадрово или все кадры сразу);

🟢

488 или 41616 - компрессионное соотношение (VCR), которое определяет степень сжатия видео по времени, высоте и ширине. Например, 4x8x8 и 4x16x16;

🟢

4chn, 8chn или 16chn - количество каналов в латентном пространстве для непрерывных токенизаторов. Чем больше каналов - тем качественней видео;

🟢

262144, 32768 или 4096 - размер codebook для дискретных токенизаторов с использованием FSQ. Чем больше - тем точнее представлятся информация.

▶️Локальная установка и пример запуска как для непрерывной, так и для дискретной токенизации и как для каузальных, так и для некаузальных моделей:

# Clone repo
git clone https://github.com/microsoft/VidTok
cd VidTok

# Create conda env
conda env create -f environment.yaml
conda activate vidtok

# Inference 
import torch
from scripts.inference_evaluate import load_model_from_config

cfg_path = "configs/vidtok_kl_causal_488_4chn.yaml"
ckpt_path = "checkpoints/vidtok_kl_causal_488_4chn.ckpt"
is_causal = True

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")    
# load pre-trained model
model = load_model_from_config(cfg_path, ckpt_path)
model.to(device).eval()
# random input
num_frames = 17 if is_causal else 16
x_input = (torch.rand(1, 3, num_frames, 256, 256) * 2 - 1).to(device)  # [B, C, T, H, W], range -1~1
# model forward
_, x_recon, _ = model(x_input)
assert x_input.shape == x_recon.shape

📌Лицензирование: MIT License.

🟡Набор моделей
🟡Arxiv
🖥GitHub

@ai_machinelearning_big_data

#AI #ML #Microsoft #VidTok

1,440

Generative Ai

20 Dec, 10:58

🎬 LTX VIDEO update 👌

Улучшенная модель и схемы
LTXV 0.9.1

📌 Удаляет артефакты "стробирующей текстуры" и генерирует лучшее движение
📌 Поддержка STG - интегрированная система деградации изображения для улучшенной генерации движения
📌 Улучшенный VAE
📌 Улучшенные подписи изображений для преобразования в видео поток

📎🔥 Модель ltx-video-2b-v0.9.1 СКАЧАТЬ

📎 Clip T5: СКАЧАТЬ
(но можно использовать от flux и sd3)

✅ Схема Image-to-video: ССЫЛКА

✅ Схема Text-to-video: ССЫЛКА

📎 Страница разработчика

🔥 Курс по "ComfyUI"
🔑 Уроки на Boosty

1,110

Generative Ai

18 Dec, 18:32

Руй видео.

Вы будете смеяцца, но у нас новая опенсорсная видео модель. Причем image2video.

Ruyi is an image-to-video model capable of generating cinematic-quality videos at a resolution of 768, with a frame rate of 24 frames per second, totaling 5 seconds and 120 frames. It supports lens control and motion amplitude control. Using a RTX 3090 or RTX 4090, you can generate 512 resolution, 120 frames (or 768 resolution, ~72 frames) videos without any loss of quality.

https://github.com/IamCreateAI/Ruyi-Models

Поддержка видеогенерации в Комфи из коробки.

@p0lygon, что будем делать? Когда все это успеть протестировать?

@cgevent

И очень толково оформленный GitHub:

1,098

Generative Ai

18 Dec, 14:04

⚡️

Новые разработки команды FAIR в области ИИ.

Подразделение FAIR компании Марка Цукерберга представила новые исследовательские результаты, направленные на развитие исследований в ИИ, а их открытая публикация должна способствовать ускорению общего прогресса:

🟢

Motivo - базовая модель для управления виртуальными воплощенными агентами.

Модель обучена с применением нового алгоритма, который позволяет представлять состояния, движения и вознаграждения в едином латентном пространстве. Motivo демонстрирует высокую производительность в сравнении со специализированными методами, превосходит современные подходы неконтролируемого обучения с подкреплением и проявляет устойчивость к изменениям окружающей среды.
🟡Paper 🟡Demo 🟡Github

🟢

Video Seal - система для нанесения водяных знаков на видео.

Метод добавляет незаметные водяные знаки, устойчивые к редактированию и сжатию, чтобы маркировать и отслеживать происхождение сгенерированных видеоматериалов. Video Seal является развитием предыдущей разработки Audio Seal.
🟡Paper 🟡Demo 🟡Github

🟢

Flow Matching - генеративная парадигма для множества модальностей.

Метод, который постепенно заменяет классическую диффузию и повышает производительность и эффективность обобщения при создании изображений, видео, аудио и 3D-структур.
Он уже применяется в продуктах Movie Gen, Audiobox и Melody Flow, а также в Stable-Diffusion-3, Flux, Fold-Flow и Physical Intelligence Pi_0.
🟡Paper 🟡Github

🟢

Explore Theory-of-Mind - техника генерации данных для обучения моделей теории разума.

Этот подход позволяет создавать разнообразные и сложные сценарии для обучения LLM. Экспериментальное применение Explore Theory-of-Mind с Llama-3.1 7B привело к увеличению точности на 27 пунктов на тесте ToMi.
🟡Paper 🟡Github 🟡Dataset

🟢

Large Concept Model (LCM) - метод обучения языковых моделей, который предсказывает не следующий токен, а следующую концепцию.

Основная идея LCM заключается в том, чтобы отделить рассуждения от представления языка, и она вдохновлена тем, как люди могут планировать высокоуровневые мысли для общения. LCM значительно отличается от типичного LLM. Вместо того чтобы предсказывать следующую лексему, LCM обучается предсказывать следующую концепцию или идею высокого уровня, представленную полным предложением в мультимодальном и многоязычном пространстве эмбедингов.
🟡Paper 🟡Github

🟢

Dynamic Byte Latent Transformer - иерархическая модель, работающая с байтами напрямую без токенизации.

DBLT превосходит модели на основе токенизаторов по надежности, в среднем на 7 пунктов, и отлично справляется с обработкой longtail и rare sequences of unseen symbols.
🟡Paper 🟡Github

🟢

Memory Layers – метод масштабирования слоев памяти, повышающий фактологичность моделей.

Метод, который помогает эффективно хранить и извлекать информацию через специальные "слои памяти" без значительного роста вычислительных затрат. Он позволяет моделям работать лучше и точнее на задачах, связанных с фактами.
🟡Paper 🟡Github

🟢

EvalGym - библиотека для оценки text-to-image моделей.

Она позволяет легко использовать воспроизводимые автоматические оценки T2I-моделей и поддерживает настройку с использованием пользовательских метрик, датасетов и визуализаций.
🟡Paper 🟡Github

🟢

CLIP 1.2 - улучшенная версия vision-language энкодера.
🟡Paper 🟡Github 🟡Dataset 🟡Model

@ai_machinelearning_big_data

#AI #ML #FAIR #Digest

838

Generative Ai

17 Dec, 19:51

Что показали сегодня, анонсы в основном для разработчиков:

- O1 модели теперь поддерживают строгие JSON схемы на выходе (и это не повлияет на качество работы модели) и Functions calling (это когда модель должна выбрать какой-то скрипт сама по себе во время ответа), фичи которые давно есть у других моделей OpenAI

- Упомянули «Developers Messages» для O1 — штука, которая позволяет разработчиком «направить» модель в нужную сторону в процессе ответа, что-то вроде второго системного промпта, но слабее

- «Reasoning Effort» — вы теперь можете указать сколько времени O1-модель будет «размышлять» перед тем как ответить, ответы будут лучше, но дороже или можно запретить ей слишком много думать перед ответом пользователю

- O1 API теперь поддерживает картинки на вход

- Advanced Voice Mode API теперь работает с WebRTC, то есть голосового ассистента OpenAI будет проще встраивать на веб-страницы без особых мучений (12 строк кода и готово)

- Наконец-то цены на Advanced Voice Mode API понизили на 60%, и теперь доступна новая, в 10 раз дешевле, mini-аудио моделька

- Показали новый способ файнтюна моделей «Prefence Finetuning» — можно тренировать на парах данных, что нравится и не нравится в ответе модели, доступно с сегодня для gpt4o & gpt4o-mini

- Вышли новые SDK — для Go и для Java

Если честно затянуто немного со всеми этими днями, я бы списком почитал уже, еще 3 дня осталось

659

Generative Ai

10 Dec, 11:27

🎥 Sora: Новая текст-видео AI-модель от OpenAI

OpenAI объявила о запуске Sora — передовой модели для генерации видео по текстовым подсказкам.

### Ключевые особенности Sora
- 📝 Преобразование текста в видео: Модель принимает текстовые описания и генерирует короткие видео с реалистичными и стилизованными визуальными эффектами.
- 🎨 Широкий спектр стилей: Возможность выбора между реалистичными видео, мультяшными стилями и другими творческими визуальными решениями.
- 🔄 Стабильность последовательностей: Алгоритмы оптимизированы для сохранения плавности и логической согласованности движения объектов на видео.
- 🚀 Высокая скорость генерации: Ускоренные вычисления позволяют получать результаты быстрее по сравнению с предыдущими текст-видео моделями.
- 🛠️ Модульная интеграция: Sora легко встраивается в креативные процессы или корпоративные пайплайны благодаря API и гибким настройкам.

### Технологические новшества
Sora использует диффузионные модели нового поколения, которые объединяют высокую скорость генерации с улучшенной визуальной точностью. Для временной стабильности и детализации движения применяются специальные алгоритмы сглаживания динамики.

### Доступ и ограничения
- 🔑 Требуется учетная запись OpenAI: Доступ предоставляется через официальный интерфейс OpenAI (API или веб-платформа).
- 💵 Платный доступ: Модель предполагает коммерческую модель монетизации с оплатой за использование API. Детали тарифов уточняются.
- 🌍 Ограничения по регионам: Sora доступна только в странах, где OpenAI предоставляет свои сервисы.

### Этические рамки
- ⚠️ Контроль контента: Генерация запрещена для создания материалов, нарушающих законы, включая дезинформацию, вредоносный или неприемлемый контент.
- 🔍 Модерация: OpenAI внедрила строгие механизмы модерации, чтобы предотвращать злоупотребления моделью.
- 📜 Соответствие политике: Пользователи обязаны соблюдать политику использования, опубликованную на сайте OpenAI.

### Ограничения по генерации
- 🖼️ Максимальная длина видео: На начальном этапе Sora поддерживает короткие видео (до 30 секунд).

### Использование в бизнесе
Для корпоративных клиентов доступны дополнительные функции:
- 🛠️ Гибкая настройка: Адаптация модели под задачи компании.
- 📑 Лицензионные соглашения: Возможна покупка лицензии на использование модели в крупных проектах.

### Применение
Модель подходит для:
- Создания анимаций и рекламных роликов.
- Образовательных видео и презентаций.
- Прототипирования игровых сцен.
- Генерации контента для социальных сетей и платформ.

https://sora.com/

1,019

Generative Ai

07 Dec, 18:50

🌟 Fish Speech V1.5: модель преобразования текста в речь и клонирования голоса.

Fish Speech - модель генерации TTS обновилась до версии 1.5. Эта версия обучалась на 1 млн.часов мультиязычных аудиоданных и заняла 2 место в бенчмарке TTS-Arena (как "Anonymous Sparkle").

Заявлена задержка <150 мс с высококачественным мгновенным клонированием голоса.

▶️Языковая структура обучающего корпуса версии 1.5:

🟢Английский (en) >300 тыс. часов
🟢Китайский (zh) >300 тыс. часов
🟢Японский (ja) >100 тыс. часов
🟢Немецкий (de) ~20 тыс. часов
🟢Французский (fr) ~20 тыс. часов
🟢Испанский (es) ~20 тыс. часов
🟢Корейский (ko) ~20 тыс. часов
🟢Арабский (ar) ~20 тыс. часов

🟠

Русский (ru) ~20 тыс. часов
🟢Голландский (nl) <10 тыс. часов
🟢Итальянский (it) <10 тыс. часов
🟢Польский (pl) <10 тыс. часов
🟢Португальский (pt) <10 тыс. часов

Fish Speech для локального инференса требует 4Gb GPU и 8 BG GPU для файнтюна. Запуск возможен на MacOS, Linux и Windows в режимах CLI, GUI и WebUI и Docker.

Подробные инструкции по установке, инференсу в различных режимах для каждой платформы, туториал по файнтюну и примеры доступны в документации проекта Fish Speech.

⚠️ Репозиторий на Github еще не обновлен информацией о версии 1.5, а официальное демо от разработчиков поддерживает синтез только на английском, китайском и японском.

📌Лицензирование: CC-BY-NC-SA-4.0 License.

🟡Модель
🟡Demo
🟡Документация
🟡Сообщество в Discord
🖥GitHub

@ai_machinelearning_big_data

#AI #ML #TTS #FIshSpeech

955

Generative Ai

05 Dec, 19:53

🌟 PydanticAI: фреймворк для создания AI-агентов на основе Pydantic.

PydanticAI - фреймворк для Python, созданный командой разработчиков Pydantic, который упрощает создание приложений с использованием LLM. Фреймворк имеет простой и интуитивно понятный интерфейс для взаимодействия с LLMs, поддерживающими Async OpenAI (Ollama) и openAI API (ChatGPT, Gemini и Groq), с поддержкой Anthropic в ближайшем будущем.

Основная особенность PydanticAI - система внедрения зависимостей, которая передает данные, соединения и логику в целевую модель. Она упрощает тестирование и оценку агентов и позволяет динамически формировать системные промпты и определять инструменты, доступные LLM.

PydanticAI имеет возможность потоковой обработки ответов с валидацией структурированных данных, позволяя контролировать корректность соответствие данных ожидаемому ответу, тем самым повышая эффективность и интерактивность приложений.

Для отладки и мониторинга работы агентов предусмотрена интеграция с Pydantic Logfire, с которым можно отслеживать запросы к базам данных, анализировать поведение модели и оценивать производительность.

▶️ В документации к проекту доступны примеры применения PydanticAI в сценариях:

🟢Построение Pydantic-модели на основе текстового ввода;
🟢Погодный агент;
🟢Агент поддержки клиентов банка;
🟢Генерация SQL-запросов на основе пользовательского ввода;
🟢RAG-поиск по массиву markdown-документам;
🟢Вывод результатов работы агента в терминале;
🟢Пример проверки потокового структурированного ответа на примере информации о видах китов;
🟢Простой чат-приложение.

⚠️ PydanticAI находится на ранней стадии бета-тестирования.

▶️Установка и простой пример "Hello Word" с Gemini-1.5-flash:

# Install via  PyPI
pip install pydantic-ai

# Set Gemini API key
export GEMINI_API_KEY=your-api-key

# Run example
from pydantic_ai import Agent
agent = Agent(
    'gemini-1.5-flash',
    system_prompt='Be concise, reply with one sentence.',
)
result = agent.run_sync('Where does "hello world" come from?')
print(result.data)
"""
The first known use of "hello, world" was in a 1974 textbook about the C programming language.
"""

📌Лицензирование: MIT License.

🟡Документация
🟡Demo
🖥GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #Agents #Framework #PydanticAI

883

Generative Ai

03 Dec, 11:52

Hunyuan Video - новый опенсорс 13B видео генератор от Tencent

Качество офигенное, даже для 13B модели, хоть и генерировать может максимум пять секунд. Но, самое главное - доступны веса.

Генерится 129 кадров, что как раз чуть больше 5 сек в 24 fps.

По архитектуре: используют Temporal VAE с 16 каналами и 4x даунсеплингом по времени, то есть это 32 latent frame'а. То есть автоэнкодер не самый навороченный – в других моделях и видео и 128 каналов и более агрессивный даунсемплинг по времени.

Сама модель очень похожа на Flux, где сначала идут two-stream блоки как в SD3, где картиночные и текстовые токены обрабатываются параллельно, а затем идёт серия обычных DiT блоков.

В качестве текстового энкодера используют Clip и Multimodal LLM (llava-llama-3-8b) вместо традиционного T5. Говорят, что с MLLM у них достигается боле качественный prompt alignment.

Чтобы запустить модель нужно минимум 45 гигабайт видеопамяти для 544x960 видео и 60 гигов для 720p. Умельцы явно подкрутят и оптимизируют модельку, так что запуск на консьюмерских видюхах на низком разрешении не исключён.

Статья занятная, стоит прочитать в деталях.

Я пока сам их моделью ничего не генерил, но предполагаю, что одно видео будет генерится минут 10.

Демка (нужен китайский номер)
Веса
Пейпер

@ai_newz

861

Generative Ai

29 Nov, 11:00

есom.teсh meetup — Generative AI

6 декабря 18:00 в Москве пройдёт митап по прикладному использованию генеративных технологий для специалистов по Data Science!

Обсудим технические аспекты экспериментов с нейронными сетями, посмотрим свежие кейсы внедрения ИИ в бигтехе и не только.

В программе:

👁‍🗨 Виртуальная фотосъемка для продавца на маркетплейсе: возможности Gen AI.
Арнольд Сааков, руководитель отдела разработки сервисов искусственного интеллекта в ecom.tеch.

👁‍🗨 От потоковой обработки к генерации: AI-алгоритмы для автоматизации работы с фотографиями товаров на маркетплейсе.
Александр Савельев, руководитель группы развития технологий компьютерного зрения в ecom.tеch;
Татьяна Гришина, менеджер продукта в ecom.tеch.

👁‍🗨 Секретный доклад.

Митап будет интересен тем, кто уже работает или проходит обучение в области Data Science и интересуется генеративными технологиями!

🧠

Регистрируйтесь 👉 https://clc.to/0612_deeplearning_ru?erid=2VSb5z5r5qA и пересылайте знакомым!

Реклама. ООО "УМНОЕ ПРОСТРАНСТВО", ИНН 7811554010, Erid: 2VSb5z5r5qA

407

Generative Ai

28 Nov, 12:15

🎙️ OuteTTS-0.2-500M: обновление TTS-модели с улучшенным клонированием голоса

OuteTTS-0.2-500M — новая версия модели синтеза речи, основанная на Qwen-2.5-0.5B. Обучена на улучшенных датасетах (Emilia-Dataset, LibriTTS-R, Multilingual LibriSpeech) с поддержкой контекста до 4096 токенов (~54 секунды звука).

### Что нового?
🟢 Точность: Более согласованное следование промптам.
🟢 Натуральность: Ещё более естественная и плавная речь.
🟢 Словарь: Тренировка на 5+ млрд аудио-токенов.
🟢 Клонирование голоса: Точность и вариативность улучшены.
🟢 Многоязычность: Поддержка китайского, японского и корейского языков (экспериментально).

https://www.outeai.com/blog/outetts-0.2-500m
https://huggingface.co/OuteAI/OuteTTS-0.2-500M

1,327

Generative Ai

25 Nov, 21:09

🤖 Anthropic предлагает новый способ интеграции данных с AI-чатботами

Компания Anthropic представила метод подключения внешних данных к AI-чатботам, таких как Claude, с упором на приватность и контроль. Эта система позволяет чатботу извлекать данные из подключенных источников (например, корпоративных баз данных или облачных систем), минимизируя риск утечек.

### 🚀 Основные особенности:
- Локальный доступ к данным: данные остаются на стороне пользователя и предоставляются AI только по запросу, что повышает безопасность.
- Гибкая настройка доступа: можно регулировать, какие данные доступны и в каких пределах.
- Обновление информации в реальном времени: чатботы могут работать с актуальными данными, предоставляя пользователям контекстуальные и точные ответы.
- Применение в бизнесе: подходит для автоматизации процессов, поддержки клиентов и работы с конфиденциальной информацией.

Anthropic делает акцент на этичном использовании AI, избегая рисков, связанных с централизованным хранением пользовательских данных.

🔗 [Читать на TechCrunch](https://techcrunch.com/2024/11/25/anthropic-proposes-a-way-to-connect-data-to-ai-chatbots/)

1,424

Generative Ai

22 Nov, 18:05

🚀 LTX Video: генерация видео

Lightricks представили LTX Video (LTXV) — open-source модель для генерации видео, работающую быстрее воспроизведения. В основе технологии — энкодер с коэффициентом сжатия 1:192, обеспечивающий высокую согласованность движения.

### 🔑 Основные характеристики:
- 5 секунд видео (121 кадр, 768x512) за 2.5 секунды (20 шагов диффузии на H100).
- Компактная модель (2B параметров): отличные результаты без массивных архитектур.
- Оптимизация для GPU/TPU с PyTorch XLA.
- Эффективная работа на потребительских GPU (например, RTX 4090).

### 📌 Ресурсы:
- [GitHub](https://github.com/Lightricks/LTX-Video)
- [Hugging Face](https://huggingface.co/Lightricks/LTX-Video)
- [ComfyUI Nodes](https://github.com/Lightricks/ComfyUI-LTXVideo)
- [Playground](https://huggingface.co/spaces/Lightricks/LTX-Video-Playground)

🔗 [Подробнее на сайте Lightricks](https://www.lightricks.com/ltxv)

1,234

Generative Ai

22 Nov, 10:30

🔉 Crisper Whisperer: новая версия Whisper с акцентом на сверхточную транскрипцию речи 🎙️

Crisper Whisperer — это обновлённая модель на базе Whisper Large-V2, оптимизированная для максимальной точности автоматического распознавания речи (ASR). Она выделяется способностью фиксировать даже мельчайшие детали произнесённого текста: вводные слова, паузы, заикания и эмоциональные нюансы.

📌 Особенности
- 🏆 Точность на уровне лидеров рынка: входит в топ открытого ASR-лидерборда Hugging Face.
- 💬 Подробная транскрипция: передаёт все звуковые детали речи, вплоть до междометий.
- 🔧 Фокус на real-world применениях: идеально для задач, где нужна 100% передача смысла (медицина, стенография, юридические записи).
- 📈 Оптимизация под практическое использование: снижены ресурсоёмкость и увеличена стабильность.

🔗 [Модель и чекпоинты](https://huggingface.co/nyrahealth/CrisperWhisper)
🔗 [ASR-лидерборд](https://huggingface.co/spaces/hf-audio/open_asr_leaderboard)

1,134

Generative Ai

22 Nov, 07:26

🚀 Sana: новая модель для генерации 4K-изображений от NVIDIA 🚀

Sana — революционная генеративная модель от NVIDIA, обеспечивающая эффективную генерацию изображений высокого разрешения (до 4K) благодаря инновационной архитектуре.

### 🔑 Ключевые компоненты:
- 🟢 Deep Compression Autoencoder (DC-AE)
Сжимает изображение в 32 раза, минимизируя число латентных токенов. Это ускоряет обучение и делает возможной генерацию изображений сверхвысокого разрешения.

- 🟢 Linear Diffusion Transformer (Linear DiT)
Использует линейное внимание вместо традиционного, ускоряя генерацию 4K-изображений в 1.7 раза. Вместо стандартного MLP-FFN применяет Mix-FFN (свёртка 3x3 и Gated Linear Unit), что позволяет отказаться от позиционного кодирования без потери качества.

- 🟢 Decoder-only Small LLM as Text Encoder
Основан на LLM Gemma, что улучшает интерпретацию текстовых запросов. Точные и понятные описания пользователя преобразуются в реалистичные визуальные результаты.

### 🎨 Почему Sana?
1. Оптимизация генерации: Быстрее, меньше вычислительных затрат, без снижения качества.
2. 4K-графика: Полный контроль над деталями изображения.
3. Интеллектуальный текстовый энкодер: Максимально точный перенос задумки пользователя в изображение.

🔗 [Демо и описание модели Sana](https://nvlabs.github.io/Sana/)

885

Generative Ai

21 Nov, 22:12

💡 ComfyUI: моментальная поддержка FLUX-инструментов 💡

Команда ComfyUI уже внедрила обновления! Теперь пользователи ComfyUI могут легко интегрировать FLUX.1 Fill, Depth, Canny и Redux для улучшения своих рабочих процессов.

### 🔑 Что нового?
- Поддержка FLUX.1 Fill
Расширение возможностей inpainting и outpainting для точного редактирования изображений прямо в интерфейсе ComfyUI.

- Контур и глубина (Depth/Canny)
Используйте FLUX.1 Depth и FLUX.1 Canny для работы с глубинными картами и контурами. Полная интеграция модулей ControlNet позволяет работать с этими инструментами на лету.

- IP-адаптер (FLUX.1 Redux)
Новый уровень контроля стиля и детализации изображения теперь доступен прямо в ComfyUI.

### 🛠️ Преимущества интеграции:
- Удобная настройка инструментов через графический интерфейс ComfyUI.
- Полная поддержка LoRA для глубины и контуров.
- Быстрый старт без необходимости сложной настройки.

С этим обновлением ComfyUI становится еще мощнее для профессиональной генерации изображений!

🔗 [Подробнее о поддержке FLUX в ComfyUI](https://blog.comfy.org/day-1-support-for-flux-tools-in-comfyui/)

573

Generative Ai

21 Nov, 20:22

⚡ FLUX: расширение инструментов для генерации и редактирования изображений ⚡

Black Forest Labs представили

### 🚀 Состав набора:
- FLUX.1 Fill
Инструмент для inpainting и outpainting. Позволяет дополнять или перерисовывать части изображения с высокой точностью.

- FLUX.1 Depth и FLUX.1 Canny
Модули ControlNet для управления глубиной и контурами изображений. Доступны в формате LoRA для легковесной и удобной интеграции.

- FLUX.1 Redux
IP-адаптер, обеспечивающий управление стилем и деталями изображения. Полезен для гибкой кастомизации результатов генерации.

🔗 [Подробнее о FLUX](https://blackforestlabs.ai/flux-1-tools/)
🔗 [Репозиторий на GitHub](https://github.com/black-forest-labs/flux)

587

Generative Ai

20 Nov, 11:53

💡 RAG-Diffusion: Трансформация текста и изображений в сложные сцены

### 🔑 Ключевые особенности
- Референсная генерация: Использует изображения и текстовые подсказки для формирования визуально и концептуально согласованных сцен.
- Фрагментарная композиция: Позволяет указывать различные компоненты сцены отдельно, используя несколько текстовых описаний.
- Точные детали: Высокое качество генерации даже при сложных сценах благодаря кросс-энкодеру для мультимодальной фьюзии.

### 🖥️ Применение
- Генерация контента для фильмов, игр и AR/VR-среды.
- Прототипирование сложных визуальных сценариев для дизайнеров.
- Использование в мультимодальных поисковых системах.

🔗 [GitHub](https://github.com/NJU-PCALab/RAG-Diffusion)

683

Generative Ai

16 Nov, 11:26

Stable Diffusion 3.5 Prompt Guide: создание лучших промптов

Stability AI опубликовала детальное руководство по работе с Stable Diffusion 3.5, которое поможет генерировать более качественные изображения с минимальными усилиями. ✍️

Что внутри:
- Основы создания промптов: как правильно формулировать запросы.
- Примеры для разных стилей: от реализма до сюрреализма.
- Рекомендации по использованию negative prompts для устранения нежелательных элементов.
- Особенности 3.5-версии: улучшенная обработка текстовых описаний и деталей.
- Советы для настройки параметров, таких как CFG Scale, Steps и других.

🔗 [Stable Diffusion 3.5 Prompt Guide](https://stability.ai/learning-hub/stable-diffusion-3-5-prompt-guide?utm_medium)

1,162

Generative Ai

11 Nov, 08:34

📌Руководство по эффективному использованию промптов для LLM от разработчиков из GoogleDeepMind.

Туториал ориентируется на нетехническую аудиторию, которая имеет опыт взаимодействия с большими языковыми моделями.

В первой половине представлены ментальные конструкции природы посттренинга и промптов. Вторая половина содержит более конкретные предписания и высокоуровневую процедуру промпт-инжиниринга.

Авторы, Varun Godbole и Ellie Pavlick подчеркивают, что поиск «идеальной» подсказки — это итеративный процесс, аналогичный настройке модели, который в лучшем случае является эмпирическим, а в худшем - алхимическим.

▶️

Содержание:

🟢Для кого предназначен этот документ?
🟢Зачем нужно это руководство?
🟢Background трейна: предварительная и последующая подготовка
🟢Рекомендации по промптам
🟢Рудиментарное "руководство по стилю" для промптов
🟢Процедура итерации новых системных инструкций
🟢Некоторые мысли о том, когда полезна LLM
🟢Дополнительные ресурсы

📌Лицензирование: Creative Commons Attribution 4.0 International Public License.

🖥GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #Prompt #Github #Tutorial

1,319

Generative Ai

09 Nov, 18:01

🌟 TIPO: Оптимизация текстовых промптов для text-2-image моделей.

TIPO (Text to Image with text presampling for Prompt Optimization) - метод, который улучшает качество и удобство использования моделей text-2-image.

TIPO использует LLM для предварительной обработки текстовых запросов, делая их более точными и информативными. Он воспринимает как промпты на естественном языке , так и формат Danbooru тегов.

Основная идея метода заключается в том, что более детальные и конкретные запросы приводят к более точной генерации изображений, тогда как неконкретные запросы приводят к более широкому спектру, но менее точным результатам.

TIPO генерирует несколько подробных вариантов запроса из одного простого, тем самым расширяя пространство возможных результатов и повышая вероятность получения желаемого изображения.

Представлены 2 модели TIPO, обе построены на базе LLaMA 400M, обученные на наборах Danbooru2023, GBC10M и Coyo-HD-11M с общим числом токенов 30 млррд.

🟢TIPO-200M;

🟢TIPO-500M.

▶️ Использование TIPO доступно в качестве расширения к stable-diffusion-webui, Forge UI и ComfyUI. Все подробности по установке расширений и использованию в ComfyUI можно найти в репозитории проектка Z-TIPO-extension.

📌Лицензирование : Kohaku License 1.0

🟡Коллекция моделей на HF
🟡Arxiv
🟡Demo
🖥GitHub

@ai_machinelearning_big_data

#AI #ML #T2I #TIPO #LLM

1,146

Generative Ai

08 Nov, 15:41

🎥 X-Portrait 2 от ByteDance: анимация статичных изображений с высокой точностью

Что нового
X-Portrait 2 — продвинутая AI-модель от ByteDance, преобразующая статичные портреты в реалистичные анимации, добавляя динамичные выражения лица на основе одного референсного видео. Технология точно захватывает и переносит тончайшие выражения, такие как гримасы, мимика и даже движение языка.

Ключевые возможности
- Анимация с детализированной мимикой: перенос мимики с видео на фото, включая мелкие движения лица.
- Высокая точность движений: распознает и обрабатывает сложные выражения, передавая даже минимальные изменения.
- Поддержка различных стилей: совместима с реалистичными и мультяшными изображениями, что расширяет её использование в анимации и создании виртуальных аватаров.

Применение
Подходит для создания анимации в кино, играх, на платформах вроде TikTok как бесплатная альтернатива платным решениям для аватаров. Доступна на сайте ByteDance.

🔗 [X-Portrait 2](https://byteaigc.github.io/X-Portrait2/)

898

Generative Ai

04 Nov, 10:57

Instructor: Самая популярная библиотека для структурированных выводов LLM

Instructor — это ведущая библиотека Python для работы со структурированными выводами крупных языковых моделей (LLM), с более чем 600,000 загрузками в месяц. Построенная на основе Pydantic, она предлагает простой, понятный и удобный API для управления валидацией, повторами запросов и потоковыми ответами. С этой библиотекой ваши LLM-процессы станут намного эффективнее!

🚀 Основные возможности

* Модели ответов: Определяйте структуру выводов LLM, используя модели Pydantic
* Управление повторами: Легко настройте количество попыток для стабильности запросов
* Валидация: Убедитесь, что ответы LLM соответствуют вашим требованиям
* Поддержка потоков: Работайте с списками и частичными ответами без лишних сложностей
* Гибкие бэкенды: Интегрируйтесь с разными LLM-поставщиками, не ограничиваясь только OpenAI

https://github.com/instructor-ai/instructor

1,396

Generative Ai

04 Nov, 06:43

Для mochi запилили ~~редактор mochi~~ comfyui video2video ноды. Заводится локально на 24гб vram.
До runway далеко, и на длинном контексте скорее всего будет разваливаться, как animatediff/svd
Но начало положено, и если кто-то присобачит туда хаки для длинного контекста, будет и у нас runwayml дома!

Это 480p модель, поэтому работает нормально только с видосами в районе 848х480. Работает через unsampling (ddim inversion).

comfyui mochiedit
comfyui mochiwrapper
models

@derplearning

1,152

Generative Ai

02 Nov, 13:55

🚀 Docling: Мощный инструмент для анализа и преобразования документов 🚀

Docling — это гибкое и удобное решение для парсинга документов с поддержкой множества популярных форматов и легким экспортом в нужный формат. 💡

Основные возможности
🗂️ Поддержка популярных форматов документов (PDF, DOCX, PPTX, изображения, HTML, AsciiDoc, Markdown) с экспортом в Markdown и JSON
📑 Углубленный анализ PDF-документов, включая макет страниц, порядок чтения и таблицы
🧩 Унифицированный и выразительный формат DoclingDocument для представления данных
📝 Извлечение метаданных: заголовок, авторы, ссылки, язык и многое другое
🤖 Интеграция с LlamaIndex 🦙 и LangChain для мощных RAG / QA приложений
🔍 Поддержка OCR для сканированных PDF
💻 Удобный интерфейс CLI

https://github.com/DS4SD/docling

1,289

Generative Ai

02 Nov, 10:52

🌟 Runway запускает The Hundred Film Fund для поддержки фильмов, созданных с помощью ИИ! 🌟

✨ Прекрасные новости для креативных профессионалов: Runway объявил о запуске The Hundred Film Fund — фонд объемом $5M (с возможностью увеличения до $10M) для создания и поддержки 100 фильмов с использованием технологий ИИ. Этот фонд открыт для проектов в различных форматах: полнометражные фильмы, короткометражки, музыкальные клипы, экспериментальные проекты и многое другое. 🎥💡

Подробности о финансировании:

Гранты от $5K до $1M+
Дополнительно $2M в виде кредитов Runway для награжденных проектов
🔹 Присоединяйтесь к лидерам индустрии
🔹 Среди участников консультационного совета – такие уважаемые специалисты, как Джейн Розенталь (Tribeca), Кристина Ли Сторм (Телевизионная академия) и Стефан Зонненфельд (Company 3), которые будут направлять и поддерживать выбранные проекты.

Кристина Ли Сторм поделилась: «Я рада быть в совете, чтобы помочь режиссерам по всему миру исследовать новые методы повествования с инструментами ИИ от Runway».

Вы режиссер, продюсер или сценарист, готовый рассказать новую историю с помощью технологий ИИ? Подавайте заявку

https://runwayml.com/news/hundred-film-fund

929

Generative Ai

02 Nov, 09:51

Runway представила расширенные функции управления камерой в своей модели Gen-3 Alpha Turbo, значительно расширив возможности пользователей по созданию AI-генерированных видео. Теперь доступны точные настройки движений камеры, включая горизонтальные облеты вокруг объектов, динамические зумы и плавные перемещения камеры, что позволяет создавать более захватывающий и кинематографичный контент.

Для эффективного использования этих функций рекомендуется включать подробные инструкции по движению камеры в ваши текстовые запросы. Например, указание таких движений, как "tracking shot", "dolly shot" или "pan shot", поможет AI сгенерировать желаемый визуальный эффект. Кроме того, определение углов съемки, таких как "low angle", "high angle" или "overhead", позволит еще точнее настроить результат.

760

Generative Ai

30 Oct, 18:19

🎬

Новый опенсорс видеогенератор — Allegro.

Он умеет генерировать видео 720p в 15fps, пока только text-2-video. В будущем планируют завезти image-2-video, контроль движений и создание видео на основе раскадровок.

Из плюсов — тут почти нет цензуры, ограничения минимальные, а для установки нужна карта с 9,3 ГБ памяти.

• Подробнее
• Github
• Huggingface

#neural #нейросети

@aiaiai

877

Generative Ai

29 Oct, 18:37

⚡️

Опубликована модель Stable diffusion 3.5 Medium.

Stability AI, следуя своему анонсу, выпустила в открытый доступ младшую text-to-image модель семейства Stable diffusion 3.5 - Medium c 2.6 млрд. параметров.

Модель позиционируется в семействе SD 3.5 как решение для работы на потребительском оборудовании.

SD 3.5 Medium способна генерировать изображения с разрешением от 0.25 до 2 мегапикселей, а для запуска с максимальной производительностью ей требуется всего 9.9 Gb VRAM.

Stable Diffusion 3.5 Medium претерпела ряд изменений в архитектуре (MMDiT-X вместо MMDiT ) и протоколах обучения для корреляции качества с числом параметров, связности и возможности генерации изображений с различным разрешением.

SD 3.5 Medium прошла обучение на разрешениях от 256 до 1440 пикселей.

Текстовые энкодеры не претерпели изменений, остались те же, что и у Stable Diffusion 3.5 Large: OpenCLIP-ViT/G, CLIP-ViT/L и T5-xxl.

Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или или Diffusers.

▶️Локальный запуск инференса на Diffusers:

# install Diffusers
pip install -U diffusers


# Inference
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
    "A happy woman laying on a grass",
    num_inference_steps=28,
    guidance_scale=3.5,
).images[0]
image.save("woman.png")

📌Лицензирование:

🟢Модель доступна под лицензией Stability Community License, которая разрешает бесплатное использование для исследовательских, некоммерческих и коммерческих целей организациями или частными лицами с годовым доходом менее 1 млн. долл. США.

🟠Для получения коммерческой лицензии для организаций с годовым доходом более 1 млн. долл. США необходимо связаться со Stability AI.

🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub

#AI #ML #Diffusion #SD3_5Medium #StabilityAI

868

Generative Ai

27 Oct, 13:44

Тизер sci-fi сериала Azaliia - про роботов клонов.
Дочь хотела стать актрисой, а я режиссером! 😊

А точнее, начинаю серию экспериментов, возможно ли AI Filmmaking с использованием различных новых инструментов с упором на Open Source.

Картинки и история сделаны в сервисе SuperDuperAi.co - используется FLUX для визуализации скрипта и Lora модель для актеров (натренирована на фотографиях дочери).
Потом картинки прогнал через image2video COG в ComfyUI, а для sound design использовал Stable Audio 1.0.

По мере реализации буду выкладывать результаты в канале @life2film.

Рад буду идеям для улучшения или колобрации.

670

Generative Ai

24 Oct, 06:49

🌟 Open-Sora-Plan v1.3.0: воссоздание сервиса генерации text-to-video Sora средствами opensource.

Проект Open-Sora-Plan предлагает набор инструментов и моделей для генерации видео на основе текстовых запросов и решения сопутствующих задач: восстановление и улучшение качества видео, интерполяция кадров и уточнение текстовых описаний.

▶️ Ключевые особенности версии 1.3.0:

🟢Улучшенный вариационный автоэнкодер WF-VAE
Он использует вейвлет-преобразование для разложения видео на поддиапазоны, захватывая информацию в различных частотных областях.

🟢Skiparse (Skip-Sparse) Attention
Методика Skiparse организовывает токены-кандидаты для внимания с помощью двух чередующихся методов пропуска и сбора, сокращая количество операций с плавающей запятой.

🟢Новая стратегия очистки данных
Cостоит из анализа семантической схожести кадров, ОСR для обнаружения субтитров, оценки эстетики и качества видео, анализа движения и повторной оценкb движения с учетом субтитров.
Стратегия позволила сократить датасет Panda70m до 27% от исходного.

🟢Динамическое разрешение и длительность.
Open-Sora-Plan v1.3.0 поддерживает динамическое разрешение и длительность видео, обрабатывая отдельные кадры как изображения.

⚠️ Такое масштабное обновление позволило значительно сократить аппаратные требования инференса и генерировать 93 кадра text-to-video в разрешении 480р на 24 GB VRAM.

▶️ Подробные инструкции по установке, обучению и инференсу в режимах
CausalVideoVAE, Prompt Refiner, Text-to-Video, Image-to-Video доступны в репозитории проекта.

📌Лицензирование: MIT License.

🟡Модель
🟡Сообщество в Discord
🟡Техотчет
🖥GitHub

@ai_machinelearning_big_data

#AI #ML #OpenSora #Text2Video #Image2Video

1,245

Generative Ai

23 Oct, 19:55

Вышел мини-апп agent.exe, который все еще не просто ставится, но который позволяет управлять агенту не виртуальной машиной, а обычной — своей

Вышло забавно, я его запустил и ввел на русском «Найди дешевые билеты в Париж» — модель, видимо, из-за тренировки и языка на котором пришел запрос — сама пошла в Авиасейлс и ввела там место отправки Москва (опять же, модель додумала из-за языка)

Наглядный байас модели на ровном месте и в очередной раз респект СММ-щикам Авиасейлс, которые себя не только в интернете завирусили, но и датасеты Anthropic забили ассоциацией слова «авиабилеты» на русском = Авиасейлс

Редко кто так громко интернет засоряет 😮

P.S. Не ускоряю, чтобы вы скорость видели

P.P.S. Если пропустили, вот тут про то что это такое: https://t.me/denissexy/8867

812

Generative Ai

23 Oct, 07:56

Stable Diffusion 3.5 поддерживается уже в ComfyUI !

Модели:
* Stable Diffusion 3.5 Large: 8 миллиардов параметров, высокое качество изображений, точное следование prompts, 1 мегапиксель.
* Stable Diffusion 3.5 Large Turbo: Ускоренная версия, генерирует изображения за 4 шага.
* Stable Diffusion 3.5 Medium (выпуск 29 октября): 2.6 миллиарда параметров, оптимизирована для потребительского железа, разрешение 0.25–2 мегапикселя.

https://blog.comfy.org/sd3-5-comfyui/
https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/tree/main

802

Generative Ai

23 Oct, 06:58

https://stability.ai/news/introducing-stable-diffusion-3-5

Stability AI выпустила Stable Diffusion 3.5 !!!

Включая Large и Turbo версии, которые работают на потребительском железе.
Модель использует 8 миллиардов параметров для генерации высококачественных изображений с отличным соблюдением prompts и поддерживается на GitHub и Hugging Face.
Важные новшества включают Query-Key Normalization для улучшенной кастомизации, но стоит отметить, что увеличение разнообразия может вызвать вариации при разных seeds.

Модель доступна бесплатно для коммерческого использования до $1M дохода в год под Community License.

752

Generative Ai

22 Oct, 17:35

Introducing Mochi 1 preview. A new SOTA in open-source video generation. Apache 2.0.

Genmo выпустила Mochi 1 — первую open-source модель для генерации видео с текстовых prompts, построенную на архитектуре AsymmDiT с 10 миллиардами параметров. В отличие от закрытых конкурентов, Mochi 1 доступна бесплатно под лицензией Apache 2.0 и фокусируется на улучшении качества движения и точности исполнения запросов. Модель использует video VAE для эффективной компрессии данных, что снижает требования к памяти. Ограничение текущей версии — поддержка только 480p, но скоро ожидается HD-обновление.

https://github.com/genmoai/models

https://www.genmo.ai/

561

Generative Ai

21 Oct, 14:32

Install, Run & Control Terminal apps on Your Computer with 1 Click.

https://pinokio.computer/

613

Generative Ai

19 Oct, 11:41

TANGO - Генерация full-body говорящих видео на основе аудио и образца видео

https://huggingface.co/spaces/H-Liu1997/TANGO

880

Generative Ai

16 Oct, 20:15

Turbo Alignment - файнтюны LLM для народа

Для создания продуктов на основе LLM готовые API часто не подходят. Причин для этого может быть море - как приватность, так и качество генерации. Маленькие затюненные модели часто обгоняют даже SOTA LLM по качеству, но непрофильные команды часто не могут затюнить модельки из-за отсутствия необходимой экспертизы. И хорошо если есть уже готовый пайплайн для каждого этапа работы над LLM в продуктах: SFT, preference tuning, инференс, анализ полученных моделей и др.
Я как раз заметил, что сегодня Т-Банк зарелизил либу Turbo Alignment - это библиотека специально для файнтюна уже готовых моделек с полезными фичами:

➖ Поддержка SFT, DPO, CPO, IPO, KTO и других оффлайн-методов алаймента

➖ Готовые end-to-end пайплайны для тюнинга без написания кода

➖ Multi-GPU и Multi-Node тренировка

➖ Обучение и инференс мультимодальных моделей и RAG

➖ Широкий набор метрик для анализа методов алаймента: Self-BLEU, KL-divergence, diversity и др.

Либа была создана с участием ребят из лаборатории T-Bank AI Research. Говорят, что с такой либой проверять продуктовые и исследовательские гипотезы получится намного быстрее, потому что разработчики библиотеки этот путь прошли на своем опыте уже немало раз. В будущем её ещё будут улучшать - обещают имплементацию RL методов.

https://github.com/turbo-llm/turbo-alignment

@ai_newz

1,090

Generative Ai

16 Oct, 17:48

🌟 Llama-3.1-Nemotron-70B: набор файнтюн-моделей и датасет HelpSteer2 от NVIDIA.

NVIDIA опубликовала на HuggingFace 4 версии Llama-3.1-Nemotron-70B:

▶️ Llama-3.1-Nemotron-70B-Instruct

Модель получила улучшение в задачах ответа на вопросы и выполнение пользовательских инструкций. Обучение проводилось с использованием RLHF (REINFORCE) на основе Llama-3.1-Nemotron-70B-Reward и датасета HelpSteer2-Preference.

Nemotron-70B-Instruct достигла высоких результатов в тестах Arena Hard (85.0), AlpacaEval 2 LC (57.6) и GPT-4-Turbo MT-Bench (8.98), и обошла GPT-4o и Claude 3.5 Sonnet.

🟠Llama-3.1-Nemotron-70B-Instruct-HF

Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.

Квантованные версии Llama-3.1-Nemotron-70B-Instruct-HF в формате GGUF с разрядностями от 1-bit (16.75 Gb) до 8-bit (74.98 Gb).

▶️ Llama-3.1-Nemotron-70B-Reward

Модель с функционалом чата, рассуждений и специальными навыками для оценки качества ответов других LLM. Она использует английский язык и способна оценивать ответы длиной до 4096 токенов, присваивая им баллы, отражающие их качество.

Основана на Llama-3.1-70B-Instruct Base и использует комбинацию методов Bradley Terry и SteerLM Regression Reward Modelling.

Nemotron-70B-Reward занимает первое место в RewardBench.

🟠Llama-3.1-Nemotron-70B-Reward-HF

Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.

Квантованная версия Llama-3.1-Nemotron-70B-Reward-HF в формате MLX (40 Gb).

Вместе с моделями опубликован датасет HelpSteer2 - набор данных на английском языке, предназначенный для обучения reward-моделей, которые используются для повышения полезности, фактической точности и связности ответов других LLM.

HelpSteer2 содержит 21 362 строки, каждая из которых включает в себя запрос, ответ и пять аннотированных человеком атрибутов ответа: полезность, правильность, связность, сложность и многословность.

⚠️ Представленные модели требуют систему с как минимум 4 GPU NVIDIA (40 Gb) или 2 GPU (80 Gb) и 150 Gb свободного места на диске.

⚠️ Для локального развертывания Llama-3.1-Nemotron-70B без поддержки Transformers рекомендуется использовать NVIDIA NeMo Framework и TRT-LLM.

📌Лицензирование моделей: Llama 3.1 Community License.

📌Лицензирование датасета : CC-BY-4.0

🟡Коллекция моделей на HF
🟡Arxiv
🟡Датасет
🟡Demo

@ai_machinelearning_big_data

#AI #ML #LLM #Nemotron #NVIDIA

787

Generative Ai

15 Oct, 20:47

💡 F5-TTS: Прорыв в синтезе речи OpenSource!

Эта модель использует мощь Flow Matching и Diffusion Transformer (DiT), чтобы создавать плавную и выразительную речь с высокой точностью.

🚀 Что особенного в F5-TTS?

* Без сложных механизмов: убирает необходимость в моделях длительности и фоностатической синхронизации.
* Инновационная стратегия Sway Sampling для повышения скорости и точности генерации.
* Мультиязычная поддержка с естественным код-свитчингом.
* Улучшенная производительность: время вывода 0.15 RTF, что быстрее, чем большинство моделей на основе диффузии.

🎯 Ключевые возможности:

* Высокая естественность и выразительность синтезированной речи.
* Возможность нулевого обучения для новых языков.
* Открытый код.

https://swivid.github.io/F5-TTS/

1,143

Generative Ai

15 Oct, 17:16

📃 Open Canvas

Open Canvas — это веб-приложение с открытым исходным кодом для совместной работы с агентами над созданием документов. Проект вдохновлен OpenAI Canvas, но имеет свои отличия:

📂 Открытый код: Весь код приложения доступен по лицензии MIT, включая фронтенд, агенты генерации контента и рефлексии.

🧠 Память: Open Canvas использует встроенного агента рефлексии, который запоминает правила стиля и инсайты пользователя, чтобы сохранять информацию между сессиями.

✒️ Работа с существующими документами: Начните работу с пустого текста или редактора кода на выбранном вами языке, либо используйте уже имеющийся контент для дальнейшего редактирования.

https://github.com/langchain-ai/open-canvas

821

Generative Ai

12 Oct, 09:48

⚡️ OpenAI Swarm: Экспериментальный фреймворк для оркестрации мультиагентных систем.

Swarm - это экспериментальный фреймворк, разработанный командой OpenAI Solutions, для создания, оркестрации и развертывания многоагентных систем. Фреймворк фокусируется на упрощении координации, запуска, контроля и тестирования агентов.

Основная цель Swarm - продемонстрировать паттерны, описанные в Orchestrating Agents: Handoffs & Routines cookbook.

Фреймворк построен на двух основных абстракциях: агентах (Agent) и передачах управления (handoffs):

Агент - это набор инструкций и функций, который может передавать выполнение другим агентам. Его можно использовать для описания конкретного рабочего процесса или шага (например, последовательность шагов, сложный поиск, одноэтапное преобразование данных и так далее).

Передача управления — это процесс, при котором агент может передать запрос другому агенту, возвращая его в функцию. В процессе передачи управления также происходит обновление переменных контекста, что позволяет вернуть более полный объект Result.

▶️

В репозитории собраны функциональные примеры Swarm:

🟢basic - простые примеры настройки, вызова функций, передача данных и контекстные переменные;

🟢traige agent - пример роя с агентом сортировки, который принимает пользовательские данные и решает, ответить ли на запрос напрямую или передать его агенту по продажам или возврату денег;

🟢weather agent - погодный агент с вызовом функций (запрос по городу и отправка на e-mail);

🟢airlines - мультиагентный пример обработки клиентских запросов в контексте авиакомпании (сортировка запросов, изменения рейсов, отмены бронирований и случаи потери багажа);

🟢support_bot - клиентский бот центра поддержки с несколькими инструментами;

🟢personal shopper - пример роя агентов персонального торгового агента, который может помогать совершать покупки и возвращать заказы;

⚠️ Swarm не использует API Assistants и полностью работает на API Chat Completions.

⚠️ Swarm не предназначен для промышленного использования и не имеет официальной поддержки.

▶️ Локальная установка и запуск:

# Install from PIP
pip install git+https://github.com/openai/swarm.git

# Usage
from swarm import Swarm, Agent
client = Swarm()

def transfer_to_agent_b():
    return agent_b

agent_a = Agent(
    name="Agent A",
    instructions="You are a helpful agent.",
    functions=[transfer_to_agent_b],
)

agent_b = Agent(
    name="Agent B",
    instructions="Only speak in Haikus.",
)

response = client.run(
    agent=agent_a,
    messages=[{"role": "user", "content": "I want to talk to agent B."}],
)

print(response.messages[-1]["content"])

📌Лицензирование : MIT License.

🖥GitHub
🟡Orchestrating Agents Cookbook

@ai_machinelearning_big_data

#AI #ML #Agents #OpenAI #Swarm

972

Generative Ai

10 Oct, 07:27

Появилась первая качественная text2video модель с открытым исходным кодом по лицензии MIT - Pyramid Flow SD3. Это диффузионный трансформер с 2 миллиардами параметров, способный создавать 10-секундные видео с разрешением 768p и частотой 24 кадра в секунду.

Основные моменты:

Генерация 10-секундных видео с разрешением 768p и 24 кадрами в секунду.
Единая модель с 2 миллиардами параметров.
Поддержка как текст-видео, так и изображение-видео.
Эффективная тренировка с использованием Flow Matching.
Две версии модели: 384p (5 секунд) и 768p (10 секунд).
Примеры видео доступны на странице проекта.
Простая двухшаговая реализация.
Лицензия MIT, доступно на Hugging Face.
Обучение проводилось только на открытых данных.
Код для обучения будет опубликован в ближайшее время.

https://huggingface.co/rain1011/pyramid-flow-sd3
https://github.com/jy0205/Pyramid-Flow
https://pyramid-flow.github.io/

1,269

Generative Ai

01 Oct, 20:02

Начался OpenAI DevDay.

Уже презентовали prompt caching (50% от цены если вы используете тот же промт для вашего приложения), обновления в API, fine-tuning для 4o моделей (в том числе видео файнтьюн, так что вы теперь можете построить самоуправляемый велосипед на основе GPT).

Самое интересное демо пока что — Realtime API. Фактически это возможность в реальном времени, но задержки, общаться с моделью голосом. На видео несколько впечатляющих демо. Это будет доступно всем разработчикам по цене базовой модели.

Добавили нативную дистилляцию моделей: вы можете сделать более маленькую, дешевую специализированную модель под себя.

Так же OpenAI запустил свой продукт для эвалов (наконец-то!), так что теперь оценивать качество вашего приложения можно будет не по методу пол-палец-потолок, а по уму.

1,775

Generative Ai

30 Sep, 18:33

🎬 Транскрипция, перевод и субтитры для видео.

Subtitler — инструмент, который автоматически сделает транскрипцию вашего видео, переведет его на нужный язык и наложит готовые субтитры.

Работает бесплатно и без регистрации.

• Попробовать
• Github

#neural #нейросети

@aiaiai

1,431

Generative Ai

25 Sep, 11:27

Принес классную ссылку тем кто хотел бы начать разбираться в «агентах» с LLM – агентами называют мини-ботов которые делают какую-то задачу и обладают некой степенью свободы:
https://github.com/NirDiamant/GenAI_Agents

Внутри примеры на все случаи жизни: автоматизация саппорта, чатботы, автоматический поиск в интернете и тп., у всех примеров открыт исходный код

Агента Смита пожалуйста не делайте, спасибо

1,809

Generative Ai

23 Sep, 08:30

Новая версия CogVideoX-5b-I2V для генерации image2video

https://huggingface.co/THUDM/CogVideoX-5b-I2V
Ее подддержка уже добавлена в ComfyUI

https://github.com/kijai/ComfyUI-CogVideoXWrapper

1,796

Generative Ai

19 Sep, 15:33

🖼

Расширяем изображение.

Diffusers Image Outpaint — инструмент, который дорисует недостающие области изображения, расширив его по вертикали или по горизонтали.

Загружаем картинку, выбираем нужное соотношение сторон и жмем Generate.

• Попробовать

#neural #нейросеть

@aiaiai

1,847

Generative Ai

19 Sep, 11:57

🌟 Продвинутые техники RAG: Репозиторий Github c самой полной и актуальной подборкой ресурсов.

RAG-системы - это комбинация информационного поиска и генеративных моделей, целью которая предоставляет точные и контекстуально релевантные ответы на запросы пользователя.

В репозитории собран большой и регулярно обновляемый набор инструментов, документации и обучающих материалов, предназначенных для теоретического изучения и практического применения для желающих расширить свои знания и навыки в изучении возможностей RAG:

Базовые методы RAG:

🟢Простой RAG с использованием LangChain, LlamaIndex или CSV файлов;
🟢RAG с добавлением валидации и уточнения для обеспечения точности и релевантности извлекаемой информации;
🟢Выбор размера фрагмента текста;
🟢Разбивка на чанки для контроля и обработки запросов;

Инженерия запросов:

🟠Трансформация запросов: перефразирование, расширение контекста, декомпозиция на подзапросы;
🟠Гипотетические вопросы для улучшения соответствия между запросами и данными;

Обогащение контекста и содержания:

🟢Контекстуальные заголовки фрагментов для улучшения точности поиска;
🟢Извлечение релевантных сегментов для предоставления LLM более полного контекста;
🟢Расширение контекста с помощью соседних предложений;
🟢Семантическое фрагментирование текста;
🟢Контекстуальная компрессия для сохранения информации при сжатии;
🟢Дополнение документов вопросами для улучшения поиска;

Методы поиска:

🟠Fusion Retrieval;
🟠Intelligent Reranking;
🟠Multi-faceted Filtering;
🟠Hierarchical Indices;
🟠Ensemble Retrieval;
🟠Multi-modal Retrieval;

Итеративные и адаптивные методы:

🟢Retrieval with Feedback Loops;
🟢Adaptive Retrieval;
🟢Iterative Retrieval;

Интерпретируемость:

🟠Explainable Retrieval;

Архитектуры:

🟢Интеграция графа знаний (Graph RAG);
🟢GraphRag (Microsoft);
🟢RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval;
🟢Self RAG;
🟢Corrective RAG.

▶️Практическое применение или изучение техник RAG в проектах:

# Клонируйте репозиторий
git clone https://github.com/NirDiamant/RAG_Techniques.git

#Перейдите к интересующей вас технике
cd all_rag_techniques/technique-name

#Следуйте подробному руководству по применению в каталоге каждой техники.

📌 Лицензирование : Apache 2.0 License.

🟡Сообщество в Discord
🖥Github

@ai_machinelearning_big_data

#AI #ML #RAG #AwesomeRAG #Github

1,347

Generative Ai

16 Sep, 17:08

За последние несколько недель в канал пришли почти 3000 новых подписчиков 🎉 Специально для вас и конечно, тех ниндзя, кто читает нас давно, мы сделали подборку самых полезных постов по теме AI. Читайте, экономьте десятки часов в неделю и делитесь контентом с друзьями.

1. Отобранная вручную подборка лучших AI-инструментов: сервис для написания SEO-статей (уже внедрили на одном из наших европейских проектов и сгенерировали 500+ крутых статей за 3 недели), анализа звонков отдела продаж, умный каскад нейросетей и многое другое. Все отобрано и протестировано нами вручную;

2. Жирнющий процесс по созданию кликабельных и высококонверсионных креативов с конкретными промптами для GPT и примерами готовых баннеров. Must-have в эпоху, когда креатив определяет больше 80% результата ваших рекламных кампаний;

3. Не хватает рук в команде маркетинга? Тогда чекайте пост-инструкцию о том, как создать AI-маркетолога, который будет трудиться на благо вашей компании. Внутри поста инструкции по написанию писем, оптимизации процесса исследований и многое другое;

4. Про поиск высокооплачиваемой работы в международной (и не только) компании с помощью AI.

5. Как оптимизировать 10+ часов в неделю и делегировать написание отчетов, анализ конкурентов, парсинг данных и другую скучную рутину GPT — в этом посте

А уже завтра мы проведем большую онлайн-встречу, где расскажем еще больше того, что накопали за последние недели:
- Расскажем, как создавать еще больше креативов/посадочных при помощи ИИ;
- Попрактикуемся в создании бота маркетолога;
- Разберем еще больше способов оптимизации рутины и искоренения скучных/нудных задач;

Успевай занять место (традиционно их 300 шт) по ➡️ этой ссылке (кликабельно)

Как обычно будет плотный контент и сессия ответов на ваши вопросы. До встречи!

1,115

Generative Ai

15 Sep, 10:01

https://github.com/madcowd/ell

1,136

Generative Ai

15 Sep, 09:56

🌟 LongLLaVA: MMLM, оптимизированная для обработки большого количества изображений.

LongLLaVA - мультимодальная модель, предназначена для разработки приложений, требующих понимания длинных видеороликов, изображений высокого разрешения и сложных мультимодальных сценариев.

В модели применяется гибридная архитектура из комбинации блоков Mamba и Transformer в соотношении 7:1. Для сжатия визуальных данных применяется метод 2D-пулинга, который снижает вычислительные затраты при сохранении производительности.

В процессе обучения применялся трехфазный метод: выравнивание по одному изображению, настройка инструкций по одному изображению и настройка инструкций по нескольким изображениям.

Экспериментальные результаты показали, что LongLLaVA превосходит другие модели с открытым исходным кодом по пониманию в длинном контексте, особенно в задачах поиска, подсчета и упорядочивания.

▶️Технические параметры модели:

🟢Parameters: 53B;
🟢Active parameters: 13B;
🟢Numbers of layers: 24;
🟢Mixture of Experts: 16/Top-2 for each token;
🟢Normalization: RMSNorm;
🟢Attention: Grouped Query Attention;
🟢Activation functions: SwiGLU.

📌Лицензирование : MIT License

🟡Arxiv
🟡Модель
🖥Github

@ai_machinelearning_big_data

#AI #ML #MMLM #LongLLaVA

1,230

Generative Ai

12 Sep, 17:18

OpenAI представила новую языковую модель o1, обученную для сложных рассуждений

Модель o1 превосходит GPT-4o по различным показателям, включая соревновательное программирование, математические олимпиады и вопросы научного уровня PhD

o1 показывает значительные улучшения в задачах, требующих сложных рассуждений, но для мелких задач, где рассуждения не нужны – она не сильно поможет

Будет доступна с сегодня для всех пользователей API и платной подписки

Вот пост анонс:
https://openai.com/index/learning-to-reason-with-llms/

1,044

Generative Ai

10 Sep, 18:09

🌟 VEnhancer: Генеративное улучшение синтезированного видео.

VEnhancer - генеративная система апсемлинга пространственно-временных характеристик, которая улучшает результаты существующих методов преобразования текста в видео путем добавления большего количества деталей в пространственной области и синтетического детализированного движения во временной области.
Он гибко адаптируется к различным коэффициентам апсемплинга в диапазоне 1x~8x.

VEnhancer устраняет артефакты и коллизии движения сгенерированных видео, используя диффузионную модель и дообученные модели ControlNet.

Несколько дней назад VEnhancer получил обновление:

🟢Поддержка длинных видео (путем разбиения видео на несколько фрагментов с перекрытиями);
🟢Быстрая выборка с 15 шагами без потери качества (путем установки --solver_mode 'fast' в команде скрипта);
🟢Использование временного VAE для уменьшения мерцания.

Эксперименты, проведенные во время разработки показывают, что VEnhancer превосходит существующие методы апсемплинга видео и современные методы улучшения синтезированных видео.

⚠️ Для обработки видео в 2K разрешении при fps=>24 требуется около 80 GB VRAM.

Использование VEnhancer возможно через CLI, с помощью GradioUI и в виде неофициальной ноды (WIP) для ComfyUI.

▶️Установка:

# Clone repo
git clone https://github.com/Vchitect/VEnhancer.git
cd VEnhancer

# Create environment
conda create -n venhancer python=3.10
conda activate venhancer

# Install requirments:
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2
pip install -r requirements.txt

▶️Установка пакета ffmpeg:

sudo apt-get update && apt-get install ffmpeg libsm6 libxext6  -y

▶️Инференс с помощью CLI:

bash run_VEnhancer.sh

▶️Инференс с помощью GradioUI:

python gradio_app.py

🟡Страница проекта
🟡Arxiv
🟡Модель
🟡Demo Video
🖥Github [ Stars: 224 | Issues: 8 | Forks: 13]

@ai_machinelearning_big_data

#AI #Text2Video #VEnchancer #ML

1,386

Generative Ai

Generative Ai (Russian)

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai

Generative Ai