Generative Ai @deeplearning_ru Channel on Telegram

Generative Ai

@deeplearning_ru


Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT

По рекламе писать @miralinka,
Created by @life2film

Generative Ai (Russian)

Generative Ai - это Telegram канал, который предлагает анонсы интересных библиотек и принтов в сфере AI, Ml, CV для всех, кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT. Если вы являетесь специалистом в этих областях или просто интересуетесь искусственным интеллектом и машинным обучением, то этот канал станет для вас незаменимым источником информации. На канале можно получить доступ к самым свежим новостям, разработкам и инновациям в мире AI. Администратором канала является @salavatov. По вопросам размещения рекламы необходимо писать @miralinka. Также имеется группа в социальной сети ВКонтакте по адресу https://vk.com/deeplearning_ru. Присоединяйтесь к Generative Ai и будьте в курсе всех событий в области искусственного интеллекта и машинного обучения! Для получения более подробной информации, перейдите по ссылке https://t.me/boost/deeplearn.

Generative Ai

11 Nov, 08:34


📌Руководство по эффективному использованию промптов для LLM от разработчиков из GoogleDeepMind.

Туториал ориентируется на нетехническую аудиторию, которая имеет опыт взаимодействия с большими языковыми моделями.

В первой половине представлены ментальные конструкции природы посттренинга и промптов. Вторая половина содержит более конкретные предписания и высокоуровневую процедуру промпт-инжиниринга.

Авторы, Varun Godbole и Ellie Pavlick подчеркивают, что поиск «идеальной» подсказки — это итеративный процесс, аналогичный настройке модели, который в лучшем случае является эмпирическим, а в худшем - алхимическим.

▶️ Содержание:

🟢Для кого предназначен этот документ?
🟢Зачем нужно это руководство?
🟢Background трейна: предварительная и последующая подготовка
🟢Рекомендации по промптам
🟢Рудиментарное "руководство по стилю" для промптов
🟢Процедура итерации новых системных инструкций
🟢Некоторые мысли о том, когда полезна LLM
🟢Дополнительные ресурсы


📌Лицензирование: Creative Commons Attribution 4.0 International Public License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Prompt #Github #Tutorial

Generative Ai

09 Nov, 18:01


🌟 TIPO: Оптимизация текстовых промптов для text-2-image моделей.

TIPO (Text to Image with text presampling for Prompt Optimization) - метод, который улучшает качество и удобство использования моделей text-2-image.

TIPO использует LLM для предварительной обработки текстовых запросов, делая их более точными и информативными. Он воспринимает как промпты на естественном языке , так и формат Danbooru тегов.

Основная идея метода заключается в том, что более детальные и конкретные запросы приводят к более точной генерации изображений, тогда как неконкретные запросы приводят к более широкому спектру, но менее точным результатам.

TIPO генерирует несколько подробных вариантов запроса из одного простого, тем самым расширяя пространство возможных результатов и повышая вероятность получения желаемого изображения.

Представлены 2 модели TIPO, обе построены на базе LLaMA 400M, обученные на наборах Danbooru2023, GBC10M и Coyo-HD-11M с общим числом токенов 30 млррд.

🟢TIPO-200M;

🟢TIPO-500M.

▶️ Использование TIPO доступно в качестве расширения к stable-diffusion-webui, Forge UI и ComfyUI. Все подробности по установке расширений и использованию в ComfyUI можно найти в репозитории проектка Z-TIPO-extension.


📌Лицензирование : Kohaku License 1.0


🟡Коллекция моделей на HF
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #T2I #TIPO #LLM

Generative Ai

08 Nov, 15:41


🎥 X-Portrait 2 от ByteDance: анимация статичных изображений с высокой точностью

Что нового
X-Portrait 2 — продвинутая AI-модель от ByteDance, преобразующая статичные портреты в реалистичные анимации, добавляя динамичные выражения лица на основе одного референсного видео. Технология точно захватывает и переносит тончайшие выражения, такие как гримасы, мимика и даже движение языка.

Ключевые возможности
- Анимация с детализированной мимикой: перенос мимики с видео на фото, включая мелкие движения лица.
- Высокая точность движений: распознает и обрабатывает сложные выражения, передавая даже минимальные изменения.
- Поддержка различных стилей: совместима с реалистичными и мультяшными изображениями, что расширяет её использование в анимации и создании виртуальных аватаров.

Применение
Подходит для создания анимации в кино, играх, на платформах вроде TikTok как бесплатная альтернатива платным решениям для аватаров. Доступна на сайте ByteDance.

🔗 [X-Portrait 2](https://byteaigc.github.io/X-Portrait2/)

Generative Ai

04 Nov, 10:57


Instructor: Самая популярная библиотека для структурированных выводов LLM

Instructor — это ведущая библиотека Python для работы со структурированными выводами крупных языковых моделей (LLM), с более чем 600,000 загрузками в месяц. Построенная на основе Pydantic, она предлагает простой, понятный и удобный API для управления валидацией, повторами запросов и потоковыми ответами. С этой библиотекой ваши LLM-процессы станут намного эффективнее!

🚀 Основные возможности

* Модели ответов: Определяйте структуру выводов LLM, используя модели Pydantic
* Управление повторами: Легко настройте количество попыток для стабильности запросов
* Валидация: Убедитесь, что ответы LLM соответствуют вашим требованиям
* Поддержка потоков: Работайте с списками и частичными ответами без лишних сложностей
* Гибкие бэкенды: Интегрируйтесь с разными LLM-поставщиками, не ограничиваясь только OpenAI


https://github.com/instructor-ai/instructor

Generative Ai

04 Nov, 06:43


Для mochi запилили редактор mochi comfyui video2video ноды. Заводится локально на 24гб vram.
До runway далеко, и на длинном контексте скорее всего будет разваливаться, как animatediff/svd
Но начало положено, и если кто-то присобачит туда хаки для длинного контекста, будет и у нас runwayml дома!

Это 480p модель, поэтому работает нормально только с видосами в районе 848х480. Работает через unsampling (ddim inversion).

comfyui mochiedit
comfyui mochiwrapper
models

@derplearning

Generative Ai

02 Nov, 13:55


🚀 Docling: Мощный инструмент для анализа и преобразования документов 🚀

Docling — это гибкое и удобное решение для парсинга документов с поддержкой множества популярных форматов и легким экспортом в нужный формат. 💡

Основные возможности
🗂️ Поддержка популярных форматов документов (PDF, DOCX, PPTX, изображения, HTML, AsciiDoc, Markdown) с экспортом в Markdown и JSON
📑 Углубленный анализ PDF-документов, включая макет страниц, порядок чтения и таблицы
🧩 Унифицированный и выразительный формат DoclingDocument для представления данных
📝 Извлечение метаданных: заголовок, авторы, ссылки, язык и многое другое
🤖 Интеграция с LlamaIndex 🦙 и LangChain для мощных RAG / QA приложений
🔍 Поддержка OCR для сканированных PDF
💻 Удобный интерфейс CLI

https://github.com/DS4SD/docling

Generative Ai

02 Nov, 10:52


🌟 Runway запускает The Hundred Film Fund для поддержки фильмов, созданных с помощью ИИ! 🌟

Прекрасные новости для креативных профессионалов: Runway объявил о запуске The Hundred Film Fund — фонд объемом $5M (с возможностью увеличения до $10M) для создания и поддержки 100 фильмов с использованием технологий ИИ. Этот фонд открыт для проектов в различных форматах: полнометражные фильмы, короткометражки, музыкальные клипы, экспериментальные проекты и многое другое. 🎥💡

Подробности о финансировании:

Гранты от $5K до $1M+
Дополнительно $2M в виде кредитов Runway для награжденных проектов
🔹 Присоединяйтесь к лидерам индустрии
🔹 Среди участников консультационного совета – такие уважаемые специалисты, как Джейн Розенталь (Tribeca), Кристина Ли Сторм (Телевизионная академия) и Стефан Зонненфельд (Company 3), которые будут направлять и поддерживать выбранные проекты.

Кристина Ли Сторм поделилась: «Я рада быть в совете, чтобы помочь режиссерам по всему миру исследовать новые методы повествования с инструментами ИИ от Runway».

Вы режиссер, продюсер или сценарист, готовый рассказать новую историю с помощью технологий ИИ? Подавайте заявку

https://runwayml.com/news/hundred-film-fund

Generative Ai

02 Nov, 09:51


Runway представила расширенные функции управления камерой в своей модели Gen-3 Alpha Turbo, значительно расширив возможности пользователей по созданию AI-генерированных видео. Теперь доступны точные настройки движений камеры, включая горизонтальные облеты вокруг объектов, динамические зумы и плавные перемещения камеры, что позволяет создавать более захватывающий и кинематографичный контент.

Для эффективного использования этих функций рекомендуется включать подробные инструкции по движению камеры в ваши текстовые запросы. Например, указание таких движений, как "tracking shot", "dolly shot" или "pan shot", поможет AI сгенерировать желаемый визуальный эффект. Кроме того, определение углов съемки, таких как "low angle", "high angle" или "overhead", позволит еще точнее настроить результат.

Generative Ai

30 Oct, 18:19


🎬 Новый опенсорс видеогенератор — Allegro.

Он умеет генерировать видео 720p в 15fps, пока только text-2-video. В будущем планируют завезти image-2-video, контроль движений и создание видео на основе раскадровок.

Из плюсов — тут почти нет цензуры, ограничения минимальные, а для установки нужна карта с 9,3 ГБ памяти.

• Подробнее
• Github
• Huggingface

#neural #нейросети

@aiaiai

Generative Ai

29 Oct, 18:37


⚡️ Опубликована модель Stable diffusion 3.5 Medium.

Stability AI, следуя своему анонсу, выпустила в открытый доступ младшую text-to-image модель семейства Stable diffusion 3.5 - Medium c 2.6 млрд. параметров.

Модель позиционируется в семействе SD 3.5 как решение для работы на потребительском оборудовании.

SD 3.5 Medium способна генерировать изображения с разрешением от 0.25 до 2 мегапикселей, а для запуска с максимальной производительностью ей требуется всего 9.9 Gb VRAM.

Stable Diffusion 3.5 Medium претерпела ряд изменений в архитектуре (MMDiT-X вместо MMDiT ) и протоколах обучения для корреляции качества с числом параметров, связности и возможности генерации изображений с различным разрешением.

SD 3.5 Medium прошла обучение на разрешениях от 256 до 1440 пикселей.

Текстовые энкодеры не претерпели изменений, остались те же, что и у Stable Diffusion 3.5 Large: OpenCLIP-ViT/G, CLIP-ViT/L и T5-xxl.

Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или или Diffusers.

▶️Локальный запуск инференса на Diffusers:

# install Diffusers
pip install -U diffusers


# Inference
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
"A happy woman laying on a grass",
num_inference_steps=28,
guidance_scale=3.5,
).images[0]
image.save("woman.png")


📌Лицензирование:

🟢Модель доступна под лицензией Stability Community License, которая разрешает бесплатное использование для исследовательских, некоммерческих и коммерческих целей организациями или частными лицами с годовым доходом менее 1 млн. долл. США.

🟠Для получения коммерческой лицензии для организаций с годовым доходом более 1 млн. долл. США необходимо связаться со Stability AI.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub


#AI #ML #Diffusion #SD3_5Medium #StabilityAI

Generative Ai

27 Oct, 13:44


Тизер sci-fi сериала Azaliia - про роботов клонов.
Дочь хотела стать актрисой, а я режиссером! 😊

А точнее, начинаю серию экспериментов, возможно ли AI Filmmaking с использованием различных новых инструментов с упором на Open Source.

Картинки и история сделаны в сервисе SuperDuperAi.co - используется FLUX для визуализации скрипта и Lora модель для актеров (натренирована на фотографиях дочери).
Потом картинки прогнал через image2video COG в ComfyUI, а для sound design использовал Stable Audio 1.0.

По мере реализации буду выкладывать результаты в канале @life2film.

Рад буду идеям для улучшения или колобрации.

Generative Ai

24 Oct, 06:49


🌟 Open-Sora-Plan v1.3.0: воссоздание сервиса генерации text-to-video Sora средствами opensource.

Проект Open-Sora-Plan предлагает набор инструментов и моделей для генерации видео на основе текстовых запросов и решения сопутствующих задач: восстановление и улучшение качества видео, интерполяция кадров и уточнение текстовых описаний.

▶️ Ключевые особенности версии 1.3.0:

🟢Улучшенный вариационный автоэнкодер WF-VAE
Он использует вейвлет-преобразование для разложения видео на поддиапазоны, захватывая информацию в различных частотных областях.

🟢Skiparse (Skip-Sparse) Attention
Методика Skiparse организовывает токены-кандидаты для внимания с помощью двух чередующихся методов пропуска и сбора, сокращая количество операций с плавающей запятой.

🟢Новая стратегия очистки данных
Cостоит из анализа семантической схожести кадров, ОСR для обнаружения субтитров, оценки эстетики и качества видео, анализа движения и повторной оценкb движения с учетом субтитров.
Стратегия позволила сократить датасет Panda70m до 27% от исходного.

🟢Динамическое разрешение и длительность.
Open-Sora-Plan v1.3.0 поддерживает динамическое разрешение и длительность видео, обрабатывая отдельные кадры как изображения.

⚠️ Такое масштабное обновление позволило значительно сократить аппаратные требования инференса и генерировать 93 кадра text-to-video в разрешении 480р на 24 GB VRAM.

▶️ Подробные инструкции по установке, обучению и инференсу в режимах
CausalVideoVAE, Prompt Refiner, Text-to-Video, Image-to-Video доступны в репозитории проекта.


📌Лицензирование: MIT License.


🟡Модель
🟡Сообщество в Discord
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #OpenSora #Text2Video #Image2Video

Generative Ai

23 Oct, 19:55


Вышел мини-апп agent.exe, который все еще не просто ставится, но который позволяет управлять агенту не виртуальной машиной, а обычной — своей

Вышло забавно, я его запустил и ввел на русском «Найди дешевые билеты в Париж» — модель, видимо, из-за тренировки и языка на котором пришел запрос — сама пошла в Авиасейлс и ввела там место отправки Москва (опять же, модель додумала из-за языка)

Наглядный байас модели на ровном месте и в очередной раз респект СММ-щикам Авиасейлс, которые себя не только в интернете завирусили, но и датасеты Anthropic забили ассоциацией слова «авиабилеты» на русском = Авиасейлс

Редко кто так громко интернет засоряет 😮

P.S. Не ускоряю, чтобы вы скорость видели

P.P.S. Если пропустили, вот тут про то что это такое: https://t.me/denissexy/8867

Generative Ai

23 Oct, 07:56


Stable Diffusion 3.5 поддерживается уже в ComfyUI !

Модели:
* Stable Diffusion 3.5 Large: 8 миллиардов параметров, высокое качество изображений, точное следование prompts, 1 мегапиксель.
* Stable Diffusion 3.5 Large Turbo: Ускоренная версия, генерирует изображения за 4 шага.
* Stable Diffusion 3.5 Medium (выпуск 29 октября): 2.6 миллиарда параметров, оптимизирована для потребительского железа, разрешение 0.25–2 мегапикселя.

https://blog.comfy.org/sd3-5-comfyui/
https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/tree/main

Generative Ai

23 Oct, 06:58


https://stability.ai/news/introducing-stable-diffusion-3-5

Stability AI выпустила Stable Diffusion 3.5 !!!

Включая Large и Turbo версии, которые работают на потребительском железе.
Модель использует 8 миллиардов параметров для генерации высококачественных изображений с отличным соблюдением prompts и поддерживается на GitHub и Hugging Face.
Важные новшества включают Query-Key Normalization для улучшенной кастомизации, но стоит отметить, что увеличение разнообразия может вызвать вариации при разных seeds.

Модель доступна бесплатно для коммерческого использования до $1M дохода в год под Community License.

Generative Ai

22 Oct, 17:35


Introducing Mochi 1 preview. A new SOTA in open-source video generation. Apache 2.0.

Genmo выпустила Mochi 1 — первую open-source модель для генерации видео с текстовых prompts, построенную на архитектуре AsymmDiT с 10 миллиардами параметров. В отличие от закрытых конкурентов, Mochi 1 доступна бесплатно под лицензией Apache 2.0 и фокусируется на улучшении качества движения и точности исполнения запросов. Модель использует video VAE для эффективной компрессии данных, что снижает требования к памяти. Ограничение текущей версии — поддержка только 480p, но скоро ожидается HD-обновление.

https://github.com/genmoai/models

https://www.genmo.ai/

Generative Ai

21 Oct, 14:32


Install, Run & Control Terminal apps on Your Computer with 1 Click.

https://pinokio.computer/

Generative Ai

19 Oct, 11:41


TANGO - Генерация full-body говорящих видео на основе аудио и образца видео

https://huggingface.co/spaces/H-Liu1997/TANGO

Generative Ai

16 Oct, 20:15


Turbo Alignment - файнтюны LLM для народа

Для создания продуктов на основе LLM готовые API часто не подходят. Причин для этого может быть море - как приватность, так и качество генерации. Маленькие затюненные модели часто обгоняют даже SOTA LLM по качеству, но непрофильные команды часто не могут затюнить модельки из-за отсутствия необходимой экспертизы. И хорошо если есть уже готовый пайплайн для каждого этапа работы над LLM в продуктах: SFT, preference tuning, инференс, анализ полученных моделей и др.
Я как раз заметил, что сегодня Т-Банк зарелизил либу Turbo Alignment - это библиотека специально для файнтюна уже готовых моделек с полезными фичами:

Поддержка SFT, DPO, CPO, IPO, KTO и других оффлайн-методов алаймента

Готовые end-to-end пайплайны для тюнинга без написания кода

Multi-GPU и Multi-Node тренировка

Обучение и инференс мультимодальных моделей и RAG

Широкий набор метрик для анализа методов алаймента: Self-BLEU, KL-divergence, diversity и др.

Либа была создана с участием ребят из лаборатории T-Bank AI Research. Говорят, что с такой либой проверять продуктовые и исследовательские гипотезы получится намного быстрее, потому что разработчики библиотеки этот путь прошли на своем опыте уже немало раз. В будущем её ещё будут улучшать - обещают имплементацию RL методов.

https://github.com/turbo-llm/turbo-alignment

@ai_newz

Generative Ai

16 Oct, 17:48


🌟 Llama-3.1-Nemotron-70B: набор файнтюн-моделей и датасет HelpSteer2 от NVIDIA.

NVIDIA опубликовала на HuggingFace 4 версии Llama-3.1-Nemotron-70B:

▶️ Llama-3.1-Nemotron-70B-Instruct

Модель получила улучшение в задачах ответа на вопросы и выполнение пользовательских инструкций. Обучение проводилось с использованием RLHF (REINFORCE) на основе Llama-3.1-Nemotron-70B-Reward и датасета HelpSteer2-Preference.

Nemotron-70B-Instruct достигла высоких результатов в тестах Arena Hard (85.0), AlpacaEval 2 LC (57.6) и GPT-4-Turbo MT-Bench (8.98), и обошла GPT-4o и Claude 3.5 Sonnet.

🟠Llama-3.1-Nemotron-70B-Instruct-HF

Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.

Квантованные версии Llama-3.1-Nemotron-70B-Instruct-HF в формате GGUF с разрядностями от 1-bit (16.75 Gb) до 8-bit (74.98 Gb).

▶️ Llama-3.1-Nemotron-70B-Reward

Модель с функционалом чата, рассуждений и специальными навыками для оценки качества ответов других LLM. Она использует английский язык и способна оценивать ответы длиной до 4096 токенов, присваивая им баллы, отражающие их качество.

Основана на Llama-3.1-70B-Instruct Base и использует комбинацию методов Bradley Terry и SteerLM Regression Reward Modelling.

Nemotron-70B-Reward занимает первое место в RewardBench.

🟠Llama-3.1-Nemotron-70B-Reward-HF

Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.

Квантованная версия Llama-3.1-Nemotron-70B-Reward-HF в формате MLX (40 Gb).

Вместе с моделями опубликован датасет HelpSteer2 - набор данных на английском языке, предназначенный для обучения reward-моделей, которые используются для повышения полезности, фактической точности и связности ответов других LLM.

HelpSteer2 содержит 21 362 строки, каждая из которых включает в себя запрос, ответ и пять аннотированных человеком атрибутов ответа: полезность, правильность, связность, сложность и многословность.

⚠️ Представленные модели требуют систему с как минимум 4 GPU NVIDIA (40 Gb) или 2 GPU (80 Gb) и 150 Gb свободного места на диске.

⚠️ Для локального развертывания Llama-3.1-Nemotron-70B без поддержки Transformers рекомендуется использовать NVIDIA NeMo Framework и TRT-LLM.


📌Лицензирование моделей: Llama 3.1 Community License.

📌Лицензирование датасета : CC-BY-4.0


🟡Коллекция моделей на HF
🟡Arxiv
🟡Датасет
🟡Demo


@ai_machinelearning_big_data

#AI #ML #LLM #Nemotron #NVIDIA

Generative Ai

15 Oct, 20:47


💡 F5-TTS: Прорыв в синтезе речи OpenSource!

Эта модель использует мощь Flow Matching и Diffusion Transformer (DiT), чтобы создавать плавную и выразительную речь с высокой точностью.

🚀 Что особенного в F5-TTS?

* Без сложных механизмов: убирает необходимость в моделях длительности и фоностатической синхронизации.
* Инновационная стратегия Sway Sampling для повышения скорости и точности генерации.
* Мультиязычная поддержка с естественным код-свитчингом.
* Улучшенная производительность: время вывода 0.15 RTF, что быстрее, чем большинство моделей на основе диффузии.

🎯 Ключевые возможности:

* Высокая естественность и выразительность синтезированной речи.
* Возможность нулевого обучения для новых языков.
* Открытый код.

https://swivid.github.io/F5-TTS/

Generative Ai

15 Oct, 17:16


📃 Open Canvas

Open Canvas — это веб-приложение с открытым исходным кодом для совместной работы с агентами над созданием документов. Проект вдохновлен OpenAI Canvas, но имеет свои отличия:

📂 Открытый код: Весь код приложения доступен по лицензии MIT, включая фронтенд, агенты генерации контента и рефлексии.

🧠 Память: Open Canvas использует встроенного агента рефлексии, который запоминает правила стиля и инсайты пользователя, чтобы сохранять информацию между сессиями.

✒️ Работа с существующими документами: Начните работу с пустого текста или редактора кода на выбранном вами языке, либо используйте уже имеющийся контент для дальнейшего редактирования.

https://github.com/langchain-ai/open-canvas

Generative Ai

12 Oct, 09:48


⚡️ OpenAI Swarm: Экспериментальный фреймворк для оркестрации мультиагентных систем.

Swarm - это экспериментальный фреймворк, разработанный командой OpenAI Solutions, для создания, оркестрации и развертывания многоагентных систем. Фреймворк фокусируется на упрощении координации, запуска, контроля и тестирования агентов.

Основная цель Swarm - продемонстрировать паттерны, описанные в Orchestrating Agents: Handoffs & Routines cookbook.

Фреймворк построен на двух основных абстракциях: агентах (Agent) и передачах управления (handoffs):

Агент - это набор инструкций и функций, который может передавать выполнение другим агентам. Его можно использовать для описания конкретного рабочего процесса или шага (например, последовательность шагов, сложный поиск, одноэтапное преобразование данных и так далее).

Передача управления — это процесс, при котором агент может передать запрос другому агенту, возвращая его в функцию. В процессе передачи управления также происходит обновление переменных контекста, что позволяет вернуть более полный объект Result.

▶️В репозитории собраны функциональные примеры Swarm:

🟢basic - простые примеры настройки, вызова функций, передача данных и контекстные переменные;

🟢traige agent - пример роя с агентом сортировки, который принимает пользовательские данные и решает, ответить ли на запрос напрямую или передать его агенту по продажам или возврату денег;

🟢weather agent - погодный агент с вызовом функций (запрос по городу и отправка на e-mail);

🟢airlines - мультиагентный пример обработки клиентских запросов в контексте авиакомпании (сортировка запросов, изменения рейсов, отмены бронирований и случаи потери багажа);

🟢support_bot - клиентский бот центра поддержки с несколькими инструментами;

🟢personal shopper - пример роя агентов персонального торгового агента, который может помогать совершать покупки и возвращать заказы;

⚠️ Swarm не использует API Assistants и полностью работает на API Chat Completions.

⚠️ Swarm не предназначен для промышленного использования и не имеет официальной поддержки.

▶️ Локальная установка и запуск:

# Install from PIP
pip install git+https://github.com/openai/swarm.git

# Usage
from swarm import Swarm, Agent
client = Swarm()

def transfer_to_agent_b():
return agent_b

agent_a = Agent(
name="Agent A",
instructions="You are a helpful agent.",
functions=[transfer_to_agent_b],
)

agent_b = Agent(
name="Agent B",
instructions="Only speak in Haikus.",
)

response = client.run(
agent=agent_a,
messages=[{"role": "user", "content": "I want to talk to agent B."}],
)

print(response.messages[-1]["content"])


📌Лицензирование : MIT License.


🖥GitHub
🟡Orchestrating Agents Cookbook


@ai_machinelearning_big_data

#AI #ML #Agents #OpenAI #Swarm

Generative Ai

10 Oct, 07:27


Появилась первая качественная text2video модель с открытым исходным кодом по лицензии MIT - Pyramid Flow SD3. Это диффузионный трансформер с 2 миллиардами параметров, способный создавать 10-секундные видео с разрешением 768p и частотой 24 кадра в секунду.

Основные моменты:

Генерация 10-секундных видео с разрешением 768p и 24 кадрами в секунду.
Единая модель с 2 миллиардами параметров.
Поддержка как текст-видео, так и изображение-видео.
Эффективная тренировка с использованием Flow Matching.
Две версии модели: 384p (5 секунд) и 768p (10 секунд).
Примеры видео доступны на странице проекта.
Простая двухшаговая реализация.
Лицензия MIT, доступно на Hugging Face.
Обучение проводилось только на открытых данных.
Код для обучения будет опубликован в ближайшее время.

https://huggingface.co/rain1011/pyramid-flow-sd3
https://github.com/jy0205/Pyramid-Flow
https://pyramid-flow.github.io/

Generative Ai

01 Oct, 20:02


Начался OpenAI DevDay.

Уже презентовали prompt caching (50% от цены если вы используете тот же промт для вашего приложения), обновления в API, fine-tuning для 4o моделей (в том числе видео файнтьюн, так что вы теперь можете построить самоуправляемый велосипед на основе GPT).

Самое интересное демо пока что — Realtime API. Фактически это возможность в реальном времени, но задержки, общаться с моделью голосом. На видео несколько впечатляющих демо. Это будет доступно всем разработчикам по цене базовой модели.

Добавили нативную дистилляцию моделей: вы можете сделать более маленькую, дешевую специализированную модель под себя.

Так же OpenAI запустил свой продукт для эвалов (наконец-то!), так что теперь оценивать качество вашего приложения можно будет не по методу пол-палец-потолок, а по уму.

Generative Ai

30 Sep, 18:33


🎬 Транскрипция, перевод и субтитры для видео.

Subtitler — инструмент, который автоматически сделает транскрипцию вашего видео, переведет его на нужный язык и наложит готовые субтитры.

Работает бесплатно и без регистрации.

• Попробовать
• Github

#neural #нейросети

@aiaiai

Generative Ai

25 Sep, 11:27


Принес классную ссылку тем кто хотел бы начать разбираться в «агентах» с LLM – агентами называют мини-ботов которые делают какую-то задачу и обладают некой степенью свободы:
https://github.com/NirDiamant/GenAI_Agents

Внутри примеры на все случаи жизни: автоматизация саппорта, чатботы, автоматический поиск в интернете и тп., у всех примеров открыт исходный код

Агента Смита пожалуйста не делайте, спасибо

Generative Ai

23 Sep, 08:30


Новая версия CogVideoX-5b-I2V для генерации image2video

https://huggingface.co/THUDM/CogVideoX-5b-I2V
Ее подддержка уже добавлена в ComfyUI

https://github.com/kijai/ComfyUI-CogVideoXWrapper

Generative Ai

19 Sep, 15:33


🖼 Расширяем изображение.

Diffusers Image Outpaint — инструмент, который дорисует недостающие области изображения, расширив его по вертикали или по горизонтали.

Загружаем картинку, выбираем нужное соотношение сторон и жмем Generate.

• Попробовать

#neural #нейросеть

@aiaiai

Generative Ai

19 Sep, 11:57


🌟 Продвинутые техники RAG: Репозиторий Github c самой полной и актуальной подборкой ресурсов.

RAG-системы - это комбинация информационного поиска и генеративных моделей, целью которая предоставляет точные и контекстуально релевантные ответы на запросы пользователя.

В репозитории собран большой и регулярно обновляемый набор инструментов, документации и обучающих материалов, предназначенных для теоретического изучения и практического применения для желающих расширить свои знания и навыки в изучении возможностей RAG:

Базовые методы RAG:

🟢Простой RAG с использованием LangChain, LlamaIndex или CSV файлов;
🟢RAG с добавлением валидации и уточнения для обеспечения точности и релевантности извлекаемой информации;
🟢Выбор размера фрагмента текста;
🟢Разбивка на чанки для контроля и обработки запросов;

Инженерия запросов:

🟠Трансформация запросов: перефразирование, расширение контекста, декомпозиция на подзапросы;
🟠Гипотетические вопросы для улучшения соответствия между запросами и данными;

Обогащение контекста и содержания:

🟢Контекстуальные заголовки фрагментов для улучшения точности поиска;
🟢Извлечение релевантных сегментов для предоставления LLM более полного контекста;
🟢Расширение контекста с помощью соседних предложений;
🟢Семантическое фрагментирование текста;
🟢Контекстуальная компрессия для сохранения информации при сжатии;
🟢Дополнение документов вопросами для улучшения поиска;

Методы поиска:

🟠Fusion Retrieval;
🟠Intelligent Reranking;
🟠Multi-faceted Filtering;
🟠Hierarchical Indices;
🟠Ensemble Retrieval;
🟠Multi-modal Retrieval;

Итеративные и адаптивные методы:

🟢Retrieval with Feedback Loops;
🟢Adaptive Retrieval;
🟢Iterative Retrieval;

Интерпретируемость:

🟠Explainable Retrieval;

Архитектуры:

🟢Интеграция графа знаний (Graph RAG);
🟢GraphRag (Microsoft);
🟢RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval;
🟢Self RAG;
🟢Corrective RAG.

▶️Практическое применение или изучение техник RAG в проектах:

# Клонируйте репозиторий
git clone https://github.com/NirDiamant/RAG_Techniques.git

#Перейдите к интересующей вас технике
cd all_rag_techniques/technique-name

#Следуйте подробному руководству по применению в каталоге каждой техники.


📌 Лицензирование : Apache 2.0 License.


🟡Сообщество в Discord
🖥Github


@ai_machinelearning_big_data

#AI #ML #RAG #AwesomeRAG #Github

Generative Ai

16 Sep, 17:08


За последние несколько недель в канал пришли почти 3000 новых подписчиков 🎉 Специально для вас и конечно, тех ниндзя, кто читает нас давно, мы сделали подборку самых полезных постов по теме AI. Читайте, экономьте десятки часов в неделю и делитесь контентом с друзьями.

1. Отобранная вручную подборка лучших AI-инструментов: сервис для написания SEO-статей (уже внедрили на одном из наших европейских проектов и сгенерировали 500+ крутых статей за 3 недели), анализа звонков отдела продаж, умный каскад нейросетей и многое другое. Все отобрано и протестировано нами вручную;

2. Жирнющий процесс по созданию кликабельных и высококонверсионных креативов с конкретными промптами для GPT и примерами готовых баннеров. Must-have в эпоху, когда креатив определяет больше 80% результата ваших рекламных кампаний;

3. Не хватает рук в команде маркетинга? Тогда чекайте пост-инструкцию о том, как создать AI-маркетолога, который будет трудиться на благо вашей компании. Внутри поста инструкции по написанию писем, оптимизации процесса исследований и многое другое;

4. Про поиск высокооплачиваемой работы в международной (и не только) компании с помощью AI.

5. Как оптимизировать 10+ часов в неделю и делегировать написание отчетов, анализ конкурентов, парсинг данных и другую скучную рутину GPT — в этом посте

А уже завтра мы проведем большую онлайн-встречу, где расскажем еще больше того, что накопали за последние недели:
- Расскажем, как создавать еще больше креативов/посадочных при помощи ИИ;
- Попрактикуемся в создании бота маркетолога;
- Разберем еще больше способов оптимизации рутины и искоренения скучных/нудных задач;

Успевай занять место (традиционно их 300 шт) по ➡️ этой ссылке (кликабельно)

Как обычно будет плотный контент и сессия ответов на ваши вопросы. До встречи!

Generative Ai

15 Sep, 10:01


https://github.com/madcowd/ell

Generative Ai

15 Sep, 09:56


🌟 LongLLaVA: MMLM, оптимизированная для обработки большого количества изображений.

LongLLaVA - мультимодальная модель, предназначена для разработки приложений, требующих понимания длинных видеороликов, изображений высокого разрешения и сложных мультимодальных сценариев.

В модели применяется гибридная архитектура из комбинации блоков Mamba и Transformer в соотношении 7:1. Для сжатия визуальных данных применяется метод 2D-пулинга, который снижает вычислительные затраты при сохранении производительности.

В процессе обучения применялся трехфазный метод: выравнивание по одному изображению, настройка инструкций по одному изображению и настройка инструкций по нескольким изображениям.

Экспериментальные результаты показали, что LongLLaVA превосходит другие модели с открытым исходным кодом по пониманию в длинном контексте, особенно в задачах поиска, подсчета и упорядочивания.

▶️Технические параметры модели:

🟢Parameters: 53B;
🟢Active parameters: 13B;
🟢Numbers of layers: 24;
🟢Mixture of Experts: 16/Top-2 for each token;
🟢Normalization: RMSNorm;
🟢Attention: Grouped Query Attention;
🟢Activation functions: SwiGLU.


📌Лицензирование : MIT License


🟡Arxiv
🟡Модель
🖥Github


@ai_machinelearning_big_data

#AI #ML #MMLM #LongLLaVA

Generative Ai

12 Sep, 17:18


OpenAI представила новую языковую модель o1, обученную для сложных рассуждений

Модель o1 превосходит GPT-4o по различным показателям, включая соревновательное программирование, математические олимпиады и вопросы научного уровня PhD

o1 показывает значительные улучшения в задачах, требующих сложных рассуждений, но для мелких задач, где рассуждения не нужны – она не сильно поможет

Будет доступна с сегодня для всех пользователей API и платной подписки

Вот пост анонс:
https://openai.com/index/learning-to-reason-with-llms/

Generative Ai

10 Sep, 18:09


🌟 VEnhancer: Генеративное улучшение синтезированного видео.

VEnhancer - генеративная система апсемлинга пространственно-временных характеристик, которая улучшает результаты существующих методов преобразования текста в видео путем добавления большего количества деталей в пространственной области и синтетического детализированного движения во временной области.
Он гибко адаптируется к различным коэффициентам апсемплинга в диапазоне 1x~8x.

VEnhancer устраняет артефакты и коллизии движения сгенерированных видео, используя диффузионную модель и дообученные модели ControlNet.

Несколько дней назад VEnhancer получил обновление:

🟢Поддержка длинных видео (путем разбиения видео на несколько фрагментов с перекрытиями);
🟢Быстрая выборка с 15 шагами без потери качества (путем установки --solver_mode 'fast' в команде скрипта);
🟢Использование временного VAE для уменьшения мерцания.

Эксперименты, проведенные во время разработки показывают, что VEnhancer превосходит существующие методы апсемплинга видео и современные методы улучшения синтезированных видео.

⚠️ Для обработки видео в 2K разрешении при fps=>24 требуется около 80 GB VRAM.

Использование VEnhancer возможно через CLI, с помощью GradioUI и в виде неофициальной ноды (WIP) для ComfyUI.

▶️Установка:

# Clone repo
git clone https://github.com/Vchitect/VEnhancer.git
cd VEnhancer

# Create environment
conda create -n venhancer python=3.10
conda activate venhancer

# Install requirments:
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2
pip install -r requirements.txt


▶️Установка пакета ffmpeg:

sudo apt-get update && apt-get install ffmpeg libsm6 libxext6  -y


▶️Инференс с помощью CLI:

bash run_VEnhancer.sh


▶️Инференс с помощью GradioUI:

python gradio_app.py



🟡Страница проекта
🟡Arxiv
🟡Модель
🟡Demo Video
🖥Github [ Stars: 224 | Issues: 8 | Forks: 13]


@ai_machinelearning_big_data

#AI #Text2Video #VEnchancer #ML