Generative Ai

@deeplearning_ru


Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT

По рекламе писать @miralinka,
Admin @salavatov
Группа в ВК https://vk.com/deeplearning_ru

https://t.me/boost/deeplearn

Generative Ai

23 Oct, 07:56


Stable Diffusion 3.5 поддерживается уже в ComfyUI !

Модели:
* Stable Diffusion 3.5 Large: 8 миллиардов параметров, высокое качество изображений, точное следование prompts, 1 мегапиксель.
* Stable Diffusion 3.5 Large Turbo: Ускоренная версия, генерирует изображения за 4 шага.
* Stable Diffusion 3.5 Medium (выпуск 29 октября): 2.6 миллиарда параметров, оптимизирована для потребительского железа, разрешение 0.25–2 мегапикселя.

https://blog.comfy.org/sd3-5-comfyui/
https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/tree/main

Generative Ai

23 Oct, 06:58


https://stability.ai/news/introducing-stable-diffusion-3-5

Stability AI выпустила Stable Diffusion 3.5 !!!

Включая Large и Turbo версии, которые работают на потребительском железе.
Модель использует 8 миллиардов параметров для генерации высококачественных изображений с отличным соблюдением prompts и поддерживается на GitHub и Hugging Face.
Важные новшества включают Query-Key Normalization для улучшенной кастомизации, но стоит отметить, что увеличение разнообразия может вызвать вариации при разных seeds.

Модель доступна бесплатно для коммерческого использования до $1M дохода в год под Community License.

Generative Ai

22 Oct, 17:35


Introducing Mochi 1 preview. A new SOTA in open-source video generation. Apache 2.0.

Genmo выпустила Mochi 1 — первую open-source модель для генерации видео с текстовых prompts, построенную на архитектуре AsymmDiT с 10 миллиардами параметров. В отличие от закрытых конкурентов, Mochi 1 доступна бесплатно под лицензией Apache 2.0 и фокусируется на улучшении качества движения и точности исполнения запросов. Модель использует video VAE для эффективной компрессии данных, что снижает требования к памяти. Ограничение текущей версии — поддержка только 480p, но скоро ожидается HD-обновление.

https://github.com/genmoai/models

https://www.genmo.ai/

Generative Ai

21 Oct, 14:32


Install, Run & Control Terminal apps on Your Computer with 1 Click.

https://pinokio.computer/

Generative Ai

19 Oct, 11:41


TANGO - Генерация full-body говорящих видео на основе аудио и образца видео

https://huggingface.co/spaces/H-Liu1997/TANGO

Generative Ai

16 Oct, 20:15


Turbo Alignment - файнтюны LLM для народа

Для создания продуктов на основе LLM готовые API часто не подходят. Причин для этого может быть море - как приватность, так и качество генерации. Маленькие затюненные модели часто обгоняют даже SOTA LLM по качеству, но непрофильные команды часто не могут затюнить модельки из-за отсутствия необходимой экспертизы. И хорошо если есть уже готовый пайплайн для каждого этапа работы над LLM в продуктах: SFT, preference tuning, инференс, анализ полученных моделей и др.
Я как раз заметил, что сегодня Т-Банк зарелизил либу Turbo Alignment - это библиотека специально для файнтюна уже готовых моделек с полезными фичами:

Поддержка SFT, DPO, CPO, IPO, KTO и других оффлайн-методов алаймента

Готовые end-to-end пайплайны для тюнинга без написания кода

Multi-GPU и Multi-Node тренировка

Обучение и инференс мультимодальных моделей и RAG

Широкий набор метрик для анализа методов алаймента: Self-BLEU, KL-divergence, diversity и др.

Либа была создана с участием ребят из лаборатории T-Bank AI Research. Говорят, что с такой либой проверять продуктовые и исследовательские гипотезы получится намного быстрее, потому что разработчики библиотеки этот путь прошли на своем опыте уже немало раз. В будущем её ещё будут улучшать - обещают имплементацию RL методов.

https://github.com/turbo-llm/turbo-alignment

@ai_newz

Generative Ai

16 Oct, 17:48


🌟 Llama-3.1-Nemotron-70B: набор файнтюн-моделей и датасет HelpSteer2 от NVIDIA.

NVIDIA опубликовала на HuggingFace 4 версии Llama-3.1-Nemotron-70B:

▶️ Llama-3.1-Nemotron-70B-Instruct

Модель получила улучшение в задачах ответа на вопросы и выполнение пользовательских инструкций. Обучение проводилось с использованием RLHF (REINFORCE) на основе Llama-3.1-Nemotron-70B-Reward и датасета HelpSteer2-Preference.

Nemotron-70B-Instruct достигла высоких результатов в тестах Arena Hard (85.0), AlpacaEval 2 LC (57.6) и GPT-4-Turbo MT-Bench (8.98), и обошла GPT-4o и Claude 3.5 Sonnet.

🟠Llama-3.1-Nemotron-70B-Instruct-HF

Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.

Квантованные версии Llama-3.1-Nemotron-70B-Instruct-HF в формате GGUF с разрядностями от 1-bit (16.75 Gb) до 8-bit (74.98 Gb).

▶️ Llama-3.1-Nemotron-70B-Reward

Модель с функционалом чата, рассуждений и специальными навыками для оценки качества ответов других LLM. Она использует английский язык и способна оценивать ответы длиной до 4096 токенов, присваивая им баллы, отражающие их качество.

Основана на Llama-3.1-70B-Instruct Base и использует комбинацию методов Bradley Terry и SteerLM Regression Reward Modelling.

Nemotron-70B-Reward занимает первое место в RewardBench.

🟠Llama-3.1-Nemotron-70B-Reward-HF

Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.

Квантованная версия Llama-3.1-Nemotron-70B-Reward-HF в формате MLX (40 Gb).

Вместе с моделями опубликован датасет HelpSteer2 - набор данных на английском языке, предназначенный для обучения reward-моделей, которые используются для повышения полезности, фактической точности и связности ответов других LLM.

HelpSteer2 содержит 21 362 строки, каждая из которых включает в себя запрос, ответ и пять аннотированных человеком атрибутов ответа: полезность, правильность, связность, сложность и многословность.

⚠️ Представленные модели требуют систему с как минимум 4 GPU NVIDIA (40 Gb) или 2 GPU (80 Gb) и 150 Gb свободного места на диске.

⚠️ Для локального развертывания Llama-3.1-Nemotron-70B без поддержки Transformers рекомендуется использовать NVIDIA NeMo Framework и TRT-LLM.


📌Лицензирование моделей: Llama 3.1 Community License.

📌Лицензирование датасета : CC-BY-4.0


🟡Коллекция моделей на HF
🟡Arxiv
🟡Датасет
🟡Demo


@ai_machinelearning_big_data

#AI #ML #LLM #Nemotron #NVIDIA

Generative Ai

15 Oct, 20:47


💡 F5-TTS: Прорыв в синтезе речи OpenSource!

Эта модель использует мощь Flow Matching и Diffusion Transformer (DiT), чтобы создавать плавную и выразительную речь с высокой точностью.

🚀 Что особенного в F5-TTS?

* Без сложных механизмов: убирает необходимость в моделях длительности и фоностатической синхронизации.
* Инновационная стратегия Sway Sampling для повышения скорости и точности генерации.
* Мультиязычная поддержка с естественным код-свитчингом.
* Улучшенная производительность: время вывода 0.15 RTF, что быстрее, чем большинство моделей на основе диффузии.

🎯 Ключевые возможности:

* Высокая естественность и выразительность синтезированной речи.
* Возможность нулевого обучения для новых языков.
* Открытый код.

https://swivid.github.io/F5-TTS/

Generative Ai

15 Oct, 17:16


📃 Open Canvas

Open Canvas — это веб-приложение с открытым исходным кодом для совместной работы с агентами над созданием документов. Проект вдохновлен OpenAI Canvas, но имеет свои отличия:

📂 Открытый код: Весь код приложения доступен по лицензии MIT, включая фронтенд, агенты генерации контента и рефлексии.

🧠 Память: Open Canvas использует встроенного агента рефлексии, который запоминает правила стиля и инсайты пользователя, чтобы сохранять информацию между сессиями.

✒️ Работа с существующими документами: Начните работу с пустого текста или редактора кода на выбранном вами языке, либо используйте уже имеющийся контент для дальнейшего редактирования.

https://github.com/langchain-ai/open-canvas

Generative Ai

12 Oct, 09:48


⚡️ OpenAI Swarm: Экспериментальный фреймворк для оркестрации мультиагентных систем.

Swarm - это экспериментальный фреймворк, разработанный командой OpenAI Solutions, для создания, оркестрации и развертывания многоагентных систем. Фреймворк фокусируется на упрощении координации, запуска, контроля и тестирования агентов.

Основная цель Swarm - продемонстрировать паттерны, описанные в Orchestrating Agents: Handoffs & Routines cookbook.

Фреймворк построен на двух основных абстракциях: агентах (Agent) и передачах управления (handoffs):

Агент - это набор инструкций и функций, который может передавать выполнение другим агентам. Его можно использовать для описания конкретного рабочего процесса или шага (например, последовательность шагов, сложный поиск, одноэтапное преобразование данных и так далее).

Передача управления — это процесс, при котором агент может передать запрос другому агенту, возвращая его в функцию. В процессе передачи управления также происходит обновление переменных контекста, что позволяет вернуть более полный объект Result.

▶️В репозитории собраны функциональные примеры Swarm:

🟢basic - простые примеры настройки, вызова функций, передача данных и контекстные переменные;

🟢traige agent - пример роя с агентом сортировки, который принимает пользовательские данные и решает, ответить ли на запрос напрямую или передать его агенту по продажам или возврату денег;

🟢weather agent - погодный агент с вызовом функций (запрос по городу и отправка на e-mail);

🟢airlines - мультиагентный пример обработки клиентских запросов в контексте авиакомпании (сортировка запросов, изменения рейсов, отмены бронирований и случаи потери багажа);

🟢support_bot - клиентский бот центра поддержки с несколькими инструментами;

🟢personal shopper - пример роя агентов персонального торгового агента, который может помогать совершать покупки и возвращать заказы;

⚠️ Swarm не использует API Assistants и полностью работает на API Chat Completions.

⚠️ Swarm не предназначен для промышленного использования и не имеет официальной поддержки.

▶️ Локальная установка и запуск:

# Install from PIP
pip install git+https://github.com/openai/swarm.git

# Usage
from swarm import Swarm, Agent
client = Swarm()

def transfer_to_agent_b():
return agent_b

agent_a = Agent(
name="Agent A",
instructions="You are a helpful agent.",
functions=[transfer_to_agent_b],
)

agent_b = Agent(
name="Agent B",
instructions="Only speak in Haikus.",
)

response = client.run(
agent=agent_a,
messages=[{"role": "user", "content": "I want to talk to agent B."}],
)

print(response.messages[-1]["content"])


📌Лицензирование : MIT License.


🖥GitHub
🟡Orchestrating Agents Cookbook


@ai_machinelearning_big_data

#AI #ML #Agents #OpenAI #Swarm

Generative Ai

10 Oct, 07:27


Появилась первая качественная text2video модель с открытым исходным кодом по лицензии MIT - Pyramid Flow SD3. Это диффузионный трансформер с 2 миллиардами параметров, способный создавать 10-секундные видео с разрешением 768p и частотой 24 кадра в секунду.

Основные моменты:

Генерация 10-секундных видео с разрешением 768p и 24 кадрами в секунду.
Единая модель с 2 миллиардами параметров.
Поддержка как текст-видео, так и изображение-видео.
Эффективная тренировка с использованием Flow Matching.
Две версии модели: 384p (5 секунд) и 768p (10 секунд).
Примеры видео доступны на странице проекта.
Простая двухшаговая реализация.
Лицензия MIT, доступно на Hugging Face.
Обучение проводилось только на открытых данных.
Код для обучения будет опубликован в ближайшее время.

https://huggingface.co/rain1011/pyramid-flow-sd3
https://github.com/jy0205/Pyramid-Flow
https://pyramid-flow.github.io/

Generative Ai

01 Oct, 20:02


Начался OpenAI DevDay.

Уже презентовали prompt caching (50% от цены если вы используете тот же промт для вашего приложения), обновления в API, fine-tuning для 4o моделей (в том числе видео файнтьюн, так что вы теперь можете построить самоуправляемый велосипед на основе GPT).

Самое интересное демо пока что — Realtime API. Фактически это возможность в реальном времени, но задержки, общаться с моделью голосом. На видео несколько впечатляющих демо. Это будет доступно всем разработчикам по цене базовой модели.

Добавили нативную дистилляцию моделей: вы можете сделать более маленькую, дешевую специализированную модель под себя.

Так же OpenAI запустил свой продукт для эвалов (наконец-то!), так что теперь оценивать качество вашего приложения можно будет не по методу пол-палец-потолок, а по уму.

Generative Ai

30 Sep, 18:33


🎬 Транскрипция, перевод и субтитры для видео.

Subtitler — инструмент, который автоматически сделает транскрипцию вашего видео, переведет его на нужный язык и наложит готовые субтитры.

Работает бесплатно и без регистрации.

• Попробовать
• Github

#neural #нейросети

@aiaiai

Generative Ai

25 Sep, 11:27


Принес классную ссылку тем кто хотел бы начать разбираться в «агентах» с LLM – агентами называют мини-ботов которые делают какую-то задачу и обладают некой степенью свободы:
https://github.com/NirDiamant/GenAI_Agents

Внутри примеры на все случаи жизни: автоматизация саппорта, чатботы, автоматический поиск в интернете и тп., у всех примеров открыт исходный код

Агента Смита пожалуйста не делайте, спасибо

Generative Ai

23 Sep, 08:30


Новая версия CogVideoX-5b-I2V для генерации image2video

https://huggingface.co/THUDM/CogVideoX-5b-I2V
Ее подддержка уже добавлена в ComfyUI

https://github.com/kijai/ComfyUI-CogVideoXWrapper

Generative Ai

19 Sep, 15:33


🖼 Расширяем изображение.

Diffusers Image Outpaint — инструмент, который дорисует недостающие области изображения, расширив его по вертикали или по горизонтали.

Загружаем картинку, выбираем нужное соотношение сторон и жмем Generate.

• Попробовать

#neural #нейросеть

@aiaiai

Generative Ai

19 Sep, 11:57


🌟 Продвинутые техники RAG: Репозиторий Github c самой полной и актуальной подборкой ресурсов.

RAG-системы - это комбинация информационного поиска и генеративных моделей, целью которая предоставляет точные и контекстуально релевантные ответы на запросы пользователя.

В репозитории собран большой и регулярно обновляемый набор инструментов, документации и обучающих материалов, предназначенных для теоретического изучения и практического применения для желающих расширить свои знания и навыки в изучении возможностей RAG:

Базовые методы RAG:

🟢Простой RAG с использованием LangChain, LlamaIndex или CSV файлов;
🟢RAG с добавлением валидации и уточнения для обеспечения точности и релевантности извлекаемой информации;
🟢Выбор размера фрагмента текста;
🟢Разбивка на чанки для контроля и обработки запросов;

Инженерия запросов:

🟠Трансформация запросов: перефразирование, расширение контекста, декомпозиция на подзапросы;
🟠Гипотетические вопросы для улучшения соответствия между запросами и данными;

Обогащение контекста и содержания:

🟢Контекстуальные заголовки фрагментов для улучшения точности поиска;
🟢Извлечение релевантных сегментов для предоставления LLM более полного контекста;
🟢Расширение контекста с помощью соседних предложений;
🟢Семантическое фрагментирование текста;
🟢Контекстуальная компрессия для сохранения информации при сжатии;
🟢Дополнение документов вопросами для улучшения поиска;

Методы поиска:

🟠Fusion Retrieval;
🟠Intelligent Reranking;
🟠Multi-faceted Filtering;
🟠Hierarchical Indices;
🟠Ensemble Retrieval;
🟠Multi-modal Retrieval;

Итеративные и адаптивные методы:

🟢Retrieval with Feedback Loops;
🟢Adaptive Retrieval;
🟢Iterative Retrieval;

Интерпретируемость:

🟠Explainable Retrieval;

Архитектуры:

🟢Интеграция графа знаний (Graph RAG);
🟢GraphRag (Microsoft);
🟢RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval;
🟢Self RAG;
🟢Corrective RAG.

▶️Практическое применение или изучение техник RAG в проектах:

# Клонируйте репозиторий
git clone https://github.com/NirDiamant/RAG_Techniques.git

#Перейдите к интересующей вас технике
cd all_rag_techniques/technique-name

#Следуйте подробному руководству по применению в каталоге каждой техники.


📌 Лицензирование : Apache 2.0 License.


🟡Сообщество в Discord
🖥Github


@ai_machinelearning_big_data

#AI #ML #RAG #AwesomeRAG #Github

Generative Ai

16 Sep, 17:08


За последние несколько недель в канал пришли почти 3000 новых подписчиков 🎉 Специально для вас и конечно, тех ниндзя, кто читает нас давно, мы сделали подборку самых полезных постов по теме AI. Читайте, экономьте десятки часов в неделю и делитесь контентом с друзьями.

1. Отобранная вручную подборка лучших AI-инструментов: сервис для написания SEO-статей (уже внедрили на одном из наших европейских проектов и сгенерировали 500+ крутых статей за 3 недели), анализа звонков отдела продаж, умный каскад нейросетей и многое другое. Все отобрано и протестировано нами вручную;

2. Жирнющий процесс по созданию кликабельных и высококонверсионных креативов с конкретными промптами для GPT и примерами готовых баннеров. Must-have в эпоху, когда креатив определяет больше 80% результата ваших рекламных кампаний;

3. Не хватает рук в команде маркетинга? Тогда чекайте пост-инструкцию о том, как создать AI-маркетолога, который будет трудиться на благо вашей компании. Внутри поста инструкции по написанию писем, оптимизации процесса исследований и многое другое;

4. Про поиск высокооплачиваемой работы в международной (и не только) компании с помощью AI.

5. Как оптимизировать 10+ часов в неделю и делегировать написание отчетов, анализ конкурентов, парсинг данных и другую скучную рутину GPT — в этом посте

А уже завтра мы проведем большую онлайн-встречу, где расскажем еще больше того, что накопали за последние недели:
- Расскажем, как создавать еще больше креативов/посадочных при помощи ИИ;
- Попрактикуемся в создании бота маркетолога;
- Разберем еще больше способов оптимизации рутины и искоренения скучных/нудных задач;

Успевай занять место (традиционно их 300 шт) по ➡️ этой ссылке (кликабельно)

Как обычно будет плотный контент и сессия ответов на ваши вопросы. До встречи!

Generative Ai

15 Sep, 10:01


https://github.com/madcowd/ell

Generative Ai

15 Sep, 09:56


🌟 LongLLaVA: MMLM, оптимизированная для обработки большого количества изображений.

LongLLaVA - мультимодальная модель, предназначена для разработки приложений, требующих понимания длинных видеороликов, изображений высокого разрешения и сложных мультимодальных сценариев.

В модели применяется гибридная архитектура из комбинации блоков Mamba и Transformer в соотношении 7:1. Для сжатия визуальных данных применяется метод 2D-пулинга, который снижает вычислительные затраты при сохранении производительности.

В процессе обучения применялся трехфазный метод: выравнивание по одному изображению, настройка инструкций по одному изображению и настройка инструкций по нескольким изображениям.

Экспериментальные результаты показали, что LongLLaVA превосходит другие модели с открытым исходным кодом по пониманию в длинном контексте, особенно в задачах поиска, подсчета и упорядочивания.

▶️Технические параметры модели:

🟢Parameters: 53B;
🟢Active parameters: 13B;
🟢Numbers of layers: 24;
🟢Mixture of Experts: 16/Top-2 for each token;
🟢Normalization: RMSNorm;
🟢Attention: Grouped Query Attention;
🟢Activation functions: SwiGLU.


📌Лицензирование : MIT License


🟡Arxiv
🟡Модель
🖥Github


@ai_machinelearning_big_data

#AI #ML #MMLM #LongLLaVA