Агенты ИИ | AGI_and_RL @agi_and_rl Channel on Telegram

Агенты ИИ | AGI_and_RL

@agi_and_rl


Про ии, RL и в целом @tokarev_i_v

https://t.me/researchim

Агенты ИИ | AGI_and_RL (Russian)

Вы когда-нибудь задумывались о будущем искусственного интеллекта и обучении с подкреплением? Если да, то канал 'Агенты ИИ | AGI_and_RL' идеально подходит для вас. Здесь вы найдете множество интересной информации о искусственном обучении и обучении с подкреплением, а также обсуждения на эти темы. Наш канал создан для всех, кто интересуется развитием технологий и хочет быть в курсе последних тенденций в области искусственного интеллекта. Ведущий канала @tokarev_i_v делится своими знаниями и опытом, помогая каждому разобраться в сложных концепциях и тенденциях. Присоединяйтесь к нам прямо сейчас и станьте частью сообщества, где ценится обмен знаниями и обсуждение новейших технологий!

Агенты ИИ | AGI_and_RL

30 Oct, 10:48


АЛЛО МЫ ИЩЕМ ГОЛОСА

https://llmarena.ru/ заходите в анонимно и бежим размечать голосами свежее поколение ллм, я с утра разметил несколько десятков сэмплов и вам советую!

Агенты ИИ | AGI_and_RL

28 Oct, 18:22


🎆 Небольшая лекция об Alignment и как мы его готовим

Это слайды с текстом, пока устно ее я рассказывал только внутри команды Vikhr.

Внутри вы узнаете:
- Теория Bradley-Terry и откуда берутся Reward модели
- Что нужно для обучения Reward модели и как его делаем мы
- Откуда взялся DPO и каковы его недостатки
- Какова мотивация нас и других авторов улучшать DPO
- Как устроен наш функционал SMPO - Simple Margin Preference Optimization
- Какие есть способы улучшения DPO на уровне данных и как готовим эти данные мы

Задавайте вопросы комментариях, если что-то непонятно, будем обсуждать.

Агенты ИИ | AGI_and_RL

26 Oct, 17:39


Бу испугался? не бойся, я RL, я тебя не обижу, иди сюда, иди ко мне, сядь рядом со мной, посмотри мне в глаза. ты видишь меня? я тоже тебя вижу, давай толкать тележки и учить пауков ходить до тех пор, пока наши глаза не устанут. ты не хочешь? почему? что-то не так?

Агенты ИИ | AGI_and_RL

22 Oct, 20:54


ммм, ребята попытались скомпилить все в одно по тюнингу ллмковых со свежими подходами
Норм обзорчик собрали, пусть будет

Stage 1: Dataset Preparation
Stage 2: Model Initialisation
Stage 3: Training Environment Setup
Stage 4: Partial or Full Fine-Tuning
Stage 5: Evaluation and Validation
Stage 6: Deployment
Stage 7: Monitoring and Maintenance

115 страничек

The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities
https://arxiv.org/abs/2408.13296

Агенты ИИ | AGI_and_RL

20 Oct, 17:37


чот по интернетику пишут что вот мол уже засветилась 5090 (хотелось бы, но 32гб врама все равно мало)

вроде размером с 4090.

https://videocardz.com/newz/geforce-rtx-5090-graphics-card-featured-in-a-factory-trial-video

(PS нет, это 4070 ti super)

Агенты ИИ | AGI_and_RL

20 Oct, 13:25


в рабочем воркспейсе слака видишь его фотку. твои действия?

take a second to say hello

Агенты ИИ | AGI_and_RL

20 Oct, 13:24


В ByteDance стажёр обиделся и два месяца саботировал тренировочные раны соседней команды, причём весьма изощрёнными методами:

Загружал чекпоинты с бекдором, через который проносил скрипт, который рандомно убивал джобы на ноде (ckpt - это pickle файл, они могут содержать произвольный код на питоне)

Специально добавлял баги в форк PyTorch, который запускался на кластере

Портил чекпоинты, чтобы результаты экспериментов не сходились

При всём этом он участвовал в митингах, где пытались отловить проблему, слушал, как коллеги пытаются решить её, и на основе услышанного придумывал новые способы саботажа. В итоге поймали по логам, но два месяца и усилия почти 30 человек пропали впустую. А у вас что-то такое было?

П.с. кроме шуток, мощный чел оказался.

@ai_newz

Агенты ИИ | AGI_and_RL

18 Oct, 16:34


Блин, чел мощно отлупил всех RL максималистов. RL не будет работать, ок? Усвоили

(Дипмаинду с ОпенАИ лучше закрыть свои ресерчи. Да и вообще закрыться полностью.)

https://www.argmin.net/p/cool-kids-keep

Агенты ИИ | AGI_and_RL

03 Oct, 14:44


Запустили Gemma 2 зафайнтьюненную на японский. Веса – на HuggingFace.

Заодно запустили соревнование на Кэггле на $150k 👀на адаптацию Gemma к 73 разным языкам, включая русский и украинский. Ждём ваших сабмитов!

Агенты ИИ | AGI_and_RL

23 Sep, 13:19


Mcts-lib

Мы релизнули либу для улучшения генераций за счет MCTS(+10 пунктов по ru General Arena)!


Как это работает?

1. (Инициализация): Представьте, что вы начинаете с первой версии ответа, который модель предлагает. Чтобы не попасть в ловушку одного-единственного мнения с самого начала, модель также добавляет запасной вариант вроде “Я не знаю”. Это как стартовая точка, которая позволяет не зацикливаться на первой попытке.

2. (Selection): Из всех возможных вариантов ответа мы ищем тот, который выглядит самым перспективным, но при этом ещё не был полностью изучен. Это похоже на то, как вы бы выбирали, на какой вопрос или задачу потратить своё время дальше, полагаясь на интуицию и текущие знания.

3. (Self-Refine): Теперь, когда выбрали ответ, мы пытаемся его улучшить. Представьте, что вы показываете свой ответ опытному другу, и он говорит вам, что можно улучшить. Модель делает что-то похожее – она сама генерирует советы и, следуя этим подсказкам, старается улучшить ответ.

4. (Self-Evaluation): После того как ответ был доработан, модель оценивает его. Это как если бы вы сами посмотрели на свой улучшенный ответ и подумали: “Насколько это хорошо? Честно ли я оцениваю свой труд?” Чтобы оценка была объективной, модель специально избегает ставить идеальные баллы, чтобы не обманывать себя.

5. (Backpropagation): Если улучшенный ответ оказался хорош, эта информация передаётся обратно к родительскому узлу и другим связанным ответам. Это как если бы вы поделились своим новым знанием с друзьями, чтобы все в группе тоже стали умнее.

6.Актуализация планов (UCT Update): Когда все оценки обновлены, модель пересматривает свои планы и решает, какие варианты стоит изучить дальше. Здесь работает формула, которая помогает ей оценить, куда лучше направить внимание в следующий раз, чтобы стать ещё более эффективной.


Работает с openapi like apiшками, можно и llamacpp подключить и gpt4o!



github
оригинальный папир

Агенты ИИ | AGI_and_RL

21 Sep, 16:23


🔥 Новые модели Vikhr: Приближаемся к локальной gpt-4o-mini, собственный метод алайнмента и Grounded RAG

Мы выпускаем в релиз свои лучшие модели и тулкит алайнмента. который использовался для их тренировки.

Итак, наш флагман - Vikhr-Nemo-12B-Instruct-R-21-09-24 (карточка на HF)

12B модель на основе Mistral-Nemo, с качеством на русском языке в некоторых задачах не хуже gpt-4o-mini и имеет 128к токенов контекста, была специально заалайнена под решение широкого спектра задач на реальных и синтетических вопросах пользователей, включая код, математику, суммаризацию, ризонинг, ответы в специальном формате (JSON/HTML и тд) и многие другие.

Модель получила винрейт 79.8 (относительно gpt-3.5-turbo) на оффлайн бенчмарке Ru-General-Arena, что лучше любой текущей опенсорс модели до 30В для русского языка.

Для достижения такого качества мы собрали большой инструктивный датасет со втроенным CoT, что позволило сильно прочкать ризонинг модели, далее обучили Reward модель, сделали Rejection Sampling и применили собственный метод SMPO (вариация DPO) для выполнения преференс-тюнинга.

Вторая модель - Vikhrmodels/Vikhr-Llama3.1-8B-Instruct-R-21-09-24 (карточка на HF)

Так же обучена Llama-3,1-8B и имеет аналогичный размер контекста в 128k токенов. Винрейт на Ru-Arena-General - 63.9, что делает ее одной из лучших 8B моделей дла русского языка.

Модели обучены работать с RAG

Обе модели имеют уникальную особенность - они заалайнены для работы с RAG, т.е. используя системный промпт и спец. роль documents, вы сможете подавать ей документы в стандартизированной форме (JSON). При этом сам текст каждого документа может быть грязным чанком HTML, Markdown или Plain text формата до 4к символов каждый.

Модели умеют выделять информацию из предоставленных документов самостоятельно, реализуя таким образом "реранкер" на уровне LLM. Это сделано за счет двух-этапного ответа. Первый ответ модели представляет из себя JSON со списокм релевантных идентификаторов документов, а второй, если юзер его запросит, будет уже текстовым ответом модели на вопрос пользователя.

Благодаря такому обучению, на нашем бенчмарке для RAG (судья gpt-4o) Vikhr-Nemo показала качество в RAG задачах даже лучше, чем gpt-4o-mini (цифры в карточках моделей)

SMPO - Simple Margin Preference Optimization

Наш собственный метод выравнивания, разработанный для стабилизации прцоесса PO. Этот метод во многом заимствует идеи IPO, SimPO, C-RLFT, а также содержит собственную функцию потерь для разделения выбранных и отклоненных пар, отказываясь от классической сигмойды.

Основная идея метода заключается в стремлении плавно достичь желаемого уровня margin, не заставляя модель переобучаться, в том числе с помощью добавления балансирующего SFT лосса для выбранных и отклоненных вариантов одновременно.

Тулкит на Github - effective_llm_alignment

Репозиторий содержит скрипты и конфиги которые использовались для всех этапов обучения моделей. он позволяет удобно работать с основными методами алайнмента для LLM, включая наш SMPO.

Больше подробностей о моделях, как с ними работать, бенчмарках, процедуре обучения, вы можете найти в их карточках на HF.

Поиграться с Vikhr-Nemo-12B можно в tg bot_e (@vikhrbot), Gradio инференс

Агенты ИИ | AGI_and_RL

20 Sep, 14:54


Вы не ждали, да и мы тоже. Мы организуем соревнование по Multi-Agent Reinforcement Learning в рамках AIJ.

В прошлом году на NeurIPS была классная сорева MeltingPot, где требовалось создать агентов для mixed-motive cooperation. Такая постановка задачи сейчас является одним из фронтиров в MARL. Поэтому по ее мотивам, мы сделали свою небольшую вариацию, с помощью которой вы можете вкатиться в MARL, порешать нетривиальную задачу и разобраться в sota-методах.

К этому всему идет куча приятных бонусов:

🤑 2,500,000₽ — Призовой фонд. Туда-сюда миллионер, за вычетом НДФЛ, конечно.
За самого быстрого агента (для топ-10) на диком востоке можно залутать еще 200к, приятно.
😶‍🌫️ А победителей мы лично вытащим погабиться и покурить шишу.

Соревнование уже запущено и закончится 28-го октября. А 3-го числа Никита (@Nikita_Lyubaykin) и Влад (@vkurenkov) проведут разбор задачи и ответят на ваши вопросы, все детали тут.

- - —
@dunnolab

Агенты ИИ | AGI_and_RL

19 Sep, 09:33


🚀 @SBERLOGASCI webinar on mathematics and data science:
👨‍🔬 Sergei Gukov "What makes math problems hard for reinforcement learning: a case study"
⌚️ 19 September, Thursday 19.00 Moscow time

Add to Google Calendar

Can AI solve hard and interesting research-level math problems? While there is no mathematical definition of what makes a mathematical problem hard or interesting, we can provisionally define such problems as those that are well known to an average professional mathematician and have remained open for N years. The larger the value of N, the harder the problem. Using examples from combinatorial group theory and low-dimensional topology, in this talk I will explain that solving such hard long-standing math problems holds enormous potential for AI algorithm development, providing a natural path toward Artificial General Intelligence (AGI).

The talk is based on a recent paper: https://arxiv.org/abs/2408.15332

О докладчике: Сергей Гуков - профессор КалТех, выпускник МФТИ и Принстона, один из наиболее известных специалистов по теории струн и математической физике, в последние годы занимающийся применением методов Reinforcement Leaning к задачам математики и физики.

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga and in telegram: https://t.me/sberlogasci/19688 - subscribe !

Анонс на твиттер:
https://x.com/sberloga/status/1835702457260765359
Ваши лайки и репосты - очень welcome !

Агенты ИИ | AGI_and_RL

17 Sep, 16:31


Раз вышел o1 то должен быть и листик со статьями которые могут иметь к нему отношение (ну и в целом на ллмный ризонинг направленный)

https://github.com/hijkzzz/Awesome-LLM-Strawberry

Агенты ИИ | AGI_and_RL

17 Sep, 08:26


Мы наконец открыли набор на осенний семестр Deep Learning School!

DLschool — это школа при ФПМИ МФТИ, где мы учим нейронным сетям с самых азов до продвинутого уровня. Полный курс состоит из двух частей, каждая из которых длится полгода.
- Первая часть посвящена введению в нейросети и компьютерному зрению. Начинаем с основ машинного обучения и нейросетей, переходим к CNN для обработки картинок, заканчиваем переносом стиля изображений и ГАНами. В этом семестре мы улучшили многие занятия, записали новые версии лекций и семинаров и обновили домашки.
- Вторая часть полностью посвящена обработке естественного языка (NLP). Начинаем с эмбеддингов слов и заканчиваем GPT-2,3, RLHF, RAG и другими актуальными темами вокруг LLM.

Сейчас идет набор на оба потока обучения — часть 1 (введение в DL + CV) и часть 2 (NLP).

Особенность нашей школы в том, что мы даем много практики (теория при этом тоже есть, разумеется, и немало). Вам предстоит много практических домашних заданий и самостоятельный итоговый проект в конце семестра. По окончании обучения вы точно получите нужные практические навыки работы с нейросетями. Больше информации об организации курса и программы обучения можно найти тут.

Преподаватели школы — ведущие специалисты российских и зарубежных IT-компаний и научные сотрудники исследовательских лабораторий. Среди них — я (Таня), буду вести у вас несколько лекций в обеих частях курса.

Школа бесплатная. Полностью онлайн: учиться можно из любой точки мира, где есть интернет. Занятия проходят раз в неделю — лекция, семинар и домашнее задание. Обучение проходит на платформе Stepik. Берем всех, отбора нет.

❗️Для первой чати курса также есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, а также дополнительные вебинары. Подробнее о нем читайте на нашем сайте.

Старт обучения — 21 сентября. В этот день откроется первое занятие и будет живой вводный вебинар.

Чтобы зарегистрироваться на курс, нажмите на кнопку "поступить" на нашем сайте.

Ссылки:
Наш сайт
Подробная программа и оргинформация обоих частей курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
🧡 Поддержать нашу школу на Boosty

Если остались вопросы, пишите нам на почту ([email protected]) или в комментарии под этим постом.

Ждём вас в чатике курса в новом семестре!

Агенты ИИ | AGI_and_RL

12 Sep, 09:37


Приятный тутор по диффузионкам для тех кто хочет глубже понять (как сам автор пишет - больше для ресерчеров)

Tutorial on Diffusion Models for Imaging and Vision
https://arxiv.org/abs/2403.18103

Агенты ИИ | AGI_and_RL

11 Sep, 16:48


очень интересная тема сам хочу как-нить поразбирать в канале

Агенты ИИ | AGI_and_RL

11 Sep, 16:48


В последние пару лет почти каждый раз, когда речь заходит о больших языковых моделях, разговор сводится к противоборству двух лагерей: одни считают, что модели «понимают», умеют «размышлять» и выводить новую информацию; другие смеются над ними, и сравнивают модели со статистическими попугаями, которые просто выкрикивают услышанное, без выработанного понимания. Обе стороны приводят множество аргументов, кажущихся убедительными, однако точка в вопросе никогда не ставится.

Разрешить дискуссию помогают методы механистической интерпретируемости. В канале я обозревал несколько статей, в каждой из которых маленькое открытие позволяло чуть больше понять внутрянку нейросетей и даже улучшить сам механизм работы.

Сегодня я предлагаю вам прочитать мой лонг для погружения в эту тему. В нём я применил классический приём «да ща быстро сяду напишу как попало, будет средней длинны пост» — и это оказалось самообманом 😭. В итоге вышло полно, плотно, некоторые объяснения переписывались, сопроводительные иллюстрации перерисовывались, но результатом доволен.
▀▀▀▀▀▀▀▀▀▀
Оценить самим можно тут: https://habr.com/ru/companies/ods/articles/839694/
▀▀▀▀▀▀▀▀▀▀
Отдельная благодарность Павлу Комаровскому @RationalAnswer за (уже далеко не первую) помощь в редактуре и подготовке материала — не забывайте подписываться и на него.

Агенты ИИ | AGI_and_RL

06 Sep, 14:32


😑

Агенты ИИ | AGI_and_RL

03 Sep, 12:34


Опа. Книжечка Understanding Deep Learning автора Simon J.D. Prince
Обновилась 28 августа.


Бесплатно, скачиваем здесь и все-все читаем
https://udlbook.github.io/udlbook/

Introduction
Supervised learning
Shallow neural networks
Deep neural networks
Loss functions
Training models
Gradients and initialization
Measuring performance
Regularization
Convolutional networks
Residual networks
Transformers
Graph neural networks
Unsupervised learning
GANs
Normalizing flows
Variational autoencoders
Diffusion models
Deep reinforcement learning
Why does deep learning work?
Deep learning and ethics

коды: https://github.com/udlbook/udlbook/tree/main
+ ноутбуки к каждому разделу https://github.com/udlbook/udlbook/tree/main/Notebooks

Агенты ИИ | AGI_and_RL

03 Sep, 10:53


Приходят как-то на синк разработчик, тестировщик и time.sleep(1), а он им и говорит: ребята, мы что, в анекдоте?

➡️ Ну почти: они в подводке к статье про то, как тестировать мл системы, что бы не потерять $100k.

#HABR

Агенты ИИ | AGI_and_RL

31 Aug, 10:42


Introducing NEO Beta
youtube.com/watch?v=bUrLuUxv9gE

Мы (1X Technologies) наконец-то показали нашего нового робота публично! Neo это наше второе (и на данный момент уже основное) поколение роботов. В отличие от Eve у Neo пять пальцев и две ноги, что позволяет решать гораздо больше задач. В отличие от других гуманоидных роботов Neo может безопасно находиться радом с людьми из-за compliant моторов, при этом он всё ещё обладает довольно большой силой, сопостовимой с другими гуманоидами (и может быть даже превосходящей некоторых). Надеюсь в ближайшее время мы пошерим больше деталей о том что уже сейчас может Neo.

(Продолжаю орать с комментариев о том что это человек в костюме, разработчики железа воспринимают это как комплемент пхпх)

Агенты ИИ | AGI_and_RL

29 Aug, 11:33


Так ребзя я тут подумол. Много разговоров о том, что RL не работает. Если у кого были успешные кейсы с рлем то напишите их сюда в комменты, где он у вас заработал и что полезного сделал.
Можно и кейсы где не заработал. Что и где пробовали и какие результаты получились.

Агенты ИИ | AGI_and_RL

28 Aug, 15:02


Ммм, там ребята из гугла дум запихивают в стейбл дифужн 1.4 (назвали GameNGen)

В чем смысл? Ну получить норм нейронковый симулятор дума + идеи ворлд моделс 🥴. Ну и вроде результат выглядит ок.

Вначале RL: PPO с CNNкой учится проходить уровни в симуляторе VizDoom и собирать таким образом траектории на которых потом учат диффузию. RL помог нагенерить более разнообразных данных, по сравнению с рандомом (рандому трудно делать более сложные последовательности действий).

Насобирали 900M фреймов (320x240) для тренировки. Потом потренили стебл дифужин 1.4. Получили 20 FPS на 1 TPU (окей, гугл).
После 20-30 шагов моделька начинала глючить. Ошибки постепенно накапливались с предыдущих семплов (авторы называют это auto-regressive drift). Добавили шума (и уровень шума использовали как параметр для модельки) на картинки во время трейна и полечилось. (3 скрин)

Попросили 10 человек поотличать короткие ролики (1.6, 3.2 секунды они и правда короткие) полученные из своего GameNGen и реального дума. Люди выбрали настоящий дум в 60% случаев.

Diffusion Models Are Real-Time Game Engines
https://arxiv.org/abs/2408.14837

https://www.youtube.com/watch?v=O3616ZFGpqw