Агенты ИИ | AGI_and_RL @agi_and_rl Channel on Telegram

Агенты ИИ | AGI_and_RL

@agi_and_rl


Про ии, RL и в целом @tokarev_i_v

https://t.me/researchim

Агенты ИИ | AGI_and_RL (Russian)

Вы когда-нибудь задумывались о будущем искусственного интеллекта и обучении с подкреплением? Если да, то канал 'Агенты ИИ | AGI_and_RL' идеально подходит для вас. Здесь вы найдете множество интересной информации о искусственном обучении и обучении с подкреплением, а также обсуждения на эти темы. Наш канал создан для всех, кто интересуется развитием технологий и хочет быть в курсе последних тенденций в области искусственного интеллекта. Ведущий канала @tokarev_i_v делится своими знаниями и опытом, помогая каждому разобраться в сложных концепциях и тенденциях. Присоединяйтесь к нам прямо сейчас и станьте частью сообщества, где ценится обмен знаниями и обсуждение новейших технологий!

Агенты ИИ | AGI_and_RL

29 Jan, 16:38


А вот есть у нас SFT (Supervised fine-tuning) и RL (reinforcement learning) на посттрейне ллмов.
Вот бы померить а есть ли там разница с обобщающими способностями и запоминанием после этих тюнов.

Сделали бенч из двух задачек. В каждой задачке был текстовый вариант и визуальный вариант.

The V-IRL Environment (первая картинка):
Тестируют способности к пространственному рассуждению и навигации в открытом мире с использованием реалистичных визуальных данных.
Цель — добраться до целевого местоположения, следуя набору инструкций.
Основная визуальная сложность в V-IRL заключается в распознавании различных ориентиров на основе визуальных наблюдений перед выполнением действия
Тренировались на навигации по Нью-Йорку, а тестились на бенче из навигаций по разным городам.

The GeneralPoints Environment: (Пример на 2м скрине)
Цель — составить уравнение, которое равно заданному числу (по умолчанию 24), используя все 4 числа с карт ровно один раз.
Еще нужно интерпретировать буквы в числа на картах: 'J'->'11', 'Q'->'12' и 'K' ->'13' (либо все они как 10 считаются).
Тут тренировали тоже и текстовые варианты и визуальные, используя черные масти для трена, красные для теста.

3 и 4 скрин результаты. После RLя лучше справляется с задачами которые не видел на трене, после SFT работает хуже на невиданных задачах.

SFT помогает запоминать информацию, а RL помогает генерализоваться (прям как строчкой ниже написано)

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
https://arxiv.org/abs/2501.17161v1

https://tianzhechu.com/SFTvsRL/

кстати для статей по RLю и многому другому есть https://t.me/researchim

Агенты ИИ | AGI_and_RL

29 Jan, 14:46


Ребята, я зашел на сайт дипсиков и они и правда упоминают в коде OpenAI 😱😱😱
Вот так вот верь им теперь. Думал RL придумали свой и вон какие крутые

https://api-docs.deepseek.com/

Агенты ИИ | AGI_and_RL

28 Jan, 15:57


Самый интересный и популярный алгоритм для тренировки ллмок GRPO заехал в trl

https://github.com/huggingface/trl/blob/main/docs/source/grpo_trainer.md

Вообще оригинальная статья с этим алгоритмом выходила 5 февраля 2024, но заимплементили ток щас (почему??):

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
https://arxiv.org/abs/2402.03300v3

Агенты ИИ | AGI_and_RL

28 Jan, 15:20


Мнение

DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало казаться, что никто и не собирается уже. Основной кайф что многое опенсорсят. Остальные могут повторять и ресечить мощно.
Кроме них есть Qwen, Mistral которые очень большие молодцы, много выкладывают. Mistral Nemo вон какой крутой, квены постоянно тюнят и делают локальные модельки.

OpenAI - локомотив. У них суперребятки (хотя чот в последнее время куча народу ушло, да? Зачем?), у них много ресурсов, старгейт вон. Кажется, что они смогут в любом случае. Часто цены снижают, модельки обновляют на более новые, RL двигают (это кстати они в очередной раз сделали RL великим). Но вот в РФ допустим они просто так не работают...

Мне лично гораздо ценнее иметь крутую локальную модельку, чем где-то там в облаке.

Кажется, что для всех лучше если они будут там друг друга поджимать, выкладывать модельки и цены снижать. Поэтому просто кайфуем.

Я кстати за DeepMind 😃 (Что у них там вообще происходит?)

Где можно просто початиться:

Дипсик - https://www.deepseek.com/ (но щас им плохо, толком не работает, надеюсь полегчает)
Квен - https://chat.qwenlm.ai/
Mistral - https://chat.mistral.ai/

Агенты ИИ | AGI_and_RL

28 Jan, 10:58


🚀 @SBERLOGASCI webinar on data science:
👨‍🔬 Алексей Трепецкий "Введение в RL алгоритм Actor-Critic"
⌚️ Среда (29 января 2025) 19.00 (по Москве)


Actor-Critic — популярная концепция в обучении с подкреплением, позволяющая увеличить эффективность получаемых данных и сократить время обучения политике, основанная на объединении policy и value подходов.
На семинаре мы подробно разберем, как устроен метод Actor-Critic, зачем необходимо совместное обучение политики и функции ценности и как это улучшает алгоритм REINFORCE.


Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

Агенты ИИ | AGI_and_RL

27 Jan, 23:15


А Дэвид Сильвер (лидил в DeepMind ресеч по AlphaGo, AlphaZero и ко-лидил AlphaStar) кстати показывал вот такие слайдики на RL Conference в августе.

График внимание к RL и время. Суперхуман ии будет если вот очень много внимания уделять, получается 🕺

Взял фоты тут:
https://x.com/pcastr/status/1822636670220431485

Агенты ИИ | AGI_and_RL

25 Jan, 16:55


А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая RLем чисто)

Делают поверх небольших Qwen2.5 моделек 0.5B, 1.5B, 3B

Пишут что 3B base норм учится

https://github.com/Jiayi-Pan/TinyZero

Агенты ИИ | AGI_and_RL

24 Jan, 18:37


Полезный листик на гитхабе в котором собирают статьи по ризонингам и рлю для llms, агентам и вот этому всему

https://github.com/open-thought/system-2-research

а в телеге собираем полезное в https://t.me/researchim

Агенты ИИ | AGI_and_RL

23 Jan, 19:45


Куда ни глянь везде RL, реварды, агенты... шьто за время)

Агенты ИИ | AGI_and_RL

23 Jan, 19:27


Агенты OpenAI

Нам показывают Operator: https://openai.com/index/introducing-operator/
агент для работы в вебе на базе новой модельки Computer-Using Agent - это типа GPT-4o + ризонинг 🎹 (учился с помощью reinforcement learning),
работает с внутренним браузером смотрит на скриншоты и выполняет действия с GUI как делал бы человек используя клаву + мышку, а когда надо - рассуждает (если что-то не выходит сделать например), а если совсем никак - отдает управлению юзеру.

Ну т.е. эту штуку можно просить делать что угодно что в интернетике через браузер можно делать. (и кстати это самая развитая область сегодня - вебагенты)
При этом он научен просить пользователя самого работать с задачами типа логина и ввода капчи. (security)

Пишут, что sota на WebArena и WebVoyager

Ссылочки

https://openai.com/index/operator-system-card/

https://openai.com/index/computer-using-agent/

Агенты ИИ | AGI_and_RL

23 Jan, 12:56


Salt

Мы начали собирать эту модель в августе, в конце августа получили первый прототип, а потом стало выходить миллион вариантов вида: а давайте whisper для речи+GAN для генерации аудио, а потом вышел FishAudio который лучше работает, да и в целом хорошая модель.

Мы шли с другого конца, собрали решение поверх lm с расширенным токенайзером, использовали WavTokenizer для токенизации аудио.

Учили около 150 а100 часов для финального экспа, но количество экспов и денег сожженых в этот проект переваливает за то сколько я потратил на оригинальные Вихри.

По итогу получился не трансформер который понимает речь и генерирует речь, а Dalle1 like tts на основе llama3 3b.

Сейчас идут работы по дообучению на музыку/аудио, вероятно проект получит папир и обновление.
Сейчас модель неплохо работает на английском, на русский мы доучиваем модель.


huggingface
collab
А еще мы учимся на ошибках и в этот раз выкладываем весь код для обучения и aulate для подсчета аудио метрик


В релизе участвовали: Ksenya (основной контрибьютор), Костя писал метрики и сапортил инфру, а я ходил пинал чтобы оно все не развалилось и доехало до какого то состояния.

Агенты ИИ | AGI_and_RL

22 Jan, 08:46


TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training - Этот простой трюк ускорит претрен вашего DIT в 25 раз!

Идея такая: не все токены одинаково полезны на всех слоях, не все слои одинаково полезны для всех токенов. Давайте дадим модели самой выбирать на какие слои передавать токены, а на какие слои нет.

авторы получают х25 ускорение претрена и модель лучшую по метрикам чем классический DIT.


paper

Агенты ИИ | AGI_and_RL

21 Jan, 23:01


АГИ через 500 лярдов:

Агенты ИИ | AGI_and_RL

17 Jan, 20:55


Интересная книжечка вышла вчера на архиве на 200 страниц по LLMам.
От BERTов до ревард моделей, DPO, алайнментов и тюнингу моделек думать step-by-step.
На английском. Читаем 🥳

Foundations of Large Language Models
https://arxiv.org/abs/2501.09223

Агенты ИИ | AGI_and_RL

16 Jan, 19:36


Есть вот такая эксплорилка архива.

https://www.alphaxiv.org/explore

Что-то типа https://huggingface.co/papers
Показывает тренды папир на архиве
К статьям можно оставлять комменты, ставить 👍 (если зарегаться)

Еще есть сообщества по темам, где статьи собираются по тематике
https://www.alphaxiv.org/communities

Короче прикольно, я точно буду пользоваться

PS А в телеге есть https://t.me/researchim

Агенты ИИ | AGI_and_RL

15 Jan, 19:45


smolagents - новые агенты от HF

Будет заменой для transformers.agents (да, есть такие)
Давят на простоту в первую очередь и это правильно

Есть кодовый агент который пишет действия и вызовы тулов кодом (на картинке пример с кодовым агентом), а не просто jsonы с параметрами как обычно принято делать
можно импортить тулы из langchain
+ можно делать мультиагентные систему

Сейчас сделали 3 примера: text-2-SQL, RAG агента, мультиагент

Реп https://github.com/huggingface/smolagents

Пост https://huggingface.co/blog/smolagents

дока + туторы https://huggingface.co/docs/smolagents/index

Думаю, что как и многие smol проекты от хф - это в первую очередь чтобы взять, поковырять и поизучать. Пока что проекту месяц) Но мб со временем мощь получится

Агенты ИИ | AGI_and_RL

14 Jan, 09:50


Пару часов назад завершилось долгожданное дообучение o1 модели на GigaChat 20B-A3B, выполнялось оно на одной RTX 4090 с 24Гб VRAM при помощи проекта impruver и конфигурации GigaChat/20B-A3B_lora_o1 на датасете Egor-AI/Russian_thinking_dataset.

Залил полученный LoRA-адаптер на HuggingFace: evilfreelancer/o1_gigachat-20b-a3b_lora

Он оказался на удивление толстеньким, аж цельных 639 мегабайт весит, вероятно это как-то связанно с особенностями MoE архитектуры модели.

На всё про всё потребовалось примерно 117 часов (почти 5 дней), на данный момент понятно, что если бы я выставил eval_steps не 100, а хотя бы 500 или даже 1000 цель бы удалось достигнуть гораздо быстрее, так как 1 eval прогон выполняется на моей 4090 примерно 46 минут, а за 10 с небольшим тысяч шагов тестов eval было всего 102 (то есть примерно 77 часов выполнялась валидация, тут я конечно переборщил, но зато красивый график получился).

Отчёт W&B тут: evilfreelancer/nlec8bt8

Прикладываю предварительные тесты обученной модели в формате gist, из того что видно на первый взгляд модель отвечает строгим и профессиональным языком, однако, из-за особенностей датасета не всегда отвечает корректно, хотя цепочка "рассуждений" каждый раз крайне любопытная.

Для работы модели в режиме инференса необходимо внести правки в файл generate.py, там надо на этапе вызова токенизатора будет добавить return_token_type_ids=False, позже проверю не нарушит ли это работу остальных моделей, обученных через impruver, и если потребуется добавлю операцию ветвления специально для моделей семейства DeepSeek MoE (к коему относится GigaChat).

PS. Чекпоинты GGUF выложу на HF и ollama позже.

PPS. Картинку eval/train loss добавил первым сообщением под постом.

Агенты ИИ | AGI_and_RL

13 Jan, 15:24


Прикручивая ризонинг к RAGу (retrieval-augmented generation - генерации по внешним источникам информации/ответы по документам)

Попробовали просто раг поверх QwQ (на ней весь ризонинговый ресерч стоит) + еще сделали так назвываемый o1-search (тоже работает поверх QwQ), который состоит из двух модулей:

"Агентный RAG-механизм":
* Модель сама решает, когда искать внешние данные.
* Запросы для поиска формируются автоматически в процессе рассуждения
* Многократное использование поиска в одной задаче.

Моделька рассуждает, когда она считает что ей нехватает знаний, то сама вызывает поиск, получает документы, дальше рассуждает уже с новой информацией.

Модуль Reason-in-Documents (ризонит по релевантным документам):

*анализирует полученные документы (по текущему запросу, полученным релевантным документам и по предыдущей цепочке рассуждений)
*выделяет только полезную информацию

Как это все в целом работает на инференсе:

На вход получаем вопросы пользователя + инструкция по задаче;
*генерим по каждому (вопросу + инструкция) цепочку рассуждений которую нужно будет завершить.
*Начинаем генерить цепочку. Модель может захотеть поискать инфу - и сгенерит запрос в <|begin_search_query|> запрос <|end_search_query|> - идем ищем в документе, получаем релевантные чанки;
* (вопрос + инструкция) + найденные релевантные части документов + текущая цепочка рассуждений -> в Reason-in-Documents модуль, из которого нам уже возвращается хорошо подготовленная информация (формируется результат поиска) в <|begin_search_result|> результаты <|end_search_result|> тегах, вставляем это в текущую цепочку рассуждений;
* продолжаем рассуждать

И так пока все сформированные изначально цепочки не сгенерим.

Так понял, результы на скринах (RAgent и o1-search).

Search-o1: Agentic Search-Enhanced
Large Reasoning Models
https://arxiv.org/abs/2501.05366

https://github.com/sunnynexus/Search-o1

Ризонинговый дождь ☔️

Агенты ИИ | AGI_and_RL

12 Jan, 19:57


промт темплейтик

Агенты ИИ | AGI_and_RL

12 Jan, 19:54


Вообще в работе про которую писал выше опираются на (и во многом воспроизводят) другую про обучение ризонингу.

Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems
https://arxiv.org/abs/2412.09413

https://github.com/RUCAIBox/Slow_Thinking_with_LLMs

(эта работа и некоторые другие входят в проект STILL: Slow Thinking with LLMs, данная работа обозначена как STILL-2)

Конкретно в этой работе авторы исследовали ту же QwQ и DeepSeek-R1-Lite-Preview (в DeepSeek chat надо включить Deep Think), задавали им вопросы, сравнивали ответы и собирали данные, на которых затем потюнили свою Qwen2.5-32B-Instruct.

Вообще процесс обучения состоит из трех фаз (по ним статья и называется, круто да?):

1. Imitate (Имитация): Модель обучается генерировать цепочки размышлений и решение в одном ответе. Используются данные, полученные из существующих систем или сгенерированные вручную.
Модель обучается следовать формату:
<|begin_of_thought|>
{многошаговый процесс размышления}
<|end_of_thought|>
<|begin_of_solution|>
{финальное решение с подробным объяснением шагов}
<|end_of_solution|>

В работе описан полный промт темплейт, смотрим там если надо

2. Explore (Исследование):
Моделька генерирует несколько траекторий решений для задач.
Ответы сравниваются с эталонными решениями, чтобы выбрать лучшие траектории. Чем сложнее задача, тем больше шагов размышлений получается (естественно).

3. Self-Improve (Самоулучшение):
После генерации корректных траекторий они добавляются в обучающий набор (и на следующей итерации уже на них обучаемся)

Исследовали обучение с разными видами тюнинга:

* SFT (Supervised Fine-Tuning): Обучение модели на отобранных траекториях.
Мы много раз повторяем процесс Imitate -> Explore -> Self-Improvement (в качестве исходной модельки взять Qwen2.5-32B-Instruct и в качестве изночальных данных - то что насобирали и подготовили от QwQ и от DeepSeek-r1, и итеративно улучшаем модельку и генерим новые данные в датасет и улучшаем)

* DPO (Direct Preference Optimization): тут нужны пары (положительный пример, отрицательный пример): в качестве положительного выбирали корректное решение с самым высоким perplexity, а в качестве отрицательного - некорректное решение с самым низким perplexity для какой либо задачи. (мы же для одной задачи генерируем несколько решений)

Можно обучать модель на "мыслительной" части (thought) или на всей траектории (thought + solution). В статье отмечено, что обучение только на размышлениях может быть эффективнее. (третий скрин, табличка 4 в статье)

В разных конфигурация использовали 3.9к и 1.1к предподготовленных данных из QwQ + DeepSeek-r1. ну и разное количество наэксплоренных семплов и разные конфиги SFT/SFT+DPO/DPO (смотрим на 2,3 скринах)

В статье много подробностей и дополнительных рассуждений авторов - читаем, делаем свои ризонинги и ставим ребятам звездочки на гитхабе.

Кстати, крутые статьи в том числе и эту я сначала отбираю в https://t.me/researchim а потом тут разбираю.

Агенты ИИ | AGI_and_RL

10 Jan, 11:09


А тут находка для всех изучающих Deep Learning.
Набор ноутбуков из Университета Амстердама по курсу DL в рамках магистратуры по AI.
Всё удобно и готовое к запуску, понравилось.

Введение, трансформеры (без них никуда), Vision трансформеры, атаки на нейронки, multi GPU программирование, meta learning и куча других нужных тем.
Всё на PyTorch + JAX.
В каждом ноутбуке объяснение с реализациями + курс лекций на ютубе.
Но на английском. Но всё равно сохраняем и изучаем.

UvA Deep Learning Tutorials:

https://uvadlc-notebooks.readthedocs.io/en/latest/index.html

https://github.com/phlippe/uvadlc_notebooks/tree/master

Курс на YouTube

Агенты ИИ | AGI_and_RL

10 Jan, 11:09


Ребятки, вот тут очень крутой курс по DL. Единственное только что на английском

Агенты ИИ | AGI_and_RL

09 Jan, 13:54


Еще кайфец от HF 🤗 - smol course по всем видам тюнингов LLMок (все на скрине видно)

Построен вокруг семейства моделек HF SmolLM2 в размерах 135M, 360M, and 1.7B parameters как раз предназначенные для изучения трейнов и разных манипуляций у себя на дому

https://github.com/huggingface/smol-course

https://github.com/huggingface/smollm

Изучаем

Агенты ИИ | AGI_and_RL

07 Jan, 17:29


Агенты ИИ | AGI_and_RL pinned «В общем я какое-то время назад сделал группу куда кидаю ссылочки которые считаю интересными (этот канал тоже когда-то был свалкой ссылок по RL) Но в целом я подумал что это может быть группой где люди могут общаться на АИ темы по отрослям так сказать. Время…»

Агенты ИИ | AGI_and_RL

07 Jan, 17:02


Наткнулся на проект (выложен 3 часа назад первый коммит) где чел учит мелкие 9/26м параметров RWKV (подвид RNNок, конкурент трансформерам) модельки играть в Othello

Применяет test-time scaling (моделька может делать альфа/бета прунинг по дереву ходов)

Короче что-то прикольное, надо поразбираться

https://github.com/Jellyfish042/RWKV_Othello

Агенты ИИ | AGI_and_RL

07 Jan, 12:27


Уверен, что многих интересует как вот там реализуются методы распределенного трейна, может кто-то хотел бы сам реализовать (а это очень полезно).
Ребята из HF 🤗 начали проект по учебной реализации таких методов (dataparallel, tensorparallel, pipelineparallel, contextparallel) :
https://github.com/huggingface/picotron
https://github.com/huggingface/picotron_tutorial

Вместе с проектом идут лекции на ютубе.

Это как проект nanoGPT по учебной реализации гптшки 2, чтобы разобраться, но он прям уже круто разросся и народ там уже наоптимизировал всякого, мб и тут крутое что-то будет

Агенты ИИ | AGI_and_RL

06 Jan, 21:27


Ребята из проекта опенсурс агента для написания кода OpenHands 🥳 релизнули первую 0.18.0 версию 5 дней назад

https://github.com/All-Hands-AI/OpenHands

https://docs.all-hands.dev/

Я про этот проект не слышал раньше, а там 41к звезд на гитхабе (делают с апреля прошлого года и кажется вот что-то сделали)
Крч надо заценить

Агенты ИИ | AGI_and_RL

06 Jan, 16:39


Кстати существует курс по квантовому млю на русском: https://quantum-ods.github.io/qmlcourse/book/index.html
(немножко участвовал в написании)

Агенты ИИ | AGI_and_RL

06 Jan, 14:28


В общем я какое-то время назад сделал группу куда кидаю ссылочки которые считаю интересными (этот канал тоже когда-то был свалкой ссылок по RL)
Но в целом я подумал что это может быть группой где люди могут общаться на АИ темы по отрослям так сказать.
Время от времени туда будут литься ссылки на мой взгляд интересные про которые я потом буду рассказывать
Может из этого и какое-нибудь комунити можно сделать по ресерчам. Колабиться и тд, что-нибудь делать

Меня интересует например ИИ + киберсек. Точнее то как может ИИ киберсеку помочь - там есть отдельный топик где могли бы собираться люди интересующиеся этой темой.

Туда можно писать по интересным вам темам + кидать что находите, репостать из крутых каналов и тд.

И да, там щас больше всего накидано крутого по RL и LLMам.

https://t.me/researchim

Агенты ИИ | AGI_and_RL

04 Jan, 18:24


Стороны сингулярности:
PPO не сошелся | PPO сошелся

Агенты ИИ | AGI_and_RL

04 Jan, 17:44


Получается 31 декабря Дед Мороз приносил обзорку по Low Rank Adaptation и фоундейшен моделькам.

Рассказывают про лору, как работают, какие бывают, где и как применяются.
В целом балдежка

Low-Rank Adaptation for Foundation Models: A Comprehensive Review
https://arxiv.org/abs/2501.00365

Агенты ИИ | AGI_and_RL

04 Jan, 15:36


Тул для командной строки, который собирает код из укзанной директории в большой промт для ЛЛМки (для анализа кода, изменения или чего вам нужно).
Чтобы не ходить и не собирать руками строки из проекта

https://github.com/mufeedvh/code2prompt/

Агенты ИИ | AGI_and_RL

03 Jan, 17:42


В прошлом году ребята из Physical Intelligence рассказывали про модель Pi0 https://www.physicalintelligence.company/blog/pi0 - что это фаундейшен моделька для роботов (работает поверх PaliGemma влмки от гугла + flowmatching подробнее тут писали https://t.me/rizzearch/696?single), тренировали ее на больших датасетах собранных с разных роботов.

Но ни модельку, ни данные они не выкладывали. И вот тут ресечер Allen Z. Ren который сам занимается роботами решил воспроизвести подход (данные он использует другие конечно) и заопенсурсил свой проект и модельки:

https://github.com/allenzren/open-pi-zero

Агенты ИИ | AGI_and_RL

03 Jan, 12:11


А еще вдогоночку неделю назад работа вышла по 1.58bit Flux (флакс щас лучшая генерилка картинок) где обещают в ~5 раз экономию памяти на инференсе

https://chenglin-yang.github.io/1.58bit.flux.github.io/

1.58-bit FLUX
https://arxiv.org/abs/2412.18653v1

Код и веса обещают скоро зарелизить https://github.com/Chenglin-Yang/1.58bit.flux

Агенты ИИ | AGI_and_RL

03 Jan, 11:57


Эксперимент на тему обучения нейронок в 1.58 бит. Веса модели представляются в тернарном виде (т.е. каждый вес преобразуется в значение {-1,0,1}) и так используются для обучения.

Генерим много случайных разряженных тернарных шумовых векторов v_i (в них много нулей). С ними вычисляем якобиан-векторное произведение и получаем проекцию градиента на шумовой вектор, от которого нам нужен только знак (лежит шумовой вектор по градиенту (1) или против него (-1), или ортогонально (0)). И градиент оценивается через сумму шумовых векторов умноженных на знак проекции. Веса и градиент у нас тернарные и это должно сильно экономить память.

Параметры алгоритма: сколько случайных векторов используем и их разреженность.

Шумовые вектора (v_i) генерятся псевдослучайно из сида и нам не нужно их хранить (можно из сида восстановить, это может пригодиться при распределенном обучении).

Для хорошего обучения важен большой батч и много шагов оптимизации.

Так понял.

Автор добавил ноутбук с трейном MLPшки распознавать MNIST, вроде обучается.

noise_step: Training in 1.58b With No Gradient Memory

Код и статья тут:
https://github.com/wbrickner/noise_step/tree/main

Агенты ИИ | AGI_and_RL

31 Dec, 18:08


Всем добра и только хорошего в новом году

🥰🥰🥰

Агенты ИИ | AGI_and_RL

26 Dec, 13:55


Кстати, вышла новая обзорка по RLю, 144 странички, но на инглише (в конце даже немножко RL + LLMs налили)

Reinforcement Learning: An Overview
https://arxiv.org/abs/2412.05265


Не забываем что по rlю есть очень крутой конспект на русском на 245 страничек

Reinforcement Learning Textbook
https://arxiv.org/abs/2201.09746

Агенты ИИ | AGI_and_RL

25 Dec, 14:35


Ребята из Саканы двинулись в сторону применения VLMок к изучению искусственной жизни.
Так или иначе это связано с симуляциями и симуляторами.
У них получилась Automated Search for Artificial Life (ASAL).

Определяем набор искомых симуляций, начальное состояние, правила перехода между состояниями и применяем разные подходы для автоматического поиска.
Еще определяем субстрат - множество в котором ищем, в данном случае симуляторы искусственной жизни.

По начальным параметрам запускаем симулятор, получаем изображение, прогоняем через VLM, получаем представление (вектор), оптимизируем и получаем новые параметры для симуляции. Ну и так далее.

В качестве vlmок использовали CLIP и DINOv2.

Выделили 3 задачи:
- Supervised Target - ищем симуляцию которая приводит к нужному событию или серии событий (события описываем текстом, для серии событий пишем серию промтов). Например "две клетки" - это то что мы хотим увидеть в симуляции и поиск это должен будет найти.В конкретных экспериментах использовали Sep-CMA-ES для оптимизации.
- Open-Endedness - ищем симуляцию которая приводит к созданию нового изображения (ранее в истории не появлалось) для представления модельки. Это поиск новизны.
- Illumination - это как я понял исследование всего пространства (субстрата) и пространства вокруг конкретных симуляций. Здесь использовали генетический алгоритм.

В работе рассматривали (в разных поисковых кейсах) Boids, Particle Life, Life-like Cellular Automata, Lenia, Neural Cellular Automata

Так понял. В целом прикольно, хотя и достаточно отвлеченно от обычных сегодняшних ресечей) Я как-то особо не знаю чего бы еще такого в ALife делали.

https://pub.sakana.ai/asal/

Automating the Search for Artificial Life with Foundation Models
https://arxiv.org/abs/2412.17799

https://github.com/SakanaAI/asal

Ребята из Sakana делают много прикольных ресерчей (например про model merging где из кусков разных моделек можно собирать более лучшие для конкертной задачи) и можно смотреть просто их блог https://sakana.ai/blog/

Агенты ИИ | AGI_and_RL

23 Dec, 19:45


Тут 5 месяцев бенчмаркали и тестили AMD MI300X и сравнивали с H100/H200 и показали первую часть анализов.

MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive
https://semianalysis.com/2024/12/22/mi300x-vs-h100-vs-h200-benchmark-part-1-training/

В целом из коробки пока неюзабельно из-за софта. Ребят поддерживали несколько команд инженеров из AMD чтобы этот анализ выдать)

Агенты ИИ | AGI_and_RL

20 Dec, 19:15


Забавные моменты:
* получить 91% на 400 примерах public arc-agi стоило x172 больше ресурсов чем на 82%. Похоже больше ляма баксов (6677*172 = 1148444) если в деньгах.
* авторы ARC-AGI все же не думают что это AGI.

😏

Агенты ИИ | AGI_and_RL

20 Dec, 18:32


Кто не в курсе тут последние 12 рабочих дней проходили показы от OpenAI всяких штук.
Сегодня последний день и они показывают ранние оценки на популярных бенчах новой фронтир модели o3, которую пока не выпускают (только рассказывают про нее)
Будут и o3-mini.
Модельки пока еще тестятся на безопасность.

Ну это жестко, если всё так. Но интересно как быстро это все будет отрабатывать в реальности и почем вообще?

Например про нее уже написали на https://arcprize.org/blog/oai-o3-pub-breakthrough

Посмотреть все 12 дней можно тут: https://openai.com/12-days/

Агенты ИИ | AGI_and_RL

19 Dec, 09:50


Вышел движок для симуляций/робототехники Genesis. Поверх физического движка будет генеративный фреймворк который будет генерить 3D сцены, движение камеры, людей/животных/роботов, анимации лица и видео по тексту.

Физический движок должен быть очень быстрыми и реалистичным, его заопенсурсили и он доступен ниже на гитхабе.
Генеративный фреймворк - отдельно, его не опенсурсят.

https://genesis-embodied-ai.github.io/

https://github.com/Genesis-Embodied-AI/Genesis

Агенты ИИ | AGI_and_RL

19 Dec, 08:38


В последне время выходило много работ по воспроизведению o1 - как rl прикручивать, поиск применять и прочее.
А тут вышла обзорка по этим подходам, причем много внимания уделено стороне rlя

Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective
https://arxiv.org/abs/2412.14135

Агенты ИИ | AGI_and_RL

17 Dec, 14:09


Интересный пост про написание llm инференса на C++/cuda без доп библиотек (который должен получиться даже быстрее llama.cpp, автор пишет)

Fast LLM Inference From Scratch
Pushing single-GPU inference throughput to the edge without libraries

https://andrewkchan.dev/posts/yalm.html

код
https://github.com/andrewkchan/yalm

Агенты ИИ | AGI_and_RL

17 Dec, 08:00


ребята из HF 🤗 написали нам
https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute

Про подходы к test time compute (какой поиск можно делать, использовать верификаторы, самовалидацию и тд), как это масштабировать, как сделать на опенсурсовских моделях (на примере LLama 3.2)

вполне стоит почитать

За основу взяли статью от ДипМаинда

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
https://arxiv.org/abs/2408.03314

код нашел тут:
https://github.com/huggingface/search-and-learn

сейчас реализовали на llama 3.2 1B подходы с Best of N, Beam Search, Diverse Verifier Beam Search (DVTS)
инструкция по запускам https://github.com/huggingface/search-and-learn/tree/main/recipes

Агенты ИИ | AGI_and_RL

30 Oct, 10:48


АЛЛО МЫ ИЩЕМ ГОЛОСА

https://llmarena.ru/ заходите в анонимно и бежим размечать голосами свежее поколение ллм, я с утра разметил несколько десятков сэмплов и вам советую!

Агенты ИИ | AGI_and_RL

28 Oct, 18:22


🎆 Небольшая лекция об Alignment и как мы его готовим

Это слайды с текстом, пока устно ее я рассказывал только внутри команды Vikhr.

Внутри вы узнаете:
- Теория Bradley-Terry и откуда берутся Reward модели
- Что нужно для обучения Reward модели и как его делаем мы
- Откуда взялся DPO и каковы его недостатки
- Какова мотивация нас и других авторов улучшать DPO
- Как устроен наш функционал SMPO - Simple Margin Preference Optimization
- Какие есть способы улучшения DPO на уровне данных и как готовим эти данные мы

Задавайте вопросы комментариях, если что-то непонятно, будем обсуждать.

Агенты ИИ | AGI_and_RL

26 Oct, 17:39


Бу испугался? не бойся, я RL, я тебя не обижу, иди сюда, иди ко мне, сядь рядом со мной, посмотри мне в глаза. ты видишь меня? я тоже тебя вижу, давай толкать тележки и учить пауков ходить до тех пор, пока наши глаза не устанут. ты не хочешь? почему? что-то не так?

Агенты ИИ | AGI_and_RL

22 Oct, 20:54


ммм, ребята попытались скомпилить все в одно по тюнингу ллмковых со свежими подходами
Норм обзорчик собрали, пусть будет

Stage 1: Dataset Preparation
Stage 2: Model Initialisation
Stage 3: Training Environment Setup
Stage 4: Partial or Full Fine-Tuning
Stage 5: Evaluation and Validation
Stage 6: Deployment
Stage 7: Monitoring and Maintenance

115 страничек

The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities
https://arxiv.org/abs/2408.13296

Агенты ИИ | AGI_and_RL

20 Oct, 17:37


чот по интернетику пишут что вот мол уже засветилась 5090 (хотелось бы, но 32гб врама все равно мало)

вроде размером с 4090.

https://videocardz.com/newz/geforce-rtx-5090-graphics-card-featured-in-a-factory-trial-video

(PS нет, это 4070 ti super)

Агенты ИИ | AGI_and_RL

20 Oct, 13:25


в рабочем воркспейсе слака видишь его фотку. твои действия?

take a second to say hello

Агенты ИИ | AGI_and_RL

20 Oct, 13:24


В ByteDance стажёр обиделся и два месяца саботировал тренировочные раны соседней команды, причём весьма изощрёнными методами:

Загружал чекпоинты с бекдором, через который проносил скрипт, который рандомно убивал джобы на ноде (ckpt - это pickle файл, они могут содержать произвольный код на питоне)

Специально добавлял баги в форк PyTorch, который запускался на кластере

Портил чекпоинты, чтобы результаты экспериментов не сходились

При всём этом он участвовал в митингах, где пытались отловить проблему, слушал, как коллеги пытаются решить её, и на основе услышанного придумывал новые способы саботажа. В итоге поймали по логам, но два месяца и усилия почти 30 человек пропали впустую. А у вас что-то такое было?

П.с. кроме шуток, мощный чел оказался.

@ai_newz

Агенты ИИ | AGI_and_RL

18 Oct, 16:34


Блин, чел мощно отлупил всех RL максималистов. RL не будет работать, ок? Усвоили

(Дипмаинду с ОпенАИ лучше закрыть свои ресерчи. Да и вообще закрыться полностью.)

https://www.argmin.net/p/cool-kids-keep

Агенты ИИ | AGI_and_RL

03 Oct, 14:44


Запустили Gemma 2 зафайнтьюненную на японский. Веса – на HuggingFace.

Заодно запустили соревнование на Кэггле на $150k 👀на адаптацию Gemma к 73 разным языкам, включая русский и украинский. Ждём ваших сабмитов!

Агенты ИИ | AGI_and_RL

23 Sep, 13:19


Mcts-lib

Мы релизнули либу для улучшения генераций за счет MCTS(+10 пунктов по ru General Arena)!


Как это работает?

1. (Инициализация): Представьте, что вы начинаете с первой версии ответа, который модель предлагает. Чтобы не попасть в ловушку одного-единственного мнения с самого начала, модель также добавляет запасной вариант вроде “Я не знаю”. Это как стартовая точка, которая позволяет не зацикливаться на первой попытке.

2. (Selection): Из всех возможных вариантов ответа мы ищем тот, который выглядит самым перспективным, но при этом ещё не был полностью изучен. Это похоже на то, как вы бы выбирали, на какой вопрос или задачу потратить своё время дальше, полагаясь на интуицию и текущие знания.

3. (Self-Refine): Теперь, когда выбрали ответ, мы пытаемся его улучшить. Представьте, что вы показываете свой ответ опытному другу, и он говорит вам, что можно улучшить. Модель делает что-то похожее – она сама генерирует советы и, следуя этим подсказкам, старается улучшить ответ.

4. (Self-Evaluation): После того как ответ был доработан, модель оценивает его. Это как если бы вы сами посмотрели на свой улучшенный ответ и подумали: “Насколько это хорошо? Честно ли я оцениваю свой труд?” Чтобы оценка была объективной, модель специально избегает ставить идеальные баллы, чтобы не обманывать себя.

5. (Backpropagation): Если улучшенный ответ оказался хорош, эта информация передаётся обратно к родительскому узлу и другим связанным ответам. Это как если бы вы поделились своим новым знанием с друзьями, чтобы все в группе тоже стали умнее.

6.Актуализация планов (UCT Update): Когда все оценки обновлены, модель пересматривает свои планы и решает, какие варианты стоит изучить дальше. Здесь работает формула, которая помогает ей оценить, куда лучше направить внимание в следующий раз, чтобы стать ещё более эффективной.


Работает с openapi like apiшками, можно и llamacpp подключить и gpt4o!



github
оригинальный папир

Агенты ИИ | AGI_and_RL

21 Sep, 16:23


🔥 Новые модели Vikhr: Приближаемся к локальной gpt-4o-mini, собственный метод алайнмента и Grounded RAG

Мы выпускаем в релиз свои лучшие модели и тулкит алайнмента. который использовался для их тренировки.

Итак, наш флагман - Vikhr-Nemo-12B-Instruct-R-21-09-24 (карточка на HF)

12B модель на основе Mistral-Nemo, с качеством на русском языке в некоторых задачах не хуже gpt-4o-mini и имеет 128к токенов контекста, была специально заалайнена под решение широкого спектра задач на реальных и синтетических вопросах пользователей, включая код, математику, суммаризацию, ризонинг, ответы в специальном формате (JSON/HTML и тд) и многие другие.

Модель получила винрейт 79.8 (относительно gpt-3.5-turbo) на оффлайн бенчмарке Ru-General-Arena, что лучше любой текущей опенсорс модели до 30В для русского языка.

Для достижения такого качества мы собрали большой инструктивный датасет со втроенным CoT, что позволило сильно прочкать ризонинг модели, далее обучили Reward модель, сделали Rejection Sampling и применили собственный метод SMPO (вариация DPO) для выполнения преференс-тюнинга.

Вторая модель - Vikhrmodels/Vikhr-Llama3.1-8B-Instruct-R-21-09-24 (карточка на HF)

Так же обучена Llama-3,1-8B и имеет аналогичный размер контекста в 128k токенов. Винрейт на Ru-Arena-General - 63.9, что делает ее одной из лучших 8B моделей дла русского языка.

Модели обучены работать с RAG

Обе модели имеют уникальную особенность - они заалайнены для работы с RAG, т.е. используя системный промпт и спец. роль documents, вы сможете подавать ей документы в стандартизированной форме (JSON). При этом сам текст каждого документа может быть грязным чанком HTML, Markdown или Plain text формата до 4к символов каждый.

Модели умеют выделять информацию из предоставленных документов самостоятельно, реализуя таким образом "реранкер" на уровне LLM. Это сделано за счет двух-этапного ответа. Первый ответ модели представляет из себя JSON со списокм релевантных идентификаторов документов, а второй, если юзер его запросит, будет уже текстовым ответом модели на вопрос пользователя.

Благодаря такому обучению, на нашем бенчмарке для RAG (судья gpt-4o) Vikhr-Nemo показала качество в RAG задачах даже лучше, чем gpt-4o-mini (цифры в карточках моделей)

SMPO - Simple Margin Preference Optimization

Наш собственный метод выравнивания, разработанный для стабилизации прцоесса PO. Этот метод во многом заимствует идеи IPO, SimPO, C-RLFT, а также содержит собственную функцию потерь для разделения выбранных и отклоненных пар, отказываясь от классической сигмойды.

Основная идея метода заключается в стремлении плавно достичь желаемого уровня margin, не заставляя модель переобучаться, в том числе с помощью добавления балансирующего SFT лосса для выбранных и отклоненных вариантов одновременно.

Тулкит на Github - effective_llm_alignment

Репозиторий содержит скрипты и конфиги которые использовались для всех этапов обучения моделей. он позволяет удобно работать с основными методами алайнмента для LLM, включая наш SMPO.

Больше подробностей о моделях, как с ними работать, бенчмарках, процедуре обучения, вы можете найти в их карточках на HF.

Поиграться с Vikhr-Nemo-12B можно в tg bot_e (@vikhrbot), Gradio инференс

Агенты ИИ | AGI_and_RL

20 Sep, 14:54


Вы не ждали, да и мы тоже. Мы организуем соревнование по Multi-Agent Reinforcement Learning в рамках AIJ.

В прошлом году на NeurIPS была классная сорева MeltingPot, где требовалось создать агентов для mixed-motive cooperation. Такая постановка задачи сейчас является одним из фронтиров в MARL. Поэтому по ее мотивам, мы сделали свою небольшую вариацию, с помощью которой вы можете вкатиться в MARL, порешать нетривиальную задачу и разобраться в sota-методах.

К этому всему идет куча приятных бонусов:

🤑 2,500,000₽ — Призовой фонд. Туда-сюда миллионер, за вычетом НДФЛ, конечно.
За самого быстрого агента (для топ-10) на диком востоке можно залутать еще 200к, приятно.
😶‍🌫️ А победителей мы лично вытащим погабиться и покурить шишу.

Соревнование уже запущено и закончится 28-го октября. А 3-го числа Никита (@Nikita_Lyubaykin) и Влад (@vkurenkov) проведут разбор задачи и ответят на ваши вопросы, все детали тут.

- - —
@dunnolab

Агенты ИИ | AGI_and_RL

19 Sep, 09:33


🚀 @SBERLOGASCI webinar on mathematics and data science:
👨‍🔬 Sergei Gukov "What makes math problems hard for reinforcement learning: a case study"
⌚️ 19 September, Thursday 19.00 Moscow time

Add to Google Calendar

Can AI solve hard and interesting research-level math problems? While there is no mathematical definition of what makes a mathematical problem hard or interesting, we can provisionally define such problems as those that are well known to an average professional mathematician and have remained open for N years. The larger the value of N, the harder the problem. Using examples from combinatorial group theory and low-dimensional topology, in this talk I will explain that solving such hard long-standing math problems holds enormous potential for AI algorithm development, providing a natural path toward Artificial General Intelligence (AGI).

The talk is based on a recent paper: https://arxiv.org/abs/2408.15332

О докладчике: Сергей Гуков - профессор КалТех, выпускник МФТИ и Принстона, один из наиболее известных специалистов по теории струн и математической физике, в последние годы занимающийся применением методов Reinforcement Leaning к задачам математики и физики.

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga and in telegram: https://t.me/sberlogasci/19688 - subscribe !

Анонс на твиттер:
https://x.com/sberloga/status/1835702457260765359
Ваши лайки и репосты - очень welcome !

Агенты ИИ | AGI_and_RL

17 Sep, 16:31


Раз вышел o1 то должен быть и листик со статьями которые могут иметь к нему отношение (ну и в целом на ллмный ризонинг направленный)

https://github.com/hijkzzz/Awesome-LLM-Strawberry

Агенты ИИ | AGI_and_RL

17 Sep, 08:26


Мы наконец открыли набор на осенний семестр Deep Learning School!

DLschool — это школа при ФПМИ МФТИ, где мы учим нейронным сетям с самых азов до продвинутого уровня. Полный курс состоит из двух частей, каждая из которых длится полгода.
- Первая часть посвящена введению в нейросети и компьютерному зрению. Начинаем с основ машинного обучения и нейросетей, переходим к CNN для обработки картинок, заканчиваем переносом стиля изображений и ГАНами. В этом семестре мы улучшили многие занятия, записали новые версии лекций и семинаров и обновили домашки.
- Вторая часть полностью посвящена обработке естественного языка (NLP). Начинаем с эмбеддингов слов и заканчиваем GPT-2,3, RLHF, RAG и другими актуальными темами вокруг LLM.

Сейчас идет набор на оба потока обучения — часть 1 (введение в DL + CV) и часть 2 (NLP).

Особенность нашей школы в том, что мы даем много практики (теория при этом тоже есть, разумеется, и немало). Вам предстоит много практических домашних заданий и самостоятельный итоговый проект в конце семестра. По окончании обучения вы точно получите нужные практические навыки работы с нейросетями. Больше информации об организации курса и программы обучения можно найти тут.

Преподаватели школы — ведущие специалисты российских и зарубежных IT-компаний и научные сотрудники исследовательских лабораторий. Среди них — я (Таня), буду вести у вас несколько лекций в обеих частях курса.

Школа бесплатная. Полностью онлайн: учиться можно из любой точки мира, где есть интернет. Занятия проходят раз в неделю — лекция, семинар и домашнее задание. Обучение проходит на платформе Stepik. Берем всех, отбора нет.

❗️Для первой чати курса также есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, а также дополнительные вебинары. Подробнее о нем читайте на нашем сайте.

Старт обучения — 21 сентября. В этот день откроется первое занятие и будет живой вводный вебинар.

Чтобы зарегистрироваться на курс, нажмите на кнопку "поступить" на нашем сайте.

Ссылки:
Наш сайт
Подробная программа и оргинформация обоих частей курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
🧡 Поддержать нашу школу на Boosty

Если остались вопросы, пишите нам на почту ([email protected]) или в комментарии под этим постом.

Ждём вас в чатике курса в новом семестре!

Агенты ИИ | AGI_and_RL

12 Sep, 09:37


Приятный тутор по диффузионкам для тех кто хочет глубже понять (как сам автор пишет - больше для ресерчеров)

Tutorial on Diffusion Models for Imaging and Vision
https://arxiv.org/abs/2403.18103

Агенты ИИ | AGI_and_RL

11 Sep, 16:48


очень интересная тема сам хочу как-нить поразбирать в канале

Агенты ИИ | AGI_and_RL

11 Sep, 16:48


В последние пару лет почти каждый раз, когда речь заходит о больших языковых моделях, разговор сводится к противоборству двух лагерей: одни считают, что модели «понимают», умеют «размышлять» и выводить новую информацию; другие смеются над ними, и сравнивают модели со статистическими попугаями, которые просто выкрикивают услышанное, без выработанного понимания. Обе стороны приводят множество аргументов, кажущихся убедительными, однако точка в вопросе никогда не ставится.

Разрешить дискуссию помогают методы механистической интерпретируемости. В канале я обозревал несколько статей, в каждой из которых маленькое открытие позволяло чуть больше понять внутрянку нейросетей и даже улучшить сам механизм работы.

Сегодня я предлагаю вам прочитать мой лонг для погружения в эту тему. В нём я применил классический приём «да ща быстро сяду напишу как попало, будет средней длинны пост» — и это оказалось самообманом 😭. В итоге вышло полно, плотно, некоторые объяснения переписывались, сопроводительные иллюстрации перерисовывались, но результатом доволен.
▀▀▀▀▀▀▀▀▀▀
Оценить самим можно тут: https://habr.com/ru/companies/ods/articles/839694/
▀▀▀▀▀▀▀▀▀▀
Отдельная благодарность Павлу Комаровскому @RationalAnswer за (уже далеко не первую) помощь в редактуре и подготовке материала — не забывайте подписываться и на него.

Агенты ИИ | AGI_and_RL

06 Sep, 14:32


😑

Агенты ИИ | AGI_and_RL

03 Sep, 12:34


Опа. Книжечка Understanding Deep Learning автора Simon J.D. Prince
Обновилась 28 августа.


Бесплатно, скачиваем здесь и все-все читаем
https://udlbook.github.io/udlbook/

Introduction
Supervised learning
Shallow neural networks
Deep neural networks
Loss functions
Training models
Gradients and initialization
Measuring performance
Regularization
Convolutional networks
Residual networks
Transformers
Graph neural networks
Unsupervised learning
GANs
Normalizing flows
Variational autoencoders
Diffusion models
Deep reinforcement learning
Why does deep learning work?
Deep learning and ethics

коды: https://github.com/udlbook/udlbook/tree/main
+ ноутбуки к каждому разделу https://github.com/udlbook/udlbook/tree/main/Notebooks

Агенты ИИ | AGI_and_RL

03 Sep, 10:53


Приходят как-то на синк разработчик, тестировщик и time.sleep(1), а он им и говорит: ребята, мы что, в анекдоте?

➡️ Ну почти: они в подводке к статье про то, как тестировать мл системы, что бы не потерять $100k.

#HABR

Агенты ИИ | AGI_and_RL

31 Aug, 10:42


Introducing NEO Beta
youtube.com/watch?v=bUrLuUxv9gE

Мы (1X Technologies) наконец-то показали нашего нового робота публично! Neo это наше второе (и на данный момент уже основное) поколение роботов. В отличие от Eve у Neo пять пальцев и две ноги, что позволяет решать гораздо больше задач. В отличие от других гуманоидных роботов Neo может безопасно находиться радом с людьми из-за compliant моторов, при этом он всё ещё обладает довольно большой силой, сопостовимой с другими гуманоидами (и может быть даже превосходящей некоторых). Надеюсь в ближайшее время мы пошерим больше деталей о том что уже сейчас может Neo.

(Продолжаю орать с комментариев о том что это человек в костюме, разработчики железа воспринимают это как комплемент пхпх)

Агенты ИИ | AGI_and_RL

29 Aug, 11:33


Так ребзя я тут подумол. Много разговоров о том, что RL не работает. Если у кого были успешные кейсы с рлем то напишите их сюда в комменты, где он у вас заработал и что полезного сделал.
Можно и кейсы где не заработал. Что и где пробовали и какие результаты получились.

Агенты ИИ | AGI_and_RL

28 Aug, 15:02


Ммм, там ребята из гугла дум запихивают в стейбл дифужн 1.4 (назвали GameNGen)

В чем смысл? Ну получить норм нейронковый симулятор дума + идеи ворлд моделс 🥴. Ну и вроде результат выглядит ок.

Вначале RL: PPO с CNNкой учится проходить уровни в симуляторе VizDoom и собирать таким образом траектории на которых потом учат диффузию. RL помог нагенерить более разнообразных данных, по сравнению с рандомом (рандому трудно делать более сложные последовательности действий).

Насобирали 900M фреймов (320x240) для тренировки. Потом потренили стебл дифужин 1.4. Получили 20 FPS на 1 TPU (окей, гугл).
После 20-30 шагов моделька начинала глючить. Ошибки постепенно накапливались с предыдущих семплов (авторы называют это auto-regressive drift). Добавили шума (и уровень шума использовали как параметр для модельки) на картинки во время трейна и полечилось. (3 скрин)

Попросили 10 человек поотличать короткие ролики (1.6, 3.2 секунды они и правда короткие) полученные из своего GameNGen и реального дума. Люди выбрали настоящий дум в 60% случаев.

Diffusion Models Are Real-Time Game Engines
https://arxiv.org/abs/2408.14837

https://www.youtube.com/watch?v=O3616ZFGpqw