Latest Posts from gonzo-обзоры ML статей (@gonzo_ml) on Telegram

gonzo-обзоры ML статей Telegram Posts

gonzo-обзоры ML статей
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
21,332 Subscribers
2,229 Photos
1 Videos
Last Updated 11.03.2025 07:43

Similar Channels

Denis Sexy IT 🤖
93,468 Subscribers
Just links
6,075 Subscribers

The latest content shared by gonzo-обзоры ML статей on Telegram

gonzo-обзоры ML статей

27 Feb, 22:37

5,800

Всех поздравляю!

https://openai.com/index/introducing-gpt-4-5/
gonzo-обзоры ML статей

26 Feb, 11:20

6,943

Сегодня выложили кернелы для матричных операций в FP8

https://github.com/deepseek-ai/DeepGEMM

DeepGEMM is a library designed for clean and efficient FP8 General Matrix Multiplications (GEMMs) with fine-grained scaling, as proposed in DeepSeek-V3. It supports both normal and Mix-of-Experts (MoE) grouped GEMMs. Written in CUDA, the library has no compilation need during installation, by compiling all kernels at runtime using a lightweight Just-In-Time (JIT) module.

Currently, DeepGEMM exclusively supports NVIDIA Hopper tensor cores. To address the imprecise FP8 tensor core accumulation, it employs CUDA-core two-level accumulation (promotion). While it leverages some concepts from CUTLASS and CuTe, it avoids heavy reliance on their templates or algebras. Instead, the library is designed for simplicity, with only one core kernel function comprising around ~300 lines of code. This makes it a clean and accessible resource for learning Hopper FP8 matrix multiplication and optimization techniques.

Despite its lightweight design, DeepGEMM's performance matches or exceeds expert-tuned libraries across various matrix shapes.

Неделя опенсорса продолжается!
gonzo-обзоры ML статей

25 Feb, 07:26

7,071

DeepSeek пошёл всё опенсорсить на этой неделе.

Сегодня опубликовали DeepEP, коммуникационную библиотеку для MoE с GPU кернелами
https://github.com/deepseek-ai/DeepEP

Вчера выложили кернелы для MLA
https://github.com/deepseek-ai/FlashMLA

Завтра ещё что-нибудь выложат.
gonzo-обзоры ML статей

25 Feb, 00:24

6,021

https://youtu.be/EtNagNezo8w
gonzo-обзоры ML статей

25 Feb, 00:23

6,065

Акустические модемы снова в моде!

https://devpost.com/software/gibber-link
gonzo-обзоры ML статей

24 Feb, 20:17

5,872

Обещают лучше на SWE
gonzo-обзоры ML статей

24 Feb, 20:13

5,406

О, Sonnet 3.7 подоспел!

У модели теперь можно включать Extended thinking режим:
https://www.anthropic.com/research/visible-extended-thinking

И вроде как они приняли решения не скрывать "мысленный процесс" модели. Это почётно. Гугл вот убрал :(

Цены прежние: $3/$15 за входные/выходные токены, последние включают thinking tokens.

https://anthropic.com/news/claude-3-7-sonnet
gonzo-обзоры ML статей

24 Feb, 19:51

4,531

Работа на самом деле год отлёживалась
gonzo-обзоры ML статей

24 Feb, 19:50

4,417

6.5 минут рассказа про работу с демонстрациями
gonzo-обзоры ML статей

24 Feb, 19:41

3,264

World and Human Action Models towards gameplay ideation
Anssi Kanervisto, Dave Bignell, Linda Yilin Wen, Martin Grayson, Raluca Georgescu, Sergio Valcarcel Macua, Shan Zheng Tan, Tabish Rashid, Tim Pearce, Yuhan Cao, Abdelhak Lemkhenter, Chentian Jiang, Gavin Costello, Gunshi Gupta, Marko Tot, Shu Ishida, Tarun Gupta, Udit Arora, Ryen W. White, Sam Devlin, Cecily Morrison & Katja Hofmann
Статья: https://www.nature.com/articles/s41586-025-08600-3
Модели: https://huggingface.co/microsoft/wham
Пост: https://news.xbox.com/en-us/2025/02/19/muse-ai-xbox-empowering-creators-and-players/
Более подробный пост: https://www.microsoft.com/en-us/research/blog/introducing-muse-our-first-generative-ai-model-designed-for-gameplay-ideation/

Не так давно на новый год я писал свой топ результатов (https://t.me/gonzo_ML/3175) и одним из них были World Models (https://t.me/gonzo_ML/3176), а также изменения, назревающие в игровой индустрии.

На прошлой неделе Microsoft (точнее Xbox) сделал сильный ход здесь, выпустив Muse.

Muse -- это World and Human Action Model (WHAM), обученная на игре Bleeding Edge (https://www.bleedingedge.com/en). Это модель, которая моделирует динамику игры, по сути позволяет играть.

Muse обучена на записях игры человека, она предсказывает кадры и действия игрока. Это декодер трансформера, работающий с дискретными токенами, в которых чередуются последовательности кадров и действий на игровом контроллере. За кодирование изображения в токены и декодирование обратно отвечает VQGAN.

Датасет -- это 500,000 анонимизированных игровых сессий, более 7 лет непрерывной игры по семи разным картам игры. Он и называется соответственно, 7 Maps. Есть фильтрованный вариант, где оставили карту Skygarden и 1 год игры.

Трансформеры (вариация nanoGPT) обучены размером от 15M до 894M с VQGAN на 60M параметров, и отдельный самый большой трансформер на 1.6B плюс ViT-VQGAN на 300M. Размер контекста -- 1 секунда игры, для малых трансформеров это 2,720 токенов, для большого 5,560. Размер картинки для малых 128×128 и 256 токенов, для большого 300×180 и 540 токенов.

Ну то есть по архитектуре всё довольно традиционно.

Бюджет на обучение большой модели 10^22 FLOPS. Скромно на фоне фронтира (https://epoch.ai/blog/tracking-large-scale-ai-models). Обучали на 98xH100 GPUs в течение 5 дней. PyTorch Lightning, FSDP, Flash Attention.

На HF опубликованы две модели, на 200M и 1.6B параметров.

Оценивали модель по Consistency (в геймплее не должно быть резких изменений и всё должно быть когерентно), Diversity (для поддержки ‘Divergent thinking’ нужно разнообразие!), Persistency (должна позволять модификации пользователем и давать интерактивность).

Позиционируют как для gameplay ideation. Но мы ждём нейроигр!