gonzo-обзоры ML статей (@gonzo

gonzo-обзоры ML статей

18 Feb, 18:20

3,797

Любопытные факты про Grok 3, который собрал Алекса Гордич в своём посте.

Surprising details about the Grok-3 release:

* Their current cluster already has 200k H100s/H200s. They initially reached out to datacenter facilities to ask how long for them to build them a 100k cluster and the timelines were 12-24 months, which was too slow, Elon said they'd definitely lose if they went that route.

So they found an abandoned factory in Memphis, an empty shell, and built custom electrical / cooling systems, using portable generators, Tesla packs to smoothen out the power spikes (due to the fact they're using synchronous gradient updates), etc.

It took them ~122 days to build the whole thing e2e with 100k H100s. And additional ~90 days to add 100k more. No one has ever done something like this.

* Elon announced they're building a new ~1.2 GW cluster of GB200s/GB300s - this is OOM larger than any other datacenter in the world, and their current datacenter is already the largest single cluster in the world.

* Igor said that while they were running Grok-3, AI engineers used to go to the cluster physically and plug off a node to make sure the run is robust to such pertrubations -> this is one of the things Elon does great, reduces barriers between designers/engineers, engineers/datacenter technicians, etc.

* Grok-3 is the first model to pass 1400 score on the arena :O

The scary obvious thing here is that due to the culture the team has, Elon's capability to attract capital and talent, and the rate of progress, I don't think anyone will be able to compete with them.

* They said they'll open-source Grok-2 as soon as Grok-3 is stable, in a few months. And they plan to keep that strategy going forward, open-sourcing last generation but still managing to stay competitive. They hide the chain of thought the same way OpenAI did.

Original video here: https://x.com/elonmusk/status/1891700271438233931

gonzo-обзоры ML статей

17 Feb, 23:47

3,919

Grok 3 анонсируют сегодня ночью, но я предпочту узнать про это из утренних газет.

gonzo-обзоры ML статей

16 Feb, 22:25

4,567

https://youtu.be/nltXzz9Aap8?si=1fXuJWpRObkbD9ZZ

gonzo-обзоры ML статей

16 Feb, 20:43

3,279

Matryoshka Quantization
[Статья]
[Код есть, но мы вам его не покажем]

Введение

Большинство методов квантизации готовят модель в некоторой заданной битности, и, если хочется иметь квантизованные модели разной степени сжатия, приходится прогонять алгоритм несколько раз и хранить где—то всю полученную пачку.

Команда из Глубокого Разума 🧠 на днях выкатила статейку по квантизации с примечательным названием Matryoshka Quantization 🪆, которая за один присест готовит квантизованные модельки в 2,4 и 8 бит.

Примечательно, что один из авторов, Kusupati, ранее публиковал другую работу про матрешки — Matryoshka Representation Learning.

gonzo-обзоры ML статей

16 Feb, 20:43

3,722

Метод

MatQuant по постановке ,поверх оптимизируемых методов квантизации, с обучаемыми непрерывными или дискретными параметрами.

Основная идея работы в том, что для целочисленных типов данных отстругивая младшие биты от представления с максимальной бытностью, возможно получать приближения разной точности, вложенные друг в друга, как матрешка.

Но если просто огрублять, скажем , int8 квантизацию, работает не очень, поэтому предлагается совместно оптимизировать разные битности одновременно в одном батче с разными весами.

MatQuant применяют поверх OmniQuant, в котором оптимизируются скейлы и biasы в квантизации через поблочную дистилляцию, и QAT, которая суть просто обучение (с кроссэнтропийным лоссом) с STE через недифференцируемую операцию квантизации.

Эксперименты

Метод валидируют преимущественно на Gemma 2 (2b и 9b) моделях и Мистрале 7b. Полагаю, что 🦙 и Квены не рассматривают из политических соображений (негоже поганых парнокопытных от Меты лапать, как и китайскую продукцию).

OmniQuant оптимизируют на 10, 20M токенах из C4, QAT на 100 M токенах. Причем в большинстве экспериментов квантизуют только FFN.

Качество оценивают по перплексии и 0—shots на lm-eval.

Наивное стругание из высокой битности работает сильно плохо на 2 битах, оптимизация под конкретную битность получше (когда храним много моделей), но все равно не очень, предложенный подход еще чуть получше.

Просадки довольно значительные — 13, 15% для 2b, 6-12% для 9b Gemma 2 модели. Если бы квантизовались все слои, 2 бита были бы Парето—оптимальными (ибо точность квантизованной 9b модели равна несжатой 2b), но, увы, нет.

Полагаю, что подобный результат можно выжать более дешевыми QuIP (без решетки) и 1—мерным HIGGS, как и EfficientQAT.

В ablation показывают, что совместная оптимизация в разными битностями накидывает немного в качестве. Веса лоссов при разных битностых перебирают по сетке.

При квантизации Attention слоев метод тоже лучше бейзлайнов, но просадки становятся еще значительнее с 74 до 47% (остальные методы работают чуть лучше рандома в 2 битах).

Выводы

Название работы красивое, и мотивация хорошая — но результаты все же не слишком впечатляют. Также утверждение, что они первые, кто об этом задумался, не соответствует действительности — была такая работа Any Precision LLM (Oral прошлого ICLR), где разные битности получали через SqueezeLLM. Кроме того, вложенные представления разной точности можно получать через Residual Quantization.

gonzo-обзоры ML статей

16 Feb, 20:43

3,525

Когда матрёшки (https://t.me/gonzo_ML/2037) не дают покоя!

gonzo-обзоры ML статей

13 Feb, 10:51

2,451

Интересное интервью с Джеффом Дином и Ноамом Шазиром. Вряд ли этих людей нужно представлять.

https://youtu.be/v0gjI__RyCY?si=iCmm5tXkonFehIZk

gonzo-обзоры ML статей

12 Feb, 18:56

gonzo-обзоры ML статей pinned «Хочу напомнить, что если вам нравится что я делаю и вы хотите поддержать мой проект, есть возможность это сделать. Патреон: https://patreon.com/GonzoML Boosty: https://boosty.to/gonzoml Substack: https://gonzoml.substack.com/ Cпасибо тем, кто уже это…»

gonzo-обзоры ML статей

12 Feb, 18:56

2,972

Хочу напомнить, что если вам нравится что я делаю и вы хотите поддержать мой проект, есть возможность это сделать.

Патреон: https://patreon.com/GonzoML
Boosty: https://boosty.to/gonzoml
Substack: https://gonzoml.substack.com/

Cпасибо тем, кто уже это делает! Это помогает мне быть более up-to-date, оплачивая разные подписки и кредиты сервисам.

gonzo-обзоры ML статей

12 Feb, 11:55

2,957

И сразу в дополнение, обновлённый вариант s1 под названием s1.1, обученный на тех же самых 1к вопросов, но с трейсами DeepSeek-R1 взамен Gemini, даёт ещё лучшее качество. Трейсы R1 гораздо более разнообразны по длине.

https://x.com/Muennighoff/status/1889310803746246694

gonzo-обзоры ML статей のテレグラム投稿

類似チャンネル

gonzo-обзоры ML статей

gonzo-обзоры ML статей

gonzo-обзоры ML статей

gonzo-обзоры ML статей

gonzo-обзоры ML статей

gonzo-обзоры ML статей

gonzo-обзоры ML статей

gonzo-обзоры ML статей

gonzo-обзоры ML статей

gonzo-обзоры ML статей