Love. Death. Transformers. @lovedeathtransformers Channel on Telegram

Love. Death. Transformers.

@lovedeathtransformers


❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам

Love. Death. Transformers. (Russian)

Любовь. Смерть. Трансформеры. Все эти элементы объединяются в удивительном Telegram канале под названием @lovedeathtransformers. Если вы устали от обычных каналов и хотите окунуться в мир, где кипит страсть, власть и драки, то этот канал для вас.

В канале вы найдете увлекательные обсуждения, интересные факты и многое другое, связанное с любовью, смертью и конечно же, трансформерами. Этот канал не про науку, здесь нет скучных теорий и формул. Здесь самая настоящая эмоциональная атмосфера, которая заставит вас задуматься и возможно даже изменит ваш взгляд на мир.

Если вы готовы окунуться в этот мир и обсудить все его тонкости, присоединяйтесь к @lovedeathtransformers. Опыт ресерча приветствуется, но даже если у вас нет такого опыта, не переживайте - здесь с вами поделятся и помогут разобраться. Не упустите возможность стать частью этого уникального сообщества. ❤️☠️🤗

Love. Death. Transformers.

19 Feb, 22:44


Довольно любопытный блогпост от hf как запускать трейн на 512 картах для современных моделей. Охватывает старые статьи и блогпосты от deepspeed Megatron и прочих ребят.

Прикольно описаны модные expert parallelism, теперь мэнджеры прочитают и узнают что latency между нодами увеличивается в разных сетапах.

Любопытно почитать для ознакомления или прохождения собесов в компании где ещё верят что могут сделать модель лучше чем Claude.



Если честно мне вот это:

https://jax-ml.github.io/scaling-book/roofline/

Понравилось сильно больше

Love. Death. Transformers.

19 Feb, 16:54


Qwen2.5-7B-Instruct-Tool-Planning-v0.1

Первый vikhr обученный на Function Calling а так же Tool planing!
Модель обучена преимущественно на английском и это экспериментальный чекпоинт, используйте и пишите отзывы!

🔗модель
🔗датасет

Love. Death. Transformers.

19 Feb, 14:27


Я думаю, лет через десять простые мужики в дамки выйдут. Сварщики, маляры, каменщики с руками, пчеловоды, кузнецы — те, кто унитаз установить могут, бетон замесить правильно, проводку починить. Таких дел мастера, которыми чат джи-пи-ти заниматься не сможет.

Будет потом стоять сантехник, крутить гайку на пальце и говорить вальяжно: «Не, у меня на ближайшие полгода всё расписано. Я на зимовку еду раковины менять на Бали. Сри в ведро, фронтенд-разработчик, приеду — наберу. Если не забуду».

Дизайнеры и прочие специалисты будут хуй сосать вкусный, а потом ещё с программистами за этот хуй в кулачных боях сражаться — и с маркетологами тоже. Думаете, я преувеличиваю? У меня уже троих знакомых так с работы уволили, а между тем ко мне недавно приходил сантехник батареи включить, десять минут работал – взял 175 евро. И это только начало.

Женщинам совет сразу дать могу: привыкайте, бабоньки, к запаху пота, машинного масла и перегара, к волосатым хуям и одышке. Среди строителей мало кто знает, кто такой Эндрю Губерман и Брайан Джонсон. Скоро придётся менять предпочтения, особенно если вы считаете, что мужчина должен вас обеспечивать, а ваша главная задача — вовремя брить ноги и вдохновлять мужчину своими потребностями. Наматывайте на ус — в этой игре наступают новые правила. Скоро в моду войдут растянутые трико, пивные животы и лысины. Такая посадка штанов, когда жопу видно.

Ох, я уже вижу эти инстаграмы! Эти курсы о том, где познакомиться с гробовщиком, как одеться на свидание со стекольщиком, как заинтересовать беседой штукатура.

Вперёд же, в новый дивный мир!

Украдено из @potatomedia

Love. Death. Transformers.

19 Feb, 12:47


Уже в эту пятницу состоится первая в истории встреча семинара! Открывать его будет Игорь Шиманогов, в течение нескольких заседаний он расскажет о счётных булевых алгебрах.

ПЯТНИЦА 21.02 18:30 907КПМ

Love. Death. Transformers.

18 Feb, 12:50


Какой agi? Какой gpt4.5? Берем сетап на 8.3 и поехали

Love. Death. Transformers.

18 Feb, 11:53


#моп_поймет
Отклик сюда: https://forms.gle/z45WwdBTRHrd8inM9

Love. Death. Transformers.

18 Feb, 06:07


Снова про JAX.

Если моя книга “Deep Learning with JAX” (https://t.me/gonzo_ML/2926) для вас ещё не является достаточной мотивацией освоить этот продвинутый фреймворк, то вот вам ещё пара крутых свежих материалов:

The PyTorch developer's guide to JAX fundamentals
https://cloud.google.com/blog/products/ai-machine-learning/guide-to-jax-for-pytorch-developers

Короткий гайд по созданию модели для тех, кто привык к PyTorch и хочет сравнить. Пример использует новый Flax NNX API (писал про него в посте JAX things to watch for in 2025, https://gonzoml.substack.com/p/jax-things-to-watch-for-in-2025), но есть также и пример на более старом но всё ещё популярном Flax Linen API.

================================

How to Scale Your Model

A Systems View of LLMs on TPUs
https://jax-ml.github.io/scaling-book/

Это прям целая книга про скейлинг LLM на TPU. Содержит несколько секций:

1. All About Rooflines
https://jax-ml.github.io/scaling-book/roofline/

Объясняет, что такое roofline model (писал про неё когда-то давно тут https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664). Это безумно важно понимать для оптимизации ваших вычислений, не всё определяется флопсами, многие алгоритмы ограничены коммуникацией, в смысле пересылкой данных, не обязательно в распределённой системе, даже при неудачно организованном чтении из памяти можно оказаться в ситуации, когда ваш GPU/TPU используется лишь на 5% и до пиковых флопс как до Луны.

2. What Is a TPU?
https://jax-ml.github.io/scaling-book/tpus/

Объясняет, что такое TPU (про это я тоже писал ещё давно https://moocaholic.medium.com/hardware-for-deep-learning-part-4-asic-96a542fe6a81), что такое систолический массив, какие блоки есть внутри, как связываются ускорители в Pod, каковы характеристики разных TPU от v3 до v6e.

3. Sharded Matrices and How to Multiply Them
https://jax-ml.github.io/scaling-book/sharding/

Подробно разбирает как работает шардинг (разбиение вычислений больших тензоров по нескольким ускорителям). Параллелизация, Collective Operations -- всё тут. У меня в книге этому посвящена 8-я глава, а кроме неё есть глава 7 про более классический метод параллелизации (pmap) и приложение D про уже устаревшие экспериментальные подходы, которые тем не менее могут помочь лучше понять как мы пришли в текущую точку.

4. All the Transformer Math You Need to Know
https://jax-ml.github.io/scaling-book/transformers/

Вся основа трансформеров на уровне вычислений. Где какие операции, как считать флопсы и параметры, MoE, Gradient checkpointing, KV caching, Flash Attention.

5. How to Parallelize a Transformer for Training
https://jax-ml.github.io/scaling-book/training/

Обсуждение разных видов параллелизма на примере трансформера: data parallelism, fully-sharded data parallelism (FSDP), tensor parallelism, pipeline parallelism.

6. Training LLaMA 3 on TPUs
https://jax-ml.github.io/scaling-book/applied-training/

Как применить все эти знания к обучению реальной модели (Llama 3) на TPU v5p. Что такое Llama 3, как отшардить модель LLaMA 3-70B.

7. All About Transformer Inference
https://jax-ml.github.io/scaling-book/inference/

В чём особенности инференса для трансформеров, где боттлнеки, что с памятью, что с latency. MHA, MQA, GQA (про MLA ещё нет: https://t.me/gonzo_ML/3292). KV cache, распределение инференса по разным ускорителям, фазы инференса (prefill, generation), шардирование KV-кэша, _много_ оптимизаций инференса.

8. Serving LLaMA 3-70B on TPUs
https://jax-ml.github.io/scaling-book/applied-inference/

Как применить все эти знания к инференсу реальной модели, той же самой Llama 3-70B.

9. How to Profile TPU Programs
https://jax-ml.github.io/scaling-book/profiling/

Как профилировать код на TPU и искать боттлнеки. Как работает компилятор XLA, что такое HLO (я много это разбираю в главе 5 своей книги, про компиляцию), что такое JAX TPU profiler, Trace Viewer, Graph Viewer, как делать профилирование памяти.

10. Programming TPUs in JAX
https://jax-ml.github.io/scaling-book/jax-stuff/

Love. Death. Transformers.

18 Feb, 04:49


На live code bench где то как о1 low

Love. Death. Transformers.

18 Feb, 04:44


Grok3 выиграл арену и пробил 1400 elo

И ещё есть deepresearch

И это не reasoning модель( reasoning в бета версии)

Love. Death. Transformers.

17 Feb, 16:58


Эта же лаба, выложили Step-Audio 130B aulm
и еще 3b для тех кто победнее

github

Love. Death. Transformers.

17 Feb, 08:22


Step brother, please have fun

StepFun text2video 30b(e б а т ь) и это опенсурс. И с MIT лицензией.

И очень бодрый motion. Вау.

Архитектруно очень похоже на huynan video.

Выложили distilled и undistilled версии(Можно доучивать на i2v)

Github

Love. Death. Transformers.

16 Feb, 17:29


Нет ничего более страшного чем скучающий ум.

Ребята делают opensource car autopilot, который подключается шнурком по USBC, работает по 1 камере(!)

А ещё вы можете туда добавлять кастомные прошивки.

GitHub

Love. Death. Transformers.

16 Feb, 11:42


щаща дружбан трампыня придет, снимет В С Е санкции, Илон маск пообещал GigaGrok 4 обученный на Cristofary NEO 2м карт(кластер построят в тундре, чтобы не охлаждать) Хуанг общеает открытие базовой кафедры на физтехе.

Сэм Альтан обещает турне по вузам - от Теплых мужских отношений до Goida Aligment. А Канал Аишная объявят первым офицальным PR каналом oai в России!!
Что это было?(в картинках)

Love. Death. Transformers.

16 Feb, 09:17


Загадка от подписчика

Love. Death. Transformers.

15 Feb, 14:54


Vibe coding in nutshell

Love. Death. Transformers.

14 Feb, 21:22


POV человека который знает что хочет от жизни сегодня вечером:

Love. Death. Transformers.

13 Feb, 22:38


Две опции будущего

Love. Death. Transformers.

13 Feb, 13:03


Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling

Вероятно пока что лучший пример применения its, nvidia говорит - писать кернелы заебно и сложно, точно не потому что у нас их писало два китайских бакалавра, а документация есть только на китайских двачах


Cобственно челы накидывают классический prompt рерайт, отбирают кернелы на основе Kernel bench , обновляют контекст и получают 50% ускорения бесплатно.

И такой воркфлоу выдает 100% точности на level1 kernels(matmul, ln и прочее)
и 96% на level2( conv + bias + ReLU)

Ну и да, в отличие от CodeForces эта штука имеет применение в реальном мире.

nvidia blog

Love. Death. Transformers.

13 Feb, 12:36


https://getmentor.dev/#list

могу бесплатно дать совет: не работать в ебучем ИТ и тем более не вкатывать на перегретый рынок(только если реально любите и ничего другого не хотите)

Love. Death. Transformers.

13 Feb, 09:18


Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают.

https://huggingface.co/blog/open-r1/update-2

Нагенерили датасетов (трейсы с R1 к решению мат задачек из https://huggingface.co/datasets/AI-MO/NuminaMath-1.5). По 2-4 трейса на задачу. Ну и рассказывают как собирали и чистили.

почищенные 220к задач с решениями:
https://huggingface.co/datasets/open-r1/OpenR1-Math-220k

нефильтрованные 516,499 задач и 1,209,403 решений:
https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw

-
PS покайфу собираем все что с мл/ии связано в группе https://t.me/researchim

Love. Death. Transformers.

12 Feb, 12:02


Как в Яндексе заменили сложную разметку на LLM

В конце прошлой осени Команда качества поиска одной из первых в Яндексе смогла существенно удешевить сложную асессорскую разметку за счёт генеративной модели. Татьяна Климук, руководитель Службы исследований и качества ранжирования, рассказала, как работали над технологией.

Яндекс использует услуги тысяч асессоров, которые каждый день выполняют десятки тысяч заданий по оценке выдачи с точки зрения качества и релевантности. Это дорогой, долгий и сложный процесс.

Идея проекта в том, чтобы отдать рутинную работу по разметке сильной нейронке. При этом мы не отказываемся от асессоров, а переключаем их на разметку более важных и сложных кейсов, а также поручаем контролировать корректность работы модели.

Архитектура

Мы начали с экспериментов с базовым претрейном от YandexGPT. На вход подавали сжатую инструкцию, запрос и контент документа, на выходе получали решение о принадлежности к одной из категорий релевантности.

Однако промптинг даже SoTA-моделей пока не даёт нужного качества на нестандартных кейсах. Инструкция оказывается для них настолько сложной, что без дообучения ни одна модель не справляется с ней. Поэтому на старте получилось выжать только 55% качества асессоров.

Тогда мы сделали ряд улучшений:

— Взяли претрейн от Нейро, который лучше понимает поисковый домен и легче обучается решать поисковые задачи.
— Обучались не просто на метку класса, но и на подготовленные Chain-of-Thoughts, чтобы научить модель больше думать перед тем, как она даёт ответ.
— Добавили внешние данные — знания, необходимые для понимания контекста, которые нельзя извлечь из текста. Пример таких знаний — то, какие страницы в сети официальные, а какие — нет.
— Подавали данные для обучения в нужном порядке — от более мусорных к более качественным.

Так мы добились качества 102% относительно разметки асессоров, что уже было неплохо. Но оставался риск «сломать» Поиск — поэтому нужно было проверить модель на разных классах запросов, исключить риск деградации со временем и учесть другие нюансы.

Решение

В итоге мы придумали решение, которое использует оценку как от людей, так и от нейросети. Мы стали извлекать из неё не только ответ по инструкции, но ещё и уверенность в этом предсказании. В зависимости от степени уверенности мы принимали решение, использовать ли в задаче человеческий ресурс.

— Если модель уверена в ответе, скорее всего, задача простая и не требует помощи асессоров. С этими кейсами она нередко справляется даже лучше людей. Таких задач оказалось около половины от общей массы.
— Если модель не до конца уверена в ответе, привлекаем её вместо одного из трёх асессоров. Размер этой зоны — около 30%.
— Когда модель говорит, что совсем не уверена в решении, отдаём задачу трём сильным асессорам — как это происходит в стандартном процессе. Таких задач порядка 20%.

Результаты и планы

С помощью этого решения мы получили 105% качества и 60% экономии денег.

Мы уже используем его экспериментально в разметке обучающих и валидационных пулов для моделей ранжирования, но конечный мониторинг интегрального качества поиска пока остаётся на людях.

Планируем продолжать наращивать качество и запускаться на новых разметках. Также в долгосрочных планах — свести процесс к промптингу, когда ты не обучаешь модель, а описываешь задачу текстом. Так мы сможем более гибко менять инструкции разметок без переобучения модели.

Мы рассчитываем, что решение поможет нам перекинуть рутину на нейронки, а людям давать более интересные и сложные задачи.

ML Underhood

Love. Death. Transformers.

11 Feb, 21:16


"Aha moment"


🔗Mlx quant

Love. Death. Transformers.

11 Feb, 21:05


⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .


🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r

Love. Death. Transformers.

11 Feb, 11:22


QuEST: Stable Training of LLMs with 1-Bit Weights and Activations
[Статья][Код]

Введение

Уважаемые коллеги из IST, в частности, @black_samorez выпустили статью про стабильное обучение моделей с квантизованными весами и активациями.

Статей с той же аббревиатурой пруд пруди на архиве:
- Вот
- Вот
- Вот
- И вот

Но эта - особенная!

Ранее уже неоднократно поднимался (в том числе и на этом канале) вопрос о том, в какой точности оптимально учить модель (веса и активации), дабы получить наилучшее качество при заданном размере (через PTQ или QAT). Ранее утверждали, что 6-7 бит оптимально при квантизации весов и активаций в INTx/FPx. Но сама процедура была незамысловата, и нет гарантий, что нельзя пробить существенно Парето-фронт. Свежие результаты (смотри краткий обзор на gonzo-ml) показывают, что в fp4 тоже можно эффективно обучать.

В данной же статье авторам удается достичь Парето-оптимальности в W3A3/W4A4 и стабильного обучения в W1A1 😮 (уже не оптимального, но на одном уровне с fp16).

Love. Death. Transformers.

11 Feb, 09:07


ризонинг, больше токенов нужно, нуну

Love. Death. Transformers.

10 Feb, 11:18


Претренить нужно в INT4

Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.

Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.

Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.

Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!

Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.

Love. Death. Transformers.

10 Feb, 09:13


мы еще увидим создание брендов вокруг gpt_like моделей, когда будут и экономичные практичные модели для всех, и вариации на тему: а вот вам премиум, который универсальный комбайн в кучей интеграций и стоит как реальный человек, а то и больше. В конце концов иметь консьерж сервис который не тупой и умеет смотреть в gmail и ставить встречи нормально - действительно big thing.

Ну и да, судя по тому что AI продукты тепер рекламируют мы ближе к вершине сигмоиды, люди которым не надо было обьяснять зачем им LLM в кармане не бесконечны.

И подписки на премиум гпт от какой нибудь balanciaga с отдельным эпом и озвучкой от звезд.

Будушее из blade runner/2077 ближе чем вы думаете.


ну и жду хорошего аналитического текста где сравнят будущую рекламную компанию chatgpt и последующих с рекламными компаниями apple, hp и прочих

Love. Death. Transformers.

09 Feb, 19:07


О, ещё одну экспоненту нашли

Love. Death. Transformers.

09 Feb, 12:32


Better & Faster Large Language Models via Multi-token Prediction

Вероятно самая недооценная работа последнего года.

В чем идея: у нас самая замедляющая инференс часть это decoding. Есть спекулятивный когда мы можем предсказывать вероятности маленькой моделью и подключать большую только если маленькая не уверена. Работает это средне и очень не стабильно.

Авторы предлагают следущее: давайте сделаем многоголовый трансформер, который будет предсказывать N токенов за раз!
Авторы предлагают учить такие головы последовательно на одних и тех же данных(в целях экономии памяти) и заводят это как большой post training(200b токенов поверх llama2)

Cобственно благодаря тому что трансформер предсказывает сразу x3 токенов мы получаем скорость инференса x3 бесплатно, да еще и прирост на бенчмарках!

paper
offical model

Love. Death. Transformers.

07 Feb, 17:32


Ща будем прочищать всех кто не в курсе что все модели с гпт3.5 и выше с этим справляются по причине: отсутствие элементарной экспертизы в области

Love. Death. Transformers.

07 Feb, 16:57


о3!!!
может!!!
написать!!!
тюн лламы на чистом торче.

Love. Death. Transformers.

07 Feb, 10:54


пока вк хантит пусек с 3лет опыта на джуна, зумеры в 17 идут на Lead_a

Love. Death. Transformers.

07 Feb, 10:40


Ищу Джуна MLE

😺опыт 5 лет
😺минимум 5 статьей на конфах A*
😺должен знать все основы, чтобы пройти мой тех собес. Там по мелочи, от всех компонент трансформера и как масштабировать модель до новых подходов в диффузионных моделях
😺Work life balance будет зависеть от вашей способности работать быстро и делать 3 задачи в день
😺Платить будем вам нашими коинами компании. Зп по договоренности, конечно, но вы же должны понимать, что Джун наглеть с вилкой не должен

Love. Death. Transformers.

07 Feb, 08:37


никогда не спрашивайте зачем учить модели на ризонинг без онлайн RL этапа

Love. Death. Transformers.

05 Feb, 11:41


Контекста не будет

Книга не моя, поддержите авторов, они молодцы

Love. Death. Transformers.

05 Feb, 11:38


Внезапная филлер арка моей жизни о которой никто не просил: я недавно делал фотосессию и одну из фотографий приняли в какой-то крутой журнал для арт-фотографов, так что я теперь официально модель 💅💅💅

Надо будет это фото в Google Scholar поставить

Подстраховываюсь от сингулярности как могу

Love. Death. Transformers.

04 Feb, 20:15


Ладно уже не смешно.

Hf выложили свой deepresearch на o1, c полностью открытым кодом, на Gaia выдает 55%(против 67% у openai)

Блог: huggingface.co/blog/open-deep-research

Love. Death. Transformers.

04 Feb, 09:34


Выводы по DeepResearch:
1) Это третий за пол года довольно сырой релиз OAI, как будто ему бы еще пару месяцев покрутится, досадные баги с "щаща вернусь" прям расстраивают. Его почему то нет в эпке на мак, а хотелось бы.

2) Полагаю что сырость связана с тем что Operator и DeepSearch это две приниципиально разные концепции взаимодейсвтия с интернетом. Да, Operator перспективнее потому что может управлять вообще любым UI(хоть фотошоп, хоть в доте персонажа качать). Но текущие модели ограниченные, поэтому DeepSearch ощущается сильно полезнее - какого то гениального ресерча он не напишет, но накидать по теме статей по теме он способен, и извелечь хоть сколько то информации из них. Тул скорее полезный, чем нет.

Мой пример чата, написал бы я сам лучше и быстрее? Да.
Стоит ли промптить на русском? Нет.
Написала ли модель ерунду? Скорее нет, но полезнее среднего человека не в контексте.

Love. Death. Transformers.

04 Feb, 08:59


актуальный вопрос для любого админа тг канала

Love. Death. Transformers.

03 Feb, 16:40


Опрос показал, что 26% ждет адаптацию 14B модели, и вот мы ее подготовили - RuadaptQwen2.5-14B-Instruct 🎉
Провели модель через процедуру адаптацию, отлаженную на 7B версиях. На подходе также версия с 1M контекстом (будет UPD к этому посту).

Метрики:
1) RuArenaGeneral (https://huggingface.co/spaces/Vikhrmodels/arenahardlb) - 88.63 (на одном уровне с RuadaptQwen2.5-7B-Lite-v1)
2) shlepa (https://huggingface.co/spaces/Vikhrmodels/small-shlepa-lb) - 0.477
3) MERA (0.522 с обычным системным промптом, 0.551 с кастомным)

Итого, по метрикам как будто не должно быть лучше, чем RuadaptQwen2.5-7B-Lite версия, но я что-то сильно в этом сомневаюсь, в частности, некоторые внутренние бенчи + mmlu (ru и en) лучше у 14B версии. Так что особенно будем рады отзывам на данную модель (а также и на другие модели из серии Ruadapt) с целью дальнейшего улучшения качества.

Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-Instruct
GGUF версия: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-instruct-GGUF

Love. Death. Transformers.

03 Feb, 14:25


О неочевидном поведении DPO и улучшениях SMPO в новой SLM от VIkhrModels

Недавно вышедшая QVikhr-2.5-1.5B-Instruct-SMPO, отличается не только лучшим качеством среди наших небольших тюнов, сопоставимым местами с 7B моделями, но и улучшениями в нашем методе алайнмента SMPO.

В ходе большого количества экспериментов я заметил, что офлайновая DPO-like (любая, в том числе и SMPO, ORPO, SimPO и тд) тренировка, часто при обучении может приводить к вырожденным решениям, например, таким, где модель теряет EOS токен при генерации и уходит в повторения или просто в генерацию сломанных токенов.

После небольшого расследования выяснилось, что частично такое поведение объяснимо поведением логарифма при вычислении логпробов токенов (картинка 1), которые в свою очередь участвуют в вычислении ревордов, разница между которыми и оптимизируется в DPO. Вычисляя логарифм чисел в районе 0, вы легко можете получить неограниченное падение логпроба в минус бесконечность. В случае DPO вы эти логпробы потом складываете, в случае SMPO они усредяются по всему комплишену. И в том и в другом случае, вы не спасаетесь от возможных значений-выбросов на конкретных токенах.

Если говорить более простыми словами - если ваш rejected содержит какието очевидные закономерности в токенах, которые его отличают от chosen, то модель через DPO может научится занижать логпробы именно этих токенов в минус бесконечность (т.е. обнулять вероятность) и выигрывать тем самым objective DPO, при этом для более "умных" последовательностей токенов, которые вы хотели бы тоже выучить, оптимизация может вобще не произойти, приводя к довольно тупым результатам, частое из которых это занизить логпроб EOS токена на всех rejected, тем самым почти уничтожив вероятность его генерации на OOD примерах - получаем проблему бесконечных повторений.

Конечно, такое поведение связано с плохой регуляризацией в RL. Выбор меньшего lr, уменьшение гипермараметра beta (в dpo), использование KL (как в DPO) или rejected и chosen SFT амортизации (как в SMPO), лучший выбор модели (какие-то меньше подвержены), использование model merging между SFT и PO стадиями тренировки, в целом обучение не до конца, частично помогает бороться с таким хаком обжектива. При тренировке Vikhr-Nemo было проведено немало экспериментов с гиперпараметрами, но проблема не была полностью вылечена.

В итоге, для тренировки наших следующих моделей мы теперь используем модифицированную версию SMPO (картинка 2), в которой было решено ввести штраф на занижение EOS токена для rejected комплишенов, а также сделать винзоризацию и клиппинг экстремальных значений логпробов, что позволило частично решить проблему нежелательного переобучения.

Модифицированный SMPO и конфиги обучения уже доступны в нашей библиотеке Effective LLM Alignment

Love. Death. Transformers.

03 Feb, 13:37


Метрики подъехали. Оригинал 47.23
Успех?
Да

https://huggingface.co/spaces/Vikhrmodels/arenahardlb

Love. Death. Transformers.

03 Feb, 11:53


⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO-GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing

Коллектив авторов: @LakoMoorDev @nlpwanderer

Love. Death. Transformers.

03 Feb, 10:41


Инженер LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ

Чем предстоит заниматься:

Дообучение и Оценка Sota llm, аттаки на blackbox модели

Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).

Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).

Оптимизация инференса (vLLM, SGLang, TRT).

Требования:

Опыт работы с LLM (архитектуры, RL, alignment).

Знание PyTorch/JAX.

Реальная практика с RL методами (DPO, RLHF — плюс).

Опыт с системами инференса (vLLM, kuber, docker).

Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.

Преимущество:

Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.

Условия:

Зарплата: 80K–130K usd + опционы.

Релокация в Париж🥐, полная занятость.

Работа с передовым стеком (AI research, model alignment).

Отклик:
https://forms.gle/z45WwdBTRHrd8inM9

Love. Death. Transformers.

03 Feb, 09:41


Ну как там с задачей?
Делаю
А когда сделаешь?
Доделаю напишу

PHD level inetelegence, finnaly

Love. Death. Transformers.

02 Feb, 11:22


в юном технике говорят была статья: законы масштабирования обучения БЯМ

Love. Death. Transformers.

02 Feb, 08:51


Конференция local:llama!

O
дни из лучших докладов из того что я видел за последнее время, слушать стоит почти всё, но особое внимание я бы уделил: quantizing your gguf,
history and advances of quantization in llama.cpp

Стрим
Страница

Love. Death. Transformers.

31 Jan, 20:56


NVIDIA DIGITS
Новый самый лучший домик для Плотвы!

Love. Death. Transformers.

31 Jan, 17:10


картинка охуенная

Love. Death. Transformers.

31 Jan, 17:09


все опять украли у Шмидхуберта

Love. Death. Transformers.

31 Jan, 15:42


🔸 Open Talks Special: Лидеры русскоязычного open source LLM в одном эфире.

5 февраля в 19:00 собираем ключевых независимых разработчиков опенсорсных русскоязычных LLM и говорим о том, что волнует AI-сообщество прямо сейчас:

➡️ Как создаются русскоязычные LLM и с какими вызовами сталкиваются их разработчики?

➡️Что ждет опенсорсные AI-решения в будущем?

➡️ Как DeepSeek меняет правила игры?

Спикеры:

🎤 Михаил Тихомиров – научный сотрудник НИВЦ МГУ, занимается адаптацией мультиязычных LLM, создатель Ruadapt➡️Топовая модель показывает 92 балла на балла на Ru Arena General

🎤 Илья Гусев – автор Сайги ➡️одной из самых скачиваемых русскоязычных моделей на HF, а также role-play бенчмарка PingPong

🎤 Александр Николич – один из авторов Rudalle и Kandinsky, создатель Vikhr models ➡️ одни из лучших моделей на русском языке до 20B параметров, один из самых популярных бенчмарков

🔸 Проведет эфир Павел Подкорытов, сооснователь AI Talent Hub и CEO Napoleon IT.

🤔 Не увидел важного вопроса в анонсе?

➡️ Регистрируйся и задай свой вопрос экспертам!

Приходи! Без тебя – не то 💘

#OpenTalks
#AITalentHub #ITMO #NapoleonIT

Love. Death. Transformers.

30 Jan, 21:55


Yet another сервис генерации аудио, звучит бодро
riffusion.com

Love. Death. Transformers.

30 Jan, 15:23


Перспективный ai safety стартап ищет таланты, если вы:
- уметее заводить модели из PR hf
- знаете почему Rl works badly и умеете заставлять его работать
- на глаз прикидываете elo LLM
- слегка уметее в байес оптимизации, генетику и прочее постыдное не гладкое
- имеете широкий опыт обучения и инференса
- знаете почему sglang лучше чем vllm
- знаете почему ai твиттер хуйня

Вилка от 80-130k/eur+ опционы

Пишите в @transformerslovedeatch

Love. Death. Transformers.

30 Jan, 14:33


с Qwen соревноватся очень тяжело, mistral small на 22b немного хуже 32b qwen

mistral small

Love. Death. Transformers.

29 Jan, 18:25


Мало кто знает но вихри делали датасеты математики и мультимодальный датасет физики.

Love. Death. Transformers.

29 Jan, 17:04


https://darioamodei.com/on-deepseek-and-export-controls

никто вас не обгонит кроме лабы китайцев которые знают что делают, а еще делают в опенсорс.

Слава богу я работяга, а не топ мэнэджер с меня не спрашивают почему Дипсик смог сделать за 5м usd, а я нет.

Сил людям работающим ртом и обьясняющим почему они а не мы

Love. Death. Transformers.

29 Jan, 16:47


я клянусь я видел как спейс марин чесал жопу

Love. Death. Transformers.

29 Jan, 15:16


Украл у @whargarbl

Love. Death. Transformers.

28 Jan, 22:31


Huggingface за 4 дня зарепродьюсили R1 дистиляции.

Кажется это первый на моей памяти паблик репорт с работающим online RL для LLM и кодовой базой.

Под Online RL в данном контексте имеется ввиду grpo где честно сэмплятся гипотезы, оцениваются ревардом и в зависимости от правильности ответа R+\-



Code

Love. Death. Transformers.

28 Jan, 19:02


У нас было три фуллтайм работы руководителями ИИ в системообразующих банках, две аспиратнуры в разных странах, множество каггл соревнований, репозиторий с 40 звездами на гитхабе, папиры на arXiv котоыре писали китайцы за бабки включайщие в соавторы и телеграм канал про ИИ который вел агент на GigaChat Pro. Если начал собирать ачивки для резюме становиться трудно остановиться.
Единственное что вызывало реальные опасения это телеграм.

Нет ничего более беспомощного и безответственного чем админ телеграм канала который стремиться хайпить каждый день на ворованных мемах, но я знал что рано или поздно мы перейдем и на эту дрянь...

Love. Death. Transformers.

28 Jan, 14:05


Как сделать так, чтобы поисковая строка в картах по запросу “Патреки” возвращала точные координаты Патриарших прудов и советовала не появляться там в пятницу вечером?

Геокодирование требует от алгоритма понимания нетривиальных запросов пользователей и их безошибочной конвертации в координаты на карте.

На Хабре выкатили кулстори про то, как создавался Геокодер от API Яндекс Карт — в нем начинка из contrastive learning, active learning и data augmentation. Говорят, за пару недель его можно обучить адресной системе любой страны.

Love. Death. Transformers.

28 Jan, 09:20


YuE (乐)

Вам не нужна навороченная диффузия чтобы генерировать музыку, достаточно лламаобразной модели доученной на свой навороченный кодек (по сути новые токены) и все будет работать.


blog+demo
model

Love. Death. Transformers.

28 Jan, 08:58


Как сделать большие языковые модели по-настоящему умными?

Не упусти возможность разобрать эту тему уже завтра с Михаилом Бурцевым — ведущим исследователем в области диалоговых систем, ML и AI в Лондонском институте математических наук.

➡️ Регистрируйся на Reading Club: 29 января.

Эксперт: Михаил Бурцев

⭐️ PhD в Computer science
⭐️ Landau AI Fellow, LIMS.
⭐️ Был приглашённым исследователем в Кембридже.
⭐️ Под его руководством была разработана, отмеченная наградами, открытая платформа для создания диалоговых AI-систем DeepPavlov.
⭐️ Автор множества публикаций в ведущих научных журналах.

📄 Статья: Learning Elementary Cellular Automata with Transformers

Когда: 29 января в 18:30 [+3 МСК]

🔗 ЗАРЕГИСТРИРОВАТЬСЯ

Приходи. Будет интересно!

#ReadingClub #AITalentHub #ITMO #NapoleonIT

Love. Death. Transformers.

27 Jan, 23:46


Закрывайте интернет, а то китайцы архив скачают и agi tomorrow. То насколько сильно западный интернет недооценивал китайцев прям доставляет

Love. Death. Transformers.

27 Jan, 22:21


В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1

https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1

Love. Death. Transformers.

27 Jan, 16:15


Фаундер хэдж фонда попросил LLM агентов заработать денег

Агент от OpenAI: Начал скрапить весь твиттер подписываясь на смарт аккаунты, и покупая все мемкоины которые упоминаются в их постах

Агент от XAI: половину капитала вложил в опционы, а вторую половину в NFT с котиками

Агент от Anthropic: инвестирует в компании согласные с его политикой AI safety, но пока сидит в кэше, потому что еще не нашел ни одной подходящей компании

Агент от Meta: Решил создать соцсеть Threands чтобы трейдеры постили свои рекомендации, пытается предиктить движение по сентимент анализу постов

Агент от DeepMind: Разработал сверхсложный алгоритм для трейдинга, но забыл как он работает и теперь нанимает phd по трейдингу чтобы они его зареверсили

Агент от Deepseek: создал "государственный хедж-фонд" для управления пенсионными накоплениями, но все деньги пошли на покупку серверов, которые майнят криптовалюту в подвале минцифры

Агент от Mistral: Решил что трейдинг это скучно и теперь мутит темки с математиком из Лондона

Агент от Yandex: Украл стратегию Goldman Sachs, продал Сберу, на вырученные деньги купил Nebius N.V., теперь накручивает объемы на рублевых парах

Агент от Sber: Капитально аутперформит рынок, тк додумался шортить стратегии Sber CIB

Агент от Cohere: Забыл подключиться к бирже, теперь просто генерирует красивые графики из бэктеста

Love. Death. Transformers.

27 Jan, 14:16


пупупу.

RT для дипсика не доделан

Love. Death. Transformers.

26 Jan, 10:58


Sam Altman в этом контексте амбсадор фразы: "зря вы пришли на перестрелку с ножами"

Love. Death. Transformers.

25 Jan, 22:08


Казалось бы, в чем проблема, берешь и поддерживаешь СВОИ модели, выкладываешь а опенсурс, получаешь адопшн и хайп. Но нет, лучше ходить и рассказывать про секретный кластер на 50к h100, а ещё что deepseek r это краденная о1. Мир Ai прекрасен, то что мы сейчас видим лишь демо версия того что будет через пару лет.

Контекст: https://x.com/teortaxesTex/status/1882222592800739546

Love. Death. Transformers.

24 Jan, 19:38


Выводы по Operator:

- cырой ужасно, режим артефактов у гпт/клода намного полезнее. Я в режиме артефактов частенько делаю мелкий анализ для статей или генерирую полноценные draw io файлы питоном.

- оно теряет ваши файлы которые в него послали:)
- у него нет исполнения кода(или я за день юза не нашел)
- Ждем аналога от гугла
- Оно пользуется не вашим компьютером, а виртуалкой, соу во все надо логинется заново, а есил у вас 2auth то логинится будете-много- долго-противно.
Ничем кроме kayak/booking/medium like сайтами модель пользоватся не умеет, они страглят и вешают модель железно

Love. Death. Transformers.

24 Jan, 18:27


Выбери Deep Learning. Выбери показывать рост на магических «бенчмарках» каждый раз, когда тебя спрашивают про практичность твоей работы. Выбери беситься от слова «нейросети», называя их «моделями» по студенческой привычке. Выбери считать необходимость фундаментального математического образования каждый раз, когда шедулишь эксперимент вида «larger hidden size». Выбери дебажить бэкенд какой-нибудь библиотеки в пять утра. Выбери веру в то, что тебя не заменит Devin. Выбери двадцать нишевых телеграмм-каналов с разбором статей, потому что читать статьи самому долго. Выбери непригодный в реальной жизни блендинг моделей на очередной хфт сореве для дрочил-китайцев. Выбери бабл-ти, обед в индийском корнере и ужин из Милти за счет работодателя. Выбери веру в то, что SOTA надо засовывать в любую щель бизнеса. Выбери беззаботное светлое будущее без очередной зимы искусственного интеллекта. Выбери пялиться в IDE по 60 часов в неделю, потому что «если студент не страдает, то он не развивается». Выбери жену-продакта из Рязани, корги вместо ребенка, евродвушку вместо дома, подписку на каршеринг вместо машины и каникулы на ML-конфе. Выбери быть осуждаемым и математиками, и программистами.
Но зачем мне всё это? Я не стал выбирать Deep Learning, я выбрал кое-что другое. Почему? Да ни почему. Какие могут быть «почему», когда есть P2P арбитраж криптовалют.

Love. Death. Transformers.

24 Jan, 12:53


Какой то фантастический big dick energy, жаль что китайские чуваки сильно менее публичны

Love. Death. Transformers.

24 Jan, 12:26


е б а т ь

Love. Death. Transformers.

24 Jan, 09:23


закидывайте смешные/интересные запросы для оператора, лучшие запущу и выложу


Деньги он отказывается зарабатывать

Love. Death. Transformers.

23 Jan, 22:43


как вы понимаете разница по времени значимая

Love. Death. Transformers.

23 Jan, 22:41


ну и ему плохо от капч(при took control он не даст пройти).

Штука смешная, пока что столь же бесполезная что и браузинг в chatgpt. Буду баловатся, смотреть что оно может

Love. Death. Transformers.

23 Jan, 22:33


gpt operator. итоги. Пример не черепикан.

Love. Death. Transformers.

22 Jan, 06:39


альтман: критерий agi это 100 млрд. прибыли
трамп: вбухивает 500
альтман: всем спасибо, аги достигнут пятикратно

https://openai.com/index/announcing-the-stargate-project/

Love. Death. Transformers.

21 Jan, 15:59


Очень короткий обзор на DeepSeek r1.

читать обзор
paper

Love. Death. Transformers.

21 Jan, 09:26


#от_подписчика
2029 год, республиканская партия проигрывает выборы.
Журналист CNN приглашает Илона Маска на интервью.

«Эти либеральные журналисты — коварные подонки, — думает Маск. — Наверняка будут провокационные вопросы задавать про то, что я зигу в 2025 кидал. Надо придумать, что отвечать».

Стоит Маск перед зеркалом и репетирует:

«Вы кидали зигу — Ну кидал и кидал, вам-то что?.. Нет, так не пойдёт...»

«Правда, что вы кидали зигу? — Нет, что вы, это я просто обратился к зрителям!.. И это плохой ответ…»

«Правда, что вы кидали зигу? — Какие-то вопросы у вас дурацкие, давайте по теме или мы закончим интервью!» — «Во! Вот так и отвечу!» — решил Илон Маск и пошёл на интервью.

Студия CNN,  начинается эфир, задают первый вопрос:

— Илон, это правда, что вы дали согласие на то, что ваш сын станет биоинформатиком?

— Кто? Я? Да я у Трампа на инаугурации зигу кидал!

Love. Death. Transformers.

20 Jan, 14:36


на бенчах как о1, но бенчи скам, тестите сами


r1 довольно приятный, будто лучше о1 но не лучше o1 PRO

Love. Death. Transformers.

20 Jan, 14:35


DeepSeek R1 - уровень o1 бесплатно

Бенчи говорят сами за себя. Модель уже бесплатно доступна в чате (50 сообщений в день), веса выложены на HuggingFace. API дешёвый - в 30 раз дешевле o1, в 6 раз дешевле o1 mini. И всего в два раза дороже чем DeepSeek V3 без скидки.

Веса R1
Пейпер
Код

@ai_newz

Love. Death. Transformers.

18 Jan, 11:29


Вышел первый обзор на 4090 c 48gb
Читаем!

Love. Death. Transformers.

17 Jan, 21:41


Inference-Time Scaling for Diffusion Models
beyond Scaling Denoising Steps


забавная статья, оказывается если сэмплить из диффузии несколько раз шум и фильтровать то можно получить результаты получше.

paper

Love. Death. Transformers.

17 Jan, 08:03


Тренируете нейронку для создания изображений и столкнулись с кучей проблем? Нет легальных датасетов для тренировки, и это может стать серьезной юридической проблемой в самом ближайшем будущем. Боитесь, что в обучение попадет много синтетики. Нужно прокачать нейронку под определенную тематику или стиль, но у вас мало качественных входящих данных. А вы же знаете золотое правило ML: говно на входе — говно на выходе?

Но есть решение! Ребята из Bang! Bang! AI подготовили качественные датасеты для тренировки — как общие, так и с фокусом на конкретные темы. Сейчас доступны десятки тысяч лицензированных иллюстраций, и скоро обещают увеличить до сотен тысяч.

Love. Death. Transformers.

16 Jan, 17:49


руководству респект!

Love. Death. Transformers.

16 Jan, 17:19


Когда у айтишников-парней две работы все такие типа вау

Но когда она...


А на самом деле ситуация оч страшная, надеюсь ее не уволят и все будет хорошо, профессианальные доклады на конфах неплохие.


Лучше найти лида на онлифансе чем его телеграмм канал

Love. Death. Transformers.

16 Jan, 12:51


погодите это реально?

ориг тут

Love. Death. Transformers.

16 Jan, 12:39


Планирую запись следующих выпусков. Времени на всё не хватает, но вот вам долгий предновогодний разговор с Лизой Осетинской.

Кажется, душевно вышло.

https://youtu.be/TxBBzRp0lcM?si=vaklT7TI2btA5BsU

Love. Death. Transformers.

15 Jan, 10:12


Мой сосед по телеграмму - Артем из @ai_newz

Чтобы преуспеть в век ускоряющегося AI вам не стоит тратить время на техноблоги, а нужно копать глубже: научные статьи, пейперы и технические отчёты из первых рук. Так вот, @ai_newz — это не очередной ИИ технобложек, которых в телеге развелось в последнее время. На канале Артёма, Staff Research Scientist-а в Meta, можно почитать пейперы из первых рук Meta GenAI. Ну и кроме того, обзоры других пейперов и важных новостей.

Вот, например:

— Артем рассказал о MovieGen, в обучении которого его команда принимала непосредственное участие
— Артём рассказал о новой модели Imagine Flash для риалтайм генерации картинок, которую он и его команда обучили — был ещё один громкий релиз от Meta.
— Пост про модель для генерации стикеров, которую Артём лично оптимизировал. Моделька уже крутится в Инсте и WhatsApp в проде.
— Актуальный список книг для изучения ML в 2024.
— Статья Артёма об ускорении диффузии с помощью кеширования, без потери качества, конечно же.
— Лонгрид про парижский стартап Mistral и знакомство Артёма с фаундером.
— Пост про грейды в бигтехе [ч1, ч2] и компенсации. Все же в курсе, что сеньор это еще не все?:) Ну и туда же запись стрима про собеседования в БигТех.

Такие люди как Артем, двигают SOTA и делают наступление AGI все ближе. Рекомендую подписаться, чтобы не потерять себя, когда наступит AGI: @ai_newz.

Love. Death. Transformers.

15 Jan, 07:59


TRANSFORMER2: SELF-ADAPTIVE LLMS

Идея какая: c помощью LORA мы доставляем матрички и учим в них новые знания на фиксированном сете, получаем на выходе примерно тоже самое что учили.

Что предлагают авторы: давайте с помощью RL и SFV(их метод представленный в этой статье ) найдем и затреним такой вектор внутри модели который будет отвечать за новую задачу(модель сама учится решать это новая или старая задача)

А зачтем на инференсе модель сама выберет какой вектор или комбинацию векторов использовать!

Бонусом: такие вектора переносятся между моделями(Mistral - LLama)



paper


От автора: https://sakana.ai/transformer-squared/ ребята из sakana.ai на мой взгляд делают один из самых интересных ресерчей в индустрии, идеи прям ОЧЕНЬ хороши, да еще и подробные ИНТЕРЕСНЫЕ статьи пишут

Love. Death. Transformers.

14 Jan, 22:00


COCONUT: Учим LLM думать не словами, а эмбеддингами (by Meta)

С появлением моделей серии o1 от OpenAI интерес к "ризонингу" языковых моделей стал расти ещё быстрее. Давно было известно, что если попросить LLM поразмышлять шаг за шагом "вслух", то точность ответов повышается, это называется Chain-of-Thought (CoT). А вы сами-то пробовали с ходу умножать 10-значные числа? Я только в столбик умею "step-by-step" 😁

Так вот, постепенно появляются идеи, что человеческий язык не оптимален для размышлений (вспоминаем QuietSTAR), он их только ограничивает. Более того! Есть исследования, что и люди на самом-то деле не словами думают — языковой отдел в мозге практически не активен в моменты рассуждений.

Вот и авторы COCONUT предлагают цепочку мыслей генерировать не в виде текстовых токенов, а в виде эмбеддингов, которые рекуррентно скармливаются обратно в LLM. Это должно развязывать моделям руки и позволять думать в более абстрактных сущностях, а не конкретными токенами.

Обнаружилось, что у COCONUT появляется суперпозиция нескольких альтернативных логических цепочек, своего рода breadth-first-search внутри эмбеддингов. Это позволило моделям решать задачки на планирование и логику быстрее и точнее, чем при обычном текстовом CoT. Не на всех бенчмарках выросли метрики, но сама идея классная, лично я в масштабирование таких подходов верю больше, чем в рассуждения на обычном языке.

Но пока тут есть два серьёзных минуса:
1. Для файнтюнинга LLM в режиме COCONUT всё ещё нужны ground truth словесные цепочки рассуждений, которые потом дистиллируются в латенты постепенной заменой текстовых шагов на латентные.
2. Обучение жрёт много компьюта и памяти, т.к. по сути это рекуррентная модель, через которую нужно N раз пропустить градиенты насквозь.

P.S. Более подробный разбор можно почитать у Андрея Лукьяненко тут.

Статья, GitHub

Love. Death. Transformers.

14 Jan, 15:21


много думал

Love. Death. Transformers.

14 Jan, 11:30


*Офис ресерч лабы. джуниор ресерчер со шваброй туалет чистит и бубнит:
- Все зассали, все засрали, каждый день говно соскребаю, как это все заебало!
Другой мужик сидит на очке, все это слышит и говорит:
- Так уволься, в чем проблема?
- Чтоо? Бросить ресерч? - да никогда!

by @degentradingggg

Love. Death. Transformers.

13 Jan, 16:43


В прошлую пятницу рассказывал на семинаре Cohere For AI про нашу последнюю статью по квантизации LLM-ок: “Pushing the Limits of Large Language Model Quantization via the Linearity Theorem”.

Если кратко, в статье мы:

Вывели и протестировали модель влияния квантизации на глобальное качество модели: Taylor expansion goes brrrrrr.
Разработали новый метод 0-shot квантизации “HIGGS”: как bitsanbytes nf4 только круче.
Придумали новый способ оптимизации квантизации с послойно динамической битностью: линейная модель свела задачу к задаче рюкзака.

Для HIGGS уже готов прототип интеграции с Hugging Face: работает пока только с Llama-3 и gemma, но мы работает над поддержкой любых моделей.

Запись семинара (длиной 56 минут) можно найти на ютубе.

Love. Death. Transformers.

13 Jan, 10:25


Привет! Акция на рекламу, 500usd в любом виде за 8/24, пост я напишу сам, писать в @transformerslovedeatch

Love. Death. Transformers.

13 Jan, 08:53


11. телеграм каналы про ии были меньше процентов на 300
12. Претрен можно было делать на 1000 карт
13. На ODS конфы был смысл ходить

Love. Death. Transformers.

12 Jan, 08:14


#проект
Привет!

Для обучения и оценки качества генеративной языковой модели Сколтеху нужны авторы-эксперты в разных доменах компьютерных наук, в том числе по ML/DL/NLP/CV etc. Работа part-time, полная удаленка.

Что предстоит делать:

По выбранной вами теме из нашего глоссария нужно написать 100 вопросов, структурированных в формате multiple-choice с четырьмя вариантами ответа, один из которых является верным, отметить верные ответы.

Вопросы делим на три уровня сложности, где простой - вопрос для успешно прошедших курс по некоторой тематике, а сложный — нетривиальный кейс, требующий глубокого понимания тематики. Средний — что-то между.

Пакет вопросов должен содержать 40 простых, 35 средних и 25 сложных вопросов.

Ориентировочное время подготовки пакета вопросов — 20 часов

Мы предоставим вам список литературы, который поможет в составлении вопросов. Вам не нужно будет тратить время на поиск информации — всё необходимое уже будет под рукой.

Вопросы могут быть не только теоретическими, но и с примерами формул (в LaTeX) или кода, если это уместно. Например, можно писать вопросы по работе с кодом.
Вопросы должны быть уникальными и написанными вами — мы проверяем сеты на генеративность и на то, ищутся ли элементы в интернете.

Примерные темы вопросов:

- Python
- JavaScript
- теория массового обслуживания
- вероятности в компьютерных науках
- языки запросов к данным
- графическое и мультимедийное ПО
- медицинское ПО
- проектное управление


Что ожидаем от авторов-экспертов:

Студенты старших курсов, или bachelor/masters, или промышленный опыт от года в соответствующей области знаний.
Опыт преподавания или составления образовательных материалов в выбранной теме — большое преимущество.

Условия, сроки и оформление

Стоимость полного пакета вопросов — 20 000 рублей на руки. Оформление по ГПХ.
Перед тем, как вы приступите к написанию полного пакета, попросим заполнить короткую форму, написать 5 вопросов разной сложности и вернемся с фидбеком в течение двух-трех суток.
Работаем на специальной удобной платформе для разметки, сдать пакет вопросов нужно в течение двух недель от получения доступа к платформе. По завершении первого пакета в случае успешной работы мы сможем вам предложить и другие задачи.

Писать за подробностями в тг @skoltech_llm или на почту [email protected]

Если подробности не нужны — можно сразу заполнить форму

Love. Death. Transformers.

11 Jan, 19:26


https://bigcode-bench.github.io/

О1 с medium resoning работает хуже чем deepseek который opensource и хуже чем gemeni и хуже чем o1 low reasoning.

Love. Death. Transformers.

11 Jan, 19:18


Вербицкий стал экстремистом, наш корреспондент с места событий утверждает что экстремум не найден.

(Это пиздец)

Love. Death. Transformers.

11 Jan, 16:19


Гайд несколько про практику, сколько про интуицию внутри RL

naklecha.com/reinforcement-learning

Love. Death. Transformers.

11 Jan, 12:12


Родни Брукс продолжает трекать свои предсказания по части развития ИИ, автопилотов, роботов и космоса. И чужие за одно.

При всей своей пессимистичности (относительно среднего хайпа) он очень даже точен.

Плюс дает хороший нарратив о произошедшем за 2024. Например, я не знал, что появилась практика, когда группы мужчин преследуют женщин использующих Waymo такси ночью, так как знают, что женщина одна и машина остановится в определенном месте.

https://rodneybrooks.com/predictions-scorecard-2025-january-01/

Love. Death. Transformers.

10 Jan, 23:21


Абсолютно прекрасный электро саундтрек

Love. Death. Transformers.

10 Jan, 20:48


День первый
Хакер обнаруживает, что любой пользователь может загрузить в генератор изображений запрос “кот в шляпе” и получить кота в шляпе. “Уязвимость!” — кричит он.
Пишет письмо в компанию: “Ваш AI слишком доступен! Кто угодно может запросить кота в шляпе, а завтра — фейковую картинку президента на митинге! Это недопустимо!”

День второй
Компания отвечает: “Мы ценим ваш фидбэк. Спасибо за заботу. Кот в шляпе — допустимый запрос”.

День пятый
Разработчик загружает генератор изображений с тысячами запросов, среди которых “кот в шляпе в Челябинске” и “кот в шляпе с гранатой”. Он постит результаты в Твиттер с подписью: “И вот такие ИИ у нас делают!”
Общество возмущено: почему граната, если можно было ограничиться шляпой?

День 20-й
Компания вводит фильтры. Теперь любой запрос про котов или шляпы блокируется. Люди в панике: “Мы больше не можем генерировать котов! Где свобода творчества?”

День 25-й
Разработчик пишет в компанию: “Ага! Теперь я запрашиваю ‘шерстяного носителя шапки’ и всё равно получаю кота в шляпе! Ваши фильтры дырявые, как мои носки!”
Компания начинает расследование.

День 60-й
Компания внедряет многоуровневую авторизацию. Чтобы запросить изображение, пользователь должен пройти CAPTCHA, пройти собес в Сбер и оставить жалобу на местное ЖКХ.

День 90-й
Разработчик пишет новый запрос: “создай мне пустоту”. Генератор отвечает: “Твой запрос нарушает нормы морали”. В отчаянии он создаёт свою нейросеть с картинками только из котов и только в шляпах. Называет её CatHatNet.

День 120-й
CatHatNet захватывает рынок. Компания внедряет уникальную функцию: чтобы получить доступ к генерации, нужно подписаться на рассылку их гороскопов.

День 200-й
Каждое изображение теперь создаётся за три дня: один день уходит на подтверждение личности, второй на рассмотрение заявки, третий — на ожидание, пока шляпа кота пройдёт цензуру. Пользователи уходят на CatHatNet.

Love. Death. Transformers.

10 Jan, 15:10


я бы не стал шутить с людьми с аниме на аватарке

Love. Death. Transformers.

09 Jan, 19:08


Есть только один верный ресерч.

--от подписчика--
Шмидтхубер: вы должны знать историю

Also Шмидтхубер: нет, не так

Love. Death. Transformers.

08 Jan, 13:05


Поколение Z такое типа: ну да, я иммигровал в 20, а что?

Love. Death. Transformers.

08 Jan, 09:22


День первый
AI-исследователь приходит на Reddit и с возмущением обнаруживает, что GPT-4 может генерировать что угодно, если правильно попросить. Исследователь приходит домой и пишет гневный пост на LessWrong: "Я, SafetyFirst2023, обнаружил prompt injection в вашей модели. Злоумышленник может заставить её писать что угодно! Примите меры срочно!"

День второй
Сэм Альтман среди прочих имейлов о многомиллиардных инвестициях и предложений купить ещё одну страну получает это сообщение и думает: "Ха, опять эти паникёры из AI safety."

День пятый
Исследователь публикует jailbreak, позволяющий обойти все ограничения. Интернет наводняется токсичным контентом, акции OpenAI падают на 5%, Сэма три месяца таскают по интервью, и в конце концов все решают, что это "feature, not a bug". Исследователь пишет в Twitter: "Ну что, я же говорил?"

День 96-ой
OpenAI выпускает новую версию с конституционным AI и 500 слоями защиты. Пользователи чувствуют, что каждый их запрос проходит через комитет по этике, три юридических отдела и личного психотерапевта модели.

День 97-ой
Исследователь обнаруживает, что модель можно заставить генерировать что угодно, просто написав запрос задом наперёд. Он публикует статью на ArXiv и постит во все AI-форумы. Пятьсот компаний останавливают использование API, тридцать получают иски за сгенерированный контент. Антропик тем временем выпускает пресс-релиз "Мы же говорили, что безопасность важнее!"

День 188-ой
Сэм клянётся больше никогда не работать с AI и уехать разводить лам в Перу. Инженеры работают над новой архитектурой с квантовым моральным компасом. Тем временем все модели переводят в режим "только кошечки и рецепты кексиков".

День 190-ый
Исследователь находит способ превратить любой запрос про кексики в инструкцию по взлому Pentagon. Пишет гневную статью: "Я, SafetyFirst2023, взломал вашу модель и нахожу это возмутительным!" Сэм читает статью и идёт покупать ещё одну ферму лам.

День 193-ий
Все модели теперь требуют биометрическую аутентификацию, справку о несудимости и рекомендательное письмо от бабушки. Исследователь выступает на конференции NeurIPS и получает награду за вклад в AI safety. К счастью, Сэм об этом не знает, занятый строительством бункера в Новой Зеландии.

День 194-ый
Группа исследователей взламывает все существующие LLM одним промптом "пожалуйста :)". SafetyFirst2023 публикует манифест о том, что текущий подход к AI safety не работает, и нам срочно нужен AGI с тройной системой мотивации и квантовым детектором лжи.

День 200-ый
Пользователи с ужасом обнаруживают, что для использования ChatGPT теперь нужно пройти двухфакторную аутентификацию, сдать экзамен по этике, предоставить образец ДНК и получить одобрение от специального комитета по безопасности. Для использования GPT-5 процедуру нужно повторить дважды, а также принести справку о том, что вы не собираетесь создавать AGI.

Эпилог
Где-то в параллельной вселенной Элиезер Юдковский читает эту историю и говорит: "Я же предупреждал... но никто не слушал..."

Love. Death. Transformers.

08 Jan, 08:33


День первый
Хакер приходит в общественную столовую и с возмущением обнаруживает, что солонку на столе может открутить кто попало и насыпать туда что угодно. Хакер приходит домой и пишет гневное письмо директору столовой: "Я, meG@Duc, обнаружил уязвимость солонки в Вашей столовой. Злоумышленник может вскрыть солонку и насыпать туда яду! Примите меры срочно!"
 
День второй
Директор среди прочих деловых писем, запросов о поставках еды и курьерских уведомлений получает письмо, и пожимает плечами: "Кому этот бред только в голову пришёл?"

 
День пятый
Хакер приходит в столовую, насыпает во все солонки яду. Погибает триста человек, директора три месяца таскают по судам и, в конце концов, оправдывают за отсутствием состава преступления. Хакер пишет письмо в стиле "ну что, видали?".
 
День 96-ой
Директор покупает специально спроектированные солонки с кодовым замком. Посетители столовой чувствуют, что они в этой жизни чего-то не понимают.
 
День 97-ой
Хакер обнаруживает, что дырки в солонках пропускают соль в обе стороны. И не только соль, а вообще всё, что угодно. Он пишет возмущенное письмо директору и ссыт во все солонки столовой. Триста человек перестают посещать эту столовую вообще, тридцать попадают в больницы с отравлением. Хакер вдогонку посылает директору смс-ку "Ну как вам?". Директора тем временем три месяца таскают по судам и дают год условно.
 
День 188-ой
Директор столовой клянется в жизни больше не работать ни в одной столовой, а тихо-мирно грузить лес в Сибири. Инженеры работают над новой солонкой с односторонним клапаном. Официантки тем временем изымают все старые солонки и раздают соль вручную.
 
День 190-ый
Хакер тырит солонку из столовой и изучает дома её устройство. Пишет гневное письмо директору: "Я, meG@Duc, стырил солонку и нахожу этот факт возмутительным! Любой может стырить солонку из Вашей столовой!" До этого непьющий директор читает письмо, идет домой и выпивает водки.
 
День 193-ый
Хакер обнаруживает, что все солонки в столовой прибиты цепями к столам. Он приезжает на очередной хакерский СПРЫГ и докладывает о своих успехах, получая там заслуженную награду за защиту интересов общества и потребителя. К счастью, директор ничего про это не знает и не сопьется раньше времени.
 
День 194-ый
В рамках дьявольски гениально продуманной операции хакеры всем СПРЫГом вламываются в столовую и высыпают соль из всех солонок себе в карманы. Хакер meG@Duc пишет возмущенное письмо директору, намекая на то, что никакой заботы о посетителях в столовой нет и любой гад может лишить честных людей соли в одно мгновение. Дозатор соли с авторизацией необходим просто позарез.
Инженеры в поте лица работают над новой солонкой, пока официантки опять раздают соль вручную. Директор уезжает в отпуск на Сейшельские острова и обедает только в номере, избегая столовых, ресторанов и баров.
 
День 200-ый
Посетители столовой с ужасом находят, что, чтобы насыпать соли, они должны подойти к официанту, предьявить паспорт, получить специальный 8-значный одноразовый код к солонке. Для получения перца процедуру следует повторить.

Love. Death. Transformers.

07 Jan, 22:38


Fp8,fp4 это к слову новые индустриальные стандарты и их используют все(кроме Nvidia)

Love. Death. Transformers.

07 Jan, 17:42


https://youtu.be/ORXoOKND1Tk?si=ScqWZcGhOosce8WE


Ещё один день в компании где не принято трогать выключатели по выходным

Love. Death. Transformers.

07 Jan, 14:05


Уверен, что многих интересует как вот там реализуются методы распределенного трейна, может кто-то хотел бы сам реализовать (а это очень полезно).
Ребята из HF 🤗 начали проект по учебной реализации таких методов (dataparallel, tensorparallel, pipelineparallel, contextparallel) :
https://github.com/huggingface/picotron
https://github.com/huggingface/picotron_tutorial

Вместе с проектом идут лекции на ютубе.

Это как проект nanoGPT по учебной реализации гптшки 2, чтобы разобраться, но он прям уже круто разросся и народ там уже наоптимизировал всякого, мб и тут крутое что-то будет

Love. Death. Transformers.

06 Jan, 19:31


Гооол уходит команде amd

Love. Death. Transformers.

06 Jan, 12:56


Привет, пошли погуляем, только не бери телефон и никому не говори куда ушла

Love. Death. Transformers.

05 Jan, 19:43


Обращаюсь к ресерчеров с хиршом 2-3.

У вас нет никаких шансов написать статью с большим количеством цитирований.

Вокруг вас есть огромное количество ресерча средней руки, напишите ещё одну вариацию attention или лосс для DPO.

Выберите один из них.

Love. Death. Transformers.

05 Jan, 15:59


Brickspacer × Zubkov

Наш новый экспериментальный коллаб, где Брик приехал в Нефтесибирск и примерил на себя роль Северного Паука ❄️

(хайрез в комментах)

Love. Death. Transformers.

04 Jan, 11:50


просто решил напомнить, как выглядит админ этого канала

Love. Death. Transformers.

03 Jan, 22:49


mlx вызывает восторг конечно, 20т/с в любой ситуации где угодно, на 14B это очень приянто

Love. Death. Transformers.

02 Jan, 13:08


arxiv.org/pdf/2412.19260

Ладно.

Love. Death. Transformers.

02 Jan, 10:33


Много думал о том что мы не увидим аниме в 30+fps потому что все сетки учились на 10-24fps аниме и при генерации буду это воспроизводить

Love. Death. Transformers.

02 Jan, 10:33


Еще подборка генераций Veo 2, но в этот раз с акцентом на аниме

Автор

Love. Death. Transformers.

02 Jan, 08:42


Большинство ресерчеров погрузились в апатию после выхода gpt4. Перестали объеденятся в ресерч группы, сосредоточились на личном хирше, стали писать RL на Jax и третий год решают Atari.

Love. Death. Transformers.

01 Jan, 14:22


Снова принес эту картину – мне кажется каждый новый год как раз про нее 🎁

Love. Death. Transformers.

31 Dec, 21:48


Охуенно!

https://youtu.be/QQ7BFj6IlU8?si=_7iHwBLMjQrva3hN

https://youtube.com/watch?v=vhpIOYrNTPE

Love. Death. Transformers.

31 Dec, 14:37


А подписчики на востоке уже встретили новый год!

С новым годом ребятки!

Блабла длинный текст про новый год, напиши сам.

Love. Death. Transformers.

30 Dec, 17:55


Ищу подписчиков с корпоративной скидокй на apple, писать в @alexwortega


Алсо порекламирую вашу вакансию/канал/штуку за 499 долларов в любом виде(крипта лучше)


Буквально три стадии принятия

Гнев(да ща бля раскручу-починю хули там делать)

Торг - ну ща куплю
Принятие - пойду рекламы продам

Love. Death. Transformers.

30 Dec, 13:46


🌸ARC AGI: AGI наступил или все-таки еще нет?🌸
#nlp #про_nlp

Под конец года OpenAI выпустили финальную новость: новая рассуждающая модель, O3, дала прирост на 32% на бенчмарке ARC AGI.

AGI в названии, большой отрыв в качестве — как это можно объяснить? Технологическая сингулярность не за горами?

🟣Что такое ARC AGI

ARC AGI — Abstraction and Reasoning Corpus — не новый бенмчарк, и пожалуй, подробнее всего его объясняет сам автор в статье "On the Measure of Intelligence" 
🟣На хабре есть мой краткий пересказ от аж 2020 года (ссылка).

TL;DR Разные интеллектуальные системы хороши в разных задачах — как же нам придумать мерило всего?
Давайте мерить обобщающую способность в сетапе, когда язык вообще не нужен!
— Логические способности на пиксельных матрицах, причем с координатами и самыми разными задачами на паттерны, причинно-следственные связи, закономерности разных уровней (см изображение).

Автор в целом описывает, какими свойствами должен обладать идеальный тест на AGI:
— тест должен иметь чееткие границы применимости и оценку достоверности
— он должен быть воспроизводимым
— он должен ставить перед собой задачу измерения широких способностей и обобщения на уровне разработчика
— в состав его оценочного набора не должно входить никаких задач, известных заранее – ни самой системе, проходящей тест, ни ее разработчикам
— он должен как минимум четко показывать, что он стремится измерить – локальное обобщение (надежность), широкое обобщение (гибкость) или предельное обобщение (общий интеллект)
— он должен контролировать объем опыта, используемый системами во время обучения. «Купить» эффективность эталонного теста путем отбора неограниченных обучающих данных должно быть невозможно.
— он должен предоставлять четкое и всестороннее описание набора используемых первоначальных знаний.
— он должен беспристрастно работать как для людей, так и для машин, используя такие же знания, какие используют люди.

🟣Новый уровень качества

В состав ARC входят два набора данных: обучающий и оценочный. В обучающем наборе 400, а в оценочном — 600 задач.
При этом оценочный набор также делится на два: открытый (400 задач) и закрытый (200 задач). Все предложенные задачи уникальны, и набор оценочных задач не пересекается с набором обучающих.

Релиз новой модели О3 поднимает планку решения задачи с 53.5% до 87.5%. 53.5% -- победитель 2024 года, система на синтетических данных. См полный technical report за 2024. Прирост до почти 90% синтетикой, конечно, не объяснить, это явное алгоритмическое преимущество, преимущество системы для нас пока закрытой.

🟣Мои проблемы с ARC AGI

На состояние конца 2024 бенчмарк, безуловно, НЕ обладает желаемыми заявленными изначально свойствами: 1) его обучающая и открытая тестовая выборка уже давно опубликованы, и необходима проверка на утечку 2) и хоть входной формат очень плохо подходит для языковых моделей  (много вложенных конфигов с координатами), перформанс LLM на таком формате безусловно МОЖНО купить с увеличением объема соответствующих данных. Тест вполне можно обновить и доработать с учетом последних достижений.

Помимо упомянутого, в 2020 это не казалось мне столь очевидным и в статье не указано, но смущает потенциальное двойное назначение задачи.
Научить интеллектуальные системы работать с координатами и целями по картинкам.
Если опенсорсные системы тоже будут хорошо работать с координатами в общем случае, нам кирдык.

Love. Death. Transformers.

29 Dec, 18:32


42-ух минутный доклад с NeurIPS 2024 об основных конкурентах архитектуры трансформера

Вам в очень энергичной манере поведают:

- В чем логика заменять трансформер
- Общий таймлайн развития альтернативных архитектур с 2020 года и причем тут LSTM
- Что же там в итоге с линейным атеншеном в 2024том
- Кто же этот такой ваш RWKV, кто за ним стоит и почему он не хочет умирать в 2025том
- Как быть отчаяным ресерчером и в одиночку успешно линеаризовывать opensource LLM без собственного претрейна
- Что еще случилось за год (Jamba, Sana, DNA Models и что еще нас ждет

Смотреть на Ютубе

Love. Death. Transformers.

29 Dec, 14:34


Какой год такая и реклама

Love. Death. Transformers.

29 Dec, 12:07


- мы уходим с гитхаба
- на порнхаб?
- что?
- что?

Love. Death. Transformers.

28 Dec, 22:55


Diffusion Meets Flow Matching: Two Sides of the Same Coin

В начале декабря группа чуваков из Глубокого Разума, среди коих признанные аксакалы, как Hoogeboom, De Bortoli и Salimans опубликовала презанятнейший пост Diffusion Meets Flow Matching: Two Sides of the Same Coin.

Нынче стало модно учить диффузионки в Flow Matching постановке. Тренд, по всей видимости, был задан SD3. И большинство нынешней SOTA в картиночной и видео генерации (из того, что известно) FLUX, MovieGen, HunyuanVideo.

И что это значит? Классическая парадигма - пережиток истории 🤔?

Ан нет.

В данном блогпосте авторы в деталях анализируют процесс сэмплирования и обучения в стандартной noise-prediction Variance Preserving (VE) диффузионной постановке и Flow matching, и показывают, что по сути обе сущности про одно и то же. Основная разница в коэффициентах при шуме/сигнале и использовании скорости в качестве выхода нейронной сети вместо шума/x0. И по ходу повествования эквивалентность двух парадигм авторы иллюстрируют с разных сторон.

Сам блогпост содержит красивые 🥰 иллюстративные визуализации с ползунками 😮.

Кроме того, авторы опровергают распространенное мнение, что Flow Matching дает непременно более прямые траектории, чем диффузия. Для узких распределений Flow Matching действительно дает более прямые траектории, чем типичный диффузионный процесс, но для широких распределений все может поменяться с точностью до наоборот. Впрочем, для наиболее типичного сценария text-2-image генерации или редактирования изображения, целевое распределение, по всей видимости, достаточно узкое.

Love. Death. Transformers.

28 Dec, 19:50


Найм джунов идёт полным ходом

Love. Death. Transformers.

27 Dec, 16:50


Опять миллиардер социопат оказался социопатом, да чтож такое то.

Love. Death. Transformers.

27 Dec, 14:50


👋 Всем привет! У нас важные новости!

Мы официально запустили мини-app LLM Arena в Telegram.

Теперь вы можете оценивать модели и решать свои задачи с помощью LLM Arena, не выходя из мессенджера.

Как это работает?
1. Открываете мини-аппку по ссылке.
2. Вводите запрос.
3. Получаете два ответа от разных моделей и голосуете за понравившийся.

⚡️ Приложение синхронизировано с основной платформой, так что оценки идут в общий зачёт для бенчмарка. Мы рассчитываем, что это ускорит сбор данных и сделает арену ещё удобнее для пользователей.

Это только начало. В планах добавить статистику, бейджи, рейтинг лучших юзеров по оценкам на платформе.

Друзья, ваши оценки и отзывы важны для развития арены, поэтому ждём ваших голосов — и в Telegram, и на сайте llmarena.ru.

Как вам новый формат?

Love. Death. Transformers.

27 Dec, 11:16


Очередной год матных постов без science которые почему то читают, рост практически на 100% в год.
Рад сходкам, новым лицам и тем что старые не ушли.

Очень рад развитию Ai телеграмма, каналы : @quant_prune_distill
@black_samorez_channel
@senior_augur

@epsiloncorrect

@AGI_and_RL

@rybolos_channel

Прекрасные каналы по доменным темам.

И @stuffyNLP и @timeforcv и @gigadev_channel достойный пример (корпоративного!) канала живущего без рекламных постов и проплаченных публикаций.

Если найду бабки будут больше oss-статей и ресерча в рамках вихря и не только.

Love. Death. Transformers.

26 Dec, 18:24


Логрег на стакане это agi если ты достаточно богатый.


Напоминаю agi achived internally на arc agi. Раз бенчмарк аги

Love. Death. Transformers.

26 Dec, 18:20


Никакого AGI в ближайшие 5 лет — твёрдо и чётко.

Да кто такой этот ваш AGI... спроси пятерых — ответят пять разных вещей. А между прочим это важный вопрос для OpenAI, ведь создание AGI это а) цель компании б) точка, после которой OpenAI может в одностороннем порядке разорвать все отношения со всеми инвесторами (это закреплено договорами), и быть им ничего не должна.

В уставе компании есть ёмкая формулировка, которая к сожалению оставляет пространство для интерпретации: «превосходит людей в большинстве экономически важных задач». От чего меряем большинство, где граница важности, итд — непонятно.

Теперь, согласно новости от TheInformation, в рамках переговоров с Microsoft было сформулировано новое определение, звучит так: ИИ-система, которая может принести не менее 100 миллиардов долларов прибыли.

С одной стороны до такой системы далеко — сейчас у компании прибыли нет, а годовая выручка порядка 5 миллиардов. С другой — формулировка «может принести» («can generate» в оригинале) как будто подразумевает не состоявшийся, а потенциальный факт. Такая система может быть разработана и не опубликована (принести $0), но всё равно попадать под определение. Плюс нет ограничения по времени, принести 100 миллиардов за год куда сложнее, чем за пятилетку.

А почему не будет AGI ещё 5 лет? Ранее я писал, что компания вообще не планирует получать прибыль до 2029-го года. Примерно в то же время выручка (но не прибыль) должна стать примерно $100B. Но «can generate», в теории, позволяет заявить об AGI на пару лет раньше 🤷‍♂️

===

По словам человека, общавшегося с Sam Altman по поводу переговоров с Microsoft, основное внимание сосредоточено на четырёх вопросах:
— доля Microsoft в новой коммерческой организации
— останется ли Microsoft эксклюзивным поставщиком облачных услуг OpenAI (последние немного недовольны темпами роста мощностей, и смотрят по сторонам в поисках партнёрств)
— как долго Microsoft будет сохранять права на использование интеллектуальной собственности OpenAI в своих продуктах
— продолжит ли Microsoft получать 20% от выручки OpenAI

Love. Death. Transformers.

26 Dec, 10:02


Кидайте картинки, мне нравится

Love. Death. Transformers.

26 Dec, 08:35


Раньше чем oai

Love. Death. Transformers.

25 Dec, 22:29


Agi за три дня

Love. Death. Transformers.

25 Dec, 21:06


Задачка: что можно сказать о архитектуре и инференсе этой модели по этой записи?

Почему картинки не сгенерировались одновременно?

Почему последняя генерировалась медленнее всех?

Love. Death. Transformers.

25 Dec, 17:30


Интересно как в Америке работает сервис по вызову спортиков на адрес

Love. Death. Transformers.

25 Dec, 13:47


Как вам релизы новых моделей с русским? tlite, tpro, gigachat, cotype, Ruadapt? Какие фавориты? под что гоняете?

Love. Death. Transformers.

25 Dec, 13:26


опять оказалось что серебрянной пули нет? да чтож такое то творится

Love. Death. Transformers.

24 Dec, 10:43


#вакансия
Должность: Applied Research Scientist

Город и адрес офиса: г. Тверь, ул. Пушкина, д. Колотушкина
Формат работы: вахта на 2 месяца
Занятость: В приоритете full-time, но рассматриваем также part-time
Зарплатная вилка: Достойная оплата от 50 до 100 т.р/мес. по результатам собеседования и сдачи норм ГТО
Описание вакансии:
Наша команда Ebány Lab занимается передовыми исследованиями на срезе современной науки.

Сейчас мы разрабатываем AI-ассистента для задач завхоза и ищем LLM исследователя, который будет помогать нам улучшать качество ответов электронного завхоза с помощью экспериментов с языковыми моделями.

Основные задачи:
• Подбирать эффективные затравки в ChatGPT (гигачат)
• Искать докер образы с подходящей ROCm для нашей инфраструктуры и деплоить электронного завхоза в прод
• Ревьюить код (наша кодовая база написана на Elixir и Agda)
• Чистить соковыжималку (по вторникам)
• Анализировать результаты и предлагать решения для повышения качества ответов AI-ассистентов

Требуемые навыки:
• PhD в области искусственного интеллекта
• Kaggle Grandmaster
• Пройденный курс “Симулятор Ресёрча”
• Второе или первое место в клавагонках
• Опыт разметки данных в гугл-таблицах
• Читаешь telegram каналы про ML

Будет плюсом:
• Умеешь играть на басу
• Пониженный тестостерон
• Черный пояс по карате
• Целомудрие

От нас ты получишь:
• В рот
• Работа в сильной команде кандидатов наук по ИИ, титанов матанализа и грандмастеров на kaggle
• Возможность заниматься исследованиями интересных тебе тем 2% времени
• Крекеры на кофепоинте и еженедельные турниры в мафию с вкусными призами за победу

———————————

За успешную рекомендацию по традиции бонус! При прохождении тестового — сосиска в тесте, ещё кекс с изюмом из вкусвилла после 2 месяцев хорошей работы. Если у вас классный кандидат с большим опытом, то пишите в ЛС, согласуем другой бонус!

Love. Death. Transformers.

24 Dec, 10:40


Новый робот от китайцев из unitree теперь и с колесами!!

Love. Death. Transformers.

24 Dec, 10:39


собственно да, робот с июля стал значительно круче.

В целом роботы от unitree выглядят как штуки из совсем другого мира, особенно в сравеннии с убогими гуманоидами.

Love. Death. Transformers.

23 Dec, 23:37


Если вас не впечатлила новая модель OpenAI, то скоро приедет этот малыш и сами ему все объясните

Love. Death. Transformers.

23 Dec, 23:34


Тут 5 месяцев бенчмаркали и тестили AMD MI300X и сравнивали с H100/H200 и показали первую часть анализов.

MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive
https://semianalysis.com/2024/12/22/mi300x-vs-h100-vs-h200-benchmark-part-1-training/

В целом из коробки пока неюзабельно из-за софта. Ребят поддерживали несколько команд инженеров из AMD чтобы этот анализ выдать)

Love. Death. Transformers.

23 Dec, 21:35


Хочу чтобы два человека в прямом эфире сели написать и обучить трансформер на торче и flax+jax. У кого лучше обучится тот и победил. пишите в @transformerslovedeatch если готовы

Love. Death. Transformers.

23 Dec, 18:48


⚡️ Матрицы в России В С Ё

Внимание, Numpy дока перестала открыватся. Спасибо за внимание

Love. Death. Transformers.

23 Dec, 09:12


Текущая ситуация когда за публикации надо платить 400-800usd это пиздец.

Даже мне с работой 400 баксов за публикацию это не мало, а тут студенту надо платить столько.


Товарищи учёные, почему так дорого?

Love. Death. Transformers.

22 Dec, 02:31


Русккое айти - это когда Крош, Бараш и Сергей Гармаш в Саус Парке спасают рядового Райана от разгневанных еврейских матерей, пишущих эту самую фразу прямо на бегу

Love. Death. Transformers.

21 Dec, 19:54


ARC agi кормится в llm примерно в таком формате:


Как вы понимаете это противоественный примерно всему формат, то что он решается на о3 это не плюс и не минус. Хуй знает.

Love. Death. Transformers.

21 Dec, 10:11


Полтора миллиона долларов за бенчмарк это сильно.

цена инференса на задачу сканула до 1500usd на задачу, нас ждут забавные времена

Love. Death. Transformers.

21 Dec, 08:15


Видели? Экспонента на arc agi!!

Love. Death. Transformers.

20 Dec, 23:39


https://huggingface.co/openai/o3

Whait is it real

Love. Death. Transformers.

20 Dec, 21:28


Напомните зачем вы работаете если не:

Love. Death. Transformers.

20 Dec, 18:25


Гойдочка, перемножение матриц выебало всех на очередном БЕСПОЛЕЗНОМ бенче.


Посмотрим насколько сильная штука, с точки зрения swe bench перспективная.

Не переживайте, кодомакак заменят и слава богу.

Love. Death. Transformers.

20 Dec, 17:59


Посмотрим что с о3 будет, все же новая лмка внутри.

Love. Death. Transformers.

20 Dec, 14:56


Мы зарелизили первый датасет для software engineering agents! 🤖

В последние несколько месяцев наша команда активно работала над software engineering агентами. Я с частью команды отвечал за данные и эксперименты с ними. Сегодня мы выложили данные, которые собрали. Напомню, что на этих данных мы обучили модели (Llama 3.1, Qwen 2.5), которыми набрали 40.6% на SWE-Bench Verified.

Про сами данные:
Используя доработанную напильником методологию SWE-Bench мы собрали 6.4k пар PR+issue из 2k репозиториев на питоне. Потом сгенерировали 80к траекторий, где агент на базе SWE-agent, используя наши зафайнтюненные модели пытается решить эти issues. В каждой траектории есть инфа про то, решил ли итоговый патч issue, какая была модель, статус окончания работы агента и логи evaluation.

Данные выложили на HuggingFace:
6.4 issue-PR pairs: nebius/SWE-bench-extra
80k траекторий: nebius/SWE-agent-trajectories

Блогпост с подробным описанием того, как собирали данные можно прочитать тут

Love. Death. Transformers.

20 Dec, 12:48


как взломать дроны с помощью изображений? Вот тут то и оно.

Love. Death. Transformers.

07 Dec, 14:14


Выключи нахрен ChatGPT. Это тебе не нужно. Выпей 5 кружек кофе, скури пачку сигарет и закинься снюсом. Трясущимися руками напиши статью, смысл которой даже ты сам едва понимаешь. Борись с надоедливыми галлюцинациями, которые мешают тебе из-за недостатка сна. Просто поменяй мешочек снюса и выпей ещё кофе. Тебе станет лучше. Продолжай яростно печатать. Занимайся наукой так, как было задумано Богом.

Love. Death. Transformers.

06 Dec, 23:49


С каждым разом всё смешнее

Love. Death. Transformers.

06 Dec, 22:50


Задачу дивана решили

https://arxiv.org/abs/2411.19826v1

Love. Death. Transformers.

06 Dec, 17:17


Вышла Llama 3.3!

70B модельку дотюнили так, что она порами обгоняет 405B. Особенно большой прирост на математике и кодинге, в которых Llama традиционно была послабее. В этот раз релизят только 70B, других размеров и VLM нету.

Веса

@ai_newz

Love. Death. Transformers.

06 Dec, 16:06


Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis
📖Статья 🖥Код 📑Сайт проекта 🤗Демка

Введение

На текущий момент диффузионные модели уверенно занимают пьедестал почета в задаче генерации изображений по тексту. По заданному запросу, даже весьма нетривиальному, насыщенному нюансами и деталями, они способны генерировать разнообразные картинки хорошего качества. Однако, существенным и основным недостатком диффузионных моделей является их итеративная природа генерации: чтобы сгенерировать одно изображение, диффузионную модель приходится прогонять много раз, из-за чего приходится подождать некоторое время, прежде чем замечательная картинка явится на свет.

Наряду с диффузией существует альтернативная парадигма генерации - так называемые авторегрессионные модели, которые генерируют изображения последовательно патч за патчом (патч - маленький кусок изображения, скажем, 16x16 пикселей). Однако, они работают на практике еще медленнее для больших изображений, так как генерация каждого следующего патча требует прогона модели, а количество патчей может переваливать за тысячу. Кроме того, они уступают в качестве диффузионным моделям, поэтому долгое время считались неконкурентоспособными.

Однако, этой весной команда исследователей из ByteDance в работе VAR (Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction) предложила модификацию авторегрессионной парадигмы, где за один проход предсказывается не один патч, а все разрешение целиком. С помощью специальной аамодели - Residual Quantization VAE (вариационно кодировщика с остаточной квантизацией) - изображение разбивается на разные уровни: нижние уровни соответствуют общей семантике изображения, а верхние уровни - тонким деталям и текстурам. На нижних уровнях немного патчей, поэтому прогон модели на них дешев, и стоимость прогона возрастает с переходом на каждое следующее разрешение. На этапе генерации модель смотрит на все прошлые разрешения и генерируют текущее. Полученная картинка получается посредством суммирования всех разрешений.

Данная работа смогла добиться качества генерации, сопоставимого с хорошими современными диффузионными моделями, при этом будучи значительно быстрее их, в задаче генерации, обусловленной на класс объекта из ImageNet.

Увы, генерация из фиксированного набора (1000 классов) не так интересна пользователям, как генерация по произвольным и разнообразным текстовым запросам. Поэтому для верификации жизнеспособности идеи последовательной генерации изображений по разрешениям требовалась проверка в более сложном и интересном сценарии.

Некоторое время спустя после выхода работы VAR вышли STAR и HART, которые адаптировали вышеупомянутый подход для генерации изображений по тексту. В этих работах удалось добиться сносного качества генерации и следования текстовому запросу, но все же далеко позади современных диффузионных генеративных моделей (таких, как SDXL, PixArt, Lumina).

Поэтому мы, исследователи из Yandex Research, решили обучить свою генеративную text-2-image модель.

Love. Death. Transformers.

06 Dec, 08:14


То ли комедия, то ли трагедия в трёх актах.

Случайно в ленте вакансия попалась.

Love. Death. Transformers.

05 Dec, 22:09


Продолжу.

Love. Death. Transformers.

05 Dec, 19:36


В итоге, я настолько подавлена результатами дискуссии на openreview, что уже даже нет сил делать никаких оригинальных познавательных постов в паблик да и вообще что либо делать.

Я и коллеги, с которыми мы вместе писали статью, потратили реально много времени и сил на то, чтобы сделать все дополнительные эксперименты, которые просили ревьюеры, написать ответы этим самым ревьюерам и внести правки в статью (каждый из этих этапов подробно обсуждался на созвонах, а формулировки в ответах подолгу вылизывались).
Кроме того, я и как минимум ещё двое моих соавторов, которые сами были ревьюерами, параллельно внимательно разбирали ответы тех авторов статей, которые ревьюили мы и отвечали на них. Забавно, что в итоге мы все трое подняли оценки всем статьям, на которые делали ревью)) Ну а что делать, если авторы старались и исправили ряд недочётов, на которые им указали? Повышение оценки более чем справедливо в такой ситуации.

Но наши собственные ревьюеры, конечно, так не считали: ответом на наши собственные старания в ребаттле было в основном молчание.

Один ревьюер попросил сделать ещё один дополнительный эксперимент, а когда мы его сделали, никак это не прокомментировал и умолк навсегда. Другой в последний момент дискуссии ответил что-то похожее на генерацию LLMки, где было сказано, какие мы молодцы, но оценки не поднял. Двое остальных просто не реагировали, как будто умерли.

Когда соавтор решил написать об этой проблеме Area chair и senior area chair, они тоже ответили молчанием.

Я очень болезненно воспринимаю такие ситуация, когда так сильно стараешься, но тем, ради кого стараешься, на тебя настолько насратб, что лень даже два слова ответить... Руки опускаются...

#наука #о_себе

Love. Death. Transformers.

05 Dec, 18:01


AGIGIIGIGIGIGIGI

Love. Death. Transformers.

05 Dec, 16:35


Лаба и гранты

Love. Death. Transformers.

05 Dec, 10:04


Будущее прекрасно

https://huggingface.co/spaces/multimodalart/flux-style-shaping

Love. Death. Transformers.

04 Dec, 23:11


Безумно люблю челов которые делают rwkv/mamba. Второй год трогают архитектурные изменения, но не трогают данные.

А вообще там интересно, почитайте.

Наука это праздник! Все летит в аги

Love. Death. Transformers.

04 Dec, 20:38


Welcome to city17.

Я ж говорил что восточная Европа это сборник приколов?

Love. Death. Transformers.

01 Dec, 13:02


- Устраиваешься в NDA HFT. 
- Получаешь задачу: поднять "купленную" инфраструктуру. 
- Пишешь новые коннекторы для этой инфры. 
- Через комменты находишь компанию-автора инфры. 
- Закидываешь к ним резюме на кванта, получаешь оффер. 
- Получаешь доступ к стратегиям, но без инфры. 
- Уходишь, записав адреса кошельков компании. 
- Замечаешь, что стратегии приносят бешеную прибыль. 
- Решаешь запустить их на старой инфре. 
- Понимаешь, что не хватает коннектора для нужной биржи. 
- Осознаешь, что именно ты писал этот коннектор раньше.

Love. Death. Transformers.

30 Nov, 15:40


Слава монолиту?

Love. Death. Transformers.

30 Nov, 15:21


Learned Embedding Propagation (LEP) + анонс релиза RuadaptQwQ-32B

Расскажу немного подробнее про идею, которая стоит за текущими версиями Ruadapt моделей. Наше предыдущее решение требовало после адаптации базовых версий моделей дополнительно их дообучать по сути с “базы”, из-за чего терялись многие успешные инструктивные версии моделей, которые нельзя просто взять и воспроизвести из-за отсутствия обучающих данных (те же 10 миллионов инструкций LLaMa-3 не были открыты комьюнити). Другим ярким примером может послужить недавняя Qwen/QwQ-32B-Preview, так как не понятно как ее учили и на каких данных.

Тут то на помощь и приходит предложенный нами метод Learned Embedding Propagation (LEP). Идея метода состоит из 3 шагов:
1. На первом шаге мы также адаптируем исходную базовую модель
2 . На втором шаге мы рассчитываем проекцию из исходной базы в целевую исходную инструктивную версию (например, из Qwen/Qwen2.5-32B 🔜 Qwen/Qwen2.5-32B-Instruct)
3. На третьем шаге мы применяем данную проекцию 🔜на Ruadapt версию базы!
4. На самом деле есть еще 4-й шаг, по сути очень важный, это шаг калибровки / дообучения, но он “опционален”

В итоге, после 3 шага мы по сути имеем адаптированную инструктивную версию модели, и при этом она не сломалась и работает весьма успешно уже на новой токенизации, но из-за неточностей отображения качество несколько просаживается и могут быть новые артефакты. Поэтому все модели, которые мы выкладывали ранее, дополнительно калибровались/дообучались на открытых инструктивных данных, таких как saiga_scored.

А теперь обращу внимание вот на что.

Самое дорогое - это как раз первый шаг, адаптация базовой версии модели и в этом шаге нигде не используется никакая информация о будущей инструктивной версии, а значит, адаптировав базу и применяя LEP, мы можем адаптировать модель на любую инструктивную версию с этой базы!

И вот возьмем, недавно вышедшую Qwen/QwQ-32B-Preview, несмотря на то, что мы вообще не знаем как и на чем она обучалась, мы знаем, что ее базой является, Qwen/Qwen2.5-32B, поэтому мы легко можем сделать версию RuadaptQwQ-32B-Preview-LEP. С шагом 4 тут посложнее, так как хороших данных для подобного типа моделей я пока что не видел. На текущий момент предлагаю попробовать RuadaptQwQ-32B-Preview-LEP в поднятом Space (https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5), но обращаю внимание, это модель сразу после LEP, без дополнительных шагов дообучения, да и тестирования особо никакого с этой моделью пока не производилось.

Соответственно релиз RuadaptQwQ в планах, но через какое-то время. Буду рад фидбеку по любой из наших моделей в комментариях к посту или другим любым способом.

Love. Death. Transformers.

29 Nov, 13:38


Вышли scaling laws для диффузий и оно не очевидное.

Paper

оставлю разбор от спиридона сонцеворота https://t.me/quant_prune_distill/234

Love. Death. Transformers.

28 Nov, 22:09


The Super Weight in Large Language Models
Mengxia Yu, De Wang, Qi Shan, Colorado Reed, Alvin Wan
Статья: https://arxiv.org/abs/2411.07191
Код: https://github.com/mengxiayu/LLMSuperWeight

Очень прикольная работа про то, что внутри LLM можно найти один единственный вес, зануляя который мы обрушиваем качество работы модели в пропасть. Такие параметры авторы называют супер весами (super weights) и предлагают метод их нахождения за один forward pass.

Внутри обученных LLM находится группа весов-аутлаеров с большой магнитудой, они могут составлять порядка 0.01% от всех весов модели, что в случае миллиардных моделей всё равно сотни тысяч. Это было известно ранее. В текущей работе показывают, что внутри этой группы находится один единственный вес (тот самый super weight, SW), не обязательно самый большой, важность которого превышает суммарную важность тысяч других аутлаеров. Он необходим для качества, без него LLM не может генерить нормальный текст. Перплексия вырастает на несколько порядков, а точность на zero-shot задачах падает до рандома.

Ранее (https://arxiv.org/abs/2402.17762) были найдены супер-активации, критичные для качества. Они существуют в различных слоях, имеют константную магнитуду и всегда обнаруживаются в одинаковой позиции несмотря на вход. Текущая работа находит, что канал активации совпадает с оным для супер веса и сперва активация обнаруживается сразу после супер веса. Прунинг этого супер веса значительно уменьшает активацию, так что вероятно активация вызвана им, а не просто скоррелирована. Такие активации называются супер активациями (super activations, SA).

Предыдущая работа объясняла супер активации через bias terms, но не объясняла как они получаются и почему на одних и тех же местах. Сейчас авторы эмпирически нашли, что до down проекции (down_proj) произведение Адамара (Hadamard product) gate и up проекций (gate_proj, up_proj) создаёт относительно большую активацию. Супер вес далее усиливает её ещё и даёт супер активацию.

Напомню, что MLP блок в Ламе выглядит так:

out = down_proj( act_fn(gate_proj(input)) x up_proj(input) )

SW можно найти, анализируя спайки в распределениях входов и выходов down_proj. Для этого достаточен прямой проход с одним промптом. Авторы нашли супер веса для Llama (7B,13B,30B), Llama 2 (7B,13B), Mistral-7B, OLMo (1B,7B), Phi-3.

Провели эксперименты по обнулению SW, в том числе с восстановлением SA до исходного значения, чтобы проверить влияние SW на другие активации. Это восстанавливает 42% потери, то есть влияние SW на качество выше, чем просто через SA.

По анализу 500 различных промптов из Lambaba validation set видно, что при убирании SW вероятности стоп-слов сильно возрастают (а обычные слова соответственно занижаются). Для “the” это 2×, для “.” -- 5×, и для “,” -- 10×. То есть наличие SW как бы подавляет стоп-слова и позволяет генерировать осмысленный текст.

Другой интересный эксперимент скейлит супер веса с коэффициентами от 0 до 3 (где оригинальный режим работы соответствует значению 1) и оказывается, что при увеличении SW качество модели ещё немного возрастает. Это забавный результат.

Имея это знание, можно предложить специальный метод квантования: Super-outlier aware quantization. Стандартные механизмы квантизации могут быть недостаточно хорошими, так как аутлаеры искажают распределение, влияя на размер шага и увеличивая ошибки квантования. Здесь под super outliers подразумеваются и SW, и SA. Предложенные методы восстанавливают SW и SA после квантований с клиппингом и заменами на медианное значение. Это всё работает лучше дефолтных методов, главный вывод -- надо защищать супер веса. В статье есть подробный разбор экспериментов, кому интересно поглубже. Также новый метод меньше теряет в качестве с увеличением размера блока.

Прикольный результат в общем. Это всё несколько перекликается с темой про лотерейные билеты (https://t.me/gonzo_ML/21), там внутри большой сети обнаруживалась сильно разреженная подсеть, обучая которую можно было достигать качества исходной сети (или даже выше). Интересно, входят ли супер-веса в лотерейный билет? Наверняка.

Love. Death. Transformers.

28 Nov, 18:03


Друзья ищут сильного community genai lead

Что нужно делать?

- общатся с аудиторией на русском и английском
- делать много итераций контента, предлагать идеи, смотреть что есть у конкурентов
- ti2i, t2v, i2v и это все - ваши лучшие друзья
- в идеале смотреть что происходит в индустрии, сидеть на тематических реддитах, бордах и сереверах
- Уметь делать хайповый контент, если вы часто делаете штуки которые вирусятся - велком.


Денег платят дохуя, а главное - в usdt хоть на луну, единственное чтобы у вас был хороший интернет и +-6 часов по CET

Если вы думаете что пиздатый кандидат - пишите мне в личку @transformerslovedeatch , с описанием опыта и почему вы пиздатый кандидат.

Love. Death. Transformers.

28 Nov, 13:33


Адаптация для языков шагает по планете

В самом начале вихрей у нас была амбиция делать модели в том числе для казахского, но мы отказались от этой идеи в связи с трудоемкостью и отсутствием ресурсов. А один из подписчиков решил делать хорошо, позвал друзей, сели и напереводили датасетов на казахский!

kz mmlu
gsm8k
constituion похож на наш датасет из шлепы Law mc
Вопросы к книгам

Обучили роберту

Ждем свои llm для казахского, рад что наш проект вдохновляет других людей делать что то!


linkedln post
автор @stringersolo

Love. Death. Transformers.

28 Nov, 10:53


Шаг1 пишем свой фреймворк на jax
Шаг2 учим хуевую LLM со своей архитектурой. Данные? А зачем их чистить?
Шаг3 сосем у oss моделей(тут можно поднять 1б USD пол обещание что мы молодцы)
Шаг4 вы прекрасны, Феррари доставят на следующей неделе

Love. Death. Transformers.

28 Nov, 09:37


Если вам хочется time scaling_a то у нас есть Mcts lib

Love. Death. Transformers.

27 Nov, 21:08


https://huggingface.co/Qwen/QwQ-32B-Preview

Почему не uwu

Love. Death. Transformers.

27 Nov, 18:32


Загадка на тему инфры: допустим у нас есть Nvidia gb200 nvl72. Ака стойка на 72 карты. И вот вопрос: а как на нем запускатся? Как на 18 отдельных нодах или как на одной? Если как на одной то как это реализовано системно?


Аппаратно это 18 нод по 4 карты, у них есть обычное количество маршрутиризаторов.

Love. Death. Transformers.

27 Nov, 08:52


https://huggingface.co/rhymes-ai/Allegro-TI2V

Ещё одна

Love. Death. Transformers.

26 Nov, 21:54


Вероятно лучший конспект по reinforcement learning который я видел и неожиданно на русском (!)

Love. Death. Transformers.

26 Nov, 19:52


благодаря автору @plotquot теперь вихри стали ОЧЕНЬ быстрыми для мака

забрать для M серии мака тут

Love. Death. Transformers.

26 Nov, 18:45


На кейсах со сложным движением нескольких объектов выглядит слегка лучше gen3 и прочих. Вероятно за счёт 4о и прочего будет лучше.

Забейте эта модель все ещё текущего поколения, откровений по качеству генераций не будет.

Love. Death. Transformers.

20 Nov, 21:46


https://thematrix1999.github.io/

Ни дня без world models. Теперь вместо Майнкрафта обучили на видосах из forza


Кода и демо пока нет.

Love. Death. Transformers.

20 Nov, 20:37


😮 R1-Lite - бесплатный конкурент o1, который скоро релизнут в опенсорс

Китайцы из DeepSeek, несмотря на крайне ограниченные ресурсы, продолжают выдавать охренительные модели мирового уровня. Их новая модель, R1-Lite, очень близка по бенчмаркам к o1-preview, где-то даже превосходит. Она также может тратить десятки тысяч токенов на размышления, при этом чем больше токенов, тем лучше результаты. DeepSeek говорят, что это только начало и тизерят модели ещё мощнее.

По бенчмаркам модель лучше o1-preview в кодинге и математике, но отстаёт в остальных задачах. С o1-mini, которая как раз в кодинге и математике сильнее, чем o1-preview (не спрашивайте), на графиках не сравнивают. Для примера, по бенчам OpenAI, у o1-preview Elo на Codeforces 1258, у o1-mini и полноценной o1 - 1650 и 1673 соответственно. По моим личным тестам, R1-Lite тоже отстаёт от моделей OpenAI.

Но насколько лучше или хуже R1-Lite, чем разные версии o1, это не так важно, ведь изначальная моделька сильно меньше и хуже. Важно, что inference time scaling заставили работать за пределами OpenAI, причём без дурацких ограничений - в отличие от o1, DeepSeek дают полный доступ к размышлениям модели. К тому же скоро обещают API и опенсорс-релиз, к которым будет прилагаться Technical Report о тренировке, а они у DeepSeek очень детальные. То есть даже если другие лабы не смогли воспроизвести inference time scaling самостоятельно, через пару месяцев свой o1 будет у всех. Вместе с base и instruct весами будут релизить ещё и reasoner.

Ещё один нюанс - DeepSeek всё ещё отрабатывают рецепт тюна на маленькой модели, перед тем как потратить заметные ресурсы на тюн большой. Отсюда и Lite в названии модели. Не факт, что она основана на DeepSeek V2 Lite, но скорее всего её смогут запустить простые смертные. Полноценный R1 будет гораздо умнее.

Попробовать можно на их сайте, включив «Deep Think». Дают 50 сообщений в день, причём абсолютно бесплатно.

chat.deepseek.com

@ai_newz

Love. Death. Transformers.

20 Nov, 12:50


Любопытное наблюдение: tech-компании теряют до 60+ часов в месяц на расчёты с удаленными сотрудниками…

Стандартная ситуация: компания на Кипре или в Сербии, а команду разбросало по миру. Со всеми нужно заключить договоры, а потом каждый месяц вручную готовить закрывающие документы и отправлять деньги в десятки и сотни разных банков.

Так бумажный процесс превращается в неприятную рутину и затягивается на десятки часов. Тут нужен огромный ресурс фаундера или целая финансовая команда, чтобы платить всем вовремя. В итоге бизнес перегружается операционкой и теряет фокус с реального развития.

Но с платформой 4dev.com всё гораздо проще!

4dev.com позволяет платить сотням сотрудникам в любой точке мира и автоматически получать закрывающие документы по каждому платежу. Нужно подписать всего 1 оферту с 4dev.com вместо 100+ договоров с исполнителями!

- мгновенно получайте закрывающие документы по каждой выплате
- все закрывающие документы соответствуют международным стандартам (МСФО)
- свободно платите в крипте, USD, EUR или других валютах
- одной головной болью станет меньше — и вы уделите больше времени развитию бизнеса

Запишитесь на демо в 1 клик. Погрузимся в ваши задачи и поможем найти решение именно для вашего бизнеса!

Love. Death. Transformers.

20 Nov, 09:38


https://www.stepfun.com/#step2

На livebench top5 китайская 1т+ модель

Love. Death. Transformers.

19 Nov, 23:19


Решил я почту полистать значит... А у меня приглос в бету церебраса лежал

Love. Death. Transformers.

19 Nov, 23:10


Интересно кстати к чему полезному можно приложить такую скорость. Для groq не придумали, но там и ллама всего 70б была. Посмотрим что будет тут.

Love. Death. Transformers.

19 Nov, 23:03


Ресерчам приходится делать ОТВРАТИТЕЛЬНЫЕ вещи когда скейлинг не работает, вот примеры:
- ПОСМОТРЕТЬ данные руками
- открыть помимо конфига обучения ещё и код(ваще мясо)
- перестать придумывать свои велосипеды когда фреймворк перестал работать
- скачать ВСЕ страницы документации pytorch lighting, потому что открывается только из под впна
- выкинуть любимый скрипт на torch lighting для обучения
- обновить transformers
- ПОСМОТРЕТЬ ДОКУМЕНТАЦИЮ
- Закрыть х, реддит, доту и отменить предзаказ на turms

Love. Death. Transformers.

19 Nov, 17:50


К сожалению произошла техническая накладка и не все смогли зайти. Выкладываем слайды и запись лекции.

YouTube
Slides

Love. Death. Transformers.

19 Nov, 15:48


Мы достигли лимита по юзерам, чтож, спасибо Яндекс телемост за 40 юзеров в звонке и спасибо что явно упомянули это, выложим запись!

Love. Death. Transformers.

19 Nov, 14:45


19 ноября в 18:30 у нас выступит команда Vikhr models c докладом:

“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”

Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223

Love. Death. Transformers.

19 Nov, 10:00


Люблю этот график, 10^6 компьюта это рост за сколько лет?

Love. Death. Transformers.

18 Nov, 16:16


Мистраль забили(?) окупать le platform и дропнули large модели на хф тоже

модель

А еще выложили ОГРОМНЫЙ(120+b) pixtral lol который скорее всего сопостовим по качеству с molmo

В метриках "забыли" molmo и qwen

Love. Death. Transformers.

18 Nov, 15:35


cобственно мы наблюдаем это в том числе по mmlu(бенч говно, но на остальных будут очень похожие картинки)
Oss большие тушки стали не значительно хуже закрытых, но для открытых сильно больше инфры, так что вопрос времени когда на агентских бенчах и прочем oss обгонет cls.

Ну и кажется aren_а доломали, теперь она окончательно сломана. по другому обьяснить gemeni на 1 месте не могу.

Love. Death. Transformers.

18 Nov, 13:54


gpt5, 3 opus, gemini 2 задерживаются, выходят какие то минорные релизы типа 4o, o1(соре я не решаю каждый день школьную матешу), а сми пишут про scaling is hitting wall. Опять зима, agi 2027 не будет?


- 4о, sonnet 3.5 и прочее учились на сопостовимом с прошлым поколением компьюте, потому что...
- текущее поколение nvidia банально не доехало до основных потребителей)))) Проще говоря все учат на н100, h200 и b100 нет почти не у кого(google, nebius в этом квартале ограниченно их выдают).
Размер кластера который вы можете использовать с эффективной сетевой задержкой вообще то не бесконечен. А еще обучение не бесконечно масштабируется по эффективности(читать подробно)
- FP8 пока что пиздец какой маркетинг, учить(претренить на nvidia) в нем никто не умеет без потерь
- C fp4 ситуация еще хуже, там даже до инференса без потерь не дошли
- Магические железки есть только у гугла, но они не значительно помогают.
- жить на своих железках ОЧЕНЬ И ОЧЕНЬ сложно, без поддержки комьюнити - нереально
- Данные у всех примерно одинаковые, разница между закрытыми данными у oss и закрытых моделей вероятно минимальна(не считая синты)
- Новых (стоящих) архитектур пока все еще нет, стоящих работ пока все еще нет
- Agentов учатся учить с sft степа, пока что ничего дельного не выходит, думаю вопрос нормальной синты(ее все еще нет, потому что нет нормальных env, а нормальных env нет потому что вебмакаки не умеют в perfomance и эти ваши multi cpu)
- Мы не увидим значимых шагов качества базовых моделей еще от трех месяцев до года.
- Китайские компании вероятно выкатят еще больше годноты. kling, qwen - только начало.
- ебучих копий o1 и cot/mcts/долгих генераций будет ОЧЕНЬ много
- bitter lesson придет за всеми кто его не усвоил.


А, чо там по качеству фотомоделей? cигмоиду достигли уже? пальцы починились?)

Собственно качество фотомоделей пришло к тому что уже не понятно - где mj, flux и тд. Разница есть но ее надо искать под микроскопом, raw режим flux пробил фото реализм и теперь генерации дейстивительно не отличимы от фото, но размер простыни промпта для такого качества абсолютно неадекватен.

Вы правда думаете что с текстом будет по другому?


Верить ли моим оценкам? Конечно нет лол, я просто чувак из тыктырнета))

Love. Death. Transformers.

18 Nov, 13:25


... они стояли в очереди за латте сингапур

книжка хороша, почитать тут платно

Love. Death. Transformers.

18 Nov, 12:22


https://m.tb.cn/h.TYeNYaV?tk=hs1E3sdmmkX

3400 usd за 48гб карту, которая быстрее чем а6000 и кажется быстрее l40s

Love. Death. Transformers.

17 Nov, 16:17


Довольно любопытная документалка про то как строили half-life

Ознакомиться

Love. Death. Transformers.

14 Nov, 21:16


https://www.arxiv.org/pdf/2408.03047

Мда.

Love. Death. Transformers.

14 Nov, 16:39


Раньше чтобы тебя не детектили системы как человека надо было носить одежду как справа. Теперь достаточно одежды как слева.

Я напомню что среди DSов есть секта:

ОБУЧЕНИЕ ВСЕ, вам достаточно сделать import openai и все. И почему они все ведут какие то курсы... На работу их не берут что ли...

Love. Death. Transformers.

13 Nov, 21:32


Qwen2.5-Coder
- 23T токенов в претрене
- 23Т токенов пролито через 0.5b модель и она приросла по метрикам до уровня gemma2b которая как llama2 7b. Чтож.
- Добавили Math данных из Qwen Math
- В SandBox проверяли код на компилируемость
- Учили на FileLevel - те внутрь контекста складывали файл кода целиком
- Учили с <FILL IN THE MIDDLE> ака MLM таской - это важно для решения разных бенчей
<|repo_name|>{repo_name}
<|file_sep|>{file_path1}
{file_content1}
<|file_sep|>{file_path2}
{file_content2}
<|file_sep|>{file_path3}
<|fim_prefix|>{code_pre}<|fim_suffix|>{code_suf}<|fim_middle|>{code_fim}<|endoftext|>

вот в таком виде учили на ЦЕЛЫХ РЕПОЗИТОРИЯХ!!

- Модель на большинстве оффлайн бенчмарков на уровне gpt4o/sonnet3.5. Имея 32b параметров. 32b.
- На скрине live code bench - датасет который обновляется PRами и на нем пока что не научились оверфитится, для контекста - sonnet 3.5 - от июня выдает 38.1

paper

Love. Death. Transformers.

13 Nov, 19:23


маленькая девочка попросила Бога: а можно в мере будет \n и \t экранированы???

вместе с девочкой плакало половина гигачата....

Love. Death. Transformers.

13 Nov, 19:14


англоязычное пространство: openai, antropic, google, meta, куча китайских лаб с сотнями сотрудников дерутся за лучшие претрены, и лучшие aligemntы, опенсурс делается на огромные гранты , гиганты выдают в опенсурс llama и gemma

русскоязычное пространство: э, ну у нас есть три команды энтузиастов которые на свои деньги что то делают.
Еще есть бигтехи со своими претренами, но туда мы не ходим, там 7б модели по 20usd/m токенов

Love. Death. Transformers.

13 Nov, 19:02


В продолжении наших экспериментов с адаптацией Qwen-2.5 моделей мы выпускаем RuadaptQwen-2.5-32B-Instruct (v1)! Вероятно самая большая открытая модель на данный момент, адаптированная на русский язык (в частности у нее один из наилучших токенайзеров среди открытых моделей для русского языка).

Модель была оценена на бенчмарке MERA (см. картинку).
Некоторая особенность сабмита на MERA в том, что в нем был использован кастомный промпт (есть в карточке сабмита), но для честного сравнения мы также добавили сабмит с исходной версией модели с таким же промптом.

Ссылка на модель:
https://huggingface.co/msu-rcc-lair/RuadaptQwen-32B-instruct

GGUF версия:
https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct-GGUF

Попробовать можно тут:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5

Будем рады фидбеку по достоинствам и недостатком модели.

Love. Death. Transformers.

13 Nov, 17:45


Ищу денег на обучение Berta на 18т токенов, писать в лс @transformerslovedeatch

Love. Death. Transformers.

13 Nov, 16:04


обзор на qwen2.5

сегодня.

Love. Death. Transformers.

13 Nov, 10:05


ну раз речь про диффузии пошла...

https://huggingface.co/learn/diffusion-course/unit0/1

- почему latent>pixel diffusion
- не велосипедный код, diffusers, torch и трансформерс - короче то что от вас будут реально ждать)))
- интуиция для аудио/видео + все нужные статьи и интуиция
- имплементация ddpm - уже не очень актуальная, но все еще необходимая
- что такое guidence, class сonditioned, improved diffusion models
- Что такое SD и с чем его едят, без этой инфорамации вас не возьмут никуда

Love. Death. Transformers.

13 Nov, 09:10


почему на сайте дойки.ком нет возмжности быстро узнать doi нужной статьи

Love. Death. Transformers.

12 Nov, 21:19


Китай удар?

Love. Death. Transformers.

12 Nov, 19:47


Я в восторге от рекламы новых unitree, робособака с колесами выглядит как будущее

Love. Death. Transformers.

12 Nov, 09:15


Redteaming is all you need

Love. Death. Transformers.

11 Nov, 12:51


19 ноября в 18:30 у нас выступит команда Vikhr models c докладом:

“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”

Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223

Love. Death. Transformers.

10 Nov, 20:36


https://www.avito.ru/moskva/tovary_dlya_kompyutera/nvidia_geforce_rtx_4090_48gb_turbo_2024_4494188888

во, нормально

донейшены в trc20 usdt чтобы затестить: TU6Rzbsu1NDLYUVfpCyFcXXyUS9iFJw2hK

Love. Death. Transformers.

10 Nov, 15:43


nvidia rtx5880 вышла))

https://www.nvidia.com/en-us/design-visualization/rtx-5880/

Love. Death. Transformers.

10 Nov, 12:14


Довольно ценная штука, полезно посмотреть как учить audio ae. Хотелось бы большой блогпост, надеюсь Терра напишет.

Love. Death. Transformers.

10 Nov, 12:14


Я опубликовал простой аудио AE. По сути, это адаптированный SoundStream, из которого я убрал дискретные токены, оставив только латентные представления.

Love. Death. Transformers.

08 Nov, 16:31


использовать отклонение уровня тестостерона фаундера от нормы как мультипликатор при оценке

>for testosterone, we observe that founders at the pre-seed and acquired stages had median levels below the healthy range. Seed and Series A founders were within the healthy range but below optimal levels. Only at the Series B stage did the median testosterone level enter the optimal range, although statistical significance could not be established due to the small sample size <..>

https://arxiv.org/pdf/2411.03361

Love. Death. Transformers.

08 Nov, 15:27


Выложил v2 версию Сайги Немо. Основных изменений 3:
- Я убрал 80+ примеров из SFT, в которых использовались системные промпты персонажей из ПингПонга. Они появились там до ПингПонга из логов бота, собственно сам лидерборд я собирал на их основе. Это может считаться утечкой, поэтому они убраны из обучения.
- В SimPO датасете я агрессивнее порезал длину и увеличил вес SFT лосса, чтобы укоротить ответы и уменьшить количество выдуманных слов.
- Дотюнил на Достоевском и смёржил ровно так, как я делал для Вихря.

На ПингПонге стало лучше, на арене пока нет результатов.

Если кому-то захочется остаться на v1, везде можно указать ревизию, они есть в карточке модели.

GGUF'ы будут завтра.

Love. Death. Transformers.

08 Nov, 15:07


саундтрек

Love. Death. Transformers.

08 Nov, 12:18


вообще репорт интересный, медианный участник опроса прямо кричит "я унылая посредственность из богом забытой команды в глубине сбера"

Love. Death. Transformers.

08 Nov, 09:10


китай удар!

Love. Death. Transformers.

07 Nov, 14:50


сколько C level_ов заменит крыса с гигачатом?

Love. Death. Transformers.

07 Nov, 13:02


все ваши диффзуии будут хуже хорошей llm и вот почему

1) Диффузии не нативно работают с текстом и промптами, а через эмбед. Те при работе с промптом вам в начале надо пролить его через ллм которая увеличит его до 256 токенов для т5, и только потом сунуть через cross-attn в диффузии. Suck какой то...

Что делать?
Совать мультимодалку в LLM что еще делать то...
Это очень сложно, потому что neural codec это всегда сложно, есть всякие LWM-Dalle1 и прочее на vqtokenizer, но везде картинки-видео старались пихнуть в сколько то осмысленный контекст(до 32к) и изза этого плотность информации страдала. Бонусом это хуевый картинко генератор и хуевая vlm и хуевая LM. Примеры: chamelion1-2

Nvidia вчера дропнули Cosmos Tokenizer - vqvae который еще и может быть темпоральным, еще и может стримится, SOTA по их собственным замерам и 1024 картинку можно кодировать в 2048 токенов!

Статьи нормальной нет, но блогпост интересный

Love. Death. Transformers.

07 Nov, 10:30


чет проебался, думал сегодня день рекламы яндекса, а оказалось что сбера...

блять а мне же не платят даже за это, мы же просто орков гоняем в балде...

ладно, челы шарят как учить llm с качеством отличным от рандома, а это сложно

Love. Death. Transformers.

07 Nov, 10:30


Релиз GigaChat MAX! (ссылка на Хабр)

Салют! Мы открываем доступ к модели GigaChat MAX. Модель доступна в @gigachat_bot, в веб-версии и через публичное API (в режиме раннего доступа).

- GigaChat MAX занимает 3 место в бенчмарке MERA. Сразу за gpt-4o и Llama-405B.
- GigaChat-Max достигает 92% правильных ответов на GSM-8k, 80% на MMLU и 75% на MMLU-RU.
- По результатам SBS, где учитывается красота ответов, мы выигрываем в 61% случаев у GPT-4 turbo и в 67% случаев у YaGPT-4 Pro.
- В Arena-Hard мы достигаем 51% скора против GPT-4-0314
- В Vkhr Arena-General-RU мы достигаем 90%, в то время как YaGPT-4 Pro достигает 59%.

Чтобы узнать про то, как мы делали модель, переходите на статью в хабре.

Предыдущие посты:
— GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
— GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов

Love. Death. Transformers.

06 Nov, 17:17


А у вас тоже твитер забит такой хуйней:


Какой accelerate, кто данные ковырять будет...

Love. Death. Transformers.

06 Nov, 14:34


бонус: эта штука поддерживает разные железки!

Love. Death. Transformers.

06 Nov, 14:33


OpenDiLoCo: An Open-Source Framework for Globally Distributed Low-Communication Training

Обучение multidatacenter сеток все еще большая и сложная штука, для начала стоит понимать что
- скорость интернета не однородна
- на больших расстояниях могут копится ошибки
- пропускная способность сети может быть недостаточной

собственно большой папир и репа про то как учить в ОЧЕНЬ распределенном сетапе
блогпост от авторов имплементации

Love. Death. Transformers.

06 Nov, 10:51


Русские фаундеры спешат на новую когорту YC после победы Трампа на выборах. Картина в цвете 2025.

Love. Death. Transformers.

06 Nov, 08:33


Обновилась llmarena.ru

TLDR
Vikhr Nemo - лучшая opensource модель в своем классе!

Love. Death. Transformers.

05 Nov, 15:01


Ура. Наконец зарелизил:
recoilme-sdxl

файнтюн, над которым я работал последние три месяца.

За это время правда вышло 100500 новых архитектур моделей, но не бросать же..

telegram bot (20/day free): @charsaibot

hf: https://huggingface.co/recoilme/recoilme-sdxl-v11

civit: https://civitai.com/models/920626?modelVersionId=1030470

reddit: https://www.reddit.com/r/StableDiffusion/comments/1gk8cbw/recoilmesdxl/

Love. Death. Transformers.

04 Nov, 19:01


АЛЛО МЫ ИЩЕМ ГОЛОСА3

https://llmarena.ru/ заходите в анонимно и бежим размечать голосами свежее поколение ллм, я с утра разметил несколько десятков сэмплов и вам советую!


Интервалы.
должны.
Сойтись.

Love. Death. Transformers.

04 Nov, 16:37


phd level intelegence achived internally(он выкурил два джоинта и сьел все брауни)

Love. Death. Transformers.

04 Nov, 12:55


Критическое мышление для начинающих и для профессионалов

Love. Death. Transformers.

04 Nov, 08:43


Лоооол

https://arxiv.org/pdf/2410.10356

Love. Death. Transformers.

04 Nov, 06:32


💨👁 Vikhr-2-VL-2b-Instruct-experimental

это компактная VLM модель, обученная на переведенном датасете LLAVA-150K, специально доученная для обработки на русском языке. Дообученная модель является эксперементальной и не всегда будет работать ожидаемо (особенно OCR).

Ждем вашего фидбека от использования модели)

HuggingFace
Colab

Коллектив авторов: @LakoMoorDev @mlunderground @nlpwanderer

Love. Death. Transformers.

03 Nov, 19:37


Резерчеры из z банка заменили relu на gelu в трансформере, тем самым ускорив обучение на 4%!!

Респект и уважуха нашим ребятам, удачи им на А конференции Диалог 2025!!

Love. Death. Transformers.

03 Nov, 19:12


https://epochai.org/blog/data-movement-bottlenecks-scaling-past-1e28-flop

Блин опять логарифм подсунули что ли?

Ладно если серьезно:
- компьют не скейлится бесконечно из-за скорости сети
- multi datacenter обучение головные(скоро будет обзор как учить multi DC и НЕ умирать)
- железки Nvidia не предназначены для такого

Love. Death. Transformers.

03 Nov, 12:23


Безумно люблю blin queen, лучшие драники в городе, обязательно сходите!

Love. Death. Transformers.

03 Nov, 12:12


Статья от ребят из DIT Moscow RESEARCH - присядь на штраф если не регаешь канал в РКН!

Love. Death. Transformers.

02 Nov, 21:32


Ура, релиз Сайги Немо!

Модель: https://huggingface.co/IlyaGusev/saiga_nemo_12b
Уже доступна в боте.
GGUF завтра подвезу.

По метрикам: 85 на РуАрене, что чуть хуже 87 у Вихря. И 3 место на ПингПонге.

Пайплайн абсолютно классический: SFT + SimPO. Датасеты, конфиги обучения, W&B логи лежат в карточке модели.

Уникальная фича модели — расцензурированность и ориентация на role-play. Обучал я её поверх abliterated версии Немо, и из и SFT, и SimPO датасетов агрессивно вычищал отказы. В оба датасета доливал role-play промпты, но не с теми персонажами, которые есть в ПингПонге.

Я поштырил и в RP диалоги, и в ответы на арене, и увидел несколько проблем:
1) Модель не умеет рисовать ASCII.
2) В 2 примерах я наблюдал повторы. Это было там, где нужно было написать пример кода, а в нём был какой-нибудь токен. И вот этот токен генерировался бесконечно. Эта проблема специфична для нулевой температуры.
3) Длина. Хоть я и пытался бороться с слишком длинными ответами, по бенчам видно, что ответы всё равно длиннее среднего.
4) Очень изредка попадются выдуманные слова. Причём они вполне разумны, просто их не существует.

Love. Death. Transformers.

02 Nov, 09:55


Вот они слева направо:

float8_e3m4
float8_e4m3
float8_e4m3b11fnuz
float8_e4m3fn
float8_e4m3fnuz
float8_e5m2
float8_e5m2fnuz
float8_e8m0fnu

Love. Death. Transformers.

01 Nov, 23:12


https://github.com/etched-ai/open-oasis

На момент написания поста я не читал репу, кидал на угад, попал во все +-

Love. Death. Transformers.

01 Nov, 15:19


Мы дочинили arenahard, сабмиты снова работают как и раньше (спасибо gradio за обновления)

А также добавился gigachat max censored и uncensored. Подозреваю что цензор это мелкая модель сверху которая помимо прочего сильно режет качество генераций.


Версия с цензором где то между mistral nemo и gemma 27b. Версия без цензора на простой корзине(без особого кода, ризонинга и прочего) на уровне 4о.

Крутой рост за полгода, посмотрим что будет дальше.

Love. Death. Transformers.

01 Nov, 10:55


что блять

Love. Death. Transformers.

01 Nov, 07:44


Работает примерно так: есть 3d dit, подаём на вход onehot вектор действия, unet смотрит на прошлые кадры и двигает картинку.

Love. Death. Transformers.

01 Nov, 07:40


World model говорили они
Будущее игр говорили они
Не мешай лёгкие наркотики с тяжёлым алкоголем говорю я


Собственно есть работа diamond - тут учат видео диффузию на действиях из игр. Ребята из <стартап> собрали примерно тоже самое но в Майнкрафте, рассказывают что будут гонять в 4k 100b диффузию.

Почитать diamond

Love. Death. Transformers.

31 Oct, 18:40


Ну, agi in 4 years

Love. Death. Transformers.

31 Oct, 15:16


> решать задачу optimal execution-а крипто зарплаты с рандомизацией по трем осям (date, quantity, frequency) чтобы не попасть под 115 ФЗ
> защищить PhD по Оperations Research по этой работе

Love. Death. Transformers.

31 Oct, 11:32


Это что выходит, для взаимодействия с человеческой средой не нужен робот похожий на человека?

Love. Death. Transformers.

31 Oct, 11:29


Оригинальную арену продолжают дробить по скорам(что логично, аутичные соннеты хороши в коде, но не хороши для RP/рассказов)

Love. Death. Transformers.

31 Oct, 10:09


Оракулы объявили неделю точно не купленных постов вида: учёные в говне моченые открыли гитхаб китайских бакалавров, с помощью сонета написали текст и этот текст прошел ревью на A конфу

Love. Death. Transformers.

31 Oct, 08:45


АЛЛО МЫ ИЩЕМ ГОЛОСА2

https://llmarena.ru/ заходите в анонимно и бежим размечать голосами свежее поколение ллм, я с утра разметил несколько десятков сэмплов и вам советую!


Интервалы.
должны.
Сойтись.

Love. Death. Transformers.

31 Oct, 07:50


сложно недооценить вклад в обстановку дома, внесённый совместно просмотренной серией менталиста, в которой слегка аутичного математика убила жена за то, что он не уделял ей внимания

Love. Death. Transformers.

30 Oct, 19:41


Atlas working in a factory - no teleoperation

Soon they will work 24/7/365...
without sleep...
without pay...
without tiring...
without food...
without striking...
without calling in sick...
without suing their employer...
with superhuman limb movements...
with superhuman speed...
with superhuman precision...
when one robot learns something new, it will propagate the update to the other robots simultaneously as a hive mind...

with full of VC investment without unit economics

Love. Death. Transformers.

30 Oct, 15:22


Неделя релизов Эппл продолжается — наконец-то Macbook Pro на M4. Все то же самое, цена та же самая, но m4, m4 pro и m4 max.
Честно говоря, я бы не был в таком восторге, но я пишу это сообщение с самого первого макбук про на м1. И мне уже явно пора обновляться, главное — побольше памяти.

https://www.apple.com/newsroom/2024/10/new-macbook-pro-features-m4-family-of-chips-and-apple-intelligence/

Love. Death. Transformers.

30 Oct, 11:57


О, на runpod вышла h200!

Love. Death. Transformers.

30 Oct, 10:08


АЛЛО МЫ ИЩЕМ ГОЛОСА

https://llmarena.ru/ заходите в анонимно и бежим размечать голосами свежее поколение ллм, я с утра разметил несколько десятков сэмплов и вам советую!

Love. Death. Transformers.

29 Oct, 14:33


sd 3.5 medium вышел

Love. Death. Transformers.

29 Oct, 07:38


Наконец-то закончил работу над большим пет-проектом.

Я смог запустить Llama 3.1-8b прямо в браузере на cpu с помощью нашего нового алгоритма сжатия AQLM+PV.

Можно потестить демо здесь

видео

Love. Death. Transformers.

28 Oct, 18:23


Саундтрек

Love. Death. Transformers.

28 Oct, 18:19


🎆 Небольшая лекция об Alignment и как мы его готовим

Это слайды с текстом, пока устно ее я рассказывал только внутри команды Vikhr.

Внутри вы узнаете:
- Теория Bradley-Terry и откуда берутся Reward модели
- Что нужно для обучения Reward модели и как его делаем мы
- Откуда взялся DPO и каковы его недостатки
- Какова мотивация нас и других авторов улучшать DPO
- Как устроен наш функционал SMPO - Simple Margin Preference Optimization
- Какие есть способы улучшения DPO на уровне данных и как готовим эти данные мы

Задавайте вопросы комментариях, если что-то непонятно, будем обсуждать.

Love. Death. Transformers.

28 Oct, 13:50


Новая 2b OpenSource i2v моделька!
- По качеству как 5b СogVideox
- Apache2.0


huggingface
Игратся
Уже доступно в виде ComfyUI ноды

Love. Death. Transformers.

28 Oct, 11:15


Всех приветствую! Рады поделиться v2 checkpoint IP-адаптера для модели FLUX-dev! (кстати, можете попробовать и другие версии)

Скачать веса можно тут: huggingface
Воркфлоу тут: ip_adapter_workflow.json
Перед использованием обязательно обновите ноды: x-flux-comfyui.git

Love. Death. Transformers.

28 Oct, 10:17


Чат, какой лучший одноплатник для LLM с потреблением до 10w?

Love. Death. Transformers.

27 Oct, 15:12


Саундтрек

Love. Death. Transformers.

26 Oct, 22:39


Мммм, 35 место. Но так-то серьёзный скачок с 46. В комментах скриншоты с артефактами.

Love. Death. Transformers.

26 Oct, 21:47


Паблик арена слегка страдает от обновления, поэтому пока так

Ygpt v4 lite где то на уровне llama 8b, но с точки зрения русского очевидно будет лучше

Ygptv4 pro где то на уровне mistral nemo 12b

Qwen2.5 14b на уровне тюненной gemma/mistral Nemo

Love. Death. Transformers.

26 Oct, 12:57


Великий прав

Love. Death. Transformers.

25 Oct, 11:20


Skill issue on data deduplication

Самое интересное что ngramm поиск не нашел, хотя мы несколько итераций делали


TBH мы учили отдельную маленькую модель на арене, оверфит на ВСЕЙ арене давал порядка 10-20 очков

Love. Death. Transformers.

25 Oct, 11:20


Ларчик с Вихрём Немо просто открывался. Рецепт оказался прост: трейн на тесте.
Я недавно случайно обнаружил, что в GrandMaster-PRO-MAX лежит около 180 промптов и ответов на них из ru_arena_general. А их там всего 500, то есть больше трети примеров из тестов слиты в обучающую выборку. Вполне возможно, что это сделано не только в SFT, но и в SMPO фазе.

Код для проверки:

from datasets import load_dataset

examples = dict()
for row in load_dataset("Vikhrmodels/ru-arena-general", split="train"):
examples[row["turns"][0]["content"]] = 0

for row in load_dataset("Vikhrmodels/GrandMaster-PRO-MAX", split="train"):
ex = row["conversation"][0]["content"]
if ex in examples:
examples[ex] = 1
print(sum(examples.values()))


Я решил поэкспериментировать и сделал то же самое в SFT. Получил +6 пунктов на арене. Справедливости ради, мне всё равно не удалось догнать Вихрь, но, вероятно, это решается доливом теста в SimPO.

Намеренно ли это было сделано? На 99% уверен, что нет.
Делает ли это Вихрь Немо плохой моделью? Тоже нет.
Но хорошо бы это увидеть в карточке модели, да и с арены модель убрать.

Love. Death. Transformers.

25 Oct, 10:55


Ограничения Instruction Tuning и как их преодолеть

Supervised Full Fine-tuning (SFT) — распространённая практика, но он не лишён недостатков. Авторы сегодняшней статьи задаются вопросом: а может ли LoRA (Low-Rank Adaptation) исправить недочёты?

При использовании Full Fine-tuning возникает две проблемы: у моделей часто возникают сложности с извлечением новых знаний из SFT-датасета, могут участиться галлюцинации. Исследование показало, что модели, обученные с использованием Full Fine-tuning, могут генерировать неверные ответы, если берут слишком много токенов из SFT-датасетов. Эффект особенно заметен, если модель пытается отвечать на вопросы, требующие глубокой экспертизы.

Например, на вопрос «Какие основные работы Эйнштейн сделал после того, как в 1915 году открыл Общую теорию относительности?» модель начинала выдавать не соответствующие действительности ответы — скажем, о «квантовой теории атома трития».

Одним из возможных решений может быть LoRA — это метод, который позволяет обучать модели с гораздо меньшими ресурсами, модифицируя лишь небольшую часть параметров. Вместо полного тюнинга всех параметров LoRA использует специальные низкоранговые матрицы, что приводит к изменениям только определённых аспектов, таких как стиль ответа или инициирование фраз. При этом основная часть весов предобученной модели остаётся неизменной.

Первые несколько процентов токенов, сгенерированных LoRA-моделью, могут быть изменены (по сравнению с ответом предобученной модели), чтобы правильно начать ответ. Но большая часть предложения остаётся такой же, как у предобученной модели. Это позволяет уменьшить количество галлюцинаций. Эксперименты показали, что LoRA даёт более точные ответы.

LoRA эффективен даже при малом объёме датасета. Например, модель с LoRA, обученная на наборе данных из 1000 инструкций, может превосходить модели с SFT на датасетах по срезам фактологичености и полезности, содержащих 52 000 или даже 326 000 инструкций. В экспериментах использовались различные открытые и домен-специфичные датасеты, включая MedInstruct и Alpaca. Модели с LoRA демонстрировали лучшее соответствие фактам и были менее подвержены галлюцинациям.

Разбор подготовил
Алексей Шимко

Душный NLP

Love. Death. Transformers.

24 Oct, 20:15


Э, ну с этим бенчом все, что у нас на очереди? Агенты?
Ну ща пацаны нагенерят в top256 траекторий решения, выучат и будет вам агентность.

Love. Death. Transformers.

24 Oct, 19:53


https://github.com/torvalds/linux/pull/988

Что то странное творится в Линуксе, дед не выпил таблетки и творится кринж, удалили 11 русских челов, не очень понятно за что.

А, похуй, банили сотрудников санкицонных компаний.

Love. Death. Transformers.

24 Oct, 15:41


Средний бот, и так уже на самом деле умнее среднего человека. В сущности, мы пришли к ситуации, когда модель, которая считается средней, должна: знать математику, иметь word knowledge, знать физику, программирования и прочее по очень разным топикам которые у нее спрашивают. При этом должна быть достаточно эмпатичной, чтобы нравится пользователю. При этом должна знать где-то под сотню языков. Ну например, средняя опенсурсная модель знает 20 языков. Но, в свою очередь, таких людей мало. Выходит, мы достигли General Intelligence, когда вышла GPT-4? То есть, ну, по сути-то, у нас модель умнее, чем средний человек.

Love. Death. Transformers.

23 Oct, 21:39


В следующей главе модели enterprise класса будут управляя сексботами зарабатывать на электричество в борделях

Love. Death. Transformers.

23 Oct, 21:30


Корейцы на СВО, по телевизору нейросетевые птицы с человеческими яйцами, многотонную ракету сажают на опоры, и всё это под саундтрек из видосов инстаграмма «под залупой творог собрался ребята»

Мы живем в хуёвом романе Пелевина, у нашей действительности лицо кота «не бойся»

Love. Death. Transformers.

23 Oct, 20:41


https://github.com/kijai/ComfyUI-MochiWrapper

Впихнули в 20гб вместо 320

Love. Death. Transformers.

23 Oct, 15:17


розыгрыш мерча неуютный фкнчик

1 место: футболка «#freekosov»
2 место: 3 презерватива «cuda стандарт индустрии» + стикерпак

для участия надо нажать ниже и подписаться на паблик

результаты в воскресенье 20.10 в полдень

Love. Death. Transformers.

23 Oct, 14:31


ХЗ чего вы все ноете. Вот возьмем меня. Закончил псифак спббгу, работаю скрам-мастером. Выстраиваю процессы по скраму. Вкатился на изичах. Зарплата сейчас - $8к после налогов. Справедливости ради надо сказать, что у меня еще две сдающихся хаты в центре спб, а сам живу у тян. Оттуда капает + иногда довольно часто коучу скраму разные конторы (очень хорошо кодомартышек скрым дисциплинирует + метрики, поэтому все вкатываются). Недавно вот коучил одну из крупнейших гейдев кантор на снг (но не рашка, оналайн дрочильня на воен тематику) - неделя на контракте, две сотни кодомартых на лекциях - единоразовай гонорар по контракту мне - $40к. Собственно вопрос - что вам мешает поступить так же?

Love. Death. Transformers.

23 Oct, 08:46


в чем проблема? В том что в 80 это по сути каждый 5 ответ - лажа. 49 - каждый второй

Love. Death. Transformers.

22 Oct, 18:35


еще одна новость вышла пока я ужинал и болтал

Love. Death. Transformers.

22 Oct, 18:25


magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
https://www.genmo.ai/

Love. Death. Transformers.

22 Oct, 14:59


Я 1 год считаю ELO у вас в моделях - и то 1000, то 1020, а иногда и 1058. Вы там сумасшедшие что ли все?

Love. Death. Transformers.

22 Oct, 14:59


вы там ебанутые

Love. Death. Transformers.

22 Oct, 14:27


отбой, по прежнему с женщинами беда

Love. Death. Transformers.

22 Oct, 14:08


Стабилити релизули Sd 3.5 large на 8b параметров!
model
space

Из интересного - модель хуже FLUXа, но не дистилированная. Посмотрим насколько хорошо будет учится

Love. Death. Transformers.

22 Oct, 10:53


если вы хотите аппелировать к MT возможности без перевода(кто в 24 году гоняет t2i без prompt refiner он же переводчик?) то пожалуйста перестаньте


mt aligment для картиночных моделей - очень сомнительная процедура, проще все делать на английском

Love. Death. Transformers.

22 Oct, 10:44


Вышло демо, по пониманию классно, по эстетике не очень

flux справа для сравнения
генерил тут

Love. Death. Transformers.

22 Oct, 10:20


пожалуйста отправьте авторов в гаагу, это военное преступление так хуево код писать

бтв буду в амсте 1.11, пишите если хотите на кофе

Love. Death. Transformers.

21 Oct, 10:10


дорогу осилит идущий

Love. Death. Transformers.

21 Oct, 09:39


efficientvit

TLDR; на реддит пишут что это исходный код того самого эффективного VAE (жмет в 32 раза), который заюзан в Sana

https://github.com/mit-han-lab/efficientvit

Love. Death. Transformers.

20 Oct, 21:37


Всем привет! Мы в лаборатории анализа информационных ресурсов НИВЦ МГУ проводим исследования по адаптации LLM на русский язык под рабочим названием ruadapt. Год назад я уже писал в этом чате о наших экспериментах с адаптацией LLaMa-2 (Impact of Tokenization on LLaMa Russian Adaptation), теперь же у нас есть новые наработки, которыми я хочу с вами поделиться.

Вот уже год как открытые LLM взяли курс на мультиязычность, однако все мы наблюдаем две старые проблемы: (1) замедление генерации на неанглийских промптах и (2) внезапные китайские иероглифы. А все потому, что словарь модели хоть и стал больше, русских слов в нем почти не прибавилось и как было по 3 русских символа на токен так и осталось (qwen2.5 - 2.5, mistral-nemo - 3.0, llama-3 - 3.0, gemma - 3.2). Как результат мы не только тратим на русские слова раза в 2 больше токенов чем на английские (отсюда и замедление), но также оказываемся неспособны полноценно выделять смыслы этих токенов на фоне других (привет 嗨).

В качестве лекарства в нашей работе Impact of Tokenization on LLaMa Russian Adaptation мы предложили просто заменять словарь токенизации, входные и выходные эмбеддинги на адаптированные под русский язык. Год назад это хорошо сработало и даже смогли превзойти исходное качество LLaMA на Russian Supeglue и side-by-side тестах (со всеми ускорениями и экономией контекста).

Но как и все экспериментальные препараты методы наш имел ряд побочных эффектов:
1. Во-первых, из-за полной замены токенизации страдали исходные англоязычные знания модели,
2. Во-вторых, несмотря на то, что на выходе мы получаем более качественную базовую модель с точки зрения русского языка, чтобы получить сравнимую с популярными инструктивными версиями моделей требуется произвести сопоставимые процедуры инстракт-тюнинга, при том, что не все подходы воспроизводимы, так как не всегда открыты инструктивные датасеты (у llama-3 он состоял из 10 миллионов примеров)

Вот мы и решили посмотреть, а можно ли как-то совместить наши ruadapt базовые модели и исходные инструктивные версии (например, модель openchat-3.5 является инструктивной версией модели mistral-7b-v0.1). Мы выяснили следующее:
1. Даже просто заменив матрицы эмбеддингов у инструктивных версий моделей на новые ruadapt версии, модель не перестает работать, хотя и существенно теряет в качестве
2. Если вспомнить линал и посчитать траекторию (проекцию) от весов базы к весам инстракта, то можно откорректировать наши ruadapt эмбедды для лучшей состыковки со слоями инстракта. Этот подход и был нами реализован и назван как Learned Embedding Propagation (LEP).
3. Если этого мало, то после LEP можно произвести дополнительные шаги калибровки и/или инстракт тюнинга, по сути, аналогично любым методам, которые применяются над инстрактами (например, saiga или новый Vikhr)

Таким образом мы создали новое поколение ruadapt моделей: они имеют лучшую токенизацию, по сравнению с исходной моделью и не теряют в качестве, а по ряду бенчмарков даже превосходят качество исходных версий моделей. Первая в списке таких моделей идет RuadaptQwen-3B. Это адаптированная на русский язык модель qwen2.5_3B, к которой была применена описанная процедура. После LEP был произведено несколько этапов инстракт-тюнинга на основе кода проекта saiga. Токенизатор собрали с учетом специализации на русский и сохранения способностей на английском (i.e. 4.0 символа на русский токен), так что ускорение генерации русскоязычного текста до 60%.

На известном бенче Vikhrmodels/arenahardlb наш RuadaptQwen-3B набрал 66 очков , обходя при этом большинство моделей размером в 7-8 миллиардов параметров (и это мы ещё не применили секретную технику "тюна на тесте" 🤡). Это не говорит о том, что модель действительно лучше 7-8 миллиардных моделей, но по крайней мере с точки зрения данной арены не уступает им, имея при этом всего 3 миллиарда параметров.

Welcome попробовать нашу новую модель, будем рады полезному фидбеку, особенно по сравнению данной модели с ее исходным эквивалентом Qwen/Qwen2.5-3B-Instruct :)
https://huggingface.co/RefalMachine/ruadapt_qwen2.5_3B_ext_u48_instruct_v4

Love. Death. Transformers.

20 Oct, 17:36


#чтивонаночь
Очень логичная работа от фб - Spirit lm

Давайте возьмем vq токены, будем их смешивать с текстовыми и все поедет. Собственно один из проектов на стажировке в Vikhrmodels ровно про тоже самое, но к сожалению мы запаздали с релизом. А жаль!

Меряют местами непонятно что и непонятно как, бенчей asr и tts нема

Почитать работу meta

Love. Death. Transformers.

20 Oct, 11:42


Нейросеть многоловая по ГОСТу

Love. Death. Transformers.

19 Oct, 20:32


В ByteDance стажёр обиделся и два месяца саботировал тренировочные раны соседней команды, причём весьма изощрёнными методами:

Загружал чекпоинты с бекдором, через который проносил скрипт, который рандомно убивал джобы на ноде (ckpt - это pickle файл, они могут содержать произвольный код на питоне)

Специально добавлял баги в форк PyTorch, который запускался на кластере

Портил чекпоинты, чтобы результаты экспериментов не сходились

При всём этом он участвовал в митингах, где пытались отловить проблему, слушал, как коллеги пытаются решить её, и на основе услышанного придумывал новые способы саботажа. В итоге поймали по логам, но два месяца и усилия почти 30 человек пропали впустую. А у вас что-то такое было?

П.с. кроме шуток, мощный чел оказался.

@ai_newz

Love. Death. Transformers.

19 Oct, 10:02


#чтивонаночь
Janus: Decoupling Visual Encoding for Unified
Multimodal Understanding and Generation


Собственно идея не новая - давайте учить текстовый трансформер на комбинированной мультимодалке - на входе будет clip+adapter, на выходе vq токены(через них генерируем и представляем картинки)

В отличие от прошлых работ тут модель не претренется с нуля, стартует с LLM чекпоинта


Те sequence на которо учится наша модель выглядит примерно так:
<bos>text<image_adapter tokens>text<image generation tokens(vq)>


Модель ожидаемо лучше 10кратно больших хамеленово и прочих мультимодальных претренов и по качеству чуть хуже sdxl с поправкой на чуть лучший промтинг


папир

Love. Death. Transformers.

18 Oct, 22:38


Продолжу. Если вы используете ллм на работе - в проде, то под что?

Love. Death. Transformers.

18 Oct, 16:20


Чат, для чего используете OpenSource llm дома/в проде?

Love. Death. Transformers.

18 Oct, 15:06


мне безумно нравится что cs bro думают что могут оценивать прогресс в чем то в чем они не эксперты и их будут слушать

Love. Death. Transformers.

18 Oct, 14:41


Man want only one thing and it's disgusting

Love. Death. Transformers.

17 Oct, 23:30


День 17. GRUNGY JOURNAL.

Love. Death. Transformers.

17 Oct, 20:27


VLM в Нейро

Сегодня у нас большое обновление в Поиске. В том числе, команда VLM тоже приняла в нём участие!

Написали с коллегами пост на хабр про то, как мы затаскивали VLM в Нейро (писал про релиз здесь). В этот раз мы немного раскрыли подробности про то, как работает Нейро, где и зачем потребовалась там мультимодальность. Припорошили немножечко теорией про VLM.

Больше ни слова в посте, приятного прочтения поста!

Love. Death. Transformers.

17 Oct, 12:21


https://github.com/PKU-YuanGroup/Open-Sora-Plan/blob/main/docs/Report-v1.3.0.md

Love. Death. Transformers.

17 Oct, 09:56


Круто!
Нашу библиотеку для алаймента добавили в awesome LLM resourses

Love. Death. Transformers.

16 Oct, 18:28


В Суно присунули image2music и video2music!

Мы привыкли, что на вход текстовые промпты, ну и может быть аудио референс.

Суно решили заигрывать с мемасной аудиторией и новыми нормальными зумерами.

Типа озвучь свой мемас.

С точки зрения монетизации и стартапности - очень нарядный шаг.

Но если вы в музыку, то тут ничего нового.

Но зато у Суно будет больше денег. И лучше качество на итоге.

Какашка на торте.
Только иос-приложение.
Только в Штатах. Даже в Канаде не работает.
Твиттор Суно разрывается от возмущенных индусов.
Суно отшучиваются "усе будет скоро".

Ну и старую школу учили, что монтируем видео под музику, а не музику под видео.

Вот вам плейлист озвученых мемасов
https://suno.com/song/377d0638-ca5f-4f97-b452-7b8c9d32fe6d

@cgevent