Dernières publications de КПД (@quant_prune_distill) sur Telegram

Publications du canal КПД

КПД
Квантование & Прунинг & Дистилляция

Блог про сжатие сетей и не только.
От древнейших времен по настоящее время.
2,123 abonnés
106 photos
3 vidéos
Dernière mise à jour 09.03.2025 02:41

Canaux similaires

Le dernier contenu partagé par КПД sur Telegram

КПД

08 Mar, 19:40

501

Do Large Language Model
Benchmarks Test Reliability?

[Статья][Блогпост][Код]

Новые SOTA LLMки выходят нынче, как собаки нерезанные, и тем острее встает ребром вопрос о качестве их оценки.

Полностью исчерпывающего протокола замером, удовлетворяющего нуждам всех категорий пользователей нет, да и не факт, что он достижим, потому приходится, скрепя сердце, полагаться на те или иные бенчмарки, принятые в литературе или индустрии.

Группа исследователей из MIT решила взглянуть критически на популярные бенчмарки и качество ведущих моделей на них, и обнаружила следующее:

Ни одна модель не является безупречной, и даже SOTA LLM допускают осечки в простых случаях
Бенчи не без греха. В популярном GSM8k 5% условий и решений содержат проблемы.
У разных моделей разные достоинства. o1-mini лучше всех из списка в плане общего решения математических задач, но Sonnet понимает текст (reading comprehension).

Далее в блоге авторы приводят примеры забагованных задач:
🎯 С неправильным ответом
🎯 С ошибками и неоднозначностью в условии
🎯 Где забыли условие задачи

Кроме того, на днях те же авторы опубликовали почищенный тест-сет GSM8k под названием GSM8K-Platinum, и показали,, что ведущие LLM допускают на нем гораздо меньше ошибок по сравнению с оригинальной версией от OpenAI.

Мораль проста - ежели у вас есть штангенциркуль, смотрите, чтобы у него не поехала шкала.

У проекта есть классный 🥰 дашборд с визуализациями ошибок моделей.
КПД

04 Mar, 14:58

1,206

Дорогой коллега и товарищ @snk4tr (по совместимости автор канала @c_research) выкатил на Хабр блогпост От каскадных моделей до картинок в 4к: как эволюционировали диффузионки.

Рекомендую всем желающим как-то осмыслить или переварить происходщее в мире диффузионных моделей, а также проследить за прогрессом и трендами в области.

Приятного чтения!
КПД

01 Mar, 20:22

1,391

Судя по всему, комменты генерит только драфт модель

Придется зареджектить
КПД

01 Mar, 20:16

1,293

Метод

Авторы замечают следующее:
🎯 Таргет-модель может за 2-3 токена отвергнуть корректное решение драфт модели.
🎯 Если в качестве драфта использовать даже более сильную модель, GPT-4o для Llama-3.1-405B, acceptance rate все еще не слишком высок.
🎯 Если драфт модель ошиблась, таргет-модель пытается корректировать ее. (The capital of France is Berlin... No just kidding. The capital of France is actually Paris.) 😄

Отсюда предлагается каким-то образом оценивать важность токенов на конечный ответ и принимать неважные токены, даже если их отвергла большая модель.

Датасет для обучения собирают следующим образом:
⚡️Отбирают примеры из Alpaca, ARC (только промпты)
⚡️Генерируют продолжения разными моделями - 🦙-ми, Мистралями
⚡️Отбирают вручную лучшие примеры

На выходе 500 примеров (вопрос, хороший ответ, плохой ответ). Все токены из правильного ответа и токены до места ошибки в неправильном ответе считаются как положительные примеры.

Полученный датасет несбалансирован, и потому в лоссе дается больший вес отрицательным примерам.

Классификатор - это просто линейная голова поверх признаков на выходе последнего слоя, которая учится за полтора часа.

Эксперименты

В качестве драфт-модели берут 🦙-3-8B, а таргет -🦙-70B, 80B. Качество замеряют на GSM8k, HumanEval, ARC-Challenge.

Для оценки скорости рассматривают как неоптимальный инференс через трансформерс, так и куда более эффективный GPT-Fast.

В качестве бейзлайнов рассматривают драфт-модель и topk принятие (т.е принимаем токен, если в top с наибольшей вероятностью).

Предложенный метод почти идентичен по качеству прогону таргет модели, и заметно лучше лрафта и topk. При этом удается достичь ускорения в 3-4 раза с GPT-Fast (против ~2 у стандартного Speculative Decoding и EAGLE-2) и до 10 раз при HF инференсе.

В ablation пробуют применяться в OOD сетапе - валидировать метод на HumanEval без примеров на код в обучающей выборке. Работает хуже, но все еще лучше, чем TopK.

Вывод

Хорошая идея с очевидной практической пользой. Приятно, что обучение требует довольно небольшого компьюта (меньше чем у того же EAGLE). Интересно, как метод себя покажет на более сложных reasoning задачах.
КПД

01 Mar, 20:13

972

Введение

Есть большие LLM, а есть не очень большие. Большие обычно работают лучше при прочих равных, но требуют большей памяти, объема вычислений и времени на шаг инференса.

Инференс LLM обыкновенно memory bound - скорость упирается во время загрузки/сгрузки весов из GDDR/HBM памяти в кэши, а не сами вычисления. То есть за один трансфер памяти потенциально можно было бы делать больше арифметических операций без существенного замедления.

При этом в большинстве случаев разница между более слабой моделью (называемой draft, т,е ‘черновой”) и некой большей (таргет) моделью невелика.

Отсюда возникает идея - генерировать много токенов один за другим более слабой моделью (Llama-3.1-8B), а затем проверять более “жирной” (Llama-3.1-405-B) с тем же словарем, (последнее требование не обязательно, но упрощает постановку). За один шаг можно “проверить” несколько токенов малой модели, и если все предсказания совпали (то есть наиболее вероятные токены у большой модели такие же, как у меньшой), — принять все, иначе - до последнего принятого токена.

Таким образом можно добиться генерации, идентичной выдаваемой большой моделью, за меньшее время. Данную идею предложили еще достаточно давно в статье Fast Inference from Transformers via Speculative Decoding еще в далеком 2022.

Но, есть существенный недостаток. На практике предсказания драфт-модели и таргет-модели расходятся очень быстро, всего через несколько токенов, поэтому слишком большого ускорения достичь не удается - обычно в районе 1.5-2x.

При этом для получения правильного ответа совершенно необязательно, чтобы предсказания каждого токена у меньшей модели совпадали с большей. Она может сказать то же самое, но другими словами, используя синонимы, например.
КПД

01 Mar, 20:11

977

Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment
[Статья][Кода нет]

Давно хотел коснуться темы ускорения инференса авторегрессионных моделей за счет спекулятивного декодинга, но все никак не доходили руки, и наконец дошли.

Команда исследователей из 00, среди которых небезызвестный автор канала @ai_newz, представила метод, ускоряющий спекулятивный декодинг за счет оценки важности текущего токена и принятия большего числа по сравнению с базовым подходом, при этом практически без просадки в качестве.
КПД

26 Feb, 21:21

9,341

[Блог]

Вот недавно мы обсуждали LLaDA и жизнеспособности диффузионной парадигмы, а тут Inception Labs обьявили о создании Diffusion LLM, которая якобы способна бодаться по качеству (в бенчах приводят только код) с вполне себе сильными closed-source LLM (без рызонинга).

При этом она якобы на порядок быстрее небольших авторегресионных LLM, давая космические более 1000 токенов в секунду на одной H100, а не специализированных чипах.

Утверждается, что оно могет еще и в RAG, tools use и агентность.

У них и чатик есть, можно потыкаться.
КПД

25 Feb, 08:24

1,527

В качестве несложного упражнения читателю предоставляется самому написать кернел.

Ишшуя
КПД

24 Feb, 20:04

1,754

- Claude 3.7 Sonnet, что ты можешь делать?
- Могу ризонить.
- А что еще?
- Могу не ризонить.
КПД

18 Feb, 20:33

2,183

Сообщество сегодня обсуждает релиз от Grok3 от [MASK], но в этот прекрасный произошло еще одно - не менее важное и знаменательное событие.

Нас уже перевалило за 2к! 🎉

Изначально, когда создавал канал, я даже и не мог помыслить о такой аудитории) Думал, что буду как гаражный музыкант с парой десятков близких знакомых и энтузиастов.

Спасибо всем за то, что вы здесь, за комментарии и ссылки на релевантные статьи)

Желаю и далее в силу мер и возможности публиковать обзорчики, мемасики 😁 про сжатие и не только.