أحدث المنشورات من AbstractDL (@abstractdl) على Telegram

منشورات AbstractDL على Telegram

AbstractDL
Коротко про классные штуки в CV, NLP и AI 🤷‍♂️
By Anton Razzhigaev
11,071 مشترك
215 صورة
16 فيديو
آخر تحديث 11.03.2025 07:48

قنوات مشابهة

Время Валеры
24,620 مشترك
Data Science Jobs
17,511 مشترك
Derp Learning
12,559 مشترك

أحدث المحتوى الذي تم مشاركته بواسطة AbstractDL على Telegram

AbstractDL

08 Mar, 17:24

3,299

Выложили препринт статьи про SAE для детекции AI-текстов. Хоть я и внёс совсем небольшой вклад на финальном этапе, но был рад присоединиться к такому классному исследованию!
AbstractDL

02 Mar, 13:19

5,304

Ну что сказать по поводу GPT 4.5... Для своей цены это отвратительная модель. Стой она как Соннет, в ней бы был смысл. А так есть ноль ситуаций, где стоило бы пользоваться 4.5, а не Соннетом.
AbstractDL

27 Feb, 20:26

6,433

Вышла GPT-4.5. Вот техрепорт. Вот выжимка трансляции от Сиолошной. А ещё картинка про "это самая манипулятивная LLM от openAI".
AbstractDL

24 Feb, 09:49

22,314

LLM-Microscope: трансформеры хранят контекст в запятых и артиклях

Как писал выше — мою новую статью приняли на NAACL 🎉
Мы обнаружили, что самыми контекстуализированными токенами в языковых моделях являются... артикли и знаки препинания! Именно в них хранится больше всего информации о контексте.

Мы научились измерять, сколько контекстной информации "помнит" каждый токен, и оказалось, что существительные и глаголы сильно проигрывают по этому показателю всяким "the", запятым и точкам. Если удалить эти "незначительные" токены из текста (даже если с помощью GPT-4 удалить только не влияющие на смысл токены), то качество работы моделей резко падает, особенно на длинных текстах.

Ещё из интересного — токены, активации на которых хранят больше контекста, имеют более линейные преобразования между слоями (привет моей прошлой статье про линейность трансформеров).

Весь код для анализа внутренностей LLM (измерение контекстуальности токенов, нелинейности, logit lens и прочее) выложили в открытый доступ.

Статья, GitHub
AbstractDL

22 Feb, 15:27

7,719

Люди, которые часто используют ChatGPT — идеальные детекторы AI-текста

Оказалось, что эксперты, регулярно пользующиеся LLM в своей работе, способны распознавать AI-генерацию с почти 100% точностью, обходя все существующие детекторы и БЕЗ ложных срабатываний (в режиме majority voting).

Вот главные признаки сгенерированного текста по их мнению:
- избыточное использование некоторых слов: "crucial", "testament", "vibrant" и др.
- структура слишком "правильная" и предсказуемая
- заключения всегда аккуратные, оптимистичные и подытоживающие

Да, выборка людей была небольшая — всего 9 человек, но это всё равно продемонстрировало, что тексты от GPT-4o, o1-pro и Claude-3.5-sonnet реально детектировать, причём никакие fancy способы защиты (парафразы, доп инструкции) совсем не помогли.

Авторы выложили в открытый доступ код и датасет из 300 пар сгенерированных\реальных статей с очень подробной разметкой.

Статья, GitHub
AbstractDL

09 Feb, 12:33

6,663

Better & Faster Large Language Models via Multi-token Prediction

Вероятно самая недооценная работа последнего года.

В чем идея: у нас самая замедляющая инференс часть это decoding. Есть спекулятивный когда мы можем предсказывать вероятности маленькой моделью и подключать большую только если маленькая не уверена. Работает это средне и очень не стабильно.

Авторы предлагают следущее: давайте сделаем многоголовый трансформер, который будет предсказывать N токенов за раз!
Авторы предлагают учить такие головы последовательно на одних и тех же данных(в целях экономии памяти) и заводят это как большой post training(200b токенов поверх llama2)

Cобственно благодаря тому что трансформер предсказывает сразу x3 токенов мы получаем скорость инференса x3 бесплатно, да еще и прирост на бенчмарках!

paper
offical model
AbstractDL

03 Feb, 19:31

19,301

DeepSeek-R1 для чайников

Ну и наделала же DeepSeek шуму. Мне пришлось целый хабропост написать 😁

TLDR: мало слов про сравнение с ChatGPT и метрики, много слов про технические детали обучения, датасеты, GRPO и якобы эмерджентный «Aha! moment».
AbstractDL

02 Feb, 13:34

12,903

С вас 200$. Спасибо.
AbstractDL

26 Jan, 15:34

15,034

One-Prompt-One-Story: SVD и длинный промпт для генерации связанных изображений

Чтобы сгенерировать при помощи диффузии набор связанных консистентных изображений с единым персонажем, существует много методов, основанных на обучении (DreamBooth, IP-Adapter, Textual Inversion и т. п.). Но на самом деле можно обойтись и без обучения — например, StoryDiffusion делает это через расширение attention на референсную картинку.

В новой статье описывают ещё более простой метод генерации таких «историй» с единым героем — «One-Prompt-One-Story». Оказалось, что достаточно взять один длинный промпт с описанием каждого кадра и аккуратно, по очереди «выключать» нерелевантные части, сохраняя random seed. Для этого авторы используют SVD на текстовых эмбеддингах: усиливают нужные токены и ослабляют все лишние. Плюс небольшой трюк с cross-attention, чтобы персонаж не «расползался». Всё делается на лету, без дообучения и без референсных снимков.

Несмотря на простоту, метод по метрикам сильно обходит StoryDiffusion, и даже иногда обходит IP-adapter.

Статья, GitHub
AbstractDL

26 Jan, 13:00

7,923

Ура! Приняли статью про анализ внутренностей языковых моделей на NAACL! Как выложу препринт — поделюсь обзором в канале.