что-то на DL-ском @nadlskom Channel on Telegram

что-то на DL-ском

@nadlskom


Авторка активно хочет зашарить все на свете и делится в этом канале.
NLP ⊂ AI → NLP/CV/speech ⊂ AI
Связаться со мной @nadlsk
Тг буст канала: https://t.me/nadlskom?boost
Чат айтишниц: https://t.me/+n-WIEfhc3ZFhOGIy
Реклама дорого.

что-то на DL-ском (Russian)

Добро пожаловать в канал 'что-то на DL-ском'! Здесь авторка активно делится информацией о различных темах в мире искусственного интеллекта. Если вы интересуетесь областями Natural Language Processing (NLP), Computer Vision (CV), и speech recognition в рамках исследований по искусственному интеллекту (AI), то этот канал для вас! На канале можно найти полезные материалы, статьи, новости и многое другое. Авторка также предлагает свои услуги и возможность связаться с ней для обсуждения интересующих вопросов. Присоединяйтесь к нам и расширяйте свои знания в области искусственного интеллекта! Для связи с авторкой, вы можете написать ей @nadlsk. Также не забудьте посетить наш чат для общения и обмена опытом с другими айтишницами: https://t.me/+n-WIEfhc3ZFhOGIy. И помните, реклама - это дорогой инструмент для продвижения вашего продукта или услуги, и мы готовы предложить вам выгодные условия рекламы в нашем канале. Присоединяйтесь и будьте в курсе всех событий в мире искусственного интеллекта!

что-то на DL-ском

16 Nov, 12:30


🎆 Небольшая лекция об Alignment и как мы его готовим

Это слайды с текстом, пока устно ее я рассказывал только внутри команды Vikhr.

Внутри вы узнаете:
- Теория Bradley-Terry и откуда берутся Reward модели
- Что нужно для обучения Reward модели и как его делаем мы
- Откуда взялся DPO и каковы его недостатки
- Какова мотивация нас и других авторов улучшать DPO
- Как устроен наш функционал SMPO - Simple Margin Preference Optimization
- Какие есть способы улучшения DPO на уровне данных и как готовим эти данные мы

Задавайте вопросы в комментариях, если что-то непонятно, будем обсуждать.

что-то на DL-ском

10 Nov, 17:16


🥺После дискуссии в комментариях, считаю своим долгом написать обзор на

Your Transformer is Secretly Linear

И доказать!!! Как сильно отличается подход в текущей статье от сегодняшнего предыдущего обзора

❤️Авторы обнаружили (ща отмечу исходный обзор автора, чтобы вы пошли почитали туда. Потому что моя то главная цель только что-то там доказать в интернете), что преобразования между слоями LLM-ок почти линейно по метрике Прокруста
🩰🩰Такая фигня, которая помогает измерить сходство наборов, например векторов, после выравнивания

❤️В ходе анализа появилось наблюдение, что на претрене линейность уменьшалась, а на дообучении возрастала, ввиду гибкости трансформеров при адаптации

❤️Обнаружения в первом и втором пункте привели к исследованиям в сторону регуляризации на основе косинусного сходства, чтобы снизить линейность и удаления наиболее линейных слоев

Итак, теперь вернемся к тому, что статья вообще про другое!!!

❤️В предыдущей статье внимание акцентировалось на том, что attention в 50% случае избыточен, а тут на том, что мы можем избавиться от слишком линейных слоев
❤️Метрики разные, очев, да?
❤️Тут исследовались методы регуляризации на претрене, в то время, как у предыдущей статьи авторы дропали слои уже на посттреин
❤️А еще в этой статье слои не только удаляются, но еще и заменяются линейными аппроксимациями, что минимизирует потерю производительности после удаления

😬 Все, думайте

😐Пользуясь случаем подведу к тому, что в предыдущей статье главный поинт для меня был в том, что attention можно дропать частично, в то время, как предыдущие исследования показывают его важность. Тем не менее, в комментах к предыдущему посту накидали 4 довольно похожие статьи на ту же идею с attention. Приходите читать, ссылки в чате

📖Папир
🖥Код

что-то на DL-ском

10 Nov, 14:48


What Matters in Transformers? Not All Attention is Needed

Занятная статья про исследование важности слоев в трансформере для ускорения и довольно неожиданный результат, как минимум для меня

🪄Цель: проверить избыточность компонент в LLM для ускорения без потери качества

🪄Как именно:

💛разработали метрику, основанную на сходстве между входом и выходом слоя
💛обнаружили, что именно удаление части attention (половины примерно) приводит к потере 2,4% исходного качества (MMLU, WinoGrande и другие бенчи), но при этом ускорению до почти 50%
*️⃣*️⃣довольно неожиданно, если опираться на исследования важности именно attention части и наблюдения важности этой части для производительности в среднем
💛причем одиночное удаление MLP блоков приводило к большим потерям, а вот с “Joint Layer Drop” (одновременное удаление Attention и MLP) позволило увеличить уровень оптимизации))

Риски результатов, которые я вижу:
💛непонятно на сколько это общий подход, который сработает не только на текстовых LLM
💛довольно ресурсоемко
💛Если хочется решить предыдущую проблему, взяв уже обрезанную модель и дофайнтюнить, то тут модель может изменить значения в слоях и все пойдет через задницу. Опять же, использовать модель через in-context learning на специфичные домены может быть не результативным

😬Итог: думайте сами, решайте сами. Резы занятные, идее лайк

📖Папир
🖥Код

что-то на DL-ском

03 Nov, 12:21


DIVERSIFYING DEEP ENSEMBLES: A SALIENCY MAP APPROACH FOR ENHANCED OOD DETECTION, CALIBRATION, AND ACCURACY

Статья от ребят из T-Bank AI Research, где они предложили свежий взгляд на устойчивость ансамблей нейросетей. Если раньше модели в ансамбле давали похожие предсказания, то теперь они используют новый метод, чтобы каждая из моделей внутри ансамбля «смотрела» на данные под своим уникальным углом. 🔭Метод называется Saliency-Diversified Deep Ensembles (SDDE), и давайте разберёмся, как он работает.

👷Суть нового подхода SDDE

Авторы статьи предложили создать разнообразие (диверсификацию) в ансамбле за счет карт активации — это те участки на изображении, которые модели считают важными для предсказания. Используя карты активации (метод GradCAM), они заставили модели фокусироваться на разных участках изображения, чтобы каждая искала свои уникальные признаки🔍. В итоге ансамбль анализирует больше информации, что особенно полезно для задач, где важна устойчивость модели к неизвестным данным.

📊Зачем это нужно и как это работает с OOD-данными?

Теперь про OOD-данные (out-of-distribution). Это данные, которые сильно отличаются от тех, на которых модель училась, например, новые объекты или необычные условия съёмки. Такие данные могут сильно сбить с толку стандартные модели, но если каждая модель в ансамбле видит разные признаки, то вместе они лучше детектируют такие данные. 💪

Что показали эксперименты?

💛Улучшение на OOD-данных: На OOD-данных ансамбли с SDDE выдали в среднем 22% прироста точности по сравнению с традиционными методами. Это делает их более надёжными в реальных задачах, где данные часто не совпадают с обучающими.
💛Лучшее качество предсказаний: На CIFAR100 и ImageNet метод SDDE показал улучшение калибровки модели и общей точности. Когда модели смотрят на разные части изображения, итоговое предсказание становится менее однообразным и более точным.

🤔Где пригодится?

Метод вполне может пригодится в проектах, где важна устойчивость к неизвестным данным — будь то автономные автомобили, системы мониторинга или медицина.

📖Paper
🖥Code

что-то на DL-ском

20 Oct, 12:13


Вчера была на выставке в арт-пространстве CUBE и мне есть, что показать из относящегося к AI!! 👍

🌟Первая картинка и видео мне откликнулись смысловой нагрузкой. Да, мысль уже поднималась в Брандашмыг и подобном, но теория не становится менее интересной от этого🤌🏼🤌🏼. Вопросы возникают разнообразные:

Стохастичность приближает к более челоческой природе или является следствием сознания человека¿ Как это внедрить в нейронки¿

🚨Ну а вообще у меня возникло эстетическое удовольствие от анимации

🌟Инсталляция на 3 и 4 фотке – буквально мир после того, как закончатся данные и мы начнем использовать синту. Внутри пустой и бездушный🤔

У меня все, умные, или не очень, мысли о философии ИИ закончились))

что-то на DL-ском

17 Oct, 12:02


Пропустила я статью в апреле этого года, а очень зря😕. Все равно опишу ее тут, потому что статья крайне занимательная в развитии того самого AGI, прости-господи, или хотя бы решения задач не через воспроизведение всего интернета в обучающей выборке 😱

Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping

Проблематика следующая: LLM-ки не умеют нормально в принятие решений. Это нам известно. На мой субъективный взгляд, это один из самых весомых подходов к улучшению качества моделей сейчас. Проблема известная, но как бороться?
– Уже давно используют CoT и подобное, o1 по сути обучен на этом методе и также пытается решить ранее обозначенную проблему таким образом.

Meta предлагают совершенно иной метод — Searchformer. Его главное отличие от предыдущих заключается в том, что:

💛он обучается на внутренней динамике поиска, что делает его эффективнее AlphaZero и MuZero, которые используют планировочные алгоритмы как черные ящики
💛способен работать с последовательностями длиннее, чем в предыдущих подходах
💛обучается с меньшими затратами на ресурсы благодаря итеративной оптимизации длины решений.

Основной подход основан на комбинации обучения трансформера (encoder-decoder с RoPE. Вот это поворот🤯. Сама в шоке, что вспомнили) и алгоритма A*алгоритма поиска пути, который объединяет жадный поиск с эвристикой и поиск по минимальной стоимости.

Какие эксперименты проводили:

Начнем с данных:

Каждый шаг работы A* на конкретной задаче (например, лабиринт) представляется в виде последовательности токенов, которая содержит информацию по:
💛узлам, добавленным в множество «фронтир» (исследуемые узлы);
💛закрытому множеству узлов (которые уже не будут рассматриваться);
💛эвристике и стоимости от точки до узла.

Все эти данные собираются в последовательности двух типов:

🩰Solution-only: только описание задачи и оптимальное решение.
🩰Search-augmented: задача, процесс поиска по шагам и оптимальное решение.

Также был представлен метод bootstrap, который сначала обучается как search-augmented, а потом генерирует новые, укороченные последовательности. Если решение верное, эта последовательность включается в новый обучающий набор данных.
🤔Где-то я уже такое видела, возможно, в AlphaFold или чем-то похожем. Пишите в комментариях, если есть мысли где)))

Отдельно радует, что они учли разные задачи в обучающем и тестовом наборах данных (очень достало test-in-train is all what you need👿).

Эксперименты:

💛Детерминированный подход: фиксированные правила выбора узлов, как итог — единственная правильная последовательность.
💛Недетерминированный подход: узлы выбираются случайным образом, что приводит к множеству возможных правильных последовательностей.

Итоги экспериментов:

1. Search-augmented модели outperform solution-only модели, особенно при малом объеме данных и на сложных задачах.
2. С методом bootstrap Searchformer генерирует последовательности, которые короче и эффективнее, чем исходные последовательности, сгенерированные алгоритмом A*.
3. Обучение на недетерминированных данных помогает Searchformer лучше справляться с задачами, где есть множество вариантов решения.
4. Searchformer показал на 26.8% более короткие последовательности по сравнению с алгоритмом A* после нескольких итераций дообучения и обеспечил улучшение метрик SWC и ILR.
5. Search-augmented модели показали значительный прирост производительности, даже при небольших размерах моделей

📖Paper
🖥Code

что-то на DL-ском

14 Oct, 13:26


Обожаю! 🤩 Очередная статья про галлюцинации LLM

LLMs Know More Than They Show:
On the Intrinsic Representation of
LLM Hallucinations


В этот раз авторы обнаружили:

Что правильные ответы LLM кроются в определенных токенах. Они смотрели на активации токенов по разным слоям и учили классификатор предсказывать правда/неправда сгенерирована ( probing )

Впоследствии можно генерить пару предложений и выбирать правильное классификатором

Анализировали частотность правильной или неправильной генерации подряд и выявили, что есть разные типы ошибок (постоянно правильный, постоянно неправильны). Соответсвенно, когда такую активацию прослеживаем, можем применять сценарии доведения модели до правильного ответа.

Небольшое отступление: to be honest, я чет не прониклась выводами, очень уж напоминает выводы из статьи Anthropic, которую разбирали на reading club, только метод другой (давайте посмотрим как активируются определенные токены в зависимости от контекста, а там нейронные активации)

😠Ну теперь глобальный минус статьи:

На разных датасетах воспроизвести результаты активаций не вышло. Надо переобучать классификатор. У меня лично, вопрос возникает о том, не частный ли это случай их обнаружений :(

Paper: link
Code обещается быть тут

что-то на DL-ском

08 Oct, 10:00


Британские ученые решили проводить научные опыты вместо мышей на стажерах.
Во-первых, стажеров больше. Во-вторых, мышей жалко. И в-третьих, есть вещи, которые мыши отказываются делать

что-то на DL-ском

08 Oct, 08:48


The AdEMAMix Optimizer: Better, Faster, Older

периодически появляются новые оптимизаторы, которые не выглядят полной дичью и что-то да могут

вот тут от эпл возможно как раз такое: они нам напоминают, что в адаме первая бета интуитивно отвечает за аккумуляцию предыдущих градиентов. ну это не только интуитивно, а и математически так, но не суть (например, при beta=0.9 половина веса при апдейте падает на 6 предыдущих градиентов, при beta=0.9999 это число уже становится 6930)

но есть нюанс - хорошо, что помним про предыдущие давние градиенты и накапливаем момент, только желательно еще хорошо чувствовать, что происходит с недавними градиентами и недавним состоянием системы, математически выражаясь. и одновременно выдерживать эти 2 момента, как оказывается по экспериментам авторов, трудно для адама и адамв

потому авторы и добавляют доп момент в числителе, который просто еще один ЕМА градиентов (при том он еще не скейлится на бету как другие моменты для пущей аккумуляции) ⇒ получаем AdEMAMix

с ним батчи забываются намного медленее, при том батчи в недавнем прошлом продолжают влиять на лосс довольно сильно, а значит и сходимость должна быть быстрее. вроде идея норм, но так хорошо она не работает в начале трейна из-за высокой степени нестабильности ⇒ добавляют еще прикольные шедулеры под гиперы нового момента, чтобы с этим справиться

смущает разве что очень маленький скейл моделек, максимальный размер - 1.3B. что будет происходить на 7б хотя бы уже непонятно (взять хотя бы тот факт, что придется менять гиперы под этот новый момент, а не ставить его равным привычным значениям другого параметра с другим смыслом)

👀LINK

что-то на DL-ском

04 Oct, 11:50


🌸FAANG Собеседования. Часть 2, рефералы 🌸
#собеседования

Начали серию постов про собеседования — давайте продолжим. Сегодня поговорим про то, как вообще добраться до этапа собеседования.

TL;DR лучше сделать меньше попыток, но более качественных и таргетировангых, чем подаваться массово на 500 позиций. Часть вакансий и так не настоящая, а часть вы делите с внутренними и внешними кандидатами — так что нужно быть таргетированным и быстрым.

🟣Резюме

Делается под вакансию и страну! Сделайте под самые интересные для вас вакансии отдельные версии: резюме для позиции Researcher'а и для ML Eng выглядит по-разному!
Из резюме сразу должно быть видно, что у вас N лет опыта, легальный статус, виза таланта и т.д. — плюс все чем можете похвастаться. 100500 цитирований, членство в орг комитете престижной конференции, опенсорс проект на 1000 контрибьюторов. Сейчас не страшно быть over qualified для вакансии.

Если в вакансии хотят опыт RL, и у вас он есть, надо добавить прямо в шапку, что вы experienced in reinforcement learning.
Если есть и статьи на тему, сделайте секцию "Publications" и поместите их туда.

🟣Получаем Referrals

Реферрал — это формальный или неформальный способ быть рекомендованным на позицию кем-то из текущих сотрудников. Эта рекомендация очень важна! Чем ближе рекомендующий к команде вакансии — тем лучше, поэтому эффективность реферраллов я бы отсортировала так:
— реферралы внутри команды, реферралы из вашего нетворка
— просто общие Linkedin-контакты из компании,
— случайные русскоязычные люди из компании, которым будет понятен ваш бэкграунд (МФТИ,  ШАД...),
— просто случайные люди из компании.

Пишите людям прямо, что вы очень интересуетесь позицией, считаете, что подходите на неё, и хотели бы реферрал — заодно можете поболтать и спросить что-то про культуру работы в компании. Вам могут рассказать более подробно про команду, чем она занимается, есть ли в целом проблемы у организации и какие.

Помимо Linkedin, для FAANG существует ещё один полезный инструмент: Blind.

Blind — это приложение для анонимного чата о работодателях, что-то вроде двача с Glassdoor. Там принято просить реферрал непосредственно у сотрудников компании, некоторые люди делают это ради бонуса.

🟣Chechez le manager

Вакансию изучили, реферралы получили, теперь следующая стадия — найти нанимающего менеджера и написать ему. Часто название команды/орга содержится в вакансии, и можно найти менеджера/директора с таким описанием по Linkedin.

Такой подход тоже в целом позитивно выделит вас из списка кандидатов, потому что вы облегчаете работу всех по найму мотивированного человека в компанию.
Напишите пару строчек о себе, почему вас надо взять, и что вас уже зареферили. Пришлите резюме. Если прямо очень хотите в компанию, то через неделю напишите ещё раз — свои мысли про что-то из продуктов компании, последних релизов, что бы вы улучшили, и т.д.

🟣Куда подаваться?

Рынок в целом не очень, поэтому лучше всего целиться в 3 категории — крупные компании, средние компании и стартапы, — даже если вы сомневаетесь, хотите ли туда.
Воркшоп ICML 2022 по офферам и поиску работу (посмотрите!) это явно предлагает.

В самом лучшем случае у вас будет несколько офферов, и вы используете оффер стартапа, чтобы улучшить оффер от большой компании. Или используете оффер большой компании, чтобы получить оффер больше от компании среднего размера с хорошим work-life balance. Но про это — в следующий раз!

🌸Кстати, наш карьерный стрим теперь выложен в записи!

что-то на DL-ском

04 Oct, 10:25


ReMax как альтернатива PPO

Сегодняшняя статья — об интересном методе обучения с подкреплением, который называется ReMax. Авторы предлагают его как замену популярному алгоритму Proximal Policy Optimization (PPO).

ReMax основывается на алгоритме обучения с подкреплением, который называется REINFORCE — отсюда и приставка Re. В REINFORCE, в отличие от PPO, нет value-модели. Она выступает в роли бейзлайна для снижения дисперсии оценки градиента и представляет собой среднюю награду, которую наберёт генератор, если будет отвечать на конкретный запрос.

Вместо отдельной value-модели в ReMax предлагают использовать другой бейзлайн — то, сколько награды набирает greedy-генерация обучаемой моделью на запросе. Отсюда окончание Max. Такой бейзлайн тоже отлично подходит с точки зрения теории, и не требует хранения дополнительной модели в памяти — авторы сообщают, что снижение потребления GPU-памяти составляет 46%. А поскольку число моделей, необходимых алгоритму алайнмента, уменьшилось, то уменьшилось и число гиперпараметров, которые нужно подобрать.

Использование ReMax для обучения модели Mistral-7B показало значительные улучшения. Модель достигла 94,78% успеха на leaderboard AlpacaEval и установила новый стандарт для моделей с 7 миллиардами параметров. Эти результаты демонстрируют, что ReMax может стать отличной альтернативой PPO для RLHF-задач, значительно сокращая вычислительные затраты и повышая эффективность обучения крупных языковых моделей.

Разбор подготовил Павел Темирчев

Душный NLP

что-то на DL-ском

03 Oct, 09:37


Вчера на reading club приятно обсудили статью Anthropic о интерпретации LLM. Закину слайды своего обзора ниже👇. Выписала самые важные моменты и выводы статьи на мой взгляд

А ещееее, очень рада, что число людей, читающих канал, перевалило за 3к😍

🤗Линк на слайды

что-то на DL-ском

28 Sep, 14:53


🧐 Портал в мир науки открывается по средам!

Уже 2 октября в 18:30 встречаемся в Reading Club, чтобы обсудить новую порцию научных прорывов из мира AI.

Гость: Карина Романова
TeamLead CoreLLM:recsys.
Отвечает за добавление текстовых и картиночных фичей в рекомендации Wildberries. Магистрантка AI Talent Hub.

➡️ Разберемся в новом подходе к интерпретации крупных языковых моделей на примере Claude Sonnet. Обсудим, как удалось их выявить, какие концепции формируются внутри модели и как это может улучшить безопасность и надежность ИИ в будущем.

🔖 статья: Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

➡️ Зарегистрироваться
📹 Смотреть предыдущий выпуск

#ReadingClub #AITalentHub #NapoleonIT #ITMO

что-то на DL-ском

28 Sep, 14:53


Я тут вписалась в reading club на следующей неделе. Если кто-то еще не читал или читал, но очень хочет обсудить тему, welcome на обсуждение статьи в среду вечером 🥂

что-то на DL-ском

26 Sep, 10:45


🤡 Будущее, которое мы заслужили. Абсолютно секретные комнаты с абсолютно секретными данными.

Ссылка на новость

что-то на DL-ском

24 Sep, 15:13


🗯 Moshi: GPT4-O voice mode дома (обзор)

Одним теплым июльским вечером, сидя в самом сердце Москвы, в гуще столичной суеты, я лениво перелистывала Twitter в поисках чего-то стоящего. И вдруг, как озарение, мне на глаза попался анонс Moshi от французской лаборатории. Анонс, надо сказать, был щедро украшен громкими заявлениями:

👁 Первая LLM для аудио, которая умеет одновременно слушать и отвечать
👁 Содержит около 70 эмоций, которые может имитировать
👁 И конечно же, она будет открытая в отличие от GPT-O и подобного!!

После долгого сентябрьского ожидания, когда я почти смирилась с мыслью, что модель так и не выйдет, и статья никогда не будет написана, на следующий день я наконец увидела ссылку на опубликованный код. Я с энтузиазмом принялась за обзор, но, по загадочному стечению обстоятельств (видимо проклятие Moshi), выкладываю его почти спустя неделю.

P.S. мое honest мнение на счет работы:
💛так как, я делитант в звуке,мне было очень интересно почитать их отсылки к предыдкщим наработкам
💛они соединяют въедино много работ, которые были раньше
💛в разных частях делают минорные изменения к существующим наработкам, что кажется избыточным, но чуваки все промерили и показали свои +несколько % к качеству, поэтому нагнать за это на них нельзя
💛мне очень понравилось, что идея сетки не связана с гонкой с OpenAI, а вытекает скорее из парадигмы Full-Duplex этой статьи, как основной. На мой взгляд именно это отличие от существующей закрытой модели дало хайп на просторах интернета

Я не смогла уместить в один пост всю информацию, так как для меня она довольно новая, поэтому

😇 Переходите читать на habr: link

что-то на DL-ском

20 Sep, 14:30


В наши годы члены этой организации были фанатами Сэма Альтмана, геями или и теми и другими

P.S. Книга «PIXEL». Мне нравится, обзор точно будет в канале рано или поздно))

что-то на DL-ском

18 Sep, 20:56


TL;DR: мультипотоковая обработка аудио (одновременно на вход и на выход). Кажется за счет того, что модель генерирует сначала текстовые токены внутри, а потом аудио токены, основанные на предсказанном тексте.

Завтра буду разбираться нормально🙃

что-то на DL-ском

18 Sep, 20:40


https://github.com/kyutai-labs/moshi

Зачем претрен
Зачем так сложно