что-то на DL-ском

@nadlskom


Авторка активно хочет зашарить все на свете и делится в этом канале.
NLP ⊂ AI → NLP/CV/speech ⊂ AI
Связаться со мной @nadlsk
Тг буст канала: https://t.me/nadlskom?boost
Чат айтишниц: https://t.me/+n-WIEfhc3ZFhOGIy
Реклама дорого.

что-то на DL-ском

20 Oct, 12:13


Вчера была на выставке в арт-пространстве CUBE и мне есть, что показать из относящегося к AI!! 👍

🌟Первая картинка и видео мне откликнулись смысловой нагрузкой. Да, мысль уже поднималась в Брандашмыг и подобном, но теория не становится менее интересной от этого🤌🏼🤌🏼. Вопросы возникают разнообразные:

Стохастичность приближает к более челоческой природе или является следствием сознания человека¿ Как это внедрить в нейронки¿

🚨Ну а вообще у меня возникло эстетическое удовольствие от анимации

🌟Инсталляция на 3 и 4 фотке – буквально мир после того, как закончатся данные и мы начнем использовать синту. Внутри пустой и бездушный🤔

У меня все, умные, или не очень, мысли о философии ИИ закончились))

что-то на DL-ском

17 Oct, 12:02


Пропустила я статью в апреле этого года, а очень зря😕. Все равно опишу ее тут, потому что статья крайне занимательная в развитии того самого AGI, прости-господи, или хотя бы решения задач не через воспроизведение всего интернета в обучающей выборке 😱

Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping

Проблематика следующая: LLM-ки не умеют нормально в принятие решений. Это нам известно. На мой субъективный взгляд, это один из самых весомых подходов к улучшению качества моделей сейчас. Проблема известная, но как бороться?
– Уже давно используют CoT и подобное, o1 по сути обучен на этом методе и также пытается решить ранее обозначенную проблему таким образом.

Meta предлагают совершенно иной метод — Searchformer. Его главное отличие от предыдущих заключается в том, что:

💛он обучается на внутренней динамике поиска, что делает его эффективнее AlphaZero и MuZero, которые используют планировочные алгоритмы как черные ящики
💛способен работать с последовательностями длиннее, чем в предыдущих подходах
💛обучается с меньшими затратами на ресурсы благодаря итеративной оптимизации длины решений.

Основной подход основан на комбинации обучения трансформера (encoder-decoder с RoPE. Вот это поворот🤯. Сама в шоке, что вспомнили) и алгоритма A*алгоритма поиска пути, который объединяет жадный поиск с эвристикой и поиск по минимальной стоимости.

Какие эксперименты проводили:

Начнем с данных:

Каждый шаг работы A* на конкретной задаче (например, лабиринт) представляется в виде последовательности токенов, которая содержит информацию по:
💛узлам, добавленным в множество «фронтир» (исследуемые узлы);
💛закрытому множеству узлов (которые уже не будут рассматриваться);
💛эвристике и стоимости от точки до узла.

Все эти данные собираются в последовательности двух типов:

🩰Solution-only: только описание задачи и оптимальное решение.
🩰Search-augmented: задача, процесс поиска по шагам и оптимальное решение.

Также был представлен метод bootstrap, который сначала обучается как search-augmented, а потом генерирует новые, укороченные последовательности. Если решение верное, эта последовательность включается в новый обучающий набор данных.
🤔Где-то я уже такое видела, возможно, в AlphaFold или чем-то похожем. Пишите в комментариях, если есть мысли где)))

Отдельно радует, что они учли разные задачи в обучающем и тестовом наборах данных (очень достало test-in-train is all what you need👿).

Эксперименты:

💛Детерминированный подход: фиксированные правила выбора узлов, как итог — единственная правильная последовательность.
💛Недетерминированный подход: узлы выбираются случайным образом, что приводит к множеству возможных правильных последовательностей.

Итоги экспериментов:

1. Search-augmented модели outperform solution-only модели, особенно при малом объеме данных и на сложных задачах.
2. С методом bootstrap Searchformer генерирует последовательности, которые короче и эффективнее, чем исходные последовательности, сгенерированные алгоритмом A*.
3. Обучение на недетерминированных данных помогает Searchformer лучше справляться с задачами, где есть множество вариантов решения.
4. Searchformer показал на 26.8% более короткие последовательности по сравнению с алгоритмом A* после нескольких итераций дообучения и обеспечил улучшение метрик SWC и ILR.
5. Search-augmented модели показали значительный прирост производительности, даже при небольших размерах моделей

📖Paper
🖥Code

что-то на DL-ском

14 Oct, 13:26


Обожаю! 🤩 Очередная статья про галлюцинации LLM

LLMs Know More Than They Show:
On the Intrinsic Representation of
LLM Hallucinations


В этот раз авторы обнаружили:

Что правильные ответы LLM кроются в определенных токенах. Они смотрели на активации токенов по разным слоям и учили классификатор предсказывать правда/неправда сгенерирована ( probing )

Впоследствии можно генерить пару предложений и выбирать правильное классификатором

Анализировали частотность правильной или неправильной генерации подряд и выявили, что есть разные типы ошибок (постоянно правильный, постоянно неправильны). Соответсвенно, когда такую активацию прослеживаем, можем применять сценарии доведения модели до правильного ответа.

Небольшое отступление: to be honest, я чет не прониклась выводами, очень уж напоминает выводы из статьи Anthropic, которую разбирали на reading club, только метод другой (давайте посмотрим как активируются определенные токены в зависимости от контекста, а там нейронные активации)

😠Ну теперь глобальный минус статьи:

На разных датасетах воспроизвести результаты активаций не вышло. Надо переобучать классификатор. У меня лично, вопрос возникает о том, не частный ли это случай их обнаружений :(

Paper: link
Code обещается быть тут

что-то на DL-ском

08 Oct, 10:00


Британские ученые решили проводить научные опыты вместо мышей на стажерах.
Во-первых, стажеров больше. Во-вторых, мышей жалко. И в-третьих, есть вещи, которые мыши отказываются делать

что-то на DL-ском

08 Oct, 08:48


The AdEMAMix Optimizer: Better, Faster, Older

периодически появляются новые оптимизаторы, которые не выглядят полной дичью и что-то да могут

вот тут от эпл возможно как раз такое: они нам напоминают, что в адаме первая бета интуитивно отвечает за аккумуляцию предыдущих градиентов. ну это не только интуитивно, а и математически так, но не суть (например, при beta=0.9 половина веса при апдейте падает на 6 предыдущих градиентов, при beta=0.9999 это число уже становится 6930)

но есть нюанс - хорошо, что помним про предыдущие давние градиенты и накапливаем момент, только желательно еще хорошо чувствовать, что происходит с недавними градиентами и недавним состоянием системы, математически выражаясь. и одновременно выдерживать эти 2 момента, как оказывается по экспериментам авторов, трудно для адама и адамв

потому авторы и добавляют доп момент в числителе, который просто еще один ЕМА градиентов (при том он еще не скейлится на бету как другие моменты для пущей аккумуляции) ⇒ получаем AdEMAMix

с ним батчи забываются намного медленее, при том батчи в недавнем прошлом продолжают влиять на лосс довольно сильно, а значит и сходимость должна быть быстрее. вроде идея норм, но так хорошо она не работает в начале трейна из-за высокой степени нестабильности ⇒ добавляют еще прикольные шедулеры под гиперы нового момента, чтобы с этим справиться

смущает разве что очень маленький скейл моделек, максимальный размер - 1.3B. что будет происходить на 7б хотя бы уже непонятно (взять хотя бы тот факт, что придется менять гиперы под этот новый момент, а не ставить его равным привычным значениям другого параметра с другим смыслом)

👀LINK

что-то на DL-ском

04 Oct, 11:50


🌸FAANG Собеседования. Часть 2, рефералы 🌸
#собеседования

Начали серию постов про собеседования — давайте продолжим. Сегодня поговорим про то, как вообще добраться до этапа собеседования.

TL;DR лучше сделать меньше попыток, но более качественных и таргетировангых, чем подаваться массово на 500 позиций. Часть вакансий и так не настоящая, а часть вы делите с внутренними и внешними кандидатами — так что нужно быть таргетированным и быстрым.

🟣Резюме

Делается под вакансию и страну! Сделайте под самые интересные для вас вакансии отдельные версии: резюме для позиции Researcher'а и для ML Eng выглядит по-разному!
Из резюме сразу должно быть видно, что у вас N лет опыта, легальный статус, виза таланта и т.д. — плюс все чем можете похвастаться. 100500 цитирований, членство в орг комитете престижной конференции, опенсорс проект на 1000 контрибьюторов. Сейчас не страшно быть over qualified для вакансии.

Если в вакансии хотят опыт RL, и у вас он есть, надо добавить прямо в шапку, что вы experienced in reinforcement learning.
Если есть и статьи на тему, сделайте секцию "Publications" и поместите их туда.

🟣Получаем Referrals

Реферрал — это формальный или неформальный способ быть рекомендованным на позицию кем-то из текущих сотрудников. Эта рекомендация очень важна! Чем ближе рекомендующий к команде вакансии — тем лучше, поэтому эффективность реферраллов я бы отсортировала так:
— реферралы внутри команды, реферралы из вашего нетворка
— просто общие Linkedin-контакты из компании,
— случайные русскоязычные люди из компании, которым будет понятен ваш бэкграунд (МФТИ,  ШАД...),
— просто случайные люди из компании.

Пишите людям прямо, что вы очень интересуетесь позицией, считаете, что подходите на неё, и хотели бы реферрал — заодно можете поболтать и спросить что-то про культуру работы в компании. Вам могут рассказать более подробно про команду, чем она занимается, есть ли в целом проблемы у организации и какие.

Помимо Linkedin, для FAANG существует ещё один полезный инструмент: Blind.

Blind — это приложение для анонимного чата о работодателях, что-то вроде двача с Glassdoor. Там принято просить реферрал непосредственно у сотрудников компании, некоторые люди делают это ради бонуса.

🟣Chechez le manager

Вакансию изучили, реферралы получили, теперь следующая стадия — найти нанимающего менеджера и написать ему. Часто название команды/орга содержится в вакансии, и можно найти менеджера/директора с таким описанием по Linkedin.

Такой подход тоже в целом позитивно выделит вас из списка кандидатов, потому что вы облегчаете работу всех по найму мотивированного человека в компанию.
Напишите пару строчек о себе, почему вас надо взять, и что вас уже зареферили. Пришлите резюме. Если прямо очень хотите в компанию, то через неделю напишите ещё раз — свои мысли про что-то из продуктов компании, последних релизов, что бы вы улучшили, и т.д.

🟣Куда подаваться?

Рынок в целом не очень, поэтому лучше всего целиться в 3 категории — крупные компании, средние компании и стартапы, — даже если вы сомневаетесь, хотите ли туда.
Воркшоп ICML 2022 по офферам и поиску работу (посмотрите!) это явно предлагает.

В самом лучшем случае у вас будет несколько офферов, и вы используете оффер стартапа, чтобы улучшить оффер от большой компании. Или используете оффер большой компании, чтобы получить оффер больше от компании среднего размера с хорошим work-life balance. Но про это — в следующий раз!

🌸Кстати, наш карьерный стрим теперь выложен в записи!

что-то на DL-ском

04 Oct, 10:25


ReMax как альтернатива PPO

Сегодняшняя статья — об интересном методе обучения с подкреплением, который называется ReMax. Авторы предлагают его как замену популярному алгоритму Proximal Policy Optimization (PPO).

ReMax основывается на алгоритме обучения с подкреплением, который называется REINFORCE — отсюда и приставка Re. В REINFORCE, в отличие от PPO, нет value-модели. Она выступает в роли бейзлайна для снижения дисперсии оценки градиента и представляет собой среднюю награду, которую наберёт генератор, если будет отвечать на конкретный запрос.

Вместо отдельной value-модели в ReMax предлагают использовать другой бейзлайн — то, сколько награды набирает greedy-генерация обучаемой моделью на запросе. Отсюда окончание Max. Такой бейзлайн тоже отлично подходит с точки зрения теории, и не требует хранения дополнительной модели в памяти — авторы сообщают, что снижение потребления GPU-памяти составляет 46%. А поскольку число моделей, необходимых алгоритму алайнмента, уменьшилось, то уменьшилось и число гиперпараметров, которые нужно подобрать.

Использование ReMax для обучения модели Mistral-7B показало значительные улучшения. Модель достигла 94,78% успеха на leaderboard AlpacaEval и установила новый стандарт для моделей с 7 миллиардами параметров. Эти результаты демонстрируют, что ReMax может стать отличной альтернативой PPO для RLHF-задач, значительно сокращая вычислительные затраты и повышая эффективность обучения крупных языковых моделей.

Разбор подготовил Павел Темирчев

Душный NLP

что-то на DL-ском

03 Oct, 09:37


Вчера на reading club приятно обсудили статью Anthropic о интерпретации LLM. Закину слайды своего обзора ниже👇. Выписала самые важные моменты и выводы статьи на мой взгляд

А ещееее, очень рада, что число людей, читающих канал, перевалило за 3к😍

🤗Линк на слайды

что-то на DL-ском

28 Sep, 14:53


🧐 Портал в мир науки открывается по средам!

Уже 2 октября в 18:30 встречаемся в Reading Club, чтобы обсудить новую порцию научных прорывов из мира AI.

Гость: Карина Романова
TeamLead CoreLLM:recsys.
Отвечает за добавление текстовых и картиночных фичей в рекомендации Wildberries. Магистрантка AI Talent Hub.

➡️ Разберемся в новом подходе к интерпретации крупных языковых моделей на примере Claude Sonnet. Обсудим, как удалось их выявить, какие концепции формируются внутри модели и как это может улучшить безопасность и надежность ИИ в будущем.

🔖 статья: Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

➡️ Зарегистрироваться
📹 Смотреть предыдущий выпуск

#ReadingClub #AITalentHub #NapoleonIT #ITMO

что-то на DL-ском

28 Sep, 14:53


Я тут вписалась в reading club на следующей неделе. Если кто-то еще не читал или читал, но очень хочет обсудить тему, welcome на обсуждение статьи в среду вечером 🥂

что-то на DL-ском

26 Sep, 10:45


🤡 Будущее, которое мы заслужили. Абсолютно секретные комнаты с абсолютно секретными данными.

Ссылка на новость

что-то на DL-ском

24 Sep, 15:13


🗯 Moshi: GPT4-O voice mode дома (обзор)

Одним теплым июльским вечером, сидя в самом сердце Москвы, в гуще столичной суеты, я лениво перелистывала Twitter в поисках чего-то стоящего. И вдруг, как озарение, мне на глаза попался анонс Moshi от французской лаборатории. Анонс, надо сказать, был щедро украшен громкими заявлениями:

👁 Первая LLM для аудио, которая умеет одновременно слушать и отвечать
👁 Содержит около 70 эмоций, которые может имитировать
👁 И конечно же, она будет открытая в отличие от GPT-O и подобного!!

После долгого сентябрьского ожидания, когда я почти смирилась с мыслью, что модель так и не выйдет, и статья никогда не будет написана, на следующий день я наконец увидела ссылку на опубликованный код. Я с энтузиазмом принялась за обзор, но, по загадочному стечению обстоятельств (видимо проклятие Moshi), выкладываю его почти спустя неделю.

P.S. мое honest мнение на счет работы:
💛так как, я делитант в звуке,мне было очень интересно почитать их отсылки к предыдкщим наработкам
💛они соединяют въедино много работ, которые были раньше
💛в разных частях делают минорные изменения к существующим наработкам, что кажется избыточным, но чуваки все промерили и показали свои +несколько % к качеству, поэтому нагнать за это на них нельзя
💛мне очень понравилось, что идея сетки не связана с гонкой с OpenAI, а вытекает скорее из парадигмы Full-Duplex этой статьи, как основной. На мой взгляд именно это отличие от существующей закрытой модели дало хайп на просторах интернета

Я не смогла уместить в один пост всю информацию, так как для меня она довольно новая, поэтому

😇 Переходите читать на habr: link