Data, Stories and Languages @datastorieslanguages Channel on Telegram

Data, Stories and Languages

@datastorieslanguages


Канал о Data Science, изучении иностранных языков, книгах и жизни.
Контакт с автором https://t.me/Erlemar

Data, Stories and Languages (Russian)

Добро пожаловать на канал "Data, Stories and Languages"! Этот канал посвящен темам Data Science, изучению иностранных языков, книгам и жизни в целом. Здесь вы найдете увлекательные материалы о том, как обрабатывать и анализировать данные, познавать мир через изучение различных языков, а также наслаждаться интересными историями из жизни и литературы

"Data, Stories and Languages" - это место, где вы сможете расширить свои знания, найти вдохновение и общаться с единомышленниками. Если вы увлечены Data Science, любите изучать новые языки, увлекаетесь чтением книг, или просто ищете интересные материалы для развития - этот канал для вас! Присоединяйтесь к нам прямо сейчас и окунитесь в увлекательный мир данных, историй и языков!
Для контакта с администратором канала обращайтесь по ссылке: https://t.me/Erlemar

Data, Stories and Languages

03 Feb, 16:31


​​Titans: Learning to Memorize at Test Time

Интересная статья от Google Research с новым семейством архитектур - Titans. Объединили attention и отдельный модуль долгосрочной памяти. Сделали 3 варианта архитектуры - память как контекст/gate/слой. В результате модельки тренируются быстро, хорошо масштабируются, работают на контексте до 2 млн токенов. Ну и, как это обычно принято, бьют другие модели по метрикам (кто ж будет публиковать не SOTA).

Paper

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

Data, Stories and Languages

31 Jan, 13:45


​​o3-mini и o3-mini-high скоро на ваших экранах

Люди нашли, что вот-вот OpenAI выкатит две новые модельки:
https://web.archive.org/web/20250131113746/https://cdn.oaistatic.com/assets/esm2nfprev2ttzip.js

"Introducing o3-mini and o3-mini-high two new reasoning models that excel at coding, science, and anything else that takes a little more thinking."

И уже утёк скрин с этим.

Мне интересно, как вообще придумывают эти названия? Что дальше? o3-maxi-low? o3-medium-lsd?

Data, Stories and Languages

29 Jan, 14:15


​​В интернете бушуют обсуждения про DeepSeek, особенно часто встречаются крики о том, что его сделали на коленке, что он появился из ниоткуда и вообще никто его не ожидал.

Хочу напомнить, что ещё в ноябре разработчики DeepSeek опубликовали этот пост: https://api-docs.deepseek.com/news/news1120
В нём они рассказывали о том, как работают над DeepSeek-R1-Lite-Preview и показали красивый график - как растёт качество их модели при увеличении количества thought tokens. Уже на этом графике видно, что preview версия достигает 66.7% на AIME (в актуальной статье метрика 71). Так что для тех, кто следил за прогрессом разработки, текущие результаты не удивительны.

#datascience

Data, Stories and Languages

27 Jan, 05:03


​​DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Громкая статья от китайцев про модели DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero обучена исключительно на RL без SFT и демонстрирует отличные способности к reasoning. Однако у неё есть проблемы: плохая читаемость предсказаний и language mixing (прям вот так - текст на двух языках). DeepSeek-R1 решает эти проблемы благодаря multi-stage training и использованию cold-start data перед RL и достигает результаты сравнимые с OpenAI-o1-1217.

Плюс авторы выложили обе модели и шесть дистиллированных в open-source.

Кстати, первый автор в прошлом выиграл много соревнований по ML - возможно это внесло свой вклад.

Paper
Project
Hugging Face page
Code

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

Data, Stories and Languages

22 Jan, 10:30


В ту же тему:
Увидел интересное сравнение того, сколько стоили крупнейшие американские проекты с поправкой на инфляцию:

The New Deal: $1T
Interstate Highway System: $618B
OpenAI Stargate: $500B
The Apollo Project: $278B
International Space Station: $180B
South-North Water Transfer: $106B
The Channel Tunnel: $31B
Manhattan Project: $30B

При этом, у большинства из этих проектов была довольно чёткая цель.

Data, Stories and Languages

22 Jan, 10:27


PoV: когда вкладываешь 100$, а другие вкладывают 1mln $

Data, Stories and Languages

20 Jan, 06:59


Обзор книги "Python Feature Engineering Cookbook"

Очередной отзыв на книгу от издательства Packt.

Мой англоязычный отзыв можно почитать тут:
Linkedin
Medium (https://artgor.medium.com/book-review-unlocking-data-with-generative-ai-and-rag-3ec7cab074a5)

Как понятно из названия - книга про создание фичей для классического ML. В целом книга неплохая - покрывает все основные темы. Но, когда я её читал, меня не покидало ощущение, что я читаю Jupyter Notebook с комментами - большая часть книги это код, output и минимальные пояснения.

Это, наверное, простительно, ибо книга от 2020 года. Но в наше время любой LLM-помощник сможет выдать все варианты feature engineering из неё и даже что-то лучше.

Ссылка на книгу

#datascience

Data, Stories and Languages

16 Jan, 17:01


А вот и способ получить деньги из воздуха :)

https://www.reddit.com/r/OpenAI/comments/1i2n2ib/i_pay_200month_for_pro_subscription_and_this_is/

Data, Stories and Languages

13 Jan, 10:14


Обзор книги "Modern Graph Theory Algorithms with Python"

Очередной отзыв на книгу от Packt

Мой англоязычный отзыв можно почитать тут:
Linkedin
Goodreads

Эта книга была средненькой, где-то на 3.5/5.

Введение неплохое, но к концу стало казаться, что слишком много информации впихнули.

Примеры использования графовых сеток для NLP/CV были вроде как хорошими, но ничего особо нового там не было - подобное я и в других книгах видел... Плюс, я из любопытства попросил ChatGPT дать мне пример кода GCN, и результат чуть ли не построчно совпал с тем, что было в книге - вплоть до гиперпараметров.

Секция про скрещивание LLM и графовых сеток - показалось, что её написали просто потому, что LLM везде.

Обзор будущего - поверхностно.

Из плюсов - мне понравилась секция про representation learning.

Ссылка на книгу

#datascience

Data, Stories and Languages

13 Jan, 05:01


​​STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

Интересная статья от TikTok, то есть от ByteDance - улучшение подходов super-resolution для видео. Года 4 назад у меня был рабочий проект на эту тему, так что было интересно посмотреть на прогресс.

Предложенная модель состоит из четырёх частей: VAE, текстовый энкодер, ControlNet, и T2V модель. В T2V добавили новый модуль - Local Information Enhancement Module, чтобы уменьшить количество артефактов, дополнительно придумали Dynamic Frequency лосс, чтобы модель меньше выдумывала лишнее. Получили хорошие результаты на куче бенчмарков. Из примеров меня особенно впечатлило улучшение качества совсем расплывчатого текста.

Paper
Project
Code

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

Data, Stories and Languages

09 Jan, 11:11


Albumentations 2.0.0 and Segmentation Models 0.4.0

Думаю, что подавляющее большинство DS, заставших времена ODS (👴) помнят эти две замечательные библиотеки для Computer Vision.

Сегодня обе обновились (интересное совпадение).

В Albumentations завезли прикольную аугментацию ConstrainedCoarseDropout и сделали много рефакторинга.

В Segmentation Models появились Segformer, UperNet и новые энкодеры.

#datascience

Data, Stories and Languages

06 Jan, 05:13


​​Оказывается, 200$ на openai pro - слишком дешево

Ждём 1-2к$?

https://x.com/sama/status/1876104315296968813

Data, Stories and Languages

06 Jan, 05:06


​​Training Large Language Models to Reason in a Continuous Latent Space

Новая статья от META - про кокосик! То есть Coconut (Chain of Continuous Thought).

Авторы предлагают изменить подход к reasoning в LLM, перемещая процесс из "language space" в "latent space". По сути, модель думает не токенами, а с использованием hidden state. Это позволяет делать breadth-first search и избегать преждевременных решений при выборе неоптимального пути. Coconut превосходит CoT в задачах логического мышления с необходимостью сложного планирования и backtracking.

Подобные идеи уже пробовали в других работах, но у META получилось довольно красиво. Кстати, в качестве базовой модели используют старый добрый GPT-2.

Paper

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

Data, Stories and Languages

01 Jan, 10:30


​​Я не знаю, что это такое, но мне это прислал один из "неизвестных поклонников" то ли из Индии, то ли из Пакистана.

С Новым Годом, товарищи!

Data, Stories and Languages

28 Dec, 16:00


12 лет использования Anki для изучения иностранных языков

Я тут осознал, что уже 12 лет использую Anki для изучения иностранных языков. Решил подсобрать статистику и поделиться опытом.

Во-первых, если смотреть на график количества просмотров карточек, можно очень наглядно увидеть, как менялись интересы и жизнь. Есть несколько пиков, когда было активное изучение языков, есть несколько сильных падений - особенно когда перекатился в data science.

В настоящий момент Anki показывает, что у меня 36к карточек. Из них 15.8к - испанский, 9.7к японский и 8.8к немецкий.

В основном я сам создаю колоды - создаю карточки во время чтения, иногда использую готовые колоды.

Несколько советов на основе моего опыта:
• Карточки должны быть максимально чёткими - чтобы ответ был однозначным
• Зубрить слова в вакууме - не особо полезно и интересно, нужны предложения с примерами
• Не надо пытаться выучить все неизвестные слова - мы в родном-то языке не все слова знаем

Подробнее можно почитать в моём блогпосте.

#languages

Data, Stories and Languages

27 Dec, 10:10


​​И снова о том, как современные LLM увеличивают разницу между экспертами и новичками

Уже давно идут бурные обсуждения того, что благодаря LLM разница между сеньорами и джунами всё растёт и растёт - ибо опытные люди знают что и как спросить, могут поймать ошибки, могут подтолкнуть ботов в нужную сторону.

Сегодня я наткнулся на тредик на реддите. Автор жалуется, что o1 pro (который за 200$) бесполезен для написания кода.

Самый топовый ответ - "Type out a very detailed document that explains exactly what you want from your code - it could be several pages in length. Then feed that whole document into o1-pro and just let it do its thing. Afterwards, you can switch to 4o if you want to do minor adjustments using Canvas."

То есть предлагается написать полноценное детальное техзадание, которое бот сможет выполнить по шагам.
В том, насколько такое вообще работает я не уверен - не пробовал. Но если это действительно так, то это, опять же лишь "упрощает" работу сеньоров. Написать качественное детальное тз - это серьёзная задача, не все это могут.

Интересно наблюдать за тем, как индустрия безумно быстро двигается в некоторых направлениях.

#datascience

Data, Stories and Languages

27 Dec, 08:00


🤖 Папка ИИ

Под конец этого года коллеги из «ГОС ИТ Богатырёва» собрали нейрокрутую папку с каналами про ИИ и технологии, в которую включили и меня. Актуальные новости, советы по работе с LLM и многое другое.

Добавляйте папку и делитесь со своими друзьями.

Data, Stories and Languages

23 Dec, 13:47


И вот доклады выложили на youtube!
https://www.youtube.com/watch?v=hieJhU9J3e0&list=PLvwlJZXG6IkVRkSDyJsPmcBXw25Nm7_yt&index=16

По ссылке можно посмотреть как мой доклад, так и остальные. Из забавного: с 17:40 на протяжении шести минут я отвечал на вопросы одного очень любознательного человека. Надеюсь, что это был не один из фродстеров :) И надеюсь, что я не сказал ничего лишнего 👀

#datascience

Data, Stories and Languages

23 Dec, 05:17


​​Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Новая версия всем известного BERT. Авторы обновили архитектуру, добавили модные трюки для оптимизации тренировки, досыпали данных. Получили SOTA на большинстве бенчмарков.

Было интересно почитать какие изменения появились за 6 лет. В конце статьи авторы ещё подробно описывали эксперименты и мысли. Из забавного: "проблема первого мира" - если в батче 500к-1млн семплов, то дефолтный семплер в Pytorch плохо рандомит. Авторам пришлось взять ссемплер из Numpy.

А ещё интересное - один из авторов недавно взял соло золото в соревновании на каггле и занял 4-е место в общем рейтинге соревнований.

Paper
Code
Weights
Blogpost

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

Data, Stories and Languages

20 Dec, 11:03


О насущном: состояние дел в индустрии

Data, Stories and Languages

17 Dec, 12:25


​​Falcon 3

Институт в Абу-Даби выпустил новую версию своей модели, блогпост на huggingface тут.

Модели размером от 1B до 10B. Одна из моделей - Mamba. Уверяют, что модель на 3B лучше, чем Llama 3.1-8B

#datascience

Data, Stories and Languages

16 Dec, 14:11


​​Byte Latent Transformer: Patches Scale Better Than Tokens

Новая статья от META - Byte Latent Transformer. Пробуют новый подход к токенизации - вместо фиксированного словаря используют динамические patches, размер которых определяется по энтропии следующего байта. Модель успешно масштабировали до 8B параметров и 4T байтов, при этом с лучшим качеством. Плюс эффективность и тренировки, и инференса лучше. Каких-то особых недостатков подхода авторы не описали. Ждём Llama 4 на байтах? :)

Paper link
Code link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

Data, Stories and Languages

13 Dec, 13:17


​​How to use AI to write articles about how to use AI as a product manager for your AI app on your journey to being replaced by an AI product manager

Andrew Ng опубликовал мини-блог пост AI Product Management. К сожалению, текст настолько generic, что его очень красочно описали на ycombinator

Data, Stories and Languages

11 Dec, 16:37


​​When Duolingo characters break 4th wall

#languages

Data, Stories and Languages

10 Dec, 16:01


​​Bojan Tunguz в своём репертуаре :)

Data, Stories and Languages

02 Dec, 10:29


Как организовать эксперименты так, чтобы получить статью с желанным результатом

Думаю, что многим знакомы статьи по машинному обучению, где авторы поступают не совсем честно - неправильное разбиение на трейн/валидацию, манипуляция метриками и многое другое. Но это происходит и в других сферах

Недавно мне попалась на глаза статья с громким названием Handwriting but not typewriting leads to widespread brain connectivity: a high-density EEG study with implications for the classroom)(https://www.openread.academy/en/paper/reading?corpusId=503252214), решил почитать. Исследование было организовано просто "на отлично":

Было 36 студентов в качестве выборки (брали только праворуких). Ну да ладно, в исследованиях на людях часто бывает маленькая выборка. Их взяли на улице, то есть на территории университета и обещали дать билеты в кино стоимостью 15$. Просили написать или напечатать 15 слов (типа "paraply").
И вот как было дальше организовано. Если люди видели инструкцию "write", они должны были писать курсивом (стилусом в правой руке) на электронном экране. Если же они видели инструкцию "type", они должны были... печатать слова одним указательным пальцем правой руки. Мол, если бы люди печатали всеми пальцами, сложно было бы оценить эффект. И это ещё не все: когда люди печатали слова, они не видели введённый текст.

То есть при написании курсивом были довольно естественные условия, а при печатании - самые неестественные, которые можно было придумать.

Ну и сам результат: измеряли "brain electrical connectivity", получили, что эти паттерны намного более "elaborate" при написании текста, чем при печатании. И делают вывод: мол, в литературе это коррелирует с улучшением изучения нового материала, а значит и написание текста ручкой напрямую коррелирует с лучшим усваиванием материала.

Очень сомнительное исследование.

C другой стороны, если говорить про мой опыт, я использую и то, и другое. Когда мне нужен brainshorming - предпочитаю писать, в остальных случаях - печатать. Нюанс ещё в том, что у меня ужасный почерк и чтобы писать разборчиво, мне надо прилагать осознанные усилия и отвлекаться от того, о чём именно я пишу. А при печатании таких проблем не возникает - можно фокусироваться на сути.

Data, Stories and Languages

25 Nov, 08:19


​​Project Sid: Many-agent simulations toward AI civilization

Авторы статьи гоняли много экспериментов на 10-1000 AI-агентов с архитектурой PIANO, позволяющей им взаимодействовать друг с другом для кооперации. В итоге агенты научились специализироваться, создавать/изменять/соблюдать коллективные правила (типа системы налогов) и даже развивать культуру и религию. Авторы явно хорошо развлекались: распространение культуры было в виде мемов, а религией было пастафарианство (Церковь Летающего Макаронного Монстра) :)

В общем, читать было интересно и весело.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

Data, Stories and Languages

21 Nov, 06:48


​​Pokémon GO -> Large Geospatial Model

В наше время данные собирают всеми возможными путями. Niantic собирает данные от игроков Pokemon GO и создаёт свою Global Large Model для понимания мира. Это явно поможет разработкам в сфере AR. В настоящее время это используется в их Visual Positioning Service, плюс в Pokemon GO теперь игроки могут оставить своего покемона в каком-то месте, чтобы другие игроки могли с ним взаимодействовать.

Ещё они недавно опубликовали статью на схожую тему.

https://nianticlabs.com/news/largegeospatialmodel

Data, Stories and Languages

16 Nov, 15:29


​​Какой "стул" выбрать: Gemini или Claude?

Девушка получила диагноз: рак. Решила пожаловаться разным LLM. Ответы... очень разные.

Claude: сочувствую, держись. Ты - молодец, можем поговорить об этом.
Gemini: Мне не нравится тон твоего поста. Рак есть у миллионов людей, так что радуйся тому, что тебе доступно лечение и молчи. Можешь погуглить информацию о лечении. И будь позитивнее по отношению к другим людям

Вот такой alignment

https://x.com/venturetwins/status/1857100097861173503

Data, Stories and Languages

16 Nov, 10:54


PyTorch 💔 Anaconda

https://dev-discuss.pytorch.org/t/pytorch-deprecation-of-conda-nightly-builds/2590

https://github.com/pytorch/pytorch/issues/138506

> PyTorch will stop publishing Anaconda packages that depend on Anaconda’s default packages due to the high maintenance costs for conda builds which are not justifiable with the ROI we observe today (as seen in download discrepancies between PyPI vs. conda).

#datascience

Data, Stories and Languages

15 Nov, 07:29


​​gpt-3.5-turbo-instruct умеет играть в шахматы лучше большинства других топовых LLM

Нашёл интересную статью. Автор пробует запускать LLM против Stockfish (один из стандартных ботов для шахмат) на самой низкой сложности. Все модели проиграли... все, кроме gpt-3.5-turbo-instruct. Даже gpt-4o и o1-mini проиграли. Интересно как так получилось.

На ycombinator идёт бурное обсуждение.

#datascience

Data, Stories and Languages

14 Nov, 07:46


Апдейт к посту выше:
https://news.ycombinator.com/item?id=42130881 - нашёл обсуждение на ycombinator

Из интересного:

• он создаёт стартап
• неполный список компаний, использующих Keras: Midjourney, YouTube, Waymo, Google across many products (even Ads started moving to Keras recently!), Netflix, Spotify, Snap, GrubHub, Square/Block, X/Twitter, and many non-tech companies like United, JPM, Orange, Walmart
• мердж keras в TF в 2019 году был не по его инициативе, а по инициативе лидов TF

Data, Stories and Languages

14 Nov, 07:43


Keras + TensorFlow = 💔?

Google заявил что расстаётся с Francois Chollet - создателем Keras. Интересно почему? Возможно решили, что multi-backend особо не нужен?

Что интересно, оказывается Keras продолжает активно использоваться: "With over two million users, Keras has become a cornerstone of AI development, streamlining complex workflows and democratizing access to cutting-edge technology. It powers numerous applications at Google and across the world, from the Waymo autonomous cars, to your daily YouTube, Netflix, and Spotify recommendations."

Я думал, что в проде большинство использует TF/PyTorch напрямую. Хотя, возможно это легаси со времён былой популярности кераса?

#datascience

Data, Stories and Languages

11 Nov, 07:43


​​Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Agent K v1.0 — это автономный агент для data science, способный автоматически решать задачи без fine-tuning и backpropagation.

Ну что ж, очередная статья, уверяющая, что LLM может достичь крутых результатов на Kaggle. Если ничего не знать о Kaggle, может выглядеть впечатляюще.

Топ-38% среди 5856 участников! - как мы знаем, топ-38% это даже за гранью бронзы.
6 золотых медалей! - вот только все они в playground/community соревнованиях.
Превосходит многих людей! Особенно было весело, как они показывают 200% превосходство над юзером, у которого 0 медалей в соревнованиях. Или в списке Kaggle Master учитывают мастеров ноутбуков/обсуждений.

С другой стороны, они открыто признаются, что их подход на 43% хуже tunguz и на 30% хуже alexryzhkov :)

Справедливости ради, сам подход - с автоматическим созданием пайплайна и тестов - в целом интересен. Просто результаты моделек пока убогие. Но это пока - мы знаем как быстро развиваются технологии.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

Data, Stories and Languages

08 Nov, 12:49


Вот и появились результаты опроса. Из интересного:
• 296 людей ответило - не то чтобы много, но некое представление об индустрии дать может
• треть людей самостоятельно изучала DS (не по образованию или на курсах). Я в их числе :)
• в 22.9% команд есть отдельно выделенные тестировщики - удивительно, что так много
• лишь в 39% компаний есть матрица компетенций. Хм, а Натёкин сделал свой вариант или ещё нет? :)
• 36 человек уехали из России в 2022. Думаю, что причины понятны.
• Зато 60% оставшихся в России не планируют уезжать

Изучить остальную статистику можно тут: https://devcrowd.ru/ds24/

#datascience

Data, Stories and Languages

07 Nov, 14:28


​​Как инженеры отвечают на поведенческие вопросы

P. S. Конечно, это шутка, но бывает, что люди реально отвечают подобным образом, упуская суть вопроса.

Data, Stories and Languages

01 Nov, 05:04


​​Halloween!

https://www.reddit.com/r/PhD/comments/1ggkmss/a_little_humor_to_end_october/

Data, Stories and Languages

31 Oct, 17:15


Загуглить -> зачатгптить?

https://openai.com/index/introducing-chatgpt-search/

Data, Stories and Languages

29 Oct, 08:50


​​Unbounded: A Generative Infinite Game of Character Life Simulation

Прикольная статья от Google - сделали симулятор игры на базе LLM. Такое уже было, конечно, в этом случае нюанс в том, что делают акцент на том, чтобы поведение мира было консистентным, чтобы персонаж и мир оставались примерно одними и теми же. Используют задистиллированную модельку, которую натренировали на синтетических данных. Выглядит прикольно, возможно, что как-то так будут выглядеть дешевые игры в будущем.

Paper link
Project link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

Data, Stories and Languages

25 Oct, 09:59


​​Простые секреты успеха

https://www.reddit.com/r/leetcode/comments/1gbbuuv/how_do_people_pass_oas_with_such_ease_for/

#datascience

Data, Stories and Languages

21 Oct, 05:13


​​Contextual Document Embeddings

Статья с новым подходом для тренировки эмбеддингов - использование контекста для получения эмбеддингов документов. Предлагают два улучшения: contrastive learning включающий соседние документы в лосс внутри батча; новая архитектура, которая явно использует информацию соседних документов. Эти подходы улучшают результаты по сравнению с другими biencoders, особенно в условиях out-of-domain. Авторы получают SOTAна бенчмарке MTEB без использования трюков типа hard negative mining или больших батчи. Плюс предложенные улучшения можно применять к другим подходам contrastive learning.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

Data, Stories and Languages

17 Oct, 13:43


HuggingFace Trainer: gradient accumulation was bugged

Отличный пример того, что всегда надо быть аккуратными при использовании фреймворков.

Недавно [обнаружили](https://unsloth.ai/blog/gradient), что в HuggingFace Trainer некорректно работал gradient accumulation. Было замечено, что при измерении размера батча лосс менялся, хотя, в теории, при использовании gradient accumulation, такого быть не должно.

"for gradient accumulation across token-level tasks like causal LM training, the correct loss should be computed by the total loss across all batches in a gradient accumulation step divided by the total number of all non padding tokens in those batches. This is not the same as the average of the per-batch loss values"

Баг быстро [пофиксили](https://huggingface.co/blog/gradient_accumulation) и заодно использовали эту ситуацию как повод дать новый функционал - упростить использование кастомных лоссов в Trainer.

#datascience

Data, Stories and Languages

14 Oct, 04:55


​​Differential Transformer

Diff Transformer от Microsoft. Идея до неприличного простая - мы считаем два attention и вычитаем один из другого с весами. Таким образом убирается шум по маловажным токенам. Эксперименты показывают, что Diff Transformer превосходит стандартный Transformer в таких задачах как long-context моделирование, key information retrieval, снижение галлюцинаций, in-context learning.

Выглядит круто.

Paper link
Code link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

Data, Stories and Languages

11 Oct, 14:57


​​Вечер пятницы, поэтому нестандартное.

Вот так выглядит обновление профиля CEO, получившего 7.5 лет тюрьмы за финансовое мошенничество

https://www.linkedin.com/in/ryansalame/

Data, Stories and Languages

11 Oct, 04:09


MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

Новый бенчмарк от OpenAI - взяли 75 соревнований с Kaggle и запустили по ним агентов. Минимум по 16.9% их подход получил хотя бы бронзу.

Результаты вполне интересные, но я бы хотел отметить другое:
"For each competition, we use the original dataset if publicly available, although Kaggle competitions often do not release the test set even after the competition ends. In such cases, we manually create new train and test splits based on the publicly available training data. We take care to ensure that the distributions of the original and reconstructed test sets are similar by checking that the example submission scores similarly on both sets."

То есть авторы часто сами делали разбиение на трейн и тест на основе публичных данных и старались сделать так, чтобы распределения данных совпадали. Как мы знаем, на Kaggle один из самых сложных аспектов соревнований - построить качественную валидацию, ибо тест нередко отличается от трейна. Так что сравнивать этот бенчмарк и реальные успехи в соревнованиях не совсем корректно.

Значит ли это, что бенчмарк плохо? Нет, я считаю, что бенчмарк вполне интересный.
• Любой бенчмарк, на котором модели не имеют очень высокое качество, полезен для развития моделей
• Даже если "реальное" качество ниже заявленного - это не так страшно. Ибо публикация этого бенчмарка - первый шаг к улучшению будущих подходов для решения подобных задач
• На Kaggle участники сами нередко ругаются на случаи, когда тест слишком уж отличается от трейна. И, с одной стороны, наличие отличий отражает реальную жизнь, с другой стороны, вся суть машинного обучения в поиске паттернов, а не в трюках и пробивании лидерборда

Так что считаю, что это хороший бенчмарк :)

https://arxiv.org/abs/2410.07095v1

#datascience

Data, Stories and Languages

08 Oct, 10:23


Are 4 stand-ups per day enough? 🤔

https://www.reddit.com/r/ExperiencedDevs/comments/1fyw1dr/how_many_standups_do_you_have_a_day_are_we_being/

Data, Stories and Languages

07 Oct, 04:36


​​Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

Новая модель от Apple - zero-shot metric monocular depth estimation. Может генерить карты глубины в высоком разрешении с качественными деталями без использования метаданных. Для генерации карты глубины на 2.25 megapixel требуется всего 0.3 секунды на V100.

Модель использует multi-scale vision transformer, комбинирует реальные и синтетические данные для обучения и делает SOTA focal length estimation c одной картинки.

Выглядит впечатляюще.

Paper link
Code link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

Data, Stories and Languages

29 Sep, 15:28


Обзор книги "Unlocking Data with Generative AI and RAG"

Очередной отзыв на книгу от издательства Packt.

Мой англоязычный отзыв можно почитать тут:
Linkedin
Medium

Книга от кофаундера и CTO Ragas - поэтому не удивительно, что книга отличная. Вначале автор даёт обзор того как работает RAG, потом лезет в детали, причём весьма хорошо. Покрывает темы безопасности и red team, детали векторизации, поиска и прочего. Рассказывает о query enrichment, valuation, agents и многом другом. Крутая и прикладная книга. Рекомендую.

Ссылка на книгу

#datascience

Data, Stories and Languages

26 Sep, 12:40


Kaggle: badges and awards

На каггл завезли обновление... новые значки для сбора.

Awards - 28 ачивок за разные активности типа организации соревнований, победы в аналитических соревнованиях, достижения высоких мест в рейтинге и так далее.

Badged - 54 ачивки за активности типа залогиниться N дней вподряд, сделать сабмиты в разные типы соревнований, создать ноутбук и так далее.

Пользы особой нет, но красиво.

Gotta Catch 'Em All?

Data, Stories and Languages

25 Sep, 17:59


​​Llama 3.2: теперь и мультимодальная

https://www.llama.com/

https://github.com/meta-llama/llama-models/blob/main/models/llama3_2/MODEL_CARD_VISION.md

https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf

#datascience

Data, Stories and Languages

25 Sep, 14:36


​​Говорят, что достали системный промпт Advanced Voice Mode

https://www.reddit.com/r/OpenAI/comments/1fp1fes/the_system_prompt_of_advanced_voice_mode_it_can/

Data, Stories and Languages

25 Sep, 06:00


​​В ChatGPT подписчикам начали выкатывать advanced voice mode - я уже получил.
Новые голоса нравятся, но особого изменения качества пока не заметил.

Data, Stories and Languages

24 Sep, 07:06


Статистика: вероятность болезни 1.96% или 95%?

В твиттере пару дней назад завирусился тредик. Топикстартер утверждает, что врачи глупые и не понимают статистику. В качестве примера приводит такую задачку:

Есть редкое заболевание (1/1000). Мы делаем тест с false positive rate 5%. Какая вероятность того, что тест показывает наличие болезни и она действительно есть?
Мол, только 20% врачей ответили правильно.

"if a test to detect a disease whose prevalence is 1/1000 has a false positive rate of 5%, what is the chance that a person found to have a positive result actually has the disease, assuming that you know nothing else about the person's symptoms or signs?"

И пошло весёлое обсуждение. В целом есть три точки зрения:
• 1000 кейсов, 49 FP, 1 TP -> 2%
• Bayes: (1 x 0.001) / ((1 x 0.001) + (0.05 x 0.999)) -> 1.96%
• Утверждается, что вся соль в формулировке: в тексте спрашивается не про рандомного человека и не про популяцию в целом, а только про тех, кто получил позитивный результат теста. А нам известно, что false positive rate 5% -> 95%

А вы как думаете?

#datascience

Data, Stories and Languages

23 Sep, 13:00


​​Training Language Models to Self-Correct via Reinforcement Learning

Интересная статья от Deepmind, в чём-то похожая на то, что недавно сделали openai в серии моделей o1.

SCoRe — это новый подход для улучшения способности моделей LLM к self-correction с использованием multi-turn reinforcement learning и данных, сгенерированных самими моделями. Авторы показывают, что использовать supervised fine-tuning недостаточо из-за distribution mismatch между тренировочными данными и тем, что выдаёт модель; плюс модели могут "запомнить" только один способ коррекции, который может быть не достаточно эффективен при инференсе.

SCoRe решает эти проблемы - модель обучается на self-generated correction traces и добавляет регуляризацию для повышения эффективности самокоррекции на этапе тестирования. В результате, SCoRe улучшает self-correction моделей Gemini 1.0 Pro и 1.5 Flash на 15.6% и 9.1% соответственно на бенчмарках MATH и HumanEval.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

Data, Stories and Languages

18 Sep, 14:30


​​Обзор книги "Modern Graph Theory Algorithms with Python"

Очередной отзыв на книгу от Packt

Мой англоязычный отзыв можно почитать тут:
Linkedin
Medium

В отличие от прошлой книги, эта мне совершенно не понравилась - я её даже не дочитал.

Первое, что сразу убило интерес - огромное количество сгенерированных картинок, которые не несут никакой смысловой нагрузки. Например, автор пишет, что вот есть класс со студентами и мы будем работать с этими данными... и втыкает на полстраницы сгенеренную картинку класса детей. И подобных картинок полно.

Книга типа для начинающих, но автор накидывает кучу терминов (susceptible-infected-resistant (SIR) model, Christofides algorithm, Fiedler value, Holt–Winters models, Forman-Ricci curvature centrality, и многие другие) и не всегда поясняет их. При этом он ещё часто прыгает с одной темы на другую.

И бывает так, что нам даётся слишком high-level код без достаточных объяснений. Типа "вот сейчас мы запилим нейроночку с SAGEConv".

Я не хотел постить отзыв, но люди из Packt попросили максимально смягчить мои слова, что я и сделал.

Ссылка на книгу

#datascience

Data, Stories and Languages

17 Sep, 06:32


🚀 @SBERLOGASCI webinar on mathematics and data science:
👨‍🔬 Sergei Gukov "What makes math problems hard for reinforcement learning: a case study"
⌚️ 19 September, Thursday 19.00 Moscow time

Add to Google Calendar

Can AI solve hard and interesting research-level math problems? While there is no mathematical definition of what makes a mathematical problem hard or interesting, we can provisionally define such problems as those that are well known to an average professional mathematician and have remained open for N years. The larger the value of N, the harder the problem. Using examples from combinatorial group theory and low-dimensional topology, in this talk I will explain that solving such hard long-standing math problems holds enormous potential for AI algorithm development, providing a natural path toward Artificial General Intelligence (AGI).

The talk is based on a recent paper: https://arxiv.org/abs/2408.15332

О докладчике: Сергей Гуков - профессор КалТех, выпускник МФТИ и Принстона, один из наиболее известных специалистов по теории струн и математической физике, в последние годы занимающийся применением методов Reinforcement Leaning к задачам математики и физики.

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga and in telegram: https://t.me/sberlogasci/19688 - subscribe !

Анонс на твиттер:
https://x.com/sberloga/status/1835702457260765359
Ваши лайки и репосты - очень welcome !

Data, Stories and Languages

16 Sep, 04:47


​​Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency

Китайские стажёры выкатили новую модель для генерации говорящих/поющих лиц. End-to-end audio-only conditioned video diffusion. Модель использует inter- и intra-clip temporal modules, а также audio-to-latents module, чтобы эффективно извлекать long-term motion information и делать движения лица более релевантными звуку. Судя по метрикам - людям нравится. Выглядит и звучит весьма круто. Мне особенно понравилось как картина в классическом китайском стиле задорно поёт "Katy Perry - E.T.".

Paper link

Project link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

Data, Stories and Languages

13 Sep, 14:20


​​GameGen-O: Open-world Video Game Generation

GameGen-O: the first diffusion transformer model tailored for the generation of open-world video games

https://gamegen-o.github.io/