https://youtu.be/vxkBE23zDmQ?si=DK5E-ox1wUjqhwIB
gonzo-обзоры ML статей のテレグラム投稿

Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
21,332 人の購読者
2,229 枚の写真
1 本の動画
最終更新日 11.03.2025 07:43
gonzo-обзоры ML статей によってTelegramで共有された最新のコンテンツ
Пожалуй, это достойно не только чата, но и всего канала
https://youtu.be/vxkBE23zDmQ?si=DK5E-ox1wUjqhwIB
https://youtu.be/vxkBE23zDmQ?si=DK5E-ox1wUjqhwIB
Спасибо DeepSeek, иначе бы ещё ждали :)
https://openai.com/index/openai-o3-mini/
https://openai.com/index/openai-o3-mini/
И чтобы два раза не вставать:
Сколько времени прошло от сайнс-фикшна до воплощения, на примере 50 технологий.
https://www.aiprm.com/science-fiction-technologies/
Сколько времени прошло от сайнс-фикшна до воплощения, на примере 50 технологий.
https://www.aiprm.com/science-fiction-technologies/
Пятничного прекрасного вам в ленту.
История ИИот Демокрита Крита до наших дней.
https://www.aiprm.com/timeline-of-ai-technology/
И до Шмидхубера была жизнь!
История ИИ
https://www.aiprm.com/timeline-of-ai-technology/
И до Шмидхубера была жизнь!
Thomas Wolf, кофаундер HuggingFace, написал пост про пару вчерашних LLM анонсов. Нет смысла пересказывать это своими словами, оставлю as is:
Taking a moment to detail yesterday's two new open-source AI model releases that I briefly mentioned in my long post. They are again pushing the state of the art!
Small 3 by Mistral (Paris, France) is your top-level mid-sized model for fast-inference under Apache 2 licence. A 24B model made to run fast while keeping good performances (about GPT-4 level of performances in a model 70x smaller, generally about the perf/latency of today's GPT-4o-mini):
Check it out at https://huggingface.co/mistralai/Mistral-Small-24B-Instruct-2501
And read the blog post at https://mistral.ai/news/mistral-small-3/
Tülu 3 by AllenAI (Seattle, US) is your new very large open-source frontier model. With 405B parameters you won't run it everywhere for sure but according to the benchmarks of the AllenAI team it seems to outperform the base model being DeepSeek that everyone is talking about.
Check it out at https://huggingface.co/allenai/Llama-3.1-Tulu-3-405B
And read the blog post at https://allenai.org/blog/tulu-3-405B
By the way, both are the third versions released by these teams, and with the current base model from DeepSeek also being V3, seems like the whole open-source AI community is well aligned on versioning for some reason.
Now the remaining part for both Small 3 and Tülu 3 will be to fine-tune these models following the DeepSeek recipe and turn them into the reasoning models we're starting to love.
If you want to follow that endeavor, you can, for instance, head to our open-r1 GitHub repo, where we're reproducing the DeepSeek R1 reasoning recipe and extending it to many open-source models and domains.
Exciting times to be alive!
https://www.linkedin.com/posts/thom-wolf_taking-a-moment-to-detail-yesterdays-two-activity-7291061177445470208-XDIS
Ждём открытых reasoning моделей вменяемого размера!
Taking a moment to detail yesterday's two new open-source AI model releases that I briefly mentioned in my long post. They are again pushing the state of the art!
Small 3 by Mistral (Paris, France) is your top-level mid-sized model for fast-inference under Apache 2 licence. A 24B model made to run fast while keeping good performances (about GPT-4 level of performances in a model 70x smaller, generally about the perf/latency of today's GPT-4o-mini):
Check it out at https://huggingface.co/mistralai/Mistral-Small-24B-Instruct-2501
And read the blog post at https://mistral.ai/news/mistral-small-3/
Tülu 3 by AllenAI (Seattle, US) is your new very large open-source frontier model. With 405B parameters you won't run it everywhere for sure but according to the benchmarks of the AllenAI team it seems to outperform the base model being DeepSeek that everyone is talking about.
Check it out at https://huggingface.co/allenai/Llama-3.1-Tulu-3-405B
And read the blog post at https://allenai.org/blog/tulu-3-405B
By the way, both are the third versions released by these teams, and with the current base model from DeepSeek also being V3, seems like the whole open-source AI community is well aligned on versioning for some reason.
Now the remaining part for both Small 3 and Tülu 3 will be to fine-tune these models following the DeepSeek recipe and turn them into the reasoning models we're starting to love.
If you want to follow that endeavor, you can, for instance, head to our open-r1 GitHub repo, where we're reproducing the DeepSeek R1 reasoning recipe and extending it to many open-source models and domains.
Exciting times to be alive!
https://www.linkedin.com/posts/thom-wolf_taking-a-moment-to-detail-yesterdays-two-activity-7291061177445470208-XDIS
Ждём открытых reasoning моделей вменяемого размера!
Сегодня немного в другую сторону.
Y combinator выкатил свой список перспективных направлений, который они называют Request for Startups. Причём выкатить они его решили всего через три месяца после предыдущего. Обычно они делают это реже, но слишком много изменений произошло за последние месяцы, особенно в AI.
Интересно почитать и подумать.
Темы на Spring 2025 такие:
Introduction
A Secure AI App Store
Datacenters
Compliance and Audit
DocuSign 2.0
Browser & Computer Automation
AI Personal Staff for Everyone
Devtools for AI Agents
The Future of Software Engineering
AI Commercial Open Source Software (AICOSS)
AI Coding Agents for Hardware-Optimized Code
B2A: Software Where the Customers Will All Be Agents
Vertical AI Agents
Startup Founders with Systems Programming Expertise
Inference AI Infrastructure in the World of Test-Time Compute
Introduction
From the AI breakthroughs of the last few months, a wave of new startup opportunities have been unlocked. We used to publish requests for startups no more than once a year, but we decided to publish this list just 3 months after our last one to help point founders to the idea spaces that have just opened up.
You've probably followed the recent advances which underlie these ideas. With Operator and Computer Use, AI systems can now use computers. Reasoning models like OpenAI's O1/O3 and Deepseek R1 have made it possible to build AI systems that match and even surpass humans. They also require new compute infrastructure. And DeepSeek R1 has shown the world that there is huge untapped potential in low-level optimizations.
These are ideas we think are now worth working on.
https://www.ycombinator.com/rfs
Y combinator выкатил свой список перспективных направлений, который они называют Request for Startups. Причём выкатить они его решили всего через три месяца после предыдущего. Обычно они делают это реже, но слишком много изменений произошло за последние месяцы, особенно в AI.
Интересно почитать и подумать.
Темы на Spring 2025 такие:
Introduction
A Secure AI App Store
Datacenters
Compliance and Audit
DocuSign 2.0
Browser & Computer Automation
AI Personal Staff for Everyone
Devtools for AI Agents
The Future of Software Engineering
AI Commercial Open Source Software (AICOSS)
AI Coding Agents for Hardware-Optimized Code
B2A: Software Where the Customers Will All Be Agents
Vertical AI Agents
Startup Founders with Systems Programming Expertise
Inference AI Infrastructure in the World of Test-Time Compute
Introduction
From the AI breakthroughs of the last few months, a wave of new startup opportunities have been unlocked. We used to publish requests for startups no more than once a year, but we decided to publish this list just 3 months after our last one to help point founders to the idea spaces that have just opened up.
You've probably followed the recent advances which underlie these ideas. With Operator and Computer Use, AI systems can now use computers. Reasoning models like OpenAI's O1/O3 and Deepseek R1 have made it possible to build AI systems that match and even surpass humans. They also require new compute infrastructure. And DeepSeek R1 has shown the world that there is huge untapped potential in low-level optimizations.
These are ideas we think are now worth working on.
https://www.ycombinator.com/rfs
DeepSeek продолжает знатно всех будоражить. Спасибо китайцам, что всех расшевелили!
Дарио Амодеи написал эссе про экспортный контроль:
https://darioamodei.com/on-deepseek-and-export-controls
Но мне там не про экспортный контроль понравилось, а вот это вот:
"In 2020, my team published a paper suggesting that the shift in the curve due to algorithmic progress is ~1.68x/year. That has probably sped up significantly since; it also doesn't take efficiency and hardware into account. I'd guess the number today is maybe ~4x/year."
Оценка алгоритмического прогресса в 4x за год — это очень интересно.
И в целом раздел про динамику ИИ разработки любопытен. Там упоминаются три разные динамики:
1. Scaling laws. Вбухиваешь больше compute, получаешь лучше качество (при прочих равных).
2. Shifting the curve. Те самые алгоритмические улучшения, которые 4x за год.
3. Shifting the paradigm. Изменяем то, что скейлится. В 2020-2023 были предобученные модели, в 2024 появился RL и цепочки рассуждений, теперь скейлят их.
Прямо сейчас в 3-ю динамику вкладывают мало, единицы миллионов, это уже даёт хороший результат, но все работают над тем, чтобы отскейлить этот этап до сотен миллионов и миллиардов.
Ещё из интересных цифр есть стоимость обучения Claude 3.5 Sonnet: "Claude 3.5 Sonnet is a mid-sized model that cost a few $10M's to train (I won't give an exact number)."
А типа с трендом про 4x/год они как раз и ожидали модель уровня 3.5 Sonnet/GPT-4o и дешевле в 3-4 раза примерно сейчас. Ну, предсказывать прошлое легко.
"All of this is to say that DeepSeek-V3 is not a unique breakthrough or something that fundamentally changes the economics of LLM’s; it’s an expected point on an ongoing cost reduction curve. What’s different this time is that the company that was first to demonstrate the expected cost reductions was Chinese."
Основной месседж про DeepSeek в духе, что V3 был реально инновацией, в основном инженерной, "и мы за ними следили!", а R1 типо вообще не инновация. Просто реплицировали o1. А про то, что они сделали это в опенсорсе и без какого-либо опубликованного OpenAI рецепта, молчат. По словам Амодеи, переход от V3 к R1 был простым и дешёвым (важна хорошая базовая модель, здесь это V3), и теперь можно ожидать хорошие модели с ризонингом от разных компаний.
В целом, сквозит в последних сообщениях OpenAI, Антропика и некоторых других относительно DeepSeek какое-то лёгкое обесценивание и попытка оправдаться, что мы не хуже. За Гуглом, к слову, такого пока не заметил.
Основная часть про экспортный контроль уже не очень интересная. Она о том, что DeepSeek глобально ничего не изменил, все и так туда идут, находки DeepSeek будут инкорпорированы в обучение несколько-миллиардо-долларовых моделей, которые получатся получше, чем ожидалось изначально, но всё равно потребуют миллионы GPU. AI умнее большинства людей ожидается в 2026-27 годах. И там вопрос, сумеет ли Китай собрать миллионы чипов — от этого зависит, будет мир униполярным или биполярным. И чтобы хорошие победили плохих, нужны экспортные ограничения.
Такие дела. Mixed feelings от всего эссе.
Дарио Амодеи написал эссе про экспортный контроль:
https://darioamodei.com/on-deepseek-and-export-controls
Но мне там не про экспортный контроль понравилось, а вот это вот:
"In 2020, my team published a paper suggesting that the shift in the curve due to algorithmic progress is ~1.68x/year. That has probably sped up significantly since; it also doesn't take efficiency and hardware into account. I'd guess the number today is maybe ~4x/year."
Оценка алгоритмического прогресса в 4x за год — это очень интересно.
И в целом раздел про динамику ИИ разработки любопытен. Там упоминаются три разные динамики:
1. Scaling laws. Вбухиваешь больше compute, получаешь лучше качество (при прочих равных).
2. Shifting the curve. Те самые алгоритмические улучшения, которые 4x за год.
3. Shifting the paradigm. Изменяем то, что скейлится. В 2020-2023 были предобученные модели, в 2024 появился RL и цепочки рассуждений, теперь скейлят их.
Прямо сейчас в 3-ю динамику вкладывают мало, единицы миллионов, это уже даёт хороший результат, но все работают над тем, чтобы отскейлить этот этап до сотен миллионов и миллиардов.
Ещё из интересных цифр есть стоимость обучения Claude 3.5 Sonnet: "Claude 3.5 Sonnet is a mid-sized model that cost a few $10M's to train (I won't give an exact number)."
А типа с трендом про 4x/год они как раз и ожидали модель уровня 3.5 Sonnet/GPT-4o и дешевле в 3-4 раза примерно сейчас. Ну, предсказывать прошлое легко.
"All of this is to say that DeepSeek-V3 is not a unique breakthrough or something that fundamentally changes the economics of LLM’s; it’s an expected point on an ongoing cost reduction curve. What’s different this time is that the company that was first to demonstrate the expected cost reductions was Chinese."
Основной месседж про DeepSeek в духе, что V3 был реально инновацией, в основном инженерной, "и мы за ними следили!", а R1 типо вообще не инновация. Просто реплицировали o1. А про то, что они сделали это в опенсорсе и без какого-либо опубликованного OpenAI рецепта, молчат. По словам Амодеи, переход от V3 к R1 был простым и дешёвым (важна хорошая базовая модель, здесь это V3), и теперь можно ожидать хорошие модели с ризонингом от разных компаний.
В целом, сквозит в последних сообщениях OpenAI, Антропика и некоторых других относительно DeepSeek какое-то лёгкое обесценивание и попытка оправдаться, что мы не хуже. За Гуглом, к слову, такого пока не заметил.
Основная часть про экспортный контроль уже не очень интересная. Она о том, что DeepSeek глобально ничего не изменил, все и так туда идут, находки DeepSeek будут инкорпорированы в обучение несколько-миллиардо-долларовых моделей, которые получатся получше, чем ожидалось изначально, но всё равно потребуют миллионы GPU. AI умнее большинства людей ожидается в 2026-27 годах. И там вопрос, сумеет ли Китай собрать миллионы чипов — от этого зависит, будет мир униполярным или биполярным. И чтобы хорошие победили плохих, нужны экспортные ограничения.
Такие дела. Mixed feelings от всего эссе.
"Bloomberg has reported that Microsoft is investigating whether data belonging to OpenAI - which it is a major investor in - has been used in an unauthorised way."
https://www.bbc.co.uk/news/articles/c9vm1m8wpr9o.amp
Это даже немного смешно. Чуваки, которые спарсили весь интернет, не заплатив никому из авторов всех этих данных (кроме тех, кто их потом засудил), теперь говорят, что данные спёрли у них.
https://www.bbc.co.uk/news/articles/c9vm1m8wpr9o.amp
Это даже немного смешно. Чуваки, которые спарсили весь интернет, не заплатив никому из авторов всех этих данных (кроме тех, кто их потом засудил), теперь говорят, что данные спёрли у них.
В итоге они собирали такие типы обучающих примеров:
1. Captioning трех видов: brief, detailed, more detailed. Задачи связанные с описанием изображения.
2. Region-text: phrase, brief. Это, например, детекция: найди всех кошек. Phrase будет при этом вариацией когда в качестве промпта подается сложная фраза, а brief когда, условно, "кошка." Сюда относится и обратная задача: опиши объект в данном регионе, коротко или объемно. Это и сегментация, и OCR, и так далее.
3. Text-Phrase-Region: brief, detailed, more detailed. Это в основном про grounding: такая задача, где модели требуется выделить часть из длинного текста и сопоставить эту часть с чем-то на изображении. Например, это может быть параграф текста, в котором модели нужно выделить все сущности и выделить их на изображении.
По части данных CLIP когда-то изменил парадигму в CV: 400 миллионов собранных из интернета пар изображение-подпись оказались гораздо лучше чем 328к качественной разметки MS COCO. Масштаб победил: лучше куча мусора, но зато большая!
Florence-2 кладет всех на лопатки используя всего 126m изображений. Что меньше чем у CLIP (400m), Flamingo (185m) и даже обычного ViT (300m). Но есть важная деталь: в датасете Florence-2 на 128m изображений приходится 5 миллиардов аннотаций. Авторы называют эту парадигму multi-task learning. Вместо того, чтобы собирать огромное количество примеров (задача,изобрадеине), давайте заставим модель решать много разных задач для каждого изображения. Одно и то же изображение получает много лейблов: короткое описание, длинное описание, bbox для сущностей, сегментационные маски, и так далее. Если подумать, это разумно: я ведь не хочу модель, которая для каких-то изображений умеет делать подписи, а для других умеет делать детекцию. Я хочу модель, которая сможет сделать с любым изображением всё, что мне нужно.
Таким образом эффективное количество полезной разметки в этом датасете очень большое. Переобучения под изображения не наступает несмотря на то, что модель видит их много раз. Ведь задачи разные, а решать разные задачи с помощью запоминания сложнее, чем действительно выучить некий алгоритм "понимания" изображений.
В парадигме multi-task learning так же удобно собирать разметку. Как и во многих современных работах, авторы сделали data engine итеративно улучшающий разметку. Процесс простой: берем изображения, делаем для них разметку с помощью специализированных моделей. Возьмем наш любимый OCR, Segment Anything для сегментации, OWL ViT 2 для детекции, и так далее. Таким образом мы получаем шумную синтетику. Далее мы фильтруем её как можно лучше. Обучаем на этой версии датасета Florence-2. С помощью этой версии модели и специалистов генерируем шумную разметку снова, снова фильтруем, обучаем модель и так далее пока не надоест. Всё это возможно благодаря тому, что набор изображений небольшой и фиксированный.
1. Captioning трех видов: brief, detailed, more detailed. Задачи связанные с описанием изображения.
2. Region-text: phrase, brief. Это, например, детекция: найди всех кошек. Phrase будет при этом вариацией когда в качестве промпта подается сложная фраза, а brief когда, условно, "кошка." Сюда относится и обратная задача: опиши объект в данном регионе, коротко или объемно. Это и сегментация, и OCR, и так далее.
3. Text-Phrase-Region: brief, detailed, more detailed. Это в основном про grounding: такая задача, где модели требуется выделить часть из длинного текста и сопоставить эту часть с чем-то на изображении. Например, это может быть параграф текста, в котором модели нужно выделить все сущности и выделить их на изображении.
По части данных CLIP когда-то изменил парадигму в CV: 400 миллионов собранных из интернета пар изображение-подпись оказались гораздо лучше чем 328к качественной разметки MS COCO. Масштаб победил: лучше куча мусора, но зато большая!
Florence-2 кладет всех на лопатки используя всего 126m изображений. Что меньше чем у CLIP (400m), Flamingo (185m) и даже обычного ViT (300m). Но есть важная деталь: в датасете Florence-2 на 128m изображений приходится 5 миллиардов аннотаций. Авторы называют эту парадигму multi-task learning. Вместо того, чтобы собирать огромное количество примеров (задача,изобрадеине), давайте заставим модель решать много разных задач для каждого изображения. Одно и то же изображение получает много лейблов: короткое описание, длинное описание, bbox для сущностей, сегментационные маски, и так далее. Если подумать, это разумно: я ведь не хочу модель, которая для каких-то изображений умеет делать подписи, а для других умеет делать детекцию. Я хочу модель, которая сможет сделать с любым изображением всё, что мне нужно.
Таким образом эффективное количество полезной разметки в этом датасете очень большое. Переобучения под изображения не наступает несмотря на то, что модель видит их много раз. Ведь задачи разные, а решать разные задачи с помощью запоминания сложнее, чем действительно выучить некий алгоритм "понимания" изображений.
В парадигме multi-task learning так же удобно собирать разметку. Как и во многих современных работах, авторы сделали data engine итеративно улучшающий разметку. Процесс простой: берем изображения, делаем для них разметку с помощью специализированных моделей. Возьмем наш любимый OCR, Segment Anything для сегментации, OWL ViT 2 для детекции, и так далее. Таким образом мы получаем шумную синтетику. Далее мы фильтруем её как можно лучше. Обучаем на этой версии датасета Florence-2. С помощью этой версии модели и специалистов генерируем шумную разметку снова, снова фильтруем, обучаем модель и так далее пока не надоест. Всё это возможно благодаря тому, что набор изображений небольшой и фиксированный.
Когда данные готовы остается придумать как обучать модель. Нужно, чтобы модель могла и читать текст, и писать текст, и квадратики с полигонами рисовать. В 2017 Vasvani et. al подарил нам универсальный способ представить и обработать что угодно:
1. Сделаем из входа последовательность токенов.
2. Засунем в трансформер.
Изображение превращается в эмбеддинги патчей по методологии как в Visual Transformer. Текст превращается в эмбеддинги как в любой языковой модели. Здесь всё стандартно. Из необычных инноваций: давайте сделаем специальные токены для координат. Авторы покрыли изображение сеткой и для каждой точки на сетке ввели специальный токен. Например, есть токен для точки (0, 0). Это как бы служебное слово, точно так же как <pad>, <unk> и прочие. Вы можете подавать его на вход модели, можете получать на выход. Готово, ваша модель умеет оперировать координатами в явном виде, а значит может читать и создавать ббоксы и полигоны. Токенизация это одна из главных причин почему LLM на данный момент не умеют делать детекцию: у них нет нормальной репрезентации для локаций на изображении. Авторы решили вопрос максимально просто и элегантно. Теперь любой вход можно представить как последовательность и засунуть в трансформер.
Ладно, мы можем засунуть это в трансформер. Но как же лейблы? Что на выходе? Нам нужно как-то обучать модель делать классификацию, детекцию и сегментацию. Но функции ошибок для каждой из этих задач совершенно разные.
Вот это самая интересная часть статьи. Авторы просто выбрасывают всё, что мы придумали в CV, и заменяют одной функцией ошибки: cross-entropy loss. Они фиксируют, что вход должен быть json и выход должен быть json. Так что модель становится авторегрессионным генератором текста, точно так же как GPT, и просто предсказывает следующий токен. Следующий токен может быть в том числе одним из токенов зарезервированных под координаты. То есть эти ребята взяли и заменили весь наш computer vision на NLP. Одна функция ошибки, чтобы править всеми, и по наши костыли наконец-то пришел bitter lesson.
То есть в плане архитектуры Florence-2 это на самом деле VLM.
1. Сделаем из входа последовательность токенов.
2. Засунем в трансформер.
Изображение превращается в эмбеддинги патчей по методологии как в Visual Transformer. Текст превращается в эмбеддинги как в любой языковой модели. Здесь всё стандартно. Из необычных инноваций: давайте сделаем специальные токены для координат. Авторы покрыли изображение сеткой и для каждой точки на сетке ввели специальный токен. Например, есть токен для точки (0, 0). Это как бы служебное слово, точно так же как <pad>, <unk> и прочие. Вы можете подавать его на вход модели, можете получать на выход. Готово, ваша модель умеет оперировать координатами в явном виде, а значит может читать и создавать ббоксы и полигоны. Токенизация это одна из главных причин почему LLM на данный момент не умеют делать детекцию: у них нет нормальной репрезентации для локаций на изображении. Авторы решили вопрос максимально просто и элегантно. Теперь любой вход можно представить как последовательность и засунуть в трансформер.
Ладно, мы можем засунуть это в трансформер. Но как же лейблы? Что на выходе? Нам нужно как-то обучать модель делать классификацию, детекцию и сегментацию. Но функции ошибок для каждой из этих задач совершенно разные.
Вот это самая интересная часть статьи. Авторы просто выбрасывают всё, что мы придумали в CV, и заменяют одной функцией ошибки: cross-entropy loss. Они фиксируют, что вход должен быть json и выход должен быть json. Так что модель становится авторегрессионным генератором текста, точно так же как GPT, и просто предсказывает следующий токен. Следующий токен может быть в том числе одним из токенов зарезервированных под координаты. То есть эти ребята взяли и заменили весь наш computer vision на NLP. Одна функция ошибки, чтобы править всеми, и по наши костыли наконец-то пришел bitter lesson.
То есть в плане архитектуры Florence-2 это на самом деле VLM.