Latest Posts from Data Secrets (@data_secrets) on Telegram

Data Secrets Telegram Posts  

Data Secrets
Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks

По вопросам сотрудничества: @veron_28

https://telega.in/c/data_secrets

Реестр РКН: clck.ru/3FY3GN
54,592 Subscribers
4,873 Photos
411 Videos
Last Updated 01.03.2025 14:38

Similar Channels

Data Science Jobs
17,466 Subscribers
RnD CV Team
2,588 Subscribers

The latest content shared by Data Secrets on Telegram


В Yandex Cloud Foundation Models теперь можно разворачивать открытые модели легким движением руки

Никаких тебе долгих настроек окружения, мониторинга, масштабирования. Все происходит на готовых серверах, надо просто подобрать себе конфигурации. Из коробки уже можно запустить YandexGPT, LLaMa, Qwen, Mixtral, DeepSeek и др.

К слову, так можно использовать сразу несколько моделей параллельно или комбинировать их.

Но если вы более искушенный потребитель, то в Yandex Cloud AI Studio появилась возможность файнтюнить модельки методом LoRA. Для этого нужно собрать датасет, выбрать модель и… все.

LoRA позволит легко настроить модель для ваших задач или дообучить на определенный домен, и тогда можно будет даже маленькие модели эффективно гонять в проде за совсем небольшие деньги. При этом если датасет небольшой, дообучение займет всего минут 10.

Представьте, какая экономия времени и ресурсов для бизнеса. Экспериментируй и внедряй – не хочу

OpenAI объявили, что через 4.5 часа проведут лайфстрим

Ждем 4.5 часа и встречаем GPT-4.5 (и скрещиваем пальцы, чтобы доступ дали всем)

Четвертый день опенсорса от DeepSeek: библиотека DualPipe

Это инструмент для эффективной параллелизации. Что это значит:

1. Минимизация пайплайн-пузырей. Это, иначе говоря, периоды простоя оборудования, когда какие-то процессоры ничего не считают и просто ждут поступления данных.

В данном случае алгоритм позволяет прямой и обратный проход выполнять одновременно, поэтому этапы передачи перекрываются вычислениями, и обучение значительно ускоряется.

2. Симметричное распределение микробатчей в прямом и обратном проходе, чтобы сбалансировать нагрузку.

3. Хранение меньшего количества активаций. Это происходит как раз за счет симметричности: часть активаций сразу используется для обратного распространения, и их можно вычищать из памяти.

Кстати, один из троих разработчиков библиотеки – Лян Вэньфэн, CEO и основатель DeepSeek. Оказывается, он не просто руководит, но и довольно часто сам пишет код.

github.com/deepseek-ai/DualPipe

Помните, мы рассказывали про диффузионную языковую модель LLaDA?

Так вот подход, кажется, набирает популярность: стартап Inception Labs выпустил «первую большую диффузионную языковую модель коммерческого масштаба»: Mercury Coder.

Если кратко, идея состоит в том, чтобы вместо генерации токенов один за одним генерировать их в произвольном порядке, как бы постепенно расшумляя замаскированную последовательность (подробнее - в нашем разборе LLaDA).

Самое интересное в этом – скорость. Mercury Coder летает в 5-10 раз быстрее, чем LLM текущего поколения. Это примерно 1000 токенов в секунду на обычной H100.

И метрики при этом вполне конкурентноспособные. На Copilot арене Mercury сейчас на втором месте. Это лучше, чем GPT-4o и Gemini 1.5.

Попробовать сетку можно уже сейчас бесплатно: chat.inceptionlabs.ai/

Как прокачаться в DS за 2 дня? Приезжайте на Data Fusion 2025 — самое масштабное событие этой весны в сфере анализа данных и искусственного интеллекта.

Что вас ждет?

🔹 14 треков и 70+ сессий, посвященных передовым разработкам в Data Science и AI
🔹 Кейс-стади по применению DS в различных сферах бизнеса от финтеха и промышленности до медицины.
🔹 250+ экспертов — от известных ученых до лидеров бизнеса

📅 Когда? 16-17 апреля
📍 Где? Москва, технологический кластер «Ломоносов»

Конференция бесплатная. Регистрируйтесь по ссылке — https://data-fusion.ru/


*AIискусственный интеллект
*DS
Data Scienceнаука о методах анализа данных

⚡️ Microsoft выпустили новое поколение семейства Phi

Phi-4-Multimodal и Phi-4-Mini уже лежат в опенсорсе под лицензией MIT и интегрированы в Transformers.

Мультимодальность включает текст, аудио и видео. Ну куче мультимодальных бенчмарков модель превосходит GPT-4o, Gemini-2.0 Flash и 1.5 Pro. Это первая открытая модель такого уровня поднимания речи и OCR.

В привычных математических и кодинговых задачах тоже неплохо: mini с ризонингом соответствует o1-mini и дистилляциям R1.

Внутри 2 адаптера для видео и аудио + лоры для модальностей в основной модели, чтобы не менять ее собственные веса. Обучали в три внушительных этапа:

1. претрейн на тексте + файнтюн на тексте
2. мультимодальный трейн на vision, audio и vision-speech
3. ризонинг трейн на CoT + обучение с подкреплением с DPO

Веса, веса mini

Вышла 12 версия легендарного детектора YOLO

В ней наконец традиционные CNN-модули заменены на гибридные с вниманием. Конкретнее, добавили area attention, которое делит входной тензор на равные сегменты и тем самым снижает квадратичную сложность операций дальнейшей обработки.

Кроме того, схему ELAN заменили на ELAN с остаточными блоками. Так градиенты лучше прикидываются через сеть, и без ущерба для метрик снижается вычислительная сложность.

А если хотите подробнее узнать, что такое ELAN и как вообще работает YOLO, почитайте нашу большую статью «История YOLO». В ней – все о том, что такое детекция, как работала самая первая YOLO, как изменялись следующие, и какие скандалы за этим стояли.

Репозиторий 12 версии (тут статья, код, результаты и пр)

Anthropic рассказали, как несколько их инженеров пол года ради забавы заставляли Claude играть в покемонов

Ранние попытки с Sonnet 3.5 были неудачные (неудивительно, модель же не учили играть в игры). Claude плохо понимал правила и двигался, а однажды даже отправил разработчикам официальный запрос на сброс игры, когда просто случайно застрял в углу.

С Sonnet 3.6 все немного улучшилось, но до хорошего игрока было далековато.

И вот незадолго до релиза в игре испытали Sonnet 3.7. Прогресс оказался невероятный: всего за несколько часов агент победил Брока, а спустя несколько дней – Мисти.

Все благодаря ризонингу: там, где предыдущие модели бесцельно блуждали или застревали в циклах, 3.7 планирует заранее, помнит свои цели, записывает действия и адаптируется, если первоначальные стратегии терпят неудачу. Чем-то похоже на программирование и очень показательно.

Бенчмарки, которые мы заслужили, в общем. Разрабы даже трансляцию на твиче запустили, там можно в онлайне смотреть, как Claude играет

Яндекс релизнул YandexGPT 5 и снова вернулся к выкладке в опенсорс. Модель доступна в двух версиях:

Lite – pretrain-версия на 8B параметров с длиной контекста 32k токенов, опубликована на Hugging Face без финального этапа обучения, этических фильтров и алаймента. Претрейн проходил в два этапа: на первом этапе модель инициализировалась случайными весами и обучалась преимущественно на русскоязычных и англоязычных текстах общим объёмом 15T токенов. На втором этапе, который назвали Powerup, модель обучалась на высококачественных данных объёмом 320B токенов. В своей категории YandexGPT 5 Lite достигает паритета с мировыми SOTA по ряду ключевых бенчмарков для pretrain-моделей, а по многим другим опережает их.

Pro – старшая модель, для которой компания впервые применила метод гибридного обучения, добавив в стандартный цикл базовые настройки открытой модели Qwen. За счёт внедрений удалось сократить затраты на обучение и увеличить его скорость до 20 раз.

Для обучения YandexGPT 5 поколения в компании улучшили обучающий датасет, внедрили методы обучения с подкреплением (DPO и PPO), собственную модификацию LogDPO, которая помогает избежать эффекта «разучивания» – ситуации, когда модель забывает уже выученные знания.

Подробности можно прочитать на Хабре.

Второй день опенсорса от DeepSeek: сегодня целая библиотека для обучения и инференса MoE

MoE – это архитектура, в которой вся сеть делится на части, называемые экспертами. Эксперт представляет собой подсеть, которая обучается обработке определенных видов информации. Когда на вход главной сети приходит запрос, каждый его токен обрабатывается роутером, который решает, какому эксперту (или группе экспертов) этот токен будет передан.

Так вот, бутылочное горлышко MoE – это обмен данными между видеокартами, на которых расположены эксперты (а GPU при этом могут располагаться еще и на разных серверах). Во время прямого прохода нужно быстро обмениваться активациями, а во время обратного – градиентами, и именно тут таятся задержки и проседания в скорости.

У DeepSeek в их DeepEP как раз решается эта проблема: они предлагают целый набор оптимизированных ядер и для обучения, и для инференса MoE. Относительно ванильных реализаций пропускная способность действительно на высоте, при этом поддерживается даже FP8.

Кстати, еще туда прикрутили hook-based overlapping, поэтому передача данных происходит одновременно с вычислениями и при этом ресурсы процессоров не занимаются.

Репозиторий: github.com/deepseek-ai/DeepEP