Сергей Марков: машинное обучение, искусство и шитпостинг @oulenspiegel_channel Channel on Telegram

Сергей Марков: машинное обучение, искусство и шитпостинг

@oulenspiegel_channel


Машинное обучение, искусственный интеллект, искусство, мемасы, всякое личное и странноэ

oulenspiegel_channel (Russian)

Вы когда-нибудь задумывались о том, как машинное обучение сочетается с искусством и шитпостингом? В Telegram-канале под названием 'Сергей Марков: машинное обучение, искусство и шитпостинг' все это и многое другое можно найти на одном месте. Канал предлагает уникальное сочетание контента, включая обсуждения тем машинного обучения и искусственного интеллекта, а также прекрасные произведения искусства, самые смешные мемасы, и многое другое. Он призван объединить всех ценителей инноваций, технологий, и креативности под одной крышей. Если вам интересно следить за развитием мировых технологий и искусства, а также оценить юмор и странности жизни, то этот канал является для вас идеальным местом для общения и обмена мыслями. Присоединяйтесь к 'Сергей Марков: машинное обучение, искусство и шитпостинг' прямо сейчас и окунитесь в удивительный мир интеллектуального развлечения!

Сергей Марков: машинное обучение, искусство и шитпостинг

09 Feb, 16:32


А поделитесь разными расхожими заблуждениями об искусственном интеллекте

Сергей Марков: машинное обучение, искусство и шитпостинг

08 Feb, 17:30


Всё так, всё так

Сергей Марков: машинное обучение, искусство и шитпостинг

07 Feb, 18:33


Пятничный мемотред

Сергей Марков: машинное обучение, искусство и шитпостинг

07 Feb, 08:01


AGI achieved internally

Сергей Марков: машинное обучение, искусство и шитпостинг

06 Feb, 17:46


Монополия на рынке ИИ — В С Ё?

Китайские нейросети DeepSeek и Qwen2.5-Max ворвались в игру, подняв ряд важных вопросов:

0️⃣ Можно ли создать ИИ быстро и дешево?
0️⃣ Как сравнивать ИИ-модели? Какие из них лучше?
0️⃣ Кто победит в технологической гонке: США или Китай?

Об этом и многом другом поговорили с Иваном Тюкиным (профессором Центра ИИ Сколтеха) и Сергеем Марковым (руководителем исследований в проекте GigaChat, Сбер).

Выпуск доступен на всех площадках:

ВКОНТАКТЕ

RUTUBE

YOUTUBE

PODCASTER.FM

ЯНДЕКС МУЗЫКА

Сергей Марков: машинное обучение, искусство и шитпостинг

05 Feb, 12:40


Китайские коллеги ещё покушоть принесли

Представляем Kimi k1.5 — мультимодальную модель уровня [GPT-4]o1

Производительность Sota short-CoT, превосходящая GPT-4o и Claude Sonnet 3.5 на 📐AIME, 📐MATH-500, 💻 LiveCodeBench с большим отрывом (до +550%)
Производительность long-CoT соответствует o1 в нескольких модальностях (👀MathVista, 📐AIME, 💻Codeforces и т. д.)

https://github.com/MoonshotAI/Kimi-k1.5

Предобучение языковой модели с предсказанием следующего токена эффективно для масштабирования вычислений, но ограничено объемом доступных обучающих данных. Масштабирование обучения с подкреплением (RL) открывает новую ось для постоянного совершенствования искусственного интеллекта, обещая, что большие языковые модели (LLM) смогут масштабировать свои наборы обучающих данных, обучаясь исследованию с вознаграждением. Однако предыдущие опубликованные исследования не позволяли достичь конкурентоспособных результатов. В свете этого мы публикуем отчёт об обучении Kimi k1.5, нашей новейшей мультимодальной LLM, обученной с RL, включая описание её RL-методов, рецепты по подготовке мультимодальных данных и оптимизации инфраструктуры. Увеличение длины контекста и улучшенные методы оптимизации политики являются ключевыми компонентами нашего подхода, который основан на упрощенной, эффективной структуре RL без привлечения более сложных методов, такие как поиск по дереву Монте-Карло, оценочные функции и модели процессного вознаграждения. Примечательно, что наша система достигает передовой эффективности рассуждений в различных бенчмарках и модальностях — например, 77,5 на AIME, 96,2 на MATH 500, 94-й процентиль на Codeforces, 74,9 на MathVista — что соответствует o1 OpenAI. Более того, мы представляем эффективные методы long2short, которые используют методы long-CoT для улучшения моделей short-CoT, что позволяет получить передовые результаты в области рассуждений short-CoT — например, 60,8 на AIME, 94,6 на MATH500, 47,3 на LiveCodeBench — превосходя существующие модели short-CoT, такие как GPT-4o и Claude Sonnet 3.5, с большим отрывом (до +550%)

Тут бот, вроде: https://kimi.ai/

Сергей Марков: машинное обучение, искусство и шитпостинг

04 Feb, 12:28


🌸Ежегодный спич AGI Russia 🌸
#nlp #про_nlp #nlp_papers

В четверг буду делать ежегодный (уже традиционный) обзор работ и тенденций, которые прокладываюь наш путь к AGI

На пути к AGI: Обзор работ 2024-2025 года

6 февраля 2025, 18:00 (время московское)

Регистрация:
🟣https://aigents.timepad.ru/event/1412596/

Сергей Марков: машинное обучение, искусство и шитпостинг

04 Feb, 09:55


Научишь искусственный интеллект всему, что умеешь сам? 😵‍💫

Ищем в нашу технологичную команду AI-тренеров, которые помогут нейросетям складывать слова в мощные и грамотные тексты.

Если твои лонгриды разлетаются на цитаты, а AI уже давно стал близким другом — выбирай вакансию и откликайся:

👆 AI-тренер: редактор

👆 AI-тренер: англоязычный редактор-переводчик

👆 Руководитель команды AI-тренеров

Возможно, это тот самый случай, когда пригодится грамота за участие в «Русском медвежонке» 💫

Сергей Марков: машинное обучение, искусство и шитпостинг

01 Feb, 10:59


Шокирующие новости от ИА Панорама: https://panorama.pub/news/glava-deepseek-my-sozdali-nas

Сергей Марков: машинное обучение, искусство и шитпостинг

30 Jan, 09:44


Вышло новое видео на нашем канале !

Большое спасибо за монтаж emptxxsoul !

Сергей Марков: машинное обучение, искусство и шитпостинг

28 Jan, 20:02


Ну, с китайским новым годом!

Alibaba выпустила новую версию своей модели Qwen — Qwen 2.5 Max

— превосходит DeepSeek V3 на бенчмарках: Arena Hard, LiveBench, LiveCodeBench и прочия и прочия
— подход к обучению классический (предобучение на широких данных + SFT + RLHF)
— архитектура MoE

Релиз: https://qwenlm.github.io/blog/qwen2.5-max/
Чат: https://chat.qwenlm.ai (нужно выбрать модель Qwen2.5-Max)
HF: https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo
API: https://alibabacloud.com/help/en/model-studio/getting-started/first-api-call-to-qwen?spm=a2c63.p38356.help-menu-2400256.d_0_1_0.1f6574a72ddbKE
Обсуждение на reddit: https://www.reddit.com/r/singularity/comments/1ic5k67/its_chinese_new_year_qwen_25_max_beats_deepseek/

Сергей Марков: машинное обучение, искусство и шитпостинг

28 Jan, 12:01


А вот скажите, есть ли среди вас кто-то, кто рубит в low-level-ML? Руками под CUDA писать, оптимизировать потоки данных, кэши, вот это всё? Если да, то черкните мне в личку (@oulenspiegel), возможно у меня для вас будет прямо хорошее предложение

Сергей Марков: машинное обучение, искусство и шитпостинг

28 Jan, 10:35


https://vkvideo.ru/video-228552366_456239024

Вышел обещанный подкаст наконец-то :)

Сергей Марков: машинное обучение, искусство и шитпостинг

28 Jan, 10:08


Над поднять просмотры мемасиком.

Сергей Марков: машинное обучение, искусство и шитпостинг

28 Jan, 09:40


Вообще, конечно, история с реакцией рынков на новости о DeepSeek V3 и R1 это пример глупости помноженной на дилетантизм и истеричную природу массового сознания в эпоху кликбейт-экономики

Коротко по тезисам:

1. Нет, DeepSeek не «умнее на голову» всех в моделей. В разных бенчмарках результаты разные, но в среднем GPT-4o и Gemini-2 лучше. Можете посмотреть на ChatBot Arena, например (https://www.reddit.com/r/LocalLLaMA/comments/1i8u9jk/deepseekr1_appears_on_lmsys_arena_leaderboard/). Даже в результатах, опубликованных в статье авторов DeepSeek (https://github.com/deepseek-ai/DeepSeek-V3/blob/main/figures/benchmark.png) можно заметить, что в ряде тестов модель уступает, например, GPT-4o от мая 2024 года, то есть модели, которая в ChatBot Arena сейчас на 16-м месте.

2. Нет, на обучение DeepSeek не ушло 6 млн долларов «в 100 раз меньше, чем на GPT-4». В 6 млн долларов обошёлся финальный запуск обучения опубликованной модели. Тут не учитывались никакие предыдущие эксперименты, ни предыдущие версии модели, ни время людей. Чистый вычислительный бюджет на финальный запуск обучения. Эта сумма +/- такая же, как у моделей того же класса

3. Непонятно, за что пострадала Nvidia :)) Ну так-то, конечно, так им и надо, пускай снижают цены на железо, но учился-то DeepSeek на железках того самого Nvidia. И нет, теперь их не нужно меньше. И вычислительный бюджет на обучение там +/- обычный и на инференс такой большой модели (а это, напомню MoE с 671 млрд параметров, где при генерации токена используется 37 млрд параметров, то есть цена инференса там примерно как у 70B dense-модели) нужно много железа. И, естественно, успех DeepSeek отмасштабируют, вкинув ещё больше железа и сделав модель больше

4. Значит ли это, что модель плохая? Нет, модель очень хорошая. Мы с самого начала следим за коллегами из DeepSeek и с удовольствием использовали некоторые из их идей. Вообще, я бы сказал, что у нас в команде DeepSeek всегда рассматривалась как фаворит среди китайских моделей. DeepSeek лучше подавляющего большинства open-source-моделей, и это очень круто. Искренне рады за китайских коллег и за прогресс в области LLM-строения и машинного обучения в целом

5. В некоторых источниках пишут, что DeepSeek якобы полностью решил проблему «галлюцинаций». Nyet

Я думаю, что паника и шумиха случилась из-за того, что на западе обычно плохо знают про состояние дел в китайском ML, среди многих американских и европейских специалистов наблюдалось немного пренебрежительное и снисходительное отношение к Китаю в области ИИ. Дескать: ну что они там могут сделать, клепают свои низкокачественные плохо воспроизводимые работы, куда им с белым человеком тягаться? Всё это умножилось на антикитайскую риторику властей США, а при Трампе фокус на Китае как на главном противнике усилился. Помните истерическую статью Ашенбреннера? Теперь вот Гари Маркус вопит, требует наказать Цукерберга за Llama, дескать из-за опен-сорса китайцы украли все секреты. Это, конечно, типичный пример того, как валят с больной головы на здоровую. Виноваты в недостаточном прогрессе открытых моделей в США скорее люди типа Маркуса, со своей истерикой про опасности ИИ, запретительными и просто глупыми регуляторными инициативами и пр. «Знает кошка, чьё мясо съела»

Ну а в целом акции отрастут, ресурсы выделят, идеи получат широкое распространение, модели будут становиться лучше, прогресс не остановить (надеюсь)

Пусть расцветают сто цветов, пусть соперничают сто школ © Мао Цзэдун

Сергей Марков: машинное обучение, искусство и шитпостинг

27 Jan, 11:42


Помните Гэри Маркуса, который активно рассуждал о проблеме композициональности: дескать, вот астронавта на лошади современные модельки могут нарисовать, а вот лошадь на астронавте нет (спойлер: лучше модельки это сейчас уже могут). Потом выступал в Сенате США по поводу ИИ-рисков?

Теперь вот требует покарать Цукерберга и Лекуна за опенсорс. Дескать, они продали США и из-за их опенсорса США потеряли лидерские позиции в области генеративного ИИ

Сергей Марков: машинное обучение, искусство и шитпостинг

26 Jan, 08:47


Тем временем подкаст ТехТок возвращается после новогодних праздников :) Завтра выпускаем интервью с Сергеем Марковым про GenAI. Кстати, с момента записи интервью у Сергея уже вышла его книга, так что можно почитать электронную версию и даже заказать печатную: https://markoff.science/#book

Сергей Марков: машинное обучение, искусство и шитпостинг

25 Jan, 14:20


Нечаянно похитил банку энергетика во «Внуково». Автомат банку выдал, а деньги вернул. 300 рэ, между прочим, серьёзная сумма
И в моем сердце застрял навсегда теперь осколок вины...
Куда им теперь эти деньги отправить за их полной ненадобностью для личной совести?..

Сергей Марков: машинное обучение, искусство и шитпостинг

25 Jan, 13:31


🌸Стрим на Рабкоре, 20.00мск🌸

Друзья, на неделе произошло много больших событий:
— Китайский DeepSeek выпустил открытую нейросеть R1, догнавшую но метрикам OpenAI
— OpenAI выпустили агента Operator
— В США натуральный техноолигархат делит ресурсы
— 500 млрд инвестиций на ИИ
— и все заберёт OpenAI?
— Что нас ожидает в 2025 году, будет ли технологическая независимость в опенсорсе?

Обо всем этом сегодня поговорим на Рабкоре в 20.00
Приходите!

🟣Youtube-ссылка будет тут!

Сергей Марков: машинное обучение, искусство и шитпостинг

23 Jan, 16:42


Чародей-январь

Январь - чародей, виртуоз, музыкант,
Он снега играет на струнах
И ночью поёт за окном бриллиант,
Скрываясь в небесных лагунах.

Январь - чародей, виртуоз, дирижёр,
В оркестре зимы он - маэстро,
И песни его - ледяной перебор,
Звучат с ним метели и ветры.

Январь - чародей, виртуоз, музыкант,
Он музыку пишет морозом,
И этот январский его фолиант
Сравнится с великой "Волшебной".

-------
🎵 Создавайте музыку с GigaChat!

Сергей Марков: машинное обучение, искусство и шитпостинг

23 Jan, 16:42


Кстати, теперь при сочинении музыки в гигачате используется специальная стихотворная модель — качество сочиняемых текстов песен заметно улучшилось

Сергей Марков: машинное обучение, искусство и шитпостинг

23 Jan, 07:59


https://youtu.be/9BsA7f7xsJ4?si=Z6OWrLbWYhkuA7HP

Сергей Марков: машинное обучение, искусство и шитпостинг

22 Jan, 19:18


Мемы от ruDALL-E из 2022 года

Сергей Марков: машинное обучение, искусство и шитпостинг

22 Jan, 19:12


@AIMemeArenaBot: LLM'ки соревнуются в сочинении мемов

Сергей Марков: машинное обучение, искусство и шитпостинг

22 Jan, 16:21


(из старого)

Народные поверия о «полезной» и «вредной» еде в среде московского хаймидла.
1. То, что дорого стоит, по определению полезно. То, что стоит дёшево, рассчитано на массового потребителя — бесполезно, а то и вредно.
Чёрная икра — полезно, икра мойвы — вредно.
Киноа — полезно, картошка — вредно.
Ледяная рыба — полезно, минтай — вредно.
Еда из «Urban Cafe», «MØS» — полезно, еда из «Макдональдса» — вредно.
2. Животные жиры вредны, растительные — безвредны (исключение — пальмовое масло, подсолнечное — в группе риска).
Оливковое масло — полезно, сливочное масло, свиное сало — вредно.
3. Красное мясо вредно кроме дорогих стейков.
4. Вся экзотическая еда или еда с выебистыми названиями полезна.
Дефлопе — полезно, ветчина — вредно.
Крутоны — полезно, сухарики — вредно.
Пумперникель с кумкватом — полезно, булка с вареньем — вредно.
5. Вся еда зелёного цвета полезна.
Примеры: паста с песто, руккола, водоросли, зелёные яблоки.
6. Всё, что в перечне ингредиентов указано как E вредно, вещество становится вредным от самого факта того, что приводится его E-обозначение.
Витамин C — полезно, E300 — вредно.
7. Всё, что содержит в названии указание на то, что это какое-либо химическое вещество (название «кислота», окончание на «-ол», «-ат» и т.п.), — вредно.
Витамин C — полезно, аскорбиновая кислота — вредно.
Витамин D3 — полезно, холекальциферол — вредно.
8. Добавление определения к названию компонента пищи снижает степень его вредности.
Соль — вредно (или, как минимум, бесполезно), морская соль — полезно, морская соль мёртвого моря — очень полезно.
9. Приготовленное на пару полезно, жареное — вредно.
10. Невкусное полезно.
Сырое брокколи — полезно (на самом деле комбо, т.к. действует также п.5), свиная отбивная — вредно.
11. Мясо толстых животных вредно (принцип симпатической магии в кулинарии).
Свинина, мясо кур-бройлеров — вредно, перепела — полезно.
12. Еда, которую делают на заводе или в большом хозяйстве — вредна, в фермерском хозяйстве — полезна.
13. Любые пищевые добавки вредны, тем вреднее, чем непонятнее их названия. Еда без добавок полезна. Исключение — добавки с ярко выраженной этнической темой в названии.
Рыба Фугу — полезно, рыба Фугу с солью — менее полезно, рыба Фугу с хлоридом натрия — очень вредно, рыба Фугу с глутаматом натрия — смертельно опасно, рыбу Фугу с адзи-но-мото — очень полезно.
14. Если что-то ручной работы, то это полезнее.
Пельмени — вредно, пельмени ручной лепки — полезно.
Конфеты вредно, конфеты ручной лепки — полезно.
15. Сладкое вредно, особенно сахарозаменители (кроме сахарозаменителей с более «природными» названиями).
Сахар — вредно, цикламат, сахарин — смертельно вредно, фруктоза — полезно, стевия — очень полезно.
16. Большие красивые и крупные фрукты вредны, т.к. несомненно являются ГМО.
Накидайте в комменты ещё правил)

Сергей Марков: машинное обучение, искусство и шитпостинг

22 Jan, 12:40


Маск vs Лекун

Сергей Марков: машинное обучение, искусство и шитпостинг

17 Jan, 17:49


Семейство языковых моделей ДНК GENA-LM наконец-то опубликовали в рецензируемом журнале.

Пока я временно выпала из работы, выкармливая свою двойню, команда добила статью по GENA-LM до публикации. Это был сложный путь. Сразу мы год общались с ревьюерами и редактором Nature Methods, ответив на все вопросы и добавив запрошенные дополнительно задачи. Нас отклонили субъективным решением редактора. И вскоре стало понятно почему: вышла статья с моделью от наших конкурентов, которая так же не отличается от нашей по запрошенным требованиям, но проигрывает нам в ряде задач (да-да, вы все правильно поняли, я обиделась).

Затем работа была отправлена в Nucleic Acids Research. Там получили один положительный отзыв и один реджект с комментарием «the authors put a pin on my suggestion….» (вообще думала, что это хамство, переведя на русский. Но чатгпт говорит, что вполне нейтральная фраза.)
Но! Мы были приятно удивлены, что впервые в нашей практике редактор не просто прислал свое положительное решение, но и написал Вениамину личное письмо с благодарностью за проделанную работу.

Поэтому выводы можно сделать разные, но лучше посмотреть на цифры. С момента публикации первых моделей и размещения статьи на биоархиве:

5️⃣1️⃣ цитирование препринта

3️⃣0️⃣5️⃣0️⃣7️⃣ скачиваний суммарно с Hugging Face

1️⃣ web-сервис для решения нескольких популярных задач GENA-Web

Сергей Марков: машинное обучение, искусство и шитпостинг

17 Jan, 15:59


Лечу в Питер на выходные. Взял бизнес-класс в Utair (не спрашивайте, к этому привела череда нелепых случайностей). Кресла по 3 в ряд, реально для смурфиков. У меня, конечно, изрядный лишний вес, но до сих пор в эконом всегда втискивался. Тут реально сел и хз смогу ли встать обратно: меня капитально зажало бортиками))

Сергей Марков: машинное обучение, искусство и шитпостинг

17 Jan, 11:16


В LLM'ки новую модальность подвезли))

https://arxiv.org/abs/2501.08328

Сергей Марков: машинное обучение, искусство и шитпостинг

17 Jan, 10:51


«Чтобы воочию понаблюдать за игрой (Мариона Тинсли и программы Chinook — прим. С. М.), на матч приехали известные шашисты, в частности гроссмейстер Норман Векслер и мастер Джулс Леопольд. Леопольд играл с программой Сэмюэла в 1957 г. и утверждал, что был первым мастером, сыгравшим в шашки против компьютера, — тогда он выиграл партию без труда. По словам Джулса, доктор Сэмюэл спросил его: «Как вы думаете, компьютер когда-нибудь сможет победить вас?» Джулс ответил: «Нет, никогда». Тинсли рассказал Шефферу, что однажды Джулс позвонил ему посреди ночи. «Марион, — взволнованно сказал он, — знаете ли вы, что Tinsley является анаграммой Yeltsin?» Сказав эти слова, он повесил трубку»

(из моей книжки «Охота на электроовец. Большая книга искусственного интеллекта» — https://marokff.science/#book)

Сергей Марков: машинное обучение, искусство и шитпостинг

17 Jan, 10:28


Внезапно понял, что «Весёлая бурёнка» это отсылка к Виктору Гюго. «La vache qui rit» (дословно «корова, которая смеётся») это шутливая переделка названия исторического романа писателя «Человек, который смеётся» (фр. L'Homme qui rit).
Так что, это произведение, давшее нам не только компрачикосов и гуинпленов (от имени главного героя романа — Гуинплена, Gwynplaine), но ещё и весёлую корову...
А ещё Конрад Фейдт в роли Гуинплена стал прообразом Джокера

Сергей Марков: машинное обучение, искусство и шитпостинг

16 Jan, 12:22


Old but gold

Сергей Марков: машинное обучение, искусство и шитпостинг

16 Jan, 11:15


Мы с подругою в НИИ проектируем...

Сергей Марков: машинное обучение, искусство и шитпостинг

14 Jan, 11:53


А вот смотрите, какие у меня замечательные подарки от авторов книг)

1. Сборник рассказов «За ширмой тысячного ли» (составитель — Сергей Чекмаев) — результат совместной работы писателей-фантастов (Сергей Чекмаев, Николай Калиниченко, Ирина Лазаренко, Антон Первушин, Александр Пелевин, Анастасия Шалункова, Олег Кожин, Чёрный Июль, Саша Тетс, Юрий Бурнусов, Татьяна Глущенко, Таисия Севрюкова, Дарья Зарубина, Алексей Гравицкий, Иван Наумов) и научного сообщества. Фантасты посетили пять научно-технологических центров страны: МГУ, МИСиС, ИЯФ им. Будкера, ОИЯИ и SberDevices, пообщались с исследователями и написали рассказы о будущем.
2. «Сто лет недосказанности. Квантовая механика для всех в 25 эссе» (Алексей Семихатов) — новая книга автора бестселлера «Всё, что движется: Прогулки по беспокойной Вселенной», в которой вы найдёте доступное изложение научной теории, которая дает лучшее возможное описание невидимых и даже непредставимых объектов. Книга объясняет, как устроен квантовый компьютер, почему может работать квантовая телепортация и что такое квантовая теория поля
3. «Матричный анализ и основы алгебры» (Евгений Тыртышников) — в своей новой книге советский и российский математик, профессор, академик РАН, заведующий кафедрой вычислительных технологий и моделирования ВМК МГУ Евгений Евгеньевич Тыртышников не просто рассказывает о важнейших разделах современной математики, но и излагает многие понятия и факты алгебры как факты матричного анализа. Такой подход делает изложение более конкретным и позволяет познакомить читателя с матричным анализом как относительно самостоятельной дисциплиной.
4. «Глобальный атлас регулирования искусственного интеллекта» (главный редактор — Андрей Незнамов) — в книге впервые в мире проведён глубокий сравнительный анализ регуляторного опыта 33 юрисдикций и 17 международных организаций в сфере ИИ. Предложены унифицированные критерии анализа правовых систем разных стран с точки зрения влияния регулирования на развитие технологий. В основу книги положен анализ более 1000 зарубежных нормативных источников
5. «Новый средневековый бестиарий» (Елена Дроздова) — в этой книге собраны сведения о различных животных, встречающиеся в древних и средневековых текстах. Автор книги Елена Дроздова — филолог и художник, исследователь эпохи Средневековья. Все иллюстрации выполнены в стилистике средневековых манускриптов XII–XIV веков
6. «Братья гора» (В. БакS) — сочетание фантастики, детской литературы и приключений. В центре рассказа — два брата, Миша и Илья, живущих в Рыбинске. После таинственного сна Миши их жизнь меняется навсегда. Мистическая гора, которая внезапно появляется в их городке, привлекает их внимание и становится центром невероятных приключений. При создании иллюстраций книги применялась наша нейросетка — Kandinsky

Сергей Марков: машинное обучение, искусство и шитпостинг

12 Jan, 09:29


Яндекс полностью доломал заказ продуктов в «Лавке» в браузерной версии. Причём они по факту признали это, разместив в браузерной версии призыв переходить на мобильное приложение. Не знаю как вам, а мне неудобно уже в моём возрасте разглядывать товары на миллипиздрических картинках в мобильнике.

Но к сути дела. Делаю заказ с ноута, перехожу к оплате, выбираю оплату части заказа баллами (их больше 10 тысяч), открывается окошко для ввода кода из SMS (ну да, для оплаты 25 рублей оставшихся почему-то решили спросить код, ну ладно), иду за мобильником. Возвращаюсь (через минуту примерно): заказ отменён. Вместо окошка ввода кода сообщения о том, что половина товаров из моей корзины якобы раскуплена (ну да, за одну минуту). Открываю мобильное приложение — заказ в статусе «Отменён», но перезаказать можно (товары уже типа вернулись на место), но только с оплатой деньгами — 10 тысяч баллов списалось и не возвращено.

Пишу в поддержку — стандартные отговорки, что баллы могут вернуться через неделю. В ответ на вопрос, почему отменился заказ: якобы я отменил заказ самостоятельно. Ну да, ну да. И в довершение чат с поддержкой виснет. Занавес.

Плохо, конечно, что нет нормальной альтернативы «Лавке», а самому Яндексу на клиентов насрать. Всё, что остаётся — жаловаться в соцсетях (увы, на это им тоже насрать)...

Сергей Марков: машинное обучение, искусство и шитпостинг

11 Jan, 16:53


Там же

Сергей Марков: машинное обучение, искусство и шитпостинг

28 Dec, 18:06


Old but gold

Сергей Марков: машинное обучение, искусство и шитпостинг

28 Dec, 10:37


https://antropogenez.ru/ опубликовал фрагмент из моей книжки. В комментах нашлось уже два человека, которые поняли его так, что человек думает не мозгом, а сетчаткой (BTW, сетчатка это часть мозга). Неужели непонятно из текста, что речь идёт об обработке зрительной информации?

Скрин отсюда: https://vk.com/wall-110924669_917989
Тот же пост в ТГ: https://t.me/antropogenez_ru/19749

Сергей Марков: машинное обучение, искусство и шитпостинг

28 Dec, 06:16


Один из въездов в Konza Technopolis, он же Silicon Savannah

Сергей Марков: машинное обучение, искусство и шитпостинг

26 Dec, 19:42


Пока чатгпт спит, Гигачат бдит!
@gigachat_bot

Сергей Марков: машинное обучение, искусство и шитпостинг

26 Dec, 16:20


GigaChat поможет пережить последнюю длинную рабочую неделю в году

Постигаем искусство отмазок от рабочих задач, когда горят все дедлайны, а хочется, чтобы загорались огоньки на ёлке

😎 Попросить GigaChat придумать, как найти время на стратегическую закупку мандаринов

Сергей Марков: машинное обучение, искусство и шитпостинг

26 Dec, 13:45


💡 Чем GigaChat лучше ChatGPT?

В новом выпуске подкаста «Богатырёва о цифре» мы говорим о том, как российские разработки ИИ задают новые стандарты в мире технологий.

Наш гость — Сергей Марков, управляющий директор, начальник управления экспериментальных систем машинного обучения дивизиона общих сервисов «Салют» Сбера.

📌 В выпуске:
- GigaChat VS ChatGPT;
- Заменит ли ИИ программистов?
- Как международное комьюнити относится к российским разработчикам?
- Почему нейросети ошибаются?
- Как ИИ может облегчить вам работу?

Но это еще не все!
Мы дали задание трем нейросетям — от «Сбера», «Яндекса» и OpenAI — создать изображение Сергея Маркова.

Хотите узнать, какая из них справилась лучше? Тогда подключайтесь к нашему выпуску! 👀

ВКОНТАКТЕ

RUTUBE

YOUTUBE

PODCASTER.FM

ЯНДЕКС МУЗЫКА

Сергей Марков: машинное обучение, искусство и шитпостинг

24 Dec, 14:47


Old but gold

Сергей Марков: машинное обучение, искусство и шитпостинг

23 Dec, 17:21


🌸Подкаст ML Inside🌸

Давайте о хорошем тоже — вышел наш большой разговор с Виктором Кантором на YouTube!
— на кого надо было учиться, чтобы пойти делать LLM
— разница в работе в РФ и на западе
— стартапы и большие компании, особенности работы RnD
— и немного всякого личного
Целых 1.5 часа

🟣Смотреть: https://youtu.be/U_wtmHr5ojk?si=2Hoxmh8P3tAm2fG9

Сергей Марков: машинное обучение, искусство и шитпостинг

23 Dec, 13:52


Против нас dimension curse,
С нами Хинтон и Христос!

Сергей Марков: машинное обучение, искусство и шитпостинг

23 Dec, 12:27


Там где AGI, там напряги

Сергей Марков: машинное обучение, искусство и шитпостинг

13 Dec, 10:33


В 13:50 выступаю на AI Journey. Трансляцию можно глянуть на https://aij.ru

Сергей Марков: машинное обучение, искусство и шитпостинг

13 Dec, 09:56


GigaChat Lite в open-source: https://habr.com/en/companies/sberdevices/articles/865996/

Сергей Марков: машинное обучение, искусство и шитпостинг

13 Dec, 07:56


🥳 Мы выпустили новую линейку моделей Kandinsky 4.0 🥳

Это 4 модели:
👉 Kandinsky 4.0 T2V (text-to-video) — для генерации видеоряда продолжительностью до 12 секунд в разрешении HD (1280×720) с разным соотношением сторон.
👉 Kandinsky 4.0 T2V Flash (быстрый text-to-video) — для генерации видеоряда также продолжительностью до 12 секунд, но в разрешении 480p (720×480); генерация занимает всего 11 секунд (быстрее, чем длительность генерируемого видео!) на 1 H100.
👉 Kandinsky 4.0 I2V (image-to-video) — для «оживления» стартового кадра (то есть генерации видео по стартовому кадру и тексту), полученная с весов Kandinsky 4.0 T2V.
👉 Kandinsky 4.0 V2A (video-to-audio) — для генерации синхронного аудио к видео.

Подробнее про каждую из моделей можно почитать на Хабр или изучить GitHub (есть project page), а попробовать модель Kandinsky 4.0 T2V Flash можно в Spaces 🤗

Пока что доступ к моделям T2V и I2V ограниченный (в рамках инструмента https://fusionbrain.ai/, который даёт его пользователям возможность генерировать полноценные мини-фильмы — со сценарием, полноценным видеорядом и звуковым сопровождением), для широкой аудитории нейросети будут также доступны очень скоро.

Stay tuned!

И аккуратно — во вложении есть видео со звуком :)

@dendi_math_ai

Сергей Марков: машинное обучение, искусство и шитпостинг

11 Dec, 11:27


🤖Подключайтесь к AIJ уже сейчас


Сегодня началась ежегодная AI конференция от Сбера - AI Journey, где лучшие передовые исследователи рассказывают про достижения и тренды в области AI, а мы с коллегами делимся последними достижениями.

👀Подключайтесь к трансляции уже сейчас (регистрация не требуется!).

❗️Spoiler: самые интересные доклады будут 12 и 13 декабря.

@mashkka_ds

#nlp #ai #конференция

Сергей Марков: машинное обучение, искусство и шитпостинг

11 Dec, 10:20


🎧 АйЛетов - Маленькая страна (AI Cover на Н. Королёва)

• Автор

@aiaiai

Сергей Марков: машинное обучение, искусство и шитпостинг

07 Dec, 16:53


Слайды к рассказу о шахматах (и не только)

Сергей Марков: машинное обучение, искусство и шитпостинг

07 Dec, 13:44


А накидайте в комменты смешных анекдотов. Только прямо смешных, а не как на анекдот.ру :) Надо всё-таки доучить LLM-ки хохмить хоть нимношк

Сергей Марков: машинное обучение, искусство и шитпостинг

06 Dec, 11:28


О, что-то новенькое. Раньше Яндекс предлагал сделать себя основным поиском, а теперь просто сам решает за вас: «Яндекс станет основным поиском». Возражения не принимаются. Расслабьтесь и получайте удовольствие

Сергей Марков: машинное обучение, искусство и шитпостинг

05 Dec, 20:32


https://www.youtube.com/watch?v=QXtlygeyXK8

Сергей Марков: машинное обучение, искусство и шитпостинг

05 Dec, 15:56


https://meet.google.com/ikq-xanz-ajf

А вот здесь внезапно через 5 минут я буду рассказывать про компьютерные шахматы и ИИ

Сергей Марков: машинное обучение, искусство и шитпостинг

05 Dec, 15:07


Но есть и хорошие новости

Сергей Марков: машинное обучение, искусство и шитпостинг

05 Dec, 15:07


⚡️Букву «А» со здания аэровокзала саратовского аэропорта снимали для проведения ремонтных работ, вскоре ее вернут на место — РИА Новости

Сергей Марков: машинное обучение, искусство и шитпостинг

05 Dec, 12:32


Подключайтесь к трансляции в YouTube или в VK Bидео 🍿

Сергей Марков: машинное обучение, искусство и шитпостинг

05 Dec, 12:22


https://www.youtube.com/watch?v=AXHQM72vHF4

Сергей Марков: машинное обучение, искусство и шитпостинг

05 Dec, 08:14


А какими поисковиками вы пользуетесь? Я, в основном, гуглом, он уже в целом подстроился под мой профиль, его выдача весьма релевантна + он не особо назойлив в плане рекламы. Единственный минус — в плане русскоязычных источников он иногда хуже Яндекса — кое-что может не знать, поэтому при поиске чего-то редкого и плохонаходимого в рунете без похода в Яндекс не обойтись. Но Яндекс, конечно, выбешивает двумя вещами. Во-первых, рекламой и назойливым желанием стать основным поисковиком, но это ещё ладно. Но иногда он банально не слушается поисковой инструкции. Например, даже если искать «Охота на электроовец» в кавычках, он начинает пихать в поисковую выдачу сайты об охоте и даже, сцуко, курс подготовки снайпера, хотя на этих сайтах совершенно точно нет этой фразы

Сергей Марков: машинное обучение, искусство и шитпостинг

03 Dec, 16:08


Работа кратковременной памяти в деталях

https://22century.ru/biology-and-biotechnology/120552

Сергей Марков: машинное обучение, искусство и шитпостинг

03 Dec, 10:37


Два самых распространённых комментария про книгу:

1) а это пенисы на обложке?
2) за 6 лет же всё устарело!

А может ну его это человечество? Господь ИИ, жги!

Сергей Марков: машинное обучение, искусство и шитпостинг

28 Nov, 15:08


https://habr.com/ru/articles/862150/

Написал на Хабр пост про свою книгу, поддержите лайком, если не сложно)

Сергей Марков: машинное обучение, искусство и шитпостинг

28 Nov, 12:44


в пелене ночного света
у кроватки на краю
лапы белого вельвета
давят голову мою

тихо-тихо ходит Тихон
по сиреневой Луне
помяните меня лихом
и забудьте обо мне

всё пройдёт и всё сотрётся
всё исчезнет без следа
надо мною тихо льётся
Леты чёрная вода

в пелене ночного света
у кроватки на краю
не найдёшь на всё ответа,
баю-баюшки-баю

Сергей Марков: машинное обучение, искусство и шитпостинг

28 Nov, 10:08


https://docs.google.com/spreadsheets/d/1KRN5HfaroFcYhXoaULgRoiz2O6XXCmc4hFf8UO19XW4/

Список полезных ИИ-инструментов. Накидайте в комменты ещё

Сергей Марков: машинное обучение, искусство и шитпостинг

23 Nov, 16:08


https://www.youtube.com/live/bGLoiM8fu9U?si=hyu43iyFpq47SrN2

Сергей Марков: машинное обучение, искусство и шитпостинг

21 Nov, 16:22


Завтра в 19:00 презентация моей книги в «Архэ». Приходите, расскажу разное

📍Вход свободный! Регистрация: https://arhe.msk.ru/?p=144635
📹 Также мы организуем прямую трансляцию лекции. Трансляция пройдет здесь: https://www.youtube.com/c/ЦентрАрхэ
📌 По всем вопросам относительно лекции обращайтесь по почте [email protected]
♦️ Лекция пройдет по адресу: Москва, ст. метро «Павелецкая», ул. Дубининская, д. 20, стр. 1 (Научно-популярная библиотека «Научка»)

Сергей Марков: машинное обучение, искусство и шитпостинг

19 Nov, 12:21


Всем привет! 👋

⚡️ Этой осенью мы выступили на конференции Ai Conf 2024. За два дня конференции мы представили 6 докладов, а также приняли участие в панельной дискуссии о будущем искусственного интеллекта. Записи докладов доступны на YouTube по ссылкам ниже.

Фокусом выступлений были большие языковые модели и мультимодальность:

🎤 Алёна Феногенова рассказала про то, как обратная связь от пользователей помогла улучшить бенчмарк MERA и сделать его новую версию более объективной;
🎤 Доклад Бориса Жесткова посвящён использованию LLM для задач в аудиодомене: для понимания, распознавания и генерации речи;
🎤 Эмиль Шакиров разобрал все этапы работы с визуальными языковыми моделями от выбора архитектуры и сбора данных до запуска экспериментов;
🎤 Дмитрий Антипов рассказал о процессах сбора и разметки огромных корпусов мультимодальных данных в эпоху больших языковых моделей;

Также мы представили 2 доклада в области компьютерного зрения:
🎤 Петр Суровцев поделился опытом создания датасета жестового языка: как мы собирали данные, с какими трудностями столкнулись, и что у нас получилось;
🎤 Елизавета Петрова рассказала про задачу портретной гармонизации: как мы разработали архитектуру для её решения и создали дататсет для портретной гармонизации из открытых источников.

🗣️ Также на конференции Александр Абрамов, автор канала @dealerAI, вместе с коллегами из других компаний обсудили будущее искусственного интеллекта: как LLM меняют рынок труда, как работать с этикой и безопасностью моделей, и что ждёт нас всех в скором будущем в контексте развития AI. Ответы экспертов на эти и другие вопросы прозвучали на панельной дискуссии.

Будем рады вашей обратной связи! 💙
#news

Сергей Марков: машинное обучение, искусство и шитпостинг

19 Nov, 07:44


Сегодня день рождения Юрия Кнорозова, человека, который в 1950-х годах дешифровал письменность майя.

Археолог и майянист Майкл Ко в книге «Разгадка кода майя» пишет, что Кнорозов, работая несколько десятилетий в институте Этнографии, занимал «весьма уютный уголок у окна, в ужасающе тесной комнатушке в конце коридора».

«Для меня работа Кнорозова знаменует триумф человеческого духа: упорный и целеустремленный одиночка-ученый смог исключительно силой своего ума проникнуть во внутренний мир чужого народа, который жил тысячу лет назад, да еще в джунглях на другой стороне земного шара»

Сергей Марков: машинное обучение, искусство и шитпостинг

15 Nov, 10:37


🚀 Опубликовали наш новый препринт: GigaCheck: Detecting LLM-generated Content 📄
Технология та же, что и в продукте, но перенесли на открытые модели и англоязычные тексты.

TL;DR Вынесли вообще всех.

Давайте по деталям.
В статье мы выделяем две подзадачи: определяем, написан ли текст человеком или генеративной моделью (LLM) и находим конкретные AI-интервалы 🤖

🔍 Первая задача — классификация текста — решается с помощью файнтюна LLM модели общего назначения. В исследовании мы использовали высокопроизводительную Mistral-7B, которая превосходит другие модели аналогичного размера во многих задачах.

🔎 Вторая задача — детекция AI-интервалов — решается нами с помощью модели DN-DAB-DETR, адаптированной из области компьютерного зрения. DETR модель обучается на фичах от зафайнтюненной LLM, однако, если данных для обучения LLM на классификацию недостаточно, используем фичи от исходной Mistral-7B-v0.3

Для подтверждения эффективности методов мы провели обширные эксперименты на различных датасетах. На пяти классификационных наборах данных обученные нами модели продемонстрировали SOTA результаты, а также показали высокие метрики в out-of-distribution экспериментах, работая с данными из доменов, отличающихся от встречавшихся в обучении, или от генераторов, не участвующих в создании обучающей выборки. Наша модель также успешно обошла Paraphrasing Attack🛡️

📊 Для оценки DETR детектора мы использовали четыре набора данных: RoFT, RoFT-chatgpt, CoAuthor и TriBERT.
Первые два датасета ориентированы на поиск границы между частями текста, написанными человеком и AI, второй содержит произвольное количество интервалов для каждого текста, третий — один или два интервала.
📝 Для корректного сравнения с другими работами мы переводим наши предсказания из интервального вида к предложениям.
🎉 Во всех экспериментах, включая out-of-domain, предложенный нами подход показал выдающиеся результаты!
До нас ещё никто не применял Detection Transformer для анализа сгенерированного текстового контента.

CV-шники идут в NLP 😎

Мы надеемся, что наш метод вдохновит будущих исследователей! 📈

📖 Статья тут
🌐 Лендинг тут
🤖 Телеграм-бот тут

Сергей Марков: машинное обучение, искусство и шитпостинг

13 Nov, 10:28


Сегодня на https://thetrends.tech

Сергей Марков: машинное обучение, искусство и шитпостинг

12 Nov, 10:24


Запускаем хакатон SafeSpeak2024! 🚀

Хакатон, который мы проводим совместно с МТУСИ, посвящен разработке технологий обнаружения аудио-спуфинга и нацелен на решение актуальных проблем безопасной голосовой аутентификации, а также защиту биометрических систем от атак.

🔷Что вас ждет?
Участникам необходимо разработать легкие и высокопроизводительные модели для обнаружения атак аудио-спуфинга с акцентом на вычислительную эффективность и практическое применение в реальном мире.

🔷Кто может участвовать?
Студенты бакалавриата, магистратуры, специалитета и аспирантуры из технических университетов стран БРИКС и СНГ. Участвовать можно в командах от 1 до 4 человек.

🔷 Призовой фонд
225 тысяч рублей.

🔷Важные даты
Регистрация открыта до 26 ноября, старт хакатона — 22 ноября.

Регистрируйтесь
по ссылке и готовьтесь к старту!

Сергей Марков: машинное обучение, искусство и шитпостинг

11 Nov, 08:11


https://arhe.msk.ru/?p=144635

Лекция в рамках презентации книги «Охота на электроовец: большая книга искусственного интеллекта»
22 ноября (пятница) в 19:00
Лекция пройдет по адресу: Москва, ст. метро «Павелецкая», ул. Дубининская, д. 20, стр. 1 (научно-популярная библиотека «Научка»)

Сергей Марков: машинное обучение, искусство и шитпостинг

09 Nov, 11:57


Сегодня в 16:30 выступаю на Фестивале научных сообществ «ВНауке 2.0». Всё это действо проходит в Москве на ВДНХ (в музее «АТОМ»)

Ссылка для бесплатной регистрации: https://vk.com/app5575136_-218344798

Сергей Марков: машинное обучение, искусство и шитпостинг

08 Nov, 11:05


Сегодня в 19:00 в «Доме кино» в Питере (Караванная, 12)

Пилотный выпуск офлайн-передачи про нейросети и кино «КИНОКОД» даст вам не только уникальную возможность посмотреть генеративные AI-фильмы на большом экране, но и пройдет в виде дискуссии с экспертами по искусственному интеллекту и квантовым вычислениям/ Новости нейросетей, кино, общение и возможность знакомства с цифровыми ИИ-художниками

Мероприятие бесплатное, вход по регистрации.

Регистрация по ссылке: https://dom-kino-b4.timepad.ru/event/3099096/

Сергей Марков: машинное обучение, искусство и шитпостинг

07 Nov, 19:44


Ещё пара бонус-треков)

Сергей Марков: машинное обучение, искусство и шитпостинг

07 Nov, 19:24


А вот вам в честь праздника от SymFormer X :)

Сергей Марков: машинное обучение, искусство и шитпостинг

07 Nov, 18:35


Позавчера в списке TODO было 36 задач. Я два дня упорно трудился, разгребал их, славно поработал, и теперь у меня задач в списке 37

Сергей Марков: машинное обучение, искусство и шитпостинг

07 Nov, 14:57


Угадайте промпт)

Сергей Марков: машинное обучение, искусство и шитпостинг

06 Nov, 11:07


13-14 ноября буду выступать на форуме THE TRENDS

Форум посвящён Blockchain, искусственному интеллекту, крипте и ИТ в целом

На Форуме выступят также:

Davinci Jeremie
Carl Runefelt (The Moon), 
Andres Meneses (Crypto OGs), 
Serge Ajamian (Ordinals)
Danosch Zahedi  (Co-founder Arts DAO)
и другие известные спикеры, а также представители крупных международных компаний.

Форум проходит при поддержке
генерального спонсора JJO

Более 4500 участников, свыше 100 спикеров и лучшие возможности для нетворкинга и партнерств

Ознакомиться с программой и приобрести любые билеты с 30% скидкой можно тут

Сергей Марков: машинное обучение, искусство и шитпостинг

05 Nov, 17:03


Новые модели мира подвезли

Сергей Марков: машинное обучение, искусство и шитпостинг

05 Nov, 11:00


Спасибо Саше Капитанову и @rndcv_team за версию с пояснениями)

Сергей Марков: машинное обучение, искусство и шитпостинг

05 Nov, 10:24


Одного подписчика до 6000 не хватает :)
И в разные коллективные подборки модных ML-каналов меня не зовут — слишком много щитпощу)
По этому поводу будем дальше щитпостить

Вот, например, у меня есть для вас картинка из 1984 года про то, как будет выглядеть экономика после повсеместной автоматизации при помощи LLM

Сергей Марков: машинное обучение, искусство и шитпостинг

02 Nov, 10:31


Релиз GigaChat MAX! (ссылка на Хабр)

Салют! Мы открываем доступ к модели GigaChat MAX. Модель доступна в @gigachat_bot, в веб-версии и через публичное API (в режиме раннего доступа).

- GigaChat MAX занимает 3 место в бенчмарке MERA. Сразу за gpt-4o и Llama-405B.
- GigaChat-Max достигает 92% правильных ответов на GSM-8k, 80% на MMLU и 75% на MMLU-RU.
- По результатам SBS, где учитывается красота ответов, мы выигрываем в 61% случаев у GPT-4 turbo и в 67% случаев у YaGPT-4 Pro.
- В Arena-Hard мы достигаем 51% скора против GPT-4-0314
- В Vkhr Arena-General-RU мы достигаем 90%, в то время как YaGPT-4 Pro достигает 59%.

Чтобы узнать про то, как мы делали модель, переходите на статью в хабре.

Предыдущие посты:
— GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
— GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов

Сергей Марков: машинное обучение, искусство и шитпостинг

31 Oct, 05:30


AGI achieved internally

Сергей Марков: машинное обучение, искусство и шитпостинг

30 Oct, 11:23


А давайте поможем ребятам с llmarena в оценке моделек. Вы там можете задавать вопросы моделям (в слепую) и выбирать лучшие ответы

Сергей Марков: машинное обучение, искусство и шитпостинг

30 Oct, 11:23


А раз метрики важны, ребзя давайте навалимся на https://llmarena.ru/ и сделаем оценки по интервалам надежнее

Сергей Марков: машинное обучение, искусство и шитпостинг

25 Oct, 09:04


Вышла наша новая статья на Хабре про задачу понимания видео LLM-ками

https://habr.com/ru/companies/sberdevices/articles/852668/

Сергей Марков: машинное обучение, искусство и шитпостинг

25 Oct, 08:39


Old but gold

Сергей Марков: машинное обучение, искусство и шитпостинг

24 Oct, 08:02


Говорят, нас ждёт римейк «Звёздных врат»

Сергей Марков: машинное обучение, искусство и шитпостинг

23 Oct, 12:40


Не знаю, как у вас, а у меня эти дельфинчики ассоциируются с Хуаном Посадасом. Вы про него, скорее всего, ничего не знаете, это не для всех. И вообще не стоит вскрывать эту тему. Вы молодые, шутливые, вам все легко. Это не то. Это не Чикатило и даже не архивы спецслужб. Сюда лучше не лезть. Серьезно, любой из вас будет жалеть. Лучше закройте тему и забудьте, что тут писалось. Я вполне понимаю, что данным сообщением вызову дополнительный интерес, но хочу сразу предостеречь пытливых — стоп. Остальных просто не найдут.

Сергей Марков: машинное обучение, искусство и шитпостинг

23 Oct, 10:21


🔥 CV-технологии на международных конференциях!

Наши команды разрабатывают и внедряют самые разные технологии в современные продукты. Недавно прошли две крупные конференции ICTWeek и GITEX, где мы представили наши разработки и рассказали инженерам и бизнесменам из разных международных компаний о своих достижениях.

💻 Известный вам тренажер по распознаванию жестовых языков. В команде RnD CV под руководством @karinakvanchiani собрали самый большой открытый датасет РЖЯ, обучили SotA 🌿 модели по распознаванию русского и американского жестовых языков, и создали полноценный тренажер для изучения жестовой речи!

🖼 Команда RnD OrBB (да-да, в честь персонажа из Quake) @balievdmitri работала над задачей портретной сегментации и внедрила технологии замена фона и бьютификации в сервис видео-конференций SberJazz. Модели работают в режиме реального времени 🚀 и не требуют огромных вычислительных ресурсов. А для задачи сегментации и фейс парсинга мы выложили в открытый доступ EasyPortrait.

👁 Команда Layer CV под руководством @wild_chlamydia_work представила технологии определения пола и возраста, основанные на state-of-the-art 🌿 подходах MiVOLO. Данные и модели также доступны в опенсорс!

Сергей Марков: машинное обучение, искусство и шитпостинг

22 Oct, 09:50


Вышел второй тираж моего двухтомника «Охота на электроовец: большая книга искусственного интеллекта»

На этот раз тираж достаточно большой, поэтому цену удалось снизить до 4990 руб. Изменений по сравнению с первым тиражом практически нет — исправлено несколько опечаток + обложка второго тома чуть-чуть более тёмного цвета. Бумага всё та же — 100 г/м², так что примерно 1500 р. за килограмм книжного мяса

Купить можно тут: https://22century.ru/commerce/120012

Напоминаю, что электронная версия книги при этом доступна совершенно бесплатно здесь: https://markoff.science/

Сергей Марков: машинное обучение, искусство и шитпостинг

21 Oct, 16:07


А напишите мне что-нибудь хорошее, пожалуйста, если силы есть под конец дня...

Сергей Марков: машинное обучение, искусство и шитпостинг

20 Oct, 10:02


🌸 [ДАННЫЕ УДАЛЕНЫ] 🌸
Будущее корпусов, знаний и нас с вами в условиях лицензионной войны
#nlp #про_nlp

Наконец-то хорошие новости на конец недели:
Флибуста, самая большая русскоязычная торрент-библиотека, продолжит работу!

Создатель ресурса заявил, что сервера оплачены ещё на какое-то время.

🟣Что это значит для нас?

Большая часть знания, профессиональной и художественной литературы продолжат быть доступны в открытом доступе, для человеческого и машинного чтения.

Важность таких ресурсов трудно переоценить: это фундаментальная воспроизводимость и проверяемость ссылок в интернете упирается в доступность источников, которые часто не доступны более нигде.

По расчётам 2019 года, только 10% всех печатных изданий с ISBn на текущий момент надежно оцифрованы и имеют несколько резервных копий.

🟣Internet Archive: на контрасте

Интернет-архив Archive.org проиграл судебный процесс и апелляцию. OpenLibrary может перестать существовать, и в результате иска издателей 500.000 книг должны быть изъяты из доступа, а Архиву интернета вероятно нужно будет заплатить штраф более 400 млн долларов издателям.

Добивкой послужила и недавняя хакерская атака на ресурс, не известно, связанная ли, но в результате the Way back machine был недоступен почти неделю.

🟣Критическое окно возможности для открытого знания и открытых данных

Самые ценные данные в интернете — это вовсе не средний информационный шум, а ресурсы с высокой плотностью информации. Более конкретно, наиболее ценные данные для корпуса, это:
— Научные статьи, журналы, доклады
— Данные естественных наук, последовательности ДНК, химические формулы, и тд
— Нонфикшн, документы и профессиональная литература
— Код к научным статьям, опенсорс проекты
— Исследовательские данные, данные и код к статистиическим, экономическим исследованиям, внутренние и открытые доклады
— Форумы с научными, профессиональными дискуссиями
— Инструкции, научные регулярные издания, газеты
— Записи публичных выступлений, докладов, подкасты, документальные фильмы
— Открытые государстыенные данные и утекшие корпоративные документы
— Художественная литература
— Обзоры, описания, метаданные к различным данным
— Стенограммы судов, судебные решения
— Карты, географические данные
— Развлекательный контент

Суммарно все это хранится не только в атакуемом архиве интернета, но и индексах поисковиков (частные компании) и теневых библиотеках (некоммерческих организациях).
Хотя теневыми их млдно назвать разве что потому, что занимающиеся ими активисты обычно вытоленуты как минимум в серую зону относительно драконовского копирайтного законодательства и маргинализированы. Хотя вообще-то им можно ставить памятник.

Архив Анны занимает примерно 900Тб, и столько же все его резервные копии. Если включить цену носителей данных, электричество и администрирование, то это 15-40 тысяч долларов в год за 10% от объема знаний человечества, и близко к 100% от всего доступного.

Цены на цифровые носители продолжают падать.
Если расчёта Архива Анны верны, то в течение пары следующих 10 лет цена упадёт до 1-3 тысяч долларов за резервную копию. В целом, все ещё много, но гораздо большее число людей сможет позволить себе поддерживать инициативу.

Поскольку цена порога вхождения падает, уже через пару лет уже гораздо большая доля всех доступных книг будет иметь больше чем 1 резервную копию! Битва идёт лишь с обратным трендом и давлением копирайтеров, чтобы зачистить интернет-библиотеки до наступления этого момента.
Суд над интернет-архивом это наглядно показывает.

🟣А ты записался добровольцем?

Я напоминаю, что ресурсы из OpenLibrary все ещё непублично доступны через Архив Анны.

🌸 Можно стать сидером уже существующих торрентов
🌸 Можно стать хостером теневой библиотеки самому
🌸 Флибусте, Интернет-Архиву и Архиву Анны можно задонатить!
Перераспределяя немного своих шекелей тем, кто работает на благо цивилизации бесплатно и рискует, вы приближаете победу открытого доступного знания.

Сергей Марков: машинное обучение, искусство и шитпостинг

18 Oct, 10:48


Прилетел в Ставрополь

Сергей Марков: машинное обучение, искусство и шитпостинг

17 Oct, 10:22


Сегодня наша статья "Bukva: алфавит русского жестового языка" от команды R&D CV попала в топ-5 лучших статей на Хабре за сутки!

Если еще не видели — приятного прочтения!

📖 Статья на Arxiv 💻 Код

Сергей Марков: машинное обучение, искусство и шитпостинг

16 Oct, 15:47


Вышла новая серия проекта «За ширмой тысячного ли: это вам не фантастика!», который мы придумали с одной простой целью — объяснить сложные научные технологии и разработки так, чтобы они стали понятными и интересными для каждого.

Современная наука стремительно развивается, но для многих обывателей она остаётся чем-то далёким и непостижимым. Вот тут-то и нужна фантастика, как инструмент, способный «перевести» язык науки в увлекательные истории, которые захватывают дух.

В этой серии мы с писателями-фантастами Николаем Калиниченко, Ириной Лазаренко и Анастасией Шалунковой отправились в сердце ИТ-разработок России – в Сбер.

Мы встретились с людьми, которые каждый день создают и обучают нейросети и искусственный интеллект. Да-да, товарищи, речь идёт не только о привычных чат-ботах или голосовых помощниках — это лишь вершина айсберга! А что, если однажды ИИ сможет заменить нас, или, как в фантастических романах, обрести сознание?

Увидели, пообщались с нейросетью и живыми людьми, вдохновились и написали рассказы. Приглашаю к просмотру и прочтению!

А послушать можно на Яндексе: https://music.yandex.ru/album/27479854/track/132128920
Сборник рассказов ищите на Литмаркете: https://litmarket.ru/books/za-shirmoy-tysyachnogo-li-eto-vam-ne-fantastika
Первая серия про мирный атом и полезную радиацию: https://vk.com/wall-157335818_760873

Ищите серию на ресурсах:
YouTube - https://youtu.be/Z4WLcxK_ja0
RuTube - https://rutube.ru/video/private/de9c5131fa6e88b9dfda88bd8d20a855/?p=hPetnncGHTgASnj8RvptLw
ВКонтакте - https://vk.com/video-157335818_456246218
Телеграм - https://t.me/klimzhukoff/4296

Благодарим SberDevices за гостеприимство, увлекательные беседы и содействие в организации съемок!

Сергей Марков: машинное обучение, искусство и шитпостинг

16 Oct, 08:46


26 октября — One day offer для ML-щиков в GigaCode — нашей команде, занимающейся моделями для кода

Всего за один день вы сможете пройти все этапы отбора, познакомиться с командой GigaCode и получить оффер

Мы создаем AI ассистента разработчика — GigaCode. Наши модели уже сейчас помогают писать ежедневно почти 100 000 строк кода

Решаем задачи по различным подходам в NLP и PLP, занимаемся исследованиями и обучаем новые SOTA LLM

В работе используем: NLP, DL, ML, Python, PyTorch, Transformers, FSDP, DeepSpeed

Чем предстоит заниматься?
реализовывать дизайн экспериментов, формулировать гипотезы для улучшения NLP/PLP моделей и алгоритмов, планировать исследовательские эксперименты с выводами
проводить эксперименты, писать код, подготавливать датасеты и бенчмарки, проводить замеры и анализ результатов
обучать модели на кластере, включая обучение моделей с нуля и дообучение open-source-моделей

Если вам интересна эта область и вы хотите развивать в ней свою карьеру, регистрируйтесь на One Day Offer. Будем делать важнейшие исследования вместе)

https://developers.sber.ru/kak-v-sbere/one-day-offer/nlp_data_october

Сергей Марков: машинное обучение, искусство и шитпостинг

14 Oct, 10:46


Беседа с ТрВ про небелевку

Сергей Марков: машинное обучение, искусство и шитпостинг

14 Oct, 10:46


Youtube https://youtu.be/lZc8s_ZeScs?si=o1EwlmKY8WFTZx_P
Rutube https://rutube.ru/channel/36379070/
VK Video https://vk.com/video/@trvscience

Сергей Марков: машинное обучение, искусство и шитпостинг

13 Oct, 14:05


https://vk.com/video-41184973_456239899

Записи выступлений тут (пока не порезано на отдельные лекции, но вы там покрутите бегунок, я там после Анохина и перед Семихатовым)

Сергей Марков: машинное обучение, искусство и шитпостинг

13 Oct, 13:59


Слайды к сегодняшнему выступлению на фестивале "Наука 0+"

Сергей Марков: машинное обучение, искусство и шитпостинг

10 Oct, 08:40


👁 Как научить LLM понимать видео?

⚡️ Быстрое развитие Vision LLM (VLLM) в 2023–2024 годах дало возможность значительно приблизить понимание видео нейросетями к тому, как это делает человек. VLLM способны давать ответы на самые разнообразные вопросы по видео на естественном языке. При этом, инструктивное обучение позволяет научить одну модель решать множество задач понимания видео, а большой объем знаний LLM и понимание разнообразного контекста позволяют VLLM анализировать содержание видео и делать сложные выводы.

📹 В статье разберем следующие решения: Flamingo, VideoChat, Video-ChatGPT, Valley, эволюцию семейства LLaVA, LITA и Video-SALMONN (объединяющую визуальный домен и модальность звука).

📄 Читайте обзор подходов в статье на хабр, которую написала Ярославцева Марина @anylit , лид направления видео в мультимодальности из команды RnD XR.

Сергей Марков: машинное обучение, искусство и шитпостинг

09 Oct, 19:35


Больше мемов про Нобеля седня не будет...

Наверное

Сергей Марков: машинное обучение, искусство и шитпостинг

09 Oct, 18:31


Дед не подкачал

https://x.com/SchmidhuberAI/status/1844022724328394780

Сергей Марков: машинное обучение, искусство и шитпостинг

09 Oct, 12:11


Вчера датацентры бомбили, бомбили... Сама вздрогнул и посмотрел на Шмидхубера. Глаза у того напоминали два черных дула, направленных на Юдковского в упор.

Сергей Марков: машинное обучение, искусство и шитпостинг

09 Oct, 12:07


1-ая Государственная пожарная академия им. Императора Клавдия Цезаря Августа Германика Нерона