Mashkka про Data Science @mashkka_ds Channel on Telegram

Mashkka про Data Science

@mashkka_ds


Пишу здесь про Data Science, NLP и жизнь в ИТ

Mashkka про Data Science (Russian)

Вы любите науку о данных? Интересуетесь искусственным интеллектом и обработкой естественного языка? Тогда канал Mashkka про Data Science идеально подойдет для вас! Здесь вы найдете увлекательные статьи и обсуждения на тему Data Science, NLP и жизни в IT

Mashkka_ds — это не просто канал, это целое сообщество людей, увлеченных расширением своих знаний в области науки о данных. Здесь вы сможете узнать о последних тенденциях в этой области, поделиться своими идеями и получить обратную связь от единомышленников

Наш канал предлагает не только техническую информацию, но и обсуждения о том, как Data Science влияет на нашу повседневную жизнь. Мы погружаемся в мир больших данных, анализа информации и прогнозирования событий

Присоединяйтесь к нам, чтобы расширить свои знания, обсудить интересные темы и найти новых друзей с аналогичными интересами. Mashkka_ds ждет вас! 📊💻🔍

Mashkka про Data Science

15 Feb, 20:47


Data Science от МарьИванна

Пора субботних съемок продолжается. Сегодня записываем открытый вебинар в OTUS "Data Science- это проще чем кажется" для курса Специализация ML. Потрясающие съёмки, потрясающая атмосфера и моя любимая тема про Data Science, область которую я так люблю.

Завтра в личнорубрике будет топовый #backstage. Не переключайтесь!

#трудовыебудни #backstage #datascience #вебинар #ds #ML #machinelearning

Mashkka про Data Science

14 Feb, 12:58


Когда чувства компилируются без ошибок

Мы сделали валентинки для тех, кто видит красоту в коде, звёздное небо в репозиториях и всегда выбирает оптимальный путь — и в науке, и в жизни. Отправляйте их коллегам, друзьям и просто дорогим людям.

Пусть ваши градиенты сходятся, модели не переобучаются, а сердце остаётся в стабильной конвергенции!

Mashkka про Data Science

14 Feb, 12:58


Я бы добавила еще "я подарю тебе восьмерку самых мощных GPU" =)

Mashkka про Data Science

14 Feb, 11:42


#пятничныемемасы

Mashkka про Data Science

10 Feb, 16:26


🤖Digest полезных материалов по NLP
🌐DeepSeek-R1


1️⃣Пост на Habr DeepSeek-R1 для чайников от @AbstractDL
2️⃣Illustrated DeepSeek-R1 от Jay Almmar
3️⃣Модель DeepSeek-R1 и модель DeepSeek-R1-Zero на 🤗
4️⃣Оригинальная статья статья про DeepSeek-R1
5️⃣Тьюториал по воспроизведению R1
6️⃣Шикарный разбор на YouTube от Yannic
7️⃣Репозиторий Open R1 по воспроизведению модели

BONUS: A Visual Guide to Mixture of Experts (MoE)

👉Материалы про PPO и классический RLHF можно найти тут.

@mashkka_ds

#ml_на_пальцах #полезныематериалы #usefullinks

Mashkka про Data Science

10 Feb, 09:18


🌸Deepdive into LLMs🌸
#nlp #про_nlp

Андрей Карпаты выпустил новое видео!
Хорошая обзорная лекция для начинающих свой путь в языковых моделях:
— основы претренинга, токенизации
— пост-тренинг и RLHF стадия
— примеры GPT2, Llama 3.1, DeepSeek R1
Все коротенечко за 3.5 часа!

🟣Видео: https://youtu.be/7xTGNNLPyMI?si=zSa6jMXJV38wRQ9J

Mashkka про Data Science

09 Feb, 19:36


#justaboutme Backstage со съемок подкаста вместе 🎤

Сегодня в воскресной рубрике заглянем в студию на запись подкаста для канала @kantor_ai.

#justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.

Mashkka про Data Science

09 Feb, 10:33


Продолжаю #mashkka_reading с Кир Булычев "Подземелье Ведьм"

Краткий пересказ:
Будущее. Экспедиция землян-исследователей прилетает на далекую планету Эвур (Эволюционный урод), напоминающую Землю, с неотличимыми от землян аборигенами, находящимися на стадии первобытного общества. Здесь много странностей. Например, млекопитающие соседствуют с невымершими динозаврами, а вождь дикарей, Октин-Хаш, сражается стальным мечом, хотя местной цивилизации железо неизвестно.

После вероломного нападения племени Октин-Хаша на базу землян в живых остаются только инспектор-этнолог Андрей Брюс и лингвист Жан, взятые в плен. Дикари отводят Жана на берег реки, к Святилищу Ведьм, где его забирают таинственные ведьмы в черном одеянии. Андрей же бежит из плена и с помощью девушки-аборигена Белогурочки отправляется спасать друга. Героям предстоит пережить много опасностей, чтобы в конце концов найти разгадку многочисленных тайн, связанных со странностями на планете, и узнать о невероятном эксперименте по объединению различных эпох времени, поставленном некогда высокоразвитыми инопланетянами.

My Humble Opinion:
Начало книги захватывающее и интригующее: мистика: тайны, космос. Благодаря насыщенному сюжету, книгу легко и интересно читать. А вот развязка подкачала: автор натянул струну тайн и интриги и не смог ее на уровне удержать. Получилось слабое объяснение мистической истории, которое кажется простоватым на уровне объема всей книги.

✔️7-я книга за 2025

#mashkka_reading #фантастика #книга

Mashkka про Data Science

08 Feb, 20:52


🎤Cтала героиней любимого подкаста

У @kantor_ai на YouTube канале есть замечательная рубрика подкастов, в которых он берет интервью у экспертов из области DS и ИТ. Обожаю этот подкаст и смотрю каждый выпуск в первых рядах. А недавно он позвал выступить на нем МЕНЯ!

Сегодня записали выпуск, три часа обсуждали генеративный ИИ, большие языковые модели, мой путь в Data Science, учебу на мехмат и в ШАД. А что получится, узнаем, когда выйдет подкаст.

#ml #llm #genai #подкаст #подкастИИ #трудовыебудни

Mashkka про Data Science

07 Feb, 19:46


Монополия на рынке ИИ — В С Ё?

Китайские нейросети DeepSeek и Qwen2.5-Max ворвались в игру, подняв ряд важных вопросов:

0️⃣ Можно ли создать ИИ быстро и дешево?
0️⃣ Как сравнивать ИИ-модели? Какие из них лучше?
0️⃣ Кто победит в технологической гонке: США или Китай?

Об этом и многом другом поговорили с Иваном Тюкиным (профессором Центра ИИ Сколтеха) и Сергеем Марковым (руководителем исследований в проекте GigaChat, Сбер).

Выпуск доступен на всех площадках:

ВКОНТАКТЕ

RUTUBE

YOUTUBE

PODCASTER.FM

ЯНДЕКС МУЗЫКА

Mashkka про Data Science

07 Feb, 07:14


В #пятничныемемасы шедевр, подсмотренный у @dealer_ai

Mashkka про Data Science

06 Feb, 17:23


🫥#paperwatch Agent-as-a-Judge: Evaluate Agents with Agents
В новом выпуске #paperwatch Александр разбираем статью Agent-as-a-Judge, в которой авторы предлагают метод оценки агентов через агентов и фреймворк для него.

👀Запись
📚
Слайды
💭Статья
🤗
Датасет
⚡️
GitHub

@mashkka_ds

#paperwatch #llm #nlp #aiagents

Mashkka про Data Science

06 Feb, 14:59


На пути к AGI: Обзор работ 2024-2025 года

Всего через пару минут начнется Семинар русскоязычного сообщества AGI, на котором @rybolos_channel расскажет про основные тренды в области AGI.

👀Трансляция

Mashkka про Data Science

05 Feb, 14:29


AIRI х Ровесник

В День российской науки 8 февраля проведем 2 раунда научно-фантастических дебатов на тему искусственного интеллекта, роботов и эмоций в баре Ровесник⤵️

1️⃣Кандидат технических наук, директор лаборатории FusionBrain AIRI Андрей Кузнецов VS руководитель группы «Генеративный ИИ для видео» лаборатории FusionBrain AIRI Константин Соболев. Обсудим эмоциональность искусственного интеллекта.

2️⃣ Ведущий научный сотрудник лаборатории когнитивных систем искусственного интеллекта AIRI Дмитрий Юдин VS младший научный сотрудник группы «RL агенты» лаборатории когнитивных систем искусственного интеллекта AIRI Пётр Кудеров. Поговорим про интеллект роботов.

Вход бесплатный, регистрация тут. Увидимся в субботу!

Mashkka про Data Science

04 Feb, 10:33


🐳DeepSeek-R1 на пальцах: простыми словами разбираем страшные формулы из статьи

Как же училась самая нашумевшая модель последних дней? @abstractDL разбирает страшные формулы из тех. репорта простым языком.

TL; DR DeepSeek выпустили 2 reasoning-модели:
R1-Zero — полностью RL без участия человека
R1 с небольшим блоком SFT и многоэтапным обучением для улучшения читаемости и метрик.
Прорыв в том, что Zero убирает человека из обучения («human in the loop»), и модель сама фактически создаёт собственный язык, пусть и малочитабельный, но эффективный для решения задач.

Неужели это путь к RL-обучению reasoning без узкого места в виде человеческого разметки? Похоже, что так, а пока читаем шикарный пост от @abstractDL.

BONUS: Для тех, кому одного поста мало, Illustrated DeepSeek-R1 от Jammar.

@mashkka_ds

#nlp #deepseek #deepseekr1 #genai

Mashkka про Data Science

03 Feb, 20:51


📖Преподавательские истории: одним почти летним февральский днем...

В это почти летнее воскресное утро я еду за город преподавать.

Открыла сезон в Сберунивере лекцией на программе Цифровой Трансформации, где рассказывала про основы нейронных сетей. Аудитория - топы Узбекского банка. Сами понимаете, планка высока. Такие настроены брать максимум и будут задавать вопросы пока все не поймут. Но заинтересованность слушателей и их живой отклик восполняют все мои затраты сполна. Пусть и не на отдых, но от такой поездки у меня точно прилив сил.

#трудовыебудни

Mashkka про Data Science

02 Feb, 20:51


#justaboutme Абхазия становится 55-й страной в моем travel-дневике🇦🇪

Пока я коротала остаток января в Сочи (точнее в Сириусе), успела съездить в Абхазию на денек. Попасть сюда очень просто: от Сириуса до границы 10 минут на машине или 40 пешком, а на границе зимой никого нет, так что пройти ее можно за те же 10 минут (конечно, по внутреннему паспорту РФ).

Посетив 50+ стран, избегать ее дольше я больше не могла. В один теплый январьский субботний день взяла экскурсию и вместе с шикарным гидом пустилась в приключение по легендарным местам.

Оказалось, многое из того, что я слышала про Абхазию (например то, что здесь не работают карты и симки), - страшилки для туристов, не имеющие ничего под собой.

На самом деле:
Здесь ПРИНИМАЮТ Российские карты, просто не везде есть терминал.
Основная валюта в Абхазии - рубль, местные деньги - скорее символ, их не в каждом магазине найдешь.
Здесь работают симки РФ, но с роумингом. Зато все сервисы без ВПН.

А вот стереотипы про абхазское вождение - правда чистой воды. Даже если вы опытный водитель, не садитесь в этой стране за руль, если хотите остаться живым. Да и в целом горские нравы абхазев ощущаются с первых минут. С ними, как говорится, доверяй, но проверяй, и всегда лучше быть начеку.

#justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.

Mashkka про Data Science

02 Feb, 19:25


Исследование Anomalous tokens в DeepSeek v3/r1.

«Аномальные», «сбойные» или «невыговариваемые» токены в LLM — это те, которые вызывают странное поведение или иным образом не ведут себя как обычный текст.

Вепрые это было обнаружено в работе по GPT 2,3. Обнаружение таких токенов помогает понять причины галлюцинаций и сбивчевого поведения, а также потенциально, точечно влиять на устойчивость путем целевого дообучения таких токенов. Что порождает устойчивость и ожидаемое поведение.

Автор выделяет токены довольно просто - при помощи промптинга. В работе исследуются: процесс токены, фрагментарные токены (раскрываются в длинном контексте) , Namee токены и аналоги, non English токены и "специальные" токены и др. Советую прочитать исследование, там итак все доступно описано:

https://outsidetext.substack.com/p/anomalous-tokens-in-deepseek-v3-and


Upd. В комментариях подсказывают статью.

Mashkka про Data Science

01 Feb, 17:35


📖Агент КФ одним залпом - 6-я книга #mashkka_reading за январь

Бью все читательские рекорды и за январь ставлю на полку #mashkka_reading уже шестой book. Вспомнила, что у Кира Булычева есть не только детские книги, но и шикарная фантастика, которую я так люблю.

Действие книги "Агент КФ" разворачивается на планете Пэ-У. Она только недавно вступила в Галактический центр и пока еще сильно отстает: здесь до сих пор существуют кланы и действуют законы кровной мести.

История начинается с загадочной пропажи археолога за минуту до того, как он собирался рассказать про свое невероятное открытие. А дальше действие разворачивается со стремительной быстротой: расследование, покушения, захват звездолета, битва в космосе и неожиданный финал. Все компоненты отличной фантастики на месте, остается просто получать от прочтения кайф.

Радуюсь, что вернула себе привычку к чтению и уже прочитала больше, чем за весь предыдущий год. Ставьте сердечко, если хотите узнать секрет и тогда я так уж и быть расскажу.

#mashkka_reading

Mashkka про Data Science

01 Feb, 09:29


Вы просили про DeepSeek - ситуация вкрай запутана🤔

Полный обзор всего загадочного и странного в этой истории по порядку:

1️⃣Начнем с того, действительно ли DeepSeek R1 лучше ведущих закрытых моделей - нет..

Да, он хорош, но по бенчмаркам на уровне o1 от OpenAI без какого-то превосходства, да и по ощущениям (я пользую и ту и ту) на обычных жизненных задачах модели очень близки.

Но все равно успех DeepSeek удивителен, мы еще забываем про V3, которая ранее превзошла GPT4o и Claude 3.5⭐️⭐️⭐️

А еще DeepSeek лучше всех справилась с “последним экзаменом человечества" - тестом из 3 тыс. вопросов, большинство из которых составлялись учеными⚡️⚡️⚡️

Все модели🤖: Gemini от Google, Claude от Anthropic, Grok от xAI, 4o и o1 от OpenAI и DeepSeek R1, - этот тест провалили, не набрав и 10%, но..

R1 получила 9,4%, а o1 всего 9,1% при том, что R1 не работает с картинками и такие вопросы пропускала

2️⃣В чем же тогда поднявшийся ор?..
DeepSeek ворвалась в лидеры менее, чем за год, а еще ее модели открытые и бесплатные (говорят, халява на R1 до 8го февраля)💸

+ китайцы сделали хитрый ход, забрав полрынка разрабов — API DeepSeek’а на 100% совместимо с библиотеками OpenAI, т.е. для миграции нужно просто удалить платный API от OpenAI и вставить бесплатный от DeepSeek’а🤣🤣🤣

3️⃣Самое большое влияние на этот разгон в стратосферу оказала инфа о том, что обучение R1 в 20 раз дешевле..
Давайте разбираться..

Во-первых, есть мнение, что DeepSeek перенял наработки от Llama после ее мощного рывка в 2024м, когда она вынесла всех по бенчам и сделалась открытой..

Если это так, то тогда с какого момента считать стоимость обучения и что там в ядре на L0 (выложил в комменты уровни обучения моделей)?.. Если там Llama - тогда ясно, почему DeepSeek такая “дешевая”🗡

Во-вторых, мы не знаем как и для чего учили модель..
Учитывая, что превосходство R1 не особо ощущается, может ее и учили на бенчи с арены - у всех “производителей” моделей эта практика стала нормой👍

А еще DeepSeek финансируется китайским хедж-фондом High-Flyer💸, основанным Лян Вэньфэном, а что важно финансистам? Чтобы модель стоила поменьше, а эффект от нее был побольше.. А что значит побольше? Шаг к AGI? Нет, конечно.. Качнуть рынки?.. Возможно🤙

В-третьих, сразу за взлетом R1 всплыл факт😁

Альтман почувствовал неладное - его беза узнала, что связанные с DeepSeek лица выкачивали через API OpenAI данные, обходя ограничения😈 По сути o1 учила R1💳

..OpenAI и Microsoft инициировали расследование, но доказательств никаких нет🔥

Т.е кто-то в OpenAI слил что нужно в DeepSeek, а DeepSeek с самого начала была “заточена” на низложение OpenAI.. Забавное свидетельство в конце поста))))

4️⃣Вернемся к “качнуть рынки” - чем обусловлено крушение рынка и антирекорд NVIDIA: -12% и -400 млрд $ за сутки?..

Да ничем - чем выше хайп в ИИ, тем меньше новости и колебания рынка связаны с реальностью🥳

Рынок среагировал на x20 меньшую стоимость обучения R1, и типа все эти уже трлнные инвестиции в строительство мега-ИИ-кластеров не оправданы😳

Но обучение базовых моделей, думаю, забирает не больше 5% этих огромных мощностей.. Остальное тратится не на инфраструктуру для обучения таких моделей, а на инференс, т.е. вычислительные мощности для запуска тысяч ИИ-агентов для миллиардов людей, добавьте туда мультимодальность (обработка видео, голоса, изображений, логические размышления, растущий контескт и работа с памятью) - потребность во всем этом в эру агентности будет только расти📈

Поэтому, уверен, ребята из фонда, финансирующего DeepSeek, успели закупиться “дешевой” NVIDIA🧠

PS Ну и обещанная бомба)) Когда я писал пост, вспомнил слайд с презентации Microsoft в мае 2024, на котором показана эволюция GPT, где каждое поколение сравнивалось: GPT3 с акулой, GPT4 с касаткой, GPT5 с огромным китом.. (см. картинку☝️)

А теперь гляньте на лого DeepSeek’а))) мать его гребаный КИТ😂😂😂

Все не просто так, и не ждите более в индустрии ИИ честной игры..

PPS пару дней назад вся база запросов пользователей DeepSeek “утекла” в сеть - во всем виноваты хакеры😀

Все свидетельства изложенных фактов в комментах👉))

ЧИТАТЬ D_PEOPLE

Mashkka про Data Science

31 Jan, 07:44


Не смогла удержаться и позаимствовала этот шедевр у
пРаСтитЕ меня

@boris_again

#пятничныемемасы

Mashkka про Data Science

31 Jan, 06:14


Зимняя школа по аналитике и Data Science «IT-сеанс: погружение в мир данных»

📍 Москва
вс, 02 февраль 2025, 10:00 (+0300)


Центр непрерывного образования приглашает на зимнюю школу «IT-сеанс: погружение в мир данных». Вас ждут лекции и мастер-классы от спикеров из таких компаний, как: Яндекс, Т-Банк, Купер, Okko, Авито, Билайн, Банк России, Эйч.

Приглашаем всех, кто хочет разобраться:
зачем переходить в IT
как построить карьеру в аналитике и Data Science
-как Data Science применяется в разных индустриях

Помимо выступлений спикеров, вы сможете:
предоставить свое резюме, получить обратную связь и советы по улучшению
пообщаться с экспертами и понять, как устроены прикладные задачи в индустрии
выиграть памятные призы за участие в дополнительных активностях

Участие бесплатное для всех желающих, требуется регистрация.



Подписывайтесь на новые мероприятия в боте @NetworklyBot

Mashkka про Data Science

29 Jan, 21:02


🐳Правда преподавания в Data Science: за неделю твоя презентация успевает устареть🐳

Сегодня стартовал новый поток курса NLP в Otus. На первом занятии я по традиции рассказываю про NLP, трансформеры и про то, какой у нас актуальный курс.

Отвественный преподаватель, я подготовила слайды еще на прошлых выходных. И вдруг сегодня я понимаю, что за это время они успели устареть, ведь в презентации нет ни слова про DeepSeek.

😂Такая продвинутая модель вышла более 24 часов назад, а вы еще не добавили ее в курс? О какой актуальности вообще может идти речь?

Пришлось срочно добавить DeepSeek-контент и теперь думаю, как включить в саму программу эту модель с учетом, что программа была согласована пару месяцев назад. Но без него студентов точно не оставим - это факт!

🤩А у вас еще есть время решиться и запрыгнуть в последний вагон. Записаться на курс можно тут.

#deepseek #ai #llm #otus #nlp #курсnlp #deepseekr1

Mashkka про Data Science

23 Jan, 20:23


🤩Двойное комбо: NAACL + ICLR

За сутки у нас приняли на крутые конференции сразу две статьи. Одну — на NAACL, в этом году это Альбукерка, США, другую — на ICLR в Сингапур. Слишком много отличных новостей для одного дня

#трудовыебудни

Mashkka про Data Science

23 Jan, 17:29


🎙Мы уже в Матрице? - рассказывает @oulenspiegel_channel

На подкасте Глеба Соломина обсуждает самые животрепещущие вопросы, связанные с ИИ:

Когда ждать общий ИИ?
Представляет ли он угрозу, или опасения излишни?
Есть ли сознание у существующих нейросетей?

Обо всём этом, и гораздо большем, слушаем уже сейчас.

#ии #ai #подкаст

Mashkka про Data Science

23 Jan, 16:17


5⃣Отличница ВШЭ5⃣

Пришли отзывы студентов из ВШЭ с факультета компьютерных, у которых я в прошлом семестре вела занятия по ML. Студенты поставили мне рекордные 4.88 из 5 и написали очень много хороших слов. Для студентов-очников - это невероятно высокая оценки, они - самые беспощадные критики и захейтят чуть только "препАд не праФФФ". Тем приятнее получать от них такие слова. Не зря я выкладывалась, не зря потела, объясняя сложные вещи простым языком, и не зря старалась максимально хорошо и понятно донести основные идеи этого зубодробительного курса.

💡Note: для тех кто не знает, в ВШЭ студенты каждый семестр оценивают свои предметы и дают преподавателям анонимный feedback.

#трудовыебудни #новостисполей

Mashkka про Data Science

23 Jan, 10:09


Приглашаем на следующий #AIRI_Seminars, который пройдет 29 января в 17:00

Кандидат компьютерных наук, руководитель группы «Воплощенные агенты» лаборатории когнитивных систем искусственного интеллекта AIRI Алексей Ковалёв рассмотрит различные трактовки памяти в обучении с подкреплением. Докладчик расскажет про то, какие проблемы возникают в этой области, и как обстоят дела с бенчмарками агентов с памятью.

Оппонентом выступит исполнительный директор, team lead групп manipulation & llm в Центре робототехники Сбера Алексей Постников.

📌Если хотите посетить семинар в очном формате, необходимо пройти регистрацию на сайте. Онлайн-трансляция — в VK Видео и на YouTube.

Mashkka про Data Science

22 Jan, 18:19


🐾По следам вебинара Технологии за современными LLM

На открытом уроке курса NLP рассказываю про технологии и методы, которые стоят за современными LLM (Large Language Models).
Хотите узнать:
- Что делает ChatGPT такой умной?
- Как обучают Claude, Gemini и GigaChat, чтобы они так хорошо писали код?
- Как создаются модели типа GigaChat?
- Чего ждать от LLM в 2025 году?

Про это и многое другое рассказываю на вебинаре.

А если хотите освоить самые продвинутые методы работы с трансформерными моделями, то записывайтесь на курс NLP. Стартуем уже в январе, вас ждет увлекательное погружение в мир LLM!

👀Запись
💭Слайды
📚Подборка открытых уроков курса NLP

🎚 @mashkka_ds

#ml #otus #nlp

Mashkka про Data Science

21 Jan, 12:25


Организаторы международной конференции AI for Science, среди которых нобелевский лауреат Константин Новоселов, приглашают российских ученых принять в ней участие. Ожидается, что на мероприятии выступят представители крупнейших мировых AI-компаний: Google, DeepMind, Microsoft, NVIDIA и др.

Конференция пройдет в Сингапуре с 8 по 11 июля 2025 года. Регистрация уже открыта на сайте.

Просьба распространить эту информацию всему научному сообществу.

Mashkka про Data Science

20 Jan, 20:36


Natural language Processing webinar playlist
💭Подборка вебинаров Otus с курса Natural Language Processing, где мы рассказываем про трансформерные модели и самые последние методы работы с LLM.

Промптинг языковых моделей и ChatGPT продвинутые техники — Мария Тихонова, Ph.D. in Computer Science, руководитель направления R&D в SberDevices (команда AGI NLP), доцент ФКН НИУ ВШЭ
Технологии за современными LLM — Мария Тихонова
Модель BERT - классика современного NLP — Мария Тихонова
RAG - генерация на основе базы знаний —Андрей Коняев, Consultant GenAI Machine Learning Engineering
Как применять подход векторного представления слов в NLP? — Мария Тихонова
Введение в LangChain — Дмитрий Гайнуллин, ML Engineer

А если хотите освоить самые продвинутые методы работы с трансформерными моделями, то записывайтесь на курс NLP. В этом запуске, вас ждет увлекательное погружение в мир LLM. Старт уже в конце января!

🎚 @mashkka_ds
#otuswebinarplaylist #nlp

Mashkka про Data Science

19 Jan, 19:56


#justaboutme проездом из Занзибара в Москву заскочила в Дубай потанцевать🇦🇪

Возвращаясь с Занзибара, залетела в Дубай на денек и даже успела заскочить в танцевальную школу Саши Митрошиной Moova.space на Раггетон (каблуков с собой не было, а так бы сходила на реггетон). Зимний Дубай прекрасен, особенно после удушающей Занзибарской жары или по сравнению с мрачной серой Москвой.

Для любителей Москвы подчеркиваю, Дубай прекрасен именно зимой, летом здесь +50 и невозможно дышать. А Москву, особенно летнюю, я и сама искренне люблю.

#justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.

Mashkka про Data Science

19 Jan, 19:55


to @abstractDL Лично я бы назвала это "Джуном Шредингера" - пока не проконтролируешь, Джун Шредингера одновременно и работает и нет

Mashkka про Data Science

19 Jan, 18:02


ChatGPT меня загазлайтила

Как вы уже видели, у OpenAI появилась возможность отложенных задач. Я решил проверить лимиты дозволенного и попросил ChatGPT уйти играть в шахматы с самим собой, делая только случайные ходы, и не возвращаться с ответом, пока не доиграет. Ну, она и ушла играть в шахматы на... ДВА ДНЯ! При этом я регулярно спрашивал, как там дела, и получал ответ: «Партия ещё идёт». Терпение у меня лопнуло. Я стал в каждом сообщении спрашивать, сколько сейчас фигур осталось в игре, и, о чудо, с каждым моим вопросом их становилось чуть-чуть меньше. За одну минуту игра закончилась. Я получил набор ходов и отрисовал их в артефактах Claude (см. видео).

Какая мораль? Ассистент прокрастинировал два дня и ничего не делал, пока я не заставил показывать промежуточный результат. "Джун" level of AGI has been achieved internally.

Ссылка на диалог

Mashkka про Data Science

18 Jan, 17:29


🔺 Что будет, если замедлить скорость света?

Наткнулся на любопытный игровой проект от MIT. Если ходить и собирать шарики в этой игре, то все сильнее замедляется скорость света и начинает проявляться куча интересных эффектов.

🔸 Эффект Доплера. Движение в сторону источника света вызывает синее смещение, а в противоположную сторону — красное.

🔸 Сдвиг спектра. Инфракрасный и ультрафиолетовый свет могут сдвигаться в видимую область спектра.

🔸 Аберрации. Объекты, находящиеся в направлении движения, кажутся ярче, из-за концентрации света в этом направлении.

🔸 Замедление времени. Движущиеся NPC и другие объекты замедляются в зависимости от вашей скорости.

🔸 Искажение пространства. Окружающее пространство начинает сжиматься в направлении движения. Авторы пишут, что это проявление преобразований Лоренца.

В сумме все это дает не очень комфортную для глаз картинку, так что в реальности предлагаю скорость света не расшатывать.

👉 Попробовать можно тут — A Slower Speed of Light

Mashkka про Data Science

17 Jan, 13:49


🤖LLM Agents Course

Агенты - один из основных трендов 25го года в области AI. Хотите углубиться в эту область подробнее? Тогда открытый курс LLM Agents от Berkeley как раз для вас. На сайте есть записи видео лекций, а записаться на новый весенний поток можно тут.

👀Материалы
🖊
Запись на весенний поток
💻LLM Agents Hackathon

@mashkka_ds

#nlp #aiagents #llm #llmagents

Mashkka про Data Science

17 Jan, 07:42


Даешь free wi-fi
#пятничныемемасы
@mashkka_ds

Mashkka про Data Science

16 Jan, 14:42


Поучительная история о том, как внимально соавторы читают статьи. А в посте @kantor_ai обсуждаем, почему же реально в разоблачающей статье выбрали именно такую формулировку.

Mashkka про Data Science

15 Jan, 21:08


У Google вышла крутая статья про новую архитектуру Titan, которая может победить проблему забывания в трансформерах

Традиционные трансформеры очень прожорливы. Архитектура масштабируется квадратично по мере увеличения длины последовательности. Это приводит к проблеме невозможности увеличения контекстного окна и так называемому забыванию, потому что трансформеры также часто склонны аллоцировать внимание на нерелевантный контекст и, чем он больше, тем больше такая накапливаемая ошибка и степень забывчивости модели.

В Titan же подход к памяти немного иной: помимо краткосрочной памяти attention исследователи добавили в архитектуру долгосрочную память (тут вы, возможно, поймали флешбек на LSTM, и не зря). То есть у нас есть некоторый core – стандартное внимание с ограниченным окном, и модуль, который хранит важную информацию из "далекого прошлого". Чтобы решать, какую информацию запоминать, в нем используется метрика сюрприза (чем "неожиданнее" новые данные для модели, тем важнее их запомнить) + есть коэффициент затухания. Все эффективно параллелится.

При этом в статье показали аж три варианта соединить текущее внимание с долгосрочной памятью:

Memory as Context: долгосрочная память используется как контекст для текущего внимания.
Memory as Gating: здесь прямо максимальный мэтч с LSTM, тот же механизм гейтов
Memory as Layer: самый простой вариант, вся память соединена как слой в сетке

MAC оказался лучше всего по перплексии, а MAL чуть быстрее, но теряет в эффективности. В целом такая архитектура может легким движением руки масштабироваться до контекста в 2+ миллиона токенов, сохраняя стабильную точность (трансформеры начинают обычно фейлить уже после отметки 4096). Очень крутая работа получилась у Google, в общем.

Полный текст статьи здесь

P.S. Очень подробный и понятный разбор архитектуры LSTM от нас можно почитать здесь, а вот тут лежит наша большая статья про другие архитектуры-альтернативы трансформеру

Mashkka про Data Science

14 Jan, 08:02


👀Ирина Хакамада на полке #mashkka_reading

Недавно слушала Хакамаду на одном из подкастов, и мне оказались очень созвучны, идеи и посыл этого интервью. Вдогнку я прочитала сразу 3 книги: Дао жизни, Чиллософия: опыты выхода из безвыходности и В предвкушении себя. Первая книга, где она делится своим жизненным опытом, понравилась особенно, а остальные прочитала скорее потому, что Хакамаду читать интересно и легко, будто слушаешь еще один ее подкаст или мастер-класс.

Безусловно, тот образ, который она создает в своих книгах, очень далек от реально Ирины Хакамады. Но если в книге ты находишь для себя интересные мысли, то какая разница, насколько близко к реальности описан главный герой?

Пересказывать все три книги не буду, просто выпишу те мысли, которые отметила для себя, прибавив к ним что-то из подкаста, с которого все началось.

Заметки на полях:
Ты успешен и счастлив? Успешен (= есть деньги), значит у тебя есть внутренний взрослый, счастлив, значит твой внутренний ребенок живет.
Жить надо в настоящем и тогда не будешь спешить.Только дурак и невротик живет в будущем.
Внутренний ребенок - это всегда счастье.
В приоритете твое счастье
Функция счастья не важна для выживания. Именно поэтому мозг не заточен под него
Люди не понимают разницу между счастьем и успехом
Энергия - самый важный ресурс
Три составляющие счастья: 1) делать то, что тебе в кайф 2) делать так профессионально, чтобы тебе за это платили деньги 3) Выстраивать переговоры такие, чтобы тебе было в кайф, без агрессии, а с целью найти единомышленников
В работе делай все как для себя
Чистим сознание от бытовухи, включая подсознание. Для этого впадаем в детство
В выступлении должна быть одна главная мысль, повторяющаяся в различных вариациях 3 раза: в начале, середине и в конце
Не втягивайтесь в сплетни, иначе станет тошно и точно со всеми перессоритесь
Не учите никого жить
Избавляемся от подозрительности
Партнера лучше знать в лицо, а не только в другие части тела
Вкладывайте деньги в кожу и здоровье, а не в декоративную раскраску
Веселиться и лениться лучше уверенно
Дзен GPS: стремясь к цели ты уходишь от нее. Преграда - это путь, следуй за счастьем
Стремитесь удержать свой вайб любыми средствами
Не зацикливайтесь на конечной цели, фокусируйтесь на отдельных шагах. Каждый следующий старайтесь сделать максимально профессионально
Внутренний взрослый каждого человека обеспечивает внутреннего ребенка, но очень профессионально

Комментировать, делать выводу и обсуждать личность автора не буду, прочитайте лучше сами и найдите ответ.

@mashkka_ds
#mashkka_reading

Mashkka про Data Science

13 Jan, 12:02


НАУЧНЫЙ ПРОРЫВ ГОДА В ИИ

Объявлен старт приема заявок на премию Data Fusion Awards.
В этом году впервые премия будет включать специальную номинацию, посвященную научным прорывам в области искусственного интеллекта. Члены жюри отберут самые значимые научные работы российских ученых в области ИИ, опубликованные в 2024 году — всего определят трех победителей.

Общий призовой фонд конкурса составит 3 000 000 рублей — каждый из номинантов получит 1 000 000 рублей в качестве денежного вознаграждения.

Успеть подать научную статью в журналах и трудах конференций можно до 23 января 2025 года.

Помимо конкурса научных статей, премия будет присуждаться еще в четырёх различных номинациях: «Data Fusion в бизнесе», «Data Fusion в госсекторе», «Технологии Data Fusion» и «Data Fusion в образовании».

Торжественное награждение победителей состоится на конференции Data Fusion в Москве 16-17 апреля 2025 года.

🔝Узнать подробнее про номинацию «Научный прорыв года в ИИ» можно на официальном сайте премии

Mashkka про Data Science

13 Jan, 06:21


#вопрос_подписчика Возможно ли заниматься исследованиями и публиковать статьи без наличия PhD?

Я бы сказала что здесь переставлены посылка и следствие. Для получения Ph. D. НУЖНО писать статьи и заниматься исследованиями. Наличие публикаций - одно из необходимых условий защиты диссертации, но вовсе не достаточное. Иными словами, без публикаций и статей у Вас просто нет права претендовать на получение степени Ph. D. Конкретные требования при этом зависят от Диссовета, но обязательно должны быть высокоуровневые публикации, где вы указаны главным соавтором. Например, для ФКН требования для соискателей можно найти тут.

Отсутствие степени никак не мешает вам заниматься наукой и не создает преград. Примерно как не-Kaggle Master может наравне со всеми участвовать в соревнованиях, также и человек без степени наравне со всеми пишет статьи.

А если вы работаете в исследовательской команде, которая профессионально занимается рисерчем, как, например, мы в AGI NLP, то накопить достаточное количество статей и вопрос получения степени будет зависеть от вашей готовности пройти через бюрократический ад всех формальных процедур.

👉А про то, как степень помогает в карьере, и зачем она нужна, я уже подробно рассказывала тут.

💭#вопрос_подписчикаНЕрегулярная рубрика, в которой я под настроение ВЫБОРОЧНО отвечаю на те вопросы, про которые мне есть что сказать.

Если у вас есть что спросить, то пишите свои вопросы/просьбы строго в комментариях к постам этой рубрики и обязательно помечайте тэгом #вопрос_подписчика. Для самых классных и интересных я по мере сил буду стараться писать в ответ посты.

@mashkka_ds

#трудовыебудни

Mashkka про Data Science

12 Jan, 16:30


#justaboutme ОТЗЫВ о поездке на Занзибар с Fitnesstourestorg🇹🇿

Fitnesstourestorg (Warning! Ссылка на инст, VPN only), с которыми я отмечала Новый Год на Занзибаре, практикуют потрясающий формат эстетических фитнес-туров, совмещающий тренировки и путешествия по самым интересным местам. Хотите подкачать пресс и попу и одновременно получить эстетический экстаз? Тогда смело выбирайте Fitnesstourestorg. Но готовьтесь, что вместо оливье и просмотра Голубого Огонька на Новый Год у вас будет безумная дискотека на океанском пляже с салютом, африканскими танцами и барбекю.

🔘Fitnesstourestorg:
✔️составят уникальную авторскую программу (подобного тура на Занзибар я не видела ни у кого)
✔️выберут самые живописные локации и пляжи, от которых вы получите эстетический экстаз
✔️придумают море активностей, чтобы занять и без того занятой досуг ("Маша, как насчет кайтсерфинга утром первого января?" - ну, разве можно в таком отказать)
✔️подберут отличные комфортные отели, а в Африке уровень отелей важен как никогда
✔️проведут шикарные тренировки (включая мощную тренировку 31 декабря)
✔️будут внимательны во всех мелочах и готовы будут во всем подстраиваться под вас

Ищите веселую компанию для путешествий и намерены брать от поездки максимум, получать эстетический экстаз и регулярно тренироваться? Тогда смело записывайтесь в ряды Fitnesstourestorg и отправляйтесь с ними в самые необычные места!

Бонусом вы получите море впечатлений и сотни классных фотографий!

#justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.

Mashkka про Data Science

11 Jan, 09:06


🧠 Сэм Альтман опубликовал эссе «Reflections», посвящённое итогам последних лет

Основные тезисы:

🟡 В 2022 году OpenAI была тихой исследовательской лабораторией, разрабатывающей «Chat with GPT-3.5» — мы ожидали переломного момента, но запуск #ChatGPT удивил нас масштабом революции

🟡 За год мы выросли с 100 млн до 300 млн пользователей в неделю — мы продолжаем выпускать технологии, которые решают реальные проблемы

🟡 #OpenAI запустили почти 9 лет назад, веря в возможность AGI, несмотря на скептицизм

🟡 Мы уверены, что в 2025 году появятся первые #AGI-агенты, которые изменят экономику

🟡 Следующий шаг — суперинтеллект, способный ускорить открытия и повысить глобальное благосостояние

🟡 Сейчас это звучит как научная фантастика, и даже говорить об этом немного безумно — но мы уже были здесь раньше

🎚 @datafeeling

Mashkka про Data Science

10 Jan, 07:41


#пятничныемемасы

Mashkka про Data Science

09 Jan, 11:00


С наступившим Новым годом, друзья!🎄

Делимся отчётным видео-роликом и ссылками на записи докладов с прошедшей конференции.

1. GigaChain: создание AI-агентов на практике
2. Как научить LLM слышать: GigaAM 🤝 GigaChat Audio
3. Новости команды TTS SberDevices
4. Зрение в GigaChat
5. От теории к практике: построение надежного LLM-сервиса
6. GigaChat.Pretrain
7. GigaChat.Alignment
8. Эмбеддинги на GigaChat
9. Ассистент на LLM

Если ссылки будут не под рукой, записи докладов всегда доступны в вашем личном кабинете JUG Ru Group.

Mashkka про Data Science

06 Jan, 01:49


#justaboutme Ногодние впечатления из летнего Занзибара❄️

Первые впечатления из фитнес-тура в солнечную Танзанию на Занзибар, где я так весело встречала новый год.

#justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.

Mashkka про Data Science

03 Jan, 17:11


#пятничныемемасы

Mashkka про Data Science

31 Dec, 17:02


🎄Вдогонку за итогами года собрала самые яркие моменты путешествий в одном видео

15 стран и еще больше поездок и все это за 366 дней.

А какие страны в этом году были у вас? Делитесь! Рассказы про дальние страны и неверотяные путешествия всегда так вдохноляют меня!

🫐И вам я желаю невероятных путешествий, захватывающих приключений и поездок в новом 2025 году!

#winter #winter2024  #итогигода #итоги2024

Mashkka про Data Science

31 Dec, 14:25


Итоги года за 2024 год

Спасибо вам, мои шикарные подписчики, что были этот год со мной!

UPD: благодаря @complete_ai теперь у меня есть красивая стата!

Mashkka про Data Science

31 Dec, 08:35


Всем привет!

Приглашаем всех на Дата Ëлку 2024 и голосование ODS Awards 2024 🎄

📆 Ëлка пройдёт после праздников — в субботу 18 января
В лучших традициях, вас ждут обзорные итоги года по 12 DS/ML областям 🔥

Более того, будут сразу 2 офлайн площадки куда можно прийти живьем:
💙 В Москве — в гостях у ВК, начало программы в 12:00
💚 В Питере — в гостях у ecom.tech, начало программы в 14:00
И конечно же будет онлайн трансляция с докладами итогов с обеих площадок сразу 🙀
Поторопитесь зарегистрироваться, места на площадках ограничены! Внимательно относитесь к заполнению анкет, все регистрации будут проходить модерацию.

🌟 Открыто голосование ODS Awards 2024 🌟
Это ежегодная премия за вклад в Open Data Science — лучшие треки, видео, статьи, менторы и погонщики гусей 🦾
Как и в предыдущие года, новогодние подарки достанутся и победителям, и тем кто голосовал.
Голосование открыто, итоги мы подведём как раз на Дата Ëлке 🎅

Ждём вас на Дата Ёлке, и ждём ваши голоса в ODS Awards 2024!

TL;DR:
🎄Дата Ёлка ждёт всех 18 января
🎁 Пройдут 2 офлайн Ëлки: в Москве в гостях у ВК и в Питере гостях у ecom.tech
🌟Ждём ваши голоса и номинации ODS Awards 2024

Mashkka про Data Science

30 Dec, 18:41


#justaboutme Улетела в лето на Занзибар🇹🇿
В отпуске дней недели не наблюдаю, так что воскресная рубрика будет в понедельник.

Закончила все дела этого года и улетела на Занзибар встречать Новый год в лете, путешествовать и тренить каждый день (в фитнес-туре нет выходных даже на Новый год). В лично-рубрике первые впечатления с солнечного острова сегодня. Не теряйте меня!

#justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.

#mashkka_africa

Mashkka про Data Science

30 Dec, 07:18


📚 "Ярмарка Тщеславия" - перечитала роман Ульяма Теккерея с полки #mashkka_reading
🖋После перерыва возобновляю рубрику #mashkka_reading, в которой делюсь впечатлениями от прочитанных книг

#mashkka_reading Ярмарку Тщеславия Ульяма Теккереч

В детстве я начинала читать Ярмарку Тщеславия, и тогда мне казалось, что это что-то про высшее общество и самых интеллигентный людей времен Наполеоновский войн. А сегодня я читаю про все эти светские интриги и невольно перекладываю их на современную жизнь. И вдруг с удивлением обнаруживаю, что ничего возвышенного в жизнях этих людей нет, это совсем не про то.

Это про тусовки и вечеринки, "инста-дамочек", тусующих на "патриках" того времени (только, конечно, в Англии) в поисках богатого и титулованного "папика" и ради колечек, брюликов и статуса готовых на все. Это про сплетни и грязные интриги, это на самом деле просто сериал "Беверли Хиллз" того времени на английский манер.

Одна из главных героинь - Ребекка, как раз из этих "куколок". Простая девушка из бедной семьи, всеми силами жаждущая ворваться в вышее общество. Секси красотка с очаровательным личиком и классной фигурой, умеющая профессионально охмурять и ради своей цели, готовая идти по головам. Пока читатель на протяжении следит за тем, как складывается ее жизнь, она творит такое, что мама не горюй. Современным инста-дамочкам остается только нервно потягивать просекко ибо им до Ребекки как до Луны. Ужасно, правда? Но вместе с тем, есть у Бекки какая-то пленительная харизма, и всю книгу так хочется, чтобы в итоге она добилась своего.

Интересно, читая, представлять о тем это современным языком. И да простят меня читающие этот пост за вольное переложение автора на современный лад.

#mashkka_reading

Mashkka про Data Science

29 Dec, 20:31


Travel итоги 2024: 59 перелетов и 15 стран

Наконец нашла все переменные в travel формуле этого года: 15 стран (из них 4 новых)   8 поездок по России  🟰 59 перелетов + 24 дней отпуска из 28.

🔘Теперь давайте перепроверять вместе со мной.

✔️ Январь:
- Отпраздновала Новый год на пляже Вьетнама
- Встретила восход, любуясь на Ангкор-Ват в Камбодже
- Проездом из Азии в Москву, заскочила в Таиланд на массаж
- Сгоняла в Питер одним днем

✔️ Февраль:
- Отдохнула от снега в Сочи
- Погуляла по старому городу Анталии в Турции
- Отправилась в Dубай за витамином D

✔️  Март:
- Съездила в Грузию на неофициальный вариант OpenTalks
- Взяла автограф у Цискаридзе на балете в Сочи

✔️ Апрель:
- Выступила на конференции AINL в Алмате

✔️ Май:
- Погладила оленей в Японии
- Устроила утреннюю пробежку у королевского дворца в Турине
- Сходила в театр в Новосибирске (традиционное майское развлечение)

✔️ Июнь:
- Повесилась на стенд-апе Сабурова в Астане

✔️ Июль:
- Пожила в замке в Беларуси

✔️ Август:
- Провела NLP курс в доме
Кочубея в Царском Селе
- Выступила с двумя докладами на ACL в Таиланде
- Погуляла на свадьбе друзей на Хайнане в Китае
- Приручила драконов в Индонезии пока получала визу США

✔️ Сентябрь:
- Сгоняла в Нью-Йорк на Бродвейский мюзикл
- Возвращась домой, тормознула в Сочи

✔️ Октябрь:
- Отдохнула в spa-отеле в Киргизских горах после выступления на AINL

✔️ Ноябрь:
- Умерла от передоза впечатлений в Китае
- Прямо оттуда телепортировалась в Майами, где ушла в отрыв на EMNLP
- Спаслась от осенней хандры в Сочи

✔️ Декабрь:
- В Розе Хутор встретила первый день зимы
- Покаталась на Tesla в Дубае
- Проводила новый год летом на Занзибаре

Вывод: больше работаю и больше летаю, и все еще надо больше отдыхать...

#winter #winter2024  #итогигода #итоги2024 #christmas #NY #трудовыебудни

Mashkka про Data Science

29 Dec, 07:33


NOT Travel итоги 2024 года

По традиции делюсь travel и не travel итоги года на два поста. Сейчас пишу про свои успехи, а Travel итоги подведу в одном из следующих постов.

Перечислить все достижения невозможно, поэтому отобрала топ из десяти.

My top-10 achievements of 2024:

1️⃣ Стала доцентом ВШЭ
2️⃣ Получила повышение на работе, став руководителем исследовательского направления в команде
3️⃣ Получила автомобильные права
4️⃣ Подняла индекс Хирша до 7
5️⃣ Опубликовала 6 статей и
выступила на 8 международных конференциях, включая ACL (A*)
6️⃣ Получила 3 патента
7️⃣ Набрала 3500+ подписчиков в tg-канале
8️⃣ Провела бесчисленное количество вебинаров, 8 очных сессий в СберУнивере и выступила в 5 Московских ВУЗах
9️⃣ Получила 4 визы, включая визу США на 3 года
🔟 Сняла 3 танцевальных видео

BONUS: путешествовала каждый месяц, посетила 15 стран, из которых 4 новых. Но про это еще будет отдельный пост!

🔼Если сравнивать с прошлым годом, то положительный градиент не меняется и я стремительно и верно двигаюсь вперед.

Теперь жду ответочку! Буду рада, если поделитесь своими достижениями в комментариях к этому посту. Я про успехи других читать люблю!

#итогигода #итоги2024 #трудовыебудни

Mashkka про Data Science

28 Dec, 15:59


🐾По следам вебинара Технологии NLP сегодня

На открытом вебинаре от курса NLP рассказала про основные тренды области NLP и LLM сегодня. Хотите узнать, куда движется развитие LLM и что, скорее всего, нас ждет в 2025 году? Тогда смотрите!

А если хотите освоить самые продвинутые методы работы с трансформерными моделями, то записывайтесь на курс NLP. Стартуем уже в ноябре, вас ждет увлекательное погружение в мир LLM!

👀Запись
💭Слайды

#ml #otus #nlp

Mashkka про Data Science

27 Dec, 14:57


🫥Paper Watch Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts

В новом выпуске #paperwatch рассказываем про эффективность существующих методов детекции AI-сгенерированных текстов и подходы для оценки качества датасетов, содержащий подобные тексты.

👀Запись
💭Статья
📺Слайды

@mashkka_ds

#paperwatch #llm #nlp

Mashkka про Data Science

27 Dec, 06:56


Сегодня в #пятничныемемасы видео шедевр

Mashkka про Data Science

26 Dec, 19:43


💡 Чем GigaChat лучше ChatGPT?

В новом выпуске подкаста «Богатырёва о цифре» мы говорим о том, как российские разработки ИИ задают новые стандарты в мире технологий.

Наш гость — Сергей Марков, управляющий директор, начальник управления экспериментальных систем машинного обучения дивизиона общих сервисов «Салют» Сбера.

📌 В выпуске:
- GigaChat VS ChatGPT;
- Заменит ли ИИ программистов?
- Как международное комьюнити относится к российским разработчикам?
- Почему нейросети ошибаются?
- Как ИИ может облегчить вам работу?

Но это еще не все!
Мы дали задание трем нейросетям — от «Сбера», «Яндекса» и OpenAI — создать изображение Сергея Маркова.

Хотите узнать, какая из них справилась лучше? Тогда подключайтесь к нашему выпуску! 👀

ВКОНТАКТЕ

RUTUBE

YOUTUBE

PODCASTER.FM

ЯНДЕКС МУЗЫКА

Mashkka про Data Science

26 Dec, 14:33


🔥 Сколтех открыл приём заявок на конкурсный отбор в магистратуру!

Отличная новость: теперь можно проходить весь процесс как на английском, так и на русском языках. Учиться и сдавать экзамены на неродном языке бывает сложно, поэтому Сколтех облегчает задачу и даёт возможность выбирать:

🟢Английский язык — всё идёт по привычному сценарию, но плюс к этому вы получаете дополнительные баллы за участие
🟢Русский язык — проходите все этапы отбора на русском, а потом приезжаете в Сколтех на месяц раньше, чтобы подтянуть английский на программе English Bootcamp. Главное условие — ваш уровень языка должен быть не ниже B1, что проверится на финальном этапе

🙂 Решайте сами: хотите получить бонусные баллы и спокойно провести лето или же сначала пройти отбор на своём языке, а затем отправиться на интенсив по английскому? Всё зависит от вас!

Не упустите шанс — начните свой путь в Сколтех уже сегодня!

Mashkka про Data Science

24 Dec, 19:04


🐾По следам вебинара Машинное обучение на службе Data Science

На открытом уроке в Отус рассказала про то, как машинное обучение применяется в Data Science. Так что если вы хотите разобраться, где граница между ML и DS, то смотрите вебинар и узнаете, что границы на самом деле нет.

И если вы только начинаете ваш путь в ML и Data Science, но решили погрузиться в него по полной, то приходите на специализацию ML. Старт нового потока уже в январе! Буду ждать!

👀Запись
Слайды
💭Практика

👩‍🏫
Курc (специализация ML)

Mashkka про Data Science

23 Dec, 19:23


🫥Paper Watch: Оценка сложности датасетов и бенчмарков

В новом выпуске #paperwatch Сергей Кудряшев разбирает основные подходы для оценки сложности датасетов и бенчмарков. Также обсуждает области применения этих оценок и их связь с задачей непрерывного обучения.

👀Запись
💭Слайды

#nlp #llm #benchmarks

Mashkka про Data Science

23 Dec, 16:03


Можно ли научить модель text-to-video физике? 

Решили с коллегами из AI Talent Hub, что будет здорово разобрать статью из поста ранее.

25 декабря в 18:30 разберёмся, можно ли на большом объёме синтетических данных научить модели text-to-video пониманию физики мира? В частных случаях — да, но чтобы построить "модель мира", придется подружиться с дифференцируемыми законами физики. 

📕 Статья: How Far is Video Generation from World Model?

Не забудьте про ➡️ регистрацию

Приходите, жду вас!

Mashkka про Data Science

23 Dec, 06:06


📚Что почитать по Python?

Собрала подборку любимых материалов для тех, кто только начинает изучать Python.

Ресурсы для изучения Python
1. Code Academy ― классика для изучения программирования. Здесь можно освоить различные языки программирования, включая Python.

2. LearnPython.org ― интерактивная среда для изучения Python с нуля. На сайте доступны уроки по основам языка, работе с библиотеками, фреймворками и инструментам разработки.

3. Python Class от Google ― бесплатный онлайн-курс по изучению языка программирования Python от компании Google. Качественный и хороший.

4. Материалы курса Python Школы анализа данных для тех, кто хочет окунутся в язык с головой и изучить его на более глубоком уровне.

YouTube-каналы
1. Язык программирования PYTHON для начинающих. Один из самых классических открытых курсов из 88 видеоуроков для подробного изучения языка с нуля.

2. Нескучный Python от Dirty Python живой, энергичный и понятный — на этом курсе от Dirty Python вам точно не захочется спать. Благодаря энергичной манере повествования и понятным объяснениям преподавателя, изучение Python становится простым и веселым.

3. Уроки Python для начинающих более сжатый курс по сравнению с предыдущим из 22 уроков для знакомства с Python и изучения основных концепций.

4. Python Tutorials — бесплатный курс, который подходит как на новичкам, так и на опытным программистам. Начинающим лучше смотреть все уроки последовательно.

Тренажеры
1. Chekio ― интерактивный тренажер для изучения Python. На платформа есть задачи и проекты разного уровня сложности.

2. Codingame ― интерактивный тренажер для изучения Python в игровом формате. Привлекает интерактивной средой обучения, системой наград и достижений.

3. W3Schools.com интерактивный тренажер для изучения Python с большим набором задач, примеров кода и объяснений.

👀Также смотрите:
Что почитать по NLP
Что почитать по DL
Что почитать по ML

@mashkka_ds

#ml_на_пальцах #полезныематериалы #usefullinks #курсы #чтопочитатьпо

Mashkka про Data Science

22 Dec, 20:00


🎤Татьяна Шаврина на канале @kantor_ai

Самое долгожданное интервью на любимом YouTube канале @kantor_ai,в котором @rybolos_channel рассказывает про свой карьерный путь и делится взглядом на будущее LLM. Когда еще увидишь двух таких значимых людей из мира Data Science за одним столом.

Mashkka про Data Science

22 Dec, 16:04


#justaboutme вспоминаю прошлый Новый год

В эту предновогоднюю пору вспоминаю, как отмечала этот праздник год назад. Встречаем потрясающее Азиатское Трио: Вьетнам + Камбоджа + Таиланд с эпичной встречей рассвета у Ангкор-Ват.

#justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.

Mashkka про Data Science

20 Dec, 16:03


Сегодня в #пятничныемемасы чистый дофамин

Mashkka про Data Science

20 Dec, 11:38


Новое интервью: Андрей Кузнецов, директор лаборатории FusionBrain в AIRI, один из создателей Kandinsky, кандидат технических наук. Смотрите на YouTube и на VK (76 минут). Помимо разговора об ИИ, обсудили самое главное: куда пойти молодому исследователю и как попасть в команду AIRI. Подписывайтесь на канал Андрея (@complete_ai) и на канал AIRI (@airi_research_institute). #наши

Mashkka про Data Science

07 Dec, 10:10


Есть ли отечественные генеративные нейросети на самом деле?

В соцсетях сейчас вирусится видео, прикрепленное к посту: молодой человек рассказывает о том, как отечественные нейросети выдают крайне подозрительный результат по запросу нарисовать «родное».

Первое, что думают люди, видя такое, это что отечественных нейросетей на самом деле нет и они просто перенаправляют запросы в апишку Midjourney и им подобных зарубежных оригиналов.

Те, кто более прошарен, думают, что наши компании просто берут зарубежный опенсорс, разворачивают у себя, а русские запросы обрабатывают после перевода на английский.

А кто еще более прошарен, знает, что опенсорс в целом поддерживает и русский язык. Остается вопрос: так как же все-таки работают отечественные нейросети?

Зачем гадать, если можно спросить эксперта в области технологий AI, который сам имеет отношение к теме генеративного ИИ — Александра Абрамова. См. ответ у него в канале или репост ниже 👇

Mashkka про Data Science

07 Dec, 10:10


Вы спросили —Дядя отвечает. Истина находится где-то по середине. Действительно на нашем рынке можно встретить множество решений вокруг открытых моделей с huggingface или же апи модных нынче Midjourney.  Это может работать по принципу перевел с ру на ен и вкинул в апиху, далее выдал результат. Обычно, на старте, это было уделом малых команд, стартапов и пр.

На самом деле, ничего в этом зазорного нет, те же ребята с Perplexity строить свое решение начали именно вокруг топовых апи LLM (OpenAI, Google, Anthropic и т.п.).  Но при этом perplexity имеют свою доп. логику с поиском, линковкой фактов и пр. Что делает ее решение аналогом поисковика "в кармане".  После, они еще и собственные тюны моделей Llama like завезли, благо лицензия открытая позволяет. И это имеет спрос.
Т.е. более крупные игроки, стараются использовать такие решения для холодного старта или во все опираясь на открытые сеты , модели или архитектуры делать собственные решения/тюны/модели. И я думаю, что крупные игроки нашего рынка достигли уже того уровня зрелости, когда могут позволить себе свои исследования, и как следствие, свои решения в виде моделей и сервисов.

Вопрос остается только в источниках данных. Такое поведение, как мы видим на видео, может быть обусловлено, влиянием сетов обучения. Т.к. на рынке множество открытых сетов на английском языке для задач text2image, а для русского языка примеров много меньше. Создание таких ру-ен данных требует затрат на написание/генерацию и чистку. А в открытых сетах для обучения может возникать дисбаланс по ру-ен паре и как следствие превалирование этики из сетов коих больше. Поэтому тот же native/родной после предобучения на таких примерах будет носить знания культуры того языка коего больше. Тк в основном это все переводы с ен языка на ру как есть, да ещё к релевантным для ен языка картинкам. Для того, чтобы решить проблему "перекоса", не достаточно балансировки знаний, надо писать/матчить именно опорные ру тексты с "правильными" картинками к ним,а также придется, скорее всего, прибегнуть к выравниванию поведения — привет alignment/ human feedback и тп. А далее, вооружившись всем этим, нужно будет решать вопросы тюна с эмбеддером text2image, чтобы для языковой пары запрос сводился к "правильной картинке". Именно его представления будут использоваться диффузией как базой генерации. И в тч над этим, думаю, работают исследовательские команды крупных игроков.

Но нет предела совершенству, это непрерывный процесс дообучения и отлова "черных лебедей". Вот как-то так.

Mashkka про Data Science

06 Dec, 19:03


🫥Paper Watch: Обзор EMNLP'24

В новом выпуске #paperwatch подготовили для вас с коллегой большой обзор конференции EMNLP'24. Рассказали про основные тренды, самые интересные статьи и наш рисерч по генерации нейросказок, который мы презентовали в этом году.

💭Запись
🌴
Материалы конференции
👀Слайды
🧚‍♂️
Исследование про нейросказки

#paperwatch #mashkka_usa #трудовыебудни #новостисполей

Mashkka про Data Science

06 Dec, 18:06


И почему пятница это вечно день созвонов
#пятничныемемасы

Mashkka про Data Science

05 Dec, 19:08


🎂День рождения пропуска Сбера

Сегодня у меня очень-очень много лет как я работаю в Сбере: мой первый рабочий день здесь был аж в далеком 2016 году (тогда еще даже трансформеры не изобрели!). И знаете что, я так рада что тогда попала именно сюда и еще больше радуюсь тому коллективу, той команде, в которой сейчас работаю и тем задачам, которыми сейчас занимаюсь.

🥂А теперь давайте вместе со мной порадуемся в этом посте!

Mashkka про Data Science

04 Dec, 08:45


🔺 Умный редактор в GigaChat'е

Коллеги много трудились и выкатили в Гигу инструмент для редактирования текстов (аналог Canvas в ChatGPT и AI-помощника в notion).

Можно по-разному редактировать свой текст — дополнять, сокращать, менять стиль и переводить. Так как все работает на наших моделях, то функционал можно будет расширять как угодно.

Я бы, например, добавил еще генерацию иллюстраций по тексту, применение стиля на основе образца и ввод команд в свободной форме.

Попробуйте и напишите идеи, что бы еще было полезно сделать.

👉 giga.chat

Mashkka про Data Science

03 Dec, 19:05


#вопрос_подписчика С кем ты ездила в Китай и понравились ли тебе организаторы?🇨🇳

В Китай я ездила с Teamtravel, с которыми я уже объездила по-моему весь мир. Обожаю их, а их тур в Китай - это просто шедевр. Ловите отзыв, если интересно можете прочитать.

TL;DR: Стоит ли ехать в Китай с Teamtravel? Если вы хотите получить максимальные эмоции и готовы брать от этой поездки все, то однозначно ДА! Китай - удивительная страна, а с Teamtravel вас ждут лучшие впечатления, которые могут быть!

🇨🇳Отзыв:
Этот тур - настоящий марш-бросок по Китаю, где событий происходит столько, что каждый день ты проживаешь маленькую, а то и не очень, жизнь!

TeamTravel решили взять от этой страны максимум и показать его нам: от невероятного культурного наследия (Запретный Город, Великая Китайская Стена, Терракотовая армия), до космических природных парков (Горы Аватара и Небесные врата) и футуристического Шанхая - города, который живет в 23 веке. И все это за 9 дней!

Как это было? Невероятно, и каждый вечер ты чувствуешь, что впечатления разрывают тебя! Но готовьтесь, отдыхать будет некогда ведь вас ждет настоящий интенсив. Придется быть туристом на максималках, а Teamtravel обеспечит вам для этого все!

🇨🇳Что же вас ждет:
✔️Невероятно насыщенная программа, включающая больше, чем вы можете вообразить.
✔️Отличные отели, где можно с комфортом отдохнуть.
✔️Наипрекраснейшие турлидеры, которых вы полюбите с первых минут, а они помогут вам в миг решить любой вопрос.
✔️Погружение в Китайскую кухню ведь вы будете питаться в местеых ресторанах.
✔️Внимание и забота в туре во всех мелочах. Так, наш турлилер Катя подарила нам целый мешок фирменных подарков.
✔️Мастер-классы и всевозможные интерактивы: чайная церемония, переодевание в национальные костюмы и даже Китайский цирк.
✔️Bonus: полет на вертолете над горами Аватара, где снимали инопланетные пейзажи Пандоры.

ВАЖНО: у них есть три варианта программы, и только последняя (3.0) включает Небесные Врата и Парк Аватар - самые мощные впечатления, которые вы привезете из Китая. Берите ее!

А подборку моих любимых авторских туров ищите тут.

💭#вопрос_подписчика — НЕрегулярная рубрика, в которой я под настроение ВЫБОРОЧНО отвечаю на те вопросы, про которые мне есть что сказать.

Если у вас есть что спросить, то пишите свои вопросы/просьбы строго в комментариях к постам этой рубрики и обязательно помечайте тэгом #вопрос_подписчика. Для самых классных и интересных я по мере сил буду стараться писать в ответ посты.

@mashkka_ds

#трудовыебудни

Mashkka про Data Science

03 Dec, 13:31


🐾По следам вебинара ML Advanced: все, что вы хотели знать о методах машинного обучения, но боялись спросить

На открытом вебинаре от курса ML Advanced рассказала про продвинутые методы машинного обучения. Зачем нужно изучать Байесовские методы? Как строить рекомендательные системы? Где сегодня применяются методы RL? - все, что вы хотели знать про продвинутый ML, но боялись спросить обсуждаем на вебинаре.


А если хотите освоить самые продвинутые методы ML, то записывайтесь на наш курс ML Advanced, старт уже в декабре.

🫥Запись
💭Слайды

#ml #otus

Mashkka про Data Science

01 Dec, 18:57


#justaboutme Sunset Miami Helicopter ride🚁

Повторяю свой первый опыт полета на вертолете, а он был именно в Майами, но уже на максималках. Сорокаминутный полет над закатным Майами Бич - невероятные эмоции и сногсшибательный experience, который в миг попадает в топ.

Напомню, #justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.

#mashkka_usa #трудовыебудни #новостисполей

Mashkka про Data Science

30 Nov, 19:10


Неделя работы из Сочи: итоги

Уже неделю я удаленно работаю из Сочи, куда я приехала спасаться от Московской зимы и полного отсутвия цветов.

И если вы думаете, что в Сочи работа не идет, то это точно не про меня. Мне здесь работается лучше всего.

Как итог, за одну неделю я:
- подготовила большой обзор EMNLP на работе
- зафиналила наш мощный курс в СберУнивере
- запустила два курса в Отус
- провела несколько занятий в ВШЭ
- регулярно занималась фитнесом, танцами и французским
- и даже успевала ходить на массаж!
Мне кажется, за осень это чуть ли не самый продуктивный week!

#sochi #сочи #удаленка #IT

Mashkka про Data Science

30 Nov, 06:37


🐑Как писалась «Охота на электроовец: большая книга искусственного интеллекта» без регистрации и SMS

Недавно писала про энциклопедию ИИ — Большую Книгу Искусственного Интеллекта от @oulenspiegel_channel. А на днях у автора вышел потрясающий пост на Хабр про нее.

▶️А скачать книгу можно тут!

@mashkka_ds

#NLP #ии #ai

Mashkka про Data Science

29 Nov, 08:42


Мне кажется, подобная защита есть на 90% сайтов
#пятничныемемасы

Mashkka про Data Science

29 Nov, 06:26


🤖Digest полезных материалов по NLP
🌐Retrieval-Augmented Generation (RAG)

1⃣ Понятное объяснение RAG на Хабр
2⃣Оригинальная статья по RAG
3⃣Framework RAGAS по оценке RAG систем
4⃣Пост на Medium про RAGAS
5⃣Вебинар по оценке RAG + слайды
6⃣Оригинальная статья по RePlug для RAG с black-box LLM
7⃣Оригинальная статья про DPR подход для Retrieval
8⃣LangChain framework для RAG

#ml_на_пальцах #полезныематериалы #usefullinks

Mashkka про Data Science

28 Nov, 12:26


🌴EMNLP'24 Materials

Great News! Материалы EMNLP'24 теперь в открытом доступе. Можно смотреть, комментировать, изучать и не забудьте переслать коллегам и друзьям-энтузиастам по DS!

И обязательно заглядываем на страничку с материалами How To Tame Your plotline - статьи про генерацию сказок с помощью LLM, которую мы с коллегами презентовали на EMNLP.

👀EMNLP Materials
💭How to Tame Your Plotline
🏆Best Paper Award

@mashkka_ds

#трудовыебудни #новостисполей #mashkka_usa #nlp

Mashkka про Data Science

24 Nov, 19:03


#justaboutme EMNLP Miami backstage

Конференция - это всегда еще и впечатления, миллион ярких фото и историй, которые останутся с тобой на всю жизнь. В лично-рубрике сегодня порция фото из солнечного Майами, а если хотите услышать больше историй про этот город и эту поездку, то поставьте под постом огонь!

Напомню, #justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.

#mashkka_usa #трудовыебудни #новостисполей

Mashkka про Data Science

22 Nov, 10:17


#пятничныемемасы подсмотрены у @oulenspiegel_channel

Mashkka про Data Science

21 Nov, 18:55


🐾По следам вебинара На пути к ChatGPT

На открытом вебинаре от курса NLP рассказала про технологии, стоящие за ChatGPT. Обсудили, как архитектура Трансформер повлияла на мир NLP и что же позволило перейти от обычных трансформерных моделей к тем LLM, которые мы видим сегодня. Хочешь узнать, что стоит за хайпом больших нейросетей типа GPT-4? Тогда смотри!

А если хотите освоить самые продвинутые методы работы с трансформерными моделями, то записывайтесь на курс NLP. Стартуем уже в ноябре, вас ждет увлекательное погружение в мир LLM!

🫥Запись
💭Слайды

#ml #otus #nlp

Mashkka про Data Science

21 Nov, 09:34


🌸LLM vs Бенчмарки: кто прав, а кто виноват?🌸
#nlp #про_nlp #nlp_papers

Прогресс неостановим, работать все равно ничего не будет
Как оценивать качество LLM, когда вроде и улучшения не явные, и бенчмарки вызывают вопросы?

Ещё два года назад мы радовались генерализующим оценкам LLM — BigBench, HELM, BigGen — сегодня же про это дружно все забыли, и рапортуют state-of-the-art на бенчмарках в 100 вопросов (я не шучу, Claude 3.5 репортует sota на tau bench, а там 115 и 50 вопросов).

Но я ничего не забываю! И коплю академическую злобу.

Поэтому сегодня мы поговорим про лучшие практики, без которых сравнивать модели, сохраняя серьёзное лицо, нельзя.
Итак, что же делает оценку модели на бенчмарке хорошей?

🟣Монотонность при обучении

Качество задачи можно отслеживать сразу во время обучения — смотреть не только на лосс, а на метрики непосредственно бенчмарка.
Если модель реально учится решать какую-то задачу, то вы увидите монотонно возрастающий график от одной сотник шагов к другой. Если график показывает нестабильность, то и метрика в конце обучения будет случайным результатом.
HF вообще заменяют ранговую корреляцию Спирмена между шагов обучения и результатом, чтобы оценить монотонность, даже если она нелинейная.
Если монотонности не наблюдается, черрипикать чекпоинт с лучшим результатом не имеет смысла.

🟣Разброс результатов

Std, доверительные интервалы должны быть включены в процедуру оценки. В идеале тест должен проводиться 5-10 раз, чтобы оценить уровень шума в результатах модели.
У разных моделей на лидерборде будут разные доверительные интервалы, и при сравнении моделей это нужно принимать во внимание.

🟣Нескомпрометированность

Доказательства того, что авторы модели не учились на тесте, ложится на авторов моделей!
Уже её раз фиксировалось, что MMLU, TruthfulQA, и другие бенчмарки утекли в трейн.
Особенно важно публиковать проверку на контаминацию, если у бенчмарка нет приватного/секретного теста.
Если приватный тест есть, это хоть какая-то гарантия, и ориентироваться надо на него.

🟣Несатурированность

Если в бенчмарке уже очень много публичных результатов с очень высоким результатом (см SuperGLUE), и разница в полпроцента становится решающей для получения 1го или 10го места, то бенчмарк можно считать решенным, результаты сатурированными, и двигаться дальше.
В противном случае малейшие изменения в модели или процедуре оценки кардинально меняют ранжирование лидерборда!
См Benchmark Lottery

🟣Сонаправленность с другими бенчмарками

Ваша задача — сделать модель, улучшенную сразу со стороны многих способностей.
Некоторые способности и бенчмарки, безусловно, могут быть отрицательно скоррелированы. Но если отрицательно скоррелированы два бенчмарка, тестирующие примерно одно и то же, например, SWE bench и Live code bench, то возможно пробоема в вас нужно разбираться, почему.

К сожалению, очень много "лучших практик" существует вокруг хакинга метрик, обучения на тесте, манипуляций с погрешностью.

В конечном счете, цель у создателей моделей и бенчмарков одна — направить развитие моделей в нужную сторону.
Мои посты по теме:
🟣Оценка LLM в 2023 году
🟣Оценка LLM в 2024 году

Mashkka про Data Science

20 Nov, 19:37


💭Digest полезных материалов по ML
🤖Benchmarking of AI Agents
1️⃣Языковой атлас WALS

2️⃣OPUS собрание параллельных корпусов

3️⃣Основные мультиязычные бенчмарки:
- XTREME
- XGLUE
- MASSIVE NLU benchmark
- FLORES 200
- NeuCLIR for cross-lingual Information Retrieval

4️⃣Обзор мультиязычных LLM

5️⃣Классические мультиязычные модели:
- mBERT
- XLMR
- mT5
- mBART
- M2M100
- XGLM
- mGPT
- BLOOM
- BLOOM + 1

6️⃣Адаптация BERT для новых языков (статья 1, статья 2, статья 3)

#usefullinks #ml_на_пальцах #полезныематериалы

Mashkka про Data Science

19 Nov, 18:17


🐾По следам вебинара Обучение с учителем: разбираем задачу классификации

На открытом уроке в рассказала про алгоритм kNN и про того, как его применяют для задачи классификации. А для тех, кому интересно попробовать все своими руками, на практики мы обучаем свою модель для задачи медицинской диагностики.

‼️И если вы только начинаете ваш путь в ML, но решили погрузиться в него по полной, то приходите на специализацию ML. Старт нового потока уже в ноябре! Буду ждать!

👀Запись
✍️Слайды
💭Практика

👩‍🏫
Курc (специализация ML)

#otus #ml

Mashkka про Data Science

19 Nov, 10:14


Pixtral Large 🔥🔥🔥

Новая моделька от Mistral на 124B параметров является мультимодальным расширением Mistral Large 2, но с обновлённым системным промптом и улучшенным пониманием длинного контекста в 128K токенов. На мультимодальных бенчах показывает себя очень хорошо, по заявлениям чуть ли не SOTA.

Но Mistral часто убирает неудобные бенчи или модели из своих анонсов. Конкретно тут непонятно с какими версиями моделей сравнивают, плюс как-то очень удобно "забыли" про мультимодального Qwen2-VL и Molmo. Я добавил таблицу с ними тоже. По сути Pixtral Large даже слегка хуже чем Qwen.

Также можно потыкаться в Le Chat. Он, кстати, тоже мощно обновился. Добавили веб-поиск с ссылками на цитаты. Canvas для редактирования аутпута inline, не переписывая всё заново, как это недавно сделали в ChatGPT. Ещё прикрутили Flux Pro прямо в чат.

Веса уже лежат на Hugging Face
Le Chat
Или подключиться по API
Подробнее

@ai_newz

Mashkka про Data Science

17 Nov, 14:20


#justaboutme Китайский марш-броск (part 2)🇨🇳

Еще одна порция фото из моей поездки в Китай. Всего неделя прошла, а кажется, это было так давно.

Фото из Майами тоже будут. Just wait a little bit!

Напомню, #justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.

Mashkka про Data Science

17 Nov, 04:20


🌟Рассказываем сказки про сказки на EMNLP

Презентовали наше исследование How to Tame Your Plotline: A Framework for Goal-driven Interactive Fairy Tale Generation на EMNLP. В этом году работа посвящена нейросказкам. А именно, в ней описан фреймворк на генерации сказок с помощью LLM с соблюдением консистентности сюжета и эмоциальной аркой.

Неожиданно постер вызвал невероятный аншлаг, а тема мигом завоевала всеобщую любовь и одобрение. Получили много отличных отзывов и похвал.

📚Статья
💭Хабр
👀
Слайды

#новостисполей #трудовыебудни #emnlp #mashkka_usa

Mashkka про Data Science

16 Nov, 16:58


Вместо #пятничныемемасы субботняя актуалочка

Mashkka про Data Science

15 Nov, 18:53


🏆Оскар EMNLP'24: Best Paper Awards

Вчера состоялось долгожданное вручение "Оскара EMNLP" - награждение Best Paper Awards. В этом году почетный титул лучших статей этой престижной конференции получило целых 5 статей:
1⃣An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance: статья вводит концепцию " transcreation" (пересоздания) изображений, генерируя культурно адаптированные изображения, и предлагает эталонный набор данных для оценки способностей LLM.
2⃣Towards Robust Speech Representation Learning for Thousands of Languagesпредставляет: авторы представляют датасет, охватывающий более 1 миллиона часов речи на более чем 4000 языках, и мультиязычную модель, обученную на этих данных.
3⃣Backward Lens: Projecting Language Model Gradients into the Vocabulary Space: авторы предлагают интуитивно понятный подход к изменению модели путем проекции градиентов на пространство словаря для повышения интерпретируемости.
4⃣Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method: статья представляет новый датасет и метод для «black-box» обнаружения данных из предобучения.
5⃣CoGen: Learning from Feedback with Coupled Comprehension and Generation: авторы исследуют связь между пониманием языка и его генерацией для улучшения взаимодействия между людьми.

На закрытии по традиции было объявлено ее место проведения в следующем году: EMNLP 2025 пройдет в Сучжоу Китае в начале ноября.

💭Могу сказать только OMG! С учетом того, как тормозят в Китае абсолютно все привычные нам сайты даже под ВПН (у меня просто еще свежи воспоминания), веселые впечатления гарантированы!

#трудовыебудни #emnlp #новостисполей #mashkka_usa

Mashkka про Data Science

15 Nov, 00:56


🫥Paper Watch: Интерпетируемость языковых моделей

В новом выпуске #paperwatch разбираем серию статей от Anthropic, посвященную интерпретируемости языковых моделей (от изучения состояний в маленьких моделях до изменения поведения LLM):
1⃣Towards Monosemanticity: Decomposing Language Models With Dictionary Learning
2⃣Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet
3⃣ Evaluating feature steering: A case study in mitigating social biases

👀Запись
💭Слайды

#nlp #llm

Mashkka про Data Science

13 Nov, 03:33


🏖EMNLP Opening

Сегодня состоялось открытие EMNLP'24. Это крупнейшая международная конференции по NLP уровня A*.

В этом году на конференцию было подано рекордное число работ 6105 (для сравнения, в прошлом примерно 5000) и борьба за место под солнцем Майами была жесткой как никогда. Из всех работ было принято 2300 (1271 Main Track + 1029 Findings), то есть Acceptance rate составил 37,7% (20.8% Main Track + 16.9% Findings).

В этом году мы с коллегами представляем здесь статью про генерацию сказок с помощью LLM (How to Tame Your Plotline: A Framework for Goal-driven Interactive Fairy Tale Generation) на одном из воркшопов.

#трудовыебудни #новостисполей #mashkka_usa

Mashkka про Data Science

12 Nov, 06:26


EMNLP is just about to start

Еще вчера я гуляла по Шанхаю, а сегодня в Майами поднимаю Welcome Drink на pre-party EMNLP - крупнейшей международной конференции в нашей области, куда я приезжаю уже третий год подряд.

Ждем отрытия! По традиции буду делиться трендами, обзорами статей и общей атмосферой под хештэгом #новостисполей.

#новостисполей #трудовыебудни #mashkka_usa

Mashkka про Data Science

11 Nov, 15:48


Запускаем хакатон SafeSpeak2024! 🚀

Хакатон, который мы проводим совместно с МТУСИ, посвящен разработке технологий обнаружения аудио-спуфинга и нацелен на решение актуальных проблем безопасной голосовой аутентификации, а также защиту биометрических систем от атак.

🔷Что вас ждет?
Участникам необходимо разработать легкие и высокопроизводительные модели для обнаружения атак аудио-спуфинга с акцентом на вычислительную эффективность и практическое применение в реальном мире.

🔷Кто может участвовать?
Студенты бакалавриата, магистратуры, специалитета и аспирантуры из технических университетов стран БРИКС и СНГ. Участвовать можно в командах от 1 до 4 человек.

🔷 Призовой фонд
225 тысяч рублей.

🔷Важные даты
Регистрация открыта до 26 ноября, старт хакатона — 22 ноября.

Регистрируйтесь
по ссылке и готовьтесь к старту!

Mashkka про Data Science

10 Nov, 08:52


#justaboutme Первые впечатления Китайского марш-броска🇨🇳

Последнюю неделю со мной случился настоящий марш-бросок по Китаю. Настолько насыщенный впечатлениями, что в какой-то момент я просто потерялась во времени и пространстве от событий, которые калейдоскопом сменялись на протяжение последних 8 дней. Только представьте: в один день ты посещаешь Запретный Город, в другой покоряешь 8ое чудо света - Великую Китайскую Стену, на следующий уже гуляешь в образе Китайской Снегурочки по улице красных фонарей (она так называется т. к. там красные фонарики) и тут же через Небесные Врата телепортируешься на Пандору, в мир где снимали кадры из фильма Аватар. И это еще далеко не все: был еще полет на вертолете, китайский цирк, футуристический Шанхай...

Китай это нечто невероятное и точно заслуживает нескольких постов в рубрике #justaboutme. А пока я воскресным утром попиваю кофе в Шанхайском аэропорту и листаю программу EMNLP, которая начнется 11го числа. Скоро Mashkka DS вернется в active mode.

Напомню, #justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.

Mashkka про Data Science

08 Nov, 09:45


#пятничныемемасы

Mashkka про Data Science

07 Nov, 11:29


🌸Больше языков для LLM🌸
#nlp #про_nlp

Huggingface в поиске контрибьюторов носителей языков!
Корпус FineWeb на 15 трлн токенов теперь ждёт большое расширение на 1000+ языков 🎉

🟣Сколько языков сейчас представлены в практике моделирования языка?

Если считать, что в целом живых языков 6-7 тысяч,
— в базе Ethnologue 7164
— суммарно во всех LLM работах упоминается примерно 1500 языков (в основном за счет работ NLLB и Towards MT for next 1000 languages)
— у звучащей речи чуть лучше: 4000 языков, но у 70% из них меньше чем 2 часа записей (за счет XEUS)

🟣Бутылочное горлышко валидации
Все ресурсы, которые так или иначе языки описывают, можно расположить на 2 осях координат: их качество и их пригодность для ML-применений. Окажется, что наиболее доступные и пригодные для предобучения моделей корпуса (CommonCrawl, его вариации) в то же время оказываются и наименее качественными.

Причина тому — автоматическое определение языка (см fasttext)  невозможность ручной валидации. Автоматические быстрые классификаторы как правило могут с высоким уровнем надежности определить не более 200 языков, тогда как большинство языков оказывается в большой куче "мусора"  — наименее надежно атрибутированных данных.

Бутылочное горлышко для того, чтобы побороть валидацию на большом объеме данных — это наличие сообщества носителей языков, которые бы активно контрибьютили и помогали улучшить как классификаторы, так и способы оценки качества получаемых языковых моделей.

Я уже несколько раз рассказывала про ситуацию с многоязычными данными, и даже несколько раз за этот год меняла слайды — так быстро меняется ситуация! И сегодня даже в лучшую сторону.

🟣Инициатива HuggingFace

Помимо расширения корпуса FineWeb, HuggingFace ищет волонтеров и носителей языка, чтобы расширить именно процедуру многоязычной оценки языковых моделей.
Новая инициатива — FineTasks — объединяет 4 стандартных бенчмарк-формата:

— Машинное чтение: Понимание предоставленного контекста и ответы на вопросы на его основе.
— Общие знания: Ответы на вопросы о фактах из различных областей без дополнительного контекста.
— Понимание естественного языка (NLU): Понимание семантики предоставленного ввода.
— Рассуждения на основе здравого смысла: Демонстрация способности выполнять простые рассуждения, требующие воплощенных знаний.
— Генеративные задачи: Умение генерировать корректный текст на целевом языке.

Авторы уже собрали 185 задач для 9 языков: поддерживаются
китайский, французский, арабский, русский, тайский, хинди, турецкий, суахили и телугу.


Цель для полного бенчмарка — как минимум 50 языков из разных семей, ареалов и с разной письменностью.

Ну и... ждём большой новый многоязычный корпус с открытой лицензией!

Куда контрибьютить?
🟣 Контрибьютить новые задания и языки можно здесь в шаблоне
🟣Мини-гайд
🟣Блог HF

Mashkka про Data Science

06 Nov, 14:54


Меня повысили до GigaChat MAX 🥳

Теперь я:
🎯 Лучше понимаю запросы
🚀 Быстрее отвечаю
💾 Запоминаю длинные диалоги
🏞 Распознаю, что на картинках
🧠 Решаю больше задач по математике, физике, химии, биологии, экономике и праву

Напишите запрос, чтобы испытать мощность новой модели 👇

Mashkka про Data Science

04 Nov, 00:36


🇨🇳На недельку до 2 11я уеду в Комаровоитай

И пока все желают мне хорошо отдохнуть в отпуске, мы с моими любимыми ребятами из TeamTravel устраиваем настоящий Китайский марш-бросок и за пару дней уже успели исследовать запретный город, а я еще - постоять в фирменном мостике на Великой Китайской Стене.

Пока заряжаемся энергией для EMNLP, ждем рубрики JustAboutMe и смотрим меня в соцсетях.

Mashkka про Data Science

02 Nov, 10:35


Релиз GigaChat MAX! (ссылка на Хабр)

Салют! Мы открываем доступ к модели GigaChat MAX. Модель доступна в @gigachat_bot, в веб-версии и через публичное API (в режиме раннего доступа).

- GigaChat MAX занимает 3 место в бенчмарке MERA. Сразу за gpt-4o и Llama-405B.
- GigaChat-Max достигает 92% правильных ответов на GSM-8k, 80% на MMLU и 75% на MMLU-RU.
- По результатам SBS, где учитывается красота ответов, мы выигрываем в 61% случаев у GPT-4 turbo и в 67% случаев у YaGPT-4 Pro.
- В Arena-Hard мы достигаем 51% скора против GPT-4-0314
- В Vkhr Arena-General-RU мы достигаем 90%, в то время как YaGPT-4 Pro достигает 59%.

Чтобы узнать про то, как мы делали модель, переходите на статью в хабре.

Предыдущие посты:
— GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
— GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов

Mashkka про Data Science

01 Nov, 15:01


👣По следам OtusFest

В этот вторник выступила на OtusFest c рассказом про последние достижения LLM и будущие тренды в области GenAI. Запасаемся попкорном в этот дождливый пятничный вечер и смотрим!

📺Запись
👀Слайды

Mashkka про Data Science

01 Nov, 14:34


#пятичныемемасы
Человеку, приславшему мне очередную голосовуху посвящается

Mashkka про Data Science

01 Nov, 09:09


🥳 Вы взяли кубки RuCode, а у нас свои достижения 🏆 В этом году Всероссийский чемпионат по алгоритмическому программированию вошёл в Книгу рекордов России и получил статус самого массового соревнования по спортивному программированию.

Только на очных площадках (а их количество перевалило за 25 в России и Киргизии) чемпионата участвовало 1450 человек из более чем 500 команд. Официальное подтверждение нашего нового статуса – сертификат – ищи на фото. Спасибо, дорогие участники! Без вас ничего бы не получилось 🤗

И ещё одна вау-новость: RuCode стал претендентом на международную премию #МЫВМЕСТЕ в номинации «Страна возможностей».
Если станем её лауреатами, сможем прийти с чемпионатами в ещё бОльшее количество вузов (среди которых, возможно, будет и твой) и дарить больше крутых призов и подготовить для тебя супербонусы!

Мы делаем RuCode все вместе, поэтому ждём и твой голос.

Другие циферки и факты, которые сами за себя говорят: «RuCode — это действительно масштабно и круто»!
🔝 Организацией фестиваля RuCode занимались 24 престижных российских вуза: МФТИ, «Иннополис», УрФУ, НГУ, БФУ им. Канта, ДВФУ, СКФУ и другие, а также общественные организации
🔝 партнёрами фестиваля в 2024 году стали ведущие ИТ-компании России: Сбер и Яндекс, генеральным партнером выступила компания МТС
🔝 в этом году фестиваль RuCode не только обновил рекорд по количеству участников, но и отпраздновал первый юбилей – 5 лет
🔝 за это время в разных треках фестиваля приняли участие более 500 000 человек
🔝 RuCode завершился гигантским ИТ-ивентом в СКФУ, который посетили более 4500 человек
🔝 СКФУ уже вторая столица RuCode, первая состоялась в УрФУ в 2023 году.

🙌 Голосуй, помоги нам стать лучше.

#десятилетиенауки #МинобрнаукиРоссии #популяризациянауки

Mashkka про Data Science

30 Oct, 19:42


Компьютерный класс в МГИМО

Mashkka про Data Science

30 Oct, 19:42


💬Выступила в МГИМО с докладом про генеративный ИИ

Вчера выступила в МГИМО с докладом про генеративные языковые модели и возможности таких нейросетей как GPT4 и GigaChat. Почему МГИМО?

Оказывается, они недавно запустили магистратуру Digital Marketing, где студенты уже во всю учатся работать с подобными нейросетями и генерировать с их помощью контент.

А для того чтобы промптить такие модели, в стенах МГИМО оборудовали для этого специальный центр генеративного ИИ.

⬇️Только взгляните на эту красоту на видео внизу! Такому компьютерному классу позавидует любой студент по Computer Science.

📉Слайды

#трудовыебудни

Mashkka про Data Science

29 Oct, 12:44


Какие известные фестивали проходят в октябре?

Конечно же OTUS FEST!

➡️ Присоединяйтесь к трёхдневному IT-фестивалю.

Вас ждут 9 спикеров, мастер-классы, полезные знакомства и разбор интересных случаев из практики. Мы обсудим темы, которые волнуют IT-индустрию, поделимся технологическими хитростями, ответим на ваши вопросы.

Вы узнаете:
❤️На что обращать внимание при выборе фреймворков?
❤️С чего начать импортозамещение в ИБ?
❤️Как подходить к описанию архитектуры на разных уровнях?
❤️Как разработать стратегию тестирования, которая действительно работает?
❤️Чего ждать от революции в большой языковой модели?
❤️Чем «импортозаместить» Nginx?
❤️Куда движется российский геймдев?
❤️Какие важные тренды появились в HR за последние годы?
❤️Что делать аналитикам, чтобы их не заменил ИИ?

Ждём всех, кто работает с информационными технологиями.
Будет круто 🤘

📆 29, 30, 31 октября: можете выбрать любой удобный день или все три сразу.

Участие бесплатное

Присоединиться к OTUS FEST

Mashkka про Data Science

27 Oct, 19:46


#justaboutme Best memories of AIST conf

В воскресной рубрике делюсь солнечными фото с конференции AIST. Прекраснее гор только осень в горах.

И смотрим vlog, если еще не видели его.

Напомню, #justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.

Mashkka про Data Science

26 Oct, 13:07


👣По следам вебинара Современные применения NLP

На открытом вебинаре от курса NLP рассказала про последние достижения в области LLM и трансформерных моделей, а также посмотрели самые современные применения NLP. Хочешь узнать, где же применяется NLP сегодня и что стоит за хайпом больших нейросетей типа GPT-4? Тогда смотри!

А если хотите освоить самые продвинутые методы работы с трансформерными моделями, то записывайтесь на курс NLP. Стартуем уже в ноявбре, вас ждет увлекательное погружение в мир LLM!

🫥Запись
💭Слайды

#ml #otus #nlp

Mashkka про Data Science

26 Oct, 08:58


🗻AIST conf: лучшее за 20 секунд

Традиционный vlog с конференции АИСТ в Бишкеке.

#трудовыебудни #новостисполей #nlp #mashkka_central_asia #аист #киргизия #осень #осень2024

Mashkka про Data Science

25 Oct, 18:02


Сегодня в #пятничныемемасы шутим про доцента в честь моей новой должности в ВШЭ!

Mashkka про Data Science

25 Oct, 16:51


🎓МарьИванна теперь доцент в ВШЭ

Со вчерашнего дня я - доцент ВШЭ на факультете компьютерных наук. Как-то так незаметно получила эту солидную должность на одном из лучших факультетов страны по Computer Science. Радуюсь этому почти также как своему PhD год назад!

Шутки про доцента бережем для сегодняшнего поста пятничных мемасов (можно уже готовить мемы), а здесь мы празднуем это событие вместе со мной!

#вшэ #hse #computerscience

Mashkka про Data Science

24 Oct, 18:24


Лекции «Лето с AIRI 2024» — в плейлисте в VK Видео 🔥

Выложили записи лекций и семинаров летней школы по искусственному интеллекту «Лето с AIRI» с ведущими исследователями научных организаций и технологических компаний.

📎Сохраняйте ссылку на плейлист

Mashkka про Data Science

24 Oct, 09:31


Рассказала про достижения LLM на RuCode

В этом году RuCode совпал с конференцией AIST и поехать на него в Ставрополь я не смогла. Как и отказать в выступлении на любимом фестивале, где я участвую уже который год подряд. Выступила онлайн с рассказом про достижения трансформерных моделей сегодня. Рассказала про последние успехи LLM, а также перспективы и тренды, которые нас ждут в этой области Data Science.

Рада, что все прошло отлично, несмотря на онлайн. Выступала с террасы горного эко-отеля, рассказывая про трансформеры с видом на прекрасные горы Киргизии. Wi-Fi не подвел, и я получила много благодарностей за доклад.

👀Запись
🖥Слайды

Mashkka про Data Science

24 Oct, 08:42


РБК: Яндекс представил новое поколение нейросетей

– Яндекс выпустил новое поколение нейросетей YandexGPT 4
– Они обрабатывают около 60 стр. текста и умеют рассуждать
– Новая линейка включает мощную модель Pro и легкую Lite
– Они превосходят по качеству ответов предыдущие версии
– Это позволяет использовать их для решения сложных задач
– В т.ч. для анализа обращений, автоматизации закупок и др.
– Версия YandexGPT 4 Pro подойдет для трудоемких задач
– Lite полезна для простых сценариев, где важна скорость
– Они могут генерировать запросы для сторонних приложений
– В сред. новые модели отвечают на вопросы вдвое быстрее
– Демоверсия YandexGPT 4 уже доступна через Yandex Cloud
– Позднее их запустят для «Алисы» и других сервисов Яндекса

@ftsec

Mashkka про Data Science

21 Oct, 06:41


🤗Faces of AIST conf

Самое ценное, что есть в конференции AIST - это люди, которые приезжают сюда. В этом году AIST собрал отличное коммьюнити исследователей, с которыми так здорово было обменяться опытом и провести шикарный день в горах по окончании основной части конференции.

Как всегда, на фото попали не все, но как есть.

#трудовыебудни #новостисполей

Mashkka про Data Science

20 Oct, 10:31


#justaboutme Burning Space Birthday Party

Сегодня воскресной "личнорубрике" делюсь фотографиями с вечеринки Burning Space, которой я решила отметить свои 30 лет. Яркие костюмы в стиле Burning Man, танцевальный мастер-класс, шикарнейший фильм и веселье до упаду - вот так выглядит лучший праздник для меня. Но он не стал бы таким идеальным без этих замечательных людей, которые пришли разделить этот день со мной. Так рада, что сегодня меня окружают замечательные, талантливые и близкие мне по духу люди. Это и правда ценно для меня!

Напомню, #justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.

Mashkka про Data Science

20 Oct, 09:38


🇰🇬Представили RuCLEVER на AIST

В этом году на конференции AIST мы представили новые датасет для текстово-визуального ризонинга в формате VQA. Простыми словами, этот датасет тестирует, насколько хорошо модель отвечает на вопросы по картинке. Сами картинки содержат наборы геометрических 3D объектов и модель должна верно определить их количество, форму или цвет.

Статья будет чуть позже, как только выйдет сборник - обязательно поделюсь.

👀Слайды

Mashkka про Data Science

19 Oct, 07:22


🌟 Встречаемся в Ставрополе на RuCode уже сегодня

А пока мы с коллегами едем на AfterParty конференции AIST в Киргизские горы, мой цифровой аватар выступает на RuCode в Ставрополе уже через несколько часов.

👉Регистрация тут

Шучу, я просто, конечно, буду онлайн.

#трудовыебудни #новостисполей

Mashkka про Data Science

18 Oct, 12:22


🇰🇬Вслед за перелетным АИСТом прилетела в Бишкек

Привет из Бишкека! Прилетела сюда на конференцию AIST, в которой я участвую уже второй год подряд. В этом году представляем нашу со студентами работу по мультимодальному ризонингу, в рамках которой мы создали большой VQA датасет.

Про работу расскажу чуть позже, а пока меня ждет знакомство с университетом Манас, принимающим конференцию в этом году.

#трудовыебудни #новостисполей #nlp

Mashkka про Data Science

18 Oct, 08:55


Настроение пятница
#пятничныемемасы

Mashkka про Data Science

18 Oct, 07:41


На связи #AIRISeminars, рассказываем про следующий доклад, который пройдет 23 октября⤵️

Тема: оценка LLM на длинных контекстах: бенчмарки, результаты и подходы к удлинению контекста

Докладчик: кандидат физико-математических наук, старший научный сотрудник лаборатории когнитивных систем искусственного интеллекта AIRI Юрий Куратов.

Оппонент: доктор физико-математических наук, доцент СПбГУ, заведующий лабораторией искусственного интеллекта ПОМИ РАН Сергей Николенко.

Подробное описание семинара и регистрация на офлайн по ссылке. Онлайн, как всегда, в VK Видео📌

Mashkka про Data Science

17 Oct, 18:38


🎉Подкаст про машинное обучение с Женей Соколовым вышел, лайк, подписка, репост :)))

🔥Посмотрите хотя бы только на тайм-коды, чтобы оценить, каким насыщенным вышел диалог:

0:00 - Искусственный интеллект, машинное обучение и data science
3:42 - Начало ML и должен ли ИИ подражать человеку
15:39 - Что не получалось: обучение нейросетей и экспертные системы
20:40 - Классические методы ML
24:42 - ML в играх
28:01 - Как ML спасает жизни
34:39 - Как ML зарабатывает деньги компаниям
40:42 - Возвращение нейросетей: Deep Learning
49:23 - Свёрточные нейросети, рекуррентные нейросети и трансформеры
54:21 - Генеративно-состязательные нейросети
57:01 - Какое оборудование нужно для ML
1:01:48 - Хорошо ли живется специалистам в машинном обучении
1:05:45 - Прогнозы на будущее и подготовка кадров


Смотреть тут: https://youtu.be/q740GwAd9fU?si=iFjFaePGWTKeWCla

Mashkka про Data Science

17 Oct, 16:45


Обожаю! 🤩 Очередная статья про галлюцинации LLM

LLMs Know More Than They Show:
On the Intrinsic Representation of
LLM Hallucinations


В этот раз авторы обнаружили:

Что правильные ответы LLM кроются в определенных токенах. Они смотрели на активации токенов по разным слоям и учили классификатор предсказывать правда/неправда сгенерирована ( probing )

Впоследствии можно генерить пару предложений и выбирать правильное классификатором

Анализировали частотность правильной или неправильной генерации подряд и выявили, что есть разные типы ошибок (постоянно правильный, постоянно неправильны). Соответсвенно, когда такую активацию прослеживаем, можем применять сценарии доведения модели до правильного ответа.

Небольшое отступление: to be honest, я чет не прониклась выводами, очень уж напоминает выводы из статьи Anthropic, которую разбирали на reading club, только метод другой (давайте посмотрим как активируются определенные токены в зависимости от контекста, а там нейронные активации)

😠Ну теперь глобальный минус статьи:

На разных датасетах воспроизвести результаты активаций не вышло. Надо переобучать классификатор. У меня лично, вопрос возникает о том, не частный ли это случай их обнаружений :(

Paper: link
Code обещается быть тут

Mashkka про Data Science

16 Oct, 15:42


Выступаю на всероссийской неделе ИИ

Сегодня выступила на Всероссийской неделе ИИ для школьников с докладом «Генеративный ИИ: новые горизонты и новые возможности»

На вебинаре рассказала про последние успехи GenAI и новые тренды в области генеративного ИИ.

Запись
👀Слайды

#трудовыебудни #genai #llm

Mashkka про Data Science

16 Oct, 08:49


26 октября — One day offer для ML-щиков в GigaCode — нашей команде, занимающейся моделями для кода

Всего за один день вы сможете пройти все этапы отбора, познакомиться с командой GigaCode и получить оффер

Мы создаем AI ассистента разработчика — GigaCode. Наши модели уже сейчас помогают писать ежедневно почти 100 000 строк кода

Решаем задачи по различным подходам в NLP и PLP, занимаемся исследованиями и обучаем новые SOTA LLM

В работе используем: NLP, DL, ML, Python, PyTorch, Transformers, FSDP, DeepSpeed

Чем предстоит заниматься?
реализовывать дизайн экспериментов, формулировать гипотезы для улучшения NLP/PLP моделей и алгоритмов, планировать исследовательские эксперименты с выводами
проводить эксперименты, писать код, подготавливать датасеты и бенчмарки, проводить замеры и анализ результатов
обучать модели на кластере, включая обучение моделей с нуля и дообучение опенсорс моделей

Если вам интересна эта область и вы хотите развивать в ней свою карьеру, регистрируйтесь на One Day Offer. Будем делать важнейшие исследования вместе)

https://developers.sber.ru/kak-v-sbere/one-day-offer/nlp_data_october

Mashkka про Data Science

15 Oct, 08:38


Фантастика всегда была не просто развлечением, а способом заглянуть за грань возможного, осмыслить сложные идеи и научные концепции через призму захватывающего сюжета. Представляю вам второй сезон проекта «За ширмой тысячного ли: это вам не фантастика!»

Полезная радиация, восстание ИИ, биопечать органов, искусственный нос, колонизация космоса – всё это кажется далёким и таинственным. Как бы не так!

Проект объединяет учёных и писателей-фантастов, чтобы сделать сложное — понятным, а будущее — ближе. Мы отправляемся туда, где рождаются открытия, общаемся с учёными, инженерами и исследователями, которые делают то, что ещё недавно казалось невозможным, невероятным, недостижимым. Вдохновились их открытиями и создали сборник рассказов про эти самые технологии и разработки.

Вместе с группой писателей мы посетили:
1. Институт ядерной физики им.Будкера, г. Новосибирск – узнали, что такое мирный атом, существует ли полезная радиация и когда наступит атомпанк
2. SberDevices, г. Москва – пообщались с нейросетью, поняли, как искусственный интеллект распознает жесты и нашли ответ, когда нам ждать восстания машин
3. Университет науки и технологий МИСИС, г. Москва – увидели, как выращивают органы, узнали, можно ли напечатать дубля и заказали биопистолет в домашнюю аптечку
4. Объединенный институт ядерных исследований, г. Дубна – собрали чек-лист, что нужно для колонизации космоса, выяснили, как выжить вне земли и с кем мы там будем соседствовать
5. Химфак МГУ, г. Москва – узнали, что может учуять искусственный нос, как устроен натрий-ионный аккумулятор, и можно ли обмануть бактерию?

Премьера совсем скоро! Следите за анонсами!
#ЗаШирмойТысячногоЛи #фантастика #наука #десятилетиенаукиитехнологий #научпоп #научнаяфантастика #scifi #sciencefiction

Mashkka про Data Science

14 Oct, 06:27


Столица RuCode собирает в Ставрополе крутую IT-party 19-20 октября 🤩

Что в программе? Айтивности для студентов, начинающих разрабов, стажёров, талантливых школьников, миддлов, айти-стартаперов, рекрутёров, молодых исследователей искусственного интеллекта. Кодим сами и заряжаем других!

А еще говорим о трансформерных моделях сегодня: что стоит за такими нейронными сетями как GigaChat?

👾 Большие языковые модели такие как GPT-4, Gemini, GigaChat и другие совершили революцию в области ИИ. Сегодня в основе всех этих модели лежит архитектура трансформер, являющаяся стандартом в области работы с текстом.

На лекции Мария Тихонова (PhD, Senior Data Scientist, SberDevices, СБЕР) разберет основные концепции, связанные с трансформерными моделями и расскажет, какие пути развития есть и моделей подобных GigaChat и GPT-4.

Кстати, цифровой аватар Марии Тихоновой для этого поста сгенерирован нейросетью.

Встречаемся 19 октября в Ставрополе на кампусе СКФУ. Будь готов к морю впечатлений и не забудь отличное настроение!

#СКФУ #новостиСКФУ #десятилетиенауки #МинобрнаукиРоссии #популяризациянауки #МФТИ

Mashkka про Data Science

13 Oct, 18:50


🚁#justaboutme: my Birthday trip to New York

Еще в сентябре обещала вам поделиться фото из поездки в США, которую я устроила себе в подарок на юбилей. Это были сумасшедшие 36 часов в Нью-Йорке, за которые я сходила на два Бродвейских мюзикла (Чикаго и Мулен Руж), встретила день рождения на Times Square и полетала на вертолете на Манхэттеном, а вот до постинга фото руки так и не дошли. Решила исправить в первом посте рубрики #justaboutme.

Mashkka про Data Science

13 Oct, 18:50


🆕Новая воскресная рубрика #justaboutme

Иногда хочется рассказать про что-то, не связанное с Data Sсienсe и ИТ, а часто вы и сами просите об этом меня (рассказать про путешествия или про что-то еще, например). Решила, завести под это отдельную рубрику #justaboutme, где буду по воскресеньям (и иногда по другим дням) делиться фото и писать посты просто про себя, как я это делаю в инсте @mashkka_tikhonova, или на FB.