MarksRemarks Telegram 帖子
MarksRemarks 在 Telegram 上分享的最新内容
Теперь вы знаете куда поступать чтобы зарабатывать 300к в секунду 😅
Приглашаем экспертов в data science на закрытую встречу сообщества
Когда: 29 августа, онлайн, в 18:00 по Мск.
Будем обсуждать горизонты профессионального развития в DS и машинном обучении. Темы встречи:
⚡️Как развиваться внутри data science?
⚡️Какие интересные прикладные задачи стоят перед лидерами индустрии?
⚡️Перспективы для сеньора: расти вверх по карьерной лестнице или углубляться внутри своей специализации? Поговорим про вертикальное и горизонтальное развитие
⚡️Где получать практические навыки и обмениваться опытом и связями?
Участники встречи:
- Андрей Кузнецов (AIRI)
- Евгений Смирнов (АЛЬФА-БАНК)
- Роман Поборчий (self-employed)
- Дани Эль-Айясс (Social Discovery Group)
- Владимир Ершов (Яндекс)
- Никита Зелинский (МТС)
- Александр Самойлов (Wildberries)
- Иван Бондаренко (Новосибирский государственный университет)
Встреча пройдет в формате открытой дискуссии, где каждый желающий сможет задать интересующие его вопросы. Участие бесплатное.
✅ Регистрируйтесь на встречу и зовите коллег!
Когда: 29 августа, онлайн, в 18:00 по Мск.
Будем обсуждать горизонты профессионального развития в DS и машинном обучении. Темы встречи:
⚡️Как развиваться внутри data science?
⚡️Какие интересные прикладные задачи стоят перед лидерами индустрии?
⚡️Перспективы для сеньора: расти вверх по карьерной лестнице или углубляться внутри своей специализации? Поговорим про вертикальное и горизонтальное развитие
⚡️Где получать практические навыки и обмениваться опытом и связями?
Участники встречи:
- Андрей Кузнецов (AIRI)
- Евгений Смирнов (АЛЬФА-БАНК)
- Роман Поборчий (self-employed)
- Дани Эль-Айясс (Social Discovery Group)
- Владимир Ершов (Яндекс)
- Никита Зелинский (МТС)
- Александр Самойлов (Wildberries)
- Иван Бондаренко (Новосибирский государственный университет)
Встреча пройдет в формате открытой дискуссии, где каждый желающий сможет задать интересующие его вопросы. Участие бесплатное.
✅ Регистрируйтесь на встречу и зовите коллег!
Энкодечка мёртв, да здравствует ruMTEB!
Пару лет назад я много писал про сравнение русскоязычных энкодеров предложений по качеству, размеру и быстродействию. Тогда (а на самом деле даже в 2021) я создал бенчмарк Энкодечка, позволяющий выявить оптимальные модели по соотношению этих трёх параметров. И эти три года он был единственным более-менее живым бенчмарком, позволяющим сравнивать такие модели.
Спустя некоторое время появился бенчмарк MTEB, выполнявший похожую роль для английского. В отличие от Энкодечки, MTEB не особо интересуется размером и быстродействием моделей, но в эпоху, когда нейросети с семью миллиардами параметров считаются "маленькими", это вроде как никому особо и не нужно. Благодаря хорошему покрытию задач и простоте добавления моделей, MTEB стал популярен, и в него стали постепенно просачиваться и другие языки (вдобавок к нескольким мультиязычным задачам, включённым туда с самого начала).
И вот совсем недавно что ребята из Сбера добавили в MTEB большую пачку русскоязычных задач (17 новых, вдобавок к 6 мультиязычным задачам из MTEB, где и так уже был включён русский). Это новое двадцатитрёхзадачаное русскоязычное подмножество MTEB достаточно хорошо охватывает все типы задач, присутствовавшие в Encodechka (кроме NER, которое вообще-то не про эмбеддинги предложений, и которое я прилепил сбоку чисто по приколу), плюс покрывает поиск и переранжирование документов - то, чего в энкодечке не было (потому что он фокусировался на отдельных предложениях).
Этот новый бенчмарк совершенно логично прозвали ruMTEB, и отныне рулить будет он.
Динамического лидерборда там пока нет, но в обозримом будущем должен появиться.
Добавлять новые модели в репо энкодечки всё ещё можно, но каких-то серьёзных обновлений я больше не планирую.
Поддерживать популярные проекты приятно. Но когда их можно больше не поддерживать, приятно тоже 🙃
Пару лет назад я много писал про сравнение русскоязычных энкодеров предложений по качеству, размеру и быстродействию. Тогда (а на самом деле даже в 2021) я создал бенчмарк Энкодечка, позволяющий выявить оптимальные модели по соотношению этих трёх параметров. И эти три года он был единственным более-менее живым бенчмарком, позволяющим сравнивать такие модели.
Спустя некоторое время появился бенчмарк MTEB, выполнявший похожую роль для английского. В отличие от Энкодечки, MTEB не особо интересуется размером и быстродействием моделей, но в эпоху, когда нейросети с семью миллиардами параметров считаются "маленькими", это вроде как никому особо и не нужно. Благодаря хорошему покрытию задач и простоте добавления моделей, MTEB стал популярен, и в него стали постепенно просачиваться и другие языки (вдобавок к нескольким мультиязычным задачам, включённым туда с самого начала).
И вот совсем недавно что ребята из Сбера добавили в MTEB большую пачку русскоязычных задач (17 новых, вдобавок к 6 мультиязычным задачам из MTEB, где и так уже был включён русский). Это новое двадцатитрёхзадачаное русскоязычное подмножество MTEB достаточно хорошо охватывает все типы задач, присутствовавшие в Encodechka (кроме NER, которое вообще-то не про эмбеддинги предложений, и которое я прилепил сбоку чисто по приколу), плюс покрывает поиск и переранжирование документов - то, чего в энкодечке не было (потому что он фокусировался на отдельных предложениях).
Этот новый бенчмарк совершенно логично прозвали ruMTEB, и отныне рулить будет он.
Динамического лидерборда там пока нет, но в обозримом будущем должен появиться.
Добавлять новые модели в репо энкодечки всё ещё можно, но каких-то серьёзных обновлений я больше не планирую.
Поддерживать популярные проекты приятно. Но когда их можно больше не поддерживать, приятно тоже 🙃
Сегодня разобщались со знакомыми на тему собесов и подготовки к ним. Разговор зашел об этапе алгоритмов и я вскользь прокинул что недостаточно знать как решаются алгоритмы, важно еще понимать как устроен язык на котором вы пишите. Один из ребят посоветовал лекции Никиты Соболева. Я как человек который постоянно проводит собесы в девайсах посмотрел, понравилось и вот вам советую. Каждая видеолекция это раскрытие определенной темы и прикольно что он сделал 3 разных уровня погружения в тему: junior, middle, senior.
Кароч пользуйтесь перед подготовкой к собесам, особенно к нам 😉
Кароч пользуйтесь перед подготовкой к собесам, особенно к нам 😉
Всем привет! Давно ничего не писал и на то есть причина. Наткнулся сейчас на интересный пост и понял что примерно месяц назад поймал себя на этом же. Советую его прочитать и тогда вы поймете в чем причина длительного инактива в канале.
P.S. Кстати чтобы уменьшить «облако суеты» заняло почти месяц. Так что чем раньше вы начнете, тем раньше сможете выдохнуть и начнете продуктивно работать 🫡
P.S. Кстати чтобы уменьшить «облако суеты» заняло почти месяц. Так что чем раньше вы начнете, тем раньше сможете выдохнуть и начнете продуктивно работать 🫡