Шрёдингер Кота @cats_shredinger Channel on Telegram

Шрёдингер Кота

@cats_shredinger


AI, NLP, мемы и многое другое

Авторский канал Дани Эль-Айясса @dayyass

Шрёдингер Кота (Russian)

Шрёдингер Кота - это удивительный Telegram канал, который предлагает своим подписчикам увлекательное погружение в мир искусственного интеллекта, обработки естественного языка, мемов и многого другого. Если вы увлечены технологиями и интересуетесь инновациями в области искусственного интеллекта, то этот канал для вас! Здесь вы найдете уникальный контент, который расширит ваш кругозор и позволит вам оставаться в курсе последних тенденций в мире высоких технологий. Авторский канал Дани Эль-Айясса @dayyass гарантирует качественный контент и интересные материалы, которые помогут вам развиваться и узнавать новое. Присоединяйтесь к каналу Шрёдингер Кота прямо сейчас и откройте для себя захватывающий мир технологий и искусственного интеллекта!

Шрёдингер Кота

29 Aug, 08:56


Приглашаем экспертов в data science на закрытую встречу сообщества

Когда: 29 августа, онлайн, в 18:00 по Мск.

Будем обсуждать горизонты профессионального развития в DS и машинном обучении. Темы встречи:

⚡️Как развиваться внутри data science?

⚡️Какие интересные прикладные задачи стоят перед лидерами индустрии?

⚡️Перспективы для сеньора: расти вверх по карьерной лестнице или углубляться внутри своей специализации? Поговорим про вертикальное и горизонтальное развитие

⚡️Где получать практические навыки и обмениваться опытом и связями?

Участники встречи:

- Андрей Кузнецов (AIRI)
- Евгений Смирнов (АЛЬФА-БАНК)
- Роман Поборчий (self-employed)
- Дани Эль-Айясс (Social Discovery Group)
- Владимир Ершов (Яндекс)
- Никита Зелинский (МТС)
- Александр Самойлов (Wildberries)
- Иван Бондаренко (Новосибирский государственный университет)

Встреча пройдет в формате открытой дискуссии, где каждый желающий сможет задать интересующие его вопросы. Участие бесплатное.

Регистрируйтесь на встречу и зовите коллег!

Шрёдингер Кота

29 Aug, 08:56


Друзья, всем привет! 👋

Выхожу из спячки сегодня вечером с небольшим выступлением - присоединяйтесь) 🤗

Шрёдингер Кота

29 Jul, 16:12


🚀 Уважаемые коллеги, тех, кому интересна математика и машинное обучение, приглашаем Вас принять в неформальном проекте.

Минимальное требование - Вы знакомы с Питоном, и у Вас есть несколько часов свободного времени в неделю. (Альтернативно - можно не знать Питон, но хорошо знать теорию групп (в идеале GAP,SAGE).) Задача проекта - применить машинное обучение к теории групп. Целью проекта является написание статьи в хорошем журнале, участники - соавторы. Другим бонусом будет являться - приобретение навыков по современным методам нейронных сетей, Reinforcement Learning и т.д.

Если Вам интересно участие - напишите @alexander_v_c (Александр Червов, к.ф.-м.н. мехмат МГУ, 25 лет math&DS, Kaggle, Scholar, Linkedin).
Чат для обсуждений: тут .
Вводный доклад тут.
Пояснения по RL части тут.

Краткая суть задачи может быть описана несколькими способами - нахождение пути на графе от вершины А до вершины Б, но размер графа 10^20-10^50 - обычные методы не применимы. Решение пазла типа Кубика Рубика. Задача близка к прошедшему конкурсу Каггл Санта 2023. Математически - разложение элемента группы по образующим. Математические пакеты, которые частично могут решать эту задачу - GAP,SAGE.

Достигнутые результаты - уже сейчас мы можем за минуты делать то, что авторы работы DeepCube делали за 40 часов на многих GPU.

Шрёдингер Кота

29 Jul, 16:12


Друзья, всем привет!

Мои приятели запустили очень любопытный проект - может кому будет интересно присоединиться 🔥

Шрёдингер Кота

30 Jun, 07:52


Набросал книжки/курсы, которые помогут стать хорошим DS

База
1. Классическое машинное обучение (табличные данные)
• Изучить можно по книге "Python Machine Learning by Sebastian Raschka". Читать можно все, кроме 13-й главы, которая устарела
• Специализация "Машинное обучение и анализ данных" от МФТИ и Яндекса
• Внутри 6 курсов (база по ml первые три курса, очень хороший курс по статистике 4й, 5-6 практика можно пропускать)
• Открытые решения / соревнования на Kaggle. Учат метрикам и валидации, и конечно строить звездолеты
• Лекции с датафеста https://www.youtube.com/channel/UCeq6ZIlvC9SVsfhfKnSvM9w и особенно ml training https://www.youtube.com/playlist?list=PLTlO6nV_TaGD21r6xPHhV1k7QfVuug3BB (тк это база старые доклады могут быть даже полезнее)

Практика/документация
• Углубиться в бустинги (надо хорошо понимать как и когда их применять, тк это основа в табличных задачах)
• Документация: https://catboost.ai/ https://xgboost.readthedocs.io/en https://lightgbm.readthedocs.io/en
2. Introducing MLOps (издательство O'Reilly)
• 200 страниц о том, как управлять моделями машинного обучения, чтобы они хорошо работали ("DevOps" для моделей).
3. Хайповый system design книжка Designing Machine Learning Systems (O'Reilly)
• О правильном построении моделей с точки зрения выбора метрик, поддерживаемости и масштабируемости
4. Развитие аналитических навыков – последнее в базе, но первое по важности
• Книга «Девенпорт, аналитика как конкурентное преимущество»
• Книга Data science for business
• Разобраться с SQL и Pandas – для работы с данными

5. Курс по рекомендательным системам Recsys: https://m.youtube.com/watch?v=igwNb7dBlms (основное - 5 лекций, остальное - прикладные кейсы)

6. АБ-тестирование:
• https://vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f (гайд от VK)
• https://practicum.yandex.ru/statistics-basic/ (бесплатный курс от Яндекса)
• Книга Trustworthy Online Controlled Experiments

7. NLP – путь тут длинный. Нужно разобраться в tf-idf -> Word2vec и fasttext -> lstm -> трансформеры -> berts -> gpt -> LLM (+lora). Помогут один из следующих курсов
• Курс от ШАДа по NLP https://github.com/yandexdataschool/nlp_course
• Хорошо зарекомендовавший https://lena-voita.github.io/nlp_course.html
• База до трансформеров включительно от Abby, хоть и немного устаревший https://github.com/DanAnastasyev/DeepNLP-Course
• Здесь и далее очень круто погружают различные публикации с обзорными статьями. Наприме A Comprehensive Overview of Large Language Models https://arxiv.org/pdf/2307.06435

8. CV. Deep Learning with PyTorch база по DL. Практическая книга по компьютерному зрению (как построить первые модели для классификации, сегментации). А дальше уже самостоятельно изучать темы. Важные блоки:
• image classification
• segmentation
• GAN
• object detection
• instant segmentation
• pose estimation
• diffusion models
• multimodal models
• Vision Transformer
• +обзорные статьи


PS Если есть что добавить пишите в комментарии)

Шрёдингер Кота

30 Jun, 07:52


Друзья, всем привет! 👋

Больше ТГ каналов Богу ТГ каналов 😅

Не могу не поделиться тем, что мой дорогой друг Инсаф завел канал - с его опытом ему точно есть, чем полезным поделиться с людьми) 💪

@ai_tablet

Шрёдингер Кота

25 Jun, 19:19


ChatGPT теперь доступен на Mac! 🔥

Шрёдингер Кота

09 Jun, 11:00


Друзья, посоветуйте хорошие курсы/книги по Data Engineering, но с уклоном в Data Architecture? 🙏

Шрёдингер Кота

07 Jun, 11:30


Мы строили, строили и наконец-то построили :) Книга «Охота на электроовец: большая книга искусственного интеллекта» вышла из печати и доступна к заказу. Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно: http://markoff.science#book

«Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта»

Шрёдингер Кота

06 Jun, 19:46


Немного GPT-4 intepretability от OpenAI:
https://openai.com/index/extracting-concepts-from-gpt-4/

Шрёдингер Кота

04 Jun, 06:54


Ребята, мне интересно, у меня одного с момента выхода GPT-4o обычный ChatGPT-3.5 откатился до уровня RNN 2015 года? 🤔

Шрёдингер Кота

03 Jun, 12:25


Друзья, всем привет)

Осенью того года у меня началась череда интересных событий, которыми я не успел тогда поделиться с вами - первый семестр учебного года я читал курс по NLP во ВШЭ и в МФТИ 📖

Честно говоря, давно имел большое желание поделиться знаниями и опытом и наконец-то дошел до этого
По мере чтения лекций и подготовки к ним я сам повторял для себя какие-то моменты из NLP, поэтому в том числе и для меня это было полезно 🔥

Ну а о качестве и полезности курса, тут уж судить не мне, но кажется, что ребята остались довольны 🤗
В этом году планирую продолжить чтение курса

Также с некоторыми студентами мы продолжили взаимодействие уже в рамках написания магистерских диссертаций и вот на этой неделе у них будет защита
Хочу пожелать вам успешно все защитить, была проделена отличная работа - вы большие молодцы и у вас все получится ❤️

Шрёдингер Кота

30 May, 19:13


Друзья, всем привет) 👋

Возможно некоторые из вас уже знают, что я покидаю SberDevices и в целом Сбер - завтра у меня последний рабочий день 😢

Знаю, что меня в том числе читают мои друзья и коллеги по цеху - хочу обратиться в первую очередь к ним ❤️

Для меня было большим счастьем работать вместе с вами все это время над GigaChat, я искренне считаю, что мы все сделали очень большое дело и сделали это на высшем уровне 🚀
Я много чему научился у вас, вы - топовые ребята в индустрии, уверен, что вы знаете об этом, но лишним никогда не будет об этом напомнить 🤗

Мы ни с кем не прощаемся и не теряемся, я всегда на связи 🙏

Завтра буду накрывать прощальную полянку в Сбере, поэтому всех, кто будет в офисе, буду рад видеть 👀

Шрёдингер Кота

22 May, 07:50


Когда дело касается векторизации текстов на русском языке, моим личным фаворитом является модель Multilingual Universal Sentence Encoder (mUSE) версии large, которая помимо русского и английского может работать с еще 14 языками и которая очень хорошо себя зарекомендовала на многих прикладных задачах.
За примером далеко идти не надо, Давид Дале в своей статье про сравнение рускоязычных энкодеров предложений сравнивает много моделей, где mUSE находится в лидерах 💪

Но есть некоторая "проблема", если так можно выразиться - модель доступна только в версии на TF / TF Hub, при этом я сам не раз ощущал потребность в том, чтобы дотюнить ее под свои задачи.
И вот уже на протяжении двух лет я вынашивал идею того, чтобы экспортировать ее на PyTorch. Более того, я даже два раза предпринимал попытки сделать это, упирался в какие-то трудности и ограничения, и бросал это дело 😭

И вот сейчас я наконец-то довел это дело до конца и экспортировал эту модель в PyTorch, чем хочу поделиться с вами! ❤️
Сама модель доступна в HF Models, напрямую через torch (пока без нативной поддержки transformers), код конвертации и сама проделанная работа доступны в GitHub 🔥

Честно говоря, работы была не самой простой, и по факту я полностью вручную переписывал граф вычислений TF/ONNX на PyTorch. Надеюсь, что это будет полезно во времена доминирования PyTorch, особенно учитывая тренд с RAG подходами, где как раз таки нужны хорошие и сильные энкодеры для end-to-end обучения 🙏

Шрёдингер Кота

22 May, 07:44


Друзья, всем привет! 👋

Давно мы с вами не слышались на этом канале, к сожалению, уж такие были обстоятельства...
Если коротко, то можно сказать, что наступила весна, уже и лето близится, и в эти периоды времени я нахожу силы для ведения канала.
Осенью и зимой с этим все сложно 😓

На самом деле мысль написать что-то в канале появилась у меня месяц-полтора назад, но мне не хотелось ограничиваться просто текстом, мол "я жив, всем привет" - мне хотелось обыграть это поинтереснее, сделать что-то интересное и полезное, чем-то поделиться с вами и коммьюнити 🤔

Поэтому я приготовил для вас классную, как мне кажется, вещь, о полезности которой уже судить вам 🤗

Подробнее об этом напишу в посте ниже, а этим сообщение хочется сказать о своем возвращении из спячки - друзья, рад снова быть с вами ❤️

Шрёдингер Кота

26 Sep, 10:58


🏆Сегодня мы официально запускаем новый AIJ Contest, в котором заявлено 5 крутых задач с общим призовым фондом 11+ млн. рублей!!!

1) Strong Intelligence — создать мультимодальную модель, которая обыгрывает знатоков интеллектуальных викторин и показывает суперуровень эрудиции

2) Unique RecSys — обучить ИИ-алгоритм подбирать наиболее релевантный контент

3) Personal AI — создать человекоцентричного ИИ-помощника

4) Equal AI — сделать сервисы доступными каждому — обучить модель распознавать русский жестовый язык по видео

5) Rescue AI — разработать новый способ расшифровки генома

Обо всех задачах подробно можно прочитать здесь

Первая же задача Strong Intelligence (самая сложная и на повестке современных мультимодальных исследований) разрабатывалась нашей командой AIRI + Sber AI — очень хочется получить много интересных крутых решений. Готов отвечать на вопросы, если будут возникать!

Скоро откроем гитхаб и в ближайшее время проведём вебинар, где расскажем подробно про задачи и ответим на возникающие вопросы, а пока желаю всем продуктивного погружения в контекст задач🦾

Следите за информацией)

Шрёдингер Кота

26 Sep, 09:19


#nlp #про_nlp #nlp_papers
🌸Зоопарк русскоязычных NLP-моделей🌸

Вышел препринт, объединяющий всю работу AI Forever над семейством языковых моделей для русского языка!
A Family of Pretrained Transformer Language Models for Russian

13 русскоязычных трансформеров описаны и провалидированы в одной статье:
— encoder (ruBERT, ruRoBERTa, ruELECTRA)
— decoder (ruGPT-3)
— encoder-decoder (ruT5, FRED-T5)
+ их версии разных размеров.

Результаты приводятся для всех моделей, а также в сравненнии с бейзлайнами, например, YaLM P-tune и RuLeanALBERT.
Бенчмарки и тесты: интеллектуальные навыки (RussianSuperGLUE), оценка способности к языку (RuCoLA), оценка токсичности, а также тесты суммаризации, симпликифации и детоксификации текста.

🟣Статья на Arxiv
🟣Хаб моделей на HuggingFace
🟣Все модели: ruBERT-base, ruBERT-large, ruRoBERTa-large, ruELECTRA-small, ruELECTRA-medium, ruELECTRA-large, ruGPT-3-small, ruGPT3-medium, ruGPT-3-large, ruT5-base, ruT5-large, FRED-T5-large, FRED-T5-XL

Шрёдингер Кота

25 Sep, 10:25


Более 100 млн человек в мире уже используют chatGPT. В чем уникальность и секрет популярности этой модели Что у неё «под капотом» И как можно ее усовершенствовать

📍 УЖЕ СЕГОДНЯ ответим на эти вопросы и обсудим все детали на вебинаре «ChatGPT & Co».
Подключайся 25 сентября в 19:00.
🔥 Ссылку найдешь в своем личном канете после регистрации.

С вами встретится один из разработчиков GigaChat, исполнительный директор в SberDevices, магистрант ВМК МГУ Дани Эль-Айясс 👩‍💻

На лекции разберем методы, лежащие в основе типа ChatGPT и расскажем про GigaChat - мультимодальную нейросеть от Сбера.

#десятилетиенауки #МинобрнаукиРоссии #популяризациянауки

Шрёдингер Кота

25 Sep, 10:25


Друзья, всем привет!) 👋

Сегодня в 19:00 выступаю с докладом про ChatGPT-подобные модели, присоединяйтесь) 🔥