Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение @dsproglib Channel on Telegram

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

@dsproglib


Все самое полезное для дата сайентиста в одном канале.

Список наших каналов: https://t.me/proglibrary/9197
Учиться у нас: https://proglib.io/w/f83f07f1

Обратная связь: @proglibrary_feedback_bot

По рекламе: @proglib_adv
Прайс: @proglib_advertising

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение (Russian)

Добро пожаловать в канал "Библиотека data scientist’а"! Если вы интересуетесь Data Science, Machine learning, анализом данных и машинным обучением, то этот канал именно для вас. Мы собрали все самое полезное для дата сайентиста в одном месте, чтобы помочь вам расширить знания и навыки в сфере аналитики и искусственного интеллекта.

Наши каналы предлагают широкий спектр информации и обучающих материалов. Вы можете найти ссылки на курсы, статьи, исследования, видеоуроки и многое другое, что поможет вам углубиться в мир data science. Кроме того, мы также предлагаем возможность обратной связи через специального бота, чтобы вы могли делиться своими мыслями и идеями с нами.

Хотите узнать больше о нас и начать учиться прямо сейчас? Посетите наш сайт по ссылке https://proglib.io/w/f83f07f1 и присоединяйтесь к нашему сообществу. Мы всегда рады новым участникам, которые стремятся к профессиональному росту в области data science. Подписывайтесь на наш канал, чтобы быть в курсе всех новостей и обновлений.

Хотите связаться с нами по вопросам рекламы? Обращайтесь к нашему специалисту по рекламе по ссылке @proglib_adv и узнайте о всех возможностях размещения вашей информации на наших платформах. Мы также предоставляем информацию о ценах и условиях рекламы, которые могут быть вам полезны в продвижении ваших продуктов и услуг.

Не упустите возможность стать лучшим в своей области с помощью канала "Библиотека data scientist’а"! Присоединяйтесь к нам прямо сейчас и начните погружение в увлекательный мир анализа данных и машинного обучения.

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

03 Dec, 10:01


Новый уровень продуктивной разработки: добро пожаловать на платформу GitVerse

На платформе для работы с исходным кодом GitVerse можно легко и удобно организовать разработку любых проектов: писать и проверять код, автоматизировать CI/CD-процессы, общаться с единомышленниками и стать частью open source сообщества.

Что еще могут пользователи GitVerse:
– переносить проекты с других git-площадок в один клик;
– размещать открытые и приватные репозитории, работать самостоятельно и в командах;
– управлять проектами с помощью удобных досок и карточек, назначать роли, ревьюеров и делать все процессы прозрачными;
– делегировать рутинные задачи AI-ассистенту GigaCode, чтобы посвятить время по-настоящему интересным задачам!

Регистрируйтесь на платформе GitVerse и повышайте эффективность разработки!

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

02 Dec, 18:20


Оценка смешанных байесовских моделей в R/Python

В этой статье автор знакомит с некоторыми полезными визуальными методами проверки и оценки для байесовских моделей (не ваши типичные RMSE) как в R, так и в Python.

Читать статью

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

29 Nov, 18:00


🤖 Обзор новостей и сервисов в мире ИИ

👇Это небольшая выдержка из нашей еженедельной рассылки.

📰 Новости

🔘Компания Niantic, выпустившая игры Ingress и Pokémon Go, объявила о планах по использованию игровых данных для создания геопространственной модели — цифрового двойника реального мира.

🔘Китайские разработчики создали ИИ-симулятор реальности The Matrix. Симулятор может предсказывать поведение объектов в разных средах без предварительного обучения. Это дает ему возможность бесконечно генерировать гиперреалистичные видеосцены в разрешении 720p, поддерживая взаимодействие с пользователем в реальном времени.

🪚 Инструменты

🔘Eraser — генератор и редактор диаграмм и схем.

🔘PaperGen — генерирует объемные академические и бизнес-публикации с точными цитатами и ссылками на источники информации.

🔘Image to Prompt — создаёт детальные промпты для Midjourney и Stable Diffusion, анализируя загруженное изображение-референс.

⚗️ Дистилляция знаний: как передать знания от одной модели другой

Разработчики PyTorch продемонстрировали пример использования техники дистилляции знаний для уменьшения объёма модели Llama 3.1* (8B параметров) до Llama 3.2* (1B параметров) с помощью инструмента torchtune.

Больше интересного — в нашей рассылке. Подписаться на неё можно по этой ссылке 👈

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

29 Nov, 07:41


📊 Системный и бизнес-аналитик: пошаговый гайд к востребованной профессии

Пару слов о еще одном безумном разделении во вселенной IT-специальностей: системный и бизнес-аналитик. Рассказываем в нашей статье, чем занимаются представители профессии, сколько зарабатывают и как войти в эту сферу деятельности.

🔗 Ссылка

Хочешь стать бизнес-аналитиком? У нас есть отличный курс, который поможет подтянуть математику:
🔵 Математика для Data Science

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

28 Nov, 18:14


🤔🔥🪦 Беспощадный Frontend-тест: уволься сам, если не наберёшь 7 из 10!

DS и ML — это, как правило, не про фронтенд. Но везде бывают исключения.

А насколько хорошо ты разбираешься в CSS, JS и вот этом вот всём?

👉 Проверь себя

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

28 Nov, 13:52


🧑‍💻 Измеряем интеллект LLM: как построить метрики для оценки реальных умений языковых моделей

Новая статья на «Хабре» раскрывает важный нюанс в оценке языковых моделей: классические методы тестирования не отражают реальную ценность LLM в бизнес-задачах. Модели создаются не только для решения школьных тестов, а для практического применения — ведения диалогов, перевода, суммаризации и генерации идей. Универсального способа для оценки моделей не существует — наиболее эффективным себя показывает комплексный подход. Например, в Яндексе применяют несколько способов оценки:

▪️Специальные тесты на здравый смысл (COPA, PIQA, OpenBook, WinoGrande)
▪️Внутренние бенчмарки, разработанные под реальные бизнес-сценарии
▪️Экспертная оценка через систему AI-тренеров, которые проверяют практическую применимость модели

Так на практике оценка качества работы модели оказывается не менее сложной задачей, чем ее создание.

🔗 Читать статью

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

28 Nov, 11:00


#дайджест #DataInternship

Подборка стажировок недели для Data специалистов

▪️ Аналитик-стажер
Гибрид (Москва), Nestle
Подробнее

▪️ Аналитик Excel (стажер)
Офис (Омск), T2. Tech
Подробнее

▪️ Стажер/Data Engineer (блок "Стратегия и развитие")
Гибрид (Москва), Сбер
Подробнее

▪️ Intern / Cтажер / BI-разработчик
Гибрид (Москва), НИЖФАРМ
Подробнее

▪️ Data Engineering Intern / Стажер дата-инженер
Офис (Москва), Procter & Gamble
Подробнее

Понравились предложения о стажировке?
❤️ — да
🤔 — нет

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

28 Nov, 07:11


🐼 Sketch — ИИ-помощник для написания Pandas-кода

Поддерживает разные методы для работы с данными с помощью естественного языка:

▪️.sketch.ask — позволяет задавать вопросы о данных, например «Which columns are integer type?»
▪️.sketch.howto — генерирует блок кода для выполнения вашей задачи, например «Plot the sales versus time».

🔗 Ссылка на репозиторий проекта

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

27 Nov, 16:25


🎉 Розыгрыш от Proglib Academy и DigitalRazor!

С 27 ноября по 27 декабря у вас есть шанс не только прокачать свои навыки, но и выиграть ПК при покупке любого курса Академии!

🎁 Призы для участников акции:

– Игровой ПК DigitalRazor ProGaming
– VIP-пакет курса Proglib Academy

💡 Как принять участие?
Купите любой курс Proglib Academy с 27 ноября по 27 декабря и получите шанс выиграть мощный ПК.

Приобретите технику DigitalRazor — участвуйте в розыгрыше VIP курса.

📅 Вместе с DigitalRazor мы создали спецпредложение -50% на курсы до 30 ноября, чтобы вы могли начать обучение на более выгодных условиях.

Выбрать курс

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

27 Nov, 14:17


#memes

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

27 Nov, 12:14


⚡️ Напоминаем: у нас можно (и нужно) купить рекламу

→ Более 60 телеграм-каналов по всем направлениям IT
→ Почти 1,2 миллиона аудитории
→ Собственное медиа и сайт с DAU 25 000 — можем усилить продвижение
→ Классные email-рассылки
→ И, конечно же, крутые контент-менеджеры, которые сделают нативную интеграцию/придумают виральный пост/реализуют любые контентные предпочтения

Для заказа пишите сюда: @proglib_adv

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

27 Nov, 07:36


🎓💻🔍 Как не попасть на инфоцыган: 8 критериев выбора онлайн-школы

Не знаете, как выбрать онлайн-школу с качественной учебной программой? Мы собрали 8 основных критериев, которые помогут вам найти идеальное место для обучения.

👉 Читать статью

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

26 Nov, 18:06


💬 А вы читаете научные статьи на тему ML/AI?

❤️ — да, регулярно
👍 — иногда читаю
👾 — не читаю

#интерактив

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

26 Nov, 11:06


🎓Небольшая подборка курсов по машинному обучению и data science

🔹Diffusion Models and Their Applications

Это курс Корейского технологического института KAIST по генеративным нейросетям. Охватывает GAN, VAE, диффузионки, дистилляцию и прочее.

🔹Brilliant
Платформа с курсами по разным темам: теория вероятностей, программирование, нейронные сети, логика и др. Бесплатно дают пройти только 9 уроков, поэтому выбирайте то, что вам наиболее интересно.

🔹Prompt evaluations
Курс от Anthropic по оценке промптов. Включает в себя ноутбуки со всем нужным кодом.

🔹CUDA Programming Course
Бесплатный курс freeCodeCamp по программированию на CUDA.

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

26 Nov, 07:36


🦾 Мы живём в киберпанке

#memes

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

25 Nov, 18:46


🦛 Chonkie — библиотека для разделения текста для создания RAG-систем

Поддерживает:

🔘TokenChunker — для разделения текста на фиксированные по размеру куски на базе токенов;
🔘WordChunker — для разделения текста на куски на базе слов;
🔘SemanticChunker — для разделения текста на куски на базе семантического сходства.

🔗 Ссылка на репозиторий Chonkie

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

25 Nov, 15:07


Что будет, если DigitalRazor объединится с Proglib Academy? Правильно! Новый розыгрыш.

Условия:

Подпишитесь на DigitalRazor;
Подпишитесь на «Библиотеку программиста»;
Нажмите кнопку «Участвовать» под этим постом.

Призы:

1-е место: 27-дюймовый монитор;
2, 3 и 4-е место: сертификат номиналом 20 000 рублей на ИТ-курсы от Proglib Academy;
5-е место: геймерская клавиатура + коврик на выбор.

Призы разыграем 1 декабря в 20:00 (МСК).

Доставка призов возможна только по городам России и Белоруссии.

Proglib Academy создаёт онлайн-курсы для программистов, помогает получить востребованные навыки и построить успешную карьеру в IT.

Игровые компьютеры и рабочие станции DigitalRazor — это качественная сборка, топовое железо и эффектный дизайн.

Регламент розыгрыша

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

25 Nov, 07:23


📚 5 ключевых книг для начала в Data Science

Представляем подборку книг, которые помогут вам заложить фундамент в Data Science и освоить более сложные методы анализа данных.

Хочешь ускорить обучение? У нас есть отличный курс:
🔵 Математика для Data Science

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

24 Nov, 18:02


👆 Визуальная шпаргалка по техникам: Transfer Learning, Fine-tuning, Multitask Learning и Federated Learning

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

24 Nov, 07:06


🧑‍💻 Дообучаем языковую модель GPT2 с помощью Torch

Новая статья на «Хабре» рассказывает, как дообучить небольшую языковую модель вручную на локальном ПК или с бесплатной средой Google Colab. Сетап такой:

▪️модель DistilGPT2
▪️датасет QuyenAnhDE/Diseases_Symptoms
▪️библиотека PyTorch

🔗 Читать статью

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

23 Nov, 18:04


🐼 Pandas и его странности с защитой данных

#memes

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

23 Nov, 07:07


🤖 Обзор новостей и сервисов в мире ИИ

👇Это небольшая выдержка из нашей еженедельной рассылки.

📰 Новости

🔘Венчурный фонд Microsoft и гендиректор GitHub Томас Домке вложили $7 млн в стартап Fastino, разрабатывающий ИИ-модели, которые не нуждаются в дорогих GPU и могут работать на обычных CPU потребительского класса.

🔘Сотрудники OpenAI, тестирующие новую модель «Орион», сообщили, что, несмотря на общее улучшение производительности по сравнению с предшествующими моделями, степень этого улучшения все же значительно ниже, чем в предыдущих обновлениях (в особенности при переходе от GPT-3 к GPT-4).

🪚 Инструменты

🔘PearAI — опенсорсный ИИ-редактор кода, альтернатива Cursor.

🔘PlayNote — создаёт профессиональные подкасты из любых текстовых файлов.

🔘Canva — превращает схематичные наброски в фотореалистичные изображения

🤗 Building AI Applications with Hugging Face

Это большая коллекция туториалов по разработке разных ИИ-приложений. Для каждого проекта предоставлены статья, код в Kaggle Notebook и YouTube-видео.

Больше интересного — в нашей рассылке. Подписаться на неё можно по этой ссылке 👈

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

22 Nov, 18:02


✍️ Large Language Models explained briefly

Это новый ролик на канале 3Blue1Brown. Объясняет суть работы больших языковых моделей с помощью красивых визуализаций

🔗 Смотреть на YouTube

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

22 Nov, 13:01


🤖 Новый инструмент для создания AI-ассистентов

Зарелизил сервис Yandex B2B Tech. API уже доступен всем пользователям Yandex Cloud. В будущем сервис будет поддерживать и опенсорс-модели. Главный плюс — автоматизированный процесс создания: достаточно подгрузить необходимые файлы, чтобы ассистент отвечал с опорой на них.

ИИ-ассистенты способны обрабатывать большие объёмы данных быстрее и точнее, чем люди. Они могут использоваться для прогнозирования тенденций, анализа рынка и принятия решений.

👉Подробности тут

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

22 Nov, 10:15


Популярные ресурсы по Машинному Обучению, ИИ и анализу данных.

🧠 Machine Learning — авторский Telegram канал, который содержит всю базу для работы с ИИ-моделями. Дайджесты лучших проектов, разбор кода, инструкции по запуску LLM, подготовка к собесу и многое другое.

📚 Data Science — редкая литература, статьи, курсы и уникальные гайды для мл специалистов любого уровня. Читайте, развивайтесь, практикуйте.

💼 Data Jobs — актуальные предложения от самых крупных работодателей и лидеров рынка в сфере Машинного обучения.

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

22 Nov, 07:15


📈 Почему Big data так быстро развивается?

Хотите получить востребованную и высокооплачиваемую профессию. Начните с понимания, куда движется индустрия. В нашей статье поговорим о Big Data — одном из самых горячих и перспективных направлений в IT.

🔗 Ссылка

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

21 Nov, 18:05


Тест: 👨‍💻🚀 Насколько ты продвинутый разраб?

Говорят, что джун становится мидлом, когда начинает понимать, как мало он знает. Этот тест покажет, насколько ты продвинулся в своём развитии.

👉 Пройти

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

21 Nov, 15:01


📢 Погружаемся в мир рекомендаций на открытом вебинаре «Ранжирующие функции потерь в рекомендательных системах» 📊

🗓 Дата: 27 ноября в 20:00 МСК
🔗Ссылка для записи: https://otus.pw/SCMp/

Вы изучаете Data Science или просто хотите глубже понять мир ML? Этот вебинар для вас.

🔍 На вебинаре:
- Узнаете о популярном подходе к построению рекомендательных системах: collaborative filtering.
- Поймете, в чем отличия ранжирующих функций потерь от других функций, используемых в этой области.
- Изучите архитектуру модели BPRMF и применим ее на практике.

Регистрируйтесь прямо сейчас, чтобы получить скидку на обучение в рамках курса «Machine Learning. Advanced» 👉

Не упустите возможность расширить свои знания и задать вопросы эксперту! 🚀

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

21 Nov, 11:04


🧡💛 Google Colab снизил цены на использование GPU

В частности, на 20% снизились цены на NVIDIA A100 и L4 GPU. Подешевели также процессоры T4. А вот CPU с большим количеством памяти наоборот немного подорожали.

У Colab теперь есть отдельный тариф Pay As You Go. Он не требует подписки, вы просто покупаете вычислительные единицы, если вам нужно. Они доступны в течение 90 дней.

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

21 Nov, 07:12


Что такое градиентный спуск в машинном обучении

Градиентный спуск — это базовый метод оптимизации в машинном обучении, который помогает моделям «учиться» за счет минимизации ошибок.

🌻 Как это работает?

1. Выбор начальной точки: Обычно это случайное положение.

2. Вычисление градиента: Находится производная функции ошибки, которая показывает, где спуск происходит быстрее.

3. Шаг вниз: Шаг размером «learning rate» — это скорость, с которой мы движемся вниз.

4. Повтор: Мы повторяем процесс, пока не достигнем минимальной ошибки.

В курсе по машинному обучению мы подробнее рассказываем о градиентном спуске:
🔵 Базовые модели ML и приложения

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

20 Nov, 18:04


Чем различаются стандартное отклонение и стандартная ошибка?

▪️Стандартное отклонение (SD) показывает, насколько данные в выборке или генеральной совокупности в среднем отклоняются от своего среднего значения. Это мера разброса данных, используемая для оценки их вариативности. Например, если стандартное отклонение большое, это означает, что значения в выборке сильно отличаются друг от друга.

▪️Стандартная ошибка (SE) показывает, насколько точно среднее значение выборки (sample mean) оценивает среднее значение генеральной совокупности (population mean). Она уменьшается с увеличением размера выборки, так как большее количество данных позволяет лучше оценить истинное среднее.

Так, если стандартное отклонение — это показатель изменчивости элементов в выборке, то стандартная ошибка — показатель изменчивости средних значений выборок.

#вопросы_с_собеседований

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

20 Nov, 08:05


🤖🛠 11 лучших ИИ-инструментов для разработки в 2024 году

В мире разработки программного обеспечения искусственный интеллект становится незаменимым помощником, способным значительно повысить продуктивность и качество кода. Представьте себе инструменты, которые не только автоматически дополняют ваш код, но и генерируют целые фрагменты, преобразуют дизайн в готовый код и обеспечивают безопасность вашего приложения. Хотите узнать, какие ИИ-инструменты помогут вам быть на шаг впереди в 2024 году? Откройте для себя решения, которые сделают ваш рабочий процесс более эффективным и инновационным.

🔗 Читать статью
🔗 Зеркало

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

19 Nov, 20:02


🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

19 Nov, 18:03


💬 Сколько часов в день вы тратите на рабочие созвоны?

❤️ — меньше часа
👍 — от часа до двух
👾 — от двух до трёх часов
🌚 — почти весь рабочий день состоит из созвонов

#интерактив

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

19 Nov, 11:01


👆 Шпаргалка по стратегиям для обучения на GPU

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

19 Nov, 07:01


Первый курс ШАДа: чего ожидать

Семестр 1:

— Машинное обучение 1: Курс охватывает классические темы: линейная и логистическая регрессия, PCA, t-SNE, различные методы бустинга.

Алгоритмы 1: Это сложный, но невероятно полезный курс. Здесь вас ждёт много задач на платформе Яндекс.Контест и код-ревью. Программа включает всё: от сортировок и деревьев до графов и динамического программирования.

Python: Глубже изучаем язык, включая такие темы, как декораторы, виртуальная машина, асинхронное программирование.

Семестр 2:

Машинное обучение 2
Курс даёт ввод в CV, временные ряды, трансформеры и генеративные модели. Это обзорное занятие, которое помогает определиться с интересами на втором курсе.

Основы статистики в ML:
Тут раскрываются важные статистические методы, такие как метод Монте-Карло, EM-алгоритмы, бутстрап, дельта-метод и многое другое. Практика — это основа курса, задачи помогут лучше понять, что стоит за алгоритмами.

Курсы насыщенные, но максимально полезные для будущего в аналитике данных или ML.

Начни свой путь к успеху с нашим курсом, который подойдет для подготовки к ШАД:
🔵 Математика для Data Science

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

18 Nov, 18:10


✍️ Decisions&Dragons: гайд по обучению с подкреплением

Сайт содержит вопросы и ответы по ключевым темам обучения с подкреплением. Например:

▪️Что такое горизонт в обучении с подкреплением?
▪️Почему Q-learning не работает с непрерывными действиями?
▪️В чём разница между model-based и model-free обучением с подкреплением?

🔗 Ссылка на сайт

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

18 Nov, 09:01


📚 5 must-read книг для старта в Data Science

Собрали для вас подборку книг, которые помогут освоить основы Data Science и прокачаться в продвинутых техниках анализа данных.

Хочешь ускорить обучение? У нас есть отличный курс:
🔵 Математика для Data Science

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

18 Nov, 06:03


❗️Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов

Подробности тут

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

17 Nov, 18:02


🦔 Привет ветеринарам!

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

17 Nov, 07:00


🔥 Нашли шпаргалку по Machine Learning

На одной картинке — весь мир машинного обучения.

На ней ключевые направления:

Регрессия (OLS, SVM, Random Forest)
Классификация (Naive Bayes, Decision Tree, нейронки)
Кластеризация (K-Means, DBSCAN)
Компьютерное зрение (CNN, YOLO, GANs)
NLP/LLM (GPT, BERT, Word2Vec)
Рекомендательные системы, Прогнозирование

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

16 Nov, 18:02


🧑‍💻🎓 Machine Learning Crash Course — бесплатный курс от Google обновился

В него добавили следующие темы:

▪️большие языковые модели (LLM);
▪️AutoML;
▪️расширенная обработка данных.

🔥 Кроме того, курс теперь содержит более 130 тестов на проверку знаний.

🔗 Ссылка на курс

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

16 Nov, 07:06


🚀🤖 Как развернуть LLM с помощью vLLM и TorchServe

Хочешь запустить большую языковую модель в продакшене, но не знаешь, как совместить простоту развёртывания с промышленной надежностью? Комбинация vLLM и TorchServe решает эту задачу. Она обеспечивает как простой запуск, так и продвинутые возможности для масштабирования.

👉 Узнай, как воспользоваться этими удобными инструментами, в нашем подробном гайде

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

15 Nov, 18:04


Пятничный #дайджест по Data Science и Machine Learning

🔹GPUStack — менеджер кластеров GPU для запуска больших языковых моделей (LLM)
Инструмент поддерживает различные аппаратные платформы, включая Mac, Windows и Linux, и позволяет легко масштабировать операции, добавляя больше GPU или узлов.

🔹Практика: мой опыт интеграции более 50 нейронных сетей в один проект
Статья на Хабре описывает опыт автора по проекту, ориентированному на создание и редактирование видео, изображений и аудио.

🔹FireDucks — ускорь Pandas в сто раз
Это повышающая производительность библиотека, которая полностью совместима с pandas API.

🔹Philosophy of an Experimentation System — MLOPs Intro
Статья обсуждает проблемы, возникающие при разработке моделей машинного обучения, и предлагает структурированный подход к организации экспериментов.

🔹The Polars vs pandas difference nobody is talking about
Автор рассказывает о различиях между библиотеками Polars и pandas, особенно в контексте выполнения группировок и агрегаций.

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

15 Nov, 07:08


👨‍🎓📊 Как научиться Data Science онлайн: 12 шагов от новичка до профи

12 шагов для тех, кто хочет с нуля построить карьеру в Data Science. Руководство к действию и россыпь ссылок на полезные ресурсы.

Переходите на нашу статью:
🔗 Ссылка

Забирайте курс по Алгоритмам и стать Data Scientst'ом станет еще проще:
🔵 Алгоритмы и структуры данных

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

14 Nov, 18:06


🚀 Там биткойн летит вверх, и в связи с этим вопрос:

💬 Вкладываетесь в криптовалюты?

❤️ — да, в биткойн
👍 — да, в другую крипту
👾 — нет

#интерактив

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

14 Nov, 15:00


🎓 Приглашаем вас на вебинар "Обучение с учителем: разбираем задачу классификации", который состоится 18.11.2024 в 18:00! 🕕

Занятие посвящено задачам классификации, которые востребованы во всех областях Data Science. На занятии обсудим, что представляет из себя этот тип задач, какие есть подходы для её решения, а также изучим алгоритм kNN и применим его на практике.

👉 В результате урока вы:
- познакомитесь с таким классом задач, как классификация;
- изучите метрики для задачи классификации;
- узнаете, как устроен алгоритм kNN;
- научитесь применять алгоритм kNN на практике.

🔥 Не упустите возможность углубить свои знания в области классификации и машинного обучения! 📊🤖

👉 Присоединяйтесь к нам

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

14 Nov, 11:03


✍️🐼 Шпаргалка по работе с Pandas для Data Science — функции для загрузки, очистки и изучения данных

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

14 Nov, 07:08


#дайджест #DataInternship

Подборка стажировок недели для Data специалистов

▪️ Стажер Data Scientist в матчинг и группировки
Удалёнка (РФ) / Гибрид (Москва), Ecom.tech
Подробнее

▪️ Стажёр в Big Data (Аналитика)
Офис (Москва), АТОЛ
Подробнее

▪️ Data engineer (Стажер)
Офис (Москва), Sapiens solutions
Подробнее

▪️ Стажер-аналитик в HR / Data Analyst Intern
Гибрид (Москва), Okkam
Подробнее

▪️ Machine Learning Engineer
Удалёнка, ALTWeb Group
Подробнее

Понравились предложения о стажировке?
❤️ — да
🤔 — нет

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

13 Nov, 18:03


😨 Оно существует...

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

13 Nov, 07:15


😥 Давно не разочаровывались в себе? Посмотрите YouTube-канал «ПРОГРАММИРУЮ В 5 ЛЕТ» — его ведёт мальчик Серёжа, который уже умеет писать нейросети

У него есть, например, такие ролики:

🔸В 7 лет учу делать нейросеть на Pytorch
🔸Учимся машинному обучению. Модель классификации Эмодзи. Pytorch
🔸В 6 лет учу машинному обучению. Модель Титаника

💬 А чем ты занимался в 5-7 лет?

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

12 Nov, 13:00


🤖 Обзоры новых ИИ-сервисов и продуктов для разработчиков

👇Это небольшая выдержка из нашей еженедельной рассылки про последние новости и тенденции в мире ИИ.

📰 Новости

🔘Microsoft собирается запатентовать метод, способный радикально снизить или даже полностью устранить галлюцинации LLM. Технология называется RAS («Система улучшения ответов»).

🔘Hugging Face и NVIDIA заключили соглашение о сотрудничестве в области робототехники, главная цель которого — создание открытой экосистемы для разработки роботов с искусственным интеллектом.

🪚 Инструменты

🔘Midship — извлекает данные из документов любого формата. Похожий инструмент — PandaETL.

🔘PopPop — бесплатный ИИ-инструмент для удаления вокала из песен и видеоклипов.

🔘Siter — генерирует интерактивные сайты на основе Figma-дизайнов.

🔦 Как развернуть LLM с помощью vLLM и TorchServe

vLLM — один из самых подходящих движков для простого запуска LLM: он предоставляет команду vllm serve для развертывания на одной машине. Однако для развёртывания в продакшене требуются дополнительные продвинутые функции, которых у него нет. Такие возможности есть у TorchServe. Здесь можно прочесть оригинальный гайд по деплою.

А перевод на русский язык мы сделали в нашей рассылке. Подписаться на неё и получать свежие материалы каждую неделю можно по этой ссылке 👈

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

12 Nov, 09:55


7 способов сортировки массивов на примере С++ с иллюстрациями

В этой статье продемонстрируем на иллюстрациях, как работают алгоритмы сортировки: от простейшей пузырьковой до сложной древовидной кучи. Также определим сложность худших и лучших случаев, а код напишем на С++.

Статья

Зачем учить алгоритмы сортировки, если есть уже готовые методы сортировки?
Чтобы знать плюсы и минусы каждого алгоритма, понимать, как действительно он работает (а не просто копипастить) и какой алгоритм выбрать для конкретной задачи. Плюс изучение алгоритмов развивает мышление и профессиональный кругозор.

Как мне оперативно научиться применять алгоритмы?

Начни с бесплатного демо доступа к курсу «Алгоритмы и структуры данных», на котором junior и middle+ программисты смогут потренировать навыки применения алгоритмов и сгенерировать идеальные решения сложных задач в сообществе других разработчиков.

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

12 Nov, 09:00


✍️ Подробный гайд по описательной статистике

Рассказывает о:

🔹мерах центральной тенденции;
🔹дисперсии;
🔹формах распределения;
🔹разных типах графиков в matplotlib и seaborn.

🔗 Ссылка на гайд

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

12 Nov, 06:03


Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы
Азбука айтишника — здесь мы познаем азы из мира программирования

🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности
Библиотека разработчика игр | Gamedev, Unity, Unreal Engine

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

10 Nov, 18:40


Как оценивать важность признаков и зачем это делать? Например, для случайного леса

Оценка важности признаков в машинном обучении помогает понять, какие из них больше всего влияют на результат модели. Это полезно, чтобы интерпретировать поведение модели, улучшить её производительность, а также сократить количество признаков, минимизируя вычислительные затраты и предотвращая переобучение.

Вот специфичные для случайного леса методы:

▪️ Оценка количества разбиений по данному признаку.
В процессе построения деревьев случайный лес принимает решения на основе разбиений по различным признакам. Чем чаще признак используется для разбиения, тем более он важен для модели, так как чаще помогает разделять классы или предсказывать значения.

▪️ Суммарный information gain.
Это общая величина уменьшения неоднородности (например, по критерию Джини или энтропии) при разбиениях, основанных на данном признаке. Если признак приводит к большому приросту информации, он считается значимым, так как повышает предсказательную способность модели.

А вот универсальный способ оценки — permutation importance. Этот метод заключается в перемешивании значений одного признака после того, как модель обучена, и последующей оценке влияния этого признака на качество модели. Если, после перемешивания значений, качество модели резко падает, значит, признак был важен. Этот метод хорошо работает для любых моделей, так как он не зависит от внутренней структуры алгоритма.

#машинное_обучение

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

10 Nov, 07:06


✖️🔢 latexify — библиотека для красивого вывода формул

Вот основные функции:

▪️компилирует код Python или AST в формат LaTeX
▪️предоставляет классы для IPython для красивого отображения формул.

🔗 Ссылка на репозиторий

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

09 Nov, 18:00


🤫 ШАД: как начать свой путь

Забираем полезную информацию для тех, кто только начал свой путь:

➡️ Лазейки через магистратуры
Например, в УрФУ абитуриенты, не прошедшие в ШАД, могут учиться по траектории «Анализ данных», и при хороших оценках с первого семестра быть зачисленными в ШАД.

➡️ Сетап с преподавателем
Многие преподы ШАДа ведут занятия в других вузах и иногда ищут студентов. Можно связаться с заведующим кафедрой, где числится ваш потенциальный «наставник», попроситься как вольный слушатель или даже рассчитывать на неформальное зачисление.

➡️ Филиалы ШАДа
У ШАДа есть отделения в СПб, Минске, Новосибирске и других городах, где конкурс немного легче, чем в Москве. Формат экзаменов схож, но с более мягкими проходными баллами. Онлайн-лекции и некоторые занятия проводят местные преподаватели.

➡️ Магистратура по современным компьютерным наукам
Программа от ВШЭ и Яндекса — фактически два года учёбы в ШАД с отсрочкой. Поступление: экзамен с задачами, как на первом этапе отбора в ШАД, плюс часовое собеседование по математике, алгоритмам и мотивации. Портфолио с проектами — большой плюс.

➡️ Фаст трек для Яндексов
Годовая программа для сотрудников Яндекса: закрываешь 4 предмета, пишешь мотивационное письмо и получаешь диплом ШАДа с доступом к инфраструктуре. Задания по прошлому опыту берутся из вступительных для магистратуры СКН.

Хочу быстро освоить математику для ШАД. Какой курс порекомендуете?
🔵 Математика для Data Science

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

09 Nov, 07:09


👆 История о том, как PhD по статистике работу искал

На Reddit пользователь рассказал, как искал работу в DS. У него не было опыта работы, но зато была докторская степень по статистике, полученная в известном частном университете США.

👀 Он подал 40 заявок на различные позиции, из которых:

▪️22 остались без ответа (обозначены как Ghosted),
▪️15 были отклонены,
▪️2 отозваны самим кандидатом,
▪️1 завершилась предложением о работе, которое было принято.

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

08 Nov, 18:05


📊 Путеводитель по Big Data для начинающих: методы и техники анализа больших данных

Методы и техники анализа Big Data: Machine Learning, Data mining, краудсорсинг, нейросети, предиктивный и статистический анализ, визуализация, смешение и интеграция данных, имитационные модели. Как разобраться во множестве названий и аббревиатур? Читайте наш путеводитель в статье по ссылке.

🔗 Ссылка

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

08 Nov, 07:10


🔑 Теперь API-ключи Gemini автоматически импортируются в Colab из Google AI Studio

🔸Импорт есть во вкладке Secrets;
🔸Экспорт есть в Google AI Studio, когда кликаешь на «Get code» и «Open in Colab».

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

07 Nov, 18:08


🎅 Какой подарок вы бы хотели на НГ? Пишите в комментариях👇

Да, начинать готовиться к Новому году никогда не рано😉

#интерактив

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

07 Nov, 15:01


🎉 Приглашаем вас на бесплатный практический урок "Временные ряды - Фурье и вейвлет анализ", который состоится 11.11.2024 в 20:00 (мск)! 🕗

Хотите стать крутым аналитиком данных или обучать машины в 2024?

На вебинаре мы узнаем:
- Насколько нормален временной ряд? Преобразование Бокса-Кокса и зачем оно нужно;
- Компоненты временного ряда: фурье-анализ и прогнозирование значений повторяющихся процессов;
- Нестационарные процессы: как вейвлет-анализ позволяет проводить классификацию сложных событий во временных рядах.

В результате вебинара вы узнаете:
- Как нормализировать временной ряд с помощью преобразования Бокса-Кокса;
- Как разложить ряд на компоненты и с их помощью прогнозировать будущие значения;
- Как анализировать нестационарные процессы с помощью вейвлет-анализа.

Этот открытый урок будет особенно интересен ML-инженерам, которые начинают знакомство с временными рядами и хотят вырваться за границы модели SARIMA.

Не упустите возможность углубить свои знания в области временных рядов!
👉
Присоединяйтесь к нам

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

07 Nov, 11:06


📊 Data Formulator — фреймворк от Microsoft для создания богатых визуализаций

🔹Позволяет преобразовывать данные и визуализировать их итеративно с помощью ИИ;
🔹Доступен прямо в GitHub Codespaces;
🔹Позволяет комбинировать командные интерфейсы и текстовые подсказки, чтобы задавать параметры графиков.

🔗 Ссылка на репозиторий

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

07 Nov, 07:34


🎓 Infinity-MM — мультимодальный датасет, который позволяет эффективно обучать модели

Исследователи собрали набор данных инструкций, состоящий из десятков миллионов образцов. Благодаря фильтрации и удалению дубликатов, этот датасет отличается высоким качеством и разнообразием.

✔️Авторы уже обучили на Infinity-MM маленькую модель Aquila-VL-2B, которая в итоге показала лучший результат в мультимодальном бенчмарке MMStar.

🔗 Ссылка на датасет на Hugging Face
🔗 Ссылка на статью

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

06 Nov, 18:06


📊 ТОП-10 необходимых для специалиста по Big Data навыков

Рассказываем о необходимом наборе технических и карьерных навыков для специалиста по Big Data.

✍️ Big Data — это термин, используемый для обозначения значительного объема как структурированных, так и неструктурированных данных, который слишком велик для обработки традиционными методами.

👉 Читать все подробности в статье

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

06 Nov, 07:14


👀 NBtools — инструмент для мониторинга запущенных Jupyter Notebooks

🔘Основной утилитой является nbstat, которая отображает использование ресурсов для каждого процесса.
🔘Также есть следующие инструменты: pylint_notebook для проверки кода на ошибки и exec_notebook для программного выполнения notebooks.
🔘Кроме того, доступны функции для управления GPU и предотвращения ошибок, связанных с их использованием.

🔗 Ссылка на документацию проекта

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

05 Nov, 20:02


🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

05 Nov, 18:00


Привет, друзья! 👋

Мы готовим статью о том, как эффективно изучать программирование, и хотим услышать ваше мнение! 🤓💻 Поделитесь своим опытом, и самые полезные советы войдут в нашу публикацию.

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

05 Nov, 18:00


Какой совет вы бы дали начинающим программистам? 💡
Поделитесь своими мыслями в комментариях!

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

05 Nov, 14:00


✍️👀 Meta и Microsoft опубликовали статью про эффективный retrieval с обучаемыми функциями близости

Эксперты используют подход Mixture-of-Logits, который делает обучаемые функции близости намного эффективнее — почти в 100 раз быстрее обгоняет бейслайны и при этом достигает 99% полноты/рекола. Подробный разбор этой важной работы сделал разработчик Яндекса.

👉 Читать полный разбор

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

05 Nov, 11:08


🍐 Подборка лучших статей «Библиотеки программиста» за октябрь: сохраняй в заметки, чтобы не пропустить #самыйсок

🫧🤖 Линус Торвальдс о будущем ИИ: хайп или революция?
🐍🍽️ Питон съел GIL на завтрак: что нового в версии 3.13
🧩 Реализация паттерна «Одиночка» на Python
👾🛡️🤖 42 секунды и 5 запросов: как взламывают генеративные ИИ-модели
😭💰⬆️ Shut up and give my money: как просить повышения зарплаты
🚀⬆️ Оптимизируй свой AI: разоблачение 6 мифов о работе с векторами в Pgvector
📊🔧 Администратор Power BI: первичные обязанности после реализации дашборда

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

05 Nov, 07:05


📚 Книги для тех, кто хочет прокачаться в Data Science

Делимся подборкой полезных книг, которые помогут освоить основные концепции, углубиться в анализ данных и понять, как применять машинное обучение на практике. Отличный старт для начинающих и полезное чтиво для тех, кто уже шарит

Прокачивайся в Data Science с нашим курсом:
🔵 Математика для Data Science

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

04 Nov, 18:20


🟢 Зелёные флаги на собеседовании: 11 признаков того, что работодатель — норм

В этой статье мы расскажем, какие сигналы на собеседовании говорят о том, что вы попали в отличную команду, и вам точно стоит сказать работодателю: «Да!»

👉 Читать

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

03 Nov, 18:18


🔀 Асинхронность — не баг, а фича: 4 паттерна, которые спасут ваш распределённый сервис

Представь, что ты отправляешь сообщение в мессенджере, а оно доходит с задержкой в минуту. Бесит? А теперь представь, что у тебя сервис с миллионами пользователей, и каждое их действие должно мгновенно отражаться везде. Звучит как кошмар? Спокойно, есть четыре проверенных способа решить эту головоломку, и они реально работают.

👉 Читать статью

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

03 Nov, 07:14


👾 Oasis — первая ИИ-игра

Над игрой работали исследователи из лабораторий Decart и Etched. Oasis представляет собой интерактивную, работающую в реальном времени модель открытого мира. Иными словами, это игра, кадры которой генерируются на основе ваших действий.

🎮 Да, поиграть в неё можно — вот здесь. Возможно, придётся подождать в очереди.

👉 Здесь можно почитать статью о модели

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

02 Nov, 18:10


🧑‍💻✍️ Git and Jupyter Notebooks: The Ultimate Guide

Это руководство рассказывает про:

▪️проблемы использования Git с Jupyter;
▪️использование GIt в командной строке;
▪️просмотр различий (Diff) для Jupyter Notebooks;
▪️просмотр изменений в коммитах и PR;
▪️разрешение конфликтов слияния.

🔗 Читать

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

02 Nov, 07:06


📚Statistical Tableau (2024)

✍️Автор: Ethan Lang

📃Страниц: 460

В современном мире, основанном на данных, понимание статистических моделей имеет решающее значение для эффективного анализа и принятия решений. Независимо от того, являетесь ли вы новичком или опытным пользователем, эта книга даст вам базовые знания для понимания и внедрения статистических моделей в Tableau. Обретите уверенность в том, что сможете свободно говорить о используемых вами моделях, способствуя внедрению ваших идей и результатов анализа во всей организации.

Скачать книгу

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

01 Nov, 12:00


🧑‍💻 Ежегодная премия Yandex ML Prize прошла в шестой раз

Победителями премии для учёных и преподавателей в области Machine Learning в этом году стали 14 человек, чьи исследования способствуют развитию науки в области ИИ и открывают новые возможности для практического применения ML-технологий в различных сферах. 🏆

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

01 Nov, 07:18


📊 8 паттернов проектирования, которые должен знать каждый ML-разработчик

Паттерны проектирования предлагают комплексные решения проблем, с которыми разработчики сталкиваются каждый день. В этой статье мы рассмотрим 8 паттернов проектирования с примерами кода на Python.

Забираем статью:
🔗 Ссылка

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

31 Oct, 18:00


Привет, друзья! 👋

Мы готовим статью о секретах мастерства в программировании и хотим узнать ваше мнение! 💻

Самые интересные и полезные ответы мы включим в нашу статью! 🚀📚

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

31 Oct, 11:01


#дайджест #DataInternship

Подборка стажировок недели для Data специалистов

▪️ Data Engineering Intern / Стажер дата-инженер
Офис (Москва), Procter & Gamble
Подробнее

▪️ Стажер аналитик данных
Офис (Москва), Ozon Офис и Коммерция
Подробнее

▪️ Стажер-аналитик данных мобильных приложений
Удалёнка, IndieElevate
Подробнее

▪️ Стажер-аналитик Big Data
Офис (Самара) / Удалёнка, IBS
Подробнее

▪️ Стажер-аналитик в команду транзакционных операций Банка
Гибрид (Москва), ВТБ
Подробнее

Понравились предложения о стажировке?
❤️ — да
🤔 — нет

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

31 Oct, 07:26


👾 AutoKaggle — фреймворк для автоматического решения Kaggle-соревнований

Основные функции фреймворка:

🟣 Несколько ИИ-агентов, объединённых в систему (Читатель, Планировщик, Разработчик, Ревьюер и Саммарайзер);

🟣 Итеративная разработка и создание юнит-тестов;

🟣 Функции для очистки данных, feature engineering и моделирования;

🟣 Подробные отчёты.

🔗 Ссылка на репозиторий AutoKaggle
🔗 Ссылка на статью

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

30 Oct, 18:08


👀 Ещё одно наглядное объяснение работы LLM

Просто вводите промпт в верху экрана и смотрите, что происходит внутри GPT.

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

30 Oct, 07:16


🧑‍💻 Если вы ещё не пользуетесь MLflow, то настала пора его изучить

MLflow позволяет выполнять следующие задачи:

▪️Отслеживание экспериментов
▪️Управление кодом проекта
▪️Сохранение и управление моделями
▪️Развертывание моделей
▪️Интеграция с другими ML-фреймворками

🔗 Ссылка на официальную документацию

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

29 Oct, 18:01


Не забудьте оставить комментарий с вашими мыслями об ИИ в программировании! Какие преимущества и недостатки вы видите? Какие инструменты рекомендуете попробовать коллегам? 🤔💬

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

29 Oct, 18:00


Привет, друзья! 👋

Мы готовим статью об ИИ-инструментах для программирования в 2024 году и хотим услышать ваше мнение! 🤖💻 Поделитесь своим опытом и помогите нам сделать материал ещё полезнее. Самые интересные ответы войдут в статью! 🏆

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

29 Oct, 11:02


🧑‍💻 Что поможет улучшить навыки в сфере Data Science

Эту тему обсуждают специалисты на Reddit. Мы собрали их советы на карточках👆

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

27 Oct, 18:01


✏️ Разбор задачи с экзамена ШАД

Условие: Найдите, при каких значениях параметров a и b линейная оболочка векторов. 1️⃣ совпадает с множеством решений системы линейных уравнений Ax = 0, где матрица A равна: 2️⃣

Решение: Пусть 3️⃣ — строки матрицы A. Тогда 4️⃣, поэтому rkA ≤ 2. Векторы v и w должны удовлетворять системе. 5️⃣

#задачи_шад

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

27 Oct, 08:04


✍️ Шпаргалка по Pandas

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

26 Oct, 10:15


🎃 Приглашаем на вебинар перед Хэллоуином: «Нужна ли математика на собеседованиях🧙‍♀️

Темные тучи сгущаются, и в воздухе витает мистическая атмосфера... Готовы ли вы окунуться в мир загадочной математики и раскрыть тайны успешного собеседования? Тогда ждем вас 28 октября в 20:00! 🕸
https://proglib.io/w/2667cc25

Что вас ждет в эту зловещую ночь:

💀 Ошибаться не страшно: узнаем, как неудачные проекты и опыт «в стол» превращают джуниоров в сеньоров. Расскажем истории о том, как ошибки закаляют и помогают достигать вершин мастерства.

🧛 Собеседования без подготовки? Обсудим, возможно ли пройти через испытания рекрутеров без специальной подготовки или это путь в лабиринт с привидениями.

🧙 Теория и практика — зелье успеха:

• Выбор метрики оценки модели: какую метрику показать бизнесу, чтобы не столкнуться с гневом нечисти? Разберемся в разнице между MAPE и WAPE и когда какую применять.

Трансформация распределений: как превратить логнормальное распределение в нормальное без волшебной палочки? Поговорим о том, зачем это нужно и как обойтись изменением функции потерь вместо магических превращений.

🦇 Бонус для смельчаков: раскроем секреты тестирования в маркетинге, которые помогут не заблудиться в темном лесу конкурентного рынка.

Не упустите шанс провести вечер в компании единомышленников, погрузиться в атмосферу Хэллоуина и получить ценные знания!

🕯 Записывайтесь на вебинар и готовьтесь к мистическим открытиям!
https://proglib.io/w/2667cc25👻

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

26 Oct, 07:08


📊🔧 Администратор Power BI: первичные обязанности после реализации дашборда

Разработали дашборд в Power BI, но не знаете, что делать дальше? Делимся секретами, как правильно опубликовать отчет, настроить доступы через Azure и организовать автоматическое обновление данных.

Читать статью

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

25 Oct, 18:02


🎓 5-дневный бесплатный интенсив по генеративному ИИ от Kaggle и Google

▪️Всё что требуется от потенциальных участников — знание основ Python.
▪️В день на интенсив будет уходить примерно 2 часа.
▪️Пройдёт с 11 по 15 ноября.

👉 Зарегистрироваться для участия можно здесь

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

25 Oct, 07:01


📊 Кто такой дата-инженер, чем он занимается и что должен знать

Работа с большими объёмами данных — удел инженеров. Они помогают бизнесу, но что конкретно они делают, вы узнаете в статье

Начни сегодня, получать знания для своей будущей карьеры Дата-инженером:
🔵 Математика для Data Science

👉 Ссылка на статью

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

24 Oct, 18:10


💬 А вы кто?

👍 — дата-сайентист
🤔 — аналитик данных
💯 — Data Engineer
👾 — AI-исследователь
🤩 — свой вариант (напишу в комментариях)

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

24 Oct, 15:01


🚀 Вышел YandexGPT 4

Это новое поколение языковых моделей с двумя версиями: Pro и Lite. Из главных нововведений:

▫️Качество ответов выросло радикально — Pro побеждает предшественника в 70% тестов, а Lite достигает уровня топовой модели прошлого поколения.
▫️Модели научились работать с документами размером с диплом — возможности обработки выросли до 32К токенов.
▫️В тренировке использовались данные с подробными пошаговыми рассуждениями — Chain-of-thoughts — теперь модели лучше анализируют проблемы и находят решения.

🔗 Более подробно об этом можно почитать в статье

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

24 Oct, 11:05


🚀⬆️ Оптимизируй свой AI: разоблачение 6 мифов о работе с векторами в Pgvector

Шесть заблуждений, которые мешают тебе использовать всю мощь векторных баз данных в AI. Развенчав эти мифы, ты сможешь раскрыть истинный потенциал векторов и значительно повысить эффективность твоих AI-проектов.

👉 Читать статью

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

24 Oct, 07:01


🖥 Что там с драйверами NVIDIA?

Вчера пользователи из РФ стали жаловаться на то, что не могут скачать драйвера для видеокарт с сайта NVIDIA. При попытке сделать это появлялось сообщение о запрете доступа: «Access Forbidden. This request has been blocked by Edgecast WAF». С VPN всё работало без ограничений. О схожих проблемах говорили пользователи из Беларуси.

🎉 Сегодня появилась информация о том, что возможность скачивать драйвера из РФ вернулась. VPN при этом включать не надо. Вероятно, проблема объясняется сбоем.

💬 А у вас нормально скачиваются драйвера?

👍 — да, всё ок
🤔 — кажется, нет

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

23 Oct, 18:06


😭💰⬆️ Shut up and give my money: как просить повышения зарплаты

Рассказываем, когда и как правильно поднимать вопрос о повышении зарплаты. Проверенные тактики, аргументы и советы.

Углубляемся в вопрос и рассказываем, на основании чего просить повышения и какие аргументы использовать, а главное — какие доводы точно не подойдут.

📖 Читать статью
📖 Зеркало

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

23 Oct, 09:04


⚡️Разыгрываем флагманский смартфон

«Библиотека программиста» разыгрывает один из трех смартфонов на выбор:
🔹Samsung Galaxy S24 Ultra на 1 ТБ
🔹Xiaomi 14 Ultra на 512 ГБ
🔹iPhone 16 Pro Max на 512 ГБ

🔥 А еще 99 участников розыгрыша получат скидку 50% на наш курс Базовые модели ML и приложения!
Промокод будет действителен до 20 ноября.

Условия просты:
→ подписаться на Библиотека нейротекста
→ подписаться на Библиотека нейрозвука
→ подписаться на Библиотека нейрокартинок
→ нажать на кнопку «Участвовать» под этим постом

Итоги появятся 30 октября в 20:00 по московскому времени в нашем канале Библиотека программиста. Затем мы свяжемся с победителем, который сам выберет смартфон. Тем, кто получит промокод, мы вышлем его в течение недели после окончания розыгрыша.

⚠️ Убедитесь, что вам можно написать в личные сообщения или следите за результатами — если мы не сможем с вами связаться, то не сможем и отправить приз. Доставить мы можем только в города России и Беларуси.

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

23 Oct, 07:14


💻 Внимание: это компьютер, на котором разрабатывался Jupyter

Реддитор рассказал, что является родственником одного из первоначальных разработчиков Jupyter Notebooks и Jupyter lab. Он нашёл этот ПК, когда разбирал кладовку дома.

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

22 Oct, 20:04


🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

22 Oct, 13:40


👾 Подборка материалов по машинному обучению и анализу данных

🔹An Illustrated Guide to Superlearning
Под Superlearning здесь имеется в виду метод объединение множества отдельных алгоритмов для создания единой модели.

🔹Evaluating and enhancing probabilistic reasoning in language models
В этой статье исследователи Google изучают, способны ли LLM к вероятностному мышлению.

🔹Обзор платформы Kaggle для начинающих: от состязаний до менторской программы

🔹Sabotage Evaluations for Frontier Models
Исследователи из Anthropic пытались понять, могут ли LLM вводить пользователей в заблуждение и манипулировать системами оценок.

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

22 Oct, 07:24


🧠 Наконец-то ИИ начали применять правильно...

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

21 Oct, 18:10


✍️ Что такое косинусное сходство (cosine similarity) и какие альтернативные методы существуют?

Cosine similarity используется для оценки сходства двух векторов. В сущности, это косинус угла между двумя векторами. Значения cosine similarity варьируются от -1 до 1. Однако для большинства задач с положительными векторами (например, текстовые данные, векторы признаков), значения лежат в диапазоне от 0 до 1. При этом:

▪️ 1 означает полное совпадение (вектора направлены в одну и ту же сторону).
▪️ 0 указывает на отсутствие сходства (вектора перпендикулярны друг другу).
▪️ -1 указывает на полную противоположность (вектора направлены в противоположные стороны).

Как ещё можно оценивать сходство векторов? Вот некоторые способы:

▫️Евклидово расстояние;
▫️Манхэттенское расстояние;
▫️Расстояние Чебышева.

Подробнее о них и о том, как они применимы в LLM, читайте в статье 👈

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

19 Oct, 18:03


✍️ Шпаргалка по SQL

Внутри:

▪️основные виды запросов;
▪️CASE и оконные функции;
▪️вложенные запросы;
▪️виды join;
▪️примеры запросов.

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

19 Oct, 07:15


🤓Turbo-Alignment — библиотека для дообучения и элайнмента LLM от Т-Банка

Основные фичи:

📊 Включает необходимые метрики, в том числе self-bleu.
🛠 Упрощённый процесс деплоя новых методов.
⚡️ Оптимизирована для быстрого инференса с vLLM.
🌐 Поддерживает мультимодальность.
🔍 Есть пайплайн для RAG.

🔗 Ссылка на библиотеку

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

18 Oct, 18:00


🤼 Генеративно-состязательная нейросеть: ваша первая GAN-модель на PyTorch

Подробная инструкция построения генеративно-состязательных нейросетей (GAN) на примере двух моделей, реализованных с помощью фреймворка глубокого обучения PyTorch в нашей статье. 👇

🔗 Статья

У нас есть курс как для начинающих программистов, так и для тех, кто уже шарит:
🔵 Алгоритмы и структуры данных

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

18 Oct, 15:01


Вебинар: «Как построить pipeline предобработки данных для машинного обучения»

📅 Дата: 21 октября 2024, 18:00 (МСК)
👩‍💻 Спикер: Мария Тихонова

🚀 О чем поговорим:
На вебинаре вы научитесь строить полноценный pipeline для подготовки данных под задачи машинного обучения. Мы обсудим ключевые шаги, такие как Exploratory Data Analysis (EDA) и предобработка данных, на конкретных примерах.

💼 Что вы получите:
- Разберетесь, как проводить разведочный анализ данных (EDA).
- Изучите лучшие практики по очистке, трансформации и подготовке данных для ML-моделей.
- Поймете, как избежать типичных ошибок при работе с данными.

📌 Встречаемся в преддверии старта курса «Machine Learning. Basic». Все участники вебинара получат специальную цену на обучение!

👉 Для участия зарегистрируйтесь на сайте

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

Erid 2VtzqwnhuGw

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

18 Oct, 09:01


❤️ Вышел PyTorch 2.5

Новый бэкенд CuDNN для SDPA, обеспечивающий ускорение до 75%;
Сокращено время холодного запуска torch.compile благодаря сборке nn.Module без перекомпиляции;
Оптимизирован бэкенд TorchInductor CPP.

🔗 Обо всех подробностях читайте здесь

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

18 Oct, 06:00


Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов
👉Переводчик и автор оригинальных статей

Подробности тут

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

17 Oct, 18:02


💬 Вы когда-нибудь ощущали, что не заслуживаете той зарплаты, которую получаете?

❤️ — да, знакомо это чувство
👍 — я считаю, что получаю ровно столько, сколько заслуживаю
🤔 — мне наоборот кажется, что мне недостаточно много платят

#интерактив

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

17 Oct, 12:01


✏️ Разбор задачи с экзамена ШАД

Условие: Линейный оператор φ действует на пространстве многочленов степени не выше 2 с вещественными коэффициентами. Известно, что 1️⃣. Найдите сумму действительных собственных значений оператора φ (сумму следует вычислять с учетом алгебраической кратности собственных значений).

Подсказка: Найдите матрицу данного оператора и её характеристический многочлен.

Решение: Матрица Φ данного оператора в базисе x^2,x,1 удовлетворяет уравнению AΦ^T = B где 2️⃣ откуда 3️⃣ поэтому 4️⃣. Это и есть ответ, так как все собственные значения матрицы Φ^T вещественные. Это следует из того, что ее характеристический многочлен 5️⃣ имеет 3 действительных корня, так как f(0)>0, f(1)<0.

#задачи_шад

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

17 Oct, 10:00


✍️👀 Опубликованы статьи для International Conference on Learning Representations (ICLR)

ICLR известна тем, что освещает передовые исследования методов глубокого обучения, используемых в ИИ и статистике. Конференция пройдёт в апреле 2025 года в Сингапуре, но уже сейчас можно почитать поданные на неё статьи.

👉 Вот ссылка

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

17 Oct, 07:00


Разогреем эту осень на IT Talk by Sber в Омске! ⚡️

24 октября эксперты Сбера расскажут о сложных запросах в ClickHouse, импортозамещении технологических стеков и инструментах бизнес-аналитики.

Спикеры и темы:
Григорий Пилипейко, Senior Data-инженер – «Clickhouse и сложные запросы»
Светлана Ромашева, Senior Data-инженер – «Импортозамещение инструментов Business Intelligence на примере управленческой отчётности»
Александр Ткаченко, руководитель направления – «Как мы делали Корпоративный Портал, а получилась WEB-платформа "СРЕДА" для разработчиков и бизнеса».

Митап будет интересен всем без исключения, а особенно инженерам данных, владельцам продуктов и DB-инженерам.
Если это ты, то регистрируйся здесь!💚

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

16 Oct, 18:04


🐼 PandasAI — библиотека для исследования данных с помощью естественного языка

Где использовать:
▪️ в Jupyter ноутбуках,
▪️ Streamlit-приложениях,
▪️ в виде REST API.

Как использовать: Просто формулировать вопросы к данным на естественном языке.

🔗 Демо в Google Colab
🔗 Репозиторий проекта

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

16 Oct, 14:00


💻 Модель Self-Rewarding Language: разбор

Self-Rewarding Language Models сама создает инструкции, генерирует ответы и оценивает их качество. Для этого она использует технику LLM-as-a-Judge.

Обучение модели проводится через итерации, которые состоят из следующих шагов:

⚫️ Генерация ответов
⚫️ Оценка ответов
⚫️ Создание самоинструкций
⚫️ Следующая итерация

🔗 Читать разбор целиком

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

16 Oct, 07:10


🏋️ Как загружать веса моделей, если ресурсы ограничены?

Допустим, у вас не так много памяти на GPU, но вам нужно сохранить модель, используя torch.save(model.state_dict(), 'model.pth'), и продолжить её обучение позднее.

👉В этом ноутбуке собраны советы для того, чтобы решить задачу.

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

15 Oct, 18:04


👾🛡️🤖 42 секунды и 5 запросов: как взламывают генеративные ИИ-модели

Ты знал, что злоумышленникам для взлома генеративных ИИ достаточно всего 42 секунды и пяти запросов? В этой статье мы разберём, как это происходит, какие уязвимости существуют и как защитить свои системы от подобных атак.

👉 Читать здесь

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

15 Oct, 12:00


✍️ Подборка вопросов с собесов и ответы на них

Это подборка самых популярных постов канала «Библиотека собеса по Data Science» за месяц. Сохраняй себе, чтобы не потерять👇

Напишите логистическую регрессию
Какие вопросы задать интервьюеру на собеседовании?
У Алисы двое детей, по крайней мере один из которых девочка. Какова вероятность того, что оба ребёнка девочки?
Какие существуют методы разбиения в алгоритмах построения решающих деревьев?
Опишите процесс предобработки видеоданных для их использования в ML-моделях

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

15 Oct, 09:01


Приглашаем погрузиться в аналитику данных вместе с Яндексом!

Data Driven — это наша ежегодная конференция для тех, кто анализирует данные, чтобы принимать бизнес-решения.

26 октября приглашаем дата-сайентистов и всех, кто интересуется Big Data, послушать спикеров из Крауда, Рекламы, Алисы и других команд.

В программе: доклады о фичах на основе пользовательских отзывов, машинном переводе, обучении YandexGPT, метриках KPI и многом другом.

📍Место: Москва, ст. м. «Парк культуры»

📅 Дата: 26 октября в 12:00

💻 Регистрация

Реклама. ООО "Яндекс", ИНН 7736207543.

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

15 Oct, 07:01


📚DevOps for Data Science (2024)

✍️Автор: Alex K Gold

📃Страниц: 273

В этой книге собраны уроки DevOps и применены их к созданию и реализации проектов по обработке данных производственного уровня на Python и R. В первом разделе этой книги рассказывается о том, как создавать проекты по обработке данных, которые будут внедряться в производство без излишеств и суеты. Во втором разделе рассматриваются основы администрирования сервера, включая Linux, администрирование приложений и сети, а в заключительном разделе раскрываются проблемы корпоративных ИТ/администрирования, что позволяет специалистам по обработке данных взаимодействовать и сотрудничать с командами безопасности, сетевого обеспечения и администрирования своей организации.

Скачать книгу

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

14 Oct, 18:05


🧑‍💻 Линейная регрессия и её регуляризация в Scikit-learn

Новая статья на «Хабре» рассматривает модели линейной регрессии, доступные в scikit-learn, а также объясняет, что такое регуляризация на примерах Ridge, Lasso и Elastic Net.

🔗 Читать статью

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

14 Oct, 12:04


Как создаются анимации для канала 3Blue1Brown?

Если вы любите канал, то вам будет интересно посмотреть, как создатель 3Blue1Brown отвечает на самый популярный вопрос к нему.

🔗 Смотреть на YouTube

А если вы ещё не знакомы с этим каналом, то ознакомьтесь, там можно найти много интересного👇

🔸Но что такое нейронная сеть?
🔸Векторы | Глава 1. Сущность линейной алгебры
🔸Но что такое Центральная предельная теорема?

18,971

subscribers

1,623

photos

84

videos