Библиотека собеса по Data Science | вопросы с собеседований @ds_interview_lib Channel on Telegram

Библиотека собеса по Data Science | вопросы с собеседований

@ds_interview_lib


Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Работать у нас: https://job.proglib.io/

Наши каналы: https://t.me/proglibrary/9197

Библиотека собеса по Data Science | вопросы с собеседований (Russian)

Добро пожаловать в канал "ds_interview_lib" - вашу библиотеку собеседований по Data Science! Здесь вы найдете вопросы, которые часто задают на собеседованиях, а также подробные ответы на них. Наша цель - помочь вам подготовиться к интервью и успешно пройти собеседование в сфере Data Science.

Мы предлагаем широкий спектр вопросов и ответов, которые позволят вам уверенно себя чувствовать на собеседовании. Вы также можете ознакомиться с другими каналами, связанными с программированием, нашими партнерами и предложениями по обучению на нашем сайте.

Для обратной связи и предложений по улучшению нашего канала, обращайтесь к нашему боту: @proglibrary_feedback_bot. Если у вас есть вопросы по рекламе, пожалуйста, обращайтесь к нашему отделу рекламы: @proglib_adv. Там вы также можете найти информацию о ценах и условиях размещения. Присоединяйтесь к нашему каналу, чтобы быть в курсе последних новостей и обновлений в сфере Data Science!

Библиотека собеса по Data Science | вопросы с собеседований

16 Feb, 18:08


Как работает градиентный бустинг, и в чем его преимущества перед классическим бустингом

Ответ:
Градиентный бустинг (Gradient Boosting) — это ансамблевый метод, в котором слабые модели (обычно деревья решений) обучаются последовательно, и каждая следующая модель корректирует ошибки предыдущей. В отличие от классического бустинга (AdaBoost), градиентный бустинг минимизирует функцию потерь с помощью градиентного спуска.

Как работает:
▪️ Первая модель обучается на исходных данных.
▪️ Далее вычисляется остаточная ошибка (разница между предсказанными и реальными значениями).
▪️ Следующая модель обучается на этой ошибке, пытаясь её минимизировать.
▪️ Процесс повторяется, и все модели комбинируются для финального предсказания.

Библиотека собеса по Data Science | вопросы с собеседований

15 Feb, 18:03


Почему RMSE и MAE могут давать разную оценку качества модели

RMSE (Root Mean Squared Error) и MAE (Mean Absolute Error) — это две популярные метрики регрессии, но они ведут себя по-разному при наличии выбросов.

🔹 MAE — это средняя абсолютная ошибка, измеряет среднее отклонение предсказаний от истинных значений. Она линейно реагирует на ошибки, то есть один большой выброс не окажет значительного влияния.
🔹 RMSE — это корень из среднеквадратичной ошибки, которая квадратично увеличивает вклад больших ошибок. Это значит, что RMSE сильнее наказывает за крупные выбросы, чем MAE.

📊 Пример:
Если у вас есть предсказания: [2, 3, 4, 5, 100] при истинных значениях [2, 3, 4, 5, 6],
то MAE ≈ 18, а RMSE ≈ 40. RMSE выросло сильнее из-за большого выброса в 100.

Библиотека собеса по Data Science | вопросы с собеседований

15 Feb, 15:01


⚠️ В машинном обучении, как в любви: слишком идеальные предсказания – это подозрительно!

Когда модель слишком прилипчива к тренировочным данным, результат оказывается… ну, как в отношениях, когда всё кажется идеальным, но реальность ломает сердце.

Оверфиттинг (Overfitting) – модель так хорошо запомнила тренировочные данные, что на реальных данных начинает путаться.
💔 В любви: «Я выбрал идеального партнёра по профилю, а в жизни выяснилось, что его «идеальность» – всего лишь иллюзия!»

Андерфиттинг (Underfitting) – модель обучена настолько поверхностно, что предсказывает мэтчи случайным образом.
💔 В любви: «Мне нравятся только люди с именем Александр, а всех остальных я даже не замечаю – бедный фильтр!»

Неправильный выбор фичей (Feature Selection Fail) – если модель опирается на неважные признаки, она предсказывает мэтчи хуже случайности.
💔 В любви: «Ты любишь авокадо? Значит, мы созданы друг для друга!» – а потом оказывается, что это вовсе не про важное.

🎯 На вебинаре мы разобрали, как избежать этих ошибок и создать работающую модель для speed dating, которая на самом деле помогает находить любовь! Вчера мы не просто говорили о любви – мы её предсказывали!

🔥 Спасибо всем, кто был с нами и участвовал!

💘 Как же это было?

Если ты пропустил вебинар или хочешь пересмотреть запись – просто перейди по [ссылке] и получи видео 😉

Библиотека собеса по Data Science | вопросы с собеседований

15 Feb, 06:01


Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы
Азбука айтишника — здесь мы познаем азы из мира программирования

🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Библиотека разработчика игр | Gamedev, Unity, Unreal Engine
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ

Библиотека собеса по Data Science | вопросы с собеседований

14 Feb, 18:16


Правда или ложь: градиентный спуск гарантированно найдёт локальный минимум, если шаг обучения уменьшается правильно, а минимум конечен.

💡 Ответ: правда

Но есть нюанс: градиентный спуск не гарантирует нахождение глобального минимума. В сложных функциях он может застрять в локальных минимумах или седловых точках.

Библиотека собеса по Data Science | вопросы с собеседований

13 Feb, 18:03


Можно ли использовать CNN для классификации 1D-сигнала

Да, но есть нюансы.
Для временных рядов чаще применяют рекуррентные сети (RNN), так как они учитывают последовательность данных. Однако сверточные сети (CNN) тоже могут быть полезны, особенно если важны повторяющиеся шаблоны в сигнале.

🔹 CNN — хорошо распознают локальные закономерности через скользящие окна.
🔹 RNN — учитывают временную зависимость между значениями.
🔹 QRNN — гибридный подход, объединяющий преимущества CNN и RNN.

Выбор зависит от задачи и структуры данных!

Библиотека собеса по Data Science | вопросы с собеседований

13 Feb, 16:07


🐳 Делаем конкурента DeepSeek R1-Zero на домашней пекарне: метод GRPO в Unsloth

Обычно LLM требуют мощных GPU, но теперь даже на видеокарте с ограниченной памятью можно обучать модели логического рассуждения.

💡 Фишка — новый алгоритм GRPO, который позволяет моделям развивать логическое мышление без вмешательства человека.

Подробнее в нашей статье: https://proglib.io/sh/MyBCbq9is5

Библиотека собеса по Data Science | вопросы с собеседований

12 Feb, 18:06


Как изменить предобученную нейросеть с классификации на регрессию

Ответ: используем transfer learning — перенос знаний с одной задачи на другую.

Что делаем?
🔹 Заменяем последний полносвязный слой и Softmax (отвечающий за классификацию) на один нейрон (или новый полносвязный слой) для регрессии.
🔹 Опционально замораживаем первые слои, если данных мало или нужна быстрая сходимость.
🔹 Обучаем сеть на новых данных с функцией потерь для регрессии.

Таким образом, мы сохраняем мощные фичи первых слоев, обученные на огромных датасетах, но адаптируем выход под задачу регрессии.

Библиотека собеса по Data Science | вопросы с собеседований

11 Feb, 18:04


Почему уменьшение ошибки на обучающей выборке не всегда приводит к лучшей обобщающей способности модели

Это может быть признаком переобучения. Когда модель слишком хорошо подстраивается под обучающие данные, она начинает запоминать их, а не учиться выделять общие закономерности. В результате на тестовой выборке её точность падает.

🔍 Как избежать? Используйте регуляризацию (L1/L2), кросс-валидацию, добавляйте больше данных или применяйте техники увеличения данных (data augmentation).

Библиотека собеса по Data Science | вопросы с собеседований

10 Feb, 18:05


Каковы преимущества и ограничения метода SVM с использованием нелинейных ядер

В отличие от линейного SVM, использование ядра позволяет проекцировать данные в пространство более высокой размерности, где они могут стать линейно разделимыми.

Преимущества:
Обработка нелинейных данных: ядра позволяют эффективно решать задачи, где данные не могут быть разделены линейно.
Гибкость: разнообразие ядер делает SVM универсальным инструментом для различных типов задач.

Ограничения:
🚫 Выбор ядра и параметров: требует тщательной настройки, что может быть трудоемким процессом.
🚫 Вычислительные затраты: для большИх данных SVM с ядром может быть медленным и требовать бОльших вычислительных ресурсов.

Библиотека собеса по Data Science | вопросы с собеседований

09 Feb, 18:03


Почему в глубоких нейросетях используют функции активации, такие как ReLU, вместо линейных

Если в каждой нейронной связи использовать только линейные преобразования, вся сеть сводится к одной линейной функции, независимо от количества слоев. Это делает нейросеть неспособной моделировать сложные нелинейные зависимости.

🔹 ReLU (Rectified Linear Unit) и другие нелинейные функции помогают сети изучать сложные представления и разделять данные в многомерном пространстве.

Библиотека собеса по Data Science | вопросы с собеседований

08 Feb, 18:03


Правда или Ложь: высокий информационный выигрыш при разбиении ухудшает точность модели (дерева решений)?

Ответ: Правда. Хотя высокий информационный выигрыш означает значительное уменьшение неопределенности, он также может привести к переобучению. В этом случае дерево слишком точно подстраивается под обучающую выборку, теряя способность обобщать закономерности на новых данных.

Библиотека собеса по Data Science | вопросы с собеседований

08 Feb, 10:03


Как классическая классификация ML помогает в реальном мире

🤖 Классификация в ML — это метод обучения, в котором модель обучается на размеченных данных и предсказывает, к какому классу относится новый объект.

Фильтрация спама – чтобы в почте оставалось только важное.
Рекомендации фильмов – Netflix знает, что ты любишь!
Кредитный скоринг – банки решают, дать ли тебе займ.
Предсказание мэтчей – как на нашем вебинаре по speed dating.

14 февраля мы разберём на практике задачу классификации:

- Как выбрать оптимальные признаки

- Что делать с несбалансированными данными

- Как интерпретировать результаты модели

🔥 Если уже работаешь с ML или только начинающий программист – приходи на наш вебинар, в котором мы разберем «как предсказывать мэтч на speed dating» .

Приходи!

Библиотека собеса по Data Science | вопросы с собеседований

08 Feb, 05:57


🐳 DeepSeek-R1 — очередной значительный шаг в развитии ИИ. Для сообщества ML-разработчиков и исследователей этот релиз важен по двум причинам:

👉 Это модель с открытыми весами, имеющая уменьшенные, дистиллированные версии.
👉 Она использует и анализирует метод обучения, который позволяет воспроизвести модель рассуждений, подобную OpenAI o1.

Разберемся, как происходило обучение DeepSeek-R1: https://proglib.io/sh/SwVUWXrFN3

Библиотека собеса по Data Science | вопросы с собеседований

07 Feb, 18:05


Какая функция потерь используется в процессе обучения сети на изображении

В процессе обучения используется комбинированная функция потерь, которая представляет собой взвешенное среднее из:

🔹 Style loss (потеря стиля) — оценивает, насколько хорошо сгенерированное изображение соответствует стилю эталонного изображения.

🔹 Content loss (потеря содержимого) — следит за тем, чтобы сгенерированное изображение сохраняло ключевые структуры оригинального контента.

Библиотека собеса по Data Science | вопросы с собеседований

06 Feb, 18:03


Почему глубокие нейросети могут переобучаться, даже если количество данных огромное

🔹 Избыточная параметризация — современные нейросети содержат миллионы (или даже миллиарды) параметров, что позволяет им запоминать данные вместо обобщения.

🔹 Коррелированные признаки — если данные содержат мало информативных или избыточных признаков, модель может подстроиться под шум, а не выделить полезные закономерности.

🔹 Смещение в данных — если тренировочные данные недостаточно разнообразны или не представляют реальный мир, сеть может слишком хорошо подстроиться под них, но плохо работать на новых примерах.

🔹 Отсутствие регуляризации — методы вроде L1/L2-регуляризации, dropout и batch normalization помогают бороться с переобучением, но если они не используются, сеть может переобучиться даже на больших данных.

Библиотека собеса по Data Science | вопросы с собеседований

06 Feb, 17:34


🔥 Самые нужные каналы для Data Scientist, чтобы расти в доходе 💸

• Data Science | Вопросы собесов
• Data Science | Вакансии с удаленкой
• Data Science | Тесты

Подпишись, чтобы не потерять ☝️

Реклама. ИП Кивайко Алексей Викторович, ИНН 532121460552. Erid 2VtzqvcUCjn

Библиотека собеса по Data Science | вопросы с собеседований

05 Feb, 18:10


Почему модель, обученная с L1-регуляризацией, может приводить к более интерпретируемым результатам по сравнению с L2-регуляризацией?

🔹 L1-регуляризация (Lasso) добавляет к функции потерь сумму модулей весов, что способствует обнулению некоторых из них. Это приводит к разреженности модели — многие параметры становятся нулевыми, оставляя только значимые признаки. В результате модель становится проще и легче интерпретируется.

🔹 L2-регуляризация (Ridge) добавляет сумму квадратов весов, но не зануляет их, а только уменьшает. Это делает модель более устойчивой к шуму, но не позволяет выявить наименее значимые признаки.

📌 L1-регуляризация действует как механизм автоматического отбора признаков, что упрощает интерпретацию модели. L2, в свою очередь, помогает сглаживать веса, но не делает модель разреженной.

Библиотека собеса по Data Science | вопросы с собеседований

05 Feb, 14:45


Swipe right or swipe left

Что делать, если твои мэтчи в жизни не такие точные, как твой код?

Спокойно, 14 февраля в 19:00 по МСК мы разберём, как ML анализирует speed dating и предсказывает match.

📌 Мы возьмем реальные данные со speed dating.

📌 Обучим модель, которая скажет: match или swipe left.

📌 Разберём, какие признаки реально важны (спойлер: работа в IT — не прям гарантия успеха (наши маркетологи подтверждают 😥).

💡 Приходи, если хочешь прокачать свой Python, ML и, возможно, станешь идеальной парой, как самый стильные форсы.

👉 Записаться

Библиотека собеса по Data Science | вопросы с собеседований

05 Feb, 10:35


🔥 Какие навыки нужны Data Scientist'у и как их освоить

Чтобы стать успешным Data Scientist и уверенно чувствовать себя на рынке труда, важно владеть широким спектром навыков.

➡️ Что внутри статьи:

▪️ Книги, курсы и статьи, чтобы прокачать каждый навык.

▪️ Бесплатные материалы для быстрого старта.

▪️ Задачи для практики.

🔗 Читать статью

🔵 А чтобы подготовиться к собесам для Data Science, забирайте наш курс «Алгоритмы и структуры данных»

Библиотека собеса по Data Science | вопросы с собеседований

04 Feb, 18:05


Какой метод лучше оценивает неопределенность модели: deep ensembles или Monte-Carlo (MC) dropout

Deep ensembles чаще дают более точную оценку неопределенности, особенно на данных вне распределения (OOD).

Ключевые различия:
✔️ Deep ensembles — обучают несколько независимых моделей и усредняют их предсказания. Это улучшает устойчивость к OOD-данным и повышает точность вероятностных оценок.
✔️ MC-dropout — использует дропаут во время инференса для моделирования неопределенности, что дешевле вычислительно, но менее эффективно в сложных сценариях.

Библиотека собеса по Data Science | вопросы с собеседований

03 Feb, 19:14


В чем разница между Grid Search и Random Search в оптимизации гиперпараметров

▪️ Grid Search — метод, при котором пользователь заранее задает набор возможных значений для каждого гиперпараметра. Затем алгоритм перебирает все возможные комбинации этих значений.
Гарантированно находит лучшее значение среди заданных.
🚫 Число комбинаций растет экспоненциально с увеличением числа параметров, что делает метод медленным.

▪️ Random Search — метод, который случайным образом выбирает точки в пространстве гиперпараметров.
Быстрее, так как не нужно проверять все комбинации. Иногда случайный поиск находит лучшие параметры, чем Grid Search.
🚫 Не гарантирует, что будут рассмотрены все возможные хорошие комбинации.

Библиотека собеса по Data Science | вопросы с собеседований

03 Feb, 09:01


📢 Ты уже пробовал пройти AI-собеседование? Если нет, вот ещё одно напоминание от нас 🤗

Сейчас на рынке много вакансий, но как найти ту самую, которая идеально подойдёт тебе по навыкам, условиям и зарплате?

Просто загрузи своё резюме
Пройди интервью с нейро-рекрутером от Сбера (всего 15 минут!)
Получай лучшие предложения без бесконечных звонков и ожидания откликов

💡 Алгоритмы анализируют твой опыт и подбирают вакансии, которые подходят на 98% — так что ты точно не потратишь время зря.

Работа мечты может быть на расстоянии одного клика. Попробуешь? 😉

🔗 https://clc.to/GkOTTA

Библиотека собеса по Data Science | вопросы с собеседований

02 Feb, 18:07


Какой ансамблевый метод используется

На изображении показана схема, в которой модели x1, x2...xk называются базовыми обучающими моделями (Base Learners), а над ними находится дополнительный уровень — x3 Generalizer.

Ответ: На изображении показан первый этап метода Stacking.
✔️ Фаза 0: Несколько базовых моделей (Base Learners) делают предсказания.
✔️ Фаза 1: Генерализатор (Generalizer) обучается на предсказаниях базовых моделей, чтобы улучшить результат.

Библиотека собеса по Data Science | вопросы с собеседований

01 Feb, 18:55


Как работает моментум и какую роль играет экспоненциальное затухание в правиле обновления градиентного спуска

Моментум учитывает прошлые градиенты, создавая эффект ускорения за счет скользящего среднего. Это приводит к экспоненциальному затуханию старых градиентов, снижая колебания и стабилизируя обновления весов.

Такой подход ускоряет обучение, помогая модели быстрее сходиться и уменьшая количество эпох, необходимых для достижения оптимума.

Библиотека собеса по Data Science | вопросы с собеседований

31 Jan, 18:02


Что такое valid convolution в нейросетях

Если при convolution не используется padding, значит, это valid convolution. В этом случае фильтр скользит только по тем позициям, где полностью помещается на входные данные, а выходной тензор получается меньше исходного.

Такой метод экономит вычисления, но «съедает» границы данных. Поэтому иногда используют same convolution, добавляя padding, чтобы сохранить размер.

Библиотека собеса по Data Science | вопросы с собеседований

30 Jan, 18:05


👀 Какие три наиболее часто используемые меры для оптимального разбиения атрибутов в дереве решений

1. Энтропия: позволяет измерить степень неопределённости или «разнородности» данных.

2. Индекс Джини (Gini impurity): оценивает вероятность того, что случайно выбранный элемент будет классифицирован неправильно.

3. Ошибка классификации: простая метрика, показывающая долю неверных классификаций в узле.

Какой метод выбрать
Энтропия и индекс Gini чаще используются, так как они чувствительнее к изменениям в распределении данных.
Ошибка классификации проще, но менее информативна для построения дерева решений.

Библиотека собеса по Data Science | вопросы с собеседований

30 Jan, 13:28


🗺️ Как стать ИИ-разработчиком в 2025 году: дорожная карта и ресурсы

В 2025 году профессия ИИ-разработчика остается одной из самых востребованных и перспективных.

👀 Как начать свой путь в этой увлекательной, но сложной области?

Мы собрали подробную дорожную карту и полезные ресурсы, которые помогут вам шаг за шагом освоить ключевые навыки и технологии.

Библиотека собеса по Data Science | вопросы с собеседований

29 Jan, 18:55


Ответ: Верно.

Метод bagging (Bootstrap Aggregating) предполагает случайный выбор K объектов из исходного обучающего набора с заменой, где K равно размеру исходного набора данных.

Это означает, что одни экземпляры могут встречаться несколько раз, а другие могут не попасть в выборку вовсе.

Такой подход позволяет создать несколько различных обучающих подмножеств, что снижает дисперсию модели и повышает её устойчивость.

Библиотека собеса по Data Science | вопросы с собеседований

28 Jan, 18:04


Почему CNN, обученная на ImageNet, считается отличным выбором в качестве базовой модели

Существует две основные причины:

Огромное количество изображений в наборе данных ImageNet обеспечивает генерализацию модели CNN для других доменов, таких как гистопатология, которая значительно отличается от исходного домена, на котором модель была изначально обучена (например, изображения кошек и собак).

Обученная на ImageNet CNN создает массив разнообразных визуальных паттернов, так как этот набор данных включает 1 000 различных категорий.

Библиотека собеса по Data Science | вопросы с собеседований

27 Jan, 20:02


🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

Библиотека собеса по Data Science | вопросы с собеседований

27 Jan, 18:05


⚖️ Какова цель масштабирования признаков (feature scaling) в машинном обучении

Цель масштабирования признаков — привести значения всех признаков к единому масштабу.

Это особенно важно для алгоритмов, чувствительных к величине признаков, таких как модели, основанные на градиентном спуске (например, логистическая регрессия) или на расстояниях (k-ближайших соседей, SVM).

Масштабирование улучшает производительность модели и ускоряет её обучение, предотвращая ситуацию, когда признаки с большими значениями доминируют над другими.

Библиотека собеса по Data Science | вопросы с собеседований

11 Jan, 18:05


🤖 Машинное обучение для начинающих: основные понятия, задачи и сфера применения

Читайте в нашей статье детальное описание основных принципов, понятий и разновидностей машинного обучения.

➡️ Статья

Забирайте курс по машинному обучению и прокачивайтесь:
🔵 Базовые модели ML и приложения

Библиотека собеса по Data Science | вопросы с собеседований

10 Jan, 18:06


Как справиться с проблемой холодного старта в рекомендательных системах?

Проблема холодного старта возникает, когда новая система не располагает достаточным объемом данных о пользователях или товарах.

Например, мы уже умеем делать предсказания для существующих пользователей и продуктов. В этой связи возникают два ключевых вопроса: «Как рекомендовать товар, который еще никто не оценил?» и «Что предложить пользователю, у которого нет ни одной оценки?». Для решения этой задачи важно извлекать информацию из альтернативных источников. Это могут быть данные о пользователе из других платформ, анкеты при регистрации и так далее.

Кроме того, существуют сценарии, в которых проблема холодного старта становится постоянной. Например, в системах рекомендаций на основе сессий необходимо быстро собрать информацию о пользователе в течение его пребывания на сайте. В системах новостных рекомендаций также постоянно появляются новые материалы, в то время как старые быстро теряют актуальность.

Библиотека собеса по Data Science | вопросы с собеседований

10 Jan, 06:01


🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

Библиотека собеса по Data Science | вопросы с собеседований

09 Jan, 18:24


Что такое прунинг (pruning) дерева решений?

Прунинг ещё могут называть усечением или редукцией. Это процесс упрощения структуры уже построенного дерева путём удаления некоторых вершин.

Как правило, удаляются вершины, которые вносят минимальный вклад в точность модели. То есть сначала дерево строится жадно без ограничений, а затем проводится усечение. Необходимо добиться того, чтобы итоговое качество упало не сильно, но дерево начало подходить под условия регуляризации. Качество стоит измерять на отдельной, отложенной выборке.

Для чего это делается? При жадном построении алгоритм часто создаёт дерево, которое полностью учитывает обучающие данные, включая шум. Это может привести к переобучению, когда модель теряет способность хорошо обобщать на новых данных.

Библиотека собеса по Data Science | вопросы с собеседований

09 Jan, 15:05


Готовишься к IT-интервью? Мы с редакцией нашли отличный тренажер, который станет идеальным пост-новогодним подарком для тех, кто хочет прокачать свои навыки!

С ним ты научишься решать сложные задачи, потренируешься в live-coding и узнаешь, какие вопросы задают на реальных собеседованиях. Загружай резюме, тренируйся и получай разбор ответов. Начни год с уверенности в своих силах!

Ссылку оставляем под ещё не убранной ёлочкой: https://t1aicoach.ru 🎄

#ITинтервью #Рекомендации

Библиотека собеса по Data Science | вопросы с собеседований

08 Jan, 18:02


Чем временные ряды отличаются от стандартной задачи регрессии?

Основной принцип причинного прогнозирования заключается в том, что предсказываемое значение зависит от входных переменных (причинных факторов). При прогнозировании временных рядов предполагается, что предсказываемое значение будет подчиняться определенной закономерности во времени.

Библиотека собеса по Data Science | вопросы с собеседований

07 Jan, 18:02


Какие метрики для оценки схожести текстов вам известны?

Метрики близости текстов можно условно разделить на два типа: лексические и семантические.

🔹 Лексические
— Сходство Жаккара (Jaccard similarity)
Это простая метрика, которая вычисляется следующим образом: берутся две последовательности A и B, определяются общие элементы, и их количество делится на общее количество элементов в обеих последовательностях.

🔹 Семантические
— Косинусное сходство (cosine similarity)
Эта метрика измеряет косинус угла между двумя векторами, которые представляют тексты в векторном пространстве (часто используется векторизация TF-IDF).
— Евклидово расстояние (euclidean distance)
Измеряет кратчайшее расстояние между двумя точками в евклидовой геометрии. Для этого также требуется предварительная векторизация текстов.

Библиотека собеса по Data Science | вопросы с собеседований

06 Jan, 18:03


Расскажите, что вы знаете о генеративно-состязательных сетях (GAN)?

Генеративно-состязательные сети представляют собой обширный класс генеративных моделей, которые обучаются в паре с другой сетью, стремящейся отличить сгенерированные объекты от реальных.

Для иллюстрации принципа работы GAN часто используют аналогию с фальшивомонетчиком и полицейским. В этой метафоре фальшивомонетчик пытается создать купюры, которые не сможет распознать полицейский, в то время как полицейский, в свою очередь, учится различать подделки от настоящих денег.

GAN состоят из двух основных компонентов: генератора (фальшивомонетчика) и дискриминатора (полицейского). Генератор обучается создавать данные, максимально похожие на те, что содержатся в обучающем наборе, тогда как дискриминатор выполняет роль классификатора, пытаясь различить реальные данные и те, что были сгенерированы. Каждому реальному образцу и его подделке присваивается вероятность, отражающая степень их принадлежности к реальным данным.

Библиотека собеса по Data Science | вопросы с собеседований

05 Jan, 18:29


🎁🎄Как ваше настроение? Рассказывайте, что вам подарили на Новый год?

Библиотека собеса по Data Science | вопросы с собеседований

04 Jan, 18:12


Как быть с категориальными предикторами при построении линейной регрессии?

Их, конечно, нужно привести к числовому виду. Как именно это сделать, нужно решать, исходя из вида категориальной переменной.

▫️ Номинальная.
У таких переменных нет естественного порядка, и они обычно представляют собой различные категории, такие как цвета, пол и т.д. Для кодирования номинальных переменных чаще всего используется метод one-hot кодирования. При этом каждая категория представляется отдельной бинарной переменной (столбцом), где 1 означает наличие этого признака, а 0 — его отсутствие.

▫️ Порядковая.
Такие переменные имеют естественный порядок, например, оценки уровня образования или уровни удовлетворённости. Для таких переменных можно использовать порядковое кодирование, где каждая категория получает числовое значение, отражающее её ранг. Например, «низкий», «средний» и «высокий» уровень удовлетворенности можно закодировать как 1, 2 и 3 соответственно.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

03 Jan, 18:06


В каких случаях лучше не использовать momentum в оптимизации?

Добавление momentum к градиентному спуску позволяет повысить его устойчивость и избегать маленьких локальных минимумов/максимумов. Однако есть случаи, когда его использование может быть нецелесообразным.

В частности, когда модель склонна к переобучению, использование momentum может ускорить этот процесс. Кроме того, на участках, где функция ошибки имеет плато (то есть изменения градиента минимальны или отсутствуют), momentum может затруднить выход из этих областей.

В каждом из этих случаев стоит рассмотреть альтернативные методы оптимизации или тщательнее настраивать гиперпараметры модели для достижения оптимального результата.

Библиотека собеса по Data Science | вопросы с собеседований

03 Jan, 15:02


🎄 Начни 2025-й с апгрейдом навыков,
которые откроют двери в мир IT!

Ты можешь собрать свой персональный план обучения с помощью нашего новогоднего конструктора. Это шанс не просто начать год с полезных знаний, но и сделать инвестицию в своё будущее, которая окупится многократно.

🔗 Собери свой план и начни путь в IT

Почему это выгодно?

📚 Несколько программ по цене одной — максимальная эффективность: учишься сразу тому, что действительно нужно.

💾 Бессрочный доступ — все материалы всегда под рукой, чтобы учиться в своём темпе.

💸 Знания, которые окупятся — навыки, востребованные в любой точке мира.
Какие навыки ты можешь прокачать?

💡 Математика для Data Science + Алгоритмы и структуры данных
— Подготовка к собеседованиям в FAANG и поступлению в ШАД. Решай сложные задачи, работай с данными и моделями на профессиональном уровне.

💡 Алгоритмы и структуры данных + ML
— Улучшай своё алгоритмическое мышление и изучай базовые методы машинного обучения, чтобы создавать интеллектуальные приложения.

💡 Frontend Basic + Базовые модели ML
— Построй свою первую веб-страницу и погрузись в мир ML: от нейросетей до ML-бустинга.

💡 Архитектуры и шаблоны проектирования + Математика для Data Science
— Развивай аналитическое мышление и учись проектировать устойчивые системы.

💡 Алгоритмы и структуры данных + Frontend Basic
— Получи полный набор навыков: от оптимизации алгоритмов до создания современных веб-приложений.

Не упусти шанс сделать шаг в будущее! Новый год — это время обновлений, и твоя карьера может стать одним из них.

🔗 Составь свой IT-маршрут сейчас или выбери курс по новогодней скидке

Библиотека собеса по Data Science | вопросы с собеседований

02 Jan, 18:06


🧠 Прокрастинация: почему разработчики к ней склонны и что с этим делать

Даже самые целеустремлённые и дисциплинированные разработчики порой сталкиваются с периодами прокрастинации. Это состояние чаще вызвано глубокими причинами, чем просто нежеланием работать. Делимся личной историей разработчика, сумевшего преодолеть прокрастинацию.

🔗 Читать по ссылке

Библиотека собеса по Data Science | вопросы с собеседований

31 Dec, 18:30


Как сделать модель более устойчивой к выбросам?

Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.

Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).

Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.

#машинное_обучение
#статистика

Библиотека собеса по Data Science | вопросы с собеседований

30 Dec, 20:03


🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

Библиотека собеса по Data Science | вопросы с собеседований

30 Dec, 18:15


📊 Построение DWH и разработка дашбордов в Power BI: 5 проблем и их решение

В современном мире данные являются одним из ключевых ресурсов для принятия обоснованных решений и успешной работы компании. Поэтому создание и поддержание эффективного хранилища данных становится важной задачей для многих организаций.

В этой статье Ипатов Александр, backend-разработчик в компании USETECH, рассматривает на конкретном примере проблемы и их решение при построении DWH и дальнейшей разработке дашбордов в Power BI. Вас ждет история о том, как превратить хаос данных в работающую бизнес-аналитику.

👉 Читать статью
👉 Зеркало

Библиотека собеса по Data Science | вопросы с собеседований

29 Dec, 18:03


👨🏼‍💻💼 5 возможных причин провала проектов в Data Science

Рассказываем в нашей статье о самых частых проблемах в реализации проектов с большими данными, которые могут привести к провалу.

🔗 Ссылка на статью

Забирайте курс и не проваливайте свои проекты:
🔵 Математика для Data Science

Библиотека собеса по Data Science | вопросы с собеседований

29 Dec, 07:25


Идеального контента для выходных не существует... или всё же?

Физик из Бразилии, Клаудио Пеллегрини, вычислил идеальную форму пивного бокала основываясь на математической модели, чтобы напиток дольше оставался холодным.

Выяснилось, что идеальная форма – это узкое основание, расширяющееся кверху, как у классических бокалов для пива. Это доказывает, что математика полезна не только в теории, но и в жизни.

А теперь представьте: вы на собеседовании на позицию Data Scientist. И вам дают задачу по оптимизации, и вы можете решить её за минуты. Работа – ваша!

Мы можем научить вас применять математику не только для решения задач, но и для карьерного роста. Освойте курс «Математика для Data Science» и начните путь в карьере аналитика в новом году!

🎄Начните свой 2025 со скидкой 35%. Это лучшее вложении уходящего года – https://proglib.io/w/093a99a7

Библиотека собеса по Data Science | вопросы с собеседований

28 Dec, 18:48


Как работает умножение списка?

Посмотрим на результат умножения списка [1,2,3] на 2:
[1,2,3] * 2
#=> [1, 2, 3, 1, 2, 3]

Содержание списка [1,2,3] повторяется дважды

Библиотека собеса по Data Science | вопросы с собеседований

27 Dec, 18:05


🐍📈 Python в 2024 году: что происходит с самым популярным языком

В 2023-2024 компания JetBrains провела масштабное исследование «внутренних» трендов в экосистеме Python и недавно поделилась результатами. Оказалось, что:

▪️Разработчики выбирают uv вместо Poetry;
▪️Контейнеры становятся самым популярным способом развертывания Python-приложений;
▪️41% питонистов имеют опыт работы с Python менее 2 лет.

Более подробно об этих и других трендах читайте в нашей статье 👈

Библиотека собеса по Data Science | вопросы с собеседований

26 Dec, 18:10


🤖🔧 ТОП-10 опенсорсных инструментов для работы с ИИ в 2025 году

Сделали детальный разбор 10 самых перспективных инструментов для работы с ИИ в 2025 году:

▪️DeepEval
▪️LangChain
▪️Flowise
▪️LiteLLM
▪️SWIRL
▪️Cognita
▪️LLMWare
▪️Letta
▪️W&B (Weights and Biases)
▪️ONNX Runtime

От создания умных ассистентов до построения мощных RAG-систем — разбираем возможности, сравниваем производительность, безопасность и простоту интеграции каждого решения.

👉 Читать статью

Библиотека собеса по Data Science | вопросы с собеседований

25 Dec, 18:20


Когда не стоит использовать обобщённые линейные модели (GLM), такие как линейная и логистическая регрессии?

1️⃣ Если между переменными наблюдается значительная нелинейность. В таких случаях лучше рассмотреть альтернативные модели, способные учесть эти особенности.
2️⃣ Обобщённые линейные модели предполагают выполнение определённых условий: нормальность остатков, гомоскедастичность и отсутствие мультиколлинеарности. Если эти условия не соблюдаются, результаты могут оказаться ненадёжными.
3️⃣ GLM могут быть подвержены влиянию выбросов или экстремальных значений.

Библиотека собеса по Data Science | вопросы с собеседований

24 Dec, 18:12


Что такое иерархическая кластеризация и в каких случаях она применяется?

В отличие от обычной кластеризации, где все кластеры равноправны и располагаются на одном уровне, иерархическая кластеризация формирует вложенные кластеры, создавая древовидную структуру.

Алгоритм можно описать следующим образом:
▫️Сначала создаём столько кластеров, сколько объектов в выборке, каждый объект находится в своём собственном кластере.
▫️Затем итеративно объединяем два ближайших кластера, пока не будет достигнут критерий остановки.

В качестве критерия остановки можно использовать либо необходимое количество кластеров, либо условия, основанные на метриках расстояния между кластерами.
Полученная иерархическая структура анализируется с помощью дендрограммы. Иерархическую кластеризацию целесообразно применять в следующих случаях:

▪️если количество кластеров неизвестно,
▪️если требуется визуализировать структуру данных,
▪️если данные имеют естественную иерархическую организацию.

Библиотека собеса по Data Science | вопросы с собеседований

23 Dec, 18:27


Что такое dropout и как он работает? Почему это важно?

Dropout — это метод, который на каждом этапе обучения случайным образом отключает определённый процент нейронов с вероятностью p. В результате, на каждой итерации обучения активны только 1-p нейронов, что помогает сети не зависеть исключительно от ограниченного числа нейронов для формирования признаков. Это создает регуляризирующий эффект, который регулируется гиперпараметром p.

Библиотека собеса по Data Science | вопросы с собеседований

22 Dec, 12:01


👀 А как вы пишете SQL?

❤️ — КАПСОМ
👍 — маленькими буквами

Библиотека собеса по Data Science | вопросы с собеседований

21 Dec, 12:01


Расскажите о некоторых мерах сходства, используемых в машинном обучении.

🔹Косинусное сходство
Определяется через рассмотрение двух векторов в n-мерном пространстве и вычисление косинуса угла между ними. Диапазон значений этой меры — от [-1, 1], где значение 1 означает, что два вектора максимально схожи, а -1 — что они различны.

🔹Евклидово или Манхэттенское расстояние
Эти значения представляют собой расстояния между двумя точками в n-мерном пространстве. Основное различие между ними заключается в способе их вычисления:
▪️Евклидово расстояние вычисляется как прямая линия между двумя точками.
▪️Манхэттенское расстояние — сумма абсолютных разниц координат, представляя путь «по сетке».

🔹 Сходство Жаккара
Также известно как IoU (Intersection over Union). Широко применяется в области детекции объектов для оценки перекрытия между предсказанным ограничивающим прямоугольником и истинным (ground truth). Вычисляется как отношение пересечения множества (Intersection) к объединению множества (Union).

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

21 Dec, 08:02


Новый год — время для новых начинаний!
Пока все строят планы на будущее, подумайте, что поможет вам двигаться вперёд в карьере. Мы знаем, что навыки в IT открывают огромные возможности — и мы готовы помочь вам начать!

🔹 Почему IT?

- Большинство компаний активно ищут специалистов.
- Вы можете работать из любой точки мира — с гибким графиком и интересными задачами.
- А ещё IT — это высокий доход и стремительный карьерный рост.

Возможно, именно сейчас тот момент, когда стоит инвестировать в себя и развить востребованные навыки. У нас есть конструктор курсов, с помощью которого вы сможете составить свой идеальный план обучения — под свои цели и интересы.

📚 Как это работает?

- Несколько программ по цене одной — выбирайте всё, что вам нужно.
- Бессрочный доступ — учитесь в своём ритме и когда удобно.
- Это выгодно — вы получаете навыки, которые помогут вам расти профессионально и зарабатывать больше.

А для тех, кто решит сделать шаг в будущее до конца года, у нас есть кое-что особенное… 🎁 Узнайте больше

Как выбрать свой путь?
Мы предлагаем несколько уникальных комбинаций курсов, которые помогут вам стать настоящим экспертом:

🔵 Математика для Data Science + Алгоритмы и структуры данных — для тех, кто хочет готовиться к собеседованиям в топовые компании.

🔵 Алгоритмы + ML — чтобы не просто решать задачи, а понимать, как работают современные технологии.

🔵 Frontend + ML — создавайте приложения и учитесь работать с нейросетями.

🔵 И другие комбинации для разных целей.

Новогодний подарок, который будет работать на вас весь год — это отличная идея! 🎁 Начните сейчас

Развивайтесь в IT — и будущее уже будет в ваших руках!

Библиотека собеса по Data Science | вопросы с собеседований

21 Dec, 06:01


Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов

Подробности тут

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾

Библиотека собеса по Data Science | вопросы с собеседований

20 Dec, 12:01


Что такое доверительный интервал?

Доверительный интервал (confidence interval) — это интервал, который с заданной вероятностью (или надёжностью) содержит истинное значение оцениваемого параметра.

Иными словами, доверительный интервал позволяет сказать: если бы мы многократно брали выборки и рассчитывали для каждой интервал, то в заданном проценте случаев (например, 95%) этот интервал содержал бы истинное значение параметра.

▪️Доверительный интервал говорит о параметре (например, среднее или доля), а не о самих наблюдениях.

Пример: доверительный интервал для среднего веса населения указывает диапазон значений, в котором, с вероятностью 95%, лежит средний вес всей популяции, а не вес отдельных людей.

#статистика

Библиотека собеса по Data Science | вопросы с собеседований

19 Dec, 12:02


В чём разница между модулем, пакетом и библиотекой в Python?

▪️Модуль
Это файл с расширением .py, содержащий код Python (функции, классы, переменные). Он используется для структурирования и повторного использования кода. Модуль можно импортировать.

▪️Пакет
Это директория, содержащая набор модулей и файл __init__.py, который указывает, что эта директория является пакетом. Пакеты позволяют группировать модули по логике или функциональности.

▪️Библиотека
Это набор модулей и/или пакетов, предназначенных для решения определённого класса задач. Обычно библиотека распространяется как единое целое, например, через PyPI.

#python
#программирование

Библиотека собеса по Data Science | вопросы с собеседований

18 Dec, 12:01


Что такое темп обучения в градиентном бустинге?

Градиентный бустинг может переобучиться. Если, например, базовые алгоритмы слишком сложные (предположим, решающие деревья слишком глубокие), то при обучении ошибка на обучающей выборке может приблизиться к нулю.

Чтобы смягчить этот эффект, можно ввести темп обучения (learning rate). Это параметр, лежащий в диапазон от нуля (не включая его) до единицы (включая её). Темп обучения позволяет добиться того, чтобы каждый базовый алгоритм вносил относительно небольшой вклад во всю композицию.

Значение параметра обычно определяется эмпирически по входным данным.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

17 Dec, 14:01


✍️ Шпаргалка: Python для Data Science

Охватывает:

▪️основы языка;
▪️Jupyter Notebook;
▪️NumPy;
▪️Matplotlib;
▪️Pandas.

🔗 Ссылка на шпаргалку

Библиотека собеса по Data Science | вопросы с собеседований

16 Dec, 20:04


🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

Библиотека собеса по Data Science | вопросы с собеседований

16 Dec, 14:01


Какие статистические тесты вы знаете?

▪️T-test
Это тест параметрического типа. Он применяется, когда нужно понять, есть ли различия в среднем значении переменной между двумя группами наблюдений. Нулевая гипотеза здесь предполагает, что средние значения переменной в двух группах не отличаются значимо.

Кроме того, прежде чем проводить T-тест, необходимо проверить, что переменная для оценки непрерывна, распределена близко к нормальному и обладает незначительными различиями в дисперсии между двумя группами наблюдений.

▪️ANOVA
Используется для проверки различий между средними значениями трёх или более групп. Нулевая гипотеза предполагает, что все группы имеют одинаковое среднее значение, а альтернативная — что хотя бы одна группа отличается. ANOVA требует выполнения следующих условий:
1. Нормальное распределение данных в каждой группе.
2. Группы имеют одинаковую дисперсию (гомогенность дисперсий).
3. Независимость наблюдений между группами.

▪️Chi-Square тест
Хи-квадрат тест используется для анализа взаимосвязей между категориальными переменными. Нулевая гипотеза утверждает, что между переменными нет связи. Этот тест часто применяется в таблицах сопряжённости (например, для проверки зависимости между полом и предпочтением товара).

#статистика

Библиотека собеса по Data Science | вопросы с собеседований

15 Dec, 13:02


Опишите какой-нибудь метод подбора гиперпараметров?

Можно использовать метод Grid Search.

✍️ Это перебор по сетке. Алгоритм таков:

▪️для каждого гиперпараметра фиксируется несколько значений;
▪️далее составляются все возможные комбинации;
▪️на каждой из этих комбинаций модель обучается и тестируется;
▪️выбирается комбинация, на которой модель показывает лучшее качество.

К недостаткам метода относятся его вычислительные затраты: если комбинаций параметров слишком много, алгоритм не завершится за разумное время.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

15 Dec, 06:01


Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы
Азбука айтишника — здесь мы познаем азы из мира программирования

🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Библиотека разработчика игр | Gamedev, Unity, Unreal Engine
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ

Библиотека собеса по Data Science | вопросы с собеседований

14 Dec, 12:00


📈 Обучение Data Science: основы науки о данных за 10 минут

Если вы обучаетесь профессии из сферы Data Science с нуля, в море публикаций по теме легко потеряться. Мы собрали короткие ответы на основные вопросы новичков по науке о данных в нашей статье.

🔗 Ссылка

Забирайте наш курс — он точно поможет повысить уровень мастерства:
🔵 Алгоритмы и структуры данных

Библиотека собеса по Data Science | вопросы с собеседований

14 Dec, 07:46


🎨 Новый канал для вдохновения — UX in GIF

Мы запустили свежий канал, где делимся идеями для дизайна интерфейсов. Всё самое стильное, оригинальное и вдохновляющее теперь в одном месте.

📌 Чем полезен канал?

→ Идеи для дизайна интерфейсов.
→ Анимации, которые можно повторить или адаптировать.
→ Лёгкий способ искать вдохновение перед новым проектом.

👉 Подписывайтесь и вдохновляйтесь: UX in GIF

Библиотека собеса по Data Science | вопросы с собеседований

13 Dec, 13:02


Что такое степень свободы в статистике?

Степень свободы — это число значений переменной в выборке, которые нам необходимо знать, чтобы вычислить статистику (например, среднее значение или хи-квадрат).

✍️ Например, если у нас есть набор из четырёх чисел, и мы уже знаем их среднее значение, то три из них можно выбирать произвольно, а четвёртое будет определено автоматически. В этом случае степень свободы равна 3.

Чем больше степень свободы, тем больше вариативность данных.

#статистика

Библиотека собеса по Data Science | вопросы с собеседований

12 Dec, 11:43


🐍 Python для перфекционистов: 10 способов писать идеальный код

Простота Python позволяет разработчикам быстро создавать рабочие программы, но более продвинутые техники могут сделать ваш код более эффективным, гибким и элегантным.

👉 Читать обо всех способах с примерами кода здесь

Библиотека собеса по Data Science | вопросы с собеседований

03 Dec, 20:53


Что такое shallow copy в Python и как используется?

Shallow copy — это создание нового объекта путем копирования ссылки на вложенный объект, вместо создания полной копии вложенного объекта.

Если мы копируем список, который содержит другие списки, при shallow copy будут скопированы только внешние списки.

Если изменить внутренний список в копии, то это отразится и на оригинале.

Основное отличие от deep copy в том, что при полном копировании создаются копии всех вложенных объектов до самого нижнего уровня.

Библиотека собеса по Data Science | вопросы с собеседований

03 Dec, 12:01


Что такое Named Entity Recognition (NER)?

Named Entity Recognition — распознавание именованных сущностей. Это задача из области обработки естественного языка (NLP), цель которой — найти и классифицировать ключевые сущности в тексте.

Эти сущности могут относиться к определённым категориям, например:
- Имена людей;
- Географические объекты;
- Даты и время;
- Денежные суммы;
- Названия организаций.

▪️Как это работает?

Алгоритмы NER анализируют текст и на основе обученных моделей выделяют слова или фразы, относящиеся к этим категориям. Для обучения используются аннотированные данные, где сущности уже отмечены.

▪️Где применяется?

- Автоматическое извлечение данных из документов;
- Улучшение поисковых систем;
- Обработка запросов в службах поддержки;
- Анализ социальных сетей;
- Классификация новостей;
- Работа с резюме.


#машинное_обучение #NLP

Библиотека собеса по Data Science | вопросы с собеседований

02 Dec, 20:03


🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

Библиотека собеса по Data Science | вопросы с собеседований

02 Dec, 18:10


📊 Системный и бизнес-аналитик: пошаговый гайд к востребованной профессии

Пару слов о еще одном безумном разделении во вселенной IT-специальностей: системный и бизнес-аналитик. Рассказываем в нашей статье, чем занимаются представители профессии, сколько зарабатывают и как войти в эту сферу деятельности.

🔗 Ссылка

Хочешь стать бизнес-аналитиком? У нас есть отличный курс, который поможет подтянуть математику:
🔵 Математика для Data Science

Библиотека собеса по Data Science | вопросы с собеседований

02 Dec, 12:00


Какие табличные форматы хранения данных вы знаете?

▪️csv
Простой текстовый формат, где данные хранятся в виде таблицы, разделённой запятыми или другим разделителем.

▪️parquet
Бинарный формат, оптимизированный для хранения и обработки больших объёмов данных. Использует сжатие и хранение данных в колонках, что ускоряет выборку и уменьшает размер файлов. Особенно популярен в экосистеме Apache Spark.

▪️pickle
Формат сериализации данных в Python. Позволяет сохранять объекты (например, DataFrame из pandas) в удобном для языка виде.

#анализ_данных

Библиотека собеса по Data Science | вопросы с собеседований

01 Dec, 12:01


📊 Системный и бизнес-аналитик: пошаговый гайд к востребованной профессии

Пару слов о еще одном безумном разделении во вселенной IT-специальностей: системный и бизнес-аналитик. Рассказываем в нашей статье, чем занимаются представители профессии, сколько зарабатывают и как войти в эту сферу деятельности.

🔗 Ссылка

Хочешь стать бизнес-аналитиком? У нас есть отличный курс, который поможет подтянуть математику:
🔵 Математика для Data Science

Библиотека собеса по Data Science | вопросы с собеседований

30 Nov, 12:00


Какие существуют области видимости функций в Python?

В Python переменные имеют две основные области видимости: локальную и глобальную.

▪️Локальная
Переменные, объявленные внутри функции, существуют только в её пределах и недоступны за её пределами. Аргументы функции также относятся к локальной области и исчезают после завершения функции.

▪️Глобальная
Переменные, объявленные вне функций, доступны в любой части программы. Однако, если внутри функции пытаться присвоить значение глобальной переменной, Python создаст новую локальную переменную с тем же именем.

#python

Библиотека собеса по Data Science | вопросы с собеседований

29 Nov, 13:01


Что показывает квантильный график?

Квантильный график, или Q-Q plot, используется для сравнения распределения данных с теоретическим распределением (например, нормальным). То есть это инструмент, позволяющий визуально определить нормальность распределения.

Если точки на графике ложатся близко к диагональной линии, значит, распределение соответствует нормальному.

Квантиль — это значение переменной, соответствующее определённому проценту данных в упорядоченной выборке. Например:
▪️ 25-й процентиль (или первый квартиль) — это значение, ниже которого лежит 25% данных.
▪️ Медиана (50-й процентиль) — это значение, делящее выборку пополам.
▪️ 75-й процентиль (или третий квартиль) — значение, ниже которого находится 75% данных.

Квантильный график создается функцией qqplot из пакета statsmodels.

#статистика
#анализ_данных

Библиотека собеса по Data Science | вопросы с собеседований

28 Nov, 18:11


Можно ли считать функцию потерь метрикой качества?

Нет, ставить знак равенства здесь нельзя.

Функция потерь — это математическое выражение, используемое для измерения ошибки модели при её обучении. Она показывает, насколько сильно предсказания модели отличаются от реальных значений. Функция потерь служит основой для оптимизации: обучение модели заключается в минимизации значения этой функции.

Примеры:
▪️Среднеквадратичная ошибка (Mean Squared Error, MSE) для регрессии.
▪️Кросс-энтропия (Cross-Entropy Loss) для классификации.

Метрика — это внешний, объективный критерий качества. Он не зависит напрямую от параметров модели — только от предсказанных и фактических меток.

Примеры:
▪️Точность (Accuracy) для классификации.
▪️F1-мера для задач с несбалансированными классами.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

28 Nov, 13:55


🎉 Розыгрыш от Proglib Academy и DigitalRazor!

С 27 ноября по 27 декабря у вас есть шанс не только прокачать свои навыки, но и выиграть ПК при покупке любого курса Академии!

🎁 Призы для участников акции:

– Игровой ПК DigitalRazor ProGaming
– VIP-пакет курса Proglib Academy

💡 Как принять участие?
Купите любой курс Proglib Academy с 27 ноября по 27 декабря и получите шанс выиграть мощный ПК.

Приобретите технику DigitalRazor — участвуйте в розыгрыше VIP курса.

📅 Вместе с DigitalRazor мы создали спецпредложение -50% на курсы до 30 ноября, чтобы вы могли начать обучение на более выгодных условиях.

Выбрать курс

Библиотека собеса по Data Science | вопросы с собеседований

27 Nov, 13:00


Что вы можете рассказать про факторный анализ?

Факторный анализ — это метод, который помогает выявить скрытые закономерности в данных и упростить их интерпретацию. Вместо анализа множества исходных переменных (наблюдаемых) мы создаём новые, скрытые переменные, которые объясняют основные взаимосвязи.

Основной способ выполнения факторного анализа — это метод главных компонент (PCA). Он находит направления (компоненты), которые лучше всего объясняют изменчивость данных.

#анализ_данных

Библиотека собеса по Data Science | вопросы с собеседований

27 Nov, 12:14


⚡️ Напоминаем: у нас можно (и нужно) купить рекламу

→ Более 60 телеграм-каналов по всем направлениям IT
→ Почти 1,2 миллиона аудитории
→ Собственное медиа и сайт с DAU 25 000 — можем усилить продвижение
→ Классные email-рассылки
→ И, конечно же, крутые контент-менеджеры, которые сделают нативную интеграцию/придумают виральный пост/реализуют любые контентные предпочтения

Для заказа пишите сюда: @proglib_adv

Библиотека собеса по Data Science | вопросы с собеседований

27 Nov, 12:08


🎅 Какой подарок вы бы хотели на НГ? Пишите в комментариях👇

Админ на НГ не отказался бы от вашей активности. Реакции, комментарии, конструктивные предложения будем ждать под ёлкой 🎄

Библиотека собеса по Data Science | вопросы с собеседований

26 Nov, 13:00


Что вы знаете о тесте Хи-квадрат?

Тест Хи-квадрат — это мощный инструмент, который применяется для анализа взаимосвязей между двумя категориальными переменными. Он позволяет оценить, существует ли статистически значимое различие между наблюдаемыми и ожидаемыми частотами событий.

Хи-квадрат применяется, если есть гипотеза о связи двух переменных, выраженных через категориальные шкалы.

Например, вы хотите выяснить, влияет ли гимнастика для глаз на вероятность головной боли. Собираем данные, составляем таблицу наблюдений и рассчитываем ожидаемые значения, которые предполагали бы отсутствие влияния гимнастики.

Как рассчитывается Хи-квадрат:
▪️Для каждой ячейки таблицы считаем разницу между наблюдаемым и ожидаемым значением.
▪️Возводим эту разницу в квадрат.
▪️Делим на ожидаемое значение.
▪️Суммируем эти результаты по всем ячейкам.

Итоговый показатель сравнивается с табличным значением, чтобы определить, значимы ли различия.

#статистика

Библиотека собеса по Data Science | вопросы с собеседований

26 Nov, 10:16


Что будет, если DigitalRazor объединится с Proglib Academy? Правильно! Новый розыгрыш.

Условия:

Подпишитесь на DigitalRazor;
Подпишитесь на «Библиотеку программиста»;
Нажмите кнопку «Участвовать» под этим постом.

Призы:

1-е место: 27-дюймовый монитор;
2, 3 и 4-е место: сертификат номиналом 20 000 рублей на ИТ-курсы от Proglib Academy;
5-е место: геймерская клавиатура + коврик на выбор.

Призы разыграем 1 декабря в 20:00 (МСК).

Доставка призов возможна только по городам России и Белоруссии.

Proglib Academy создаёт онлайн-курсы для программистов, помогает получить востребованные навыки и построить успешную карьеру в IT.

Игровые компьютеры и рабочие станции DigitalRazor — это качественная сборка, топовое железо и эффектный дизайн.

Регламент розыгрыша

Библиотека собеса по Data Science | вопросы с собеседований

25 Nov, 18:07


В классификации есть метрика Precision. Но слышали ли вы про Average Precision? Знаете, зачем она используется?

Average Precision (AP) — это метрика, которая оценивает баланс между точностью (precision) и полнотой (recall) на всех возможных порогах классификации.

Как это работает:
▪️Модель начинает с высокого порога, где она «уверена» в своих предсказаниях, и постепенно снижает его, увеличивая полноту (recall).
▪️Для каждого порога вычисляется точность и строится кривая зависимости Precision-Recall.
▪️Average Precision — это площадь под этой кривой.

Почему это важно?
AP дает более полную картину качества модели, чем точность или полнота, так как учитывает все пороги вероятностей. Она особенно полезна:
В задачах с несбалансированными данными (где положительных примеров мало).
В задачах ранжирования (например, поиск, детекция объектов).
Для оценки модели в условиях, когда важен не только один порог, но и общее поведение модели.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

24 Nov, 12:01


👆Как ощущаются последние часы перед собеседованием

Библиотека собеса по Data Science | вопросы с собеседований

23 Nov, 13:00


В чём отличие одностороннего критерия от двустороннего?

Чтобы ответить на этот вопрос, нужно коротко описать этапы построения статистического теста.

▪️Формулировка гипотез
Так, нулевая гипотеза утверждает отсутствие эффекта или различий, а альтернативная — наличие эффекта.

▪️Определение критического множества
Это набор значений статистики теста, при попадании в который нулевая гипотеза отвергается. Выбор критического множества зависит от типа теста.
— Односторонний критерий
В этом случае критическое множество располагается с одной стороны распределения.
— Двусторонний критерий
В этом случае критическое множество делится на две области в «хвостах» распределения.

▪️Расчёт критического значения
Уровень значимости определяет, какую долю распределения займёт критическое множество. Для двустороннего теста эта доля делится поровну между двумя хвостами.

▪️Проверка значения статистики
Рассчитывается значение тестовой статистики и проверяется, попадает ли оно в критическое множество.

Пример
Если мы проверяем, выросли ли продажи после внедрения нового продукта, используется односторонний критерий. Если просто хотим узнать, изменились ли продажи в принципе (в любую сторону), подходит двусторонний.

#статистика

Библиотека собеса по Data Science | вопросы с собеседований

22 Nov, 12:01


📈 Почему Big data так быстро развивается?

Хотите получить востребованную и высокооплачиваемую профессию. Начните с понимания, куда движется индустрия. В нашей статье поговорим о Big Data — одном из самых горячих и перспективных направлений в IT.

🔗 Ссылка

Библиотека собеса по Data Science | вопросы с собеседований

21 Nov, 12:00


Что вы знаете про Sparse Linear Methods (SLIM)?

Sparse Linear Methods (SLIM) — это метод моделирования рекомендаций, который основывается на разреженных линейных моделях. Такие рекомендательные системы учитывают схожесть между элементами на основе линейных отношений в матрице пользователь-объект.

Главная идея SLIM заключается в обучении матрицы весов W, которая описывает взаимосвязь между элементами. Эти веса используются для предсказания пользовательских предпочтений через линейную комбинацию взаимодействий с другими элементами.

К преимуществам SLIM относятся:

▪️Интерпретируемость
Полученные веса позволяют понять, как объекты связаны друг с другом.
▪️Адаптивность
Хорошо справляется как с большим, так и с малым количеством данных.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

21 Nov, 06:00


Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов

Подробности тут

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾

Библиотека собеса по Data Science | вопросы с собеседований

20 Nov, 13:00


Что вы знаете об алгоритме агломеративной кластеризации?

Агломеративная кластеризация — это метод иерархической кластеризации, при котором кластеры постепенно объединяются. Алгоритм начинается с того, что каждый объект рассматривается как отдельный кластер. На каждом шаге объединяются два кластера, для которых метрика объединения показывает максимальное улучшение. Процесс продолжается до тех пор, пока объединение остаётся выгодным по выбранному критерию.

Этот подход часто используется, когда необходимо получить иерархическую структуру кластеров. Преимущество алгоритма заключается в его гибкости: он не требует предположений о количестве кластеров и может работать с любой метрикой сходства.

Однако у метода есть и недостатки: базовая реализация имеет высокую вычислительную сложность, особенно на больших наборах данных. Чтобы снизить сложность, применяются различные оптимизации, например, аддитивные свойства метрик и выборочные пересчёты значений для уменьшения количества операций.

На практике агломеративная кластеризация применяется в задачах, где данные не обязательно находятся в метрическом пространстве, например, при работе с текстами или графами, где сходства между объектами могут быть асимметричными или разреженными.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

19 Nov, 12:00


Почему в Случайном лесе, состоящем из деревьев решений, каждое дерево учит что-то разное?

Случайный лес — это метод, предполагающий распараллеливание процесса обучения. Действительно, каждое дерево в этом ансамбле изучает разные паттерны из данных. Но почему так получается?

1️⃣ Бутстреп
Для обучения каждого дерева используется случайная выборка с возвращением из исходного набора данных. Это значит, что каждое дерево видит немного другой набор данных, содержащий одни и те же объекты, но с разным распределением.

2️⃣ Случайность в выборе признаков
При разбиении каждого узла дерева алгоритм выбирает случайное подмножество признаков для поиска лучшего разделения. Это не позволяет деревьям сильно зависеть от наиболее значимых признаков и делает их более разнообразными.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

18 Nov, 20:02


🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

Библиотека собеса по Data Science | вопросы с собеседований

18 Nov, 12:01


Что такое on-policy и off-policy алгоритмы?

Policy в контексте обучения с подкреплением (reinforcement learning) — это некоторое правило для агента, которым он руководствуется, чтобы выбирать действия в зависимости от текущего состояния среды.

Соответственно, on-policy и off-policy алгоритмы отличаются тем, как они взаимодействуют с policy.

▪️ On-policy алгоритмы
Эти алгоритмы обучаются на данных, собранных исключительно с использованием текущей policy, которую они оптимизируют. Ключевая особенность on-policy подхода в том, что он требует свежих данных, собранных с актуальной версии policy.
Пример: Vanilla Policy Gradient (VPG) — базовый алгоритм, который стал основой для более современных on-policy методов, таких как TRPO и PPO.

▪️ Off-policy алгоритмы
Off-policy алгоритмы обучаются на данных, собранных другой policy, которая может быть полностью независимой от текущей. Это позволяет использовать ранее накопленные данные или данные, собранные случайным образом.
Пример: Deep Deterministic Policy Gradient (DDPG), который совместно обучает Q-функцию и policy. Такие методы используют уравнение Беллмана, чтобы вычислять обновления, независимо от того, как были собраны данные.

#машинное_обучение
#глубокое_обучение

Библиотека собеса по Data Science | вопросы с собеседований

17 Nov, 12:00


🥲 Что-то в глаз попало...

Библиотека собеса по Data Science | вопросы с собеседований

16 Nov, 13:00


Какова разница между layer normalization и batch normalization?

▪️Layer normalization
Этот метод нормализует входные данные по всем признакам внутри одного образца, и потому не зависит от размера батча. Чаще всего применяется в рекуррентных нейронных сетях (RNN) и трансформерах, где размер последовательностей или батча может варьироваться.

▪️Batch normalization
Нормализует входные данные по каждому признаку с учётом статистик (среднего и дисперсии), вычисленных по всему батчу. Метод зависит от размера батча. Обычно используется в свёрточных нейронных сетях (CNN) и полносвязных слоях для ускорения обучения и стабилизации градиентов.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

15 Nov, 12:01


👨‍🎓📊 Как научиться Data Science онлайн: 12 шагов от новичка до профи

12 шагов для тех, кто хочет с нуля построить карьеру в Data Science. Руководство к действию и россыпь ссылок на полезные ресурсы.

Переходите на нашу статью:
🔗 Ссылка

Забирайте курс по Алгоритмам и стать Data Scientst'ом станет еще проще:
🔵 Алгоритмы и структуры данных

Библиотека собеса по Data Science | вопросы с собеседований

15 Nov, 08:04


🙌 Хардкорный вышмат для тех, кто интересуется ML, AI, DS

Начать с вводных занятий можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/22ea91ad

Что будет на демо?

🔹Вводный урок от CPO курса;

🔹Лекции со всеми преподавателями МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск;

🔹Практические задания и дополнительные материалы!

⚡️Переходите и активируйте – https://proglib.io/w/22ea91ad

Библиотека собеса по Data Science | вопросы с собеседований

15 Nov, 06:03


Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы
Азбука айтишника — здесь мы познаем азы из мира программирования

🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Библиотека разработчика игр | Gamedev, Unity, Unreal Engine
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ

Библиотека собеса по Data Science | вопросы с собеседований

14 Nov, 12:01


Сравните популярные функции активации с точки зрения вычислительной сложности и поведения градиента.

▪️Сигмоидная функция

Преобразует входные значения в диапазон от 0 до 1, что может представлять вероятность положительного класса. Хотя она полезна для бинарной классификации, функция может страдать от проблемы исчезающих градиентов при крайних значениях входных данных, особенно в глубоких сетях. Вычислительная сложность сигмоидной функции относительно высока, так как она включает экспоненциальные вычисления.

▪️Гиперболический тангенс

Преобразует входные значения в диапазон от -1 до 1. Похожа на сигмоидную функцию, но с выходными значениями, центрированными вокруг нуля, что иногда может улучшить сходимость в нейросетях. Однако, как и сигмоидная функция, она также подвержена проблеме исчезающих градиентов в глубоких сетях. Вычислительная сложность также относительно высока из-за использования экспоненциальных вычислений, аналогично сигмоидной функции.

▪️Функция ReLU

Устанавливает отрицательные входные значения в 0 и сохраняет положительные значения. ReLU является вычислительно эффективной и широко используется, так как помогает избежать проблемы исчезающих градиентов. Вычислительная сложность ReLU низкая, так как она представляет собой простое линейное сравнение с нулем, что делает её предпочтительной для многих задач. Однако ReLU может привести к «умиранию нейронов», если слишком много активаций становятся нулевыми и перестают обучаться.

▪️Функция Leaky ReLU

Модифицирует ReLU, вводя небольшой наклон для отрицательных значений, что помогает смягчить проблему «умирающих нейронов». Leaky ReLU поддерживает более широкий диапазон активации и ненулевой градиент для отрицательных значений, способствуя стабильности модели. Вычислительная сложность Leaky ReLU также низкая, аналогично ReLU, поскольку она требует лишь умножения отрицательных значений на небольшой коэффициент, что незначительно увеличивает нагрузку.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

13 Nov, 12:01


🤖 Обзоры новых ИИ-сервисов и продуктов для разработчиков

👇Это небольшая выдержка из нашей еженедельной рассылки про последние новости и тенденции в мире ИИ.

📰 Новости

🔘Microsoft собирается запатентовать метод, способный радикально снизить или даже полностью устранить галлюцинации LLM. Технология называется RAS («Система улучшения ответов»).

🔘Hugging Face и NVIDIA заключили соглашение о сотрудничестве в области робототехники, главная цель которого — создание открытой экосистемы для разработки роботов с искусственным интеллектом.

🪚 Инструменты

🔘Midship — извлекает данные из документов любого формата. Похожий инструмент — PandaETL.

🔘PopPop — бесплатный ИИ-инструмент для удаления вокала из песен и видеоклипов.

🔘Siter — генерирует интерактивные сайты на основе Figma-дизайнов.

🔦 Как развернуть LLM с помощью vLLM и TorchServe

vLLM — один из самых подходящих движков для простого запуска LLM: он предоставляет команду vllm serve для развертывания на одной машине. Однако для развёртывания в продакшене требуются дополнительные продвинутые функции, которых у него нет. Такие возможности есть у TorchServe. Здесь можно прочесть оригинальный гайд по деплою.

А перевод на русский язык мы сделали в нашей рассылке. Подписаться на неё и получать свежие материалы каждую неделю можно по этой ссылке 👈

Библиотека собеса по Data Science | вопросы с собеседований

12 Nov, 13:01


В каких сценариях используются конфигурации «один к одному», «один ко многим» и «многие ко многим» на входных и выходных слоях рекуррентной нейронной сети?

Рекуррентные нейронные сети (RNN) эффективны для работы с последовательностями. Вот основные сценарии:

▪️Один к одному — редко используется для RNN. Такие задачи, как классификация изображений, не требуют обработки последовательностей, поэтому чаще решаются свёрточными сетями (CNN). Но иногда RNN применяются для классификации фиксированных последовательностей.

▪️Один ко многим — применимо в задачах генерации последовательностей на основе одного входа, например, при преобразовании изображения в текст. CNN извлекает признаки изображения, а RNN генерирует описание на выходе.

▪️Многие ко многим — классический пример RNN. Это может быть перевод текста, где входная последовательность на одном языке преобразуется в выходную на другом.

#глубокое_обучение

Библиотека собеса по Data Science | вопросы с собеседований

11 Nov, 12:01


Как можно оценить модель, предсказывающую показатель кликабельности (click-through rate, CTR), и в оффлайн, и в режиме реального времени?

▪️Оффлайн-оценка

Для оффлайн-оценки модели предсказания CTR часто используется кросс-энтропия. Она позволяет сравнивать предсказанные значения CTR с фактическими результатами кликов. Обычно модель тестируется на отложенном наборе данных, который не участвовал в обучении.

▪️Оценка в реальном времени

В режиме реального времени кросс-энтропия также может рассчитываться, используя данные онлайн-трафика. Этот подход позволяет следить за производительностью модели «на лету» и быстро выявлять её сильные и слабые стороны.

Проблемы при оценке

🔹Селективное смещение
Онлайн-трафик может быть смещён в сторону высоковероятных кликов, что может исказить оценку модели.

🔹Задержка кликов
Клики не всегда происходят мгновенно после показа объявления. Задержка между показом и кликом может повлиять на расчёты метрик.

🔹Утечка данных
Чтобы избежать искажения результатов, важно обеспечить независимость тестовых данных от обучающих. Утечка тестовых данных в обучающие может привести к завышенной оценке качества модели.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

11 Nov, 06:00


🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

Библиотека собеса по Data Science | вопросы с собеседований

10 Nov, 12:02


📊 ТОП-10 необходимых для специалиста по Big Data навыков

Рассказываем о необходимом наборе технических и карьерных навыков для специалиста по Big Data.

✍️ Big Data — это термин, используемый для обозначения значительного объема как структурированных, так и неструктурированных данных, который слишком велик для обработки традиционными методами.

👉 Читать все подробности в статье

Библиотека собеса по Data Science | вопросы с собеседований

09 Nov, 13:00


Какой метод перекрёстной проверки лучше использовать для временных рядов?

Для временных рядов стандартный метод k-fold перекрёстной проверки (кросс-валидации) может быть проблематичным, так как он нарушает порядок последовательности данных, что критично для временной зависимости.

Наиболее подходящий подход для временных рядов — это метод последовательного расширяющегося окна (expanding window) или прямой цепочки. Процедура выглядит так:

1. обучение на данных [1], тестирование на данных [2]
2. обучение на данных [1, 2], тестирование на данных [3]
3. обучение на данных [1, 2, 3], тестирование на данных [4] и т.д.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

08 Nov, 12:00


📊 Путеводитель по Big Data для начинающих: методы и техники анализа больших данных

Методы и техники анализа Big Data: Machine Learning, Data mining, краудсорсинг, нейросети, предиктивный и статистический анализ, визуализация, смешение и интеграция данных, имитационные модели. Как разобраться во множестве названий и аббревиатур? Читайте наш путеводитель в статье по ссылке.

🔗 Ссылка

Библиотека собеса по Data Science | вопросы с собеседований

07 Nov, 12:00


Что вы знаете про обучение с подкреплением (reinforcement learning)?

Суть обучения с подкреплением заключается в том, чтобы смоделировать процесс обучения методом проб и ошибок. Такой алгоритм не использует готовую обучающую выборку. Вместо этого он взаимодействует с окружающей средой (environment), совершая различные действия (actions). За каждое действие алгоритм получает награду (reward) или штраф (penalty) — скалярные значения, которые добавляются к функции вознаграждения (reward function).

Цель алгоритма — научиться действовать так, чтобы максимизировать кумулятивную награду, достигая наилучшего результата в долгосрочной перспективе.

#машинное_обучение
#глубокое обучение

Библиотека собеса по Data Science | вопросы с собеседований

05 Nov, 12:02


Как бы вы объяснили отличия глубокого обучения от обычного (машинного обучения)?

Глубокое обучение и машинное обучение — это подвиды методов искусственного интеллекта. Вот какие различия между ними можно назвать:

▪️Структура моделей
В глубоких нейронных сетях используются многослойные архитектуры.

▪️Объём данных
Глубокое обучение требует больших объёмов данных для эффективного обучения.

▪️Аппаратные требования
Из-за сложности нейронных сетей глубокое обучение обычно требует больше вычислительных ресурсов. Хорошо подходят графические процессоры (GPU), способные к параллелизации.

▪️Автоматизация извлечения признаков
В глубоких сетях слои автоматически находят иерархию признаков в данных, что снижает необходимость в ручной обработке данных.

#глубокое_обучение

Библиотека собеса по Data Science | вопросы с собеседований

04 Nov, 20:02


🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

Библиотека собеса по Data Science | вопросы с собеседований

04 Nov, 18:24


Что вы знаете про метод t-SNE?

t-SNE можно расшифровать как t-Distributed Stochastic Neighbor Embedding. Если коротко, это метод нелинейного снижения размерности и визуализации многомерных данных.

t-SNE преобразует данные в пространство меньшей размерности (обычно в 2D или 3D), сохраняя информацию о близости точек, которые находятся рядом друг с другом в исходном пространстве. Это делает его особенно полезным для визуализации сложных данных, таких как текстовые эмбеддинги, где важно увидеть кластеры и локальные группы объектов.

😎 Как метод добивается сохранения этой информации? t-SNE конвертирует евклидовы расстояния между точками в условные вероятности. То есть указывается вероятность того, что некая точка x_i будет иметь в качестве соседа точку x_j.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

03 Nov, 12:02


Топ неожиданных концовок возглавляет👆

#memes

Библиотека собеса по Data Science | вопросы с собеседований

02 Nov, 12:00


Что такое эффект насыщения (saturation) нейрона?

В контексте нейронных сетей феномен насыщения относится к ситуации, когда выход нейрона чаще всего близок к максимальному или минимальному значению функции активации.

Поясним на примере сигмоидальной функции активации. Она ограничена двумя горизонтальными асимптотами, к которым стремится при стремлении аргумента к бесконечности. Этими асимптотами могут быть 1 и 0. Если нейрон насыщен, то его аутпут будет почти всегда близок к единице или нулю.

К чему это приведёт? Градиент этой функции активации становится очень малым. Это приводит к эффекту затухающих градиентов, когда обновления весов практически прекращаются, и сеть перестает эффективно обучаться.

#глубокое_обучение

Библиотека собеса по Data Science | вопросы с собеседований

01 Nov, 11:52


📊 8 паттернов проектирования, которые должен знать каждый ML-разработчик

Паттерны проектирования предлагают комплексные решения проблем, с которыми разработчики сталкиваются каждый день. В этой статье мы рассмотрим 8 паттернов проектирования с примерами кода на Python.

Забираем статью:
🔗 Ссылка

Библиотека собеса по Data Science | вопросы с собеседований

31 Oct, 12:02


Объясните, как работает градиентный бустинг на примере задачи регрессии?

Градиентный бустинг — это мощный ансамблевый метод, который комбинирует предсказания нескольких моделей, обучая их последовательно. Часто в качестве базовых моделей выступают деревья решений. Суть метода в том, что каждая новая модель пытается исправить ошибки предыдущих, приближаясь к идеальному результату шаг за шагом.

▪️Сначала строится базовая модель, дающая простое предсказание целевой переменной. На этом этапе, конечно, модель далека от идеала. Мы измеряем, насколько предсказания модели отличаются от настоящих значений, используя функцию потерь.

▪️Если модель предсказала на 5 больше, чем реальное значение, идеальная поправка для неё была бы -5. Новая модель обучается предсказывать именно этот антиградиент (то есть разницу между предсказанным и истинным значением) для текущей функции потерь. Затем к предсказаниям базовой модели добавляется результат новой модели, корректируя их в нужную сторону.

▪️На каждом следующем шаге очередная модель будет пытаться предсказать антиградиент функции потерь, чтобы улучшить общее предсказание. Это добавление моделей продолжается до тех пор, пока не достигается нужное качество.

▪️В результате предсказание целевой переменной представляет собой взвешенную сумму всех построенных моделей.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

30 Oct, 14:02


Что такое исключающая кластеризация (exclusive clustering)

Исключающая кластеризация — это подход, при котором каждый объект данных относится строго к одному кластеру. В отличие от мягкой кластеризации (например, fuzzy clustering), где объекты могут принадлежать нескольким кластерам с разной степенью вероятности, в исключающей кластеризации каждый объект закрепляется только за одной группой. Такой подход позволяет чётко разделить данные и часто используется, когда необходимо однозначное распределение, например, при сегментации клиентов или выделении групп в социальных сетях.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

29 Oct, 13:00


Что бы вы стали делать с ошибками в данных?

Важно понимать, что ошибки могут появляться по разным причинам — от человеческого фактора до технических сбоев. При работе с «грязными» данными типичные задачи включают:

1️⃣ Обнаружение и удаление дубликатов
В Pandas можно использовать метод .duplicated() для поиска повторяющихся значений и .drop_duplicates() для их удаления.

2️⃣ Исправление неверных значений
Следует проверить данные на соответствие типа и контекста. Например, изменение доходности (MoM) может быть представлено в процентах или долях, и неверный формат может исказить итоговые метрики.

3️⃣ Форматирование данных
Следует убедиться, что числовые значения хранятся в правильном формате. Если доход или другие числовые данные представлены как строки, нужно конвертировать их в float для корректных вычислений.

4️⃣ Корректировка формата даты и времени
Для работы с временными рядами нужно преобразовать даты в формат datetime с помощью pd.to_datetime(), что упростит аналитику и прогнозы.

#анализ_данных

Библиотека собеса по Data Science | вопросы с собеседований

28 Oct, 12:16


📊 Кто такой дата-инженер, чем он занимается и что должен знать

Работа с большими объёмами данных — удел инженеров. Они помогают бизнесу, но что конкретно они делают, вы узнаете в статье

Начни сегодня, получать знания для своей будущей карьеры Дата-инженером:
🔵 Математика для Data Science

👉 Ссылка на статью

Библиотека собеса по Data Science | вопросы с собеседований

28 Oct, 12:13


🎃 Приглашаем на вебинар перед Хэллоуином: «Нужна ли математика на собеседованиях🧙‍♀️

Темные тучи сгущаются, и в воздухе витает мистическая атмосфера... Готовы ли вы окунуться в мир загадочной математики и раскрыть тайны успешного собеседования? Тогда ждем вас 28 октября в 20:00! 🕸
https://proglib.io/w/99515be0

Что вас ждет в эту зловещую ночь:

💀 Ошибаться не страшно: узнаем, как неудачные проекты и опыт «в стол» превращают джуниоров в сеньоров. Расскажем истории о том, как ошибки закаляют и помогают достигать вершин мастерства.

🧛 Собеседования без подготовки? Обсудим, возможно ли пройти через испытания рекрутеров без специальной подготовки или это путь в лабиринт с привидениями.

🧙 Теория и практика — зелье успеха:

• Выбор метрики оценки модели: какую метрику показать бизнесу, чтобы не столкнуться с гневом нечисти? Разберемся в разнице между MAPE и WAPE и когда какую применять.

• Трансформация распределений: как превратить логнормальное распределение в нормальное без волшебной палочки? Поговорим о том, зачем это нужно и как обойтись изменением функции потерь вместо магических превращений.

🦇 Бонус для смельчаков: раскроем секреты тестирования в маркетинге, которые помогут не заблудиться в темном лесу конкурентного рынка.

Не упустите шанс провести вечер в компании единомышленников, погрузиться в атмосферу Хэллоуина и получить ценные знания!

🕯 Записывайтесь на вебинар и готовьтесь к мистическим открытиям! https://proglib.io/w/99515be0

Библиотека собеса по Data Science | вопросы с собеседований

28 Oct, 06:04


🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

Библиотека собеса по Data Science | вопросы с собеседований

27 Oct, 12:02


Мы обучили два ансамбля: случайный лес и бустинг. После этого мы убираем по одному из базовых алгоритмов из каждого ансамбля. Что произойдёт?

Если убрать, например, первое дерево из бустинга, то алгоритм просто сломается. Почему так? Бустинг — это ансамбль, где каждое последующее дерево строится с учётом ошибок предыдущих. Удаление любого из деревьев нарушает всю цепочку, поскольку каждое дерево тесно связано с предыдущими, исправляя их ошибки. В результате ансамбль теряет устойчивость и точность, что может привести к значительным ошибкам в предсказаниях.

А вот случайный лес ведёт себя иначе. Здесь каждое дерево обучается независимо, и их результаты объединяются, чтобы получить финальное предсказание. Поэтому, если мы уберём одно дерево из случайного леса, это не окажет существенного влияния на результат: ансамбль останется работоспособным и, скорее всего, даст предсказания с небольшой потерей точности.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

26 Oct, 12:00


📊🔧 Администратор Power BI: первичные обязанности после реализации дашборда

Разработали дашборд в Power BI, но не знаете, что делать дальше? Делимся секретами, как правильно опубликовать отчет, настроить доступы через Azure и организовать автоматическое обновление данных.

Читать статью

Библиотека собеса по Data Science | вопросы с собеседований

25 Oct, 13:00


Как оценивать важность признаков и зачем это делать? Например, для случайного леса

Оценка важности признаков в машинном обучении помогает понять, какие из них больше всего влияют на результат модели. Это полезно, чтобы интерпретировать поведение модели, улучшить её производительность, а также сократить количество признаков, минимизируя вычислительные затраты и предотвращая переобучение.

Вот специфичные для случайного леса методы:

▪️ Оценка количества разбиений по данному признаку.
В процессе построения деревьев случайный лес принимает решения на основе разбиений по различным признакам. Чем чаще признак используется для разбиения, тем более он важен для модели, так как чаще помогает разделять классы или предсказывать значения.

▪️ Суммарный information gain.
Это общая величина уменьшения неоднородности (например, по критерию Джини или энтропии) при разбиениях, основанных на данном признаке. Если признак приводит к большому приросту информации, он считается значимым, так как повышает предсказательную способность модели.

А вот универсальный способ оценки — permutation importance. Этот метод заключается в перемешивании значений одного признака после того, как модель обучена, и последующей оценке влияния этого признака на качество модели. Если, после перемешивания значений, качество модели резко падает, значит, признак был важен. Этот метод хорошо работает для любых моделей, так как он не зависит от внутренней структуры алгоритма.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

25 Oct, 11:14


⚡️Разыгрываем флагманский смартфон

«Библиотека программиста» разыгрывает один из трех смартфонов на выбор:
🔹Samsung Galaxy S24 Ultra на 1 ТБ
🔹Xiaomi 14 Ultra на 512 ГБ
🔹iPhone 16 Pro Max на 512 ГБ

🔥 А еще 99 участников розыгрыша получат скидку 50% на наш курс Базовые модели ML и приложения!
Промокод будет действителен до 20 ноября.

Условия просты:
→ подписаться на Библиотека нейротекста
→ подписаться на Библиотека нейрозвука
→ подписаться на Библиотека нейрокартинок
→ нажать на кнопку «Участвовать» под этим постом

Итоги появятся 30 октября в 20:00 по московскому времени в нашем канале Библиотека программиста. Затем мы свяжемся с победителем, который сам выберет смартфон. Тем, кто получит промокод, мы вышлем его в течение недели после окончания розыгрыша.

⚠️ Убедитесь, что вам можно написать в личные сообщения или следите за результатами — если мы не сможем с вами связаться, то не сможем и отправить приз. Доставить мы можем только в города России и Беларуси.

Библиотека собеса по Data Science | вопросы с собеседований

24 Oct, 13:36


🚀⬆️ Оптимизируй свой AI: разоблачение 6 мифов о работе с векторами в Pgvector

Шесть заблуждений, которые мешают тебе использовать всю мощь векторных баз данных в AI. Развенчав эти мифы, ты сможешь раскрыть истинный потенциал векторов и значительно повысить эффективность твоих AI-проектов.

👉 Читать статью

Библиотека собеса по Data Science | вопросы с собеседований

23 Oct, 15:30


Перечислите гиперапараметры, которые можно настроить у классического многослойного перцептрона

▪️Количество скрытых слоёв
Это напрямую влияет на сложность модели. Большее количество слоёв может улучшить способность модели к изучению сложных зависимостей, но это также увеличивает риск переобучения.

▪️Количество нейронов в каждом слое
Чем больше нейронов, тем больше информации может обрабатываться, но это также увеличивает количество параметров, которые необходимо обучить.

▪️Функция активации
Можно использовать, например, ReLU.

▪️Скорость обучения (learning rate)
Один из ключевых гиперпараметров, определяющий, насколько быстро обновляются веса на каждом шаге обучения.

▪️Число эпох (epochs)
Определяет, сколько раз модель пройдёт по всему набору данных во время обучения.

▪️Размер батча (batch size)
Определяет, сколько примеров из обучающего набора данных используется для обновления весов за один раз.

▪️Оптимизатор
Классические MLP могут использовать такие оптимизаторы, как Stochastic Gradient Descent (SGD) или более продвинутые, например, Adam или RMSprop.

#глубокое_обучение

Библиотека собеса по Data Science | вопросы с собеседований

22 Oct, 13:01


Какова цель разделения набора данных на обучающую и валидационную выборки?

Основная цель — оставить часть данных, на которых модель не обучалась, чтобы можно было оценить её производительность после обучения. Также иногда валидационный набор данных используется для выбора среди нескольких моделей машинного обучения. Например, сначала мы обучаем несколько алгоритмов, таких как логистическая регрессия, XGBoost и другие, затем тестируем их производительность на валидационных данных и выбираем модель, у которой наименьшая разница между точностью на валидационных и обучающих данных.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

21 Oct, 20:03


🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

Библиотека собеса по Data Science | вопросы с собеседований

21 Oct, 13:00


Что такое кросс-энтропия?

Это одна из функций потерь, используемых в машинном обучении. Её ещё называют перекрёстной энтропией или log loss.

Кросс-энтропия измеряет разницу между фактическими метками и предсказанными вероятностями модели. Она широко используется в задачах классификации, особенно в нейронных сетях. Чем больше разница между предсказанной моделью вероятностью и истинным значением, тем выше значение кросс-энтропии.

👆График выше показывает диапазон возможных значений потерь, когда истинная метка равна единице (isDog = 1). По мере приближения предсказанной вероятности к 1 логарифмическая потеря медленно уменьшается. Однако при снижении предсказанной вероятности логарифмическая потеря резко возрастает. Логарифмическая потеря штрафует оба типа ошибок, но особенно те предсказания, которые уверенные, но ошибочные.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

21 Oct, 06:00


Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов
👉Переводчик и автор оригинальных статей

Подробности тут

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾

Библиотека собеса по Data Science | вопросы с собеседований

20 Oct, 12:01


🤼 Генеративно-состязательная нейросеть: ваша первая GAN-модель на PyTorch

Подробная инструкция построения генеративно-состязательных нейросетей (GAN) на примере двух моделей, реализованных с помощью фреймворка глубокого обучения PyTorch в нашей статье. 👇

🔗 Статья

У нас есть курс как для начинающих программистов, так и для тех, кто уже шарит:
🔵 Алгоритмы и структуры данных

Библиотека собеса по Data Science | вопросы с собеседований

19 Oct, 12:01


Что даёт вам понять F1-мера?

Это метрика, которая комбинирует Precision и Recall. Для расчёта берётся среднее гармоническое этих показателей. Таким образом, F1-мера предполагает одинаковую важность Precision и Recall.

Вот её формула:

TP / (TP + (FP + FN) / 2),

где TP — это количество истинно положительных предсказаний, FP — ложно положительных, а FN — ложно отрицательных.

Высокая F1-мера говорит о том, что модель хорошо справляется с предсказаниями и ошибок мало как среди ложноположительных, так и среди ложноотрицательных примеров.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

18 Oct, 13:00


🧩 Реализация паттерна «Одиночка» на Python

Мечтаешь о коде, который работает как швейцарские часы? Паттерн «Одиночка» может стать тем самым механизмом, который заставит все шестерёнки крутиться идеально.

👉 Читать в статье

Библиотека собеса по Data Science | вопросы с собеседований

17 Oct, 13:02


Какие вы знаете автоматические способы обнаружения выбросов в датасете?

Вот несколько подходов:

▪️Isolation forest

Метод базируется на алгоритме случайного леса. Его основная идея заключается в том, что выбросы легче изолировать от остальных данных, чем нормальные объекты. В процессе работы алгоритм строит деревья, случайно разделяя данные. Выбросы, как правило, изолируются за меньшее число шагов. В результате каждому объекту присваивается скор от 0 до 1, где значения, близкие к 1, указывают на возможные выбросы, а значения, близкие к 0, означают нормальные данные.

▪️Local Outlier Factor (LOF)

Этот метод оценивает, насколько плотно объект окружен своими соседями по сравнению с плотностью соседей вокруг других объектов. Если плотность точки значительно меньше, чем у её соседей, то точка считается выбросом.

▪️Расстояние Махаланобиса

Этот метод измеряет расстояние между точкой и средним значением распределения, принимая во внимание ковариацию данных. Точки, находящиеся далеко от центра распределения, но с учётом их корреляции с другими признаками, могут быть идентифицированы как выбросы.

#машинное_обучение
#данные

Библиотека собеса по Data Science | вопросы с собеседований

16 Oct, 12:02


👾🛡️🤖 42 секунды и 5 запросов: как взламывают генеративные ИИ-модели

Ты знал, что злоумышленникам для взлома генеративных ИИ достаточно всего 42 секунды и пяти запросов? В этой статье мы разберём, как это происходит, какие уязвимости существуют и как защитить свои системы от подобных атак.

👉 Читать здесь

Библиотека собеса по Data Science | вопросы с собеседований

15 Oct, 13:00


Опишите формы решающих деревьев у LightGBM, XGBoost и CatBoost

▪️LightGBM строит деревья по принципу: «На каждом шаге делим вершину с наилучшей оценкой». Основным же критерием остановки выступает максимально допустимое количество вершин в дереве. Из-за этого деревья получаются несимметричными.

▪️XGBoost строит деревья по принципу: «Строим дерево последовательно по уровням до достижения максимальной глубины». Так, деревья «стремятся» быть симметричными по глубине. В идеальном случае получается полное бинарное дерево.

▪️CatBoost строит деревья по принципу: «Все вершины одного уровня имеют одинаковый предикат». Это приводит к более стабильному обучению, особенно при наличии категориальных признаков, благодаря внутренним механизмам работы с ними. Деревья CatBoost стремятся быть более сбалансированными.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

15 Oct, 06:03


Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы
Азбука айтишника — здесь мы познаем азы из мира программирования

🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Библиотека разработчика игр | Gamedev, Unity, Unreal Engine
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ

Библиотека собеса по Data Science | вопросы с собеседований

14 Oct, 12:40


🔀 Чем отличаются системный и бизнес-аналитик? Разбираемся на практике

Дискуссии о том, как разделить определения системного и бизнес-аналитика ведутся в сфере непрерывно. Одни уверены, что это профессия «два в одном», другие — не понимают, какой именно аналитик нужен проекту, и главное — зачем. Раскладываем по полочкам в нашей статье.

👉 Ссылка на статью

Библиотека собеса по Data Science | вопросы с собеседований

14 Oct, 10:02


🤔 Основы математики в Machine Learning / Deep Learning

🗓 16 октября мы разберем ряд Тейлора, собственные векторы и другие ключевые понятия в ML – https://proglib.io/w/cf559bfa

Спикер: Иван Потапов – Staff Machine Learning Engineer at ShareChat. Руководит командой, отвечающей за качество рекомендаций, и имеет 8-летний опыт в сфере машинного обучения.

😮 Что будем обсуждать:

– Теорию вероятностей: случайные величины, математическое ожидание и дисперсию.

Линейную алгебру: векторы, матрицы, собственные векторы и собственные значения.

Математический анализ: производные и разложение функций в ряд Тейлора.

👨‍💻 А еще после каждого блока вас ждет практика в применении полученных знаний.

🎯 Почему это важно?
Понимание математических основ помогает глубже разобраться в работающих под капотом алгоритмах ML/DL и эффективно применять их на практике.

Присоединяйтесь к нам и совершенствуйте свои навыки в машинном обучении!

📌 Регистрация по ссылке: https://proglib.io/w/cf559bfa

Библиотека собеса по Data Science | вопросы с собеседований

14 Oct, 06:03


🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

Библиотека собеса по Data Science | вопросы с собеседований

13 Oct, 12:01


Что вы знаете про визуальные трансформеры?

Архитектура Transformer была представлена в статье Attention is All You Need. Она отличалась использованием механизма self-attention и очень хорошо показала себя в задачах обработки последовательных данных.

В другой работе An Image is Worth 16x16 Words архитектура была модифицирована для решения задач классификации изображений. Её назвали Vision Transformer (ViT). Идея заключается в том, чтобы разбить изображение на небольшие патчи (например, 16x16 пикселей), которые затем обрабатываются как последовательности токенов, аналогичные словам в тексте. В основе архитектуры лежит тот же механизм self-attention. Однако в отличие от оригинального трансформера, которая включает кодировщик и декодер, ViT использует только кодировщик. Выход кодировщика передаётся в выходной слой, который отвечает за финальное предсказание.

#глубокое_обучение

Библиотека собеса по Data Science | вопросы с собеседований

12 Oct, 12:00


🐍🍽️ Питон съел GIL на завтрак: что нового в версии 3.13

Ты сидишь? Лучше сядь. Они реально сделали это — JIT-компилятор, улучшенная типизация, и, ты не поверишь, GIL наконец-то отправляется на пенсию!

В статье рассказываем обо всех фишках недавно релизнутой версии Python 3.13.

👉 Читать по этой ссылке

Прикреплённый к посту ролик досматриваем до конца👆

Библиотека собеса по Data Science | вопросы с собеседований

11 Oct, 12:00


🧑‍💻 Как понять свой уровень квалификации: junior, middle или senior

Это полезная статья от Хабр Карьеры, которая поможет немного разобраться в себе 😌

Эксперты сайта ответили на следующие вопросы:

▪️Какие основные признаки каждого грейда вы бы выделили?
▪️Как определить свой уровень квалификации?
▪️Как понять, что твой грейд вырос?
▪️Какие советы вы дали бы тем, кто переходит из джуна в мидлы и из мидла в сеньоры?

🔗 Читать статью

Библиотека собеса по Data Science | вопросы с собеседований

10 Oct, 11:30


👨‍💼 Профессия системного аналитика в 2024 году: что нужно знать и где учиться

Освоить эту профессию непросто. Порог входа довольно высок, да и изучить придется немало. Однако, если разработчик не хочет идти в тимлиды или становиться менеджером, системная аналитика — перспективный вариант дальнейшей карьеры.

Рассматриваешь вариант стать системным аналитиком, тогда забирай курс:
🔵 Математика для Data Science

🔗 Статья

Библиотека собеса по Data Science | вопросы с собеседований

09 Oct, 12:01


🧑‍💻 Какие вопросы задать интервьюеру на собеседовании?

Это полезный репозиторий, в котором собраны советы по «обратному собеседованию». В конце концов, не только вы должны отвечать на вопросы во время интервью.

▪️Что спросить о должностных обязанностях?
▪️Как узнать больше про используемые технологии?
▪️Что выяснить про будущих коллег?
▪️Какие вопросы задать про условия работы?

🔗 Список вопросов находится по этой ссылке

Библиотека собеса по Data Science | вопросы с собеседований

08 Oct, 12:01


📊 Data Science и Big Data: сходства и различия

В нашей статье разложим по полочкам сходства и различия между специализациями Data Science и Big Data.

🌻 Что внутри?

▪️ Термины
▪️ Применение
▪️ Навыки
▪️ Карьерные перспективы

👉 Ссылка на Статью

Библиотека собеса по Data Science | вопросы с собеседований

07 Oct, 20:02


🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

Библиотека собеса по Data Science | вопросы с собеседований

07 Oct, 13:00


Что такое Backpropagation through time (BPTT)?

BPTT — это метод обучения рекуррентных нейронных сетей (RNN), который использует обратное распространение ошибки для корректировки весов. Для этого сеть разворачивается во времени, представляя последовательные временные шаги как копии нейронки. На каждом шаге вычисляется ошибка, которая затем передаётся назад через временные шаги для обновления весов.

В преимущества BPTT записывают более быстрое обучение по сравнению с другими методами оптимизации. К недостаткам относят сложности с локальными минимумами.

#глубокое_обучение

Библиотека собеса по Data Science | вопросы с собеседований

06 Oct, 12:00


🏢 Как компании превращают данные в деньги: обзор российских практик Data Science

Обсуждаем, куда податься с полученными навыками — как наука о данных используется в российских компаниях. Кейсы коммерческого использования Data Science на территории России в нашей статье: финансы и ритейл, наука и производство, информационные системы и индустрия развлечений.

Хотите приобрести навыки для выполнения этих кейсов, тогда забирайте курсы:
🔵 Математика для Data Science
🔵 Основы программирования на Python

👉Ссылка на статью

Библиотека собеса по Data Science | вопросы с собеседований

05 Oct, 12:01


Что такое uplift моделирование?

Если коротко, то это построение модели для поиска сегмента клиентов, на которых коммуникация окажет максимальный эффект. Бизнес-задачу тут можно сформулировать следующим образом: нам нужно, чтобы после коммуникации клиенты выполнили целевое действие, будь то покупка, регистрация или какой-то другой шаг.

В отличие от обычного предсказательного моделирования, uplift моделирование анализирует не просто вероятность совершения действия, а разницу в поведении между двумя группами: тех, кто подвергся воздействию (например, получил рекламное предложение), и тех, кто не подвергся. Это позволяет выделить клиентов, для которых воздействие будет наиболее эффективным — они с наибольшей вероятностью изменят свое поведение благодаря коммуникации.

Пример использования: компания хочет отправить промо-акции. С помощью uplift модели можно выявить тех клиентов, которые не купили бы продукт без акции, но сделают это, если им предложить скидку. Такой подход позволяет существенно повысить эффективность маркетинговых кампаний и снизить затраты на лишние коммуникации.

#данные

4,297

subscribers

361

photos

5

videos