Библиотека собеса по Data Science | вопросы с собеседований @ds_interview_lib Channel on Telegram

Библиотека собеса по Data Science | вопросы с собеседований

@ds_interview_lib


Вопросы с собеседований по Data Science и ответы на них.

Список наших каналов: https://t.me/proglibrary/9197
Учиться у нас: https://proglib.io/w/7dfb7235

Обратная связь: @proglibrary_feedback_bot

По рекламе: @proglib_adv
Прайс: @proglib_advertising

Библиотека собеса по Data Science | вопросы с собеседований (Russian)

Добро пожаловать в канал "ds_interview_lib" - вашу библиотеку собеседований по Data Science! Здесь вы найдете вопросы, которые часто задают на собеседованиях, а также подробные ответы на них. Наша цель - помочь вам подготовиться к интервью и успешно пройти собеседование в сфере Data Science.

Мы предлагаем широкий спектр вопросов и ответов, которые позволят вам уверенно себя чувствовать на собеседовании. Вы также можете ознакомиться с другими каналами, связанными с программированием, нашими партнерами и предложениями по обучению на нашем сайте.

Для обратной связи и предложений по улучшению нашего канала, обращайтесь к нашему боту: @proglibrary_feedback_bot. Если у вас есть вопросы по рекламе, пожалуйста, обращайтесь к нашему отделу рекламы: @proglib_adv. Там вы также можете найти информацию о ценах и условиях размещения. Присоединяйтесь к нашему каналу, чтобы быть в курсе последних новостей и обновлений в сфере Data Science!

Библиотека собеса по Data Science | вопросы с собеседований

20 Nov, 13:00


Что вы знаете об алгоритме агломеративной кластеризации?

Агломеративная кластеризация — это метод иерархической кластеризации, при котором кластеры постепенно объединяются. Алгоритм начинается с того, что каждый объект рассматривается как отдельный кластер. На каждом шаге объединяются два кластера, для которых метрика объединения показывает максимальное улучшение. Процесс продолжается до тех пор, пока объединение остаётся выгодным по выбранному критерию.

Этот подход часто используется, когда необходимо получить иерархическую структуру кластеров. Преимущество алгоритма заключается в его гибкости: он не требует предположений о количестве кластеров и может работать с любой метрикой сходства.

Однако у метода есть и недостатки: базовая реализация имеет высокую вычислительную сложность, особенно на больших наборах данных. Чтобы снизить сложность, применяются различные оптимизации, например, аддитивные свойства метрик и выборочные пересчёты значений для уменьшения количества операций.

На практике агломеративная кластеризация применяется в задачах, где данные не обязательно находятся в метрическом пространстве, например, при работе с текстами или графами, где сходства между объектами могут быть асимметричными или разреженными.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

19 Nov, 12:00


Почему в Случайном лесе, состоящем из деревьев решений, каждое дерево учит что-то разное?

Случайный лес — это метод, предполагающий распараллеливание процесса обучения. Действительно, каждое дерево в этом ансамбле изучает разные паттерны из данных. Но почему так получается?

1️⃣ Бутстреп
Для обучения каждого дерева используется случайная выборка с возвращением из исходного набора данных. Это значит, что каждое дерево видит немного другой набор данных, содержащий одни и те же объекты, но с разным распределением.

2️⃣ Случайность в выборе признаков
При разбиении каждого узла дерева алгоритм выбирает случайное подмножество признаков для поиска лучшего разделения. Это не позволяет деревьям сильно зависеть от наиболее значимых признаков и делает их более разнообразными.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

18 Nov, 20:02


🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

Библиотека собеса по Data Science | вопросы с собеседований

18 Nov, 12:01


Что такое on-policy и off-policy алгоритмы?

Policy в контексте обучения с подкреплением (reinforcement learning) — это некоторое правило для агента, которым он руководствуется, чтобы выбирать действия в зависимости от текущего состояния среды.

Соответственно, on-policy и off-policy алгоритмы отличаются тем, как они взаимодействуют с policy.

▪️ On-policy алгоритмы
Эти алгоритмы обучаются на данных, собранных исключительно с использованием текущей policy, которую они оптимизируют. Ключевая особенность on-policy подхода в том, что он требует свежих данных, собранных с актуальной версии policy.
Пример: Vanilla Policy Gradient (VPG) — базовый алгоритм, который стал основой для более современных on-policy методов, таких как TRPO и PPO.

▪️ Off-policy алгоритмы
Off-policy алгоритмы обучаются на данных, собранных другой policy, которая может быть полностью независимой от текущей. Это позволяет использовать ранее накопленные данные или данные, собранные случайным образом.
Пример: Deep Deterministic Policy Gradient (DDPG), который совместно обучает Q-функцию и policy. Такие методы используют уравнение Беллмана, чтобы вычислять обновления, независимо от того, как были собраны данные.

#машинное_обучение
#глубокое_обучение

Библиотека собеса по Data Science | вопросы с собеседований

17 Nov, 12:00


🥲 Что-то в глаз попало...

Библиотека собеса по Data Science | вопросы с собеседований

16 Nov, 13:00


Какова разница между layer normalization и batch normalization?

▪️Layer normalization
Этот метод нормализует входные данные по всем признакам внутри одного образца, и потому не зависит от размера батча. Чаще всего применяется в рекуррентных нейронных сетях (RNN) и трансформерах, где размер последовательностей или батча может варьироваться.

▪️Batch normalization
Нормализует входные данные по каждому признаку с учётом статистик (среднего и дисперсии), вычисленных по всему батчу. Метод зависит от размера батча. Обычно используется в свёрточных нейронных сетях (CNN) и полносвязных слоях для ускорения обучения и стабилизации градиентов.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

15 Nov, 12:01


👨‍🎓📊 Как научиться Data Science онлайн: 12 шагов от новичка до профи

12 шагов для тех, кто хочет с нуля построить карьеру в Data Science. Руководство к действию и россыпь ссылок на полезные ресурсы.

Переходите на нашу статью:
🔗 Ссылка

Забирайте курс по Алгоритмам и стать Data Scientst'ом станет еще проще:
🔵 Алгоритмы и структуры данных

Библиотека собеса по Data Science | вопросы с собеседований

15 Nov, 08:04


🙌 Хардкорный вышмат для тех, кто интересуется ML, AI, DS

Начать с вводных занятий можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/22ea91ad

Что будет на демо?

🔹Вводный урок от CPO курса;

🔹Лекции со всеми преподавателями МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск;

🔹Практические задания и дополнительные материалы!

⚡️Переходите и активируйте – https://proglib.io/w/22ea91ad

Библиотека собеса по Data Science | вопросы с собеседований

15 Nov, 06:03


Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы
Азбука айтишника — здесь мы познаем азы из мира программирования

🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Библиотека разработчика игр | Gamedev, Unity, Unreal Engine
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ

Библиотека собеса по Data Science | вопросы с собеседований

14 Nov, 12:01


Сравните популярные функции активации с точки зрения вычислительной сложности и поведения градиента.

▪️Сигмоидная функция

Преобразует входные значения в диапазон от 0 до 1, что может представлять вероятность положительного класса. Хотя она полезна для бинарной классификации, функция может страдать от проблемы исчезающих градиентов при крайних значениях входных данных, особенно в глубоких сетях. Вычислительная сложность сигмоидной функции относительно высока, так как она включает экспоненциальные вычисления.

▪️Гиперболический тангенс

Преобразует входные значения в диапазон от -1 до 1. Похожа на сигмоидную функцию, но с выходными значениями, центрированными вокруг нуля, что иногда может улучшить сходимость в нейросетях. Однако, как и сигмоидная функция, она также подвержена проблеме исчезающих градиентов в глубоких сетях. Вычислительная сложность также относительно высока из-за использования экспоненциальных вычислений, аналогично сигмоидной функции.

▪️Функция ReLU

Устанавливает отрицательные входные значения в 0 и сохраняет положительные значения. ReLU является вычислительно эффективной и широко используется, так как помогает избежать проблемы исчезающих градиентов. Вычислительная сложность ReLU низкая, так как она представляет собой простое линейное сравнение с нулем, что делает её предпочтительной для многих задач. Однако ReLU может привести к «умиранию нейронов», если слишком много активаций становятся нулевыми и перестают обучаться.

▪️Функция Leaky ReLU

Модифицирует ReLU, вводя небольшой наклон для отрицательных значений, что помогает смягчить проблему «умирающих нейронов». Leaky ReLU поддерживает более широкий диапазон активации и ненулевой градиент для отрицательных значений, способствуя стабильности модели. Вычислительная сложность Leaky ReLU также низкая, аналогично ReLU, поскольку она требует лишь умножения отрицательных значений на небольшой коэффициент, что незначительно увеличивает нагрузку.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

13 Nov, 12:01


🤖 Обзоры новых ИИ-сервисов и продуктов для разработчиков

👇Это небольшая выдержка из нашей еженедельной рассылки про последние новости и тенденции в мире ИИ.

📰 Новости

🔘Microsoft собирается запатентовать метод, способный радикально снизить или даже полностью устранить галлюцинации LLM. Технология называется RAS («Система улучшения ответов»).

🔘Hugging Face и NVIDIA заключили соглашение о сотрудничестве в области робототехники, главная цель которого — создание открытой экосистемы для разработки роботов с искусственным интеллектом.

🪚 Инструменты

🔘Midship — извлекает данные из документов любого формата. Похожий инструмент — PandaETL.

🔘PopPop — бесплатный ИИ-инструмент для удаления вокала из песен и видеоклипов.

🔘Siter — генерирует интерактивные сайты на основе Figma-дизайнов.

🔦 Как развернуть LLM с помощью vLLM и TorchServe

vLLM — один из самых подходящих движков для простого запуска LLM: он предоставляет команду vllm serve для развертывания на одной машине. Однако для развёртывания в продакшене требуются дополнительные продвинутые функции, которых у него нет. Такие возможности есть у TorchServe. Здесь можно прочесть оригинальный гайд по деплою.

А перевод на русский язык мы сделали в нашей рассылке. Подписаться на неё и получать свежие материалы каждую неделю можно по этой ссылке 👈

Библиотека собеса по Data Science | вопросы с собеседований

12 Nov, 13:01


В каких сценариях используются конфигурации «один к одному», «один ко многим» и «многие ко многим» на входных и выходных слоях рекуррентной нейронной сети?

Рекуррентные нейронные сети (RNN) эффективны для работы с последовательностями. Вот основные сценарии:

▪️Один к одному — редко используется для RNN. Такие задачи, как классификация изображений, не требуют обработки последовательностей, поэтому чаще решаются свёрточными сетями (CNN). Но иногда RNN применяются для классификации фиксированных последовательностей.

▪️Один ко многим — применимо в задачах генерации последовательностей на основе одного входа, например, при преобразовании изображения в текст. CNN извлекает признаки изображения, а RNN генерирует описание на выходе.

▪️Многие ко многим — классический пример RNN. Это может быть перевод текста, где входная последовательность на одном языке преобразуется в выходную на другом.

#глубокое_обучение

Библиотека собеса по Data Science | вопросы с собеседований

11 Nov, 12:01


Как можно оценить модель, предсказывающую показатель кликабельности (click-through rate, CTR), и в оффлайн, и в режиме реального времени?

▪️Оффлайн-оценка

Для оффлайн-оценки модели предсказания CTR часто используется кросс-энтропия. Она позволяет сравнивать предсказанные значения CTR с фактическими результатами кликов. Обычно модель тестируется на отложенном наборе данных, который не участвовал в обучении.

▪️Оценка в реальном времени

В режиме реального времени кросс-энтропия также может рассчитываться, используя данные онлайн-трафика. Этот подход позволяет следить за производительностью модели «на лету» и быстро выявлять её сильные и слабые стороны.

Проблемы при оценке

🔹Селективное смещение
Онлайн-трафик может быть смещён в сторону высоковероятных кликов, что может исказить оценку модели.

🔹Задержка кликов
Клики не всегда происходят мгновенно после показа объявления. Задержка между показом и кликом может повлиять на расчёты метрик.

🔹Утечка данных
Чтобы избежать искажения результатов, важно обеспечить независимость тестовых данных от обучающих. Утечка тестовых данных в обучающие может привести к завышенной оценке качества модели.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

11 Nov, 06:00


🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

Библиотека собеса по Data Science | вопросы с собеседований

10 Nov, 12:02


📊 ТОП-10 необходимых для специалиста по Big Data навыков

Рассказываем о необходимом наборе технических и карьерных навыков для специалиста по Big Data.

✍️ Big Data — это термин, используемый для обозначения значительного объема как структурированных, так и неструктурированных данных, который слишком велик для обработки традиционными методами.

👉 Читать все подробности в статье

Библиотека собеса по Data Science | вопросы с собеседований

09 Nov, 13:00


Какой метод перекрёстной проверки лучше использовать для временных рядов?

Для временных рядов стандартный метод k-fold перекрёстной проверки (кросс-валидации) может быть проблематичным, так как он нарушает порядок последовательности данных, что критично для временной зависимости.

Наиболее подходящий подход для временных рядов — это метод последовательного расширяющегося окна (expanding window) или прямой цепочки. Процедура выглядит так:

1. обучение на данных [1], тестирование на данных [2]
2. обучение на данных [1, 2], тестирование на данных [3]
3. обучение на данных [1, 2, 3], тестирование на данных [4] и т.д.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

08 Nov, 12:00


📊 Путеводитель по Big Data для начинающих: методы и техники анализа больших данных

Методы и техники анализа Big Data: Machine Learning, Data mining, краудсорсинг, нейросети, предиктивный и статистический анализ, визуализация, смешение и интеграция данных, имитационные модели. Как разобраться во множестве названий и аббревиатур? Читайте наш путеводитель в статье по ссылке.

🔗 Ссылка

Библиотека собеса по Data Science | вопросы с собеседований

07 Nov, 12:00


Что вы знаете про обучение с подкреплением (reinforcement learning)?

Суть обучения с подкреплением заключается в том, чтобы смоделировать процесс обучения методом проб и ошибок. Такой алгоритм не использует готовую обучающую выборку. Вместо этого он взаимодействует с окружающей средой (environment), совершая различные действия (actions). За каждое действие алгоритм получает награду (reward) или штраф (penalty) — скалярные значения, которые добавляются к функции вознаграждения (reward function).

Цель алгоритма — научиться действовать так, чтобы максимизировать кумулятивную награду, достигая наилучшего результата в долгосрочной перспективе.

#машинное_обучение
#глубокое обучение

Библиотека собеса по Data Science | вопросы с собеседований

05 Nov, 12:02


Как бы вы объяснили отличия глубокого обучения от обычного (машинного обучения)?

Глубокое обучение и машинное обучение — это подвиды методов искусственного интеллекта. Вот какие различия между ними можно назвать:

▪️Структура моделей
В глубоких нейронных сетях используются многослойные архитектуры.

▪️Объём данных
Глубокое обучение требует больших объёмов данных для эффективного обучения.

▪️Аппаратные требования
Из-за сложности нейронных сетей глубокое обучение обычно требует больше вычислительных ресурсов. Хорошо подходят графические процессоры (GPU), способные к параллелизации.

▪️Автоматизация извлечения признаков
В глубоких сетях слои автоматически находят иерархию признаков в данных, что снижает необходимость в ручной обработке данных.

#глубокое_обучение

Библиотека собеса по Data Science | вопросы с собеседований

04 Nov, 20:02


🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

Библиотека собеса по Data Science | вопросы с собеседований

04 Nov, 18:24


Что вы знаете про метод t-SNE?

t-SNE можно расшифровать как t-Distributed Stochastic Neighbor Embedding. Если коротко, это метод нелинейного снижения размерности и визуализации многомерных данных.

t-SNE преобразует данные в пространство меньшей размерности (обычно в 2D или 3D), сохраняя информацию о близости точек, которые находятся рядом друг с другом в исходном пространстве. Это делает его особенно полезным для визуализации сложных данных, таких как текстовые эмбеддинги, где важно увидеть кластеры и локальные группы объектов.

😎 Как метод добивается сохранения этой информации? t-SNE конвертирует евклидовы расстояния между точками в условные вероятности. То есть указывается вероятность того, что некая точка x_i будет иметь в качестве соседа точку x_j.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

03 Nov, 12:02


Топ неожиданных концовок возглавляет👆

#memes

Библиотека собеса по Data Science | вопросы с собеседований

02 Nov, 12:00


Что такое эффект насыщения (saturation) нейрона?

В контексте нейронных сетей феномен насыщения относится к ситуации, когда выход нейрона чаще всего близок к максимальному или минимальному значению функции активации.

Поясним на примере сигмоидальной функции активации. Она ограничена двумя горизонтальными асимптотами, к которым стремится при стремлении аргумента к бесконечности. Этими асимптотами могут быть 1 и 0. Если нейрон насыщен, то его аутпут будет почти всегда близок к единице или нулю.

К чему это приведёт? Градиент этой функции активации становится очень малым. Это приводит к эффекту затухающих градиентов, когда обновления весов практически прекращаются, и сеть перестает эффективно обучаться.

#глубокое_обучение

Библиотека собеса по Data Science | вопросы с собеседований

01 Nov, 11:52


📊 8 паттернов проектирования, которые должен знать каждый ML-разработчик

Паттерны проектирования предлагают комплексные решения проблем, с которыми разработчики сталкиваются каждый день. В этой статье мы рассмотрим 8 паттернов проектирования с примерами кода на Python.

Забираем статью:
🔗 Ссылка

Библиотека собеса по Data Science | вопросы с собеседований

31 Oct, 12:02


Объясните, как работает градиентный бустинг на примере задачи регрессии?

Градиентный бустинг — это мощный ансамблевый метод, который комбинирует предсказания нескольких моделей, обучая их последовательно. Часто в качестве базовых моделей выступают деревья решений. Суть метода в том, что каждая новая модель пытается исправить ошибки предыдущих, приближаясь к идеальному результату шаг за шагом.

▪️Сначала строится базовая модель, дающая простое предсказание целевой переменной. На этом этапе, конечно, модель далека от идеала. Мы измеряем, насколько предсказания модели отличаются от настоящих значений, используя функцию потерь.

▪️Если модель предсказала на 5 больше, чем реальное значение, идеальная поправка для неё была бы -5. Новая модель обучается предсказывать именно этот антиградиент (то есть разницу между предсказанным и истинным значением) для текущей функции потерь. Затем к предсказаниям базовой модели добавляется результат новой модели, корректируя их в нужную сторону.

▪️На каждом следующем шаге очередная модель будет пытаться предсказать антиградиент функции потерь, чтобы улучшить общее предсказание. Это добавление моделей продолжается до тех пор, пока не достигается нужное качество.

▪️В результате предсказание целевой переменной представляет собой взвешенную сумму всех построенных моделей.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

30 Oct, 14:02


Что такое исключающая кластеризация (exclusive clustering)

Исключающая кластеризация — это подход, при котором каждый объект данных относится строго к одному кластеру. В отличие от мягкой кластеризации (например, fuzzy clustering), где объекты могут принадлежать нескольким кластерам с разной степенью вероятности, в исключающей кластеризации каждый объект закрепляется только за одной группой. Такой подход позволяет чётко разделить данные и часто используется, когда необходимо однозначное распределение, например, при сегментации клиентов или выделении групп в социальных сетях.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

29 Oct, 13:00


Что бы вы стали делать с ошибками в данных?

Важно понимать, что ошибки могут появляться по разным причинам — от человеческого фактора до технических сбоев. При работе с «грязными» данными типичные задачи включают:

1️⃣ Обнаружение и удаление дубликатов
В Pandas можно использовать метод .duplicated() для поиска повторяющихся значений и .drop_duplicates() для их удаления.

2️⃣ Исправление неверных значений
Следует проверить данные на соответствие типа и контекста. Например, изменение доходности (MoM) может быть представлено в процентах или долях, и неверный формат может исказить итоговые метрики.

3️⃣ Форматирование данных
Следует убедиться, что числовые значения хранятся в правильном формате. Если доход или другие числовые данные представлены как строки, нужно конвертировать их в float для корректных вычислений.

4️⃣ Корректировка формата даты и времени
Для работы с временными рядами нужно преобразовать даты в формат datetime с помощью pd.to_datetime(), что упростит аналитику и прогнозы.

#анализ_данных

Библиотека собеса по Data Science | вопросы с собеседований

28 Oct, 12:16


📊 Кто такой дата-инженер, чем он занимается и что должен знать

Работа с большими объёмами данных — удел инженеров. Они помогают бизнесу, но что конкретно они делают, вы узнаете в статье

Начни сегодня, получать знания для своей будущей карьеры Дата-инженером:
🔵 Математика для Data Science

👉 Ссылка на статью

Библиотека собеса по Data Science | вопросы с собеседований

28 Oct, 12:13


🎃 Приглашаем на вебинар перед Хэллоуином: «Нужна ли математика на собеседованиях🧙‍♀️

Темные тучи сгущаются, и в воздухе витает мистическая атмосфера... Готовы ли вы окунуться в мир загадочной математики и раскрыть тайны успешного собеседования? Тогда ждем вас 28 октября в 20:00! 🕸
https://proglib.io/w/99515be0

Что вас ждет в эту зловещую ночь:

💀 Ошибаться не страшно: узнаем, как неудачные проекты и опыт «в стол» превращают джуниоров в сеньоров. Расскажем истории о том, как ошибки закаляют и помогают достигать вершин мастерства.

🧛 Собеседования без подготовки? Обсудим, возможно ли пройти через испытания рекрутеров без специальной подготовки или это путь в лабиринт с привидениями.

🧙 Теория и практика — зелье успеха:

• Выбор метрики оценки модели: какую метрику показать бизнесу, чтобы не столкнуться с гневом нечисти? Разберемся в разнице между MAPE и WAPE и когда какую применять.

• Трансформация распределений: как превратить логнормальное распределение в нормальное без волшебной палочки? Поговорим о том, зачем это нужно и как обойтись изменением функции потерь вместо магических превращений.

🦇 Бонус для смельчаков: раскроем секреты тестирования в маркетинге, которые помогут не заблудиться в темном лесу конкурентного рынка.

Не упустите шанс провести вечер в компании единомышленников, погрузиться в атмосферу Хэллоуина и получить ценные знания!

🕯 Записывайтесь на вебинар и готовьтесь к мистическим открытиям! https://proglib.io/w/99515be0

Библиотека собеса по Data Science | вопросы с собеседований

28 Oct, 06:04


🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

Библиотека собеса по Data Science | вопросы с собеседований

27 Oct, 12:02


Мы обучили два ансамбля: случайный лес и бустинг. После этого мы убираем по одному из базовых алгоритмов из каждого ансамбля. Что произойдёт?

Если убрать, например, первое дерево из бустинга, то алгоритм просто сломается. Почему так? Бустинг — это ансамбль, где каждое последующее дерево строится с учётом ошибок предыдущих. Удаление любого из деревьев нарушает всю цепочку, поскольку каждое дерево тесно связано с предыдущими, исправляя их ошибки. В результате ансамбль теряет устойчивость и точность, что может привести к значительным ошибкам в предсказаниях.

А вот случайный лес ведёт себя иначе. Здесь каждое дерево обучается независимо, и их результаты объединяются, чтобы получить финальное предсказание. Поэтому, если мы уберём одно дерево из случайного леса, это не окажет существенного влияния на результат: ансамбль останется работоспособным и, скорее всего, даст предсказания с небольшой потерей точности.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

26 Oct, 12:00


📊🔧 Администратор Power BI: первичные обязанности после реализации дашборда

Разработали дашборд в Power BI, но не знаете, что делать дальше? Делимся секретами, как правильно опубликовать отчет, настроить доступы через Azure и организовать автоматическое обновление данных.

Читать статью

Библиотека собеса по Data Science | вопросы с собеседований

25 Oct, 13:00


Как оценивать важность признаков и зачем это делать? Например, для случайного леса

Оценка важности признаков в машинном обучении помогает понять, какие из них больше всего влияют на результат модели. Это полезно, чтобы интерпретировать поведение модели, улучшить её производительность, а также сократить количество признаков, минимизируя вычислительные затраты и предотвращая переобучение.

Вот специфичные для случайного леса методы:

▪️ Оценка количества разбиений по данному признаку.
В процессе построения деревьев случайный лес принимает решения на основе разбиений по различным признакам. Чем чаще признак используется для разбиения, тем более он важен для модели, так как чаще помогает разделять классы или предсказывать значения.

▪️ Суммарный information gain.
Это общая величина уменьшения неоднородности (например, по критерию Джини или энтропии) при разбиениях, основанных на данном признаке. Если признак приводит к большому приросту информации, он считается значимым, так как повышает предсказательную способность модели.

А вот универсальный способ оценки — permutation importance. Этот метод заключается в перемешивании значений одного признака после того, как модель обучена, и последующей оценке влияния этого признака на качество модели. Если, после перемешивания значений, качество модели резко падает, значит, признак был важен. Этот метод хорошо работает для любых моделей, так как он не зависит от внутренней структуры алгоритма.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

25 Oct, 11:14


⚡️Разыгрываем флагманский смартфон

«Библиотека программиста» разыгрывает один из трех смартфонов на выбор:
🔹Samsung Galaxy S24 Ultra на 1 ТБ
🔹Xiaomi 14 Ultra на 512 ГБ
🔹iPhone 16 Pro Max на 512 ГБ

🔥 А еще 99 участников розыгрыша получат скидку 50% на наш курс Базовые модели ML и приложения!
Промокод будет действителен до 20 ноября.

Условия просты:
→ подписаться на Библиотека нейротекста
→ подписаться на Библиотека нейрозвука
→ подписаться на Библиотека нейрокартинок
→ нажать на кнопку «Участвовать» под этим постом

Итоги появятся 30 октября в 20:00 по московскому времени в нашем канале Библиотека программиста. Затем мы свяжемся с победителем, который сам выберет смартфон. Тем, кто получит промокод, мы вышлем его в течение недели после окончания розыгрыша.

⚠️ Убедитесь, что вам можно написать в личные сообщения или следите за результатами — если мы не сможем с вами связаться, то не сможем и отправить приз. Доставить мы можем только в города России и Беларуси.

Библиотека собеса по Data Science | вопросы с собеседований

24 Oct, 13:36


🚀⬆️ Оптимизируй свой AI: разоблачение 6 мифов о работе с векторами в Pgvector

Шесть заблуждений, которые мешают тебе использовать всю мощь векторных баз данных в AI. Развенчав эти мифы, ты сможешь раскрыть истинный потенциал векторов и значительно повысить эффективность твоих AI-проектов.

👉 Читать статью

Библиотека собеса по Data Science | вопросы с собеседований

23 Oct, 15:30


Перечислите гиперапараметры, которые можно настроить у классического многослойного перцептрона

▪️Количество скрытых слоёв
Это напрямую влияет на сложность модели. Большее количество слоёв может улучшить способность модели к изучению сложных зависимостей, но это также увеличивает риск переобучения.

▪️Количество нейронов в каждом слое
Чем больше нейронов, тем больше информации может обрабатываться, но это также увеличивает количество параметров, которые необходимо обучить.

▪️Функция активации
Можно использовать, например, ReLU.

▪️Скорость обучения (learning rate)
Один из ключевых гиперпараметров, определяющий, насколько быстро обновляются веса на каждом шаге обучения.

▪️Число эпох (epochs)
Определяет, сколько раз модель пройдёт по всему набору данных во время обучения.

▪️Размер батча (batch size)
Определяет, сколько примеров из обучающего набора данных используется для обновления весов за один раз.

▪️Оптимизатор
Классические MLP могут использовать такие оптимизаторы, как Stochastic Gradient Descent (SGD) или более продвинутые, например, Adam или RMSprop.

#глубокое_обучение

Библиотека собеса по Data Science | вопросы с собеседований

22 Oct, 13:01


Какова цель разделения набора данных на обучающую и валидационную выборки?

Основная цель — оставить часть данных, на которых модель не обучалась, чтобы можно было оценить её производительность после обучения. Также иногда валидационный набор данных используется для выбора среди нескольких моделей машинного обучения. Например, сначала мы обучаем несколько алгоритмов, таких как логистическая регрессия, XGBoost и другие, затем тестируем их производительность на валидационных данных и выбираем модель, у которой наименьшая разница между точностью на валидационных и обучающих данных.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

21 Oct, 20:03


🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

Библиотека собеса по Data Science | вопросы с собеседований

21 Oct, 13:00


Что такое кросс-энтропия?

Это одна из функций потерь, используемых в машинном обучении. Её ещё называют перекрёстной энтропией или log loss.

Кросс-энтропия измеряет разницу между фактическими метками и предсказанными вероятностями модели. Она широко используется в задачах классификации, особенно в нейронных сетях. Чем больше разница между предсказанной моделью вероятностью и истинным значением, тем выше значение кросс-энтропии.

👆График выше показывает диапазон возможных значений потерь, когда истинная метка равна единице (isDog = 1). По мере приближения предсказанной вероятности к 1 логарифмическая потеря медленно уменьшается. Однако при снижении предсказанной вероятности логарифмическая потеря резко возрастает. Логарифмическая потеря штрафует оба типа ошибок, но особенно те предсказания, которые уверенные, но ошибочные.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

21 Oct, 06:00


Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов
👉Переводчик и автор оригинальных статей

Подробности тут

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾

Библиотека собеса по Data Science | вопросы с собеседований

20 Oct, 12:01


🤼 Генеративно-состязательная нейросеть: ваша первая GAN-модель на PyTorch

Подробная инструкция построения генеративно-состязательных нейросетей (GAN) на примере двух моделей, реализованных с помощью фреймворка глубокого обучения PyTorch в нашей статье. 👇

🔗 Статья

У нас есть курс как для начинающих программистов, так и для тех, кто уже шарит:
🔵 Алгоритмы и структуры данных

Библиотека собеса по Data Science | вопросы с собеседований

19 Oct, 12:01


Что даёт вам понять F1-мера?

Это метрика, которая комбинирует Precision и Recall. Для расчёта берётся среднее гармоническое этих показателей. Таким образом, F1-мера предполагает одинаковую важность Precision и Recall.

Вот её формула:

TP / (TP + (FP + FN) / 2),

где TP — это количество истинно положительных предсказаний, FP — ложно положительных, а FN — ложно отрицательных.

Высокая F1-мера говорит о том, что модель хорошо справляется с предсказаниями и ошибок мало как среди ложноположительных, так и среди ложноотрицательных примеров.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

18 Oct, 13:00


🧩 Реализация паттерна «Одиночка» на Python

Мечтаешь о коде, который работает как швейцарские часы? Паттерн «Одиночка» может стать тем самым механизмом, который заставит все шестерёнки крутиться идеально.

👉 Читать в статье

Библиотека собеса по Data Science | вопросы с собеседований

17 Oct, 13:02


Какие вы знаете автоматические способы обнаружения выбросов в датасете?

Вот несколько подходов:

▪️Isolation forest

Метод базируется на алгоритме случайного леса. Его основная идея заключается в том, что выбросы легче изолировать от остальных данных, чем нормальные объекты. В процессе работы алгоритм строит деревья, случайно разделяя данные. Выбросы, как правило, изолируются за меньшее число шагов. В результате каждому объекту присваивается скор от 0 до 1, где значения, близкие к 1, указывают на возможные выбросы, а значения, близкие к 0, означают нормальные данные.

▪️Local Outlier Factor (LOF)

Этот метод оценивает, насколько плотно объект окружен своими соседями по сравнению с плотностью соседей вокруг других объектов. Если плотность точки значительно меньше, чем у её соседей, то точка считается выбросом.

▪️Расстояние Махаланобиса

Этот метод измеряет расстояние между точкой и средним значением распределения, принимая во внимание ковариацию данных. Точки, находящиеся далеко от центра распределения, но с учётом их корреляции с другими признаками, могут быть идентифицированы как выбросы.

#машинное_обучение
#данные

Библиотека собеса по Data Science | вопросы с собеседований

16 Oct, 12:02


👾🛡️🤖 42 секунды и 5 запросов: как взламывают генеративные ИИ-модели

Ты знал, что злоумышленникам для взлома генеративных ИИ достаточно всего 42 секунды и пяти запросов? В этой статье мы разберём, как это происходит, какие уязвимости существуют и как защитить свои системы от подобных атак.

👉 Читать здесь

Библиотека собеса по Data Science | вопросы с собеседований

15 Oct, 13:00


Опишите формы решающих деревьев у LightGBM, XGBoost и CatBoost

▪️LightGBM строит деревья по принципу: «На каждом шаге делим вершину с наилучшей оценкой». Основным же критерием остановки выступает максимально допустимое количество вершин в дереве. Из-за этого деревья получаются несимметричными.

▪️XGBoost строит деревья по принципу: «Строим дерево последовательно по уровням до достижения максимальной глубины». Так, деревья «стремятся» быть симметричными по глубине. В идеальном случае получается полное бинарное дерево.

▪️CatBoost строит деревья по принципу: «Все вершины одного уровня имеют одинаковый предикат». Это приводит к более стабильному обучению, особенно при наличии категориальных признаков, благодаря внутренним механизмам работы с ними. Деревья CatBoost стремятся быть более сбалансированными.

#машинное_обучение

Библиотека собеса по Data Science | вопросы с собеседований

15 Oct, 06:03


Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы
Азбука айтишника — здесь мы познаем азы из мира программирования

🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Библиотека разработчика игр | Gamedev, Unity, Unreal Engine
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ

Библиотека собеса по Data Science | вопросы с собеседований

14 Oct, 12:40


🔀 Чем отличаются системный и бизнес-аналитик? Разбираемся на практике

Дискуссии о том, как разделить определения системного и бизнес-аналитика ведутся в сфере непрерывно. Одни уверены, что это профессия «два в одном», другие — не понимают, какой именно аналитик нужен проекту, и главное — зачем. Раскладываем по полочкам в нашей статье.

👉 Ссылка на статью

Библиотека собеса по Data Science | вопросы с собеседований

14 Oct, 10:02


🤔 Основы математики в Machine Learning / Deep Learning

🗓 16 октября мы разберем ряд Тейлора, собственные векторы и другие ключевые понятия в ML – https://proglib.io/w/cf559bfa

Спикер: Иван Потапов – Staff Machine Learning Engineer at ShareChat. Руководит командой, отвечающей за качество рекомендаций, и имеет 8-летний опыт в сфере машинного обучения.

😮 Что будем обсуждать:

– Теорию вероятностей: случайные величины, математическое ожидание и дисперсию.

Линейную алгебру: векторы, матрицы, собственные векторы и собственные значения.

Математический анализ: производные и разложение функций в ряд Тейлора.

👨‍💻 А еще после каждого блока вас ждет практика в применении полученных знаний.

🎯 Почему это важно?
Понимание математических основ помогает глубже разобраться в работающих под капотом алгоритмах ML/DL и эффективно применять их на практике.

Присоединяйтесь к нам и совершенствуйте свои навыки в машинном обучении!

📌 Регистрация по ссылке: https://proglib.io/w/cf559bfa

Библиотека собеса по Data Science | вопросы с собеседований

14 Oct, 06:03


🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

Библиотека собеса по Data Science | вопросы с собеседований

13 Oct, 12:01


Что вы знаете про визуальные трансформеры?

Архитектура Transformer была представлена в статье Attention is All You Need. Она отличалась использованием механизма self-attention и очень хорошо показала себя в задачах обработки последовательных данных.

В другой работе An Image is Worth 16x16 Words архитектура была модифицирована для решения задач классификации изображений. Её назвали Vision Transformer (ViT). Идея заключается в том, чтобы разбить изображение на небольшие патчи (например, 16x16 пикселей), которые затем обрабатываются как последовательности токенов, аналогичные словам в тексте. В основе архитектуры лежит тот же механизм self-attention. Однако в отличие от оригинального трансформера, которая включает кодировщик и декодер, ViT использует только кодировщик. Выход кодировщика передаётся в выходной слой, который отвечает за финальное предсказание.

#глубокое_обучение

Библиотека собеса по Data Science | вопросы с собеседований

12 Oct, 12:00


🐍🍽️ Питон съел GIL на завтрак: что нового в версии 3.13

Ты сидишь? Лучше сядь. Они реально сделали это — JIT-компилятор, улучшенная типизация, и, ты не поверишь, GIL наконец-то отправляется на пенсию!

В статье рассказываем обо всех фишках недавно релизнутой версии Python 3.13.

👉 Читать по этой ссылке

Прикреплённый к посту ролик досматриваем до конца👆

Библиотека собеса по Data Science | вопросы с собеседований

11 Oct, 12:00


🧑‍💻 Как понять свой уровень квалификации: junior, middle или senior

Это полезная статья от Хабр Карьеры, которая поможет немного разобраться в себе 😌

Эксперты сайта ответили на следующие вопросы:

▪️Какие основные признаки каждого грейда вы бы выделили?
▪️Как определить свой уровень квалификации?
▪️Как понять, что твой грейд вырос?
▪️Какие советы вы дали бы тем, кто переходит из джуна в мидлы и из мидла в сеньоры?

🔗 Читать статью

Библиотека собеса по Data Science | вопросы с собеседований

10 Oct, 11:30


👨‍💼 Профессия системного аналитика в 2024 году: что нужно знать и где учиться

Освоить эту профессию непросто. Порог входа довольно высок, да и изучить придется немало. Однако, если разработчик не хочет идти в тимлиды или становиться менеджером, системная аналитика — перспективный вариант дальнейшей карьеры.

Рассматриваешь вариант стать системным аналитиком, тогда забирай курс:
🔵 Математика для Data Science

🔗 Статья

Библиотека собеса по Data Science | вопросы с собеседований

09 Oct, 12:01


🧑‍💻 Какие вопросы задать интервьюеру на собеседовании?

Это полезный репозиторий, в котором собраны советы по «обратному собеседованию». В конце концов, не только вы должны отвечать на вопросы во время интервью.

▪️Что спросить о должностных обязанностях?
▪️Как узнать больше про используемые технологии?
▪️Что выяснить про будущих коллег?
▪️Какие вопросы задать про условия работы?

🔗 Список вопросов находится по этой ссылке

Библиотека собеса по Data Science | вопросы с собеседований

08 Oct, 12:01


📊 Data Science и Big Data: сходства и различия

В нашей статье разложим по полочкам сходства и различия между специализациями Data Science и Big Data.

🌻 Что внутри?

▪️ Термины
▪️ Применение
▪️ Навыки
▪️ Карьерные перспективы

👉 Ссылка на Статью

Библиотека собеса по Data Science | вопросы с собеседований

07 Oct, 20:02


🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

Библиотека собеса по Data Science | вопросы с собеседований

07 Oct, 13:00


Что такое Backpropagation through time (BPTT)?

BPTT — это метод обучения рекуррентных нейронных сетей (RNN), который использует обратное распространение ошибки для корректировки весов. Для этого сеть разворачивается во времени, представляя последовательные временные шаги как копии нейронки. На каждом шаге вычисляется ошибка, которая затем передаётся назад через временные шаги для обновления весов.

В преимущества BPTT записывают более быстрое обучение по сравнению с другими методами оптимизации. К недостаткам относят сложности с локальными минимумами.

#глубокое_обучение

Библиотека собеса по Data Science | вопросы с собеседований

06 Oct, 12:00


🏢 Как компании превращают данные в деньги: обзор российских практик Data Science

Обсуждаем, куда податься с полученными навыками — как наука о данных используется в российских компаниях. Кейсы коммерческого использования Data Science на территории России в нашей статье: финансы и ритейл, наука и производство, информационные системы и индустрия развлечений.

Хотите приобрести навыки для выполнения этих кейсов, тогда забирайте курсы:
🔵 Математика для Data Science
🔵 Основы программирования на Python

👉Ссылка на статью

Библиотека собеса по Data Science | вопросы с собеседований

05 Oct, 12:01


Что такое uplift моделирование?

Если коротко, то это построение модели для поиска сегмента клиентов, на которых коммуникация окажет максимальный эффект. Бизнес-задачу тут можно сформулировать следующим образом: нам нужно, чтобы после коммуникации клиенты выполнили целевое действие, будь то покупка, регистрация или какой-то другой шаг.

В отличие от обычного предсказательного моделирования, uplift моделирование анализирует не просто вероятность совершения действия, а разницу в поведении между двумя группами: тех, кто подвергся воздействию (например, получил рекламное предложение), и тех, кто не подвергся. Это позволяет выделить клиентов, для которых воздействие будет наиболее эффективным — они с наибольшей вероятностью изменят свое поведение благодаря коммуникации.

Пример использования: компания хочет отправить промо-акции. С помощью uplift модели можно выявить тех клиентов, которые не купили бы продукт без акции, но сделают это, если им предложить скидку. Такой подход позволяет существенно повысить эффективность маркетинговых кампаний и снизить затраты на лишние коммуникации.

#данные

4,106

subscribers

277

photos

2

videos