Katser @datakatser Channel on Telegram

Katser

@datakatser


Авторский канал @ykatser по data science, машинному обучению и искусственному интеллекту в основном в задачах промышленности, но не только

Katser (Russian)

Добро пожаловать на канал "Katser"! Здесь вы найдете увлекательные исследования в области data science, машинного обучения и искусственного интеллекта, проведенные автором @ykatser. Основной упор канала делается на задачи, связанные с промышленностью, но это далеко не все, что вас ждет здесь

Авторский контент @ykatser гарантирует вам уникальные подходы к решению сложных задач и последние тенденции в мире технологий. Если вы интересуетесь развитием в сфере data science и машинного обучения, то канал "Katser" станет вашим незаменимым помощником. Вступайте в наше сообщество уже сегодня и окунитесь в удивительный мир инноваций и знаний!

Katser

10 Jan, 10:05


🔎Где искать датасеты?
В посте раскрою одноименный пункт своего доклада на Datafest'е 2024 "Открытые промышленные данные: зачем нужны, почему так мало и где брать?" и поделюсь конкретными примерами.

В докладе подробно рассказал, зачем нужны открытые датасеты и какие проблемы есть с существующими промышленными данными. А вот подробная инструкция, где и как искать датасеты:

🔘Kaggle. Можно искать в соревнованиях, можно искать в разделе "Datasets" по ключевым словам, категориям и тд. Подходят и другие площадки для соревнований, типа drivendata.org.

🔘Специализированные сайты под исследования с ML, типа https://paperswithcode.com и https://huggingface.co/. Хотя промышленных данных я там не встречал, но вот датасетов с временными рядами там немало.

🔘Научные статьи/секции на конференциях/сайты научных групп и институтов. Примеры:
· Сайт группы
· Репозиторий института
· Обзорная статья про поиск аномалий в сетевом трафике
· Статья с последнего NIPS'а
· Сайт проекта timeseriesclassification.com

🔘Обзорные Github репозитории. Вот сразу 4 репозитория с датасетами в промышленности или около:
· Awesome Public Industrial Datasets
· Awesome TS anomaly detection
· Industrial ML Datasets
· Public industrial datasets and benchmarks
А еще я создал на гитхабе на основе своих лайков отдельную папку с датасетами.

🔘datasetsearch.research.google. Специализированный поисковый ресурс, выступает как агрегатор.

🔘Хакатоны. Неоднократно от коллег слышал, что на хакатоны ходят для получения новых или особенно интересных/уникальных данных (да я и сам так делал).

🔘Соревнования на конференциях. Все мы знаем соревнования от AIJourney или NIPS. Редко бывает по теме промышленности, но вот, например, ежегодное соревнование от phm сообщества в рамках конференции. Уже лет 10 проводят соревнования и публикуют данные.

🔘Работа в промышленности. Самый легкий и эффективный способ. Но не факт, что получится использовать внутренние данные компании где-то на стороне, хотя для дипломов/диссертаций/статьей использовать обычно можно.

🔘Блоги, сайты, гитхаб компаний-лидеров, авторов из отрасли:
· Вот пример с датасетами от блогера в нефтегазе.
· Еще один пример — большое число датасетов от компании NASA.
· Да и мой блог — тоже неплохой пример🙂.

Конечно, я как всегда буду рад вашим рекомендациям — добавлю в подборку.

Katser

31 Dec, 16:19


Поздравляю всех с Новым годом!

Пора подбить важные статистические показатели для канала:

💪За последний год канал почти сделал x2 по подписчикам

😋Написано 70+ содержательных постов, несмотря на пару периодов засухи из-за высокой занятости

🗣В топе по популярности образовательный контент, а самый популярный пост — моя лекция для студентов НГУ

Всех благодарю за вклад! Stay tuned again

Katser

28 Dec, 09:01


ИИ в промышленности по данным разных аналитических отчетов. Часть 7
Части 1, 2.1, 2.2, 3, 4, 5, 6

На картинках несколько наглядных визуализаций и материалов.

Мои мысли:
🔴Много полезной информации, я зачитался. Хотя и не все для меня новое и неожиданное. Отдельно приятно, что я участвовал сразу в нескольких представленных кейсах в разделе 6.
🔴Понравился подраздел "Типовые направления применения ИИ
на примере металлургической промышленности" (стр 16-17 в отчете и картинки 3-4 в карусели к посту), визуализация очень наглядная, сам хочу оформить кейсы в своем репозитории в подобном стиле.
🔴Мне было интересно прочитать про тренды. Если выделять 1, то я отмечу автономные процессы и даже автономные производства. Тренд мировой, но РФ быстро спохватилась, на мой взгляд. В последнее время очень много про это слышу и получаю вопросов на эту тему. Причина очевидна — недостаток кадров и прогнозы по уменьшению доступности кадров при росте потребности у некоторых промышленных компаний. Но вот как это делать — тема очень интересная, отдельным постом порассуждаю и поделюсь своими материалами по теме.

Ну и благодарю коллег за включение меня в состав экспертов отчета, файл отчета в комментариях👇.

Katser

27 Dec, 06:30


Распознавание дефектов изоляторов линий электропередач. Часть 2
Часть 1 (CV)

В комментариях к прошлому посту возникла дискуссия, и были предложениы разные методы решения задач, а также связанные задачи. Вот еще один вариант постановки и решения задачи (уже без CV): через детекцию и классификацию частичных разрядов (ЧР) по высокочастотным данным напряжения.

🔴Более подробная постановка задачи в соревновании на kaggle. Там же данные, полезная информация в разделе discussion и примеры кода. Утверждается, что данные реальные, поэтому есть типичные проблемы типа зашумленности.
🔴Статья от авторов соревнования, где и постановка подробнее, и много деталей, и их варианты решения задачи.

Файл статьи в комментариях👇

Katser

26 Dec, 04:15


В связи с большой загрузкой и фокусом на текущих проектах (а они по большей части очень прикладные), у меня обычно не хватает времени погружаться в последние достижения в ML. Но мне, конечно, очень интересно. Поэтому понравилось очень наглядное представление работ на последнем NIPS'е, помогло пробежаться по интересным темам (кластерам) и названиям статей, а некоторые работы изучить более детально.

Ну и тренды легко просматриваются.

Katser

25 Dec, 04:06


KAN-AD: Time Series Anomaly Detection with Kolmogorov–Arnold Networks
Увидел у Валерия репост статьи про KAN-AD, стало интересно разобраться. Заявляется как новая SOTA в поиска аномалий во временных рядах, а у меня вообще-то тема недописанной диссертации звучит очень похоже. Суть метода на картинке к посту, в двух словах: раскладываем каждый шаг скользящего окна ряда на одномерные функции (Фурье и другие), подбираем к ним коэффициенты и собираем это все через 1-d conv и полносвязный слой в следующую точку прогноза и скор аномальности.

На мой взгляд, главное преимущество метода в том, что обучать нормальному режиму можно на данных с аномалиями, так как при разложении все аномалии сглаживаются и мы "выучиваем" только нормальные паттерны. То есть не надо чистить датасет, метод не обучается аномалиям.

Какие еще преимущества?
🟢Чем больше данных с аномалиями в обучающей выборке, тем больше отрыв в метриках у KAN-AD по сравнению с аналогами.
🟢Быстрый инференс из-за небольшого числа параметров и операций.
🟢Как будто не сильно зависит от выбора функций, на которые раскладывается каждое окно ряда.
🟢Метод для поиска аномалий в общем случае. В статье показаны результаты для задачи бинарной классификации, но он легко масштабируется на задачу changepoint detection.

Что смущает?
🔴Работает на одномерных временных рядах, то есть в промышленности малоприменим. Ждем масштабирования на многомерный случай?
🔴Датасеты как обычно (KPI, TODS, WSD, UCR). Я бы посмотрел на реальных данных
🔴3 гиперпараметра: размер окна, число функций разложения и граница аномальности. Так что валидационный сет (с разметкой) все равно нужен, чтобы их подобрать (хотя заявляется, что некоторые отклонения от лучших параметров не сильно портят качество). Хотя от этого подбора почти никогда не уйти, иногда достаточно подобрать только границу аномальности. Кстати, риторический вопрос: тюнили ли гиперпараметры сравниваемых с KAN-AD методов?

Katser

24 Dec, 04:00


Я уже писал про библиотеку TSAD (Time Series Analysis for Simulation of Technological Processes) в канале, но отстраненно, как автор канала. Дам пару комментариев как соавтор и один из контрибьюторов проекта.

· Проект начинался как time series anomaly detection (поэтому TSAD), но потом разросся до time series analysis for diagnostics, и, наконец, решили не ограничиваться диагностикой, а пойти во все задачи промышленности (прогнозирование, оптимизация)
· Идея появилась, потому что просто не было open-source промышленных библиотек, а проблемы с предварительной обработкой данных, EDA, оценкой алгоритмов были
· Текущая цель библиотеки — сделать набор пайплайнов для AutoML в промышленности
· Функционала не достает, но есть несколько супер полезных функций/модулей, уже хорошо проработанных и реализованных:
1️⃣наборы данных для разных задач промышленности (RUL, CPD, outlier detection и др.)
2️⃣проработанная архитектура пайплайнов (самих пайплайнов бы побольше), что позволяет контрибьютить и разрабатывать сами пайплайны решения задач
3️⃣реализованные сложные метрики оценки типа NAB scoring algorithm, вот описание в документации. Их уже несколько лет активно используем в своих реальных проектах

Можно выдергивать и пользоваться этим функционалом в своих проектах.

Katser

23 Dec, 13:16


Однажды я согласился ответить на вопросы для студенческой статьи. Вопросов было несколько, на каждый я подробно ответил, получилось 2 страницы и пара часов потраченного времени. Из двух страниц в итоговую версию статьи взяли 3 предложения (даже не самых интересных) 😪. Статья дает введение в ИИ, но на мой взгляд для введения в ИИ лучше статьи вастрика еще не придумали. Можете сравнить сами. Теперь мне ничего не остается, кроме как опубликовать мои ответы в канале (не пропадать же), наслаждайтесь. Версия ответов слегка скорректирована для аудитории канала (меньше общих слов, воды и маркетинга).

Вопрос: Как используете искусственный интеллект (если используете) в своей деятельности?
Основным ядром внедряемых нами технологий является машинное обучение и смежные технологии, такие как математическое и физическое моделирование. С их помощью мы создали алгоритмы, которые управляют производственным процессом.

Например, наши алгоритмы на основе машинного зрения анализируют пену в процессе флотации. Они определяют, какие реагенты необходимо добавить, чтобы скорректировать пеносъем, процесс флотирования и извлечь больше металла. Это позволяет не только повысить эффективность технологического процесса, но и значительно увеличить доходы клиентов (всё по итогам A/B тестов, оцениваемых фабриками).

Как вы улучшили свою работу с использованием этих технологий?
Мы стремимся увеличить прибыль наших клиентов, улучшая эффективность их производственных процессов. Рассмотрим, как это работает на примере процесса флотации, используемого для обогащения полезных ископаемых.

Флотация требует точного управления несколькими параметрами: расходом воздуха, уровнем пульпы во флотомашине и расходом реагентов (иногда набор параметров отличается, но этот - наиболее частый). Обычно в процессе задействованы десятки флотомашин, но операторов/флотаторов, следящих за процессом, немного (обычно 1-3). Невозможно одновременно контролировать все флотомашины и сотни параметров. К тому же, каждый оператор руководствуется собственным опытом, что вносит субъективность в управление.
Наконец, традиционно управление процессом носит дискретный характер: оператор задаёт параметры и ожидает реакции системы, после чего может корректировать настройки. Возмущающие воздействия ступенчатые и обычно довольно значительные для системы, а точку (или хотя бы диапазон) оптимума можно искать довольно долго.

Чтобы помочь операторам, мы внедряем решение, которое позволяет перейти к непрерывному контролю и управлению процессом. Начинаем с автоматизации управления, воспроизводя логику операторов с помощью экспертных правил. Уже на этом этапе получается добиться эффекта и улучшить показатели на флотации. Затем переходим к более продвинутым методам, используя машинное обучение и гибридное моделирование для непрерывного управления процессом. Это позволяет поддерживать процесс в оптимальном состоянии, предотвращая его отклонения.

С помощью алгоритмов машинного обучения и гибридного моделирования мы также можем прогнозировать поведение системы и управлять процессом на опережение. Именно эти модели в наших решениях как правило приводят к наибольшим эффектам.

Каких показателей достигли?
Мы внедрили более 10 решений по автоматическому управлению на нескольких горно-обогатительных фабриках. Они управляют производством 24/7 в автоматическом режиме (почти все) и режиме советчика (пара решений).

Один из проектов, принесший компании победу в конкурсе проектов цифровизации горной отрасли «Горная индустрия 4.0», был направлен на оптимизацию процесса измельчения на Быстринском ГОКе с использованием технологий машинного обучения. Решение позволяет подбирать оптимальные параметры для измельчения с учетом вариативности входящей руды, тем самым повышая показатели среднечасовой переработки мельницы и снижая расход электроэнергии.
По результатам проекта удалось снизить вариативность техпроцесса на 50%, повысить энергоэффективность измельчения на 1,5% и увеличить переработку всего предприятия на 2,9%.

📎Этот пост еще отлично дополнит презентация Артема Пенкина на Industrial++.

Katser

09 Nov, 11:58


Прошла конференция Industrial++, на которой я был не только членом программного комитета, но теперь и амбассадором. Работа ПК заключалась в подготовке к конференции, но на самой конференции мы могли полноценно почувствовать себя участниками: посещать доклады, общаться и участвовать в активностях.
tldr: по материалам получилась топ-конференция, по ИИ а промке докладов много, еще долго буду их изучать

Из-за нехватки времени я успел прослушать только четыре доклада:
🔵Машинное зрение для распознавания гранулометрического состава руды
🔵Система управления эффективностью автоматического регулирования
🔵Увеличение производительности горно-обогатительного комбината с помощью ИИ
🔵Система прогнозного обслуживания эксгаустеров агломерационной фабрики

Зато слушал так внимательно, что выиграл целых три приза за лучшие вопросы❗️

Среди особенно интересных докладов, которые буду смотреть в записи, отмечу:
🟢«Помощник технолога»: сервис для оптимизации параметров производственных литейных процессов
🟢Оптимизация системы заводнения на нефтяных месторождениях
🟢Применение Zero-shot и искусственных данных в компьютерном зрении
🟢ML-аналитика для оптимизации энергопотребления на установках НПЗ

Презентации с сотнями полезных ссылок и инсайтов доступны на сайте конференции бесплатно. Я просмотрел почти все и забрал себе в обзор кейсов папку с материалами.

В подготовке двух докладов (“Фотограмметрия и ИИ для инвентаризации строительных материалов” и “Анализ леса по съемке с беспилотника”) участвовал как куратор — ребятам огромный респект за сотрудничество и качественные выступления.

Во время конференции успел дать флеш-интервью, получить лучшую худи из всех, что у меня были, познакомиться с коллегами, внедряющими ML в промышленности, и встретиться со знакомыми и бывшими коллегами.

P.S. На фото команда организаторов и докладчиков — можете поиграть в Find Waldo

Katser

05 Nov, 04:00


Я вообще фанат подкастов, сам ходил пару раз, в этот раз делюсь выпуском "Где можно и где нельзя без ML в промышленности" подкаста "Деньги любят техно" с Михаилом Граденко (Русал). Ниже отмечу и прокомментирую лично для меня интересные моменты.

🔵3 мира DS:
• Каггловский — бьемся за десятые доли улучшения метрики.
• Ресерчерский — создаем новые алгоритмы, двигаем SOTA.
• Прикладной — сделать достаточно хорошее решение наименьшими усилиями. В промышленности существует исключительно третий вариант.

🔵Не могу говорить за Русал, но обобщать на промышленность тезис “все технологические параметры оцифрованы” я бы не стал, так как на своем опыте скажу, что в абсолютно каждом проекте я сталкивался с недостаточной оцифровкой процесса. Данных может быть достаточно для решения задачи, но какой-то хотя бы один полезный показатель обязательно будет вестись в бумажном журнале или самописной системе, с которой не интегрироваться.

🔵Данных очень много, надо лишь в них разобраться. Я говорил об этом здесь, но стоит оговориться, что иногда не хватает какого-то важного показателя, сохранения достаточной истории данных, или данные где-то избыточно (для задач DS) преобразовываются.

🔵Михаил подтвердил тезис, который я давно исследую и транслирую: RL далеко от прикладного использования в промышленности, так как чаще всего слишком дорого строить сложные модели.

🔵Для DSов в промышленности важно знать физику и уметь разбираться в технологическом процессе. Я пойду дальше и скажу, что умение разбираться в технологическом процессе даже важнее, чем навыки DS. Недавно обсуждали с Head of DS крупной промышленной корпорации, что выше вероятность сделать проект и принести эффект у “технолога с небольшими навыками DS”, чем у “DSа с небольшими знаниями технологии”. Правда тут еще и кроется момент с командировками, умением общаться на фабриках и тд. Напишу об этом в отдельном посте.

🔵Больше 80% DS проектов не взлетает. В разных источниках я встречал от 30% (в промышленных компаниях) до 95%, надо будет об этом обязательно написать.

🔵Если можно делать продукт без ИИ, то его надо делать без ИИ. Это дешевле, проще, надежнее. Я об этом говорю периодически в своих выступлениях, особенно считаю полезным для студентов.

🔵Еще один инсайд для решения задачи определения гран состава: достаточные данные собираются за год.

🔵Не все (проекты) надо делать. Попытка везде засунуть новые технологии ради чего-то не оправдывается с экономической точки зрения. Бизнес он про деньги. Это очень понятный и приземляющий тезис, в промышленности часто нет места RnD и экспериментам.

В подкасте больше полезного, чем я отметил, к тому же в конце пара кейсов — качаем насмотренность.

Katser

30 Oct, 07:32


Для меня эталонный научный обзор датасетов (не зря 500+ цитирований❗️). Жаль, что он в области поиска аномалий в сетевом трафике (network intrusion detection). Однако, если вы занимаетесь такими задачами, то вам повезло не только из-за наличия такого обзора, но и из-за наличия большого числа разнообразных датасетов (пусть и большая часть из них синтетика). Как будто с данными тут получше, чем в промышленных процессах.

В статье помимо самого обзора датасетов есть:
🟡Анализ характеристик датасетов и их сравнение
🟡Обзор репозиториев с наборами датасетов
🟡Обзор моделей для генерации трафика
🟡Рекомендации по датасетам и работе с ними

С реальными задачами в этой области я не сталкивался (пишите в комментариях советы, если есть опыт), но как-то участвовал в хакатоне, даже материалы сохранились — будет полезно, если совсем ничего не знаете, но хотите немного погрузиться в область. Тип аномалий, конечно, специфичный (писал об этом здесь), как и используемые методы: задачи часто supervised, данные скорее табличные, поэтому и методы деревянные стреляют.

Ссылка на официальную публикацию в журнале.

Katser

25 Oct, 04:02


🏆Как стать лидом и быть эффективным

Меня эта тема не интересовала на столько же сильно, как многие другие (хард скиллы, выстраивание процессов, ведение проектов и тд), поэтому и разбираюсь я в ней не так хорошо. Мое воспитание, становление и опыт сделали меня человеком, умеющим ладить и договариваться с людьми, поэтому в управление людьми я вкатился без особых проблем. Но я все равно хочу поделиться своими немногими мыслями на эту тему.

Мой опыт, что полезно делать:
1. Вникать в процессы управления, с начала карьеры на своем рабочем месте.🤔

2. Получать опыт от коллег: общаться и смотреть разные видео, например, с тимлид конф, я собирал список интересных мне лекций здесь.

3. Вникать в смежные процессы, разбираться в них, анализировать, как они работают, как их поддерживают и тд. Как руководителю вам предстоит скорее всего общаться не только со своей командой.🗺

4. Я почти всю свою карьеру работал параллельно больше, чем в одном месте. Это однозначно ускоряет получение разного опыта (но требует много сил и желания).💻

5. Максимально полезно получить опыт работы в очень разных условиях:
🟡Корпорация vs стартап vs академия
🟡Руководители с разным стилем управления: микро менеджеры, чайка менеджеры vs те, кто делегируют задачу с правом принятия решений и ответственностью за результат, но с правом на ошибку. Кстати, как бы не ругали авторитарных микроменеджеров, я лично наблюдал эффективных коллег с таким стилем, да и про Илона Маска забывать не будем.
🟡Удаленная vs офисная
🟡Продуктовая vs проектная деятельность
Помогает понять свои сильные и слабые стороны, нащупать свой стиль управление и наметить движение в каком-то направлении.

6. Лично мне помогли хакатоны, в которых, будучи капитаном, я в «лабораторных» условиях примерял на себя роль руководителя и учился публичным выступлениям в довесок.

Какие общие советы я еще могу дать:
🟢Смотрите на то, что просят в соответствующих вакансиях. Я даже как-то сделал собирательный образ Тим Лида, которым хочу стать. Ну и куда же без Teamlead Roadmap.
🟢Читайте книги, например, "мама, я тимлид" Марины Перескоковой. Впервые я прочитал ее уже будучи тим лидом, поэтому нового там для меня было немного. Но сформулировано очень емко и коротко, к тому же разжеваны ну просто все вопросы, которые у меня могли бы возникнуть. Стоит почитать начинающим/будущим лидам. Другие книжки сама Марина советует в конце.
🟢Если есть возможность пройти курсы, то лишним не будет, но ставку на них я бы не делал (и личные деньги бы не платил). Из тех, что находил (здесь могла бы быть ваша реклама):
· Школа сильных программистов
· Agima
· Сбер
· Otus

Я не могу сказать, что я на сто процентов эффективен и не совершаю ошибок. Именно поэтому я считаю, что процесс обучения непрерывен (как и в IT в целом), но зато учиться можно эффективно на своем опыте. 😎

Дополняйте пост своим мнение по курсам/книгам/видео или в целом по теме в комментариях👇

Katser

23 Oct, 10:27


Байесовские методы в обнаружении точек изменений состояния (changepoint detection)

Согласно определению, поиск точек изменений состояния (changepoint detection) — это метод определения моментов времени, когда распределение вероятностей временного ряда изменяется. В этом посте рассматриваются байесовские методы, предназначенные для решения задачи. Данный подход представляет собой вероятностный метод, который позволяет построить распределение вероятностей нахождения точек изменения в данных, опираясь на априорные знания об этих событиях. Реализация в коде на GitHub по ссылке.

Идея подхода заключается в предположении, что части временного ряда, разбитые точками изменений на непересекающиеся части, состоят из независимых и одинаково распределенных случайных величин. Другими словами, точки изменений являются границами для данных из распределений с разными параметрами.
Если вы знакомы с байесовской статистикой, вы знаете, что построение любой байесовской модели в основном состоит из трех распределений. Априорное распределение h(θ) отражает наши предварительные знания о задаче. Функция правдоподобия f(x|θ) отражает полученные данные и участвует в вычислении апостериорного распределения вероятностей. И апостериорное распределение h(θ|x), которое нас интересует. Суть алгоритма байесовского метода заключается в итеративном обновлении этих вероятностей, при этом ключевым моментом является то, в каком виде задаются априорная вероятность и функция правдоподобия.
📎В статье рекомендуют использовать геометрическое распределение в качестве априорной вероятности, но в целом её выбор зависит от предварительных знаний о данных в задаче, более подробно об этом можно прочитать тут.
Для работы с многомерным временным рядом представлю вам две основные модели, которые отличаются заданием функции правдоподобия:

🔴В модели независимых признаков (Independent Features Model) делается предположение об условной независимости между временными рядами (как в наивном байесовском классификаторе). Преимуществом такого подхода является малое количество данных, необходимых для обучения модели. Но предположение о независимости не позволяет уловить корреляцию между временным рядами, что сказывается на качестве работы модели и является недостатком.

🔴Модель полной ковариации (Full Covariance Model), в отличие от IFM, использует правдоподобие с учетом зависимости между временными рядами. Это сказывается на инференсе модели, а также требует большего количество данных для получения информативных корреляций между рядами.

Предпочтение в выборе модели делается исходя из входных данных в задаче, более подробно узнать о моделях с примерами работы IFM и FCM можно тут.

Байесовские методы в обнаружении точек изменений нашли применение в разных сферах, связанных с анализом временных рядов, преимущественно в промышленности и инженерии. Данный подход, при предварительной обработке данных, позволяет добиться сравнительно высокого качества работы модели (топ-1 без тюнинга на SKAB). Как и любая статистическая модель, байесовские методы требуют меньшего количества входных данных для работы и более интерпретируемы, чем DL-подходы. Из минусов данного алгоритма стоит отметить его квадратичную временную сложность и сильную зависимость от выбора априорной вероятности. Для того чтобы получить более полное представление о методах обнаружения точек изменений, можно ознакомиться со статьей "An evaluation of change point detection algorithms".

Пост написан Ильей Кульбаченко с моими редакторскими правками.

Katser

19 Oct, 13:21


📰Чтиво на выходные: что-то помимо машинного обучения в промышленности

Поделюсь тремя статьями, которые прочитал за последнее время:
🔘How to Give Away a Fortune — статья о том, как девушка решила раздать свое наследство в рамках борьбы с нечестным распределением богатства в Австрии. Собрала даже для этого комитет из людей из разных слоев населения (и потратила на организацию процесса кучу денег). Неоднозначное решение и ее аргументация, равнодушным оставить не должно.
🔘Book Review: Elon Musk — обзор старой биографии от Ashlee Vance. В комментариях говорят, что даже лучше самой книги (но это я проверю за вас — книга ждёт своего часа на полочке). Автор отвечает на свои вопросы цитатами из книги и пытается понять, как Маск добивается успеха, принимая так много плохих решений? Тоже много неоднозначного, но в этом весь Маск.
🔘Can AI Deliver Fully Automated Factories — авторы из BCG настаивают, что несмотря на ряд неудач и пессимизм в создании полностью автономных фабрик, это возможно, и этим нужно заниматься. На примере клиента авторы делятся сложностями и советами, как начать делать подобный процесс. На мой взгляд, слегка поверхностно, мне лично хотелось бы поглубже в технику.

Буду периодически на выходных делиться интересными мне темами вне основных направлений канала. 🤓

Katser

18 Oct, 11:34


Трансформеры для прогнозирования временных рядов. Часть 3
Части 1, 2

Завершу пока цикл постов на тему рекомендацией двух отличных докладов от лидирующих в теме компаний в России (Сбер и Т-банк):
• Foundation модели: есть ли жизнь во временных рядах
• Forecast and chill: Zero-Shot Foundation Models for Time Series

Есть и погружение в тему, и обзоры решений, и разборы архитектур. Подсвечены, кстати, положительные моменты и условия применения таких моделей.

Без лишних слов отправляю вас смотреть и делать свои выводы.

Katser

14 Oct, 13:45


Привет, друзья! 👋

Приглашаю вас на конференцию Industrial++, которая пройдет 21-22 октября в Москве! Уже упоминал, что я член программного комитета и приложил руку к созданию программы и отбору докладов, чтобы сделать это событие максимально полезным и интересным для всех участников. Для меня интересный опыт побывать с другой стороны, не в качестве докладчика. Здесь вас ждут реальные кейсы и проверенные решения, которые помогают компаниям справляться с разными вызовами, включая импортозамещение. 💻

В программе — 56 докладов, панельные дискуссии и выставка с новейшими разработками. Это отличная возможность узнать, как компании внедряют российские и open source решения, и обменяться опытом с коллегами.
А после первого дня нас ждет афтепати! 🎉

Но я не просто так пишу: промокод YKatser даёт 7% скидки на участие онлайн и офлайн — для физлиц и юрлиц. Самое время успеть купить билеты со скидкой!

До встречи на Industrial++!
https://industrialconf.ru/2024/

Katser

12 Oct, 13:53


Open-source наработки в промышленности

Одна из мер поддержки опен-сорса в РФ, упомянутая отчете из этого поста, это гранты Код-ИИ. Я и сам участвовал в проекте, получившем такой грант. В этом посте поделюсь парой проектов, получивших грант и относящихся к промышленности.

1️⃣ CVFlow (13 звезд, последний коммит 4 месяца назад) — открытая библиотека CV для промышленности
Github | Youtube

Решает следующие задачи:
🔘Определение положения объектов в пространстве и расстояния между ними
🔘Поиск дефектов и прочих образований на материале
🔘Распознавание номера автомобилей
🔘Распознавание номера вагона поезда
🔘Распознавание QR и штрихкодов
🔘Классификация транспортных средств
🔘Гранулометрия, распознавание размеров однородных объектов
🔘Определения скорости объектов по видеопотоку

Из реально интересных задач: гранулометрия и поиск дефектов на материале.

Из преимуществ: доступны веса предобученных моделей, хотя нет доступных данных.

2️⃣ TSAD — Time Series Analysis for Simulation of Technological Processes (39 звезд, последний коммит 5 месяцев назад) — python библиотека для решения ML задач в промышленности
Github | Youtube

Решает следующие задачи:
🔘Прогнозирование временных рядов
🔘Поиск аномалий
🔘Автоматизированный разведочный анализ данных
🔘Предварительная обработка данных
🔘Визуализация результатов
🔘Оценки качества решения задач, включая специфичные задачи типа changepoint detection

Из преимуществ: неплохая документация, доступны данные, упор на работу с промышленными данными и решение задач PHM (Prognostics and Health Management)

Общий недостаток обеих библиотек: недостаточность функционала и недоработанность кода/подходов. Зато у каждого есть шанс поучаствовать и улучшить библиотеки

Katser

10 Oct, 07:18


ИИ в промышленности по данным разных аналитических отчетов. Часть 6
Части 1, 2.1, 2.2, 3, 4, 5

🗺Карта цифровизации промышленности от TAdviser. Не ИИ, но тоже интересно. Кстати, перекликается с картой из первого поста цикла.

Карта тоже не без недостатков: Рокет Контрол даже пару отраслевых премий выиграла (раз, два), но в списке не появилась. К тому же странно видеть только некоторых заказчиков, занимающихся цифровизацией (Северсталь, дивизионы Росатома), ведь гораздо больше промышленных компаний имеют свои отделы инноваций/цифровизации. А если речь про то, что они продукты на рынок цифровизации делают, то тогда и Гринатома не хватает и НЛМК свою платформу на рынке предлагала.

Хотя в итоге как всегда познавательно!🙂

Katser

09 Oct, 15:47


Гибридное моделирование
глушения скважин в
условиях АНПД


Кейс применения гибридного моделирования в нефтегазовой отрасли. Проект еще не закончен, по окончании поделюсь финальными результатами.

О докладе: в докладе сотрудники ПИШ НГУ и НОЦ Газпром нефть НГУ Степан Кармушин и Антон Кожухов рассказали о результатах, которых им с командой удалось достичь в рамках решения вызова, связанного с повышением эффективности глушения скважин в сложных геолого-технологических условий. Их решение — гибридное моделирование процесса, объединяющее в себе методы машинного обучения с классическими методами физико-математического моделирования. Разработка ведется в интересах индустриального партнера ПИШ НГУ – компании «Газпром нефть».

Пара полезных научных статей по теме в комментариях👇

Katser

08 Oct, 15:28


Гибридное моделирование

Как правило, гибридным моделированием называют объединение или ансамблирование подходов физико-математического моделирования (первых принципов) и статистического моделирования/моделирования на данных/машинного обучения. Топ-3 популярных подхода (картинка 1):
🔵 The delta model: например, уточнение физ модели в виде свободного члена (поправки) с помощью ML модели
🟢 Physics-based preprocessing: использование результатов физ-мат моделирования как исходных данных в ML модели
🟡 Feature learning: например, виртуальные датчики, построенные с помощью ML, используются в физ-мат модели

📖 Полезная статья с исторической справкой и объяснением базовых принципов и основных подходов от Bosch AI по ссылке. А для тех, кто хочет гораздо глубже погрузиться в гибридное моделирование подойдет их научная статья.

📖 Ну и напоследок поделюсь статьей про "Обслуживание по состоянию" (CBM) в атомной отрасли. Сам любил ссылаться на статью, так как есть информация по тренду на снижение использование ядерной энергии в мире, потенциальному эффекту от перехода к концепции CBM в США (1 млрд $ в год), обзор основных задач диагностики на АЭС и подходов к диагностике. Ну а нам интереснее SWOT анализ гибридного моделирования (картинка 2) и сравнение с другими подходами.

Мое мнение про гибридное моделирование: в промышленности в большинстве кейсов повышет качество решения задачи, почти всегда работает и повышает доверие к моделям, поэтому стоит пробовать, когда предоставляется возможность.

Katser

04 Oct, 16:31


В одном посте на английском языке собрал основные задачи на временных рядах и библиотеки для автоматизации их решения. При этом слегка обновил опубликованную в канале версию документа.

Кстати, все материалы на английском и часть материалов на русском собираю в линкедине, который на удивление является наиболее эффективным инструментом поиска работы/кадров. Абсолютное большинство предложений о работе в последние пару лет пришло ко мне через линкедин, так что не стоит пренебрегать этой соцсетью. И это я про российский рынок труда 🧐. А еще на линкедине я с удовольствием читаю пару интереснейших блогов про временные ряды и промышленность, так что это теперь для меня еще и источник полезной информации. Может и я начну делать там блог, если телеграм когда-то умрет (ч.1, ч.2 верим?)

PS Добавляйтесь в друзья 🙂

Katser

24 Sep, 17:40


По странному стечению обстоятельств с большим запозданием пишу про интереснейший отчет ИТМО по итогам исследования open-source в России. Ребята давно исследуют тему и сами двигают open-source вперед (например, FEDOT и сообщество @itmo_opensource), писал про это здесь. А я в исследовании участвовал в качестве эксперта (какой open-source, такой и эксперт, хотя может я путаю причину и следствие🤔)
Наш датасет SKAB не рекламировал, но в обзор он все-таки попал, это приятно. Что такое "ядро обнаружения аномалий" я вам не расскажу, так как сам не знаю.😅

Еще недавно давал комментарий к другой статье про open-source (habr, vc), опять жаловался на промышленность. А вообще у автора там серия статей про open-source.

Хотя я не только жалуюсь, но и продолжаю вносить небольшой вклад в open-source в промышленности на кэггле (датасеты) и гитхабе (все остальное).

Katser

29 Aug, 09:04


ИИ в промышленности по данным разных аналитических отчетов. Часть 5
Части 1, 2.1, 2.2, 3, 4

Еще один отчет, теперь от Иннополиса. Ключевые моменты на приложенных картинках. Я бы рекомендовал заглянуть в 2 раздела:
🔴Энергетика и ИИ
🔴Промышленность и ИИ

В начале каждого раздела есть интересная информация по ключевым проблемам, трендам отрасли и трендам в направлении ИИ. Сам отчет с упором на патенты, но я большой пользы от патентного ландшафта не вижу, слишком высокая скорость изменений в области ИИ и патенты не раскрывают самые интересные составляющие продуктов — самое интересное всегда под ноу-хау, в опен-сорсе и в научных статьях.

Наверное, какую-то оценку по патентам в технологическом лидерстве делать можно. Напишите, в чем польза в комментах. 🙂

📎Отчет в пдф прикладываю в комментариях.

Katser

27 Aug, 05:02


Когда решил привести в порядок промышленные данные: почистить от выбросов, убрать пропуски и тд. 🥲 А серьезные посты на тему качества и обработки промышленных данных были тут и тут.

пс Лучше всего придумываются мемы, конечно, сидя на фабрике и готовясь к защите результатов ОПИ

Katser

25 Aug, 07:43


🤩 Платные реакции в телеграм

Павел Дуров под стражей, а значит самое время инвестировать в тг-валюту! На самом деле просто я изучаю новый функционал тг

Возможно, вы уже заметили появление золотых звезд среди обычных реакций на посты в телеграм-каналах. Теперь каждый желающий может приобрести эти звезды и использовать их, чтобы выразить поддержку понравившимся публикациям. Авторы каналов могут отслеживать свои звездные накопления в настройках и использовать их для покупки рекламы в телеграме или конвертации в тг-крипту. Поддержка небольшая, но все равно приятно, и пойдет она в любом случае на развитие канала.

Я подключил платные реакции и уже успел собрать несколько звезд — спасибо вам! ⭐️
Сам планирую поддерживать тех авторов, которые действительно вызывают у меня интерес.

Katser

22 Aug, 05:04


📸Визуализация классификации аномалий и характеристик задач в области поиска аномалий

Katser

22 Aug, 05:02


Классификация аномалий и задач в области поиска аномалий

Про классификацию аномалий я часто рассказываю в своих докладах (раз, два). Я также писал пост в канал Reliable ML, где затрагивал эту тему. Пришло время собрать всю информацию по теме в один пост. Я, как обычно, опираюсь на классический обзор, немного его дополняя.

🟡По типу обработки информации (Processing type). Существуют оффлайн и онлайн варианты задачи.
· Оффлайн задача (=сегментация) ставится при наличии полного набора данных, поэтому можно получить оптимальное решение.
· Онлайн ставится, когда данные поступают поточечно (real-time) или батчами, а начало аномалии (точка изменения) должно детектироваться с минимальным запаздыванием.

🟣По типу данных (Data). Один из вариантов классификации — на структурированные, полуструктурированные и неструктурированные (подробнее здесь). Но более полезной кажется классификация по модальности, поскольку методы поиска аномалий для разных модальностей часто существенно различаются.
· Табличные: это данные, структурированные в строки, каждая из которых содержит информацию об отдельном объекте.
· Временной ряд: это одномерные или многомерные данные, наблюдаемые во времени последовательным образом. В идеальных случаях данные наблюдаются через заранее определенные и равные промежутки времени (например, ежегодно или ежечасно).
· Аудио: это особый случай данных временных рядов, где собираемым признаком является звук. Более подробную информацию о том, что такое звук и аудио, можно найти здесь.
· Изображения: это тензор или многомерный массив, где два измерения (строки и столбцы) представляют собой пространственные координаты (оси x и y), а третье представляет интенсивность или уровень серого.
· Видео: обычно это комбинированный тип аудио и временных рядов изображений (каждый экземпляр относится к типу изображения).
· Текст: это либо отдельные слова, либо слова, объединенные в фразы, предложения и тексты.

📎Полезная статья о типах данных с точки зрения машинного обучения.

🔵По наличию разметки данных (Modes by data labels). Можно разделить на с учителем (supervised), с частичным привлечением учителя (semi-supervised) и без учителя (unsupervised).
· Обучения с учителем: требуется, чтобы все данные (как нормального, так и аномального класса) были размечены.
· Обучение с частичным привлечением учителя: обычно речь идет о необходимости иметь часть размеченных данных для каждого класса, но для поиска аномалий чаще всего речь идет о наличии полностью размеченного нормального класса.
· Обучение без учителя: нет разметки ни одного класса. Эти методы часто основаны на предположении, что количество аномальных случаев намного меньше обычных.

🟢Вывод алгоритмов (AD algorithm output). Существует два основных типа вывода результатов алгоритмов:
· Оценка (score) аномальности: алгоритм выдает для каждой точки степень аномальности. Это позволяет гибко определять границу аномальности на этапе постобработки и, например, управлять ошибками 1го и 2го рода.
· Метки классов: алгоритм выводит для каждой точки метку класса (0/1 или нормальный/аномальный).

🔴Тип аномалии (Anomaly type). Часто выделяют точечные, коллективные и контекстуальные аномалии.
· Если одна точка демонстрирует аномальное поведение по отношению к остальным данным, то ее называют точечной аномалией.
· Если набор последовательных точек демонстрирует аномальное поведение по отношению к остальным данным, то этот набор точек называют коллективной аномалией.
· В случае, если аномальность данных заметна только в контексте соседних точек, говорят о контекстуальных аномалиях. К этому типу могут относиться как точечные, так и коллективные аномалии.

🔵Область применения (Application domain). В зависимости от конкретной области знаний или отрасли экономики аномалии можно разделить на различные типы: фрод, кибер-атаки, поломки оборудования и другие. Эти типы относятся к различной природе возникновения аномалий и подразумевают, что следует использовать различные методы поиска аномалий и эвристики предметной области.