Latest Posts from Reliable ML (@reliable_ml) on Telegram

Reliable ML Telegram Posts

Reliable ML
Reliable ML - фреймворк о том, как управлять внедрением и развитием аналитики и data science/machine learning/AI, чтобы результат был применим в бизнес-процессах и приносил компании финансовую пользу.

Admin: @irina_goloshchapova @promsoft
6,408 Subscribers
100 Photos
1 Videos
Last Updated 10.03.2025 03:05

Similar Channels

Сиолошная
57,097 Subscribers
ODS #jobs
8,989 Subscribers
epsilon correct
7,020 Subscribers

The latest content shared by Reliable ML on Telegram

Reliable ML

01 Mar, 16:17

1,830

Ошибки при внедрении Generative AI решений
Перевод статьи Chip Huyen - Common pitfalls when building generative AI applications

Chip Huyen, сооснователь Claypot AI, автор популярного блога и книги "Designing Machine Learning Systems", а также эксперт, не нуждающийся в дополнительном представлении среди ML-специалистов, опубликовала статью про основные ошибки при разработке и внедрении генеративных AI-решений. Составили для вас перевод.

Итак, самые распространенные ошибки:

Использование GenAI, когда он не нужен

GenAI часто применяют для задач, где традиционные методы эффективнее. Например, оптимизацию энергопотребления можно решить простым планированием действий в часы с низкими тарифами, а не через сложные LLM-модели. Многие компании ошибочно внедряют AI ради хайпа, игнорируя более дешевые и надежные решения, такие как линейное программирование или rule-based системы.

Эксперименты с GenAI должны включать анализ того, не добавляет ли их использование избыточной сложности и костов.

Путаница между «плохим продуктом» и «плохим AI»

Провалы AI-продуктов часто связаны не с технологией, а с плохим UX. Например, чат-бот Intuit изначально провалился из-за неочевидного интерфейса: пользователи не понимали, что ему писать. Решением стали подсказки с примерами вопросов, что резко улучшило вовлеченность.

Важно уделять большое внимание тому, как AI-решение может улучшить бизнес-процесс. Например, LinkedIn не сразу осознал, что для пользователей наиболее полезна не простая оценка их навыков и метча с интересной вакансией, а рекомендации по их улучшению. Самое важное - не модель, а то, как ваш продукт решает конкретные боли пользователей.

Начинать со слишком сложного

Многие команды усложняют систему, используя агентские фреймворки или векторные БД, когда достаточно простых взаимодействий через API. Например, выбор семантического кэширования вместо поиска по ключевым словам добавляет ненужные зависимости и ошибки.

Если внедрять сложные решения сразу, это добавляет избыточную сложность в логику системы и замедляет дебаггинг. Лучше начинать с минимально рабочего решения, а затем масштабировать, когда базовые принципы проверены и стабильны.

Переоценка раннего успеха

Первые 80% результата достигаются быстро, но последующие улучшения требуют непропорционально много усилий. Например, LinkedIn потратил 4 месяца на доводку продукта с 80% до 95% качества из-за борьбы с галлюцинациями.

Стартапы сталкиваются с аналогичными проблемами: компромиссы между точностью и скоростью, сложности в интерпретации запросов. Кроме того, изменения в API-моделях или их ненадежность могут «сломать» уже работающий продукт.

Отказ от человеческой оценки

Оценка с помощью AI не заменяет людей: автооценка зависит от промптов и могут быть субъективными. Например, если автооценка хвалит ответы, а пользователи их ненавидят, это сигнал пересмотреть метрики.

Ручная проверка 30–1000 примеров ежедневно помогает находить паттерны, которые алгоритмы пропускают. Как показал пример Intuit, даже небольшие изменения в интерфейсе, выявленные через обратную связь, кардинально меняют восприятие продукта.

Сила - в комбинации человеческих проверок и автооценки.

Краудсорсинг сценариев использования

Выбор сценариев использования GenAI решений без стратегии приводит к разрозненности и дублированию усилий. Компании создают множество однотипных решений (например, чат-ботов для Slack, помощников для кодинга, и text-to-SQL вариаций), но не фокусируются на высокоэффективных кейсах.

Без приоритизации по ROI команды тратят ресурсы на «удобные» задачи, а не на те, что приносят реальную ценность. Стратегия должна учитывать не только техническую реализуемость, но и влияние на бизнес-метрики.

***

Вот такие вот советы от Chip Huyen. Самое классное, что они полностью применимы и к классическому ML. Книга "Rules of ML" от Google - нетленна. А ее первое правило в особенности.

Что вы бы добавили к этим советам из своей практики?

Ваш @Reliable ML

#business #reliable_ml #llm #generative_ai
Reliable ML

23 Feb, 17:27

3,716

Почему во времена AI-революции стоит быть осторожным?
Заметки на полях

Решила тут Ирина почитать последние актуальные книги по GenAI - и по внедрению в прод, и про разное менеджерско-стратегическое. Нашлось как всякое интересное (могу потом сделать обзор, если интересно), так и очень интересное.

Например, книга Chief AI Officer Handbook от Packt Publishing. Которую уже после 1й главы начинаешь подозревать в чем-то нехорошем: уж слишком подозрительно структурирован текст, идеальным языком написаны итоги каждого раздела, а главное - уж больно бессмысленно все это в совокупности. До последнего не хотелось верить, что в такое издательство может проникнуть книга, так неприкрыто написанная LLM/ChatGPT, но более детальный разбор показал, что так оно и есть.

Грусть, возмущение и мысли о том, что бедным издательствам теперь будет трудно, и надо что-то менять, чтобы продолжать оставаться ценными для читаталей. А нам, читателям, тоже надо быть начеку и - если мы хотим получать действительно ценную информацию - уметь отличать сгенерированную LLM инфу от человеческой. Уже даже исследования появляются на тему того, что у человека это неплохо получается - лучше алгоритмов.

В голове - с учетом статей - собираются вот такие критерии для идентификации LLM-подставы:

- Очень характерный стиль изложения: выхолощенная, предсказуемая структура, с четкими абзацами и пошаговым изложением, где жирным выделены главные резюмирующие мысли (в начале каждого абзаца).

- Заключения всегда аккуратные, оптимистичные и резюмирующие

- Часто используются определенные слова. Судя по статье, например, vibrant, crucial, significantly, etc. А по личным наблюдениям, можно даже найти следы промптов в тексте - например step-by-step в заголовках книги про Chief AI Officer.

- Отсутствие понятного посыла или новых/интересных для читателя мыслей. Хотя как единственный критерий это, конечно, не работает. Всякие книги встречаются.

- Фактура спорная, неверная или очень общая. Пример критерия с высоким весом - ссылки на литературу ведут на несуществующие страницы.

- Ни одной (или мало) схем в тексте. У авторов-людей почти всегда есть потребность как-то визуально структурировать и показать наглядно мысли, которые они передают в тексте. Для LLM-текста - человек должен заморочиться отдельным промптом, чтобы собрать подобное. А возможно, даже осмыслить тот текст, который ему написала модель. Это уже существенно отдалит его от полностью сгенеренного.

Есть ли у вас что добавить к списку критериев? Не дадим LLM захватить литературу!

Вот такой вот дивный новый мир. На фоне размышлений о будущем после книги про AI Officers мне вспоминается история из великого башорга. Для тех, кто еще помнит 😄

На картинке - скрин из книги с заголовком с кусочком промпта.

Ваш @Reliable ML

#business #мысли #reliable_ml #llm
Reliable ML

20 Feb, 08:28

3,267

Reasoning vs. Instruct (GPT) models
Перевод: о различиях в применении Reasoning и GPT моделей

Решили сделать краткий перевод недавней статьи от Open.AI про различия в применении reasoning (o-series) и GPT-моделей. Тема горячая, иметь идеи на эту тему в понятном виде под рукой кажется полезным. Если текст наберет много лайков, будем и дальше публиковать подобные посты с тегом "перевод" - на актуальные темы.

Ключевые различия Instruct (GPT) vs. Reasoning LLM

Reasoning (в случае Open.AI - o-series) и привычные нам чат-модели или instruct-модели (в случае Open.AI - GPT) решают разные задачи и требуют разных подходов.

- Reasoning-модели - планировщики. Созданы для сложных задач, требующих глубокого анализа, стратегического планирования и работы с большими объемами неоднозначной информации. Они медленнее, но точнее Instruct LLM. Идеальны для областей, где важны точность и надежность: математика, наука, инженерия, финансы, юриспруденция.

- GPT-модели (и другие instruct-модели) - рабочие лошадки. Оптимизированы для быстрого выполнения четко определенных задач и подходят для случаев, где важны скорость и низкая стоимость. Меньше подходят для сложных, многошаговых задач.

Успешные кейсы использования Reasoning-моделей (на примере o-series)

- Работа с неоднозначными задачами. Модели задают уточняющие вопросы и обрабатывают сложные документы. Hebbia использует o1 для анализа сложных платежных ограничений в кредитных соглашениях.

- Поиск иголки в стоге сена. Модели находят важные детали в огромных объемах неструктурированной информации. Endex использовал o1 значимой информации в документах компании (контракты, договоры аренды, и проч.), которая может повлиять на сделку о ее покупке. Модель выявила важное положение о «смене контроля» в сносках: если бы компания была продана, ей пришлось бы выплатить кредит в размере $75 млн.

- Выявление взаимосвязей и выводов из сложносоставных данных. Модели находят связи между документами и делают выводы на основе контекста. Blue J улучшила производительность в 4 раза, используя o1 для налоговых исследований, когда нужно было прийти к логическим выводам, которые не были очевидны ни в одном отдельном документе. BlueFlame AI применила o1 для анализа влияния фандрайзинга на существующих акционеров - получив в итоге корректную расчетную таблицу на основе множества документов, на создание которых у финаналитиков ушло бы существенно больше времени.

- Многошаговое планирование. O-series выступает как «планировщик», разбивая задачи на шаги и делегируя их GPT для выполнения. Lindy.AI использует o1 для автоматизации рабочих процессов. Модель забирает информацию из календаря или эл. почты, а затем автоматически помогает пользователю планировать встречи, отправлять e-mail-ы, и др. Декомпозиция и планирование задач были полностью переключены на o1.

- Визуальный анализ. O1 лучше GPT-4o справляется с интерпретацией сложных изображений (графики, чертежи). SafetyKit достигла 88% точности в классификации изображений с помощью o1 - в задаче проверки комплаенс-рисков для миллионов товаров в Интернете, включая подделки ювелирных изделий класса люкс, исчезающие виды и контролируемые вещества.

- Рецензирование и улучшение кода. Модели эффективно анализируют код, находя ошибки, которые могут пропустить люди. CodeRabbit увеличил конверсию в 3 раза, перейдя на o-series для ревью кода - во многом за счет того, что o1 способен обнаруживать ошибки и несоответствия между множеством файлов в репозитории. Кроме того, o1 на голову выше GPT при помощи разработчикам в проектировании сложных систем.

- Оценка и бенчмаркинг. O-series используется для проверки качества ответов других моделей. Braintrust улучшила F1-оценку с 0.12 до 0.74, используя o1 для оценки ответов GPT-4o.

Для нас будет очень ценно, если в комментах вы напишете, насколько такой пост полезен.

Ваш @Reliable ML

#tech #business #перевод #reliable_ml #llm
Reliable ML

16 Feb, 13:34

4,568

Применение Generative AI в компаниях США
Обзор обзора - 2024: The State of Generative AI in the Enterprise

В декабре 2024 был опубликован обзор от фонда Menlo Ventures - про применение Generative AI моделей в корпорациях. Данные собраны с 600+ ИТ-руководителей компаний в США с 50+ сотрудниками - в октябре-ноябре 2024.

Cделали для вас краткий обзор этого обзора - того, что показалось интересным.

- Топ-5 сценариев применения GenAI в корпорациях: code generation, support chat-bots, enterprise search + retrieval, data extraction + transformation, meeting summarization. Ну и, конечно, все экспериментируют с агентами. В целом, ничего удивительного, но может быть полезно при приоритезации кейсов для вашей компании - в этих популярных сценариях LLM показывают себя пока наиболее успешно. Для каждой категории в статье приведены примеры успешных стартапов/решений со ссылками - наглядно и полезно.

- Закрытые модели все еще широко используются. Преобладает использование моделей с закрытым исходным кодом (81% компаний, основные решения - GPT от Open.AI и Claude от Anthropic). Открытые модели у себя разворачивает только 19% компаний. При этом на уровне компании обычно полноценно развивают около трех моделей, которые адаптируют под различные сценарии использования.

- О чем стоит подумать при внедрении. При покупке AI решений организации обращают внимание в основном на легкость вычисления ROI и учет специфики деятельности компании. Однако часто недооценивают на старте сложности внедрения моделей: технические интеграции, будущую поддержку и масштабирование. Топ причин разочарований в моделях: затраты на внедрение (26%), вопросы конфиденциальности данных (21%), неоправдавшиеся ожидания по ROI (18%), галлюцинации моделей (15%).

- Где внедрять. В среднем компании выделяют финансирование для разработки AI-решений во всех подразделениях. Наибольшая доля - у IT (22%). Возможно, что это за счет централизованного владения инфраструктурой, хотя напрямую это не написано. Второе и третье место у инженерных задач (19%) и клиентской поддержки (9%).

- От горизонтальных решений к вертикально-интегрированным приложениям для отдельных бизнес-областей. Если раньше решения были в основном про сервисы создания картинок и генерации текста, то в 2024 году - это полноценные приложения для конкретных задач в здравоохранении, юриспруденции, финансах и медиа:

- Для медицины это $500 млн инвестиций в решения по автоматизации клинических процессов: от ведения записей (Abridge, Ambience) до управления доходами (Adonis, Rivet).
- Юристы ($350 млн) используют GenAI для работы с большими объемами данных и автоматизации задач. Примеры: Everlaw (литигация), Harvey (проверка договоров и умный поиск), Garden (патенты и интеллектуальная собственность), и др.
- В финансах ($100 млн) выделяют стартапы вроде Numeric (автоматизация процессов бухучета), Arch (помогает собирать и агрегировать внешние данные о компаниях для управления инвестициями) и Norm AI (агентов, помогающих работать по комплаенс задачам: от сбора новых документов и рисков из внешних данных до помощи в проверке транзакций).
- В медиа ($100 млн) популярны как профессиональные студии (Runway), так и инструменты для независимых авторов (Descript, Captions).

Ваш @Reliable ML

#tech #business #reliable_ml
Reliable ML

01 Feb, 15:47

4,038

Data Ёлка 2024 - Итоги года от Reliable ML
О том, как мы праздновали ODS Новый Год 28 января 2025

Совсем недавно в офисе VK в Москве состоялась традиционная Data Ёлка 2024. Мы с Димой в этот раз тоже решили поделиться итогами года от Reliable ML.

У нас получилось два доклада:

- От Димы Колодезева - про hard-тренды 2024. Поговорили про conformal prediction, появление качественных материалов по causal inference в ML на русском (и вообще появление causal inference в ML!), прорыв в интерпретируемости трансформеров и больших языковых моделей, будущее мира на промптах и изоленте (стабилизацию вывода LLM в прод), а также антихрупкость в ML.

- От Иры Голощаповой - про полезные soft-фичи в управлении ML-разработкой. Обсудили важность того, чтобы не увлекаться шаблонами (да-да, даже дизайн-документами!), системно подходить к обучению дата-команд и бизнеса, погружаться в бизнес-процессы, для которых делаешь ML-решение, уметь брать на себя ответственность за результат, а также про то, что вдохновение - это тоже ответственность.

Будем рады, если материалы окажутся полезными для вас в этом году.

Прекрасного вам 2025го!

Ваш @Reliable ML

#tech #business #dataелка2024 #reliable_ml
Reliable ML

12 Jan, 16:29

4,662

Секция Career на Data Fest 2024
Обзор докладов секции и ссылки на материалы

Публикуем в одном посте доклады секции по карьере, которую мы провели в мае 2024 г.

В секции было 2 блока: для сотрудников - про построение карьеры, развитие и трудоустройство, и для руководителей - лайфхаки про работу с командой от тимлидов.

- Ирина Голощапова [Youtube] [Rutube] рассказала про ключевые роли в работе с данными. Рассмотрели суть работы каждой роли, определили главные навыки, которые их отличают, узнали о том, какие для них есть карьерные треки, а также поговорили о том, над какими навыками стоит работать, чтобы расти по выбранному треку.

- Евгений Смирнов [Youtube] [Rutube] предложил десять вопросов, которые нужно задать перед трудоустройством кандидату на работу в сфере data science (и не только). То есть, о чем - кроме размера заработной платы - стоит спросить работодателя на этапе собеседований.

- Наталья Ковальчук [Youtube] [Rutube] рассказала о плюсах и минусах мягкого карьерного перехода из геологических исследований в data science, а также детально раскрыла особенности применения Data Science в нефтегазовой отрасли.

- Илья Алтухов [Youtube] [Rutube] поделился своими находками, полученными за почти 10 лет опыта работы тимлидом data science команд. Предложил практические рекомендации, которые можно применять в работе. Обсудили темы: с чего начать тимлидство, как повысить эффективность поиска специалистов в команду, как спланировать рост компетенций в команде, как наладить коммуникацию и работу с ОС, можно ли ходить в отпуск и не работать, как развивать вовлеченность команды.

- Артем Каледин [Youtube] [Rutube] рассказал о личном опыте сильной перестройки работы команды и построения новых практик, влияющих на развитие геоаналитики в билайне. Рассказал также о своем росте в тимлида, радостях и сложностях этого перехода.

Удачного вам карьерного пути в 2025 году!

Ваш @Reliable ML

#tech #business #datafest2024 #career
Reliable ML

05 Jan, 14:44

4,982

Секция Reliable ML на Data Fest 2024
Обзор докладов секции и ссылки на материалы

На Data Fest 2024 секция Reliable ML получилась стихийно. Мы с Димой планировали сделать только две офлайн секции: Data Strategy и Career. Но в первые же дни call for papers мы получили много хороших предложений докладов для нашей традиционной секции - Reliable ML. И поняли, что от судьбы не уйти.

Секция получилась классная и широкая по охвату. Ведь, чтобы ML был Reliable - и доходил до прода и положительного эффекта - думать нужно о каждом этапе работы над моделью.

- Артем Дуплинский [Youtube] [Rutube] рассказал вводный доклад про причинно-следственный анализ. На примерах показал, почему causal inference полезен для аналитических проектов, и объяснил, что означают базовые термины.

- Александр Ченцов [Youtube] [Rutube] раскрыл тему графового анализа для выявления причинно-следственных зависимостей на больших данных - для более продвинутых пользователей causal inference методов.

- Евгений Смирнов [Youtube] [Rutube] поделился видением и советами по выбору проектов в ML для успешного их внедрения в будущем. Важно грамотно оценивать экономическую целесообразность проектов, готовность инфраструктуры и интеграций, а также готовность бизнес-процессов.

- Андрей Лукьяненко [Youtube] [Rutube] рассказал об опыте построения антифрод ML-моделей на этапе предавторизации для заказа такси в компании Careem.

- Данил Картушев [Youtube] [Rutube] поделился опытом использования шаблона ML System Design Doc от Reliable ML для проекта по созданию бота по поиску нужных материалов в тг-каналах - PostFinder. Классно, что Данил не только описал свой пример применения дизайн-дока, но и предложил ценные дополнения к шаблону (Customer Journey Map и User Story Map), а также опубликовал свой дизайн-документ для PostFinder в открытый доступ.

- Иван Комаров [Youtube] [Rutube] показал возможности применения OLS-регрессии для АБ-тестирования - с детальным разбором примеров. Код доступен в презентации.

- Александр Калинин [Youtube] [Rutube] рассказал про метод Байесовской сыворотки правды (BTS) для разметки данных (когда не имеем в разметке объективной правды/no ground truth).

Пора изучать доклады и думать о том, о чем хотим поговорить в 2025 году!

Ваш @Reliable ML

#tech #business #datafest2024 #reliable_ml
Reliable ML

03 Jan, 08:01

3,571

C Новым 2025 Годом вас, дорогие друзья!

Пусть он будет легким, но при этом вдумчивым и богатым на интересные и положительные события! Пусть подарит вам вдохновение творить. Даст возможность и силы заниматься тем, от чего вы кайфуете!

В прошедшем 2024 году мы с Димой вели телеграм-канал не очень активно - не всегда удавалось балансировать его с другими задачами. Но все же затащили 31 пост, попробовав новые форматы: обзоры книг, обсуждения докладов, посты с мыслями на общие/управленческие темы. А еще продолжили организаторскую тему: провели аж 3х секций на Data Fest: Reliable ML, Career и Data Strategy, собрали митап по машинному обучению в физике и провели секцию по ML System Design на Data Fusion 2024. И, конечно же, продолжили дополнять наш репозиторий по ML System Design новыми примерами документов.

Планов и новых мыслей на 2025 у нас множество - будем стараться, чтобы они стали реальностью!
Спасибо вам за поддержку и вовлеченность в ответ на наши идеи - это очень вдохновляет.
Только вперед!

И пусть в Новом Году в ваших стратегиях внедрения AI стрелки идут в правильном направлении!

Ваш @Reliable ML

#happy_new_year #reliable_ml
Reliable ML

30 Dec, 16:31

3,938

Секция Data Strategy на Data Fest 2024
Обзор докладов секции и ссылки на материалы

В этом году на Data Fest мы провели аж три секции: Reliable ML (куда же без нее), Career и Data Strategy.

И одна из них была экспериментальной - Data Strategy [Youtube, Rutube]. Мы решили попробовать собрать CDO различных компаний - рассказать про проблематику и особенности работы со стратегией по данным. А заодно дать площадку для обсуждения общих болей и вопросов выхода из них. (На самом деле мне нужна была пара советов, вот и придумала секцию. Но это уже совсем другая история 😊).

Для Data Fest - это не совсем обычная тема, поскольку ключевой акцент в нем всегда оставался за data science. А стратегия по данным охватывает все этапы работы с ними, включая то, чему обычно на data science конференциях не уделяется большого внимания.

Стратегия по данным отвечает на вопрос, как нужно организовать работу с данными в организации в целом, чтобы была возможность их в итоге монетизировать. Для этого нужно данные качественно собрать, организовать их хранение, обеспечить качество (на уровне как инфры, так и процессов), а затем организовать в витрины, пригодные для применения методов продвинутой аналитики.

Так вот было невероятно приятно осознать, насколько аудитория на самом деле ждала появления таких тем! Насколько у многих наболели вопросы качественной организации всей цепочки работы с данными. На секции был аншлаг, успели обсудить кучу вопросов как по докладам, так и по общим болям. Сложно было только разойтись)

Секция получилась глубокой и целостной. Каждый докладчик закрыл по важному блоку, который неизбежно стоит продумывать для получения работающей стратегии по данным.

- Виктор Кантор [Youtube, Rutube] рассказал о том, почему вообще нужна стратегия по данным, и как ее наполнить конкретными кейсами монетизации с помощью инструментов продвинутой аналитики.

- Павел Мягких [Youtube, Rutube] углубил наполнение стратегии кейсами и виженом, куда двигаться - раскрыв тему про расчет экономики этих кейсов: как в ней разобраться, и как посчитать. Ибо не все то золото, что ML/AI/LLM.

- Александр Толмачев [Youtube, Rutube] погрузил аудиторию в техническую сторону вопроса - в организацию сквозной инфры и инструментария работы дата аналитиков, дата саентистов и дата инженеров. Это вызвало большое понимание и внимание зала - многие успели испытать сложности взаимодействия команд и боли от неоптимальной организации процессов и сервисов. А Саша предложил понятный пример унифицированных процессов и инфры.

- Ирина Голощапова [Youtube, Rutube] объединила предыдущие выступления, предложив общий фрейм для работы над стратегией по данным. В докладе я постаралась дать структуру стратегии по данным, обозначив ее критические блоки и объяснив логику работы над ними - и то, как они собираются в итоге в единую систему. По ходу доклада мы рассмотрели несколько примеров работы над блоками стратегии и лайфхаки, которые мне кажутся полезными. Сам фрейм хотелось бы в будущем выложить в open source и наполнять сообществом.

Расскажите, чем вам показалась полезной секция по дата стратегии? И о чем хотелось бы поговорить с CDO в 2025 году?

Ваш @Reliable ML

#tech #business #datafest2024 #data_strategy
Reliable ML

28 Dec, 09:17

3,457

Карта типов CDO
К обзору книги Carruthers, Jackson - The Chief Data Officer's Playbook

Хочется дополнить наш недавний обзор книги про CDO моей любимой картой архетипов дата лидеров.

Оригинальная статья была опубликована около 5 лет назад компанией Informatica, хотя недавно ее почему-то удалили. Однако у меня ходы остались записаны! Хочу поделиться с вами)

По концепту все Chief Data Officers делятся на 4 категории - по их самым сильным сторонам.

- Digital Innovators. Ключевые навыки дата лидера - в знании data science/ML/AI технологий. Такой CDO сможет затащить поиск перспективных идей, быстрые эксперименты и исследования, внедрение новых решений. Как правило, эти лидеры вырастают из дата саентистов.

- Analytics Champions. Фокус - на построении процессов для надежной отчетности: развитие BI-инструментов и дашбордов, настройка качественных end2end пайплайнов, включая оптимизацию работы отчетов в рамках BI и витрин данных под ними. Чтобы все работало четко, быстро, не ломалось - давало бизнесу возможность прозрачно видеть нужные данные по процессам и принимать решения. Такой тип лидера обычно вырастает из дата аналитика.

- Governance Circus. Ключевые скиллы и фокус внимания - на качестве данных, системном развитии архитектуры данных, процессов и инструментов управления ими и обеспечении их безопасности. Этот тип дата лидера вырастает из дата архитекторов, системных аналитиков, реже - из дата инженеров.

- Operational Optimizers. Основной бекграунд - в развитии инфраструктуры и технических процессов работы с данными. Это гуру в развитии платформенных сервисов и автоматизации всех этапов работы с данными: от сбора и интеграций, до деплоя отчетности и ML-моделей. Такой тип обычно вырастает из дата инженеров.

Верхнеуровнево, два правых квадранта - больше про монетизацию данных, а два левых - про их подготовку для того, чтобы их можно было использовать. В разные моменты времени, для разных отраслей и этапов развития компании - ей могут требоваться различные типы CDO.

По моему опыту, у всех CDO сильной группой навыков будет один, максимум два квадранта. Остальное может быть также закрыто, но уже как вторичная группа - с разной степенью погруженности и возможности управлять процессом.

Об этой картинке рекомендую задумываться, и когда принимаете решение о найме и думаете о профиле нужного вам специалиста, и если вы CDO/дата-лид, и собираете свою команду.

Ваш @Reliable ML

#business #cdo