Клуб CDO @cdo_club Channel on Telegram

Клуб CDO

@cdo_club


Сообщество профессионалов в области работы с данными и искуственным интеллектом

Клуб CDO (Russian)

Клуб CDO - это Telegram-канал, созданный для сообщества профессионалов в области работы с данными и искусственным интеллектом. Если вы являетесь аналитиком данных, специалистом по машинному обучению или просто увлечены темой Big Data, этот канал станет для вас ценным источником информации и общения. Здесь вы сможете обсудить последние тенденции в мире аналитики данных, узнать о новейших технологиях в области искусственного интеллекта и обменяться опытом с коллегами из разных уголков мира. Канал регулярно публикует обзоры рынка данных, интервью с экспертами, а также проводит вебинары и онлайн мероприятия для участников. Присоединяйтесь к клубу CDO прямо сейчас, чтобы быть в курсе всех новостей и развития области работы с данными и искусственным интеллектом!

Клуб CDO

07 Jan, 09:20


Сам не пробовал, но продукт выглядит интересно - такой легкий BI над CSV и Excel в онлайне. Если вам надо покрутить CVS то кажется прям самое то.

https://www.tomat.ai/

Клуб CDO

06 Jan, 11:05


Небольшая полезность в копилку для тех, кто пишет код - очень интересный плагин для vscode для, собственно, визуализации кода. Для построения диаграммы использует Cloude и умеет выгружать картинки в формате draw.io.

https://github.com/EdisonLabs-Inc/CodeViz-Public

Клуб CDO

05 Jan, 19:08


Дайджест статей

How Twitter processes 4 billion events in real-time daily
https://vutr.substack.com/p/how-twitter-processes-4-billion-events?t=

Data :Lakehouse Architecture: Overview, Tools and Cost Management
https://blog.devgenius.io/data-lakehouse-architecture-overview-tools-and-cost-management-c6b350b01c1b

Оптимизация SQL запросов
https://habr.com/ru/articles/861604/

40 лучших ИИ-инструментов 2025 году (проверенные и протестированные)
https://habr.com/ru/articles/871268/

Iceberg Catalogs: A Guide for Data Engineers
https://dzone.com/articles/iceberg-catalogs-a-guide-for-data-engineers

Искусственный интеллект в продукт-менеджменте: как ИИ облегчает жизнь продакта — обзор инструментов и личный опыт
https://habr.com/ru/articles/871172/

Part 1: A Survey of Analytics Engineering Work at Netflix
https://netflixtechblog.com/part-1-a-survey-of-analytics-engineering-work-at-netflix-d761cfd551ee

Data Modeling Techniques for the Post-Modern Data Stack
https://towardsdatascience.com/data-modeling-techniques-for-the-post-modern-data-stack-03fc2e4a210c

The Semantic Layer: What It Is and How Should It Be?
https://iamhuy.medium.com/the-semantic-layer-what-it-is-and-how-should-it-be-419904b24e3f

Клуб CDO

03 Jan, 21:40


Голосовые технологии и виртуальные ассистенты

Давайте немного отвлечемся от AI агентов и взглянем на тренды в области голосовых технологий. Компания Cartesia как раз опубликовала любопытный материал. Cartesia это компания работающая в области искусственного интеллекта, основанная в 2023 году группой исследователей из Стэнфордского университета. Основной продукт: Sonic - голосовой API с ultra-реалистичной генерацией речи.

Какие тренды отмечают коллеги в своем отечете из того, что показалось мне интересным:

⁃ В первую очередь прорывом в части интеграции LLM в цепочку STT → LLM → TTS что в целом дало буст разговорным интерфейсам за счет того что боты стали общаться более адекватно, улучшилось понимание и генерация ответов.
⁃ Появились полностью дуплексные системы преобразования речи в речь. Эти модели "всегда включены", поскольку они могут слушать пользователя, пока модель говорит. Это дает возможность заглянуть в будущее мультимодальной озвучки, где модели будут постоянно слушать пользователя.
⁃ Появились новые архитектуры моделей для речи: на основе пространства состояний (SSM) с авторегрессионным обучением. Эти архитектуры представляют собой значительный отход от более традиционных моделей трансформеров на основе внимания, поскольку они обеспечивают большую гибкость в средах развертывания. Теперь возможны развертывания на устройствах с ограниченной памятью, а также улучшенное качество и задержки.
• Речевые модели (имеется ввиду ASR/TTS) теперь поддерживают потоковую передачу данных, позволяя генерировать звук в реальном времени по мере получения данных от LLM, сохраняя при этом последовательность просодии (интонация, ритм, ударения, паузы) в сегментах речи.
• Улучшилась поддержка интеграции голосовых моделей в платформах создания ботов и виртуальных ассистентов, что снижает порог сложности для их применения и создания мультимодальных интерфейсов
• Эти же платформы становятся ключевым элементом общей инфраструктуры виртуальных ассистентов, объединяя в себя все элементы более “низкого” уровня технологического стека: ASR/TTS, LLM, RAG
• Очень интересно, что нарисовался целый отдельный класс платформ (observability platforms) предназначенный для оценки и контроля работы виртуальных ассистентов. Это такие платформы как: Hamming, Coval, Vocera, and Canonical
• С точки зрения бизнес-областей, использование голосовых ассистентов стало практически стандартом в рекрутинге, продажах и поддержке клиентов

В 2025 году следует ожидать дальнейшее снижение задержи работы моделей, улучшение в понимание контекста и обработку различных артефактов естественной речи, такие как прерывание речи, паузы и тд. Так же модели лучше смогут работать на конечных устройствах и станут более компактными за счет новых архитектур, дистилляции и использования специализированных чипов.

https://www.cartesia.ai/blog/state-of-voice-ai-2024

Клуб CDO

03 Jan, 15:03


Еще редакция хотела бы напомнить, что у нас есть twitter. Кому интересно и кто может туда ходить (тут оба условия должны выполняться одновременно) - подписывайтесь!

Но там контент несколько шире чем просто про данные, так что на любителя.

https://x.com/kaysersw?s=21&t=8hYN91GrWxuHxTD3byhnjA

Клуб CDO

03 Jan, 12:15


Минутка истории вспомнить про великую компанию которую NVidia столкнула с пьедестала 🙂

https://uproger.com/kratkaya-istoriya-intel/

Клуб CDO

02 Jan, 16:07


Рубрика «копилка»

https://medium.com/@amosgyamfi/the-6-best-llm-tools-to-run-models-locally-eedd0f7c2bbd

Клуб CDO

01 Jan, 10:37


Что читать про данные в 2025 году?

Хочу поделиться некоторыми источниками статей, которые редакция регулярно обрабатывает для подготовки дайджестов.

habr.com — основной источник. Вы, наверное, заметили, что в дайджест попадает очень много материалов отсюда. Статьи здесь разные: есть большие, качественные и вдумчивые, а есть плохо сделанные переводы.

medium.com — оригинал Habr на английском языке. Очень хорошие статьи: объемные, с полезными и практичными инсайтами. Отдельно стоит отметить удобную рекомендательную систему, которая помогает ориентироваться в большом количестве материалов.

semianalysis.com — это в основном платный источник, так как авторы обычно распространяют материалы по подписке. Некоторые из них стоят достаточно дорого, но качество содержания всегда на высоте. Статей не так много, но каждая достойна отдельного изучения с карандашом.

https://substack.com/home-i - тоже очень неплохой, но сложно находить на нем релевантные материалы

https://news.mit.edu — здесь обычно встречаются интригующие заголовки, но сами материалы часто не слишком глубокие.

https://dzone.com — всё чаще встречаются небольшие заметки, а действительно качественные материалы попадаются редко.

https://www.infoq.com — полезный ресурс: здесь можно найти не только новости, но и презентации с расшифровками, а также крупные статьи.

Блоги технологических компаний — их не привожу здесь списком, но ранее публиковал в постах. Также полезными источниками остаются LinkedIn и Twitter, где можно найти интересные ссылки и посты.

Вопрос к аудитории: что вы могли бы добавить в этот список? Какие источники вы регулярно читаете? Делитесь в комментариях!

Клуб CDO

31 Dec, 19:52


И все таки

https://habr.com/ru/articles/871104/?utm_source=habrahabr&utm_medium=rss&utm_campaign=871104

Клуб CDO

31 Dec, 16:42


ИМХО очень неплохая статья

https://clickhouse.com/blog/building-a-data-warehouse-with-clickhouse

Клуб CDO

30 Dec, 18:34


Редакция понимает, что достала всех уже этими агентами, но что бы закрыть тему:

https://www.llmwatch.com/p/a-non-technical-introduction-to-ai?utm_source=post-email-title&publication_id=1428667&post_id=151269796&utm_campaign=email-post-title&isFreemail=true&r=15862q&token=eyJ1c2VyX2lkIjo2OTI0NTM3OCwicG9zdF9pZCI6MTUxMjY5Nzk2LCJpYXQiOjE3MzI2NDIyNDksImV4cCI6MTczNTIzNDI0OSwiaXNzIjoicHViLTE0Mjg2NjciLCJzdWIiOiJwb3N0LXJlYWN0aW9uIn0.IgM3I67NlSN8gRiOu1gnZ8kJSCU0UgAZK4WhINw9rus&triedRedirect=true

Клуб CDO

29 Dec, 10:49


Дайджест статей

Как LLM меняют архитектуру систем: от простых дата-пайплайнов к интеллектуальным автономным агентам
https://habr.com/ru/articles/868648/

Кастомизация в Luxms BI: программируем под свои желания
https://habr.com/ru/companies/luxms_bi/articles/870684/?utm_source=habrahabr&utm_medium=rss&utm_campaign=870684

Чем занимаются дата-сайентисты в Авито — полный разбор
https://habr.com/ru/companies/avito/articles/870672/

Инфраструктура для Data-Engineer Liquibase
https://habr.com/ru/articles/863242/

Опыт Звука: как реализовать рекомендательную систему аудиокниг с использованием больших языковых моделей (LLM)
https://habr.com/ru/companies/zvuk/articles/869664/

Unity Catalog: Revolutionizing Data Governance and Collaboration in the Modern Era
https://towardsdev.com/unity-catalog-revolutionizing-data-governance-and-collaboration-in-the-modern-era-4bef053b972d?gi=f74e30595346

Universal data lakehouse: The most vendor/tool neutral data architecture
https://atwong.medium.com/universal-data-lakehouse-the-most-vendor-tool-neutral-data-architecture-b247b4fedf0a

Top 20 Platform Engineering Tools
https://medium.com/spacelift/top-20-platform-engineering-tools-7e9c7289fb94

Solve Governance Debt with Data Products
https://medium.com/@community_md101/solve-governance-debt-with-data-products-bc17e95384b0

Реальное внедрение LLM в бизнес-процессы (3 кейса)
https://habr.com/ru/articles/868784/

Как не нужно визуализировать данные: антипаттерны в примерах
https://habr.com/ru/articles/868870/?utm_source=habrahabr&utm_medium=rss&utm_campaign=868870

Tarantool CDC. Жизнь данных в гетерогенной среде
https://habr.com/ru/companies/vk/articles/868406/

Как выбрать вкусное вино на основе данных с помощью Luxms BI
https://habr.com/ru/companies/luxms_bi/articles/869382/

Безопасная миграция данных из Vault одной командой
https://habr.com/ru/companies/flant/articles/869290/

Дата-контракты: как мы научили жить дружно источники и потребителей данных
https://habr.com/ru/companies/ru_mts/articles/868384/

The Future of Data Lies in Transformer Models vs. Big Data Transformations
https://dzone.com/articles/the-future-of-data-lies-in-transformer-models-vs-b

Data Warehousing (DWH) best practices
https://rihab-feki.medium.com/data-warehousing-dwh-best-practices-ef9c61cf657d

Клуб CDO

28 Dec, 19:57


В продолжении дискуссии в комментариях к посту про агентов

Клуб CDO

28 Dec, 19:57


А не хайп ли это всё?

Может ИИ-агент ничем не отличается от "обычной" программы, а вся эта "автономность", "наличие инструментов" и LLM - не более, чем маркетинговый шум?

Давайте попробуем разобраться. Хайпа вокруг темы ИИ-агентов, действительно много.
Кто только не назвал 2025 год - годом AI-агентов в своих прогнозах!
(спойлер - я среди них)

Начнем с определения. TM Forum всегда отличался системным подходом сначала к систематизации телекома, а последние годы и любого цифрового бизнеса.

Поэтому будем опираться на формулировки этой организации, которая буквально месяц назад выпустила первый документ
"AI Agent v1.0.0" (IG1274M).

❗️ ИИ-Агент - это система искусственного интеллекта, которая использует LLM в качестве основного вычислительного механизма, что позволяет ей вести диалог, выполнять задания, рассуждать и демонстрировать определенную степень автономности.

Любой интеллектуальный агент должен обладать 5 ключевыми способностями:

1️⃣ Восприятие - сбор данных из окружающей среды

2️⃣ Классификация - извлечение и представление информации из воспринимаемых данных

3️⃣ Принятие решений на основе собранной информации

4️⃣ Действие - исполнение решения

5️⃣ Обучение - извлечение уроков и повышение правильности своих действий

❗️ Важно: Агент должен быть способен принимать решения и учиться на их результатах.

Для реализации этих способностей агент должен обладать следующими характеристиками:

▶️ Автономность - принимать решения и предпринимать действия без вмешательства человека
▶️ Сотрудничество - работать в команде с другими ИИ-агентами для коллективного решения задач
▶️ Итеративность - постоянно улучшать результаты за счет выполнения итераций
▶️ Реактивность - быстро реагировать на внешние стимулы
▶️ Адаптивность - фундаментальная характеристика, которая позволяет ИИ-агентам кооректировать свое поведение на основе опыта.

Постоянно обучаясь и накапливая опыт, ИИ-агенты могут оптимизировать свои решения и стратегии действий, адаптируясь к различным условиям и задачам. Для этого ИИ-агенты должны обладать сильными способностями к обучению и самооптимизации.

Исходя из этих характеристик можно определить Модель 6П ИИ-Агента.

На практике для ИИ-агентов LLM выступает в роли "мозга", управляющего шестью ключевыми процессами (см. картинку):

1️⃣ Понимание - распознавание намерений пользователя (датчики, сенсоры, текст, голос, изображения и тд)

2️⃣ Планирование - декомпозиция задач на подзадачи и план их выполнения, рефлексия над процессом, обучение на ошибках и улучшение результата.

3️⃣ Память - кратковременная (контекст выполнения задачи) и долговременная память (внешние знания)

4️⃣ Производство - ИИ-агент генерирует и оценивает решения, выбирает наилучшее в зависимости от условий окружающей среды и целей задачи, а также улучшает способность выработки решений за счет итераций и обратной связи после завершения задачи.

5️⃣ Применение инструментов - ИИ-агент использует внешние инструменты для взаимодействия с физическим миром, обучения и решения практических задач

6️⃣ Поведение - выполнение принятых решений, выбирая действия из доступного набора.

Для реализации этих процессов на рынке существует множество решений и собрать своего агента сегодня может каждый.


⁉️ Заменят ли ИИ-агенты сотрудников в компаниях в 2025 году?

Вряд ли.

⁉️ Будет ли у каждого сотрудника свой личный ИИ-агент в 2025?

Точно будет, и не один. 😎

(а вы как руководитель даже можете об этом и не знать. особенно, если считаете, что ИИ-агенты - это «обычные» программы)


🅰️🅱️ @ReymerDigital

P.S. Собирать своих личных агентов начнем с начала Нового Года!
Пишите в комментариях какой формат для вас лучше - курс или закрытое сообщество.

Клуб CDO

28 Dec, 09:03


Крутейший выпуск научных итогов года с большим блоком о космических достижениях:
https://youtu.be/B0CZfE5Qhlo?si=z3AAkJz3LwsWzpoH

Клуб CDO

27 Dec, 16:45


AI Агенты

Что то тут решил разобраться что такое “AI Agent”, а то с одной стороны в голове вроде как есть какое то интуитивное понимание, но с другой нет четкого определения. Кроме этого постоянно вижу в разных канал всякие дискуссии на тему этого определения. Плюс, как любая новая и модная тема (вспоминаем термин Big Data) на это определение навешивают все, что только можно.

Итак, я бы дал такое определение: AI агент - программное обеспечение функционирующее с применением технологий ИИ, имеющее возможность активного взаимодействия с внешними системами и предназначенное для выполнение конкретной задачи.

Технологии ИИ - тут могут быть любые, от традиционного ML до нейросетей и, конечно, LLM

Активное взаимодействие - в теме агентов делается акцент на том, что система должна уметь выполнять какие то действия, а не просто многозначительно отвечать на вопросы

Конкретная задача - как показывает практика, что бы агент 007 мог выполнять какую то конкретную роль, надо немало постараться и сделать много всяких интеграций, запрограммировать правила, проверки и тд и тп. Поэтому чем более узкоспециализированный агент - тем лучше, а комплексные системы принято собирать из большого количества “мелких” агентов.

То есть по сути - обычный софт, но с LLM внутри, которую агент бомбит преднастроенными промпами 🙂

Является ли LLM тут необходимым элементом? ИМХО нет, но сейчас термин ИИ стал равен LLM, как когда то он был равен нейросетям, до этого ML и Байсовскому выводу, а когда то просто калькулятору.

Шаги для решения задачи могут быть организованы в виде цепочки, дерева или графа. Фреймворки задают структуру и организуют процесс рассуждений агента.

Для линейных задач подходит фреймворк Chain of Thought (CoT), где каждое действие следует за предыдущим. Этот фреймворк используется в OpenAI o1.
Для более сложных задач используются фреймворки Tree of Thought или Graph of Thought, которые учитывают несколько возможных вариантов развития событий.

Ну и по сути самая соль разработки агента это моделирование цепочки рассуждений/уточнений/действий и тд. которые задаются самыми различными методами и способами. По сути напоминает движение в сторону какого-то “вероятностного” программирования вместе детерминистического описания алгоритма, но тем не менее все равно это напоминает разработку алгоритма выполнения задачи только с гораздо более большим пространством вариантов действий.

https://youtu.be/KrRD7r7y7NY?si=USrlIMO0pN2IAJWU

https://blogs.epsilonmetrics.ru/ii-agenty-i-multiagentnye-sistemy/

Клуб CDO

26 Dec, 14:33


Немного космических новостей в нашем канале. 24 декабря 2024 года зонд Parker Solar Probe совершил исторический пролет, приблизившись к Солнцу на рекордное расстояние в 6,1 миллиона километров3. При этом аппарат развил феноменальную скорость около 700 000 километров в час. Подтверждение успешного маневра ожидается 27 декабря, когда зонд должен отправить сигнал на Землю (ждем пока еще).

Parker Solar Probe - это космический аппарат NASA, запущенный в 2018 году для революционного исследования Солнца и его атмосферы. Это самый быстрый объект, когда-либо созданный человеком.

Аппарат оснащен уникальной системой тепловой защиты, позволяющей ему выдерживать температуры до 1371°C а солнечные панели показывают меньшую деградацию, чем прогнозировалось, что обеспечивает более эффективную работу.

Ключевые задачи исследования:
- Изучение солнечного ветра и механизмов его образования
- Исследование солнечной короны и причин её аномально высокой температуры
- Анализ магнитных полей Солнца и, что самое инетресно, понятие причин их возникновения
- Изучение корональных выбросов массы

https://www.youtube.com/watch?v=JB64c2y_sqU&list=WL&index=1

Клуб CDO

25 Dec, 12:34


Кстати, вышел новый Альманах "Искусственный интеллект", я так понимаю что это обзор за 2023 год.

https://aireport.ru/ai_index_russia-2023

Клуб CDO

25 Dec, 11:21


А кто какие "обертки" над LLM использует? Редакция все больше любит Perplexia и потихоньку переползает на нее с нативного приложения ChatGPT. Мешает только то что при включенном VPN приложение не работает, только браузер 🙁

А у кого какие определились похожие любимые сервисы?

Клуб CDO

24 Dec, 18:40


О, Telegram вышел на точку безубыточности вдруг. Не зря Павел сидел :)))

https://www.perplexity.ai/page/telegram-turns-profit-CPOhpyd1SdSHzHryuaHLIw

Клуб CDO

24 Dec, 17:21


И немного о трендах. Тем более чем ближе конец года, тем больше статей о трендах на следующий 🙂

Коротко о сути: Apache доминирует, Iceberg наше все, Atlas похоже единственный достойный каталог в природе

UP: текст статьи в комментариях

https://medium.com/towards-data-engineering/data-engineering-2-0-trends-that-are-shaping-the-industrys-future-8d9415ddaa1d

Клуб CDO

23 Dec, 08:08


Дайджест статей

Druid Deprecation and ClickHouse Adoption at Lyft
https://eng.lyft.com/druid-deprecation-and-clickhouse-adoption-at-lyft-120af37651fd

Dear IT Departments, Please Stop Trying To Build Your Own RAG
https://pub.towardsai.net/dear-it-departments-please-stop-trying-to-build-your-own-rag-4546b4638273

Какие сложности мы преодолели при внедрении RFM-сегментации клиентов в Авито Недвижимости
https://habr.com/ru/companies/avito/articles/863960/

Харденинг баз данных
https://habr.com/ru/companies/otus/articles/866810/

Какой тип разметки данных требуется для вашего проекта? Полный гид по аннотированию изображений
https://habr.com/ru/companies/data_light/articles/868464/

Что такое метаданные в BI и как ими управлять? Обзор инструмента OpenMetadata
https://habr.com/ru/articles/868336/

Ошибайся смело: жизненные уроки из мира machine learning
https://habr.com/ru/companies/ru_mts/articles/867710/

The Missing Piece to Data Democratization is More Actionable Than a Catalog
https://medium.com/conveyordata/the-missing-piece-to-data-democratization-is-more-actionable-than-a-catalog-add3b0583fa0

Генерация дашборда по DAX мере через AI DAX движок
https://habr.com/ru/articles/866534/

Data driven на практике: с чего начать, как избежать ошибок и эффективно применять
https://habr.com/ru/companies/beeline_cloud/articles/867292/

Плюсы и минусы Luxms BI: честный взгляд на платформу от вендора
https://habr.com/ru/companies/luxms_bi/articles/867262/

Клуб CDO

22 Dec, 00:03


Лучшие книги 2024

Сегодня вместо дайжеста статей (перенесем его на завтра, с вашего позволения) будет долгожданный многими пост со списком лучших из 100 прочитанных редакцией в этом году книг. Тем более что по давней традиции Новый год у редакции начинается именно сегодня, а тут как раз в целом и сотню удалось добить 🙂 Не будем долго философствовать:

Книга года: Мобилизованная нация. Германия 1939–1945 - Nicholas Stargardt - лучшее что прочитал, хотя Пикуль с “Барбаросса” прям шли нога в ногу, тем не менее отдаю первенство именно этому произведению. Must read.

Остальной ТОП в разрезе каждой традиционной категории:

Секция "Художественная литература"
1. Orbital - Samantha Harvey
2. A View from the Bridge - Arthur Miller
3. Увидимся в августе - Gabriel García Márquez
4. Dark Matter - Blake Crouch
5. Disclaimer - Renée Knight

Секция "Биографии, философия и история"
6. Барбаросса (все 3-х тома) - Valentin Pikul
7. Истинноверующий. Мысли о природе массовых движений - Eric Hoffer
8. Мировой порядок - Henry Kissinger
9. Сказать жизни ДА!: психолог в концлагере - Viktor E. Frankl

Секция "Научпоп и вокруг него"
10. Helgoland: Making Sense of the Quantum Revolution - Carlo Rovelli
11. Невозможное в науке: расследование загадочных артефактов - Александр Никонов
12. Дизайн всего: Как появляются вещи, о которых мы не задумываемся - Scott Berkun
13. Шесть невозможностей: Загадки квантового мира - John Gribbin
14. История Бога. 4000 лет исканий в иудаизме, христианстве и исламе - Karen Armstrong

Секция "Саморазвитие и менеджмент”
15. The Culture Map: Breaking Through the Invisible Boundaries of Global Business - Erin Meyer
16. The Diary of a CEO: The 33 Laws of Business and Life - Steven Bartlett
17. Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones - James Clear
18. The Hard Thing About Hard Things: Building a Business When There Are No Easy Answers - Ben Horowitz
19. Чиллософия: Опыты выхода из безвыходности - Ирина Хакамада
20. The Venture Mindset: How to Make Smarter Bets and Achieve Extraordinary Growth - Ilya Strebulaev
21. Лидер и племя. Пять уровней корпоративной культуры - Dave Logan
22. Кругом одни идиоты. Если вам так кажется, возможно, вам не кажется. - Thomas Erikson

Секция "Библия разработчика"
23. Повелители DOOM. Как два парня создали культовый шутер и раскачали индустрию видеоигр - David Kushner
24. Fundamentals of Software Architecture: An Engineering Approach - Mark Richards
25. Mars Rover Curiosity: An Inside Account from Curiosity's Chief Engineer - Rob Manning

Клуб CDO

20 Dec, 12:01


Benchmark For Analytical DBMS

Вы когда нибудь имели диску на тему какая BD быстрее? Тогда наверное знаете, что нет правильного ответа на этот вопрос и что выбор BD должен быть обоснован конкретным кейсом и даже такие вещи как “распределение различных значений” в типовом профиле нагрузке на BD - важно.

В мире есть довольно большое количество рейтингов и сравнений разных BD но хитрость в том, что всегда надо смотреть на то на каких данных делается это сравнение, потому что хитрые производители BD всегда используют именно такой дата-сет, на котором они показывают лучшие результаты.

Вот примеры разных сравнений сравнений:

ClickBench — a Benchmark For Analytical DBMS: https://benchmark.clickhouse.com/
Brown University Mgbench: https://github.com/andrewcrotty/mgbench
UC Berkeley AMPLab Big Data Benchmark: https://amplab.cs.berkeley.edu/benchmark/
Mark Litwinschik's NYC Taxi: https://tech.marksblogg.com/benchmarks.html
h2o.ai https://h2oai.github.io/db-benchmark/
TPC-H: https://www.tpc.org/tpch/
TPC-DS: https://www.tpc.org/tpcds/

А вот очень неплохая статья со ссылками на описания особенности разных BD и другие рейтинги: https://habr.com/ru/companies/ruvds/articles/851330/

Клуб CDO

17 Dec, 21:57


тихо и незаметно в ChatGPT выкатилося o1 без приставки preview

Клуб CDO

16 Dec, 10:34


The Art of Discoverability and Reverse Engineering User Happiness

На днях обсуждали с коллегой какие перспективные темы есть в области управления данными и редакция высказала мысль, что задача Data Catalog так до сих пор и не решена. Пару лет назад к ней было приковано много внимания, но потом появились LLM и все убежали смотреть на них, а каталоги так и не вышли на какой-то более менее зрелый уровень.

По итогам хотим поделиться статьей по теме Data Discoverability.

В чем основные тезисы материала:
⁃ Основная идея - создание глобальной meta-модели данных описывающей всех источники данных организации
⁃ Решаемая проблема: работа с данными требует создания отдельных источников данных под каждый паттерн работы с данными что порождает в компаниях большое количество разрозненных источников часто с дублирующейся информацией
⁃ Данные очень динамичны, поэтому платформа метаданных должна следить за их постоянным развитием и поддерживать свежие метаданные, чтобы не допустить расхождений и пробелов между необработанными данными и бизнес-пониманием.
⁃ Что такое глобальная meta-model: модель данных для метаданных, позволяющая пользователям исследовать взаимосвязи и определять лучшие наборы данных, относящиеся к их текущему запросу. Она объединяет множество активов данных, источников, сервисов, целей и пользователей, обеспечивая логические связи, придающие данным смысл. Она активирует неактивные данные, подключая их к обширной сети экосистемы данных, позволяя пользователям и машинам начать использовать огромные объемы данных, которые ранее были бессмысленны из-за отсутствия семантики.
⁃ Плюсы наличия такой модели очевидно - и бизнесу и технологам жить сильно легче и проще 🙂
⁃ Какие типы решений могут помочь в реализации: Catalogs, Data Hubs, Marketplaces

https://moderndata101.substack.com/p/the-art-of-discoverability-and-reverse?utm_source=post-email-title&publication_id=1170209&post_id=153015029&utm_campaign=email-post-title&isFreemail=true&r=15862q&triedRedirect=true&utm_medium=email

Клуб CDO

15 Dec, 21:07


Дайджест статей

Каталог данных своими руками из PowerBi и небольшой БД
https://habr.com/ru/companies/vkusvill/articles/864998/

Корпоративная школа BI: от таблиц на коленке до дашбордов, которые реально работают
https://habr.com/ru/companies/leroy_merlin/articles/864328/

ML в промышленности: как построить систему управления процессом окомкования железорудных окатышей
https://habr.com/ru/companies/oleg-bunin/articles/865088/

Миграция с Tableau на опенсорс-версию DataLens: лёгкий путь с препятствиями
https://habr.com/ru/companies/yandex_cloud_and_infra/articles/865648/

Инфраструктура для Data-Engineer виртуальные окружения
https://habr.com/ru/articles/861412/

Как решения Data Access Governance и Data Centric Audit Protection помогают бороться с утечками данных
https://habr.com/ru/companies/solarsecurity/articles/866422/

Multi-Agent Conversation With AutoGen AI
https://dzone.com/articles/multi-agent-conversation-with-autogen-ai

LLMs may have a killer enterprise app: ‘digital labor’ — at least if Salesforce Agentforce is any indicator
https://techcrunch.com/2024/12/04/llms-may-have-a-killer-enterprise-app-digital-labor-at-least-if-salesforce-agentforce-is-any-indicator/

Data Architectures in the AI Era: Key Strategies and Insights
https://dzone.com/articles/data-architectures-in-the-ai-era

Apache Iceberg: The Open Table Format for Lakehouses and Data Streaming
https://dzone.com/articles/apache-iceberg-open-table-format-lakehouses-data-streaming

Unlocking Enterprise Data Potential with Retrieval Augmented Generation
https://www.smartdatacollective.com/unlocking-enterprise-data-potential-with-retrieval-augmented-generation/

Клуб CDO

12 Dec, 13:39


Коллеги подсказали интересную статью - краткий обзор состояния рынка конфиденциальных вычислений. Редакцию эта тема особенно интересует, но, к сожалению, времени на ее предметное и практическое изучение не очень много остается, поэтому продолжаем пока больше наблюдать, чем изменять происходящее 🙂

В целом интересно:

"Объем глобального рынка конфиденциальных вычислений по итогам 2024 г. будет находиться на уровне $824 млн (примерно 86 млрд руб.), прогнозируют в консалтинговой компании MarketsandMarkets. При этом на протяжении пяти лет, до 2029 г., темпы его ежегодного прироста будут составлять 11,4%, таким образом, к началу следующего десятилетия объемы мирового рынка MPC перевалят за $1,4 млрд."

"«Для эффективной работы с данными необходимо создавать экосистемы для их совместного использования. Коммерческие и государственные организации ищут возможности взаимодействовать друг с другом так, чтобы не нарушать регуляторные ограничения и не разглашать чувствительную информацию. И здесь конфиденциальные вычисления могут стать серьезным подспорьем»"

https://www.vedomosti.ru/technologies/trendsrub/articles/2024/12/03/1078864-konfidentsialno-i-tehnologichno

Клуб CDO

10 Dec, 17:03


Обсуждали с коллегами сегодня алгоритм"vector clocks" и редакция решила и тут поделиться информацей и статьей о том что это такоею. Может быть кому то покажется интересным.

vector clocks:
- это такой метод установления seq num у сообщений, которыми обмениваются более 2-х компонентов работающих в распределенной среде с ненадежной средой передачи данных

- предназначен для того, что бы гарантировать обработку сообщений принимающими компонентами в том же порядке, в котором они были сгенерированы в источнике в случае если мы не может гаранировать того, что они дойдут до приемника в том же порядке, в котором бы отправлены источником

- приемник использует буфер, что бы накапливать приходящие сообщения и обрабатывать их по мере того, как востанавливается их порядок

то есть основная идея/задача алгоритма - гарантировать, что сообщения будут обработаны приемником в том же порядке, что их генерировали источники

краткое описание с примерами кода:

https://www.geeksforgeeks.org/vector-clocks-in-distributed-systems/

Клуб CDO

10 Dec, 05:26


Закон Бенфорда

Для начала проведём мысленный эксперимент. Предположим, что у нас есть прибор, который может измерить всё что угодно - массу любой планеты, скорость света, период полураспада частицы, население любого города, объём песка в пустыне, глубину моря и т.д.

Если мы заранее не знаем результата, то какова вероятность того, что первая цифра в измерении "1" (например, как заряд электрона, или населения Китая)?

А какая вероятность того, что первая цифра в измерении "9" (например, как у постоянной Фарадея)?

Теперь попробуйте ответить, изменится ли вероятность, если мы переключим наш прибор на другую единицу измерения - например, вместо метров будем использовать футы?

Интуитивно можно предположить, что вероятность увидеть единицу на первом месте в измерении такая же, как и девятку. На самом деле это не так.

В 1938 году физик Фрэнк Бенфорд проанализировал данные о площади бассейна сотен рек, удельной теплоёмкости и молекулярном весе тысяч химических соединений, номерах домов сотен улиц.

Он выявил, что единица является первой значащей цифрой с вероятностью не 1/9, как следовало ожидать, а около 1/3!

Закон первой цифры

Закон Бенфорда (или закон первой цифры) гласит, что в реальной жизни цифра 1 на первом месте встречается гораздо чаще, чем все остальные. Также, чем меньше эта цифра, тем выше вероятность.
То есть единица на первом месте встречается, приблизительно в 30% случаях, и примерно в 6 раз чаще, чем цифра 9.

Если быть более точным, то вероятность появления цифры d на первом месте равна log10(1 + 1/d).

Вы можете проверить это сами на простом примере. Составьте список файлов на вашем компьютере, а затем проанализируйте, на какую цифру начинается размер файла. Я лично проверил это на своих файлах - распределения первой цифры невероятно точно соответствуют закону Бенфорда.

И кстати, как вы можете уже догадаться, система измерения не влияет на закон. Не важно, проводим ли мы измерение в секундах или часах - вероятность первой цифры не меняется.

Клуб CDO

09 Dec, 18:34


Дайджест статей

CRUS: принципиально новая архитектура работы с данными
https://habr.com/ru/articles/863968/

Платформа данных в хранилище Магнит OMNI
https://habr.com/ru/companies/magnit/articles/864472/

О векторных базах данных простым языком
https://habr.com/ru/companies/ruvds/articles/863704/

Сколько стоит искусственный интеллект для малого бизнеса
https://habr.com/ru/articles/864882/

NLP: когда машины начинают понимать нас (Часть 1)
https://habr.com/ru/articles/864656/

NLP: когда машины начинают понимать нас (Часть 2)
https://habr.com/ru/articles/864778/

NLP: когда машины начинают понимать нас (Часть 3)
https://habr.com/ru/articles/864912/

Конкурентное преимущество: почему ИИ-агенты — ключ к успеху вашего бизнеса
https://habr.com/ru/articles/864618/

Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях
https://habr.com/ru/companies/wildberries/articles/861466/

Построение базы знаний компании и поиска документов на LLM и RAG
https://habr.com/ru/companies/raft/articles/863888/

Пора перестать в любой непонятной ситуации строить DWH для аналитики
https://habr.com/ru/articles/863308/

Клуб CDO

04 Dec, 09:24


🏆Сергей Золотарев, основатель и директор по стратегическому развитию Arenadata, состоит в экспертном совете Data Award с момента создания премии.
✔️Сергей рассказал, какой путь премия прошла за годы существования, а также поделился наблюдениями, как, на его взгляд, изменилась профессия CDO, и идеями о том, что ждет ее в будущем.
📖Читайте подробнее в интервью с Сергеем➡️ "CDO должен соблюдать баланс между технологиями и бизнесом"

Клуб CDO

03 Dec, 19:38


Люди уже совсем не стесняются :)

Клуб CDO

02 Dec, 13:42


Call&Contact Centre EXPO

На прошлой неделе редакция посетила мероприятие Call&Contact Centre EXPO и хотела бы поделиться некоторыми заметками.

В целом мероприятие было не очень большое по меркам Лондона, я бы сказал ближе к среднему размеру по площади и количеству участников. Конечно, как любое бесплатное мероприятие большую часть всей повестки занимали вендоры которые на сессиях рассказывали о своих решения. Мне удалось походить по выставке, посмотреть стенды и послушать только пару докладов, тк времени было не очень много. Большая часть выставки занимали традиционные вендоры работающие в области автоматизации колл центров (Verint, Nice, DCC) + вторые по величине были такие копании как Zoom и 8x8 которые в целом позиционируется на клиентских коммуникациях. Непосредственно каких-то особо инновационных стартапов я не очень много увидел, был интересный стенд у Boost.AI, но больше не могу кого то отметить. В целом общая повестка - использование GenAI в клиентских коммуникациях.

Так же в части организации мне показалось интересным то, что все доклады сопровождались real-time транскрибацией - хорошая практика :)

В целом по итогу докладов и общения я могу выделить следующие takeaways которые могут быть полезны для наших задач:

⁃ На самом деле непосредственно сам GenAI все используют крайне мало, пока больше это маркетинговые лозунги
⁃ Самый распространенный кейс применения GenAI - суммаризация звонка с клиентом и отсылка этого самари клиенту и фиксация его в CRM системе
⁃ Самый ценный источник данных для RAG любого чат бота или визуального ассистента - данные предыдущих звонков и общения операторов в клиентами. Как показывает практика это дает намного более сильные результаты по сравнению с любыми внутренними статичными knowledge base
• ⁃ Так же интересная статистика была показана по call centre - по мере того, как автоматизация за счет AI берет на себя закрытие простых вопросов с клиентами, на операторов начинают переводиться все более сложные рейсы, это приводит к увеличению среднего времени звонка и меняет профиль нагрузки на call centre, требует более высокой средней квалификации операторов. Эти тенденции следует иметь ввиду при реализации проектов по автоматизации коммуникаций.

Клуб CDO

30 Nov, 19:50


Дайджест статей

Михаил Водолагин, ex-CDO Deeplay: «Люди умудряются выстрелить себе в ногу очень по-разному!»
https://habr.com/ru/articles/860322/

Scaling the Instagram Explore recommendations system
https://engineering.fb.com/2023/08/09/ml-applications/scaling-instagram-explore-recommendations-system/

Репликация данных с использованием Debezium и Kafka
https://habr.com/ru/articles/861868/

Человек и LLM: как построить метрики для оценки моделей
https://habr.com/ru/companies/yandex/articles/861084/

Извлечение метаданных из Power BI
https://habr.com/ru/articles/862052/

Инфраструктура для Data-Engineer форматы файлов
https://habr.com/ru/articles/859968/

Миграция данных: косяки и работа над ошибками
https://habr.com/ru/articles/862324/

Как приготовить DataVault и не испортить Greenplum
https://habr.com/ru/companies/x5digital/articles/862384/

Зачем нам ИИ-агенты?
https://habr.com/ru/companies/piter/articles/862314/

Как организовать разметку данных для ML? Советы от Data Light
https://habr.com/ru/companies/data_light/articles/862464/

Клуб CDO

27 Nov, 20:31


Редакция сегодня посетила мероприятие Call & Contact Centre EXPO

Автоматизация коммуникации с клиентами уже много лет остается областью, где технологии ИИ являются самыми востребованными и где результат из применения очевиден и понятен и каждый из нас может на себя почувствовать всю их мощь когда звонит в любимый банк или телеком провайдеру.

В целом выставка не удивила, все стенды плюс минус про одно и тоже, поэтому более ценны тут выступления и нетворкинг.

Из выступлений послушать удалось не много но одно было очень интересное. Из ключевых выводов:

в то время как ИИ закрывает простые и массовые вопросы, на колл центры смещается нагрузка в части более сложных кейсов требующих большей продолжительности диалога
Самый лучший источник знаний для ИИ - предыдущие диалоги и разговоры с оператором. Поэтому именно к этой категории данных следует относится максимально внимательно.

А еще было очень интересно что организаторы пускали при докладах real time транскрипцию на экранах. Удобно :)

Клуб CDO

27 Nov, 10:24


Интересные кейсы! Довольно конкретно и без воды, посмотрите.

Клуб CDO

27 Nov, 10:24


Предиктивная аналитика на базе ИИ

В мире бизнеса предиктивная аналитика на базе искусственного интеллекта становится неотъемлемым инструментом для оптимизации процессов и повышения эффективности. В новой статье мы вместе с коллегами рассмотрели, как компании используют машинное обучение для предсказания поведения клиентов и улучшения маркетинговых стратегий.

Узнайте, как современные технологии помогают банкам и производителям товаров личной гигиены находить свою целевую аудиторию и минимизировать риски мошенничества.

Полная версия по ссылке

Клуб CDO

26 Nov, 19:13


Так же редакция горячо поздравляет команду SberJazz за победу в номинации «Коммуникационная платформа с ИИ»

Награду CNews AWARDS в номинации «Коммуникационная платформа года с ИИ» получила компания SberDevices c продуктом SaluteJazz. SaluteJazz — это ИИ-платформа коммуникаций, сочетающая в себе привычные функции для делового общения и возможности искусственного интеллекта. Решение позволяет организовывать онлайн-встречи до 1000 участников, вебинары на 3000 тысячи зрителей,безопасно общаться в чатах встроенного корпоративного мессенджера. На базе нейросетевой модели GigaChat реализована функция автоматического подведения итогов встречи. Также платформа предоставляет и другие ИИ-функции: текстовую расшифровку диалогов, бьютификацию и шумоподавление. Помимо этого, в SaluteJazz доступны встречи в 3D-формате, когда вместо себя на звонок можно отправить анимированного персонажа.

Клуб CDO

26 Nov, 19:11


Сегодня были объявлены победители премии CNews

Награду в номинации «Управление данными в промышленности» получил проект, реализованный компаниями ЕВРАЗ и Tdata. Использование RT.Data Governance при создании единой системы производственных показателей в компании ЕВРАЗ позволило обеспечить документирование данных, ведение единого глоссария терминов и алгоритмов расчета показателей. Скорость разработки витрин данных и аналитических дэшбордов увеличилась вдвое. На сегодняшний день в систему внесено более 6 тыс. производственных показателей, из которых 3 тыс. уже содержат детализированное описание.

https://biz.cnews.ru/articles/2024-11-19_obyavleny_laureaty_cnews_awards_2024

Клуб CDO

26 Nov, 13:34


Только начал читать эту книгу, но уже после первых 2-3 глав испытал такой восторг, что спешу рекомендовать ее к обязательному прочтению! Очень интересная теория уровней развития корпоративной культуры, которая отлично соотносится с моим собственным опытом и помогает систематизировать многое из того, что я наблюдаю как вокруг, так и в себе.

Авторы выделяют 5 моделей культуры группы, и особенно мне понравилось, что они подчеркивают: в одной и той же организации разные группы, отделы и даже отдельные люди могут находиться на разных уровнях. Более того, они способны перемещаться между этими уровнями в зависимости от обстоятельств. На мой взгляд, это очень верная теория, и я сам замечаю такие перемещения в своем поведении.

В книге представлен полезный framework для диагностики, который помогает определить, на каком уровне находится ваша организация, а также рекомендации для тех, кто, как менеджер, хочет внести изменения в своей компании.

https://www.goodreads.com/book/show/34375294

Клуб CDO

25 Nov, 16:14


В то время, как мы говорим о гипер-автоматизации всего и вся и в первую очередь в коммуникациях с клиентами, некоторые игроки рынка (это скрин онбординг экрана из мобильного приложения Mettle - проекта банка NatWest) заявляют human-based поддержку как преимущество для клиентов :)

Клуб CDO

25 Nov, 10:49


Немного юмора :)

Клуб CDO

24 Nov, 22:53


Дайджест статей

ИИ-инструменты для аналитиков: теория, кейсы, советы
https://habr.com/ru/companies/korus_consulting/articles/860242/

Почему ИИ рано поручать код-ревью
https://habr.com/ru/articles/859582/

Модели данных в BI-платформах: физика против логики
https://habr.com/ru/companies/axenix/articles/860094/

CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API
https://habr.com/ru/companies/cedrusdata/articles/860356/

Секреты построения Data Vault 2.0: эффективное хранение данных
https://habr.com/ru/companies/cinimex/articles/857084/

I spent another 8 hours understanding the design of Amazon Redshift. Here’s what I found.
https://blog.det.life/i-spent-another-8-hours-understanding-the-design-of-amazon-redshift-heres-what-i-found-85c31a59fd19

I spent 5 hours understanding more about the Delta Lake table format
https://blog.det.life/i-spent-5-hours-understanding-more-about-the-delta-lake-table-format-b8516c5091eb

Apache Superset 2024. Лучшие практики
https://habr.com/ru/companies/otpbank/articles/815689/

A data-driven approach to making better choices
https://news.mit.edu/2024/data-driven-approach-making-better-choices-0606

Клуб CDO

20 Nov, 09:47


Вот как??? Вот как так может работать поиск в приложении, в эпоху больших данных, искусственного интеллекта и восстания машин????

Клуб CDO

19 Nov, 16:44


Заметил тут статью и решил отлодить его из дайджеста в отдельный пост, показалось инетресным.

Основная идея (мой take away) - хорошая платформа - та, которой пользуются! и технологии тут ни при чем 🙂

Какие темы упомянуты:

1. Шаблоны: Подчеркивается важность использования шаблонов, таких как Kanban и Agile в JIRA или Data Product в DataOS, чтобы помочь пользователям легко ориентироваться в новом экосистеме.

2. Документация, основанная на опыте: Рекомендуется предоставить пользователям документацию, основанную на их опыте, а не на обучении, чтобы они могли сразу увидеть ценность платформы.

3. Интеграция с привычными инструментами: В статье подчеркивается необходимость поддерживать интеграцию с инструментами, которые пользователи уже используют (например, git для разработчиков или BI-инструменты для аналитиков), чтобы облегчить переход на новую платформу.

4. Дорожная карта развития продукта: Обсуждается важность вовлечения пользователей в процесс создания и обновления дорожной карты платформы, чтобы они могли видеть, как их запросы учитываются и как платформа развивается.

5. Гид по платформе и FAQ: Указано на необходимость наличия встраиваемых справок и инструкций, чтобы пользователи не терялись в новом интерфейсе и могли легко находить ответы на свои вопросы, что значительно улучшает общий опыт.

Работа с данными должна быть интуитивно понятной и поддерживаться постоянным взаимодействием с пользователями, чтобы они чувствовали себя частью экосистемы и могли быстро адаптироваться к изменениям.


https://medium.com/@community_md101/building-data-platforms-the-mistake-organisations-make-f27874447fef

Клуб CDO

18 Nov, 13:52


Коллеги, напоминаем, что сейчас идет сбор заявок на участие ваших проектов в премии Data Award 2025 - поспешите с подачей заявки!

https://www.osp.ru/articles/2024/1118/13058948

Клуб CDO

17 Nov, 23:34


Дайджест статей

Why AI-generated recommendation letters sell applicants short
https://www.nature.com/articles/d41586-024-03481-4

Dask для анализа временных рядов
https://habr.com/ru/companies/otus/articles/855408/

ML-тренды рекомендательных технологий: шесть приёмов, которые помогают угадывать желания пользователя
https://habr.com/ru/companies/yandex/articles/857068/

7 причин, почему компании внедряют BI, даже если есть отчеты 1С
https://habr.com/ru/articles/858486/

Big Data мертвы, да здравствуют Smart Data
https://habr.com/ru/companies/magnus-tech/articles/853192/

Как создать дашборд в Superset: гайд для новичков и полезные лайфхаки
https://habr.com/ru/companies/okko/articles/859140/

Сравнение реализаций гео-решений в СУБД
https://habr.com/ru/companies/otus/articles/858680/

Инфраструктура для Data-Engineer BI-tools
https://habr.com/ru/articles/856922/

Сравнение бенчмарков LLM для разработки программного обеспечения
https://habr.com/ru/articles/857754/

Машинное обучение в оценке кредитных рисков: как ML меняет правила игры?
https://habr.com/ru/companies/data_light/articles/858540/

Клуб CDO

14 Nov, 09:32


Полезная статья, вынесу пожалуй в отдельный пост

https://habr.com/ru/companies/piter/articles/853400/?utm_source=habrahabr&utm_medium=rss&utm_campaign=853400

Клуб CDO

11 Nov, 11:49


Дайджест статей

Графики, которые работают: выбор лучшей визуализации
https://habr.com/ru/articles/856206/

Области применения ИИ в разработке ПО
https://habr.com/ru/companies/it_monsters/articles/856598/

Что такое Data Driven подход
https://habr.com/ru/articles/856920/

Data Fusion Contest 2024, разбор и итоги соревнования
https://habr.com/ru/companies/T1Holding/articles/856228/

Выбираем BI платформу для начинающего специалиста
https://habr.com/ru/articles/857234/

Написание ETL пайплайна при помощи airflow, rabbitmq и postgres
https://habr.com/ru/articles/857476/

Managing human-AI collaborations within Industry 5.0 scenarios via knowledge graphs: key challenges and lessons learned
https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2024.1247712/full

История Data Literacy в России
https://habr.com/ru/articles/857176/

Виды аналитиков данных
https://habr.com/ru/companies/yandex_praktikum/articles/852068/

Клуб CDO

08 Nov, 11:30


Друзья, рады сообщить вам о запуске нового модуля в CDP CleverData Join — Campaign Manager!

Компания CleverData, разработчик платформы для управления данными в маркетинге, добавила этот модуль, чтобы решить важную задачу: предоставить пользователям возможность не только обрабатывать данные, но и непосредственно их использовать в маркетинговой коммуникации с клиентами.

Campaign Manager — это не просто еще один инструмент для управления кампаниями; это решение, основанное на данных, которое позволит максимально эффективно реализовать маркетинговые стратегии.
Теперь управление маркетинговыми кампаниями стало проще и эффективнее. С помощью Campaign Manager можно:
Создавать массовые рассылки
Отправлять email, SMS и Push-уведомления
Управлять согласиями
Редактировать шаблоны
Выставлять приоритеты рассылки
Использовать API для подписки и отписки
Применять инструменты AI для маркетинга
Чтобы подробнее узнать о том, как работает Campaign Manager и как интеграция с Unisender Go поможет повысить эффективность ваших маркетинговых коммуникаций, приглашаем вас на вебинар!
Дата: 19 ноября
Время: 11:00

На вебинаре эксперты подробно расскажут о функционале нового модуля Campaign Manager в платформе CDP CleverData Join, управлении клиентскими данными и автоматизации рассылок.

Спикеры:
🧑🏻‍💻 Сергей Фокин, менеджер продукта CDP CleverData Join
🧑🏻‍💻 Григорий Бахин, коммерческий директор Unisender

Не упустите возможность узнать, как новый модуль может трансформировать маркетинговые стратегии в компании, выстраивая процесс маркетинга на данных.

Регистрация тут

Клуб CDO

06 Nov, 14:15


рубрика "no comments"

Клуб CDO

05 Nov, 18:14


На подходе новое поколение глосовых помошников.

На этой неделе появился анонс новой версии виртуального помошника Alexa, с глубокой интеграцией с LLM и умными устройствами компании. Какие возможности дают новые технологии для виртуальных ассистентов?

🎥 Мультимодальность: Amazon заявила о расширении возможностей общения с ассистентом, включая невербальное взаимодействие и интеграцию с умными устройствами. Это позволит ассистенту более точно понимать паузы в разговоре и определять, когда пользователь хочет продолжить фразу. Также можно будет взаимодействовать без активационного слова — достаточно просто посмотреть на экран умного устройства.

🤖 Агентность: Ассистент сможет не только отвечать на вопросы, но и выполнять сложные сценарии от лица пользователя. Например, можно настроить сценарий «каждую субботу в 6 утра включай свет и песню Metallica в детской». Поддержка интеграций с внешними системами пока не анонсирована, но вероятно, что это следующий шаг.

💡 Контекст и память: Ассистент будет сохранять историю диалогов, распознавать пользователя, понимать контекст беседы и продолжать её с того места, где была завершена. Это новый уровень взаимодействия, максимально приближенный к реальному общению.

🗣️ Речь: Обещаны новые технологии генерации и распознавания речи с улучшенной плавностью и возможностью подстраиваться под эмоциональную окраску диалога. Например, если спросить у Alexa, выиграла ли команда, она ответит радостно при победе и с сочувствием при поражении.

💳 Платежи: Виртуальные ассистенты и их интеграция с умными устройствами может перевернуть сферу eCommerce и платежей. Прогнозы аналитиков показывают, что новые технологии LLM и «мягкие» сигналы (например, тип устройства, местоположение) могут обеспечить более бесшовные и безопасные платежи, которые помогут избежать проблем на этапе оплаты, где сейчас теряется до 27% покупок.

📈 Бизнес-модель: Аналитики ожидают введения платных подписок для ассистента (примерно $5-10 в месяц), при этом бесплатная версия останется доступной. Пока неясно, чем будут отличаться платные и бесплатные тарифы, но рынок следит за развитием, так как такие модели еще не были опробованы. Кстати, над своим ассистентом работает и Meta, тоже анонсировавшая платную подписку.

📅 Технологии и сроки запуска: Ожидается, что Alexa будет использовать модели от Anthropic, поскольку Amazon столкнулась с трудностями в разработке собственных моделей. Главная техническая проблема — скорость генерации ответа, поэтому запуск продукта ожидается в 2025 году (ранее прогнозировали октябрь 2024).

https://youtu.be/SKybmb0M1MU

Клуб CDO

04 Nov, 12:57


Дайджест статей

Как мы научились эффективно управлять ростом данных с переходом на BW/4HANA
https://habr.com/ru/companies/lentatech/articles/855412/

От кода к роботам — основные тренды ИИ, меняющие бизнес и жизнь
https://habr.com/ru/companies/sherpa_rpa/articles/855596/

Действительно ли ИИ-помощники экономят время разработчиков?
https://habr.com/ru/companies/spring_aio/articles/854624/

Data-driven подход в аналитике: как использовать данные для принятия решений в FinTech
https://habr.com/ru/companies/it_monsters/articles/854978/

Работа с календарями в BI — с DAX и без него
https://habr.com/ru/companies/visiology/articles/855178/

Импортозамещение Data Quality стека в нефтегазохимии: опыт СИБУРа
https://habr.com/ru/companies/sibur_official/articles/855310/

Data Governance in Big Data: Ensuring Quality, Security, and Compliance
https://medium.com/@adityas.rajput22/data-governance-in-big-data-ensuring-quality-security-and-compliance-98a2b1dd561c

Migrating to an iceberg lakehouse: key architecture considerations
https://medium.com/@hugolu87/migrating-to-an-iceberg-lakehouse-key-architecture-considerations-08e636890ab5

Клуб CDO

01 Nov, 14:09


Прочитать тысячу книг - все равно что прожить тысячу жизней

Немного философии от редакции (там про данные в конце вывод) 🙂 Почему надо читать не только бизнес-литературу и учебники но и художественную литературу 🙂

Все же уже знают (из многочисленных книг по бизнес-литературе и учеников), что наш мозг не различает реальность и воображение – он одинаково реагирует на реальные ощущения и мысленные образы. Это связано с тем, что во время представления определенной ситуации активируются те же нейронные сети, что и при ее реальном переживании. Например, когда человек представляет, что идет по песчаному пляжу, в мозгу активируются те же области, которые задействованы при физическом ощущении тепла песка под ногами. На этом эффекте основаны практики аутотренинга: мысленно воспроизводя образы и ощущения, человек может управлять состоянием тела и психики, достигая расслабления или мотивации.

И мне кажется, что каждая прочитанная хорошая книга оставляет в нас не только приятное воспоминания, но и меняет нас, так же как меняют реальные переживания и опыт и в наших новых нейронах связях остается частичка прочитанной истории.

Мы - это субъективный опыт и никакая аналитика не может его передать, его может передать только искусство: музыка, живопись, книги…

У LLM нет (ну пока так точно) субъективного опыта и все, что производится моделью - красиво, но это реплика.

Поэтому пока я не думаю что настоящее искусство под угрозой, потому что человеку нужен человек и его субъективные ощущения, которые трогаю струны нашей души через песни, книги и картины.

Клуб CDO

31 Oct, 14:02


Brutforce побеждает логику 🙂

Я тут в выходные читал книгу про лингвистику и там была глава о том, как трудно делать автоматический перевод текста с одного языка на другой. И что в 60-е годы были основаны целые институты для создания соответствующих логических моделей и годами по этой теме велась огромная работа. И тут я подумал: а я ведь сейчас для перевода в основном использую ChatGPT, а ее ведь этому вообще не учили, это такой side effect получился. И получается, что LLM просто перечеркнула все то, что сумела создать лингвистика?

И я хотел поделиться этой мыслью тут в канале, но наткнулся на эту замечательную статью и делюсь ссылкой на нее. В ней эта идея раскрывается не просто великолепно, а с мощнейшей аргументацией в виде наглядного примера компании и продукта, ссылками на авторитетные источники и тд. Я очень рекомендую почитать статью, несмотря на довольно большой объем - очень интересно.

Тут и про то, как LLM убил продукт в который компания вкладывала миллионы долларов, и про историю замечательной компании ABBYY, и про бизнес-уроки, которые можно вынести для себя. Да и вообще много нового можно узнать про ABBYY и про морфологию 🙂

Да, и про то, что тренд на замечание эмпирической логики, которую мы в продуктам все еще очень активно продолжаем использовать, все более мощным LLM очевиден и достоит отдельного обдумывание. Имхо у нас сейчас тут момент как переход от процедурного программирования к объектно-ориентированному. Тут нужна смена парадигмы в голове.

В общем на выходные вам домашка 🙂


https://sysblok.ru/blog/gorkij-urok-abbyy-kak-lingvisty-proigrali-poslednjuju-bitvu-za-nlp/

Клуб CDO

29 Oct, 07:38


Perplexity

Ребята, конечно, молодцы. Стал замечать, что все больше и больше переползаю на них с нативного интерфейса ChatGPT. Очень активно обрастают новыми функциями и возможностями, только что выпустили приложение для Mac, что для меня тоже очень приятно.

В чем я отмечаю для себя удобства:

Первое, это, конечно, выбор моделей. Там нет пока o1, но зато есть Lama и Cloude. Но нет Gemini и Grok, а было бы интересно с ними тоже поработать, а когда надо в каждую модель отдельно ходить - не удобно.

Зато есть Spaces - очень удобная фича, где ты можешь задать промпт для однотипных запросов. В LLM правильный промпт - залог успеха, а писать его каждый раз, как это надо делать в ChatGPT - убийство. Я вот очень часто использую модель для перевода текста на английский и тут я задал один раз задачу, указал стиль в котором нужен итоговый текст (я обычно прошу на языке Шекспира переписывать мой русский текст) и просто постишь ей текст для перевода.

Ссылки на источники и интеграция с поиском - если они начинали как чисто поиск (или его замена), то сейчас это поиск + llm и это стало удобнее. Ну и то что сразу ссылки красиво выпадают и можно пойти в источник и самому разобраться - тоже очень полезно.

Новости - там есть тред новостей, в целом интересные подборки делает, но пока еще как то явно есть куда развиваться им в этом плане.

Ну и конечно нельзя не заметить активное развитие функций командной работы, возможностей для крупного enterprise и тд.

В целом интересно наблюдать за развитием на рынке 2-х типов решений:
⁃ Классические SaaS приложения оборачиваются в LLM и трансформируются
⁃ Классические LLM пытаются обрастать функциями классических приложений

Явно они встретятся где то посередине и эту середину все пытаются активно найти.

То же самое происходит и с поиском. Я не апологет того, что LLM победит поиск. Поиск с его классическими игроками типа Google тоже на месте не сидит и обладая мощнейшей инфраструктурой для работы с данными, сбора данных, роботами для обхода интернета которые прописаны везде и всюду, обученной армией лояльных маркетологов, которые отвечают за продвижение контента, является более зрелым игроком и тупо просто лучше знает рынок и потребителя. Поэтому имхо тут следует говорить о синергии и слиянии, а не о замещении.

https://www.perplexity.ai/

Клуб CDO

27 Oct, 10:55


Дайджест статей

Data Architecture: Lessons Learned
https://towardsdatascience.com/data-architecture-lessons-learned-3589b152a8a6

Automate Private Azure Databricks Unity Catalog Creation
https://dzone.com/articles/automate-azure-databricks-unity-catalog-creation

Building Predictive Analytics for Loan Approvals
https://dzone.com/articles/building-predictive-analytics-for-loan-approvals

SQL and Data Modelling in Action: A Deep Dive into Data Lakehouses
https://towardsdatascience.com/sql-and-data-modelling-in-action-a-deep-dive-into-data-lakehouses-fcbab9a4b9c2

Building Data Platforms: The Mistake Organisations Make
https://medium.com/@community_md101/building-data-platforms-the-mistake-organisations-make-f27874447fef

Почему СУБД такие медленные
https://habr.com/ru/companies/ruvds/articles/851330/

Автоматизировать аналитику, визуализировать данные и не только — примеры российских BI-решений
https://habr.com/ru/companies/mws/articles/852308/

Оценка LLM: метрики, фреймворки и лучшие практики
https://habr.com/ru/articles/852046/

Что такое DWH?
https://habr.com/ru/articles/852910/

Какую архитектуру конвейера данных следует использовать?
https://habr.com/ru/companies/piter/articles/853400/

Как мы отбираем и обучаем разметчиков: от первых шагов до реальных проектов
https://habr.com/ru/companies/data_light/articles/853372/

Клуб CDO

27 Oct, 08:50


На следующий неделе редакция находится с миссией в Дубайске. Заезжайте на кофе!

Клуб CDO

26 Oct, 11:28


Ждём?

Клуб CDO

25 Oct, 10:05


Пятничный пост

Друзья, редакция канала хочет в жесткой форме воспользоваться служебным положением и распространить офф-пот контент, просим прощения и очень надеемся на вашу поддержку!

Мой сын сегодня выпустил новый альбом, который он сам записал полностью в одиночку, текст, музыка, просто в своей комнате в Лондоне в котором он рассказал о первом годе своей жизни в UK, адаптации и отношениях на расстоянии.

Он много вкладывается в музыку, а я настолько далек от этой индустрии, что помочь могу поддержать только этим постом 🙂

А если этот пост набор такой же отклик, как знаменитый пост ЗАКРОМА (который феерично победил всех тренды Гартнера, как они ни старались)- будет вообще отлично 🙂

Послушайте, имхо очень неплохо, а песня HOBBY вообще огонь, а редакция пока займется сбором ссылок на статьи про данные 🙂

Полный альбом на всех площадках: https://zvonko.link/1AD0E7F

Клуб CDO

23 Oct, 14:02


🔥 Gartner выпустил ТОП 10 стратегических трендов на 2025 год.

Вот и год пролетел. Какие изменения?

▶️ Смещение фокуса с отдельных технологий на комплексные платформы и экосистемы.

В 2024 году Gartner выделял такие тренды, как платформенная инженерия, отраслевые облачные платформы и интеллектуальные приложения. В 2025 акцент смещается на более широкие концепции, такие как агентский ИИ, платформы управления ИИ, пространственные вычисления и гибридные вычисления.

▶️ Усиление внимания к вопросам этики, безопасности и доверия в сфере ИИ.

В 2025 году тема управления доверием, рисками и безопасностью ИИ (AI TRiSM) развивается в выделение самостоятельных трендов, как платформы управления ИИ и безопасность дезинформации, подчеркивая растущую потребность в контроле и регулировании ИИ.

▶️ Появление новых технологических направлений.

В 2025 году Gartner вводит новые тренды - постквантовая криптография, невидимая интеллектуальная среда, энергетически эффективные вычисления, полифункциональные роботы и неврологическое усиление.

ТОП 10 трендов 2025 года:

1. Агентский ИИ: программное обеспечение, которое самостоятельно принимает решения и действует для достижения целей, комбинируя ИИ с памятью, планированием и взаимодействием с окружением.

2. Платформы управления ИИ: платформы управления и контроля систем ИИ, гарантирующие ответственное и этичное использование, соответствие стандартам безопасности и ценностям организации.

3. Безопасность дезинформации: системы, которые гарантируют точность информации, проверяют подлинность, предотвращают мошенничество и отслеживают распространение вредоносного контента.

4. Постквантовая криптография: криптографические методы, защищающие данные от угроз квантовых компьютеров.

5. Невидимая интеллектуальная среда: использование меток и датчиков для отслеживания объектов и сред,и последующего анализа информации в облаке.

6. Энергоэффективные вычисления: проектирование и эксплуатация компьютерных систем с минимальным потреблением энергии и углеродным следом.

7. Гибридные вычисления: объединение различных вычислительных технологий, таких как CPU, GPU, ASIC, нейроморфные и квантовые системы, для решения сложных задач.

8. Пространственные вычисления: технология, дополняющая физический мир цифровым контентом, с которым пользователи взаимодействуют в реалистичной и интуитивно понятной форме.

9. Полифункциональные роботы: машины, которые могут выполнять несколько разных задач, следуя инструкциям или примеру человека.

10. Неврологическое усиление: улучшение когнитивных способностей человека с помощью технологий, которые считывают и декодируют, а при необходимости записывают информацию в мозг

Новые вызовы - новые возможности!

▶️Отчет в первом комментарии.


🅰️🅱️ @ReymerDigital

Клуб CDO

22 Oct, 11:00


Как говориться - "как корабль назовешь" (не на правах рекламы, за название - пятерка)

Закрома – передовое российское ПО для хранения и управления корпоративными данными

Гибридное хранилище, предназначенное для безопасного и экономичного хранения и управления корпоративными данными произвольного формата в крупных организациях.
ЗАКРОМА обеспечивает быстрый поиск, предоставляет API для удобного взаимодействия и обладает мощным контролем доступа. В основе ЗАКРОМА лежит современный стандарт S3, который позволяет создавать высоконадежное хранилище для эффективного хранения больших объемов данных.

https://zakroma.ru/

Клуб CDO

21 Oct, 16:28


в копилочку

Клуб CDO

21 Oct, 16:28


🖥 EfCore.SchemaCompare — инструмент для сравнения схем баз данных Entity Framework Core (EF Core). Он позволяет проверять различия между базой данных и миграциями, обеспечивая удобный способ отслеживания изменений в схемах данных

🌟 Этот инструмент может быть полезен для управления версиями баз данных и предотвращения ошибок, связанных с несовпадением структуры данных при разработке приложений на EF Core

▪️GitHub

@sqlhub

Клуб CDO

21 Oct, 12:42


Хочу в отдельный пост вынести статью "Технология проектирования хранилищ данных Data Vault 2.0". Мне она показалась очень полезным и детальным руководством по проектированию структуры хранилища, которое может быть очень полезно в практической работе.

https://habr.com/ru/articles/850280/?utm_source=habrahabr&utm_medium=rss&utm_campaign=850280

Клуб CDO

20 Oct, 08:08


Дайджест статей

Как Лента формирует эффективный ассортимент на основе данных
https://habr.com/ru/companies/lentatech/articles/851086/

Технология проектирования хранилищ данных Data Vault 2.0
https://habr.com/ru/articles/850280/

Инфраструктура для Data-Engineer Data Lake Apache Iceberg
https://habr.com/ru/articles/850674/

Как спрогнозировать вероятность увольнения сотрудника и получить ещё миллион инсайтов из одного графика
https://habr.com/ru/companies/yandex_praktikum/articles/850730/

Как обойти подводные камни FineBI для грамотной визуализации данных
https://habr.com/ru/articles/851710/

Плюсы и минусы различных DWH как источников данных для BI
https://habr.com/ru/companies/modusbi/articles/851718/

Клуб CDO

18 Oct, 08:35


Perplexity идет в Enterprise и добавляет новую функцию в свой продукт - поиск по внутренних корпоративным документам и базам знаний.

Наверное эту новость надо еще сопроводить комментарием, что деньги в GenAI по большей части находятся в Enterprise сегменте, что подтверждается всеми основными игроками рынка. В Perplexity м до этого времени такого активного движения не замечали, но может быть то просто было не так на поверхности, но вот сейчас они объявили что запускают 2 тарифа - Perplexity Pro and Enterprise Pro для того, что бы объединить поиск в интернете с поиском по собственным файлам.

Продукт Perplexity Spaces является центром совместной работы команд на базе искусственного интеллекта, где можно создать своего “командного” ИИ помощника и можно глубоко настроить его под конкретный случай использования и загрузить внутренние файлы. Spaces предоставляет полный контроль над тем, кто может получить доступ к данным, обеспечивая безопасность и конфиденциальность.

Для пользователей Enterprise Pro все файлы и поисковые запросы по умолчанию исключены из процесса обучения LLM. Пользователи Pro также могут отказаться от обучения LLM в настройках.

Данные загружаются в облако, но с точки зрения защиты и конфиденциальности заявляется целый набор механизмов:

⁃ Data Retention - Your queries stay private. Your files are deleted after 7 days.
⁃ SOC2 Certification - Our security policies and controls continuously meet the highest industry standards so that you can run your business with peace of mind.
⁃ Enhanced Security - manage threats and prevent data loss with real-time notifications of suspicious behavior or risky activities

Так же есть на сайте и описание on-prem тарифа: Self-Serve - Companies with fewer than 250 employees can access Enterprise Pro through a self-serve flow.

В будущем обещают добавлять 3rd party источники данных какие как Crunchbase и другие базы знаний.

https://www.perplexity.ai/hub/blog/introducing-internal-knowledge-search-and-spaces

Клуб CDO

17 Oct, 18:28


T2 - Обмен данными по другим правилам

Ну и особенно надо отметить в докладах выше доклад коллег из Т2 и Ростелекома про их опыт построения платформы отмена данными. Ту, на самом деле, речь идет об обмене данными внутри холдинга - то есть это не какой-то коммерческий обмен, а больше, наверное, такой федеративный Data Mesh - с data-каталогом, проработанным governance и технологической частью интеграции.

https://rutube.ru/video/346c73dfeb22e2098ad48f73305dad9c/

Клуб CDO

17 Oct, 09:49


Коллеги, всем привет! Нашей редакции любезно подсказали, что опубликованы материалы конференции DataTalks 5.0 - конференция про работу с данными, которая прошла в сентябре. Спешим поделиться ссылкой со всеми!

https://datatalks.rt.ru/events/datatalks-5-0

Клуб CDO

16 Oct, 09:10


🤖 Применение федеративного машинного обучения для задач медицины

Яндекс вместе с Институтом системного программирования имени В. П. Иванникова РАН и Сеченовским Университетом первыми в России на практике применили федеративное машинное обучение для задач медицины.

Федеративное обучение – это подход, при котором организации-участники могут обучить нейросеть на нескольких независимых наборах данных и при этом не передавать их за пределы своей организации.

Метод федеративного машинного обучения в десятки раз ускоряет разработку технологий в проектах с большим количеством участников и создает максимально безопасную среду для работы с данными. Качество нейросети при этом повышается за счет доступа к ограниченным данным.

Эксперимент Yandex Cloud заключался в том, чтобы продемонстрировать, что метод работает на практике и подходит для проектов в медицине – задачей модели было распознавание патологий сердца на основе данных ЭКГ. В результате проекта удалось создать нейросеть, которая в 99% случаев верно определила патологию и в 95% не давала ложно-положительных оценок.

Разработка будет полезна в любых сферах, где приходится иметь дело с чувствительной информацией.

Клуб CDO

16 Oct, 08:40


Попалась на глаза статья про то дата-брокеров. Хотя как то тема сбора и обмена данными ушла на второй план под натиском успехов AI, компании, которые работали в этой области продолжают работать как и раньше, а несмотря на всякие GDPR и прочие попытки регулировать сбор и использование цифровой информации о пользователях, уровень осведомленности самих пользователей о том, что происходит и может происходить с их данными - только падает.

Эксперты в области кибербезопасности оценивают, что брокеры данных собирают в среднем 1 000 параметров на каждого человека с присутствием в интернете.

«Их интерес состоит в том, чтобы собрать как можно больше информации о вас, потому что чем больше данных и чем они точнее, тем выше стоимость этих данных», — сказал Крис Хендерсон, старший директор по операциям с угрозами в компании Huntress, основанной бывшими сотрудниками Агентства национальной безопасности США.

Вот краткий обзор типов информации, которую брокеры данных обычно собирают, согласно мнению экспертов по конфиденциальности, опрошенных CNBC:

• Основные идентификаторы: Полное имя, адрес, номер телефона и электронная почта.
• Финансовые данные: Кредитные рейтинги и история платежей.
• История покупок: Что вы ищете в интернете, что и где покупаете, а также как часто приобретаете определенные товары.
• Медицинские данные: Ваши лекарства, медицинские состояния и взаимодействия с приложениями или сайтами, связанными со здоровьем.
• Поведенческие данные: Информация о ваших предпочтениях, интересах и типах рекламы, на которую вы, вероятно, кликнете.
• Данные о местоположении в реальном времени: GPS-данные из приложений, которые отслеживают ваш маршрут, места покупок и частоту посещений определенных локаций.
• Интерпретированные характеристики: На основе вашей интернет-активности и потребляемого контента — посещаемых сайтов, читаемых статей и просмотренных видео — брокеры данных делают выводы о вашем образе жизни, доходе, предпочтениях, религиозных или политических взглядах, увлечениях и даже вероятности того, что вы будете заниматься благотворительностью.
• Отношения с семьей, друзьями и коллегами: Анализируя вашу сеть друзей, подписчиков и контактов в соцсетях и мессенджерах, брокеры данных могут составить карту ваших связей и даже отслеживать, как часто вы взаимодействуете с определенными людьми, чтобы определить глубину ваших отношений.

Кто эти "брокеры"? В статье приходится список из the most of the major data brokers:

Experian
TransUnion
LexisNexis
Epsilon

БЕрегите свои данные :)

https://www.cnbc.com/2024/10/11/internet-data-brokers-online-privacy-personal-information.html

Клуб CDO

15 Oct, 08:20


Коллеги, 7 и 8 ноября в Москве состоится большая конференция Матемаркетинг’24, посвященная маркетинговой и продуктовой аналитике

В этом году мероприятие пройдет уже в шестой раз и соберет на одной площадке более 2000 гостей — специалистов из сфер электронной коммерции, ритейла, телекоммуникаций, банкинга, онлайн-образования и многих других.
Программа обещает быть насыщенной: более 120 докладов, панельных дискуссий и экспертных сессий. Профессионалы рынка обсудят управление рекламными каналами и маркетинговыми воронками, запуск сложных продуктов, ML-моделирование и ряд других вопросов.

Вот основные темы этого года:
- Аналитическая инфраструктура в условиях импортозамещения;
- Корпоративные платформы для экспериментов;
- Управление рекламными каналами и оценка инкрементальных показателей;
- Персонализация и оптимизация цифрового клиентского опыта;
- Ускорение роста бизнеса через платный маркетинг.

Бонус для обладателей билетов — 6 месяцев доступа к закрытой платформе конференции. На ней собраны материалы более чем из 400 докладов прошлых лет с удобным поиском и категоризацией. Это позволит заранее подготовиться и задать экспертам наиболее интересные вопросы.

Программа и билеты уже доступны на сайте, а специально для наших подписчиков по промокоду CDOCLUB10 будет скидка 10% на все виды билетов.

https://matemarketing.ru/?utm_source=cdoclub&utm_medium=announce&utm_campaign=tlgmm2024

Клуб CDO

14 Oct, 17:10


Посмотрите на эту красоту :)

Инженерам компании Илона Маска SpaceX впервые удалось «поймать» разгонную ступень ракеты-носителя «Старшип» Super Heavy, после разгонной фазы полета отсоединившуюся от корабля и опустившуюся на космодром. Такой подход, так же как способность ракеты выводить на орбиту сотни тонн груза, радикально снизит стоимость космических полетов.

https://www.youtube.com/watch?v=NpjLfUoiT_w

Клуб CDO

14 Oct, 10:05


Интересный доклад про организацию облака ClickHouse с довольно подробными деталями дизайна, а так же подробностями истории развития ClickHouse от закрытого решения до OpenSource и SaaS решения.

https://www.infoq.com/presentations/open-source-saas/

Клуб CDO

13 Oct, 14:57


Дайджест статей

Производительность СУБД — расчет метрики, временной анализ, параметрическая оптимизация
https://habr.com/ru/articles/850106/

Предварительная обработка данных в машинном обучении: инструкция, инструменты, полезные ресурсы для начинающих
https://habr.com/ru/companies/skillfactory/articles/848858/

ETL-проект для начинающих Data Engineers: От почтового сервера до Greenplum
https://habr.com/ru/articles/849062/

Предиктивная аналитика в промышленности: путь к повышению эффективности и снижению затрат
https://habr.com/ru/articles/849364/

BI для оценки полезности BI: огранка логов по методу АЛРОСА
https://habr.com/ru/companies/visiology/articles/849728/

Дата-Сторителлинг: для Бизнеса и СМИ
https://habr.com/ru/articles/848556/

История о том, как мы быстрое хранилище в 2022 году строили
https://habr.com/ru/companies/cloud4y/articles/848720/

Клуб CDO

11 Oct, 16:21


Сегодня небольшая историческая страничка. Несколько экспонатов из коллекции Британской библиотеки: оригинальные заметки Чарльза Бэббиджа, черновик статьи самого Алана Тьюринга, которая впоследствии стала знаменитой статьей “Игра в имитацию”, и письмо Алана Тьюринга с его собственноручной подписью.

Клуб CDO

10 Oct, 08:21


Коллеги, 24 октября в Loft Hall пройдет, DaTalks 2024 | Data Reality Show. Организатором выступает компания Navicon, а главным партнером - Arenadata.

Это событие каждый год собирает солидное data community для детального обсуждения практических вопросов и кейсов, связанных с data-ландшафтом и перспективами, которые ожидают CDO и CIO в ближайшем будущем. Подтвержденные спикеры - СБЕР, HOFF, X5, Т-Банк, Dostavista, Unilever и другие.

В этом году среди основных тем заявлены:
• best practice формирования data-ландшафта «с запасом»
• будущее Data
• современные платформы и модели данных
• обзор и функциональное сравнение актуальных для российского рынка BI-систем.
• промежуточные итоги и перспективы импортозамещения

Важное отличие этого года - трансляция онлайн вестись не будет. А поскольку площадка имеет ограниченную вместимость, всем заинтересованным стоит зарегистрироваться заранее.

По ссылке можно ознакомиться с программой, спикерами и основной концепцией форума.

Не забудьте потом поделиться впечатлениями!

https://datalks2024.ru/?utm_source=TG&utm_medium=cdoclub&utm_campaign=24_10_24_DaTalks

Клуб CDO

09 Oct, 11:24


When Nanoseconds Matter

Редакция ознакомилась с интересным докладом и хотела бы поделиться некоторыми заметками и соображениями. В первую очередь стоит отметить, что разработка эффективных приложений уже не сводится только к C++ и каким-то секретным флагам компиляции и сборки. Это скорее про принципы разработки ПО, которые полезны и применимы не только в C++ разработке, но и в любых других задачах и дисциплинах, включая работу с данными, разработку систем управления данными и алгоритмов их обработки.

Я для себя выделил несколько “общих принципов”:

• Оптимизация — это искусство избавления от всего лишнего: лишних инструкций, шагов, обработчиков и т. д.
• Нужно отлично понимать свои данные: их порядок, структуру, профили обработки. Важно точно понимать, с чем вы работаете, чтобы разработать оптимальный алгоритм обработки. Всё необходимо измерять и оценивать.
• Чем более узкоспециализированный алгоритм вы пишете, тем быстрее он будет работать для вашей задачи.
• Важно понимать среду, в которой вы работаете, и что может вас замедлять: операционная система, диски, внешние зависимости и т. д. Ничто не работает в вакууме, всё требует комплексной оптимизации.
• Измерения и профилирование — нельзя оптимизировать то, что не измерено.
• Разделите задачу на две части: медленный warm-up период, в который вы подготавливаете всё необходимое (заполняете память, читаете данные, наполняете кэш и т. д.), и быстрый цикл основной работы. Хорошая подготовка — залог успеха.
• Используйте инструменты, максимально подходящие для вашей задачи.
• Чем проще решение — тем быстрее оно работает.
• Постоянно исследуйте вашу систему, измеряйте, находите узкие места и устраняйте их. Устранив одно узкое место, оно может переместиться в другое, и система продолжит требовать оптимизации.

Видео: https://www.youtube.com/watch?v=sX2nF1fW7kI
Вот тут опубликованы слайды: https://github.com/CppCon/CppCon2024/blob/main/Presentations/When_Nanoseconds_Matter.pdf

И вот эту книгу могу порекомендовать в дополнение к материалу: https://www.amazon.co.uk/gp/product/B0CW1JS83N/ref=ppx_yo_dt_b_d_asin_title_351_o08?ie=UTF8&psc=1

Клуб CDO

08 Oct, 12:58


Ну что ж, нельзя обойти стороной такое событие, как присуждение Нобелевской премии по физике “отцам” искусственного интеллекта. Ниже ссылка на официальный пресс-релиз.

Меня, конечно, удивило, что премия именно по физике. Как указано в пресс-релизе:

“Два нобелевских лауреата по физике этого года использовали инструменты физики для разработки методов, лежащих в основе современного мощного машинного обучения. Джон Хопфилд создал ассоциативную память, способную хранить и восстанавливать изображения и другие типы паттернов данных. Джеффри Хинтон изобрел метод, который может автономно находить свойства данных и выполнять задачи, такие как идентификация элементов на фотографиях.”

Интересно, что премию присудили не за развитие самой физики или достижения в её области, а за “использование методов физики” фактически в других дисциплинах.

С другой стороны, математикам исторически не дают Нобелевскую премию, а Computer Science как дисциплины в этой организации вроде нет. Но пройти мимо ИИ нельзя, так что, возможно, физика — хороший компромисс?

https://www.nobelprize.org/prizes/physics/2024/press-release/

Клуб CDO

06 Oct, 20:55


Дайджест статей

Modern Data Engineering in the LLM Era
https://medium.com/art-of-data-engineering/modern-data-engineering-in-the-llm-era-628489c87378

Mastering Data Ingestion: Essential Strategies for Data Engineers
https://blog.det.life/mastering-data-ingestion-essential-strategies-for-data-engineers-aa63283eed83

Современная Lakehouse-платформа данных Data Ocean Nova
https://habr.com/ru/articles/847770/

AI E-com Ассистент
https://habr.com/ru/articles/847478/

Контроль качества разметки на проекте: 4 секрета успеха
https://habr.com/ru/companies/data_light/articles/848234/

Mastering Architecture Diagrams and Technical Presentations: A Data Architect’s Guide
https://medium.com/art-of-data-engineering/mastering-architecture-diagrams-and-technical-presentations-a-data-architects-guide-eb410b49bc19

Top 10 Apache Airflow Best Practices for Data Engineers
https://medium.com/@Nelsonalfonso/top-10-apache-airflow-best-practices-for-data-engineers-f72de2b6175d