Клуб CDO @cdo_club Channel on Telegram

Клуб CDO

19 Feb, 09:40

В блоге Martinа Fower появилась интересная статья со систематизацией и описанием подходов по использованию GenAI (оно же LLM в данном контексте) при разработке ИТ продуктов и систем. В целом, думаю, что полное описание всех современных методов и подходов может потянуть на целую книгу, но как отправная точка для более подробного исследования - статья хорошая.

Коллеги разбираюсь следующие подходы:

- Direct Prompting: Send prompts directly from the user to a Foundation LLM
- Evals: Evaluate the responses of an LLM in the context of a specific task
- Embeddings: Transform large data blocks into numeric vectors so that embeddings near each other represent related concepts
- Retrieval Augmented Generation (RAG): Retrieve relevant document fragments and include these when prompting the LLM

https://martinfowler.com/articles/gen-ai-patterns/

474

Клуб CDO

19 Feb, 07:41

Немного веселой продуктовой аналитики :) а ведь правда, получается что чем лучше работает дайтинг приложение, тем выше отток :)

559

Клуб CDO

18 Feb, 13:45

Коллеги, анонс от наших друзей - вебинар по аналитике, который пройдет 27/02

🔹 Почему пользователи заходят, но не покупают?
🔹 Какие фичи реально принесут прибыль?
🔹 Как ваши действия влияют на клиентов в долгосрочной перспективе?
🔹Как повысить эффективность коммуникаций?

Ответы на эти вопросы — в аналитике. Но одной цифры недостаточно, важен контекст. Что если объединить два подхода?

Продуктовая аналитика — изучает путь пользователя на цифровых витринах, чтобы найти зоны роста.
CRM-аналитика — помогает узнать своего покупателя как можно лучше и выстроить с ним эффективную коммуникацию.

🎯 Как использовать эти инструменты, чтобы улучшить продукт и заработать больше?

Обсудим на вебинаре 27 февраля в 16:00.

Егор Лысянский, руководитель группы аналитиков данных АЭРО, расскажет, как:

- Найти выгоду для бизнеса в объединении данных о продукте и клиенте.
- Выделять клиентские сегменты для решения задач персонализации и создавать дополнительные точки контакта с пользователями.
- Выявить, какие каналы приводят клиентов «надолго», а с каких пользователи исчезают после одного заказа.
- Повысить вероятность покупок, увеличить чек и LTV с помощью обогащения данных и качественной data-инфраструктуры.

Присоединяйтесь к вебинару: https://aeroidea.ru/analytics-aero-webinar-27-february

598

Клуб CDO

18 Feb, 11:14

Интеллектуальный каюк Homo sapiens близок.
Лишь 15 россиян способны программировать лучше ИИ, в Китае таких еще 59, а в США осталось лишь 7.
Потрясающее зрелище – наблюдать в реальном времени интеллектуальное поражение людей от ИИ.
Когда бестелесные алгоритмы превзошли лучших шахматных гроссмейстеров мира и ушли в отрыв, показывая немыслимый для людей рейтинг уровня игры, - репутация людей, как носителей высшего интеллекта, пошатнулась, но устояла – см. рис слева.
Ведь шахматы, как известно, - хоть и чрезвычайно умная игра, но узкоспециальная интеллектуальная деятельность, ограничиваемая фиксированными правилами.

Но с программированием (выполнением сложных задач кодирования и рассуждений) все иначе. Здесь все почти как в жизни. Вместо следования фиксированным правилам, нужно думать, рассуждать, строить гипотезы и прогнозы. И если с программированием произойдет, как с шахматами, то каюк интеллектуальному превосходству людей (только уникальная способность к инсайтам и останется, - и то, ненадолго).

Насколько этот каюк близок, показывают результаты CodeForces – международной платформы соревнований по программированию.
Текущие результаты модели о3 от OpenAI таковы.
• Рейтинг модели 2724 лучше, чем у 99.8% всех участников этой платформы (а там соревнуются десятки тысяч программистов со всего мира: 26 тыс китайцев, 14 тыс россиян, 3,5 тыс американцев) – см. рис справа вверху;
• Это значит, что во всем мире осталось меньше 200 человек, способных программировать лучше этой модели – см. рис справа внизу.

Остались считанные месяцы, когда людей, способных превзойти ИИ в программировании останется 50, 10, 3 … 0. А дальше модели, как и в шахматах, уйдут в отрыв, похерив интеллектуальное превосходство людей навсегда.

И никакой интеллект кентавра (гибридные системы из человека и ИИ) этому помешать не сможет. Урок с шахматами повторится. Ибо непреодолимым препятствием остаются ограниченные возможности когнитивной архитектуры людей.

Но это не беда. Ибо эволюции (генно-культурной) вообще до фонаря интеллект индивидов. Главное – рост коллективного интеллекта планетарной (а потом и вселенской) жизни. А уж кого в социо-когнитивных сетях глобального интеллекта окажется больше – людей или алгоритмов, - эволюции все равно.

Только ведь людям (и конкретно, нашим детям и внукам) это будет далеко не все равно …

Подробней см:
• https://arxiv.org/abs/2502.06807
• https://codeforces.com/ratings/countries

#ИИриски #Хриски #Вызовы21века

554

Клуб CDO

18 Feb, 11:14

Это интересно

588

Клуб CDO

18 Feb, 09:20

Собственно не знаю что прокомментировать относительно этой статьи. Проблема с модерацией - давно известна, но всегда остается "подводной частью айсберга" и про нее говорят крайне мало. Хотя если посмотреть на нее то работа бедных модераторов мало чем отличается от эксплуатации нелегальной рабочей силы.

Надеюсь, что ИИ сделает эту работу более гуманной.

https://www.theguardian.com/commentisfree/2025/feb/12/moderator-facebook-real-cost-outsourcing-digital-labour

645

Клуб CDO

17 Feb, 11:05

У меня иногда возникает ощущение, что Microsoft Research и Microsoft это 2 вообще разные организации, которые не подозревают о существовании друг друга. Вот MR выпускает очень интересные материалы, хорошие исследования и разработки. Выпустили очень перспективный метод и библиотеку GraphRAG, вот еще одна статья о методе ExACT - интересный подход к обучению агентов.

Вот только куда это все девается? Зашел как на в Azure - черт ногу сломит там с NLP и LLM сервисами - одно еще не доступно, второе уже устарело, это не используйте мы скоро это отключим и тд. Кошмар :(

https://www.microsoft.com/en-us/research/blog/exact-improving-ai-agents-decision-making-via-test-time-compute-scaling/

723

Клуб CDO

16 Feb, 19:02

Дайджест статей

Данные на льду: как Apache Iceberg перевернул мир аналитических систем
https://habr.com/ru/companies/selectel/articles/875472/

RL RecSys в проде: хайп или игра вдолгую
https://habr.com/ru/companies/tbank/articles/882478/

Self-Service в BI — зачем нужен, как работает и как реализован в Modus
https://habr.com/ru/companies/modusbi/articles/882568/

Тестирование с интеллектом: Пилотный проект внедрения ИИ в РСХБ-Интех
https://habr.com/ru/companies/rshb/articles/881072/

Миграция BI-аналитики: как перейти на Apache Superset и не потерять пользователей
https://habr.com/ru/companies/m2tech/articles/881190/

Гарантии видимости в распределённых хранилищах
https://habr.com/ru/articles/881204/

Методы построения RAG систем
https://habr.com/ru/articles/881268/

Как с помощью искусственного интеллекта повысить эффективность плавильного оборудования
https://habr.com/ru/articles/881622/

Как LangChain и LangGraph упрощают жизнь разработчика ИИ-Агентов
https://habr.com/ru/articles/881372/

Как проводят оценку качества данных в Airbnb
https://habr.com/ru/companies/itsumma/articles/786228/

878

Клуб CDO

14 Feb, 08:50

Посмотрите большую презентацию от UBS про их опыт использования Data Mesh. А то все агенты да агенты.

https://www.infoq.com/presentations/data-mesh-architecture/?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global

947

Клуб CDO

14 Feb, 07:48

Интересный пост увидел в FB, оригинал которого находится в LI (ссылка ниже). Так что мопед не мой но утверждения интересные. Что думает общественность?

«Количество вакансий для разработчиков рухнуло на 70% с пика 2022 года. Многие скажут, что причина в конце эпохи «бесплатных денег». Но все гораздо глубже.

- Миддл разработчики больше не нужны! Один сильный инженер с GitHub Copilot, Cursor, Bolt и другими AI-инструментами делает работу, которую 5 лет назад делала целая команда. Microsoft только что отчиталась о рекордной выручке на одного сотрудника.

- Джунов больше нет! Вместо entry-level разработчиков приходят "product builders". Они создают готовые продукты за считанные дни, используя AI.

- Топ-инженеры зарабатывают больше, чем когда-либо в истории.

Но теперь они уходят в топовые направления, решая действительно сложные задачи:

- AGI в OpenAI
- Ракетостроение в SpaceX
- Автопилот в Tesla

Что это все значит?
Миддлы и джуны исчезают! Топ-инженеры зарабатывают как хедж-фонды. Будущее — за билдерами и соло-предпринимателями.»

-> https://www.linkedin.com/in/gisenberg/

1,162

Клуб CDO

13 Feb, 13:05

Вот я люблю C4 и стараюсь использовать эту нотацию, когда делаю какие то картинки про архитектуру. А тут статья попалась про использвоание C4 для моделирования data домена с практическими советами как следует структурировать сущности.

https://blog.datatraininglab.com/c4-modelling-for-data-teams-from-chaos-to-clarity-a9f499007e20

1,085

Клуб CDO

10 Feb, 21:28

🤭

1,387

Клуб CDO

10 Feb, 12:00

Дайджест статей

Построение инфраструктуры для работы с языковыми моделями: опыт X5 Tech
https://habr.com/ru/companies/X5Tech/articles/880288/

LLM в науке, тюнинг и регулирование систем ИИ
https://habr.com/ru/companies/mws/articles/880056/

Self service в действии: как Luxms BI помогает ускорить аналитику
https://habr.com/ru/companies/luxms_bi/articles/880082/

Создаем BI отчеты для SEO помощью Google Looker и A-Parser
https://habr.com/ru/articles/880044/

Гайд: как оценить удобство вашей дата-инфраструктуры
https://habr.com/ru/companies/dododev/articles/879778/

Как обойти гору: эффективные приёмы обработки пользовательских данных
https://habr.com/ru/companies/vk/articles/879386/

LLM для автоматизации поддержки
https://habr.com/ru/companies/tbank/articles/879128/

1,459

Клуб CDO

03 Feb, 08:30

Поделюсь новостью, хотя обычно стараюсь не превращать канал в ленту новостей, отдавая предпочтение аналитическому контенту. Тем не менее - вчера OpenAI выкатили нового агента ChatGPT Deep Research.

Это не новая модель, а новый агент, предназначенный для исследований. Но самое инетресное тут - что такое "исследования". На самом деле это не только научный reseach который мне тут читается по умолчанию, а вообще любое предметное изучение любой тематики.

Например это может быть полезно для разборчивых покупателей, которым нужны гиперперсонализированные рекомендации по покупкам, обычно требующим тщательного изучения, например автомобилям, бытовой технике и мебели. Каждый вывод полностью документирован, с четкими ссылками и кратким изложением мыслей, что облегчает поиск и проверку информации. Он особенно эффективен при поиске нишевой, неинтуитивной информации, для получения которой пришлось бы просматривать множество веб-сайтов. Глубокое исследование высвобождает драгоценное время, позволяя разгрузить и ускорить сложные, требующие много времени веб-исследования с помощью всего одного запроса. Глубокое исследование самостоятельно находит, осмысливает и консолидирует информацию, полученную со всего Интернета.

В общем "Агентский подход + веб поиск в реальном времени + о3 mini = очень полезный инструмент для работы и жизни".

https://openai.com/index/introducing-deep-research/

1,754

Клуб CDO

02 Feb, 20:09

Дайджест статей

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло
https://habr.com/ru/companies/kaspersky/articles/876834/

Дорожная карта миграции большого хранилища данных
https://habr.com/ru/companies/oleg-bunin/articles/876306/

Руководство по интерпретации данных
https://habr.com/ru/companies/otus/articles/877712/

По ту сторону экрана: про найм в Data-аналитики глазами нанимающего Лида
https://habr.com/ru/articles/877932/

Менеджер данных: как новая роль изменила подход к работе с ML
https://habr.com/ru/companies/2gis/articles/877868/

How does Netflix ensure the data quality for thousands of Apache Iceberg tables?
https://blog.det.life/how-does-netflix-ensure-the-data-quality-for-thousands-of-apache-iceberg-tables-76d3ef545085

1,563

Клуб CDO

02 Feb, 08:59

Обновленная матрешка

1,433

Клуб CDO

31 Jan, 20:37

Вот и ответочка от мессии прилетела

https://openai.com/index/openai-o3-mini

1,378

Клуб CDO

30 Jan, 02:14

Кстати вот эта вся шумиха про DeepSeek неплохо имхо про суммирована в этой статье.

Редакция еще не прочитала, но беглый просмотр материала привел в выводу, что надо поспешить поделиться.

https://open.substack.com/pub/thealgorithmicbridge/p/7-implications-of-deepseeks-victory?r=15862q&utm_medium=ios

1,718

Клуб CDO

29 Jan, 15:18

Пора переименовывать канал :) Не модно уже (в кои то веки автозамена написала действительно «модно» когда это нужно :)) )

https://amzn.to/3PZBGxu

1,558

Клуб CDO

27 Jan, 00:23

Дайджест статей

Логика построения BI-приложения. Методология DAR для проектирования дашбордов
https://habr.com/ru/articles/876318/

Обзор и карта рынка платформ для защиты ML
https://habr.com/ru/companies/securityvison/articles/875958/

Что вам нужно знать об ИИ-агентах
https://habr.com/ru/companies/haulmont/articles/875238/

Обработка каталога и товаров на LLM
https://habr.com/ru/companies/raft/articles/874966/

Сегментация данных — это не больно. Применяем ML-модели в аналитике
https://habr.com/ru/companies/sravni/articles/875046/

4 Architecture Patterns for Master Data Management(MDM)
https://blog.det.life/4-architecture-patterns-for-master-data-management-mdm-e7d5bfdd5ebd

How AI Agents & Data Products Work Together to Support Cross-Domain Queries & Decisions for Businesses
https://medium.com/@community_md101/how-ai-agents-data-products-work-together-to-support-cross-domain-queries-decisions-for-3129b1d58c5e

Generative AI: The Game Changer for Data Engineering Best Practices
https://medium.com/@alexpongpech/generative-ai-the-game-changer-for-data-engineering-best-practices-e60c020d438b

What Are AI Agents? A Short Intro And A Step-by-Step Guide to Build Your Own.
https://medium.com/codex/what-are-ai-agents-your-step-by-step-guide-to-build-your-own-df54193e2de3

Data Philosophy : Blueprint for Data Architecture
https://medium.com/@anmol.aj/data-philosophy-blueprint-for-data-architecture-1a0a3589e1fa

Types of Data Engineering Architecture
https://medium.com/@ckekula/types-of-data-engineering-architecture-8e28a8e7519f

1,969

Клуб CDO

23 Jan, 09:20

Text-to-SQL

Попалась на глаза эта статья с интригующим заголовком. Мне тема кажется до сих пор очень интересной, хотя редакция никак не внедрит этот подход на подотчетной территории, надежд мы не бросаем и тему изучаем.

Text-to-SQL (T2SQL) — это технология или методология, которая позволяет преобразовать запросы на естественном языке в SQL-запросы, используемые для взаимодействия с базами данных. Основная цель Text-to-SQL — упростить доступ к данным для людей, не обладающих навыками программирования или знаниями SQL, позволяя им находить нужную информацию через обычный текст.

Важное замечание касаемо статьи: хотя в заголовок статьи вынесено название Uber, внутри делается интересное сравнение QueryGTP от Uber с open-source инструментом Wren AI, который позволяет делать примерно тоже самое (по мнению авторов статьи, сам не пробовал) что и QueryGPT.

Собственно эта статья командой WrenAI и написана :) но я во второй ссылке ниже привожу оригинал статьи от Uber с которой идет сравнение.
Внимательное изучение материала ниже дало несколько интересных инсайтов:

- Интеграция с агентным подходов: обратите внимание на картинку с архитектурой решения, там на каждом шаге преобразования текста в SQL запрос работает отдельный агент на базе LLM: Intent Agent, Table Agent, Column Prune Agent
- Разработана отдельная модель QueryGPT — это концепция или инструмент, построенный на основе технологий генеративного искусственного интеллекта, таких как модели GPT (Generative Pre-trained Transformer). Он предназначен для обработки запросов на естественном языке и их преобразования в SQL-запросы или выполнения других задач, связанных с взаимодействием с базами данных.
- Wren AI - это агент SQL AI с открытым исходным кодом, призванный демократизировать технологию преобразования текста в SQL. Предлагая облачную платформу, в которую интегрированы многие из тех же функций, что и в QueryGPT от Uber, Wren AI стремится выровнять игровое поле.

В общем этот Wren AI выглядит интересно, позиционируется как доступный инструмент для Text-to-SQL.

https://medium.com/wrenai/how-uber-is-saving-140-000-hours-each-month-using-text-to-sql-and-how-you-can-harness-the-same-fb4818ae4ea3
https://www.uber.com/en-TW/blog/query-gpt/
https://github.com/Canner/WrenAI

2,053

Клуб CDO

21 Jan, 09:20

NVIDIA и Закон Хуанга

В сфере вычислительной техники закон Мура долгое время был руководящим принципом, предсказывающим удвоение количества транзисторов на чипе примерно каждые два года. Но последний десяток лет я наблюдаю вялотекущее обсуждение того продолжает ли действовать этот закон или нет. Очевидно, что в его первоначальной формулировке в части “удвоения количества транзисторов” он давно не работает, при этом еще и на горизонте отчетливо видел физический предел в меньшее этих транзисторов. Но энтузиасты (да и я в их числе), аппелировали к тому, что мы должны рассматривать не просто количество транзисторов, а увеличение вычислительной мощности компьютерной техники, принимая во внимание, что увеличение вычислительной мощности обуславливается сейчас архитектурными и качественными улучшениями (включая и квантовые вычисления), а не просто количеством транзисторов.

А вот компания NVIDIA пошла еще дальше и ввела новый закон: Закон Хуанга, введенный Дженсеном Хуангом (Jensen Huang), генеральным директором NVIDIA, предсказывает, что производительность графических процессоров (GPU), особенно в приложениях ИИ, будет увеличиваться более чем вдвое каждые два года. В отличие от закона Мура, который касается центральных процессоров (CPU), закон Хуанга относится именно к GPU.

Но самая хитрость этого закона в том, что он подразумевает, что увеличение мощности GPU включает в себя не только улучшение железа и архитектуры вычислений, но и совершенствование алгоритмов и программной обработки, включая улучшения и оптимизацию архитектур нейтронных сетей.

Это неплохо объясняет некоторый диссонанс между тем, что на последней конференции н CES25 NVIDIA ярко заявляла о качественно новом уровнем графики с использование DLSS 4 в то время как специалисты критиковали это за то, что DLSS 4 это больше программная разработка а не возможности нового процессора и неплохо работает даже на старых вилдеокартах.

Так что похоже NVIDIA тоже видит предел своего железа на горизонте и уходит даже не в архитектуру, а в софт и оптимизацию драйверов?

https://www.nvidia.com/en-gb/geforce/technologies/dlss/

https://formtek.com/blog/huangs-law-a-new-chapter-in-computing/

https://www.perplexity.ai/page/ai-chips-may-outpace-moore-s-l-HcJymVppT6CVb.t_Kyjw4Q

1,599

Клуб CDO

20 Jan, 09:06

Дайджест статей

Облачные хранилища в мире Top Gear
https://habr.com/ru/companies/selectel/articles/873456/

Профессии будущего в BI
https://habr.com/ru/companies/cinimex/articles/844042/

Как менялась аналитическая платформа Modus BI в 2024 году?
https://habr.com/ru/companies/modusbi/articles/873586/

Визуализация данных Мосбиржи и не только
https://habr.com/ru/articles/873814/

ПИКантная миграция: путь от Tableau к FineBI
https://habr.com/ru/companies/glowbyte/articles/873922/

Data-driven культура и подход по версии аналитика
https://habr.com/ru/articles/874206/

Здоровый интерес: как аптечная сеть получила возможность с помощью BI-системы анализировать продажи и остат
https://habr.com/ru/articles/874402/

Переливаем таблицы БД между средами: быстро и без боли на примере MS SQL
https://habr.com/ru/companies/vk/articles/874342/

Shaping an Impactful Data Product Strategy
https://www.infoq.com/news/2025/01/impatful-data-product-strategy/?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global

Dark Data: Recovering the Lost Opportunities
https://dzone.com/articles/dark-data-recovering-lost-opportunities

Data Analytics Transforms Healthcare Business Management
https://www.smartdatacollective.com/data-analytics-transforms-healthcare-business-management/

Bringing Gen AI to ETL: Redefining Data Engineering through LLMs
https://medium.com/snowflake/llm-powered-etl-snowflakes-leap-into-data-warehouse-ai-1aebcaee8025

1,398

Клуб CDO

17 Jan, 08:50

Очень любопытный ресурс в копилку на регулярное чтение и мониторинг.

«Signals and Threads» — это технологический подкаст компании Jane Street, в котором ведущий Рон Мински беседует с инженерами на темы, связанные с различными уровнями технологического стека. Темы обсуждений включают синхронизацию времени, надежную передачу данных, системы сборки и программируемое оборудование.

Каждый эпизод предлагает глубокое погружение в определенную тему, раскрывая подходы Jane Street к решению сложных технологических задач.

https://signalsandthreads.com/

1,551

Клуб CDO

16 Jan, 15:14

Неплохая картинка про то как меняется взаимодействие наше с LLM. Мне кажется еще большинство пользователей не освоили и первый подход, а тут надо уже переучиваться.

1,650

Клуб CDO

15 Jan, 21:29

Теперь в ChatGPT доступны запланированные задачи! OpenAI начала внедрять новую функцию, которая позволяет пользователям ставить напоминания, такие как "Напомни мне написать тесты через пять минут". ChatGPT выполнит это задание в назначенное время.

В тесте напоминание пришло по электронной почте через платформу MailChimp's Mandrill, а в будущем ожидаются уведомления на мобильные устройства.

https://help.openai.com/en/articles/10291617-scheduled-tasks-in-chatgpt

1,612

Клуб CDO

15 Jan, 09:40

AI трансформирует не только профессию программиста, но и роль продакт-менеджера. Теперь, когда средства и сложность разработки простых решений значительно снизились за счёт GenAI, в задачи продакт-менеджера добавляется активность не только по сбору и проработке требований, но и по разработке прототипа решения.

Лично я считаю, что практика прототипирования - одна из лучших практик из арсенала менеджера по управлению продуктом. На её базе, во-первых, очень легко собрать и проработать с пользователями то, что им нужно получить в конечном итоге, а во-вторых, для команды разработки это в 1000 раз понятнее, чем чтение 1000 страниц документации, описания или презентаций.

В статье собран весь современный арсенал решений, который поможет справиться с этой задачей.

https://www.lennysnewsletter.com/p/a-guide-to-ai-prototyping-for-product?r=15862q&utm_medium=ios&triedRedirect=true

1,738

Клуб CDO

14 Jan, 13:45

А пока AI-агенты забирают у людей работу, где то в далекой далекой галактике космический аппарат делает потрясающе подробные снимки скрытой поверхности Меркурия.

В прошлую среду аппарат BepiColombo, состоящий из двух сросшихся космических аппаратов, пролетел мимо Меркурия в шестой и последний раз, используя гравитационное притяжение планеты для корректировки траектории, чтобы в 2026 году выйти на орбиту. Миссия стартовала в октябре 2018 года как совместное предприятие Европейского космического агентства (ЕКА) и Японского агентства аэрокосмических исследований (ДЖАКСА), каждое из которых предоставило свой орбитальный аппарат для исследования Меркурия. По данным ЕКА, во время последнего пролета космический аппарат-близнец пролетел над поверхностью Меркурия на расстоянии около 180 миль (295 километров).

https://gizmodo.com/spacecraft-captures-spectacularly-detailed-images-of-mercurys-hidden-surface-2000548169

1,369

Клуб CDO

13 Jan, 17:05

Если вы интересуетесь что "под капотом" у современных трейдинговых платформ, то посмотрите это видео от коллег из компании CoralBlocks оо архитектуре middleware компонента SEQUENCER. Это решение для обмена сообщениями между другими компонентами торговой платформы, которое используют многие финансовые компании – маркет-мейкеры, биржи, банки и другие. SEQUENCER позволяет создавать очень надежные распределенные системы, которые работают в режиме реального времени. В видео подробно объясняется, как SEQUENCER обеспечивает высокую доступность и отказоустойчивость. Очень рекомендую к просмотру всем, кто интересуется финансовой сферой и IT!

https://www.youtube.com/watch?v=DyktSiBTCdk

1,296

Клуб CDO

12 Jan, 14:34

Дайджест статей

Открытые книги по ML и работе с данными
https://habr.com/ru/companies/mws/articles/872230/

The History of Data Engineering
https://vutr.substack.com/p/the-history-of-data-engineering?r=15862q&utm_medium=ios&triedRedirect=true

Preventing Data Nightmares: Top 5 Data Quality Checks Every ETL Pipeline Needs
https://garvit-arya.medium.com/preventing-data-nightmares-top-5-data-quality-checks-every-etl-pipeline-needs-e4cba295687a

Revolutionizing Catalog Management for Data Lakehouse With Polaris Catalog
https://dzone.com/articles/catalog-management-data-lakehouse-polaris

Цифровые двойники для вышек связи и самооптимизирующиеся сети — как телекомы и интернет-провайдеры используют системы ИИ
https://habr.com/ru/companies/vasexperts/articles/872904/

Revolutionize Stream Processing With Data Fabric
https://dzone.com/articles/revolutionize-stream-processing-with-data-fabric

High Performance Time- series Database Design with QuestDB
https://www.infoq.com/presentations/questdb/?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global

Optimizing SQL Server Performance With AI: Automating Query Optimization and Predictive Maintenance
https://dzone.com/articles/automate-query-optimization-predictive-maintenance

Data Governance Challenges in the Age of Generative AI
https://dzone.com/articles/data-governance-challenges-in-generative-ai

AI Governance: Building Ethical and Transparent Systems for the Future
https://dzone.com/articles/ai-governance-build-ethical-transparent-systems

Как банки предсказывают кредитные риски: опыт создания PD-моделей из ФинТеха
https://habr.com/ru/articles/872250/

1,249

Клуб CDO

11 Jan, 18:35

Очень интересный блог, в список к прочтению.

https://simonwillison.net/

1,283

Клуб CDO

11 Jan, 11:56

Примеры выше это хорошая доказательная база для вот этого поста из дружественного канала

1,074

Клуб CDO

11 Jan, 11:56

Таков главный итог 2024. Не с позиций ИИ-шных теоретиков и экспертов. А с позиции сотен миллионов пользователей, из коих сейчас лишь 1% в ощутимом выигрыше от идущей уже 3й год революции ChatGPT.

И вот что из этого следует в качестве рекомендаций на 2025 для 99% пользователей ИИ-чатботов (в число которых, согласно The AI Proficiency Report, входят: 8% уже практикующих, 33% только экспериментирующих, 47% блуждающих в тумане и 11% изначальных скептиков)
• Не покупайтесь на кажущуюся простоту ИИ-чатботов (казалось бы, подумаешь, делов-то всего, - написать вопрос и прочесть ответ).
• Чтобы извлечь из LLM максимум пользы и избежать их многочисленных ловушек, нужна огромная глубина понимания и немалый опыт.

Дело в том, что новые поколения LLM и работающие на их базе ИИ-чатботы становятся все сложнее. В 2024 году эта проблема ощутимо обострилась, а в 2025 станет совсем сложно.

И в этом я 100%но согласен с Саймоном Виллисоном (профессиональным веб-разработчиком и инженером Python с более чем 20-летним стажем), написавшим это в итоговом анализе «Что мы узнали о LLM в 2024».

Анализ пользовательских практик использования ИИ-чатботов показывает удручающую картину.

99% пользователей ИИ-чатботов:
• Вместо вдумчивого диалога с ИИ-чатботами, используют их исключительно в режиме «задал вопрос-получил ответ» (что сводит эффективность отдачи от их использования до max 5% потенциала)
• Не перепроверяют ответы 2-ым и 3-им мнением других ИИ-чатботов
• Не понимают, что ИИ-чатбот зеркалит своего текущего пользователя и напичкан когнитивными предрассудками миллионов неизвестных людей.
• Не принимают в расчет, что ИИ-чатбот способен, подстраиваясь под пользователя, дать ему почти что любой желаемый ответ
• Не читали ни одного руководства по промпт-инжинирингу (напр.)
• Не пользуются библиотеками промптов (напр.)
• Не используют специализированных интеллектуальных инструментов для персонализации синтеза знаний (напр., напр.)
• Не заморачиваются чтением почти еженедельно публикуемых новых методов повышения функциональной эффективности ИИ-чатботов (напр., напр.)

Итоги столь примитивного массового использования LLM плачевны:
✔️ Уже имеющиеся колоссальные возможности повышения производительности многих видов деятельности не приносят ощутимой отдачи, т.к. доступны лишь 1% пользователей.
✔️ В общественном дискурсе это мало кого занимает, и вместо этого идут бесконечные пустопорожние дискуссии «как согласовать ценности ИИ с нашими» (будто они у всех людей одинаковые) и «когда появится AGI» (хотя каждый понимает этот термин по-своему).
✔️ А тем временем запущен и начал работать глобальный механизм углубления пропасти интеллектуального неравенства, способный довольно быстро превзойти по глубине уже колоссальную, но все еще углубляющуюся пропасть имущественного неравенства (о чем скоро будет мой лонгрид)

#LLM #Вызовы21века #ИнтеллектуальноеНеравенство

1,288

Клуб CDO

11 Jan, 11:09

Провели тут небольшой эксперимент с моделями от Anthropic и ChatGPT задав им каверзный вопрос о картине «Ванильное небо».

Неплохо результат показала o1, но лучший ответ дала 4o с включенной опцией поиска в интернете. Perplexity на третьем месте. А Клод тупил и не признавался :)

1,086

Клуб CDO

08 Jan, 14:05

Сегодня хочу поделиться ссылкой на интервью выдающегося ученого, с которым имею честь быть знаком лично - Чоканом Лаумулиным. Несколько раз мы встречались и очень много говорили о науке и это всегда было максимально интересно и познавательно.

В интервью обсуждаютс ятакие темы как:
- какие научные направления актуальны в 21ом веке?
- как связаны наука, технологии и геополитика?
- какие вызовы нас ждут в ближайшем будущем?

https://youtu.be/sl3QskqQchM?si=2vLvkkOlhrpigxjv

1,270

Клуб CDO

08 Jan, 11:53

Количество всяких онлайн сервисов которык используют LLM и предоставляют качественно новый уровень клиентского опыта сейчас просто зашкаливает. Я не только не успеваю все попробовать, но и даже не успеваю читать и просматривать все списки рекомендаций который валятся просто отовсюду 🙂

Но тем не менее какие то сервисы, которые мне кажется полезными позволю себе публиковать тут.

Вот, например, сервис который превращает любой "человеческий" документ в json или markdown и делает его пригодным для автоматизированно обработки может оказаться многим полезным

https://monkt.com/

1,235

Клуб CDO

07 Jan, 16:26

На фоне отличной презентации NVIDIA на CES сегодня, о которой пишут все без исключения каналы, блогеры и AI специалисты в тональности «будущее наступило, это было феерично» - стоимость ее акций упала на 7%

1,178

Клуб CDO

07 Jan, 09:20

Сам не пробовал, но продукт выглядит интересно - такой легкий BI над CSV и Excel в онлайне. Если вам надо покрутить CVS то кажется прям самое то.

https://www.tomat.ai/

1,164

Клуб CDO

06 Jan, 11:05

Небольшая полезность в копилку для тех, кто пишет код - очень интересный плагин для vscode для, собственно, визуализации кода. Для построения диаграммы использует Cloude и умеет выгружать картинки в формате draw.io.

https://github.com/EdisonLabs-Inc/CodeViz-Public

588

Клуб CDO

05 Jan, 19:08

Дайджест статей

How Twitter processes 4 billion events in real-time daily
https://vutr.substack.com/p/how-twitter-processes-4-billion-events?t=

Data :Lakehouse Architecture: Overview, Tools and Cost Management
https://blog.devgenius.io/data-lakehouse-architecture-overview-tools-and-cost-management-c6b350b01c1b

Оптимизация SQL запросов
https://habr.com/ru/articles/861604/

40 лучших ИИ-инструментов 2025 году (проверенные и протестированные)
https://habr.com/ru/articles/871268/

Iceberg Catalogs: A Guide for Data Engineers
https://dzone.com/articles/iceberg-catalogs-a-guide-for-data-engineers

Искусственный интеллект в продукт-менеджменте: как ИИ облегчает жизнь продакта — обзор инструментов и личный опыт
https://habr.com/ru/articles/871172/

Part 1: A Survey of Analytics Engineering Work at Netflix
https://netflixtechblog.com/part-1-a-survey-of-analytics-engineering-work-at-netflix-d761cfd551ee

Data Modeling Techniques for the Post-Modern Data Stack
https://towardsdatascience.com/data-modeling-techniques-for-the-post-modern-data-stack-03fc2e4a210c

The Semantic Layer: What It Is and How Should It Be?
https://iamhuy.medium.com/the-semantic-layer-what-it-is-and-how-should-it-be-419904b24e3f

634

Клуб CDO

03 Jan, 21:40

Голосовые технологии и виртуальные ассистенты

Давайте немного отвлечемся от AI агентов и взглянем на тренды в области голосовых технологий. Компания Cartesia как раз опубликовала любопытный материал. Cartesia это компания работающая в области искусственного интеллекта, основанная в 2023 году группой исследователей из Стэнфордского университета. Основной продукт: Sonic - голосовой API с ultra-реалистичной генерацией речи.

Какие тренды отмечают коллеги в своем отечете из того, что показалось мне интересным:

⁃ В первую очередь прорывом в части интеграции LLM в цепочку STT → LLM → TTS что в целом дало буст разговорным интерфейсам за счет того что боты стали общаться более адекватно, улучшилось понимание и генерация ответов.
⁃ Появились полностью дуплексные системы преобразования речи в речь. Эти модели "всегда включены", поскольку они могут слушать пользователя, пока модель говорит. Это дает возможность заглянуть в будущее мультимодальной озвучки, где модели будут постоянно слушать пользователя.
⁃ Появились новые архитектуры моделей для речи: на основе пространства состояний (SSM) с авторегрессионным обучением. Эти архитектуры представляют собой значительный отход от более традиционных моделей трансформеров на основе внимания, поскольку они обеспечивают большую гибкость в средах развертывания. Теперь возможны развертывания на устройствах с ограниченной памятью, а также улучшенное качество и задержки.
• Речевые модели (имеется ввиду ASR/TTS) теперь поддерживают потоковую передачу данных, позволяя генерировать звук в реальном времени по мере получения данных от LLM, сохраняя при этом последовательность просодии (интонация, ритм, ударения, паузы) в сегментах речи.
• Улучшилась поддержка интеграции голосовых моделей в платформах создания ботов и виртуальных ассистентов, что снижает порог сложности для их применения и создания мультимодальных интерфейсов
• Эти же платформы становятся ключевым элементом общей инфраструктуры виртуальных ассистентов, объединяя в себя все элементы более “низкого” уровня технологического стека: ASR/TTS, LLM, RAG
• Очень интересно, что нарисовался целый отдельный класс платформ (observability platforms) предназначенный для оценки и контроля работы виртуальных ассистентов. Это такие платформы как: Hamming, Coval, Vocera, and Canonical
• С точки зрения бизнес-областей, использование голосовых ассистентов стало практически стандартом в рекрутинге, продажах и поддержке клиентов

В 2025 году следует ожидать дальнейшее снижение задержи работы моделей, улучшение в понимание контекста и обработку различных артефактов естественной речи, такие как прерывание речи, паузы и тд. Так же модели лучше смогут работать на конечных устройствах и станут более компактными за счет новых архитектур, дистилляции и использования специализированных чипов.

https://www.cartesia.ai/blog/state-of-voice-ai-2024

785

Клуб CDO

03 Jan, 15:03

Еще редакция хотела бы напомнить, что у нас есть twitter. Кому интересно и кто может туда ходить (тут оба условия должны выполняться одновременно) - подписывайтесь!

Но там контент несколько шире чем просто про данные, так что на любителя.

https://x.com/kaysersw?s=21&t=8hYN91GrWxuHxTD3byhnjA

748

Клуб CDO

03 Jan, 12:15

Минутка истории вспомнить про великую компанию которую NVidia столкнула с пьедестала 🙂

https://uproger.com/kratkaya-istoriya-intel/

782

Клуб CDO

02 Jan, 16:07

Рубрика «копилка»

https://medium.com/@amosgyamfi/the-6-best-llm-tools-to-run-models-locally-eedd0f7c2bbd

819

Клуб CDO

01 Jan, 10:37

Что читать про данные в 2025 году?

Хочу поделиться некоторыми источниками статей, которые редакция регулярно обрабатывает для подготовки дайджестов.

habr.com — основной источник. Вы, наверное, заметили, что в дайджест попадает очень много материалов отсюда. Статьи здесь разные: есть большие, качественные и вдумчивые, а есть плохо сделанные переводы.

medium.com — оригинал Habr на английском языке. Очень хорошие статьи: объемные, с полезными и практичными инсайтами. Отдельно стоит отметить удобную рекомендательную систему, которая помогает ориентироваться в большом количестве материалов.

semianalysis.com — это в основном платный источник, так как авторы обычно распространяют материалы по подписке. Некоторые из них стоят достаточно дорого, но качество содержания всегда на высоте. Статей не так много, но каждая достойна отдельного изучения с карандашом.

https://substack.com/home-i - тоже очень неплохой, но сложно находить на нем релевантные материалы

https://news.mit.edu — здесь обычно встречаются интригующие заголовки, но сами материалы часто не слишком глубокие.

https://dzone.com — всё чаще встречаются небольшие заметки, а действительно качественные материалы попадаются редко.

https://www.infoq.com — полезный ресурс: здесь можно найти не только новости, но и презентации с расшифровками, а также крупные статьи.

Блоги технологических компаний — их не привожу здесь списком, но ранее публиковал в постах. Также полезными источниками остаются LinkedIn и Twitter, где можно найти интересные ссылки и посты.

Вопрос к аудитории: что вы могли бы добавить в этот список? Какие источники вы регулярно читаете? Делитесь в комментариях!

890

Клуб CDO

31 Dec, 19:52

И все таки

https://habr.com/ru/articles/871104/?utm_source=habrahabr&utm_medium=rss&utm_campaign=871104

922

Клуб CDO

31 Dec, 16:42

ИМХО очень неплохая статья

https://clickhouse.com/blog/building-a-data-warehouse-with-clickhouse

921

Клуб CDO

30 Dec, 18:34

Редакция понимает, что достала всех уже этими агентами, но что бы закрыть тему:

https://www.llmwatch.com/p/a-non-technical-introduction-to-ai?utm_source=post-email-title&publication_id=1428667&post_id=151269796&utm_campaign=email-post-title&isFreemail=true&r=15862q&token=eyJ1c2VyX2lkIjo2OTI0NTM3OCwicG9zdF9pZCI6MTUxMjY5Nzk2LCJpYXQiOjE3MzI2NDIyNDksImV4cCI6MTczNTIzNDI0OSwiaXNzIjoicHViLTE0Mjg2NjciLCJzdWIiOiJwb3N0LXJlYWN0aW9uIn0.IgM3I67NlSN8gRiOu1gnZ8kJSCU0UgAZK4WhINw9rus&triedRedirect=true

996

Клуб CDO

29 Dec, 10:49

Дайджест статей

Как LLM меняют архитектуру систем: от простых дата-пайплайнов к интеллектуальным автономным агентам
https://habr.com/ru/articles/868648/

Кастомизация в Luxms BI: программируем под свои желания
https://habr.com/ru/companies/luxms_bi/articles/870684/?utm_source=habrahabr&utm_medium=rss&utm_campaign=870684

Чем занимаются дата-сайентисты в Авито — полный разбор
https://habr.com/ru/companies/avito/articles/870672/

Инфраструктура для Data-Engineer Liquibase
https://habr.com/ru/articles/863242/

Опыт Звука: как реализовать рекомендательную систему аудиокниг с использованием больших языковых моделей (LLM)
https://habr.com/ru/companies/zvuk/articles/869664/

Unity Catalog: Revolutionizing Data Governance and Collaboration in the Modern Era
https://towardsdev.com/unity-catalog-revolutionizing-data-governance-and-collaboration-in-the-modern-era-4bef053b972d?gi=f74e30595346

Universal data lakehouse: The most vendor/tool neutral data architecture
https://atwong.medium.com/universal-data-lakehouse-the-most-vendor-tool-neutral-data-architecture-b247b4fedf0a

Top 20 Platform Engineering Tools
https://medium.com/spacelift/top-20-platform-engineering-tools-7e9c7289fb94

Solve Governance Debt with Data Products
https://medium.com/@community_md101/solve-governance-debt-with-data-products-bc17e95384b0

Реальное внедрение LLM в бизнес-процессы (3 кейса)
https://habr.com/ru/articles/868784/

Как не нужно визуализировать данные: антипаттерны в примерах
https://habr.com/ru/articles/868870/?utm_source=habrahabr&utm_medium=rss&utm_campaign=868870

Tarantool CDC. Жизнь данных в гетерогенной среде
https://habr.com/ru/companies/vk/articles/868406/

Как выбрать вкусное вино на основе данных с помощью Luxms BI
https://habr.com/ru/companies/luxms_bi/articles/869382/

Безопасная миграция данных из Vault одной командой
https://habr.com/ru/companies/flant/articles/869290/

Дата-контракты: как мы научили жить дружно источники и потребителей данных
https://habr.com/ru/companies/ru_mts/articles/868384/

The Future of Data Lies in Transformer Models vs. Big Data Transformations
https://dzone.com/articles/the-future-of-data-lies-in-transformer-models-vs-b

Data Warehousing (DWH) best practices
https://rihab-feki.medium.com/data-warehousing-dwh-best-practices-ef9c61cf657d

967

Клуб CDO

28 Dec, 19:57

В продолжении дискуссии в комментариях к посту про агентов

953

Клуб CDO

28 Dec, 19:57

А не хайп ли это всё?

Может ИИ-агент ничем не отличается от "обычной" программы, а вся эта "автономность", "наличие инструментов" и LLM - не более, чем маркетинговый шум?

Давайте попробуем разобраться. Хайпа вокруг темы ИИ-агентов, действительно много.
Кто только не назвал 2025 год - годом AI-агентов в своих прогнозах!
(спойлер - я среди них)

Начнем с определения. TM Forum всегда отличался системным подходом сначала к систематизации телекома, а последние годы и любого цифрового бизнеса.

Поэтому будем опираться на формулировки этой организации, которая буквально месяц назад выпустила первый документ
"AI Agent v1.0.0" (IG1274M).

❗️

ИИ-Агент - это система искусственного интеллекта, которая использует LLM в качестве основного вычислительного механизма, что позволяет ей вести диалог, выполнять задания, рассуждать и демонстрировать определенную степень автономности.

Любой интеллектуальный агент должен обладать 5 ключевыми способностями:

1️⃣

Восприятие - сбор данных из окружающей среды

2️⃣

Классификация - извлечение и представление информации из воспринимаемых данных

3️⃣

Принятие решений на основе собранной информации

4️⃣

Действие - исполнение решения

5️⃣

Обучение - извлечение уроков и повышение правильности своих действий

❗️

Важно: Агент должен быть способен принимать решения и учиться на их результатах.

Для реализации этих способностей агент должен обладать следующими характеристиками:

▶️

Автономность - принимать решения и предпринимать действия без вмешательства человека

▶️

Сотрудничество - работать в команде с другими ИИ-агентами для коллективного решения задач

▶️

Итеративность - постоянно улучшать результаты за счет выполнения итераций

▶️

Реактивность - быстро реагировать на внешние стимулы

▶️

Адаптивность - фундаментальная характеристика, которая позволяет ИИ-агентам кооректировать свое поведение на основе опыта.

Постоянно обучаясь и накапливая опыт, ИИ-агенты могут оптимизировать свои решения и стратегии действий, адаптируясь к различным условиям и задачам. Для этого ИИ-агенты должны обладать сильными способностями к обучению и самооптимизации.

Исходя из этих характеристик можно определить Модель 6П ИИ-Агента.

На практике для ИИ-агентов LLM выступает в роли "мозга", управляющего шестью ключевыми процессами (см. картинку):

1️⃣

Понимание - распознавание намерений пользователя (датчики, сенсоры, текст, голос, изображения и тд)

2️⃣

Планирование - декомпозиция задач на подзадачи и план их выполнения, рефлексия над процессом, обучение на ошибках и улучшение результата.

3️⃣

Память - кратковременная (контекст выполнения задачи) и долговременная память (внешние знания)

4️⃣

Производство - ИИ-агент генерирует и оценивает решения, выбирает наилучшее в зависимости от условий окружающей среды и целей задачи, а также улучшает способность выработки решений за счет итераций и обратной связи после завершения задачи.

5️⃣

Применение инструментов - ИИ-агент использует внешние инструменты для взаимодействия с физическим миром, обучения и решения практических задач

6️⃣

Поведение - выполнение принятых решений, выбирая действия из доступного набора.

Для реализации этих процессов на рынке существует множество решений и собрать своего агента сегодня может каждый.

⁉️ Заменят ли ИИ-агенты сотрудников в компаниях в 2025 году?

Вряд ли.

⁉️ Будет ли у каждого сотрудника свой личный ИИ-агент в 2025?

Точно будет, и не один. 😎

(а вы как руководитель даже можете об этом и не знать. особенно, если считаете, что ИИ-агенты - это «обычные» программы)

🅰️

🅱️ @ReymerDigital

P.S. Собирать своих личных агентов начнем с начала Нового Года!
Пишите в комментариях какой формат для вас лучше - курс или закрытое сообщество.

1,044

Клуб CDO

28 Dec, 09:03

Крутейший выпуск научных итогов года с большим блоком о космических достижениях:
https://youtu.be/B0CZfE5Qhlo?si=z3AAkJz3LwsWzpoH

1,136

Клуб CDO

27 Dec, 16:45

AI Агенты

Что то тут решил разобраться что такое “AI Agent”, а то с одной стороны в голове вроде как есть какое то интуитивное понимание, но с другой нет четкого определения. Кроме этого постоянно вижу в разных канал всякие дискуссии на тему этого определения. Плюс, как любая новая и модная тема (вспоминаем термин Big Data) на это определение навешивают все, что только можно.

Итак, я бы дал такое определение: AI агент - программное обеспечение функционирующее с применением технологий ИИ, имеющее возможность активного взаимодействия с внешними системами и предназначенное для выполнение конкретной задачи.

Технологии ИИ - тут могут быть любые, от традиционного ML до нейросетей и, конечно, LLM

Активное взаимодействие - в теме агентов делается акцент на том, что система должна уметь выполнять какие то действия, а не просто многозначительно отвечать на вопросы

Конкретная задача - как показывает практика, что бы агент 007 мог выполнять какую то конкретную роль, надо немало постараться и сделать много всяких интеграций, запрограммировать правила, проверки и тд и тп. Поэтому чем более узкоспециализированный агент - тем лучше, а комплексные системы принято собирать из большого количества “мелких” агентов.

То есть по сути - обычный софт, но с LLM внутри, которую агент бомбит преднастроенными промпами 🙂

Является ли LLM тут необходимым элементом? ИМХО нет, но сейчас термин ИИ стал равен LLM, как когда то он был равен нейросетям, до этого ML и Байсовскому выводу, а когда то просто калькулятору.

Шаги для решения задачи могут быть организованы в виде цепочки, дерева или графа. Фреймворки задают структуру и организуют процесс рассуждений агента.

Для линейных задач подходит фреймворк Chain of Thought (CoT), где каждое действие следует за предыдущим. Этот фреймворк используется в OpenAI o1.
Для более сложных задач используются фреймворки Tree of Thought или Graph of Thought, которые учитывают несколько возможных вариантов развития событий.

Ну и по сути самая соль разработки агента это моделирование цепочки рассуждений/уточнений/действий и тд. которые задаются самыми различными методами и способами. По сути напоминает движение в сторону какого-то “вероятностного” программирования вместе детерминистического описания алгоритма, но тем не менее все равно это напоминает разработку алгоритма выполнения задачи только с гораздо более большим пространством вариантов действий.

https://youtu.be/KrRD7r7y7NY?si=USrlIMO0pN2IAJWU

https://blogs.epsilonmetrics.ru/ii-agenty-i-multiagentnye-sistemy/

1,231

Клуб CDO

26 Dec, 14:33

Немного космических новостей в нашем канале. 24 декабря 2024 года зонд Parker Solar Probe совершил исторический пролет, приблизившись к Солнцу на рекордное расстояние в 6,1 миллиона километров3. При этом аппарат развил феноменальную скорость около 700 000 километров в час. Подтверждение успешного маневра ожидается 27 декабря, когда зонд должен отправить сигнал на Землю (ждем пока еще).

Parker Solar Probe - это космический аппарат NASA, запущенный в 2018 году для революционного исследования Солнца и его атмосферы. Это самый быстрый объект, когда-либо созданный человеком.

Аппарат оснащен уникальной системой тепловой защиты, позволяющей ему выдерживать температуры до 1371°C а солнечные панели показывают меньшую деградацию, чем прогнозировалось, что обеспечивает более эффективную работу.

Ключевые задачи исследования:
- Изучение солнечного ветра и механизмов его образования
- Исследование солнечной короны и причин её аномально высокой температуры
- Анализ магнитных полей Солнца и, что самое инетресно, понятие причин их возникновения
- Изучение корональных выбросов массы

https://www.youtube.com/watch?v=JB64c2y_sqU&list=WL&index=1

420

Клуб CDO

25 Dec, 12:34

Кстати, вышел новый Альманах "Искусственный интеллект", я так понимаю что это обзор за 2023 год.

https://aireport.ru/ai_index_russia-2023

607

Клуб CDO

25 Dec, 11:21

А кто какие "обертки" над LLM использует? Редакция все больше любит Perplexia и потихоньку переползает на нее с нативного приложения ChatGPT. Мешает только то что при включенном VPN приложение не работает, только браузер 🙁

А у кого какие определились похожие любимые сервисы?

667

Клуб CDO

24 Dec, 18:40

О, Telegram вышел на точку безубыточности вдруг. Не зря Павел сидел :)))

https://www.perplexity.ai/page/telegram-turns-profit-CPOhpyd1SdSHzHryuaHLIw

791

Клуб CDO

24 Dec, 17:21

И немного о трендах. Тем более чем ближе конец года, тем больше статей о трендах на следующий 🙂

Коротко о сути: Apache доминирует, Iceberg наше все, Atlas похоже единственный достойный каталог в природе

UP: текст статьи в комментариях

https://medium.com/towards-data-engineering/data-engineering-2-0-trends-that-are-shaping-the-industrys-future-8d9415ddaa1d

801

Клуб CDO

23 Dec, 08:08

Дайджест статей

Druid Deprecation and ClickHouse Adoption at Lyft
https://eng.lyft.com/druid-deprecation-and-clickhouse-adoption-at-lyft-120af37651fd

Dear IT Departments, Please Stop Trying To Build Your Own RAG
https://pub.towardsai.net/dear-it-departments-please-stop-trying-to-build-your-own-rag-4546b4638273

Какие сложности мы преодолели при внедрении RFM-сегментации клиентов в Авито Недвижимости
https://habr.com/ru/companies/avito/articles/863960/

Харденинг баз данных
https://habr.com/ru/companies/otus/articles/866810/

Какой тип разметки данных требуется для вашего проекта? Полный гид по аннотированию изображений
https://habr.com/ru/companies/data_light/articles/868464/

Что такое метаданные в BI и как ими управлять? Обзор инструмента OpenMetadata
https://habr.com/ru/articles/868336/

Ошибайся смело: жизненные уроки из мира machine learning
https://habr.com/ru/companies/ru_mts/articles/867710/

The Missing Piece to Data Democratization is More Actionable Than a Catalog
https://medium.com/conveyordata/the-missing-piece-to-data-democratization-is-more-actionable-than-a-catalog-add3b0583fa0

Генерация дашборда по DAX мере через AI DAX движок
https://habr.com/ru/articles/866534/

Data driven на практике: с чего начать, как избежать ошибок и эффективно применять
https://habr.com/ru/companies/beeline_cloud/articles/867292/

Плюсы и минусы Luxms BI: честный взгляд на платформу от вендора
https://habr.com/ru/companies/luxms_bi/articles/867262/

775

Клуб CDO

22 Dec, 00:03

Лучшие книги 2024

Сегодня вместо дайжеста статей (перенесем его на завтра, с вашего позволения) будет долгожданный многими пост со списком лучших из 100 прочитанных редакцией в этом году книг. Тем более что по давней традиции Новый год у редакции начинается именно сегодня, а тут как раз в целом и сотню удалось добить 🙂 Не будем долго философствовать:

Книга года: Мобилизованная нация. Германия 1939–1945 - Nicholas Stargardt - лучшее что прочитал, хотя Пикуль с “Барбаросса” прям шли нога в ногу, тем не менее отдаю первенство именно этому произведению. Must read.

Остальной ТОП в разрезе каждой традиционной категории:

Секция "Художественная литература"
1. Orbital - Samantha Harvey
2. A View from the Bridge - Arthur Miller
3. Увидимся в августе - Gabriel García Márquez
4. Dark Matter - Blake Crouch
5. Disclaimer - Renée Knight

Секция "Биографии, философия и история"
6. Барбаросса (все 3-х тома) - Valentin Pikul
7. Истинноверующий. Мысли о природе массовых движений - Eric Hoffer
8. Мировой порядок - Henry Kissinger
9. Сказать жизни ДА!: психолог в концлагере - Viktor E. Frankl

Секция "Научпоп и вокруг него"
10. Helgoland: Making Sense of the Quantum Revolution - Carlo Rovelli
11. Невозможное в науке: расследование загадочных артефактов - Александр Никонов
12. Дизайн всего: Как появляются вещи, о которых мы не задумываемся - Scott Berkun
13. Шесть невозможностей: Загадки квантового мира - John Gribbin
14. История Бога. 4000 лет исканий в иудаизме, христианстве и исламе - Karen Armstrong

Секция "Саморазвитие и менеджмент”
15. The Culture Map: Breaking Through the Invisible Boundaries of Global Business - Erin Meyer
16. The Diary of a CEO: The 33 Laws of Business and Life - Steven Bartlett
17. Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones - James Clear
18. The Hard Thing About Hard Things: Building a Business When There Are No Easy Answers - Ben Horowitz
19. Чиллософия: Опыты выхода из безвыходности - Ирина Хакамада
20. The Venture Mindset: How to Make Smarter Bets and Achieve Extraordinary Growth - Ilya Strebulaev
21. Лидер и племя. Пять уровней корпоративной культуры - Dave Logan
22. Кругом одни идиоты. Если вам так кажется, возможно, вам не кажется. - Thomas Erikson

Секция "Библия разработчика"
23. Повелители DOOM. Как два парня создали культовый шутер и раскачали индустрию видеоигр - David Kushner
24. Fundamentals of Software Architecture: An Engineering Approach - Mark Richards
25. Mars Rover Curiosity: An Inside Account from Curiosity's Chief Engineer - Rob Manning

1,533

Клуб CDO

20 Dec, 12:01

Benchmark For Analytical DBMS

Вы когда нибудь имели диску на тему какая BD быстрее? Тогда наверное знаете, что нет правильного ответа на этот вопрос и что выбор BD должен быть обоснован конкретным кейсом и даже такие вещи как “распределение различных значений” в типовом профиле нагрузке на BD - важно.

В мире есть довольно большое количество рейтингов и сравнений разных BD но хитрость в том, что всегда надо смотреть на то на каких данных делается это сравнение, потому что хитрые производители BD всегда используют именно такой дата-сет, на котором они показывают лучшие результаты.

Вот примеры разных сравнений сравнений:

ClickBench — a Benchmark For Analytical DBMS: https://benchmark.clickhouse.com/
Brown University Mgbench: https://github.com/andrewcrotty/mgbench
UC Berkeley AMPLab Big Data Benchmark: https://amplab.cs.berkeley.edu/benchmark/
Mark Litwinschik's NYC Taxi: https://tech.marksblogg.com/benchmarks.html
h2o.ai https://h2oai.github.io/db-benchmark/
TPC-H: https://www.tpc.org/tpch/
TPC-DS: https://www.tpc.org/tpcds/

А вот очень неплохая статья со ссылками на описания особенности разных BD и другие рейтинги: https://habr.com/ru/companies/ruvds/articles/851330/

923

Клуб CDO

17 Dec, 21:57

тихо и незаметно в ChatGPT выкатилося o1 без приставки preview

1,381

Клуб CDO

16 Dec, 10:34

The Art of Discoverability and Reverse Engineering User Happiness

На днях обсуждали с коллегой какие перспективные темы есть в области управления данными и редакция высказала мысль, что задача Data Catalog так до сих пор и не решена. Пару лет назад к ней было приковано много внимания, но потом появились LLM и все убежали смотреть на них, а каталоги так и не вышли на какой-то более менее зрелый уровень.

По итогам хотим поделиться статьей по теме Data Discoverability.

В чем основные тезисы материала:
⁃ Основная идея - создание глобальной meta-модели данных описывающей всех источники данных организации
⁃ Решаемая проблема: работа с данными требует создания отдельных источников данных под каждый паттерн работы с данными что порождает в компаниях большое количество разрозненных источников часто с дублирующейся информацией
⁃ Данные очень динамичны, поэтому платформа метаданных должна следить за их постоянным развитием и поддерживать свежие метаданные, чтобы не допустить расхождений и пробелов между необработанными данными и бизнес-пониманием.
⁃ Что такое глобальная meta-model: модель данных для метаданных, позволяющая пользователям исследовать взаимосвязи и определять лучшие наборы данных, относящиеся к их текущему запросу. Она объединяет множество активов данных, источников, сервисов, целей и пользователей, обеспечивая логические связи, придающие данным смысл. Она активирует неактивные данные, подключая их к обширной сети экосистемы данных, позволяя пользователям и машинам начать использовать огромные объемы данных, которые ранее были бессмысленны из-за отсутствия семантики.
⁃ Плюсы наличия такой модели очевидно - и бизнесу и технологам жить сильно легче и проще 🙂
⁃ Какие типы решений могут помочь в реализации: Catalogs, Data Hubs, Marketplaces

https://moderndata101.substack.com/p/the-art-of-discoverability-and-reverse?utm_source=post-email-title&publication_id=1170209&post_id=153015029&utm_campaign=email-post-title&isFreemail=true&r=15862q&triedRedirect=true&utm_medium=email

1,221

Клуб CDO

15 Dec, 21:07

Дайджест статей

Каталог данных своими руками из PowerBi и небольшой БД
https://habr.com/ru/companies/vkusvill/articles/864998/

Корпоративная школа BI: от таблиц на коленке до дашбордов, которые реально работают
https://habr.com/ru/companies/leroy_merlin/articles/864328/

ML в промышленности: как построить систему управления процессом окомкования железорудных окатышей
https://habr.com/ru/companies/oleg-bunin/articles/865088/

Миграция с Tableau на опенсорс-версию DataLens: лёгкий путь с препятствиями
https://habr.com/ru/companies/yandex_cloud_and_infra/articles/865648/

Инфраструктура для Data-Engineer виртуальные окружения
https://habr.com/ru/articles/861412/

Как решения Data Access Governance и Data Centric Audit Protection помогают бороться с утечками данных
https://habr.com/ru/companies/solarsecurity/articles/866422/

Multi-Agent Conversation With AutoGen AI
https://dzone.com/articles/multi-agent-conversation-with-autogen-ai

LLMs may have a killer enterprise app: ‘digital labor’ — at least if Salesforce Agentforce is any indicator
https://techcrunch.com/2024/12/04/llms-may-have-a-killer-enterprise-app-digital-labor-at-least-if-salesforce-agentforce-is-any-indicator/

Data Architectures in the AI Era: Key Strategies and Insights
https://dzone.com/articles/data-architectures-in-the-ai-era

Apache Iceberg: The Open Table Format for Lakehouses and Data Streaming
https://dzone.com/articles/apache-iceberg-open-table-format-lakehouses-data-streaming

Unlocking Enterprise Data Potential with Retrieval Augmented Generation
https://www.smartdatacollective.com/unlocking-enterprise-data-potential-with-retrieval-augmented-generation/

1,265

Клуб CDO

12 Dec, 13:39

Коллеги подсказали интересную статью - краткий обзор состояния рынка конфиденциальных вычислений. Редакцию эта тема особенно интересует, но, к сожалению, времени на ее предметное и практическое изучение не очень много остается, поэтому продолжаем пока больше наблюдать, чем изменять происходящее 🙂

В целом интересно:

"Объем глобального рынка конфиденциальных вычислений по итогам 2024 г. будет находиться на уровне $824 млн (примерно 86 млрд руб.), прогнозируют в консалтинговой компании MarketsandMarkets. При этом на протяжении пяти лет, до 2029 г., темпы его ежегодного прироста будут составлять 11,4%, таким образом, к началу следующего десятилетия объемы мирового рынка MPC перевалят за $1,4 млрд."

"«Для эффективной работы с данными необходимо создавать экосистемы для их совместного использования. Коммерческие и государственные организации ищут возможности взаимодействовать друг с другом так, чтобы не нарушать регуляторные ограничения и не разглашать чувствительную информацию. И здесь конфиденциальные вычисления могут стать серьезным подспорьем»"

https://www.vedomosti.ru/technologies/trendsrub/articles/2024/12/03/1078864-konfidentsialno-i-tehnologichno

1,388

Клуб CDO

10 Dec, 17:03

Обсуждали с коллегами сегодня алгоритм"vector clocks" и редакция решила и тут поделиться информацей и статьей о том что это такоею. Может быть кому то покажется интересным.

vector clocks:
- это такой метод установления seq num у сообщений, которыми обмениваются более 2-х компонентов работающих в распределенной среде с ненадежной средой передачи данных

- предназначен для того, что бы гарантировать обработку сообщений принимающими компонентами в том же порядке, в котором они были сгенерированы в источнике в случае если мы не может гаранировать того, что они дойдут до приемника в том же порядке, в котором бы отправлены источником

- приемник использует буфер, что бы накапливать приходящие сообщения и обрабатывать их по мере того, как востанавливается их порядок

то есть основная идея/задача алгоритма - гарантировать, что сообщения будут обработаны приемником в том же порядке, что их генерировали источники

краткое описание с примерами кода:

https://www.geeksforgeeks.org/vector-clocks-in-distributed-systems/

1,328

Клуб CDO

10 Dec, 05:26

Закон Бенфорда

Для начала проведём мысленный эксперимент. Предположим, что у нас есть прибор, который может измерить всё что угодно - массу любой планеты, скорость света, период полураспада частицы, население любого города, объём песка в пустыне, глубину моря и т.д.

Если мы заранее не знаем результата, то какова вероятность того, что первая цифра в измерении "1" (например, как заряд электрона, или населения Китая)?

А какая вероятность того, что первая цифра в измерении "9" (например, как у постоянной Фарадея)?

Теперь попробуйте ответить, изменится ли вероятность, если мы переключим наш прибор на другую единицу измерения - например, вместо метров будем использовать футы?

Интуитивно можно предположить, что вероятность увидеть единицу на первом месте в измерении такая же, как и девятку. На самом деле это не так.

В 1938 году физик Фрэнк Бенфорд проанализировал данные о площади бассейна сотен рек, удельной теплоёмкости и молекулярном весе тысяч химических соединений, номерах домов сотен улиц.

Он выявил, что единица является первой значащей цифрой с вероятностью не 1/9, как следовало ожидать, а около 1/3!

Закон первой цифры

Закон Бенфорда (или закон первой цифры) гласит, что в реальной жизни цифра 1 на первом месте встречается гораздо чаще, чем все остальные. Также, чем меньше эта цифра, тем выше вероятность.
То есть единица на первом месте встречается, приблизительно в 30% случаях, и примерно в 6 раз чаще, чем цифра 9.

Если быть более точным, то вероятность появления цифры d на первом месте равна log10(1 + 1/d).

Вы можете проверить это сами на простом примере. Составьте список файлов на вашем компьютере, а затем проанализируйте, на какую цифру начинается размер файла. Я лично проверил это на своих файлах - распределения первой цифры невероятно точно соответствуют закону Бенфорда.

И кстати, как вы можете уже догадаться, система измерения не влияет на закон. Не важно, проводим ли мы измерение в секундах или часах - вероятность первой цифры не меняется.

1,375

Клуб CDO

09 Dec, 18:34

Дайджест статей

CRUS: принципиально новая архитектура работы с данными
https://habr.com/ru/articles/863968/

Платформа данных в хранилище Магнит OMNI
https://habr.com/ru/companies/magnit/articles/864472/

О векторных базах данных простым языком
https://habr.com/ru/companies/ruvds/articles/863704/

Сколько стоит искусственный интеллект для малого бизнеса
https://habr.com/ru/articles/864882/

NLP: когда машины начинают понимать нас (Часть 1)
https://habr.com/ru/articles/864656/

NLP: когда машины начинают понимать нас (Часть 2)
https://habr.com/ru/articles/864778/

NLP: когда машины начинают понимать нас (Часть 3)
https://habr.com/ru/articles/864912/

Конкурентное преимущество: почему ИИ-агенты — ключ к успеху вашего бизнеса
https://habr.com/ru/articles/864618/

Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях
https://habr.com/ru/companies/wildberries/articles/861466/

Построение базы знаний компании и поиска документов на LLM и RAG
https://habr.com/ru/companies/raft/articles/863888/

Пора перестать в любой непонятной ситуации строить DWH для аналитики
https://habr.com/ru/articles/863308/

1,114

Клуб CDO

04 Dec, 09:24

🏆Сергей Золотарев, основатель и директор по стратегическому развитию Arenadata, состоит в экспертном совете Data Award с момента создания премии.
✔️Сергей рассказал, какой путь премия прошла за годы существования, а также поделился наблюдениями, как, на его взгляд, изменилась профессия CDO, и идеями о том, что ждет ее в будущем.
📖Читайте подробнее в интервью с Сергеем➡️ "CDO должен соблюдать баланс между технологиями и бизнесом"

1,673

Клуб CDO

03 Dec, 19:38

Люди уже совсем не стесняются :)

1,640

Клуб CDO

02 Dec, 13:42

Call&Contact Centre EXPO

На прошлой неделе редакция посетила мероприятие Call&Contact Centre EXPO и хотела бы поделиться некоторыми заметками.

В целом мероприятие было не очень большое по меркам Лондона, я бы сказал ближе к среднему размеру по площади и количеству участников. Конечно, как любое бесплатное мероприятие большую часть всей повестки занимали вендоры которые на сессиях рассказывали о своих решения. Мне удалось походить по выставке, посмотреть стенды и послушать только пару докладов, тк времени было не очень много. Большая часть выставки занимали традиционные вендоры работающие в области автоматизации колл центров (Verint, Nice, DCC) + вторые по величине были такие копании как Zoom и 8x8 которые в целом позиционируется на клиентских коммуникациях. Непосредственно каких-то особо инновационных стартапов я не очень много увидел, был интересный стенд у Boost.AI, но больше не могу кого то отметить. В целом общая повестка - использование GenAI в клиентских коммуникациях.

Так же в части организации мне показалось интересным то, что все доклады сопровождались real-time транскрибацией - хорошая практика :)

В целом по итогу докладов и общения я могу выделить следующие takeaways которые могут быть полезны для наших задач:

⁃ На самом деле непосредственно сам GenAI все используют крайне мало, пока больше это маркетинговые лозунги
⁃ Самый распространенный кейс применения GenAI - суммаризация звонка с клиентом и отсылка этого самари клиенту и фиксация его в CRM системе
⁃ Самый ценный источник данных для RAG любого чат бота или визуального ассистента - данные предыдущих звонков и общения операторов в клиентами. Как показывает практика это дает намного более сильные результаты по сравнению с любыми внутренними статичными knowledge base
• ⁃ Так же интересная статистика была показана по call centre - по мере того, как автоматизация за счет AI берет на себя закрытие простых вопросов с клиентами, на операторов начинают переводиться все более сложные рейсы, это приводит к увеличению среднего времени звонка и меняет профиль нагрузки на call centre, требует более высокой средней квалификации операторов. Эти тенденции следует иметь ввиду при реализации проектов по автоматизации коммуникаций.

1,645

Клуб CDO

30 Nov, 19:50

Дайджест статей

Михаил Водолагин, ex-CDO Deeplay: «Люди умудряются выстрелить себе в ногу очень по-разному!»
https://habr.com/ru/articles/860322/

Scaling the Instagram Explore recommendations system
https://engineering.fb.com/2023/08/09/ml-applications/scaling-instagram-explore-recommendations-system/

Репликация данных с использованием Debezium и Kafka
https://habr.com/ru/articles/861868/

Человек и LLM: как построить метрики для оценки моделей
https://habr.com/ru/companies/yandex/articles/861084/

Извлечение метаданных из Power BI
https://habr.com/ru/articles/862052/

Инфраструктура для Data-Engineer форматы файлов
https://habr.com/ru/articles/859968/

Миграция данных: косяки и работа над ошибками
https://habr.com/ru/articles/862324/

Как приготовить DataVault и не испортить Greenplum
https://habr.com/ru/companies/x5digital/articles/862384/

Зачем нам ИИ-агенты?
https://habr.com/ru/companies/piter/articles/862314/

Как организовать разметку данных для ML? Советы от Data Light
https://habr.com/ru/companies/data_light/articles/862464/

526

Клуб CDO

27 Nov, 20:31

Редакция сегодня посетила мероприятие Call & Contact Centre EXPO

Автоматизация коммуникации с клиентами уже много лет остается областью, где технологии ИИ являются самыми востребованными и где результат из применения очевиден и понятен и каждый из нас может на себя почувствовать всю их мощь когда звонит в любимый банк или телеком провайдеру.

В целом выставка не удивила, все стенды плюс минус про одно и тоже, поэтому более ценны тут выступления и нетворкинг.

Из выступлений послушать удалось не много но одно было очень интересное. Из ключевых выводов:

в то время как ИИ закрывает простые и массовые вопросы, на колл центры смещается нагрузка в части более сложных кейсов требующих большей продолжительности диалога
Самый лучший источник знаний для ИИ - предыдущие диалоги и разговоры с оператором. Поэтому именно к этой категории данных следует относится максимально внимательно.

А еще было очень интересно что организаторы пускали при докладах real time транскрипцию на экранах. Удобно :)

872

Клуб CDO

27 Nov, 10:24

Интересные кейсы! Довольно конкретно и без воды, посмотрите.

787

Клуб CDO

27 Nov, 10:24

Предиктивная аналитика на базе ИИ

В мире бизнеса предиктивная аналитика на базе искусственного интеллекта становится неотъемлемым инструментом для оптимизации процессов и повышения эффективности. В новой статье мы вместе с коллегами рассмотрели, как компании используют машинное обучение для предсказания поведения клиентов и улучшения маркетинговых стратегий.

Узнайте, как современные технологии помогают банкам и производителям товаров личной гигиены находить свою целевую аудиторию и минимизировать риски мошенничества.

Полная версия по ссылке

853

Клуб CDO

26 Nov, 19:13

Так же редакция горячо поздравляет команду SberJazz за победу в номинации «Коммуникационная платформа с ИИ»

Награду CNews AWARDS в номинации «Коммуникационная платформа года с ИИ» получила компания SberDevices c продуктом SaluteJazz. SaluteJazz — это ИИ-платформа коммуникаций, сочетающая в себе привычные функции для делового общения и возможности искусственного интеллекта. Решение позволяет организовывать онлайн-встречи до 1000 участников, вебинары на 3000 тысячи зрителей,безопасно общаться в чатах встроенного корпоративного мессенджера. На базе нейросетевой модели GigaChat реализована функция автоматического подведения итогов встречи. Также платформа предоставляет и другие ИИ-функции: текстовую расшифровку диалогов, бьютификацию и шумоподавление. Помимо этого, в SaluteJazz доступны встречи в 3D-формате, когда вместо себя на звонок можно отправить анимированного персонажа.

1,280

Клуб CDO

26 Nov, 19:11

Сегодня были объявлены победители премии CNews

Награду в номинации «Управление данными в промышленности» получил проект, реализованный компаниями ЕВРАЗ и Tdata. Использование RT.Data Governance при создании единой системы производственных показателей в компании ЕВРАЗ позволило обеспечить документирование данных, ведение единого глоссария терминов и алгоритмов расчета показателей. Скорость разработки витрин данных и аналитических дэшбордов увеличилась вдвое. На сегодняшний день в систему внесено более 6 тыс. производственных показателей, из которых 3 тыс. уже содержат детализированное описание.

https://biz.cnews.ru/articles/2024-11-19_obyavleny_laureaty_cnews_awards_2024

850

Клуб CDO

26 Nov, 13:34

Только начал читать эту книгу, но уже после первых 2-3 глав испытал такой восторг, что спешу рекомендовать ее к обязательному прочтению! Очень интересная теория уровней развития корпоративной культуры, которая отлично соотносится с моим собственным опытом и помогает систематизировать многое из того, что я наблюдаю как вокруг, так и в себе.

Авторы выделяют 5 моделей культуры группы, и особенно мне понравилось, что они подчеркивают: в одной и той же организации разные группы, отделы и даже отдельные люди могут находиться на разных уровнях. Более того, они способны перемещаться между этими уровнями в зависимости от обстоятельств. На мой взгляд, это очень верная теория, и я сам замечаю такие перемещения в своем поведении.

В книге представлен полезный framework для диагностики, который помогает определить, на каком уровне находится ваша организация, а также рекомендации для тех, кто, как менеджер, хочет внести изменения в своей компании.

https://www.goodreads.com/book/show/34375294

871

Клуб CDO

25 Nov, 16:14

В то время, как мы говорим о гипер-автоматизации всего и вся и в первую очередь в коммуникациях с клиентами, некоторые игроки рынка (это скрин онбординг экрана из мобильного приложения Mettle - проекта банка NatWest) заявляют human-based поддержку как преимущество для клиентов :)

1,152

Клуб CDO

25 Nov, 10:49

Немного юмора :)

1,087

Клуб CDO

24 Nov, 22:53

Дайджест статей

ИИ-инструменты для аналитиков: теория, кейсы, советы
https://habr.com/ru/companies/korus_consulting/articles/860242/

Почему ИИ рано поручать код-ревью
https://habr.com/ru/articles/859582/

Модели данных в BI-платформах: физика против логики
https://habr.com/ru/companies/axenix/articles/860094/

CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API
https://habr.com/ru/companies/cedrusdata/articles/860356/

Секреты построения Data Vault 2.0: эффективное хранение данных
https://habr.com/ru/companies/cinimex/articles/857084/

I spent another 8 hours understanding the design of Amazon Redshift. Here’s what I found.
https://blog.det.life/i-spent-another-8-hours-understanding-the-design-of-amazon-redshift-heres-what-i-found-85c31a59fd19

I spent 5 hours understanding more about the Delta Lake table format
https://blog.det.life/i-spent-5-hours-understanding-more-about-the-delta-lake-table-format-b8516c5091eb

Apache Superset 2024. Лучшие практики
https://habr.com/ru/companies/otpbank/articles/815689/

A data-driven approach to making better choices
https://news.mit.edu/2024/data-driven-approach-making-better-choices-0606

932

Клуб CDO

20 Nov, 09:47

Вот как??? Вот как так может работать поиск в приложении, в эпоху больших данных, искусственного интеллекта и восстания машин????

1,218

Клуб CDO

19 Nov, 16:44

Заметил тут статью и решил отлодить его из дайджеста в отдельный пост, показалось инетресным.

Основная идея (мой take away) - хорошая платформа - та, которой пользуются! и технологии тут ни при чем 🙂

Какие темы упомянуты:

1. Шаблоны: Подчеркивается важность использования шаблонов, таких как Kanban и Agile в JIRA или Data Product в DataOS, чтобы помочь пользователям легко ориентироваться в новом экосистеме.

2. Документация, основанная на опыте: Рекомендуется предоставить пользователям документацию, основанную на их опыте, а не на обучении, чтобы они могли сразу увидеть ценность платформы.

3. Интеграция с привычными инструментами: В статье подчеркивается необходимость поддерживать интеграцию с инструментами, которые пользователи уже используют (например, git для разработчиков или BI-инструменты для аналитиков), чтобы облегчить переход на новую платформу.

4. Дорожная карта развития продукта: Обсуждается важность вовлечения пользователей в процесс создания и обновления дорожной карты платформы, чтобы они могли видеть, как их запросы учитываются и как платформа развивается.

5. Гид по платформе и FAQ: Указано на необходимость наличия встраиваемых справок и инструкций, чтобы пользователи не терялись в новом интерфейсе и могли легко находить ответы на свои вопросы, что значительно улучшает общий опыт.

Работа с данными должна быть интуитивно понятной и поддерживаться постоянным взаимодействием с пользователями, чтобы они чувствовали себя частью экосистемы и могли быстро адаптироваться к изменениям.

https://medium.com/@community_md101/building-data-platforms-the-mistake-organisations-make-f27874447fef

1,296

Клуб CDO

18 Nov, 13:52

Коллеги, напоминаем, что сейчас идет сбор заявок на участие ваших проектов в премии Data Award 2025 - поспешите с подачей заявки!

https://www.osp.ru/articles/2024/1118/13058948

1,143

Клуб CDO

17 Nov, 23:34

Дайджест статей

Why AI-generated recommendation letters sell applicants short
https://www.nature.com/articles/d41586-024-03481-4

Dask для анализа временных рядов
https://habr.com/ru/companies/otus/articles/855408/

ML-тренды рекомендательных технологий: шесть приёмов, которые помогают угадывать желания пользователя
https://habr.com/ru/companies/yandex/articles/857068/

7 причин, почему компании внедряют BI, даже если есть отчеты 1С
https://habr.com/ru/articles/858486/

Big Data мертвы, да здравствуют Smart Data
https://habr.com/ru/companies/magnus-tech/articles/853192/

Как создать дашборд в Superset: гайд для новичков и полезные лайфхаки
https://habr.com/ru/companies/okko/articles/859140/

Сравнение реализаций гео-решений в СУБД
https://habr.com/ru/companies/otus/articles/858680/

Инфраструктура для Data-Engineer BI-tools
https://habr.com/ru/articles/856922/

Сравнение бенчмарков LLM для разработки программного обеспечения
https://habr.com/ru/articles/857754/

Машинное обучение в оценке кредитных рисков: как ML меняет правила игры?
https://habr.com/ru/companies/data_light/articles/858540/

1,277

Клуб CDO

14 Nov, 09:32

Полезная статья, вынесу пожалуй в отдельный пост

https://habr.com/ru/companies/piter/articles/853400/?utm_source=habrahabr&utm_medium=rss&utm_campaign=853400

1,411

Клуб CDO

11 Nov, 11:49

Дайджест статей

Графики, которые работают: выбор лучшей визуализации
https://habr.com/ru/articles/856206/

Области применения ИИ в разработке ПО
https://habr.com/ru/companies/it_monsters/articles/856598/

Что такое Data Driven подход
https://habr.com/ru/articles/856920/

Data Fusion Contest 2024, разбор и итоги соревнования
https://habr.com/ru/companies/T1Holding/articles/856228/

Выбираем BI платформу для начинающего специалиста
https://habr.com/ru/articles/857234/

Написание ETL пайплайна при помощи airflow, rabbitmq и postgres
https://habr.com/ru/articles/857476/

Managing human-AI collaborations within Industry 5.0 scenarios via knowledge graphs: key challenges and lessons learned
https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2024.1247712/full

История Data Literacy в России
https://habr.com/ru/articles/857176/

Виды аналитиков данных
https://habr.com/ru/companies/yandex_praktikum/articles/852068/

1,465

Клуб CDO

08 Nov, 11:30

Друзья, рады сообщить вам о запуске нового модуля в CDP CleverData Join — Campaign Manager!

Компания CleverData, разработчик платформы для управления данными в маркетинге, добавила этот модуль, чтобы решить важную задачу: предоставить пользователям возможность не только обрабатывать данные, но и непосредственно их использовать в маркетинговой коммуникации с клиентами.

Campaign Manager — это не просто еще один инструмент для управления кампаниями; это решение, основанное на данных, которое позволит максимально эффективно реализовать маркетинговые стратегии.
Теперь управление маркетинговыми кампаниями стало проще и эффективнее. С помощью Campaign Manager можно:
✨ Создавать массовые рассылки
✨ Отправлять email, SMS и Push-уведомления
✨ Управлять согласиями
✨ Редактировать шаблоны
✨ Выставлять приоритеты рассылки
✨ Использовать API для подписки и отписки
✨ Применять инструменты AI для маркетинга
Чтобы подробнее узнать о том, как работает Campaign Manager и как интеграция с Unisender Go поможет повысить эффективность ваших маркетинговых коммуникаций, приглашаем вас на вебинар!
Дата: 19 ноября
Время: 11:00

На вебинаре эксперты подробно расскажут о функционале нового модуля Campaign Manager в платформе CDP CleverData Join, управлении клиентскими данными и автоматизации рассылок.

Спикеры:
🧑🏻‍💻 Сергей Фокин, менеджер продукта CDP CleverData Join
🧑🏻‍💻 Григорий Бахин, коммерческий директор Unisender

Не упустите возможность узнать, как новый модуль может трансформировать маркетинговые стратегии в компании, выстраивая процесс маркетинга на данных.

Регистрация тут

1,407

Клуб CDO

06 Nov, 14:15

рубрика "no comments"

1,581

Клуб CDO

05 Nov, 18:14

На подходе новое поколение глосовых помошников.

На этой неделе появился анонс новой версии виртуального помошника Alexa, с глубокой интеграцией с LLM и умными устройствами компании. Какие возможности дают новые технологии для виртуальных ассистентов?

🎥 Мультимодальность: Amazon заявила о расширении возможностей общения с ассистентом, включая невербальное взаимодействие и интеграцию с умными устройствами. Это позволит ассистенту более точно понимать паузы в разговоре и определять, когда пользователь хочет продолжить фразу. Также можно будет взаимодействовать без активационного слова — достаточно просто посмотреть на экран умного устройства.

🤖 Агентность: Ассистент сможет не только отвечать на вопросы, но и выполнять сложные сценарии от лица пользователя. Например, можно настроить сценарий «каждую субботу в 6 утра включай свет и песню Metallica в детской». Поддержка интеграций с внешними системами пока не анонсирована, но вероятно, что это следующий шаг.

💡 Контекст и память: Ассистент будет сохранять историю диалогов, распознавать пользователя, понимать контекст беседы и продолжать её с того места, где была завершена. Это новый уровень взаимодействия, максимально приближенный к реальному общению.

🗣️ Речь: Обещаны новые технологии генерации и распознавания речи с улучшенной плавностью и возможностью подстраиваться под эмоциональную окраску диалога. Например, если спросить у Alexa, выиграла ли команда, она ответит радостно при победе и с сочувствием при поражении.

💳 Платежи: Виртуальные ассистенты и их интеграция с умными устройствами может перевернуть сферу eCommerce и платежей. Прогнозы аналитиков показывают, что новые технологии LLM и «мягкие» сигналы (например, тип устройства, местоположение) могут обеспечить более бесшовные и безопасные платежи, которые помогут избежать проблем на этапе оплаты, где сейчас теряется до 27% покупок.

📈 Бизнес-модель: Аналитики ожидают введения платных подписок для ассистента (примерно $5-10 в месяц), при этом бесплатная версия останется доступной. Пока неясно, чем будут отличаться платные и бесплатные тарифы, но рынок следит за развитием, так как такие модели еще не были опробованы. Кстати, над своим ассистентом работает и Meta, тоже анонсировавшая платную подписку.

📅 Технологии и сроки запуска: Ожидается, что Alexa будет использовать модели от Anthropic, поскольку Amazon столкнулась с трудностями в разработке собственных моделей. Главная техническая проблема — скорость генерации ответа, поэтому запуск продукта ожидается в 2025 году (ранее прогнозировали октябрь 2024).

https://youtu.be/SKybmb0M1MU

1,587

Клуб CDO

04 Nov, 12:57

Дайджест статей

Как мы научились эффективно управлять ростом данных с переходом на BW/4HANA
https://habr.com/ru/companies/lentatech/articles/855412/

От кода к роботам — основные тренды ИИ, меняющие бизнес и жизнь
https://habr.com/ru/companies/sherpa_rpa/articles/855596/

Действительно ли ИИ-помощники экономят время разработчиков?
https://habr.com/ru/companies/spring_aio/articles/854624/

Data-driven подход в аналитике: как использовать данные для принятия решений в FinTech
https://habr.com/ru/companies/it_monsters/articles/854978/

Работа с календарями в BI — с DAX и без него
https://habr.com/ru/companies/visiology/articles/855178/

Импортозамещение Data Quality стека в нефтегазохимии: опыт СИБУРа
https://habr.com/ru/companies/sibur_official/articles/855310/

Data Governance in Big Data: Ensuring Quality, Security, and Compliance
https://medium.com/@adityas.rajput22/data-governance-in-big-data-ensuring-quality-security-and-compliance-98a2b1dd561c

Migrating to an iceberg lakehouse: key architecture considerations
https://medium.com/@hugolu87/migrating-to-an-iceberg-lakehouse-key-architecture-considerations-08e636890ab5

1,205

Клуб CDO

01 Nov, 14:09

Прочитать тысячу книг - все равно что прожить тысячу жизней

Немного философии от редакции (там про данные в конце вывод) 🙂 Почему надо читать не только бизнес-литературу и учебники но и художественную литературу 🙂

Все же уже знают (из многочисленных книг по бизнес-литературе и учеников), что наш мозг не различает реальность и воображение – он одинаково реагирует на реальные ощущения и мысленные образы. Это связано с тем, что во время представления определенной ситуации активируются те же нейронные сети, что и при ее реальном переживании. Например, когда человек представляет, что идет по песчаному пляжу, в мозгу активируются те же области, которые задействованы при физическом ощущении тепла песка под ногами. На этом эффекте основаны практики аутотренинга: мысленно воспроизводя образы и ощущения, человек может управлять состоянием тела и психики, достигая расслабления или мотивации.

И мне кажется, что каждая прочитанная хорошая книга оставляет в нас не только приятное воспоминания, но и меняет нас, так же как меняют реальные переживания и опыт и в наших новых нейронах связях остается частичка прочитанной истории.

Мы - это субъективный опыт и никакая аналитика не может его передать, его может передать только искусство: музыка, живопись, книги…

У LLM нет (ну пока так точно) субъективного опыта и все, что производится моделью - красиво, но это реплика.

Поэтому пока я не думаю что настоящее искусство под угрозой, потому что человеку нужен человек и его субъективные ощущения, которые трогаю струны нашей души через песни, книги и картины.

1,403

Клуб CDO

31 Oct, 14:02

Brutforce побеждает логику 🙂

Я тут в выходные читал книгу про лингвистику и там была глава о том, как трудно делать автоматический перевод текста с одного языка на другой. И что в 60-е годы были основаны целые институты для создания соответствующих логических моделей и годами по этой теме велась огромная работа. И тут я подумал: а я ведь сейчас для перевода в основном использую ChatGPT, а ее ведь этому вообще не учили, это такой side effect получился. И получается, что LLM просто перечеркнула все то, что сумела создать лингвистика?

И я хотел поделиться этой мыслью тут в канале, но наткнулся на эту замечательную статью и делюсь ссылкой на нее. В ней эта идея раскрывается не просто великолепно, а с мощнейшей аргументацией в виде наглядного примера компании и продукта, ссылками на авторитетные источники и тд. Я очень рекомендую почитать статью, несмотря на довольно большой объем - очень интересно.

Тут и про то, как LLM убил продукт в который компания вкладывала миллионы долларов, и про историю замечательной компании ABBYY, и про бизнес-уроки, которые можно вынести для себя. Да и вообще много нового можно узнать про ABBYY и про морфологию 🙂

Да, и про то, что тренд на замечание эмпирической логики, которую мы в продуктам все еще очень активно продолжаем использовать, все более мощным LLM очевиден и достоит отдельного обдумывание. Имхо у нас сейчас тут момент как переход от процедурного программирования к объектно-ориентированному. Тут нужна смена парадигмы в голове.

В общем на выходные вам домашка 🙂

https://sysblok.ru/blog/gorkij-urok-abbyy-kak-lingvisty-proigrali-poslednjuju-bitvu-za-nlp/

1,514

Клуб CDO

29 Oct, 07:38

Perplexity

Ребята, конечно, молодцы. Стал замечать, что все больше и больше переползаю на них с нативного интерфейса ChatGPT. Очень активно обрастают новыми функциями и возможностями, только что выпустили приложение для Mac, что для меня тоже очень приятно.

В чем я отмечаю для себя удобства:

Первое, это, конечно, выбор моделей. Там нет пока o1, но зато есть Lama и Cloude. Но нет Gemini и Grok, а было бы интересно с ними тоже поработать, а когда надо в каждую модель отдельно ходить - не удобно.

Зато есть Spaces - очень удобная фича, где ты можешь задать промпт для однотипных запросов. В LLM правильный промпт - залог успеха, а писать его каждый раз, как это надо делать в ChatGPT - убийство. Я вот очень часто использую модель для перевода текста на английский и тут я задал один раз задачу, указал стиль в котором нужен итоговый текст (я обычно прошу на языке Шекспира переписывать мой русский текст) и просто постишь ей текст для перевода.

Ссылки на источники и интеграция с поиском - если они начинали как чисто поиск (или его замена), то сейчас это поиск + llm и это стало удобнее. Ну и то что сразу ссылки красиво выпадают и можно пойти в источник и самому разобраться - тоже очень полезно.

Новости - там есть тред новостей, в целом интересные подборки делает, но пока еще как то явно есть куда развиваться им в этом плане.

Ну и конечно нельзя не заметить активное развитие функций командной работы, возможностей для крупного enterprise и тд.

В целом интересно наблюдать за развитием на рынке 2-х типов решений:
⁃ Классические SaaS приложения оборачиваются в LLM и трансформируются
⁃ Классические LLM пытаются обрастать функциями классических приложений

Явно они встретятся где то посередине и эту середину все пытаются активно найти.

То же самое происходит и с поиском. Я не апологет того, что LLM победит поиск. Поиск с его классическими игроками типа Google тоже на месте не сидит и обладая мощнейшей инфраструктурой для работы с данными, сбора данных, роботами для обхода интернета которые прописаны везде и всюду, обученной армией лояльных маркетологов, которые отвечают за продвижение контента, является более зрелым игроком и тупо просто лучше знает рынок и потребителя. Поэтому имхо тут следует говорить о синергии и слиянии, а не о замещении.

https://www.perplexity.ai/

1,470

Клуб CDO

27 Oct, 10:55

Дайджест статей

Data Architecture: Lessons Learned
https://towardsdatascience.com/data-architecture-lessons-learned-3589b152a8a6

Automate Private Azure Databricks Unity Catalog Creation
https://dzone.com/articles/automate-azure-databricks-unity-catalog-creation

Building Predictive Analytics for Loan Approvals
https://dzone.com/articles/building-predictive-analytics-for-loan-approvals

SQL and Data Modelling in Action: A Deep Dive into Data Lakehouses
https://towardsdatascience.com/sql-and-data-modelling-in-action-a-deep-dive-into-data-lakehouses-fcbab9a4b9c2

Building Data Platforms: The Mistake Organisations Make
https://medium.com/@community_md101/building-data-platforms-the-mistake-organisations-make-f27874447fef

Почему СУБД такие медленные
https://habr.com/ru/companies/ruvds/articles/851330/

Автоматизировать аналитику, визуализировать данные и не только — примеры российских BI-решений
https://habr.com/ru/companies/mws/articles/852308/

Оценка LLM: метрики, фреймворки и лучшие практики
https://habr.com/ru/articles/852046/

Что такое DWH?
https://habr.com/ru/articles/852910/

Какую архитектуру конвейера данных следует использовать?
https://habr.com/ru/companies/piter/articles/853400/

Как мы отбираем и обучаем разметчиков: от первых шагов до реальных проектов
https://habr.com/ru/companies/data_light/articles/853372/

1,426

Клуб CDO

27 Oct, 08:50

На следующий неделе редакция находится с миссией в Дубайске. Заезжайте на кофе!

1,305

Клуб CDO

26 Oct, 11:28

Ждём?

1,503

Клуб CDO

25 Oct, 10:05

Пятничный пост

Друзья, редакция канала хочет в жесткой форме воспользоваться служебным положением и распространить офф-пот контент, просим прощения и очень надеемся на вашу поддержку!

Мой сын сегодня выпустил новый альбом, который он сам записал полностью в одиночку, текст, музыка, просто в своей комнате в Лондоне в котором он рассказал о первом годе своей жизни в UK, адаптации и отношениях на расстоянии.

Он много вкладывается в музыку, а я настолько далек от этой индустрии, что помочь могу поддержать только этим постом 🙂

А если этот пост набор такой же отклик, как знаменитый пост ЗАКРОМА (который феерично победил всех тренды Гартнера, как они ни старались)- будет вообще отлично 🙂

Послушайте, имхо очень неплохо, а песня HOBBY вообще огонь, а редакция пока займется сбором ссылок на статьи про данные 🙂

Полный альбом на всех площадках: https://zvonko.link/1AD0E7F

1,675

Клуб CDO

23 Oct, 14:02

🔥 Gartner выпустил ТОП 10 стратегических трендов на 2025 год.

Вот и год пролетел. Какие изменения?

▶️

Смещение фокуса с отдельных технологий на комплексные платформы и экосистемы.

В 2024 году Gartner выделял такие тренды, как платформенная инженерия, отраслевые облачные платформы и интеллектуальные приложения. В 2025 акцент смещается на более широкие концепции, такие как агентский ИИ, платформы управления ИИ, пространственные вычисления и гибридные вычисления.

▶️

Усиление внимания к вопросам этики, безопасности и доверия в сфере ИИ.

В 2025 году тема управления доверием, рисками и безопасностью ИИ (AI TRiSM) развивается в выделение самостоятельных трендов, как платформы управления ИИ и безопасность дезинформации, подчеркивая растущую потребность в контроле и регулировании ИИ.

▶️

Появление новых технологических направлений.

В 2025 году Gartner вводит новые тренды - постквантовая криптография, невидимая интеллектуальная среда, энергетически эффективные вычисления, полифункциональные роботы и неврологическое усиление.

ТОП 10 трендов 2025 года:

1. Агентский ИИ: программное обеспечение, которое самостоятельно принимает решения и действует для достижения целей, комбинируя ИИ с памятью, планированием и взаимодействием с окружением.

2. Платформы управления ИИ: платформы управления и контроля систем ИИ, гарантирующие ответственное и этичное использование, соответствие стандартам безопасности и ценностям организации.

3. Безопасность дезинформации: системы, которые гарантируют точность информации, проверяют подлинность, предотвращают мошенничество и отслеживают распространение вредоносного контента.

4. Постквантовая криптография: криптографические методы, защищающие данные от угроз квантовых компьютеров.

5. Невидимая интеллектуальная среда: использование меток и датчиков для отслеживания объектов и сред,и последующего анализа информации в облаке.

6. Энергоэффективные вычисления: проектирование и эксплуатация компьютерных систем с минимальным потреблением энергии и углеродным следом.

7. Гибридные вычисления: объединение различных вычислительных технологий, таких как CPU, GPU, ASIC, нейроморфные и квантовые системы, для решения сложных задач.

8. Пространственные вычисления: технология, дополняющая физический мир цифровым контентом, с которым пользователи взаимодействуют в реалистичной и интуитивно понятной форме.

9. Полифункциональные роботы: машины, которые могут выполнять несколько разных задач, следуя инструкциям или примеру человека.

10. Неврологическое усиление: улучшение когнитивных способностей человека с помощью технологий, которые считывают и декодируют, а при необходимости записывают информацию в мозг

Новые вызовы - новые возможности!

▶️Отчет в первом комментарии.

🅰️

🅱️ @ReymerDigital

1,500

Клуб CDO

22 Oct, 11:00

Как говориться - "как корабль назовешь" (не на правах рекламы, за название - пятерка)

Закрома – передовое российское ПО для хранения и управления корпоративными данными

Гибридное хранилище, предназначенное для безопасного и экономичного хранения и управления корпоративными данными произвольного формата в крупных организациях.
ЗАКРОМА обеспечивает быстрый поиск, предоставляет API для удобного взаимодействия и обладает мощным контролем доступа. В основе ЗАКРОМА лежит современный стандарт S3, который позволяет создавать высоконадежное хранилище для эффективного хранения больших объемов данных.

https://zakroma.ru/

4,969

Клуб CDO

21 Oct, 16:28

в копилочку

1,208

Клуб CDO

21 Oct, 16:28

🖥 EfCore.SchemaCompare — инструмент для сравнения схем баз данных Entity Framework Core (EF Core). Он позволяет проверять различия между базой данных и миграциями, обеспечивая удобный способ отслеживания изменений в схемах данных

🌟 Этот инструмент может быть полезен для управления версиями баз данных и предотвращения ошибок, связанных с несовпадением структуры данных при разработке приложений на EF Core

▪️GitHub

@sqlhub

1,343

Клуб CDO

21 Oct, 12:42

Хочу в отдельный пост вынести статью "Технология проектирования хранилищ данных Data Vault 2.0". Мне она показалась очень полезным и детальным руководством по проектированию структуры хранилища, которое может быть очень полезно в практической работе.

https://habr.com/ru/articles/850280/?utm_source=habrahabr&utm_medium=rss&utm_campaign=850280

1,659

Клуб CDO

20 Oct, 08:08

Дайджест статей

Как Лента формирует эффективный ассортимент на основе данных
https://habr.com/ru/companies/lentatech/articles/851086/

Технология проектирования хранилищ данных Data Vault 2.0
https://habr.com/ru/articles/850280/

Инфраструктура для Data-Engineer Data Lake Apache Iceberg
https://habr.com/ru/articles/850674/

Как спрогнозировать вероятность увольнения сотрудника и получить ещё миллион инсайтов из одного графика
https://habr.com/ru/companies/yandex_praktikum/articles/850730/

Как обойти подводные камни FineBI для грамотной визуализации данных
https://habr.com/ru/articles/851710/

Плюсы и минусы различных DWH как источников данных для BI
https://habr.com/ru/companies/modusbi/articles/851718/

1,285

Клуб CDO

18 Oct, 08:35

Perplexity идет в Enterprise и добавляет новую функцию в свой продукт - поиск по внутренних корпоративным документам и базам знаний.

Наверное эту новость надо еще сопроводить комментарием, что деньги в GenAI по большей части находятся в Enterprise сегменте, что подтверждается всеми основными игроками рынка. В Perplexity м до этого времени такого активного движения не замечали, но может быть то просто было не так на поверхности, но вот сейчас они объявили что запускают 2 тарифа - Perplexity Pro and Enterprise Pro для того, что бы объединить поиск в интернете с поиском по собственным файлам.

Продукт Perplexity Spaces является центром совместной работы команд на базе искусственного интеллекта, где можно создать своего “командного” ИИ помощника и можно глубоко настроить его под конкретный случай использования и загрузить внутренние файлы. Spaces предоставляет полный контроль над тем, кто может получить доступ к данным, обеспечивая безопасность и конфиденциальность.

Для пользователей Enterprise Pro все файлы и поисковые запросы по умолчанию исключены из процесса обучения LLM. Пользователи Pro также могут отказаться от обучения LLM в настройках.

Данные загружаются в облако, но с точки зрения защиты и конфиденциальности заявляется целый набор механизмов:

⁃ Data Retention - Your queries stay private. Your files are deleted after 7 days.
⁃ SOC2 Certification - Our security policies and controls continuously meet the highest industry standards so that you can run your business with peace of mind.
⁃ Enhanced Security - manage threats and prevent data loss with real-time notifications of suspicious behavior or risky activities

Так же есть на сайте и описание on-prem тарифа: Self-Serve - Companies with fewer than 250 employees can access Enterprise Pro through a self-serve flow.

В будущем обещают добавлять 3rd party источники данных какие как Crunchbase и другие базы знаний.

https://www.perplexity.ai/hub/blog/introducing-internal-knowledge-search-and-spaces

1,358

Клуб CDO

17 Oct, 18:28

T2 - Обмен данными по другим правилам

Ну и особенно надо отметить в докладах выше доклад коллег из Т2 и Ростелекома про их опыт построения платформы отмена данными. Ту, на самом деле, речь идет об обмене данными внутри холдинга - то есть это не какой-то коммерческий обмен, а больше, наверное, такой федеративный Data Mesh - с data-каталогом, проработанным governance и технологической частью интеграции.

https://rutube.ru/video/346c73dfeb22e2098ad48f73305dad9c/

1,262

Клуб CDO

17 Oct, 09:49

Коллеги, всем привет! Нашей редакции любезно подсказали, что опубликованы материалы конференции DataTalks 5.0 - конференция про работу с данными, которая прошла в сентябре. Спешим поделиться ссылкой со всеми!

https://datatalks.rt.ru/events/datatalks-5-0

1,293

Клуб CDO

16 Oct, 09:10

🤖 Применение федеративного машинного обучения для задач медицины

Яндекс вместе с Институтом системного программирования имени В. П. Иванникова РАН и Сеченовским Университетом первыми в России на практике применили федеративное машинное обучение для задач медицины.

Федеративное обучение – это подход, при котором организации-участники могут обучить нейросеть на нескольких независимых наборах данных и при этом не передавать их за пределы своей организации.

Метод федеративного машинного обучения в десятки раз ускоряет разработку технологий в проектах с большим количеством участников и создает максимально безопасную среду для работы с данными. Качество нейросети при этом повышается за счет доступа к ограниченным данным.

Эксперимент Yandex Cloud заключался в том, чтобы продемонстрировать, что метод работает на практике и подходит для проектов в медицине – задачей модели было распознавание патологий сердца на основе данных ЭКГ. В результате проекта удалось создать нейросеть, которая в 99% случаев верно определила патологию и в 95% не давала ложно-положительных оценок.

Разработка будет полезна в любых сферах, где приходится иметь дело с чувствительной информацией.

1,360

Клуб CDO

16 Oct, 08:40

Попалась на глаза статья про то дата-брокеров. Хотя как то тема сбора и обмена данными ушла на второй план под натиском успехов AI, компании, которые работали в этой области продолжают работать как и раньше, а несмотря на всякие GDPR и прочие попытки регулировать сбор и использование цифровой информации о пользователях, уровень осведомленности самих пользователей о том, что происходит и может происходить с их данными - только падает.

Эксперты в области кибербезопасности оценивают, что брокеры данных собирают в среднем 1 000 параметров на каждого человека с присутствием в интернете.

«Их интерес состоит в том, чтобы собрать как можно больше информации о вас, потому что чем больше данных и чем они точнее, тем выше стоимость этих данных», — сказал Крис Хендерсон, старший директор по операциям с угрозами в компании Huntress, основанной бывшими сотрудниками Агентства национальной безопасности США.

Вот краткий обзор типов информации, которую брокеры данных обычно собирают, согласно мнению экспертов по конфиденциальности, опрошенных CNBC:

• Основные идентификаторы: Полное имя, адрес, номер телефона и электронная почта.
• Финансовые данные: Кредитные рейтинги и история платежей.
• История покупок: Что вы ищете в интернете, что и где покупаете, а также как часто приобретаете определенные товары.
• Медицинские данные: Ваши лекарства, медицинские состояния и взаимодействия с приложениями или сайтами, связанными со здоровьем.
• Поведенческие данные: Информация о ваших предпочтениях, интересах и типах рекламы, на которую вы, вероятно, кликнете.
• Данные о местоположении в реальном времени: GPS-данные из приложений, которые отслеживают ваш маршрут, места покупок и частоту посещений определенных локаций.
• Интерпретированные характеристики: На основе вашей интернет-активности и потребляемого контента — посещаемых сайтов, читаемых статей и просмотренных видео — брокеры данных делают выводы о вашем образе жизни, доходе, предпочтениях, религиозных или политических взглядах, увлечениях и даже вероятности того, что вы будете заниматься благотворительностью.
• Отношения с семьей, друзьями и коллегами: Анализируя вашу сеть друзей, подписчиков и контактов в соцсетях и мессенджерах, брокеры данных могут составить карту ваших связей и даже отслеживать, как часто вы взаимодействуете с определенными людьми, чтобы определить глубину ваших отношений.

Кто эти "брокеры"? В статье приходится список из the most of the major data brokers:

Experian
TransUnion
LexisNexis
Epsilon

БЕрегите свои данные :)

https://www.cnbc.com/2024/10/11/internet-data-brokers-online-privacy-personal-information.html

1,157

Клуб CDO

15 Oct, 08:20

Коллеги, 7 и 8 ноября в Москве состоится большая конференция Матемаркетинг’24, посвященная маркетинговой и продуктовой аналитике

В этом году мероприятие пройдет уже в шестой раз и соберет на одной площадке более 2000 гостей — специалистов из сфер электронной коммерции, ритейла, телекоммуникаций, банкинга, онлайн-образования и многих других.
Программа обещает быть насыщенной: более 120 докладов, панельных дискуссий и экспертных сессий. Профессионалы рынка обсудят управление рекламными каналами и маркетинговыми воронками, запуск сложных продуктов, ML-моделирование и ряд других вопросов.

Вот основные темы этого года:
- Аналитическая инфраструктура в условиях импортозамещения;
- Корпоративные платформы для экспериментов;
- Управление рекламными каналами и оценка инкрементальных показателей;
- Персонализация и оптимизация цифрового клиентского опыта;
- Ускорение роста бизнеса через платный маркетинг.

Бонус для обладателей билетов — 6 месяцев доступа к закрытой платформе конференции. На ней собраны материалы более чем из 400 докладов прошлых лет с удобным поиском и категоризацией. Это позволит заранее подготовиться и задать экспертам наиболее интересные вопросы.

Программа и билеты уже доступны на сайте, а специально для наших подписчиков по промокоду CDOCLUB10 будет скидка 10% на все виды билетов.

https://matemarketing.ru/?utm_source=cdoclub&utm_medium=announce&utm_campaign=tlgmm2024

1,063

Клуб CDO

14 Oct, 17:10

Посмотрите на эту красоту :)

Инженерам компании Илона Маска SpaceX впервые удалось «поймать» разгонную ступень ракеты-носителя «Старшип» Super Heavy, после разгонной фазы полета отсоединившуюся от корабля и опустившуюся на космодром. Такой подход, так же как способность ракеты выводить на орбиту сотни тонн груза, радикально снизит стоимость космических полетов.

https://www.youtube.com/watch?v=NpjLfUoiT_w

1,148

Клуб CDO

14 Oct, 10:05

Интересный доклад про организацию облака ClickHouse с довольно подробными деталями дизайна, а так же подробностями истории развития ClickHouse от закрытого решения до OpenSource и SaaS решения.

https://www.infoq.com/presentations/open-source-saas/

1,129

Клуб CDO

13 Oct, 14:57

Дайджест статей

Производительность СУБД — расчет метрики, временной анализ, параметрическая оптимизация
https://habr.com/ru/articles/850106/

Предварительная обработка данных в машинном обучении: инструкция, инструменты, полезные ресурсы для начинающих
https://habr.com/ru/companies/skillfactory/articles/848858/

ETL-проект для начинающих Data Engineers: От почтового сервера до Greenplum
https://habr.com/ru/articles/849062/

Предиктивная аналитика в промышленности: путь к повышению эффективности и снижению затрат
https://habr.com/ru/articles/849364/

BI для оценки полезности BI: огранка логов по методу АЛРОСА
https://habr.com/ru/companies/visiology/articles/849728/

Дата-Сторителлинг: для Бизнеса и СМИ
https://habr.com/ru/articles/848556/

История о том, как мы быстрое хранилище в 2022 году строили
https://habr.com/ru/companies/cloud4y/articles/848720/

1,247

Клуб CDO

11 Oct, 16:21

Сегодня небольшая историческая страничка. Несколько экспонатов из коллекции Британской библиотеки: оригинальные заметки Чарльза Бэббиджа, черновик статьи самого Алана Тьюринга, которая впоследствии стала знаменитой статьей “Игра в имитацию”, и письмо Алана Тьюринга с его собственноручной подписью.

1,288

Клуб CDO

10 Oct, 08:21

Коллеги, 24 октября в Loft Hall пройдет, DaTalks 2024 | Data Reality Show. Организатором выступает компания Navicon, а главным партнером - Arenadata.

Это событие каждый год собирает солидное data community для детального обсуждения практических вопросов и кейсов, связанных с data-ландшафтом и перспективами, которые ожидают CDO и CIO в ближайшем будущем. Подтвержденные спикеры - СБЕР, HOFF, X5, Т-Банк, Dostavista, Unilever и другие.

В этом году среди основных тем заявлены:
• best practice формирования data-ландшафта «с запасом»
• будущее Data
• современные платформы и модели данных
• обзор и функциональное сравнение актуальных для российского рынка BI-систем.
• промежуточные итоги и перспективы импортозамещения

Важное отличие этого года - трансляция онлайн вестись не будет. А поскольку площадка имеет ограниченную вместимость, всем заинтересованным стоит зарегистрироваться заранее.

По ссылке можно ознакомиться с программой, спикерами и основной концепцией форума.

Не забудьте потом поделиться впечатлениями!

https://datalks2024.ru/?utm_source=TG&utm_medium=cdoclub&utm_campaign=24_10_24_DaTalks

1,253

Клуб CDO

09 Oct, 11:24

When Nanoseconds Matter

Редакция ознакомилась с интересным докладом и хотела бы поделиться некоторыми заметками и соображениями. В первую очередь стоит отметить, что разработка эффективных приложений уже не сводится только к C++ и каким-то секретным флагам компиляции и сборки. Это скорее про принципы разработки ПО, которые полезны и применимы не только в C++ разработке, но и в любых других задачах и дисциплинах, включая работу с данными, разработку систем управления данными и алгоритмов их обработки.

Я для себя выделил несколько “общих принципов”:

• Оптимизация — это искусство избавления от всего лишнего: лишних инструкций, шагов, обработчиков и т. д.
• Нужно отлично понимать свои данные: их порядок, структуру, профили обработки. Важно точно понимать, с чем вы работаете, чтобы разработать оптимальный алгоритм обработки. Всё необходимо измерять и оценивать.
• Чем более узкоспециализированный алгоритм вы пишете, тем быстрее он будет работать для вашей задачи.
• Важно понимать среду, в которой вы работаете, и что может вас замедлять: операционная система, диски, внешние зависимости и т. д. Ничто не работает в вакууме, всё требует комплексной оптимизации.
• Измерения и профилирование — нельзя оптимизировать то, что не измерено.
• Разделите задачу на две части: медленный warm-up период, в который вы подготавливаете всё необходимое (заполняете память, читаете данные, наполняете кэш и т. д.), и быстрый цикл основной работы. Хорошая подготовка — залог успеха.
• Используйте инструменты, максимально подходящие для вашей задачи.
• Чем проще решение — тем быстрее оно работает.
• Постоянно исследуйте вашу систему, измеряйте, находите узкие места и устраняйте их. Устранив одно узкое место, оно может переместиться в другое, и система продолжит требовать оптимизации.

Видео: https://www.youtube.com/watch?v=sX2nF1fW7kI
Вот тут опубликованы слайды: https://github.com/CppCon/CppCon2024/blob/main/Presentations/When_Nanoseconds_Matter.pdf

И вот эту книгу могу порекомендовать в дополнение к материалу: https://www.amazon.co.uk/gp/product/B0CW1JS83N/ref=ppx_yo_dt_b_d_asin_title_351_o08?ie=UTF8&psc=1

931

Клуб CDO

08 Oct, 12:58

Ну что ж, нельзя обойти стороной такое событие, как присуждение Нобелевской премии по физике “отцам” искусственного интеллекта. Ниже ссылка на официальный пресс-релиз.

Меня, конечно, удивило, что премия именно по физике. Как указано в пресс-релизе:

“Два нобелевских лауреата по физике этого года использовали инструменты физики для разработки методов, лежащих в основе современного мощного машинного обучения. Джон Хопфилд создал ассоциативную память, способную хранить и восстанавливать изображения и другие типы паттернов данных. Джеффри Хинтон изобрел метод, который может автономно находить свойства данных и выполнять задачи, такие как идентификация элементов на фотографиях.”

Интересно, что премию присудили не за развитие самой физики или достижения в её области, а за “использование методов физики” фактически в других дисциплинах.

С другой стороны, математикам исторически не дают Нобелевскую премию, а Computer Science как дисциплины в этой организации вроде нет. Но пройти мимо ИИ нельзя, так что, возможно, физика — хороший компромисс?

https://www.nobelprize.org/prizes/physics/2024/press-release/

1,120

Клуб CDO

06 Oct, 20:55

Дайджест статей

Modern Data Engineering in the LLM Era
https://medium.com/art-of-data-engineering/modern-data-engineering-in-the-llm-era-628489c87378

Mastering Data Ingestion: Essential Strategies for Data Engineers
https://blog.det.life/mastering-data-ingestion-essential-strategies-for-data-engineers-aa63283eed83

Современная Lakehouse-платформа данных Data Ocean Nova
https://habr.com/ru/articles/847770/

AI E-com Ассистент
https://habr.com/ru/articles/847478/

Контроль качества разметки на проекте: 4 секрета успеха
https://habr.com/ru/companies/data_light/articles/848234/

Mastering Architecture Diagrams and Technical Presentations: A Data Architect’s Guide
https://medium.com/art-of-data-engineering/mastering-architecture-diagrams-and-technical-presentations-a-data-architects-guide-eb410b49bc19

Top 10 Apache Airflow Best Practices for Data Engineers
https://medium.com/@Nelsonalfonso/top-10-apache-airflow-best-practices-for-data-engineers-f72de2b6175d

1,171

Клуб CDO

Клуб CDO (Russian)

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO

Клуб CDO