Data Analysis / Big Data @big_data_analysis Channel on Telegram

Data Analysis / Big Data

@big_data_analysis


Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Data Analysis / Big Data (Russian)

Вы хотите быть в курсе лучших постов по анализу данных и работе с Big Data на русском и английском языке? Тогда канал @big_data_analysis - идеальное место для вас! Здесь вы найдете актуальные статьи, инсайты и советы от экспертов в области анализа данных и Big Data. Будьте в курсе последних тенденций и новостей в этой увлекательной области. Не упустите возможность узнать что-то новое и полезное каждый день! Присоединяйтесь к @big_data_analysis прямо сейчас и расширяйте свои знания в области данных и аналитики! Канал также предлагает возможность разместить рекламу, если у вас есть интересное предложение. Правила общения в канале можно найти по ссылке: https://tprg.ru/rules. Другие интересные каналы от tproger также доступны для подписки, включая @tproger_channels. Не упустите шанс улучшить свои навыки и получить ценные знания в области анализа данных и Big Data с каналом @big_data_analysis!

Data Analysis / Big Data

19 Jan, 05:25


На что способен Bard или случайные совпадения

Предыстория. Если, ради уменьшения объема этой статьи и её чисто прикладного характера, не вдаваться в собственные разработки теории общего искусственного интеллекта и решения проблемы выравнивания (Возможно что об этом, с большими подробностями и в общих чертах, что, зачем, почем и как, будет в следующей статье. А забегая вперед скажу, что современные теоретические представления об общем/сильном ИИ, не основанные на интегративности и синергии будут иметь куда меньше общего, как с самой общностью, так и с силой и с самим интеллектом, в отличии от тех что исповедают такие подходы. Но и теории декларирующие обозначенные выше подходы могут так же не иметь потенциал), но в рамках которых и проходил описанный здесь эксперимент при непосредственном участии Барда, то началось всё с банального, а именно с тестирования возможностей современных ЛЛМ.
Углубиться

Читать: https://habr.com/ru/articles/874676/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

17 Jan, 15:48


Планы и факты: работаем с денормализованной таблицей

Привет, Хабр! В этой статье я хотел бы поговорить про особенности план-факт анализа, а также о работе с денормализованной таблицей, которая «была, есть и будет использоваться», потому что оказывается удобной для некоторых приемов работы с BI. Под катом вы найдете 7 примеров решения типовых задач план-факт анализа, включая расчет долей, отображение данных с учетом иерархии, разбивку по регионам и так далее. Всех, кому интересны эти практические аспекты, жду под катом :)


Читать: https://habr.com/ru/companies/visiology/articles/874500/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

17 Jan, 13:06


Инновационная Столица-2024: единый центр BI для всего ТК, социология будущего, оптимизация работы контролеров

Привет! Я Ося разработчик. Сегодня я продолжу делиться проектами и решениями, представленными на нашем ярком мероприятии Инновационная Столица-2024.

Единый центр BI для всего Транспортного комплекса

Алина, руководитель отдела визуализации данных ИЦ, представила преимущества использования дашбордов для упрощения отчетности и принятия решений. Спикер отметила, что на сегодняшний день многие организации сталкиваются с трудностями при сборе отчетов из различных подразделений. Она выделила операционные сложности процессов, такие как разнообразие форматов отчетности, ошибки, фальсификации данных и длительное время, необходимое для подготовки информации. Все это приводит к путанице и замедляет процесс принятия решений.

В качестве решения Алина рассказала о проекте перехода к автоматизированной отчетности, который позволит значительно упростить и ускорить обработку данных, -  создание единого центра сбора и обработки данных на базе Инновационного центра, а также центра BI для всего Транспортного комплекса. Технические особенности проекта презентовала ее коллега Александра, руководитель отдела системной аналитики.


Читать: https://habr.com/ru/articles/874448/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

17 Jan, 12:26


Киберэкономика. Пределы роста

В современном мире цифровая киберэкономика становится неотъемлемой частью глобальной экономики, трансформируя способы ведения бизнеса, взаимодействия и обмена информацией. С развитием технологий, таких как искусственный интеллект и нейросети, открываются новые горизонты для инноваций и оптимизации процессов. Однако с этими возможностями приходят и серьезные вызовы, среди которых одной из наиболее актуальных проблем является фальсификация цифровой информации. Нейросети, обладая способностью генерировать убедительные тексты, изображения и даже видео, которые с каждым днем становятся все более реалистичными даже для экспертов, ставят под угрозу достоверность данных, доверие к цифровым ресурсам и репутацию лиц, принимающих решения.


Читать: https://habr.com/ru/articles/874440/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

16 Jan, 21:18


СОЗДАНИЕ ETL-ДВИЖКА ДЛЯ РЕПЛИКАЦИИ ДАННЫХ ИЗ APACHE HIVE В CLICKHOUSE

Представлено создание ETL-движка, который помогает автоматически извлекать, преобразовывать и загружать данные из разных источников. Мы сосредоточились на разработке быстрого инструмента, который использует параллельную обработку и оптимизированные алгоритмы. Результаты тестирования показывают, что движок эффективно справляется с большими объемами данных, что помогает лучше анализировать информацию и принимать обоснованные бизнес-решения.


Читать: https://habr.com/ru/articles/874262/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

16 Jan, 15:27


Путь к миру без страданий: как оформить исследовательский проект

Всем привет. Меня зовут Владислав Козлов, я тимлид аналитиков в кластере Антифрод в Авито. В этой статье я поделюсь опытом оформления исследовательских проектов, который помогает сохранять свое и чужое душевное равновесие.


Читать: https://habr.com/ru/companies/avito/articles/873856/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

16 Jan, 13:50


Data-driven культура и подход по версии аналитика

Привет!
Я работаю в аналитике и с данными уже 13+ лет.
Про data-driven от заказчиков-пользователей трудов моей работы слышу тоже, почти 13+ лет.
И очень разные интерпретации этого явления встречал.
Думаю, что я один из тех, чья трудовая деятельность ближе всего к data-driven.
Хочу рассказать о том, какой data-driven = хорошо, а какой != хорошо.

Эта статья может быть полезна как управленцам, так и аналитикам. Давайте говорить на "одном языке".)

!= хорошо

Это когда PM, PO, CIO и даже CTO, роли, задачи которых развивать бизнес (дальше буду называть эти роли "бизнесом"), не используют в работе цифры, полагаясь на экспертные мнения или оценки.

При этом цифры могут быть и использоваться для чего-то ещё. Например, для того, чтобы косвенно отслеживать работоспособность продукта - тоже неплохой вариант для аналитики, но, думаю, лучше работать с повышением качества тестирования продукта.

Индикаторы того, что вы работаете в компании с плохим вариантом интерпретации data-driven:


Читать: https://habr.com/ru/articles/874206/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

16 Jan, 13:18


Эконометрика в ритейле: как не потратить миллионы на заведомо неэффективные эксперименты

Всем привет! На связи команда ad-hoc аналитики X5 Tech. Если вы уже знакомы с нашими статьями, то наверняка знаете, что нашей ключевой темой является А/Б тестирование. Важной составляющей А/Б теста является дизайн: для успешного проведения эксперимента необходимо оценить размер пилотной и контрольной групп, зафиксировав предварительно ожидаемый эффект. Но возникает вопрос: как убедиться в обоснованности гипотезы и рассчитать ожидаемые эффекты от инициативы?

В статье мы рассмотрим ключевые понятия из эконометрики, такие как коинтеграция и модель коррекции ошибок, и продемонстрируем их применение на ретроспективных данных. Мы подробно разберём, как использовать эти инструменты для анализа взаимосвязей между временными рядами. В качестве практического примера с помощью функции импульсного отклика мы проведём количественную оценку ожидаемого влияния повышения комплектности персонала на списания на выбранном кейсе.


Читать: https://habr.com/ru/companies/X5Tech/articles/874190/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

16 Jan, 09:22


Подходы к архитектуре и принципам проектирования хранилищ данных

Многомерная схема специально разработана для моделирования систем хранилищ данных. Схемы предназначены для удовлетворения уникальных потребностей очень больших баз данных, разработанных для аналитических целей OLAP.


Читать: https://habr.com/ru/articles/874086/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

16 Jan, 09:22


Метрики оценки LLM: полное руководство по оценке LLM

Независимо от того, улучшаете ли вы точность модели путем дообучения или улучшаете контекстную релевантность системы генерации с дополненной выборкой (RAG), понимание того, как разрабатывать и выбирать подходящий набор метрик оценки LLM для вашего варианта использования, является обязательным для построения надежного конвейера оценки LLM.

В этой статье вы научитесь всему, что нужно знать о метриках оценки LLM, включая примеры кода. Мы рассмотрим следующие вопросы:

Что такое метрики оценки LLM, как их можно использовать для оценки систем LLM, а также распространенные ошибки и что делает метрики отличными.

Различные методы вычисления метрик оценки LLM и почему подход LLM-as-a-judge («LLM как судья») является наиболее эффективным.

Как реализовать и выбрать подходящий набор метрик оценки LLM с использованием библиотеки DeepEval (GitHub: DeepEval).


Читать: https://habr.com/ru/articles/873332/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

15 Jan, 16:41


Как настроить Rclone для работы с OCI и Hadoop

Хотите узнать, как эффективно использовать Rclone для передачи данных в OCI Object Storage и Hadoop Distributed File System? В статье рассматриваются ключевые шаги по настройке и конфигурации, которые помогут вам быстро справиться с этой задачей.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

15 Jan, 16:41


Отслеживание использования в Fusion Analytics

Пост: Статья демонстрирует, как эффективно использовать отслеживание данных в Fusion Analytics. Узнайте о возможностях предметной области и загрузите рабочую книгу для применения в любой инстанции Fusion Analytics.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

15 Jan, 16:40


Новогодние обновления в Oracle Analytics Cloud

Oracle Analytics Cloud в январе 2025 года получает обновления: улучшен ИИ-анализ, расширено моделирование данных, ускорен импорт данных, добавлены новые возможности для дашбордов и улучшены инструменты для совместной работы. Узнайте больше о возможностях аналитики нового уровня!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

15 Jan, 15:44


ПИКантная миграция: путь от Tableau к FineBI

Хабр, привет! Сегодня вашему вниманию представляю статью активиста нашего сообщества FineBI GlowByte, администратора системы FineBI в компании «ПИК Диджитал» и просто классного специалиста Сергея Усова. Он расскажет об особенностях перехода компании ПИК на новую систему бизнес-аналитики и поделится очень крутыми инсайтами. Приятного прочтения!


Читать: https://habr.com/ru/companies/glowbyte/articles/873922/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

15 Jan, 14:47


Как сгладить облачные турбулентности

В условиях ограничения доступа к самым современным технологиям компании всё чаще стремятся переложить заботу о поддержании работоспособности ИТ-инфраструктуры на профессионалов. И вариантов тут два: либо консолидировать вычислительные ресурсы на собственной технологической площадке, развитием которой будут заниматься своя ИТ-служба, либо отдавать вычислительные ресурсы на аутсорсинг, то есть пользоваться услугами облачных провайдеров. Проще, конечно же, доверить управление ИТ-инфраструктурой сторонним профессионалам, однако надежнее и безопаснее развивать собственные компетенции за счет внедрения современных средств автоматизации управления Центрами обработки данных (ЦОД).


Читать: https://habr.com/ru/companies/usetech/articles/873902/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

14 Jan, 10:30


Жизнь после ухода западных вендоров: адаптация и новые возможности

Привет, Хабр! Меня зовут Александр Тарасов, я архитектор департамента поддержки продаж Arenadata. Уход крупных зарубежных вендоров, таких как Oracle и Microsoft, заставил нас переосмыслить подходы к управлению данными и освоить альтернативные решения. Если с транзакционной нагрузкой всё относительно ясно благодаря PostgreSQL, то в аналитике дела обстоят сложнее, и здесь особенно важно адаптироваться к новым инструментам. Сейчас на первый план выходят системы с открытым исходным кодом, которые не только поддерживаются сообществом, но и открывают новые возможности для роста и экспериментов, оставаясь актуальными в условиях меняющегося рынка.

В этой статье я расскажу, как разработчикам и архитекторам адаптироваться к новым условиям, какие технологии стали достойной заменой западным решениям и какие шаги помогут специалистам эффективно использовать открытые платформы для укрепления своего карьерного трека.
Выход есть

Читать: https://habr.com/ru/companies/arenadata/articles/867476/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

14 Jan, 10:22


Apache Kyuubi + Spark: как приручить большие данные

Привет, Хабр! Меня зовут Станислав Габдулгазиев, и я архитектор департамента поддержки продаж Arenadata. В этом материале поделюсь впечатлениями от использования Kyuubi — инструмента, который значительно упрощает работу пользователей с SQL, а также затрону вопросы его сравнения с другими решениями для обработки больших данных.

Kyuubi — это сервис, предоставляющий механизмы для распределённого выполнения SQL-запросов поверх различных вычислительных движков, таких как Apache Spark, Hive, Flink и Impala. Он часть дистрибутива Arenadata Hadoop (ADH), который включает эти движки для обработки и анализа данных.


Читать: https://habr.com/ru/companies/arenadata/articles/872744/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

14 Jan, 07:22


Apache Flink: тестирование собственного сериализатора состояния

Привет, Хабр! На связи Александр Бобряков, техлид команды МТС Аналитика. Это мой одиннадцатый пост про Apache Flink. В предыдущей части мы рассмотрели сериализацию данных во Flink, написали сериализатор, поддерживающий эволюцию схемы для Flink-состояния в операторе на основе Jackson.

В этой части мы научимся писать тесты на эволюцию схемы состояния при использовании своего сериализатора.

Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии. Этот материал соответствует релизной ветке с названием release/10_test_JacksonStateSerializer.


Читать: https://habr.com/ru/companies/ru_mts/articles/873436/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

13 Jan, 14:57


Как использовать seed из другого dbt-проекта?

В вашей компании несколько dbt-проектов? Узнайте, как задействовать seed данные из одного проекта в другом. Статья объясняет, как создать и хранить dbt-пакеты, а также как использовать зависимости между проектами и хранить данные в хранилище.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

13 Jan, 10:37


Кто в IT зарабатывает больше всех: статистика 2025 года

Кто в ИТ имеет самый высокий доход. Рейтинг специальностей с самыми высокими зарплатами в 2025. Какие профессии стоит освоить.

Читать: «Кто в IT зарабатывает больше всех: статистика 2025 года»

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

09 Jan, 09:11


Перенос данных с Rclone: руководство по настройке

Текст: Узнайте, как использовать Rclone для миграции данных в OCI Object Storage и Hadoop Distributed File System. Статья подробно описывает процесс установки и конфигурации, облегчая перенос данных в современные облачные и распределённые системы хранения.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

07 Jan, 22:43


NVIDIA Cosmos: система генерации физически достоверных симуляций для ИИ

Статья основана на анализе публично доступной информации о платформе NVIDIA Cosmos, включая официальные анонсы и технические блоги.

На выставке CES 2025 компания NVIDIA представила революционную платформу Cosmos, которая обещает кардинально изменить подход к разработке систем искусственного интеллекта, взаимодействующих с физическим миром. Платформа уже привлекла внимание ключевых игроков рынка, таких как Uber, Waabi и XPENG, что говорит о её серьёзном потенциале. В этой статье попытался разобраться, почему Cosmos вызывает такой интерес и какие возможности она открывает для разработчиков.


Читать: https://habr.com/ru/articles/872112/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

07 Jan, 08:57


Получение SQL для PostgreSQL из DAX на основе AI

Привет, Хабр! Популярным аналитическим языком является DAX, и он используется во множестве проектов. Соответственно, значительная часть бизнес-логики дашбордов реализована на DAX, и при переходе с Power BI на другой продукт требуется время на перевод DAX логики из Power BI. В связи с этим актуальны инструменты расширения списка платформ, на которых можно использовать DAX без Power BI.

Тем, кто интересуется «переводом» DAX на PostgreSQL — добро пожаловать под кат :)


Читать: https://habr.com/ru/articles/871932/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

03 Jan, 09:03


Как выбрать ноутбук или ПК для программирования?

Как выбрать ноутбук или ПК для программирования. Показываем требования к железу для программистов. Рассматриваем основные нюансы Tproger

Читать: «Как выбрать ноутбук или ПК для программирования?»

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

03 Jan, 08:14


Оптимизация SQL запросов

Оптимизация SQL-запросов является одной из ключевых задач при работе с реляционными базами данных. Эффективные SQL-запросы позволяют значительно улучшить производительность приложений и обеспечить более быстрый доступ к данным. В данной статье мы рассмотрим как переписать запрос, чтобы выполнялся быстрее. В статье пойдет речь о PostgreSQL, хотя применять данные советы к любой базе данных SQL Ниже будут представлены термины и операторы, о которых пойдет в данной статье.
Читать про оптимизацию

Читать: https://habr.com/ru/articles/861604/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

02 Jan, 13:40


Германская танковая проблема: торжество статистики и один из первых примеров военного OSINT'a

В разведке, где информация является ключевым фактором успеха, важнейшей задачей всегда была оценка потенциала и возможностей противника. Традиционные методы, основанные на сборе информации от шпионов, анализе открытых источников и допросах пленных, зачастую оказывались неэффективными, предоставляя неполные, неточные и противоречивые данные. Во время Второй мировой войны перед Союзниками встала острая необходимость определить реальные масштабы производства военной техники в нацистской Германии.

Решением этой проблемы стал нетрадиционный подход, основанный на применении статистического анализа к, казалось бы, незначительным деталям – маркировке на захваченном немецком оборудовании. Этот метод, известный как "Германская танковая проблема", позволил получить удивительно точные оценки производства немецких танков, превосходящие по точности данные, полученные традиционной разведкой. История германской танковой проблемы демонстрирует, как статистические методы способны превратить, казалось бы, хаотичную информацию в ценные разведывательные данные, играя решающую роль в стратегическом планировании и ведении боевых действий. Однако, статистическим анализом производства танков всё не ограничивалось.


Читать: https://habr.com/ru/articles/871300/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

30 Dec, 18:13


GraphRAG: Повышение точности и полноты GenAI

GraphRAG предоставляет «граф знаний» LLM. В отличие от текстовых документов, эти структуры данных четко отображают взаимосвязи между объектами.


Читать: https://habr.com/ru/articles/870690/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

30 Dec, 11:19


Causal Inference методы на практике

Обычно, когда возникает необходимость оценить эффект от продуктовой фичи, аналитики проверяют гипотезы через A/B эксперименты. Но иногда запустить эксперимент нет возможности, а оценить эффект все еще хочется. Столкнувшись в очередной раз с такой ситуацией, я решил погрузиться в нашумевший в последнее время мир причинно-следственного анализа или Causal Inference и поделиться опытом применения различных подходов на практике.

Случалось ли с вами что-нибудь из этого?


Читать: https://habr.com/ru/articles/870874/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

28 Dec, 14:44


Кастомизация в Luxms BI: программируем под свои желания

Привет! Меня зовут Илья Гурешидзе, занимаюсь разработкой фронтенда, сопровождением и внедрением кастомных решений на базе платформы Luxms BI.

И хочу предложить в новогодние праздники почитать статью-руководство по кастомизации платформы Luxms BI для фронтенд-разработчиков, которые хотят добавить яркие и запоминающиеся элементы в свои дэшборды.

В ней расскажу как создать необычные визуализации, например, новогодние ёлки и шары, с использованием React и библиотеки Echarts. Технические особенности, код, архивы, инструкции, мемы и немного юмора — под катом.


Читать: https://habr.com/ru/companies/luxms_bi/articles/870684/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

27 Dec, 11:22


Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений

С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИ утверждают об окончании законов масштабирования, которые за последние несколько лет привели к мгновенному улучшению возможностей крупных языковых моделей (LLM). К ним присоединились журналисты, вооружившись неопределенной информацией о неспособности моделей успешно масштабироваться из-за предполагаемой низкой производительности. Критики также указывают на исчерпание доступных данных для обучения и замедление масштабирования оборудования для обучения.


Читать: https://habr.com/ru/articles/869674/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

27 Dec, 09:29


Temporal Fusion Transformer: улучшение прогнозирования в ритейле с минимальными затратами

Всем привет! Меня зовут Дмитрий Поляков, я работаю аналитиком данных в команде ad-hoc аналитики X5 Tech. В этой статье мы хотели бы рассмотреть задачу прогнозирования, которая является чрезвычайно важной задачей в ритейле.

Мы детально рассмотрим основные преимущества и архитектурные особенности модели Temporal Fusion Transformer (TFT), наш подход к использованию этой модели в задаче прогнозирования спроса, и как нам удалось увеличить точность прогнозов в среднем на 7%, затратив при этом минимальные усилия.

Также эта статья будет полезна и тем, кто хочет глубже понять принципы работы TFT, изучить её применение в библиотеке Darts и решить задачу прогнозирования для множества многомерных временных рядов.


Читать: https://habr.com/ru/companies/X5Tech/articles/869750/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

27 Dec, 06:22


Как оценивать ваш RAG-пайплайн и валидировать качество ответов LLM

RAG-системы становятся все популярнее в корпоративной среде, но их эффективное внедрение и качественная оценка остается сложной задачей. Один из типичных примеров использования RAG — создание чат-ботов, отвечающих на вопросы пользователей с опорой на корпоративную базу знаний. И которые, вроде бы, заводятся и работают, и делают это даже неплохо, но всегда хочется получше.

В этой статье под мандариновое настроение будет обзор основных аспектов создания RAG-пайплайнов, рассмотрим подходы к их дальнейшему улучшению и тюнингу, обсудим метрики оценки, а также софт, который может помочь вам в этих процессах.


Читать: https://habr.com/ru/articles/870174/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

27 Dec, 06:14


Инфраструктура для Data-Engineer Liquibase

Liquibase — это по сути реализация принципов IaC, но для баз данных, что делает его ключевым инструментом для DataBase as Code (DBaC). Как IaC управляет инфраструктурой, так Liquibase управляет схемами баз данных, обеспечивая автоматизацию, консистентность и версионирование изменений.


Читать: https://habr.com/ru/articles/863242/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

27 Dec, 05:25


Как предсказать будущее с помощью ML?

Привет, я Исламбек Темирбек, Senior Data Analyst в QIC digital hub. В этой статье я расскажу о машинном обучении, о том, как с его помощью можно предсказать будущее и о нашем опыте с моделью машинного обучения Time Series, служащей для предсказания временных рядов.


Читать: https://habr.com/ru/articles/870200/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

26 Dec, 13:22


Создание динамических таблиц в SuperSet

Однажды в студеную зимнюю пору из-за морей, из-за океанов прилетело известие: лицензии не выдаем, тех.поддержку не оказываем, а можем и вовсе отключить все системы. В компании погоревали, но делать нечего, решили переходить на новые системы, да такие, чтобы не смогли в любой момент их превратить в тыкву. И стали смотреть в сторону open-sourсe решений. Проанализировали несколько BI-систем и остановились на SuperSet. /*После QlikSense и Tableau казалось, что это так себе затея*/

Меня зовут Корнева Настя, я отвечаю за разработку BI-отчетности в Magnit Tech в рамках проекта Аналитика УЦП (управление цепочками поставок). В этой статье поделюсь нашим опытом создания динамических сводных таблиц в BI-инструменте SuperSet, что будет полезно разработчикам отчетности и всем, кому интересна тематика.


Читать: https://habr.com/ru/companies/magnit/articles/869924/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

26 Dec, 12:26


Расширенный CUPAC для снижения дисперсии в A/B экспериментах

Задача снижения дисперсии при проведении A/B экспериментов, кажется, никогда не перестанет быть актуальной. Хочу поделиться небольшим разбором свежей статьи, в которой авторы предлагают еще один довольно-таки провокационный метод для снижения дисперсии.

Можем ли мы использовать для снижения дисперсии данные во время эксперимента? А может ли метод быть сильно лучше CUPAC и что значит «лучше»?


Читать: https://habr.com/ru/articles/869998/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

25 Dec, 10:59


MLOps: как не потеряться в 10 тысячах фич, часть 2

Первая часть — здесь.

Data lineage

Этот подход обеспечивает прослеживание связей в данных и клиентов, которые используют данные, от источника, включая промежуточные стадии, до момента потребления этих данных. Данные может потреблять сервисы, какие-то BI-системы, на которых построены дашборды, эксплуатировать данные могут люди, дата аналитики, которым это необходимо в рабочих процессах. Data lineage позволяет прозрачно взглянуть на эти вещи и отследить момент получения предагрегатов до момента эксплуатации этих данных клиентами.

Нам важен разрез, когда клиентами или целевыми заказчиками данных являются ML-модели.


Читать: https://habr.com/ru/companies/beeline_tech/articles/868730/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

25 Dec, 10:18


MLOps: как не потеряться в 10 тысячах фич, часть 1

Всем привет! Меня зовут Дмитрий Ермилов, и сегодня я хочу рассказать про то, как мы в билайне использовали один data catalog-инструмент для того, чтобы построить прозрачные связи между моделями машинного обучения и признаками, от которых эти модели зависят, то есть от фич. Из доклада вы узнаете, зачем и кому это бывает нужно, а также один из способов решения этой задачи.

Для начала немного о себе. Я более десяти лет в разработке и анализе данных, имею научный бэкграунд, принимал участие в различных проектах от построения высоконагруженных сервисов с использованием моделей машинного обучения и глубоких нейронных сетей до построения корпоративных хранилищ данных и ETL-процессов. В настоящий момент работают в билайн, в дирекции билайн бизнес (Big Data&AI).

Департамент DS состоит из двадцати специалистов. Билайн сегодня в первую очередь — технологичная компания, мы любим говорить, что мы технологичны снаружи и технологичны внутри. У нас трудится более 3500 IT-специалистов, более 200 продуктовых команд, которые разбиты на различные сегменты (внутренние продукты, продукты B2C, B2G и B2B). Дирекция Big Data&AI сфокусирована на B2B-сегменте, у нас 13 продуктовых команд, 200 IT-специалистов, это ML, DS, дата аналитики, фронт, бек, DevOps и другие функции.

Спектр продуктов широкий - от платформы видеоаналитики и системы транскрибации и анализа речи до классических продуктов в области банковского скоринга. Мы любим машинное обучение, и это взаимно.


Читать: https://habr.com/ru/companies/beeline_tech/articles/868612/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

24 Dec, 12:07


Как выбрать вкусное вино на основе данных с помощью Luxms BI

В преддверии новогодних праздников предлагаю прочитать статью специально для виноманов! Меня зовут Ярослав Золотухин, я QA Lead Luxms.  И сегодня хочу поговорить о том, как с помощью данных и платформы бизнес-аналитики Luxms BI сделать выбор вина более осознанным и приятным.


Читать: https://habr.com/ru/companies/luxms_bi/articles/869382/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

24 Dec, 11:59


Как мы проверяли качество данных после завершения миграции с Teradata на Greenplum

Привет, Хабр! Мы завершаем серию статей о миграции аналитического хранилища данных с платформы Teradata на GreenPlum. В предыдущих статьях мы рассказали о нашем опыте и результатах автоматизированного переписывания SQL‑скриптов с помощью реализованных сервисов миграции кода и переноса архива данных. В этот раз мы расскажем вам о нашем опыте и результатах кросс‑платформенной проверки качества данных во время и после миграции, а также о трудностях и решениях, связанных с этим процессом.

Завершая нашу серию, мы подходим к ключевому аспекту миграции данных — проверке и обеспечению качества данных после переноса. Теперь, когда перед нами стоят два параллельно функционирующих хранилища, возникает вопрос о точности и согласованности данных между ними.


Читать: https://habr.com/ru/companies/sberbank/articles/869294/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

23 Dec, 14:01


Нашли для вас интересную новость из сферы финтеха

А именно — узнали, что ОТП Банк запустил TG-канал для айтишников. Команда строит финтех в международном банке и теперь можно узнавать прямо у них, как они это делают.

На OTP Tech стоит подписаться, чтобы узнавать о внутрянке работы, фичах, которые ребята пилят, как решают разные инфраструктурные задачи и в целом чтобы покайфовать. Мы, например, зависли на этих енотиках. К слову, вакансиями ребята тоже делятся.

Прокачайте свою ленту крутым каналом: OTP Tech

Это #партнёрский пост

Data Analysis / Big Data

23 Dec, 11:10


Разбор и стандартизация имен, адресов и других типов пользовательских данных в миллионных базах

Во всевозможных заявлениях, анкетах и обращениях пользователи вводят свои ФИО, адреса и прочие персональные данные в настолько разном формате, что даже человеку бывает сложно понять, где ошибки, а где правильное написание. Например, «Саша Петрович» — это имя с отчеством или фамилия с именем? А, может, это сокращённая форма имени? И кто перед нами — мужчина или женщина?

Такие же сложности возникают и с другими данными: адресами, телефонами, названиями компаний. В этом посте расскажем о наших методах разбора и стандартизации клиентских данных, разговор про которые начали в статье про поиск дубликатов при объединении огромных клиентских баз.


Читать: https://habr.com/ru/companies/hflabs/articles/868062/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

23 Dec, 08:52


Как не нужно визуализировать данные: антипаттерны в примерах

Как делать графики понятными и наглядными? Да ещё и избежать неверных трактовок? Когда использовать круговую диаграмму, а когда нужны линейные графики или столбчатая шкала? Для этого достаточно учесть антипаттерны, которые вредят и запутывают. Разберём на «хороших» и «плохих» примерах.

Привет, Хабр! Меня зовут Андрей Машковцев, я — BI-аналитик в «Т-банке», эксперт Skillbox, веду телеграмм–канал «Лайфхаки в аналитике» и увлекаюсь бегом. Для закрытого комьюнити Skillbox Code Experts рассказал об основных ошибках при визуализации данных. Основные мысли переложил в статью.


Читать: https://habr.com/ru/articles/868870/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

23 Dec, 07:55


Расцвет скоростей в сетях ЦОД: 400GbE уже мейнстрим или совсем мало?

Привет! Меня зовут Михаил Шпак, я занимаюсь комплексной архитектурой технологических решений в сетевой части ИТ-холдинга Fplus, который выпускает широкий спектр высокотехнологичных электронных устройств. В данной статье я хочу показать, как за последние 5 лет требования современного бизнеса и развитие ресурсоемких приложений (искусственного интеллекта, поисковых систем, мобильной связи стандарта 5G и т.д.) изменили требования к архитектуре, скорости и отзывчивости сетей, используемых в центрах обработки данных. Давайте разберемся, какие комплексные технологические решения заставляют нас ускоряться, а где можно использовать старые наработки и отточенные десятилетиями практики.


Читать: https://habr.com/ru/companies/fplus_tech/articles/868850/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

22 Dec, 06:32


Как LLM меняют архитектуру систем: от простых дата-пайплайнов к интеллектуальным автономным агентам

На каждой технической конференции в последнее время обязательно звучит слово «агенты». Они преподносятся по разному: и как следующая ступенька после RAG, и как серебряная пуля для решения всех проблем, и как абсолютная замена всех классических пайплайнов. А кто еще не использует агентов — безнадежно отстал от прогресса.

Но так ли это на самом деле? Данная статья вдохновлена видением компании Anthropic на применение LLM в процессах и на построение автономных агентов, поэтому давайте попробуем во всем разобраться.

Поговорим про Data Pipelines, LLM Workflows и LLM Agents, а так же сравним их между собой.


Читать: https://habr.com/ru/articles/868648/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

21 Dec, 15:24


Матрица ошибок confusion_matrix() в scikit-learn

Одним из самых наиболее развёрнутых способов оценки качества классификации является применение матрицы ошибок. Матрица ошибок представляет собой квадратную таблицу, в которой отображается количество предсказанных и фактических классов для классификационной модели. В этой матрице строки представляют истинные классы (реальные метки), а столбцы представляют предсказанные классы (метки, которые предсказала модель). Размер матрицы соответствует количеству классов.
Обычно для бинарной классификации она выглядит так:


Читать: https://habr.com/ru/articles/868636/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

21 Dec, 11:44


Инновационные инструменты для безопасности данных

Oracle FDI представляет новую функцию — настраиваемый контекст безопасности. Эта уникальная возможность обеспечивает точный контроль доступа к финансовым данным, учитывая сегменты баланса и затрат. Узнайте, как улучшить управление данными в вашей организации.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

20 Dec, 15:36


Как мультифакторные релейшены упростили нашу модель данных в Tableau

Сегодня BI-аналитика немыслима без ETL-процессов. Просто физических джоинов уже не хватает — чаще нужны логические модели данных. С ними можно создавать сложные структуры без запросов вручную. Как self-service инструмент, Tableau дал такую возможность в 2020 году, представив релейшены (relationships).


Читать: https://habr.com/ru/articles/868480/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

20 Dec, 14:53


Какой тип разметки данных требуется для вашего проекта? Полный гид по аннотированию изображений

Ограничивающие рамки, полигоны, ключевые точки или 3D-кубоиды? Каждый из этих методов разметки подходит для совершенно разных задач машинного обучения.

Хотите узнать, как правильно выбрать инструмент для своего проекта? Мы сравним преимущества и недостатки каждого инструмента и покажем, как аннотирование помогает создать передовые технологии — от беспилотных авто до диагностики в медицине.


Читать: https://habr.com/ru/companies/data_light/articles/868464/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

20 Dec, 14:01


Сравниваем форматы сериализации на Go: скорость и удобство

Дмитрий Королёв, бэкенд-разработчик в Авито, разобрал на примерах, чем отличаются друг от друга форматы сериализации данных и как выбрать самый удобный.

Читать: «Сравниваем форматы сериализации на Go: скорость и удобство»

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

20 Dec, 11:30


Переход на новую архитектуру проекта: как это влияет на надежность стриминга web-данных

Предположим, что перед вашей командой стоит задача по поиску надежного стриминга web и app данных, который бы соответствовал требованиям службы безопасности, ожиданиям отделов маркетинга и аналитики, а также был бы полезен для управляющей команды. Не менее важно удобство и прозрачность работы стриминга, а внесение изменений в ожидаемый результат, желательно, без привлечения дополнительного ресурса аналитиков и разработчиков.


Читать: https://habr.com/ru/articles/868358/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

20 Dec, 10:08


Машинное обучение на Spark

Существует множество подходов к машинному обучению. Со стороны может показаться, что генеративные модели на архитектуре под названием «трансформер» заняли передовые позиции и ближайшее обозримое будущее именно за ними. Но существуют и другие подходы к машинному обучению, которые тиражируются в медийном поле не так широко.

В этой статье вы познакомитесь с таким классом алгоритмов, как ансамблевые методы машинного обучения. А именно — градиентный бустинг на решающих деревьях. В основе они представляют из себя деревья решений, которые являются очень простой структурой, позволяющей получить ответ на основе входных данных. А еще мы разберемся, при чем тут Spark, и посмотрим на эти алгоритмы на практике.


Читать: https://habr.com/ru/companies/vk/articles/868114/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

20 Dec, 07:26


Анализ фильмов с интернет-портала Кинопоиск

Данное исследование посвящено анализу данных о фильмах, собранных с крупнейшей российской платформы КиноПоиск. Основная цель работы — выявить факторы, влияющие на популярность фильмов, их рейтинги и финансовую успешность. В ходе исследования были проанализированы жанровые предпочтения аудитории, проведено сравнение оценок фильмов на Кинопоиске и IMDb, а также исследована взаимосвязь между бюджетами фильмов и их кассовыми сборами.

Разработка включала этапы сбора, обработки, анализа и визуализации данных. Для обработки данных применялись методы очистки от пропусков и ошибок, фильтрации по ключевым показателям и трансформации структур данных. Были реализованы функции для конвертации валют, извлечения данных о жанрах и персоналиях фильмов (актёрах и режиссёрах), а также вычисления статистических показателей полноты и однородности выборки.

Для эффективной работы системы был использован современный технологический стек. Обработка данных осуществлялась с помощью MongoDB, что обеспечило хранение и управление большими объёмами неструктурированной информации. RabbitMQ организовал асинхронный обмен сообщениями между компонентами системы, а серверная часть приложения разрабатывалась на базе Spring Boot, что ускорило процесс разработки и упростило развертывание приложения. Контейнеризация с использованием Docker обеспечила удобное развертывание и масштабирование системы. Основными языками программирования стали Java 17 и Python: Java использовалась для серверной части и микросервисов, а Python — для анализа данных и построения алгоритмов обработки информации.

Для анализа данных применялись библиотеки Pandas, Seaborn и SciPy, которые обеспечили эффективную обработку данных и визуализацию результатов. В рамках анализа строились графики, отображающие популярность жанров, исследовалась корреляция оценок на Кинопоиске и IMDb, а также визуализировалась связь между бюджетами и кассовыми сборами. Для представления результатов применялись такие инструменты, как matplotlib и seaborn, позволяя визуализировать ключевые закономерности в виде графиков и диаграмм.

Анализ выявил ключевые закономерности: популярность определённых жанров, зависимость коммерческого успеха фильма от его бюджета и значительное влияние известных актёров и режиссёров на успех фильма. Полученные результаты могут быть полезны для киностудий и продюсеров при планировании новых проектов, прогнозировании кассовых сборов и выборе жанров. Результаты также могут применяться для оптимизации маркетинговых стратегий при продвижении фильмов. В будущем планируется углубить исследование, проанализировать долгосрочные тренды в изменении популярности жанров и исследовать влияние пользовательских рецензий на успех фильмов.


Читать: https://habr.com/ru/articles/868238/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

20 Dec, 06:14


Рынок дата-инженеров и прогноз на 2025

В этой статье вы сможете узнать в каком состоянии находится рынок дата-инженеров в 2024-ом и что с ним будет в 2025-ом.


Читать: https://habr.com/ru/articles/864780/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

17 Dec, 14:50


Возможности LLM и RAG на примере реализации бота для поддержки клиентов

Одной из ключевых точек контакта компании с клиентами является техподдержка, которая позволяет оперативно решать вопросы и отрабатывать обратную связь. Но клиенты, которые хотят консультацию и информацию по конкретному вопросу, часто создают нагрузку, которую небольшие отделы поддержки обработать не могут. В итоге бизнесу нужно либо расширять штат, либо автоматизировать часть процессов. В этом помогают чат-боты и нейросети.

Меня зовут Александр Волынский. Я технический менеджер продукта в подразделении Applied ML. В этой статье я хочу рассказать об LLM и RAG, вариантах их использования на примере нашего бота для поддержки клиентов, а также о сценариях применения полученной реализации.


Читать: https://habr.com/ru/companies/vk/articles/866906/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

17 Dec, 12:01


Повышение качества данных с использованием Zero Bug Policy

Олег Харатов, Technical Unit Lead в Авито, рассказывает, как навести порядок в огромном хранилище и не сойти с ума.

Читать: «Повышение качества данных с использованием Zero Bug Policy»

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

06 Dec, 13:51


Автоматизация ТОиР инженерных систем в ВТБ: кейс внедрения SAP PM для 100 000 единиц оборудования

В новостных сводках, каналах, изданиях мы все чаще наблюдаем за успехами оптимизации, автоматизации и внедрения новых систем ТОиР промышленного оборудования. На больших предприятиях оборудование принято называть активами, подчеркивая их важность для достижения целей компании.
Да, промышленное оборудование - безусловно критически важное оборудование инфраструктуры предприятия и от надежности такого оборудования во многом зависит доход компании.
А что же с активами банков? Нет, не теми финансовыми инструментами, которыми они пользуются, а «железными» активами, которые также помогают банкам работать. Как же быть с обслуживанием инженерного оборудования или оборудования противопожарных систем, а еще и кассовой техники? - зададимся мы вопросом. Почему про процессы обслуживания этого оборудования мы мало где можем найти информацию? Ведь оно также является немаловажным звеном основной цепочки бизнес-процесса предприятия, и от его бесперебойной работоспособности зависит многое.
Возьмем например банк. Инженерные системы и системы противопожарной безопасности банка – это «сердце», жизненно важный элемент объекта. Кассовая техника – это «стержень» кассового узла, центра пересчета. Исправное и безотказное состояние элементов инженерных систем обеспечивает удобство, уют и комфорт сотрудникам и клиентам банка, а кассовой техники – непрерывность процесса пересчета и, как следствие, напрямую влияет на прибыль.
Наша команда Банка ВТБ давно занимается этими вопросами и мы хотим рассказать об одной такой истории автоматизации процессов ТОиР в банковской сфере.
В 2020 году Банк ВТБ, как и положено крупным компаниям, обновлял программное обеспечение и переходил на обновленную версию SAP S4. Управление эксплуатации Административного департамента банка, проанализировав текущие процессы ТОиР, вынесла предложение включить в новую сборку программы SAP дополнительный модуль PM (ТОРО). Руководство компании поддержало идею цифровизации технического обслуживания и ремонта. Так началась история автоматизации ТОиР в Банке ВТБ.


Читать: https://habr.com/ru/articles/864568/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

06 Dec, 13:50


Алгоритмы и структуры данных для численных вычислений с автоматической оценкой точности

Специалист отдела перспективных исследований компании «Криптонит» Игорь Нетай на протяжении нескольких лет изучал фундаментальную проблему быстрой потери точности вычислений. Она связана с повсеместно применяемым форматом экспоненциальной записи чисел и наиболее остро затрагивает сферы AI, HPC и Big Data.


Читать: https://habr.com/ru/companies/kryptonite/articles/863838/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

06 Dec, 13:34


Документация, которая точно не навредит аналитике в Вашем проекте

Привет!
Я работаю Chief Data Officer в средней российской компании и, думаю, попробовал "всякое" в плане работы с документацией для команды, которая работает с данными.
Хочу поделиться своим опытом того, что "маст хев" в документации в Вашем проекте, когда есть планы вроде "make analysis great [again]".
Нука-нука!

Читать: https://habr.com/ru/articles/864512/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

06 Dec, 10:23


Переобучение моделей: гайд и советы для начинающих

С развитием нейросетей появляются новые вызовы. Один из них — переобучение моделей. Совместно с Александром Рыжковым, ментором Skillfactory, руководителем команды LightAutoML и 4х Kaggle Grandmaster, разбираемся, что такое переобучение, хорошо ли это и как его избежать.


Читать: https://habr.com/ru/companies/skillfactory/articles/864234/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

06 Dec, 10:06


Руководство для начинающих по оценке конвейеров RAG с использованием RAGAS

В постоянно развивающемся мире машинного обучения и искусственного интеллекта разработка приложений языковых моделей, в частности систем генерации дополненного извлечения (RAG), становится все более сложной. Однако настоящая проблема возникает не во время первоначального создания, а при постоянном обслуживании и улучшении этих приложений. Именно здесь в игру вступает RAGAS — оценочная библиотека, предназначенная для предоставления метрик для конвейеров RAG. В этой статье мы рассмотрим библиотеку RAGAS и научим вас использовать ее для оценки конвейеров RAG.


Читать: https://habr.com/ru/articles/863902/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

06 Dec, 07:17


Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях

Привет, меня зовут Коновалов Андрей, я Data Scientist персональных рекомендаций Wildberries. В этой статье разберем, как можно тюнингом TF-IDF побить BERT4Rec в ретро-тесте рекомендательной системы.


Читать: https://habr.com/ru/companies/wildberries/articles/861466/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

06 Dec, 06:12


Как должен выглядеть идеальный GitHub для поиска работы

Сколько раз вы слышали совет: "Укажи GitHub в резюме для поиска работы"?

Многие думают, что просто создать аккаунт и запушить пару репозиториев будет достаточно, чтобы работодатели будут выстраиваться в очередь. Но на самом деле это совсем не так.

Сегодня мы разберёмся, почему пустой GitHub не только не помогает в поиске работы, но и может навредить вашим карьерным перспективам.


Читать: https://habr.com/ru/articles/863238/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

04 Dec, 07:55


Пора перестать в любой непонятной ситуации строить DWH для аналитики

Привет!
Кажется, первая статья нашла своего благодарного читателя.Снова мысли от CDO трудящегося вместе с одной небольшой компанией ру-сегмента.
Продолжу о том, что "наболело".

Эта статья может быть Вам полезна, если консалтинг/интегратор/CTO/CIO/сын маминой подруги настойчиво хочет решить все Ваши "проблемы" в аналитике классным корпоративным хранилищем, далее - DWH.


Читать: https://habr.com/ru/articles/863308/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

04 Dec, 06:50


Задача прогнозирования дохода клиента, или Как избавиться от неприличных вопросов в заявке

Спрашивать о зарплате — неприличный вопрос. Конечно, если вас не спросили об этом на Патриках 🙂. Прогнозирование доходов клиентов — это одна из ключевых задач, стоящих перед современными финансовыми учреждениями. Оно не просто помогает в оптимизации внутренних процессов, но и играет важную роль в улучшении клиентского опыта. Поэтому, даже если бы мы были на Патриках, то не доверяли бы утверждениям из уст опрашиваемых.

Для этого у нас есть модели.


Читать: https://habr.com/ru/companies/alfa/articles/862118/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

04 Dec, 06:26


Безграничная расширяемость: как экосистема плагинов помогает Trino работать в любом аналитическом ландшафте

"Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон Trino — расширяемость.

В этом блоге я расскажу, как устроены плагины Trino — строительные блоки, которые позволяют гибко адаптировать возможности продукта под потребности современных аналитических платформ.


Читать: https://habr.com/ru/companies/cedrusdata/articles/863600/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

04 Dec, 06:26


Neural OCR как способ использования нейронных сетей при распознавании рукописных символов

Прогресс в машинном обучении и компьютерном зрении изменил подходы к оптическому распознаванию символов (OCR), обеспечив высокую точность оцифровки документов. Однако современные сверточные нейронные сети (CNN), используемые в большинстве OCR‑систем, сталкиваются с нехваткой качественных тренировочных данных. Эта проблема особенно затрагивает языки с ограниченными ресурсами, что создает трудности в разработке надежных систем распознавания текста. Ограниченные обучающие наборы часто снижают точность и устойчивость моделей при работе с различными форматами документов, нестандартными шрифтами и изображениями низкого качества.

Поэтому необходимо разрабатывать новые модели OCR, которые могут эффективно распознавать текст даже при недостатке данных. Такие модели должны быть гибкими и адаптивными, чтобы успешно обрабатывать документы разных стилей и форматов, а также оставаться устойчивыми к шумам и искажениям. Важно найти методы, которые обеспечат высокую точность распознавания независимо от объема обучающей выборки, что откроет возможности для применения OCR в многоязычных и многоформатных контекстах.

Исследования по улучшению эффективности и универсальности систем OCR имеют большое значение для повышения качества распознавания текста в разных условиях. В таких работах рассматриваются перспективные подходы, такие как аугментация данных, трансферное обучение и специализированные архитектуры нейронных сетей, адаптированные для работы с ограниченными данными. Эти исследования могут привести к созданию более совершенных и доступных систем OCR, что расширит их практическое применение. Улучшение качества распознавания текста позволит автоматизировать процессы обработки информации в бизнесе, образовании, архивировании, научных исследованиях и других областях, способствуя более эффективному взаимодействию с текстовыми данными в цифровую эпоху.


Читать: https://habr.com/ru/articles/863644/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

03 Dec, 11:17


Сравнение платформ для аналитики данных

Что общего у Snowflake, Databricks, Redshift и BigQuery? Эти платформы позволяют обрабатывать и хранить большие объемы данных, предлагая уникальные преимущества и различные уровни поддержки языков программирования. Как выбрать подходящую платформу и что нужно учитывать? Основные аспекты их сравнения помогут вам понять, какая из них лучше соответствует вашим задачам и требованиям. Платформы для аналитики данных: что выбрать?

Основываясь на статье, обсуждаются различия между платформами для аналитики данных, такими как Snowflake и Spark. Отмечается, что такие системы, как Snowflake, легче настроить, но Spark предлагает больше контроля. Выбор зависит от требований к функциям и не должен основываться только на маркетинге.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

03 Dec, 10:36


Оценка приложений RAG с помощью RAGA

Фреймворк с метриками и данными, сгенерированными LLM, для оценки производительности конвейера с дополненной генерацией данных.


Читать: https://habr.com/ru/articles/861792/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

03 Dec, 06:43


Python в Data Science: топовые библиотеки и фреймворки, которые будут популярны в 2025

Python в Data Science. Показываем основные библиотеки и фреймворки, которые будут популярны в 2025. Рассматриваем преимущества и недостатки Tproger

Читать: «Python в Data Science: топовые библиотеки и фреймворки, которые будут популярны в 2025»

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

03 Dec, 06:41


Python в Data Science: топовые библиотеки и фреймворки, которые будут популярны в 2025

Python в Data Science. Показываем основные библиотеки и фреймворки, которые будут популярны в 2025. Рассматриваем преимущества и недостатки Tproger

Читать: «Python в Data Science: топовые библиотеки и фреймворки, которые будут популярны в 2025»

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

02 Dec, 16:14


Применение методов машинного обучения для анализа цен на вторичное жильё в Липецке

📊 Применение методов машинного обучения для проведения кластерного анализа по стоимости квартир на вторичном рынке недвижимости города Липецка.


Читать: https://habr.com/ru/articles/863168/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

02 Dec, 15:33


Суперсилы Виталика: на что способен ViTalk GPT

Привет, Хабр! Область Business Intelligence — одна из наиболее “интеллектуальных” по определению, и в аналитической работе в некоторых задачах особенно удобно использовать искусственный интеллект. Поэтому мы сегодня поговорим про чат-бота ViTalk GPT, который в некоторых задачах помогает очень быстро найти правильный ответ на поставленные вопросы, а иногда — даже скорректировать свой же вопрос с учетом возможностей платформы Visiology. В этой статье мы коснемся сильных и слабых сторон AI, проверим, смогут ли два слона поставить мат королю, и оценим сферу применения ViTalk GPT для аналитиков, разработчиков и даже бизнес-пользователей.

AI помогает делать многое, но при работе с современными сервисами часто возникают технические трудности — платная подписка, необходимость подключать VPN, потребность постоянно напоминать AI контекст предметной области и т.д. К счастью, для аналитики в DAX доступен бесплатный чат-бот ViTalk, который способен решать множество важных задач без лишних танцев с бубном.


Читать: https://habr.com/ru/companies/visiology/articles/863144/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

02 Dec, 13:18


Интеграция Salesforce с Fusion Data Integration

Текст поста: Узнайте, как интегрировать Salesforce с Fusion Data Integration для доступа к данным аналитики кампаний и CRM. В статье описаны этапы настройки, тестирования и активации соединения, а также конфигурации параметров и проверки данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

02 Dec, 13:18


Создание пользовательских объектов в Fusion Applications

Хотите узнать, как создавать пользовательские объекты в Fusion Applications и улучшать их с помощью FDI? В статье подробно описан пошаговый процесс и приведён пример из реальной практики, показывающий, как применить эти знания на практике.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

02 Dec, 13:17


Создайте бар-чарт с D3.js!

В статье рассказано, как использовать D3.js для создания простой визуализации данных с помощью HTML-бар-чарта. Узнайте, как отобразить связь между числовыми и категориальными данными на основе примера с жестко закодированными данными.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

02 Dec, 09:57


Генерация дополненного извлечения (RAG): от теории к реализации LangChain

От теории из оригинальной академической статьи до ее реализации на Python с OpenAI, Weaviate и LangChain


Читать: https://habr.com/ru/articles/862870/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

02 Dec, 07:23


Что за распределение у выборочных квантилей?

Все знают про распределение выборочного среднего (его описывает Центральная предельная теорема), а что насчет выборочных квантилей?

В заметке я расскажу, как и зачем приближать распределения выборочных квантилей из данных с типичными распределениями: равномерное, экспоненциальное и нормальное, а также когда и какое приближение стоит использовать.


Читать: https://habr.com/ru/articles/862874/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

01 Dec, 10:30


Миф о чистых данных: почему ваш аналитик похож на сапёра

Миф о чистых данных: почему ваш аналитик похож на сапёра.

Как бороться с самым частым убеждением при работе с данными.


Читать: https://habr.com/ru/articles/862772/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

29 Nov, 13:33


Как организовать разметку данных для ML? Советы от Data Light

За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии.

Организация самого процесса разметки зависит от многих факторов: целей проекта, объемов данных, требуемой точности и доступных ресурсов. В этой статье мы рассмотрим основные методики и инструменты для организации разметки данных с нашими экспертами:

Дмитрий Рогальский, Special Projects Group Manager в Data Light

Алексей Корнилов, Moderation Group Manager в Data Light


Читать: https://habr.com/ru/companies/data_light/articles/862464/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

29 Nov, 09:30


В поисках потерянных данных: переход со StreamSets на Data Boring

Наш заказчик столкнулся с реальной проблемой, когда из-за использования устаревшего ETL-инструмента StreamSets оказался в ситуации, в которой его система начала давать сбои, а это напрямую влияло на финансовые результаты. Мы решили помочь, организовав миграцию на более современное решение — Luxms Data Boring.

В этой статье мы, Николай Павлов и Наталья Глодя, делимся опытом нашей команды в поисках потерянных данных и рассказываем о том, как важно не дожидаться критических ситуаций, а заранее обновлять свои инструменты. Узнайте, как мы смогли не только решить проблему заказчика, но и обеспечить надежность и эффективность бизнес-процессов с помощью отечественного ПО, подходящего под условия импортозамещения.


Читать: https://habr.com/ru/companies/luxms_bi/articles/862364/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

29 Nov, 06:13


Инфраструктура для Data-Engineer форматы файлов

В современной дата-инженерии работа с данными неразрывно связана с различными форматами файлов. Каждый формат имеет свои особенности, преимущества и области применения. В этой статье мы рассмотрим наиболее популярные форматы, научимся с ними работать и поймем, когда какой формат лучше использовать.


Читать: https://habr.com/ru/articles/859968/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

28 Nov, 16:46


Михаил Водолагин, ex-CDO Deeplay: «Люди умудряются выстрелить себе в ногу очень по-разному!»

Что, на ваш взгляд, самое странное может сделать кандидат на собеседовании? Вы когда-нибудь задавали себе вопрос, в чём главное отличие дата инженера от "обычного" аналитика? Знаете, в чём основная разница между опытным сотрудником и тимлидом?Слышали истории о том, как можно с нуля вырастить и поддерживать на плаву полноценный департамент работы с данными?

На эти и многие другие вопросы я разговаривал с Михаилом Водолагиным. Он очень долго руководил командами дата саентистов и аналитиков, строил команды с нуля, внедрял аналитические системы. CDO (chief data oficer) для него - уже пройденный этап.

Кроме того, Миша обладает уникальной эмпатией, которая позволяет ему видеть проблемы с разных сторон.


Читать: https://habr.com/ru/articles/860322/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

28 Nov, 15:23


Модели BERT для машинного обучения: гайд для начинающих

BERT (Bidirectional Encoder Representations from Transformers) — это одна из ключевых моделей обработки естественного языка (NLP), построенная на архитектуре трансформера.


Читать: https://habr.com/ru/companies/skillfactory/articles/862130/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

28 Nov, 10:21


От слов к делу: Практические кейсы применения NLP в Ингосстрахе

Для полноценной работы страховой компании нужен большой штат сотрудников, которые общаются при помощи великого и могучего русского языка. А значит есть поле для автоматизации процессов работы средствами NLP. Именно про это данная статья.

Мы рассмотрим варианты решения типовых задач в страховании и не только.


Читать: https://habr.com/ru/companies/ingos_it/articles/862030/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

27 Nov, 10:01


Генерация данных с помощью Python: зачем это нужно и как применять

Генерация данных с помощью Python. Зачем это нужно и как применять. Рассматриваем основные библиотеки и примеры Tproger

Читать: «Генерация данных с помощью Python: зачем это нужно и как применять»

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

26 Nov, 05:38


Безопасность Oracle Analytics Server: Руководство по Zero Trust

Пост: Откройте для себя, как усилить защиту Oracle Analytics Server с помощью Zero Trust Packet Routing. Узнайте о новых подходах к безопасности, которые помогут предотвратить угрозы и обеспечить надежность ваших данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

26 Nov, 05:38


Создайте уникальный плагин с нуля

Хотите научиться создавать собственные плагины? Новая серия статей предлагает пошаговое руководство, которое поможет вам разработать инновационный и функциональный плагин. Идеально для тех, кто хочет освоить процесс разработки с первого шага.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

26 Nov, 05:38


Защити свой Oracle Analytics Cloud

Пост: Узнайте, как обеспечить безопасность вашего Oracle Analytics Cloud с помощью методологии Zero Trust Packet Routing. Эта технология позволяет минимизировать риски, связанные с доступом к данным, за счет недоверия ко всем внешним и внутренним источникам.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

26 Nov, 05:37


Как загрузить свою модель в Oracle Analytics Cloud

В статье рассказывается о способах интеграции кастомных моделей для понимания документов в Oracle Analytics Cloud. Пошаговое руководство поможет эффективно зарегистрировать и использовать обученные модели для анализа данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

26 Nov, 05:37


Настройте модели в OCI для точной обработки документов

Статья рассказывает о создании кастомных моделей в OCI Document Understanding. Узнайте, как адаптировать извлечение данных из документов под уникальные требования клиентов, используя возможности Oracle Cloud Infrastructure.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

26 Nov, 05:37


Участвуй в Oracle Analytics Data Visualization Challenge 2025!

Oracle приглашает начинающих специалистов по визуализации данных продемонстрировать свои таланты в новом конкурсе 2025 года. Это отличная возможность проявить себя в мире данных и, возможно, стать лидером в этой области. Не упустите шанс стать лучшим!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

24 Nov, 14:01


Гайд по установке Apache Airflow, на случай, если у тебя его ещё нет в преддверии 2025 года

Немного лирики, что такое Apache Airflow — это оркестратор (ваших данных), инструмент для создания, планирования и мониторинга рабочих процессов (так называемых DAGs — Directed Acyclic Graphs).


Читать: https://habr.com/ru/articles/860900/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

24 Nov, 09:50


Полное руководство по оценке компонентов системы RAG: что необходимо знать

Системы дополненной генерации (RAG) были разработаны для улучшения качества ответа крупной языковой модели (LLM). Когда пользователь отправляет запрос, система RAG извлекает релевантную информацию из векторной базы данных и передает ее в LLM в качестве контекста. Затем LLM использует этот контекст для генерации ответа для пользователя. Этот процесс значительно улучшает качество ответов LLM с меньшим количеством «галлюцинаций».


Читать: https://habr.com/ru/articles/860390/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

22 Nov, 17:21


Анализ временных рядов: полное руководство для начинающих

Временной ряд — это последовательность значений, которые протекают и измеряются в определенном временном промежутке. К бытовым примерам временного ряда можно отнести метеорологические наблюдения или колебания цен на рынке.

Аналитикам такие наборы данных позволяют выявлять закономерности, прогнозировать будущее и предлагать бизнесу обоснованные решения. В этой статье разберемся, с чего начать осваивать анализ временных рядов, вместе с Team Lead Data Scientist в VK Максимом Кулаевым.


Читать: https://habr.com/ru/companies/skillfactory/articles/860660/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

22 Nov, 12:45


Саммаризация — Как Data Light помогает пользователям находить идеальный товар быстрее

Что, если бы все отзывы могли сокращаться в ясные и четкие выжимки, которые помогли бы пользователям быстрее находить информацию? Эту задачу называют саммаризацией, и как раз над таким проектом мы недавно закончили работать: команда Data Light должна была структурировать данные крупной платформы, чтобы сделать их доступными для автоматической обработки.

В этой статье мы поделимся деталями масштабного проекта по саммаризации, над которым команда работала уже больше года: с какими вызовами столкнулись, какие решения нашли — и что это значит для будущего обработки данных.


Читать: https://habr.com/ru/companies/data_light/articles/860602/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

22 Nov, 09:38


Оптимизация денежной наличности в АТМ, или Как сделать так, чтобы в банкомате всегда были деньги

Бывала у вас такая ситуация, когда хотели снять деньги в банкомате, а их там не оказалось, и приходилось искать банкомат рядом, про себя ругаясь на банк: «Неужели так сложно сделать, чтобы деньги в аппарате были всегда?» Да, это возможно, но есть нюанс.

Меня зовут Мария, я работаю в Альфа-Банке на позиции Middle Data Scientist, и сейчас я вам про этот нюанс расскажу — почему же эта задача не такая тривиальная, как кажется на первый взгляд.


Читать: https://habr.com/ru/companies/alfa/articles/859940/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

22 Nov, 09:16


Python и SQL: что изучать в первую очередь для анализа данных

Python и SQL — самые популярные инструменты для работы с данными. Но какой из них изучать первым? Разбираемся в статье.

Читать: «Python и SQL: что изучать в первую очередь для анализа данных»

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

22 Nov, 09:11


Python и SQL: что изучать в первую очередь для анализа данных

Python и SQL — самые популярные инструменты для работы с данными. Но какой из них изучать первым? Разбираемся в статье.

Читать: «Python и SQL: что изучать в первую очередь для анализа данных»

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

22 Nov, 09:10


Python и SQL: что изучать в первую очередь для анализа данных

Python и SQL — самые популярные инструменты для работы с данными. Но какой из них изучать первым? Разбираемся в статье.

Читать: «Python и SQL: что изучать в первую очередь для анализа данных»

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

21 Nov, 18:48


Объединяем фреймы данных в pandas: две самые распространённые операции

Предположим, что проводится большое исследование основных биохимических показателей крови у пациентов, проходивших обследование в нескольких клиниках. Все пациенты должны отказаться в одном наборе данных — но исходно каждая клиника поставляет свой датасет. Индексом в каждом из них будет номер паспорта пациента, а параметры будут сходны — для всех пациентов, помимо имени и даты рождения, будут доступны концентрации альфа-амилазы, креатинина, общего белка и т.п. Они будут представлять собой столбцы таблиц — но в каждой таблице они будут расположены в разном порядке, потому что у разных лабораторий были разные бланки.

Объединять такие таблицы, например, в Excel, ужасно долго и муторно. К счастью, если их удалось загрузить в pandas в виде фреймов данных, есть решение одной командой. Если вы импортировали pandas как pd, то команда объединения будет выглядеть так:


Читать: https://habr.com/ru/articles/860412/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

21 Nov, 16:11


Customer Happiness: как не только разработать, но и внедрить новый продукт внутри крупной компании

Привет, Хабр! Меня зовут Дмитрий Бодин, в МТС Диджитал я руковожу командой интеграции DataOps Platform — платформы по работе с данными. Мы занимаемся внедрением и сопровождением инструментов DataOps внутри экосистемы МТС.

При запуске DataOps Platform мы увидели слабую заинтересованность в ее сервисах, так как все привыкли работать с инструментами от известных вендоров. В этот момент мы поняли, что очень важно продвигать платформу внутри компании и сопровождать пользователей на всех этапах внедрения.

Ниже я на нашем опыте расскажу, как нам удалось заинтересовать коллег своим продуктом, какие возникали проблемы с ростом числа пользователей и как мы построили внутреннюю систему консалтинга, которая помогает на всех этапах работы с нашими инструментами. Надеюсь, мой опыт будет полезен тем, кто занимается созданием и развитием с нуля внутренних продуктов в своих компаниях.


Читать: https://habr.com/ru/companies/ru_mts/articles/860370/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

21 Nov, 15:01


Как обеспечить Data Quality терабайтов данных и зачем: опыт СИБУРа

Современное производство — это уже давно не просто набор станков и всяких железок в ангарах, теперь это ещё и автоматизации, IT-инфраструктура и много, очень много данных, которые в режиме реального времени стекаются в DWH (Data Warehouse — хранилище данных) из сотен источников.

Эти данные нужно собирать, хранить, обрабатывать и анализировать, чтобы компания могла принимать правильные бизнес-решения. Качество данных (Data Quality, DQ) в таких условиях становится критически важным показателем, от которого зависит рентабельность бизнеса в целом.

Это вторая статья из небольшого цикла, в котором мы разбираем опыт СИБУРа в создании, поддержке и развитии DQ-сервиса. И этот опыт универсален — его можно применять в любой компании, перед которой стоят задачи по обеспечению качества данных.

В первой статье мы рассказывали про импортозамещение DQ-решений после ухода вендора с рынка РФ. В этой статье мы поговорим о задачах, которые решает DQ в целом, и рассмотрим архитектуру решения, которое мы строим в СИБУРе.

Рассказывать об этом опыте будет Александр Бергер, Lead DQ Analyst в СИБУРе, которому посчастливилось лидить процесс создания DQ-сервиса в компании последние несколько лет.


Читать: https://habr.com/ru/companies/sibur_official/articles/860372/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

21 Nov, 14:25


CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API

Мы выпустили новый технический каталог для аналитических платформ, который поддерживает спецификацию Iceberg REST API. Рассказываем, зачем это нужно вам и нам


Читать: https://habr.com/ru/companies/cedrusdata/articles/860356/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

21 Nov, 14:23


🔍 Microsoft Dynamics 365 или Power BI: что выбрать для отчетности?

Когда дело доходит до аналитики, Microsoft Dynamics 365 предлагает базовые отчеты и дашборды. Однако для более глубокой аналитики стоит рассмотреть Power BI. Его инструменты позволяют создавать сложные визуализации и анализировать данные в реальном времени. Выбор зависит от ваших бизнес-задач.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

21 Nov, 12:40


Введение в синтетические данные для ML: зачем они нужны?

Генерация документов, лиц и даже симуляция целых атак: как далеко можно зайти в создании и использовании синтетических данных?

В этой статье Артур Казукевич, Data Science Engineer в Data Light, расскажет, почему синтетика становится крупнейшей тенденцией в сфере ML, как такие данные можно использовать и какие ограничения для генерации существуют, а также поделится своим опытом.


Читать: https://habr.com/ru/companies/data_light/articles/860310/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

21 Nov, 11:35


Оптимизация Arenadata DB: как избежать критических ошибок и повысить производительность кластера

Привет, Хабр! Меня зовут Дмитрий Капралов, я работаю в команде консалтинга компании Arenadata. Одной из наших задач является проведение аудита кластеров СУБД Arenadata DB (ADB). Проектирование физической модели данных и настройка квотирования ресурсов кластера проводятся на этапе разработки хранилища. Однако при переходе системы в продуктивный режим профиль нагрузки кардинально меняется, и первоначальные настройки СУБД и архитектура данных нередко оказываются не готовы к такой нагрузке. В процессе эксплуатации могут возникнуть узкие места, замедляющие работу системы. В этой статье я хочу поделиться опытом нашей команды по выявлению и оптимизации подобных проблем.


Читать: https://habr.com/ru/companies/arenadata/articles/852830/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

21 Nov, 05:07


Создание баз данных за выходные

В этой статье я расскажу вам, как использовать DataFusion для создания собственного опыта разработки баз данных.

Базы данных являются одними из самых сложных частей программного обеспечения, задуманных с момента появления вычислительной эры более полувека назад. [1] Почти каждая часть технологии в конечном итоге касается базы данных в той или иной форме. Несмотря на повсеместность баз данных в программном стеке, подавляющее большинство разработчиков были приучены относиться к базам данных как к более или менее черному ящику — сложным плотным чарам программного обеспечения, созданным волшебниками и знатоками, укрывшимися в элитных рядах компаний, занимающихся базами данных, или в таких местах, как Google. Поговорка для остальных из нас, как она есть, — никогда не пытайтесь написать свою собственную базу данных .

Тем не менее, несмотря на их долговечность, мы наблюдаем постоянные инновации в этой области, которая впервые началась с появлением Hadoop около 2 десятилетий назад. На сайте ClickBench теперь перечислено более 50 баз данных в его наборе тестов [2]. И это только аналитические движки. С учетом последних тенденций переписывания всех больших данных на Rust [3] не проходит и месяца, чтобы интересный новый проект не оказался в тренде Hacker News. В этой статье мы рассмотрим, насколько легко (или сложно) создавать базы данных с помощью Apache Datafusion и можете ли вы, будучи простым смертным, на самом деле реально создать собственную базу данных и внедрить инновации вокруг опыта разработчика.


Читать: https://habr.com/ru/articles/860166/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

20 Nov, 16:00


Прими участие в хакатоне Т1 2024 в Москве и поборись за призовой фонд в 1 200 000 рублей!

Когда: 26-29 ноября 2024
Формат: гибридный

Хакатон Т1 2024 создан для тебя, если ты:

– Выпускник вуза или молодой специалист;
– Студент старших курсов технических вузов;
– Специалист по frontend или backend-разработке, системный аналитик, AI-специалист.

На хакатоне будут 2 кейса:

1. Хаб: объединение данных пользователя в золотую запись.
Создай методику, которая поможет найти «золотую запись» в большом наборе данных, используя признаки актуальности, частоты и полноты.

2. Окно знаний: цифровой ассистент базы знаний.
Создай платформу, которая позволит пользователям разрабатывать окна взаимодействия с ассистентом, интегрируя собственные базы знаний.

Это твой шанс разработать инновационные решения для крупных заказчиков и повысить свои компетенции в области IT!

Регистрация открыта! Успей зарегистрироваться по ссылке до 24 ноября, 23:59 МСК и стать частью хакатона в Москве.

Это #партнёрский пост

Data Analysis / Big Data

20 Nov, 15:34


Четыре вида аналитики данных: дескриптивная, диагностическая, предиктивная, прескриптивная

В процессе аналитики данные преобразуются в информацию и формируют знания, помогающие действовать своевременно и эффективно в ответ на вызовы рынка.

В материале разбираемся, чем данные отличаются от информации и рассказываем о четырех уровнях анализа данных:

- Описательном

- Диагностическом

- Предиктивном

- Предписывающем


Читать: https://habr.com/ru/articles/860078/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

20 Nov, 14:04


Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста

Метод CUPED уже давно завоевал популярность в анализе A/B-тестов, предоставляя возможность выявлять эффекты меньших размеров. В этой статье мы подробно рассмотрим применение данного подхода на этапе дизайна эксперимента. Мы исследуем, как можно сократить размеры выборок, не теряя при этом в статистической мощности теста.


Читать: https://habr.com/ru/articles/860050/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

20 Nov, 09:44


Почему рейтинги лгут: разбираемся, как и почему рейтинги BI не говорят всей правды

Мы, Luxms, создаём передовые решения для обработки и анализа данных. В этой статье мы поговорим о том, как на основе рейтингов можно пропустить подходящий вам BI-инструмент и о том, как выбрать неподходящий.

Рейтинг кажется находкой для бизнеса: посмотрел кто в топе, выбрал лучшее решение среди более чем сотни существующих на рынке. Но всё не так просто: рейтинги ошибаются, не дают полной картины, иногда даже намеренно вводят читателей в заблуждение.

Хотите разобраться, как подобрать BI-решение для своего бизнеса? Узнать, что делать, чтобы не полагаться только на рейтинги? Или просто заглянуть за кулису того, как работают аналитические инструменты и почему они бывают неточны? Заходите под кат, там всё расскажем и дадим советы по осознанному выбору: наш материал для всех ЛПР и ЛВР, а также технарей, которым будет забавно увидеть, как искажаются канонические термины и названия продуктов.


Читать: https://habr.com/ru/companies/luxms_bi/articles/859944/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

20 Nov, 07:27


Как LLM может валидировать данные

Привет! Меня зовут Мира и я работаю DQE (Data Quality Engineer) в крупной международной компании.

В этой статье я расскажу, как у нас получилось автоматизировать работу аналитиков DQ и разработать продукт, который генерирует тесты автоматически на любой source.

Всё началось с того, что в компании зародилась новая команда, целью которой было построить качественное хранилище данных. Хранилище, которому можно доверять «без угрызения совести». И, конечно же, без DQ здесь не обойтись.


Читать: https://habr.com/ru/articles/859874/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

19 Nov, 22:25


Обеспечиваем безопасность Oracle Analytics с Zero Trust

В статье рассматривается использование компонентов маршрутизации пакетов с политикой нулевого доверия для повышения безопасности Oracle Analytics Services. Узнайте, как эти меры могут защитить ваши данные от потенциальных угроз.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

19 Nov, 22:24


🔒 Как защитить Oracle Analytics Cloud: Zero Trust в действии

Узнайте, как технология Zero Trust Packet Routing помогает обеспечить безопасность ресурсов Oracle Analytics Cloud. Обзор важнейших принципов внедрения системы, которая защищает ваши данные, минимизируя риски доступа. Разберитесь, как укрепить ваш бизнес в условиях цифровых угроз.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

19 Nov, 22:24


Oracle Analytics вновь признан лидером

Текст: Nucleus Research в очередной раз назвал Oracle Analytics лидером в рейтинге Embedded Analytics Value Matrix. Узнайте, почему это решение для аналитики продолжает занимать топовые позиции и какие преимущества оно предлагает пользователям.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

19 Nov, 13:15


Как мы работаем с качеством данных в Электронной коммерции

Привет! Меня зовут Саша Нефедова, и я работаю ведущим аналитиком по качеству данных в «Магните». Я больше года отвечала за направление Электронной коммерции, и в этой статье расскажу, как устроены наши процессы и какой результат дает командная работа на поприще управления данными.


Читать: https://habr.com/ru/companies/magnit/articles/859738/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

19 Nov, 12:10


Как мы попробовали Apache Iceberg в связке со Spark и что из этого вышло

Тема преимуществ открытых табличных форматов при работе с озерами данных всё чаще поднимается в среде дата-инженеров. Предполагается, что их использование способно устранить недостатки популярного Apache Hive. Но так ли это на практике?

Меня зовут Иван Биленко, я инженер данных в команде дата-платформы Циан. В этой статье я хочу немного познакомить вас с процессами и стеком внутри нашей платформы, рассказать, почему мы решили попробовать Iceberg, с какими проблемами столкнулись при тестировании и какие преимущества Iceberg может дать тем, кто еще только задумывается о переходе. Дисклеймер: статья носит обзорный характер.


Читать: https://habr.com/ru/companies/cian/articles/859484/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

19 Nov, 10:01


Предельная польза продукта на примере Power BI

Продукт нельзя совершенствовать до бесконечности. У него всегда есть точка, после которой предельная полезность достигнута. И после её достижения дальнейшие обновления носят экспериментальный характер и менее востребованы, чем фундаментальный функционал. Расскажу, как понять, что предельная полезность достигнута на примере Power BI.


Читать: https://habr.com/ru/articles/859674/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

18 Nov, 02:29


Реляционная алгебра для DAX: ALL в итераторе SUMX для SUMMARIZECOLUMNS

Привет, Хабр! Язык запросов DAX популярен и эффективен для построения дашбордов в Business Intelligence, и за счет свой функциональной природы DAX в чем-то ближе к реляционной алгебре, по сравнению с SQL. Особенности DAX удобно рассмотреть на основе примеров DAX-запросов, переведенных на реляционную алгебру. В частности, использование ALL в итераторе SUMX в рамках наиболее популярной DAX функции SUMMARIZECOLUMNS позволяет рассмотреть некоторые нюансы DAX. Если интересно описание ALL в DAX с точки зрения реляционной алгебры — добро пожаловать под кат! :)


Читать: https://habr.com/ru/articles/859298/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

16 Nov, 11:30


Увеличиваем размер выборки и прокрашиваем серые метрики: неочевидная ошибка при проведении А/B — тестов

Иногда мы настолько бываем увлечены способами увеличения мощности тестов, снижения дисперсии, уменьшения длительности теста, что забываем смотреть на данные при использовании стандартного критерия Стьюдента. В этой статье я постараюсь простым языком рассказать о последствиях, к которым может привести слепой запуск A/B-тестов без предварительного А/А-тестирования.


Читать: https://habr.com/ru/articles/859088/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

15 Nov, 12:32


A/B тестирование в офлайне: как не потерять миллионы на масштабировании

Всем привет!

Меня зовут Наталья Ким, я продакт-менеджер продукта A/B тестирования в Big Data «Ленты». Наша компания — это ведущий многоформатный ретейлер в области продуктового и FMCG-секторов, где каждый бизнес-юнит активно генерирует и реализует разнообразные изменения, направленные на оптимизацию показателей. Для оперативной проверки этих гипотез крайне важно использовать современные инструменты. Расскажу подробнее про направление A/B тестирования в «Ленте», как об инструменте проверки гипотез.


Читать: https://habr.com/ru/companies/lentatech/articles/858890/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

15 Nov, 12:16


Прогнозирование продаж с использованием библиотеки Prophet, часть 1

Прогнозирование можно считать одной из основных задач аналитика. Прогноз продаж, оттока, выручки, затрат – всех основных KPI развития бизнеса – может потребоваться где и когда угодно, начиная от небольших ad hoc кейсов до масштабных задач вроде процесса бюджетирования на предстоящий год.

Меня зовут Нина Фещенко, я работаю в команде аналитики продаж FTTB-FMC (или иначе – ШПД и ковергентных продуктов) Билайн. В данной статье мы рассмотрим прогнозирование продаж FTTB-FMC для целей ежедневной отчетности.

Начнем с того, что мы понимаем под продажами ШПД и конвергенции.


Читать: https://habr.com/ru/companies/beeline_tech/articles/858904/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

15 Nov, 06:14


Инфраструктура для Data-Engineer BI-tools

BI (Business Intelligence) – это инструмент или несколько инструментов, которые помогают собрать данные в нужный вид и посмотреть на бизнес со стороны данных.

Чаще всего BI-инструментами пользуются аналитики. Они строят дашборды (витрины), выполняют Ad hoc задачи и в целом проводят анализ данных в этих инструментах.

В этой статье я хотел бы показать куда уходят данные и что с ними происходит, когда пайплайны дата-инженеров заканчивают работу.


Читать: https://habr.com/ru/articles/856922/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

14 Nov, 14:05


Data catalog: от истории до сравнения решений

Прийти и по запросу быстро найти нужные данные — идеальный сценарий. Но он практически невозможен при условии использования множества баз данных и хранилищ. В реальных условиях без «надстройки» над всеми БД и «единой точки входа» команды вынуждены тратить время на исследование разных хранилищ, их каталогов и подкаталогов в поиске нужных файлов без какой-либо гарантии успешного результата. Такой «надстройкой» являются каталоги данных.

Меня зовут Юрий Орлов, я тимлид команды ML Platform. В этой статье я подробно разберу, что такое каталоги данных и какие они бывают, а также расскажу о нашем выборе инструмента для построения каталога под запросы аналитиков данных.


Читать: https://habr.com/ru/companies/vk/articles/857894/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

14 Nov, 13:40


Сравнение бенчмарков LLM для разработки программного обеспечения

В этой статье мы сравним различные бенчмарки, которые помогают ранжировать крупные языковые модели для задач разработки программного обеспечения.


Читать: https://habr.com/ru/articles/857754/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

14 Nov, 10:25


Машинное обучение в оценке кредитных рисков: как ML меняет правила игры?

Машинное обучение в оценке кредитных рисков: как ML меняет правила игры?

Современные скоринговые системы — это не просто статистика и математические модели, а мощные инструменты анализа рисков, которые могут определять не только кредитоспособность клиентов, но и выявлять угрозы для бизнеса на ранних стадиях.

В условиях быстро меняющихся финансовых рынков и растущей неопределенности использование ML в оценке рисков становится решающим фактором для банков и финансовых организаций. ML позволяет выйти за рамки стандартных моделей и анализировать гораздо больше факторов, включая поведение клиента, макроэкономические условия и другие непрямые признаки.

Подходы, о которых пойдет речь в этой статье, будут полезны как специалистам в области data science и нейронных сетей, так и бизнесу, ищущему надежные решения для управления рисками.


Читать: https://habr.com/ru/companies/data_light/articles/858540/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

14 Nov, 09:29


Big Data мертвы, да здравствуют Smart Data

Big data is dead. Во всяком случае, так утверждает генеральный директор MotherDuck в статье, перевод которой собрал 140 плюсов на Хабре. Обработку и использование больших данных обсуждали в течение последнего десятилетия, но они потеряли актуальность как драйвер развития компаний. Означает ли это их окончательную смерть?

Есть и другое мнение: концепция не умерла, а эволюционирует. Фокус смещается от количества собираемой информации к ее качеству. Этот сдвиг парадигмы привел к появлению понятия Smart Data — «умных» данных, которые являются продуктом интеллектуальной обработки и эволюции Big Data.

Давайте рассмотрим концепцию Smart Data и выясним, действительно ли Big Data превращаются во что-то более интеллектуальное.


Читать: https://habr.com/ru/companies/magnus-tech/articles/853192/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

14 Nov, 08:21


Если вам нужен швейцарский нож для работы с базами данных, попробуйте DBeaver

Это бесплатный инструмент для разработчиков, администраторов баз данных и аналитиков, поддерживающий практически любую базу данных с драйвером JDBC (что по сути означает - ЛЮБУЮ базу данных).

Функционал: DBeaver предлагает мощный SQL-редактор с подсветкой синтаксиса, автодополнением и форматированием запросов, редактор метаданных, диаграммы ERD, инструменты для экспорта, импорта и миграции данных, а также анализ планов выполнения SQL и т.д.

А благодаря поддержке плагинов, DBeaver можно легко адаптировать к вашим нуждам, добавляя специальные функции для работы с различными базами данных.

Осталось только лайк поставить и сохранить👍

#SQL #инструменты #dbeaver

Data Analysis / Big Data

13 Nov, 14:59


Инхаус-разметка с нуля. Реально ли это и насколько полезно?

Разметка данных нужна для обучения нейронных сетей. К примеру, если мы учим сеть отличать живое лицо человека от фотографии или силиконовой маски для Face ID, то нам нужно разметить много-много фотографий человека, показать ИИ его маску и живое лицо. В этом посте расскажу, как мы это делаем в NtechLab и где берем людей для разметки большого объема данных. Также попытаюсь ответить на вопрос, стоит ли создавать собственные отделы по разметке данных внутри компании или можно ограничиться краудсорсингом или аутсорсингом, расскажу о некоторых рабочих кейсах. Приятного чтения!)

Что такое разметка данных?

Привет, Хабр! Меня зовут Надя Глебко. В NtechLab я проработала почти 4 года. Когда-то я пришла в компанию в качестве junior менеджера по разметке без особого опыта – но уже спустя полгода начала строить команду внутри компании. А уже через три года стала руководителем команды в составе 8 менеджеров и 3 валидаторов, а база наших инхаус-разметчиков составила около 100 человек. За это время был пройден невероятный путь роста и развития, проб и ошибок – и мне видится полезным поделиться этим опытом со всеми, кому интересна эта сфера. Но начнем с базы)


Читать: https://habr.com/ru/companies/ntechlab/articles/858234/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

13 Nov, 14:59


Новые динтаблицы: вторичные индексы, web assembly и ещё много улучшений к версии YTsaurus 24.1.0

Динамические таблицы — это распределённая база данных, key‑value‑пары которой объединяются в привычные пользователям реляционных СУБД таблицы. В YTsaurus в них можно хранить огромные массивы данных, при этом их можно быстро читать — поэтому YTsaurus используют почти все сервисы Яндекса: Реклама, Маркет, Такси, даже Поиск при построении поисковой базы, и другие.

Я руковожу службой разработки динамических таблиц в Yandex Infrastructure и раньше уже рассказывал, как мы оптимизировали чтение, улучшали выборку строк в SQL‑запросах и защищались от перегрузок. Сегодня вышла новая версия YTsaurus 24.1.0, в которой динамические таблицы получили ещё несколько долгожданных доработок. В статье расскажу про них подробнее.


Читать: https://habr.com/ru/companies/yandex/articles/857708/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

09 Nov, 10:03


Data Science: применение в девелопменте 🔨

Костя Панфилов, наш лид Data Science, недавно выступил на конференции Строим просто и рассказал, как модели машинного обучения помогают в девелопменте.

А какую систему вы бы хотели увидеть? Делитесь идеями в комментах 👇

#шерим

Data Analysis / Big Data

07 Nov, 12:02


Apache Flink: Сериализация и JacksonStateSerializer

Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. Это мой десятый материал про Apache Flink. В предыдущей части мы закончили разбирать оператор с Flink-таймерами, использующими внутреннее состояние. Также я показал, как их можно тестировать с помощью классов TestHarness или Flink MiniCluster. В дополнение тестами была покрыта вся Flink-джоба, включая E2E-тесты.

В этой части мы посмотрим сериализацию данных и состояний в операторах. Также напишем свой сериализатор, поддерживающий эволюцию схемы. В следующих частях протестируем его и внедрим в наше приложение.

Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии статей. Эта часть соответствует релизной ветке с названием release/9_JacksonStateSerializer.

По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.


Читать: https://habr.com/ru/companies/ru_mts/articles/856774/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

07 Nov, 07:51


Оценка LLM: комплексные оценщики и фреймворки оценки

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.


Читать: https://habr.com/ru/articles/855644/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

06 Nov, 09:23


Открытый датасет TelecomX

Всем привет! Хочу поделиться с теми, кто интересуется большими данными, своей работой. Дело в том, что довольно часто, когда мы читаем какую-либо статью или техдоку по этой предметной области, приводимые примеры опираются на крохотные наборы данных. И это не даёт понимания и погружения в специфику — напоминает обучение вождению на Need for speed. Более того, я не смог найти более-менее крупные наборы реальных бизнесовых данных или те, что были хотя бы похожи на реальные. Ну и как это часто бывает, пришлось сделать самому. Если вас интересует эта тематика, проследуйте под кат.


Читать: https://habr.com/ru/companies/arenadata/articles/856366/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

05 Nov, 17:52


Создание организационных диаграмм в Oracle Analytics

Пост: Хотите научиться визуализировать структуру вашей компании? Изучите, как с помощью расширения Org Chart в Oracle Analytics преобразовать плоские данные в иерархию родитель-дитя, используя наборы данных и потоки данных. Узнайте, как эффективно отображать организационные структуры!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

04 Nov, 06:00


Приватный доступ к Oracle Analytics

Узнайте, как обезопасить свои данные, получая доступ к публичным сервисам Oracle Analytics через приватные каналы. В статье описаны шаги и методы, которые помогут минимизировать риски и обеспечить конфиденциальность вашей аналитики.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

04 Nov, 06:00


Ноябрьские обновления Oracle Analytics Cloud
Узнайте о новых возможностях, представленных в ноябрьском обновлении 2024 для Oracle Analytics Cloud. Эти улучшения призваны повысить эффективность анализа данных, упростить работу пользователей и расширить функциональность платформы. Не пропустите важные изменения!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

03 Nov, 21:20


Смещение значения таймстемпа UUIDv7

UUIDv7 – это удобный и безопасный 128-битный уникальный идентификатор, который призван заменить целочисленные суррогатные ключи формата bigint в качестве первичного ключа в высоконагруженных базах данных и распределенных системах.


Читать: https://habr.com/ru/articles/855832/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

02 Nov, 12:44


GigaChat MAX — новая, сильная модель GigaChat

Салют, Хабр! Прошедший сезон оказался богат на релизы: ровно год назад мы делились новостями о GigaChat Pro, затем весной рассказали об увеличении контекста и улучшении возможностей модели, а совсем недавно завершили обучение GigaChat Vision: мы научили GigaChat понимать картинки и уже пишем про это статью.

Наши модели непрерывно развиваются, обретая всё больше новых функций, и сегодня повод рассказать о них. Встречайте наш новый GigaChat MAX!
GigaChat MAX

Читать: https://habr.com/ru/companies/sberbank/articles/855368/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

02 Nov, 10:42


GigaChat MAX — новая, сильная модель GigaChat

Салют, Хабр! Прошедший сезон оказался богат на релизы: ровно год назад мы делились новостями о GigaChat‑Pro, затем весной рассказали об увеличении контекста и улучшении возможностей модели, а совсем недавно завершили обучение GigaChat Vision: мы научили GigaChat понимать картинки и уже пишем про это статью.

Наши модели непрерывно развиваются, обретая всё больше новых функций, и сегодня повод рассказать о них. Встречайте наш новый GigaChat-Max!
GigaChat-Max

Читать: https://habr.com/ru/companies/sberdevices/articles/855368/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

02 Nov, 10:06


Работа с большими данными: введение в Apache Hadoop и Spark

Работа с большими данными. Рассказываем об основах Apache Hadoop и Spark. Рассматриваем пошаговую инструкцию по внедрению распределенной системы Tproger

Читать: «Работа с большими данными: введение в Apache Hadoop и Spark»

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

01 Nov, 20:03


Почему оценить стоимость датасета не так просто, как кажется на первый взгляд

Представьте, что вы получили заказ на разметку датасета из 1,000 изображений. Вы берете 20 картинок из сета, проводите тесты и получаете примерную стоимость 1 изображения. В итоге вы оцениваете проект, основываясь на количестве изображений, и устанавливаете цену за каждое. Однако, когда данные приходят, оказывается, что на каждом изображении не один объект к разметке, как было на тестах, а десятки! В итоге вы тратите гораздо больше времени и средств, чем планировали в начале.

Как избежать таких распространенных ошибок и защитить свой бизнес от неожиданных затрат и задержек? Давайте обсудим, какие ошибки чаще всего возникают при оценке проектов по сбору и разметке данных для машинного обучения, и на что важно обращать внимание, чтобы гарантировать корректную оценку ваших проектов. Узнайте больше в статье Романа Фёдорова, эксперта в области подготовки датасетов для машинного обучения.


Читать: https://habr.com/ru/articles/855478/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

01 Nov, 11:23


Семантическая сегментация: самый полный гайд 2024

Что общего между автономными автомобилями, медицинскими диагностическими системами и спутниковыми снимками Земли?

Ответ прост: все они зависят от способности машин «видеть» и понимать окружающий мир. Чтобы компьютер мог распознать объекты на изображении и отличить небо от дороги, человека от автомобиля или лес от здания, необходимо использовать технологии сегментации изображений. Но как именно машины учатся такому зрению и как использовать эту технологию для бизнеса? Давайте поговорим о семантической сегментации.


Читать: https://habr.com/ru/companies/data_light/articles/855336/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

01 Nov, 10:26


Импортозамещение Data Quality стека в нефтегазохимии: опыт СИБУРа

В СИБУРе много данных, которые текут в режиме реального времени с многочисленных датчиков на разных производствах, эти данные нужно собирать, хранить, обрабатывать и анализировать, чтобы компания могла принимать правильные бизнес-решения. И от качества инфраструктуры для работы с данными зависит рентабельность производств и прибыль компании в целом, а это жизненно важные показатели.

В небольшом цикле из двух статей мы разберём опыт СИБУРа в создании, поддержке и развитии DQ (Data Quality — качество данных) сервиса для DWH (Data Warehouse — хранилище данных) в условиях санкций и исчезающих вендоров проверенных и привычных решений.

Рассказывать об этом опыте будет Александр Бергер, Lead DQ Analyst в Цифровом СИБУРе, которому посчастливилось лидить процесс создания DQ-сервиса на решениях вендора, который решил покинуть рынок РФ в разгар рабочего процесса.


Читать: https://habr.com/ru/companies/sibur_official/articles/855310/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

01 Nov, 09:13


Система сквозного логирования с передачей единого идентификатора между независимыми задачами Airflow

Привет! Меня зовут Никита Хилов, я работаю в билайне уже более десяти лет. Начинал я работать с поддержкой систем фиксированного фиксированного биллинга, впоследствии я отвечал за разработку и поддержку различных расчетов по системам управленческой или корпоративной отчетности. А сейчас я работаю в роли тимлида дата-инженеров в блоке по архитектуре и инфраструктуре данных и отвечаю за управление разработкой и сопровождением программных продуктов компании по различным точкам бизнес-приложения.

Итак, какие же вопросы мы обсудим в этой серии постов. Сегодня я хочу осветить вопросы касаемо того, как же нам организовывать, компоновать и в принципе заставить работу систему журналирования наших расчетов для таких случаев, когда наш общепринятый ключ периодики, на котором мы обычно строим свои расчеты, перестает быть однозначным идентификатором той итерации процесса подготовки данных, на которую мы сейчас смотрим, и от которых мы ждем результаты.

Мы обсудим, например, когда такое происходит и что для этого является катализатором. Рассмотрим механики и механизмы, которые дают возможность связывать независимые процессы и цепочки подготовки данных в единое целое.

И в дополнение расскажу, как мы эту проблему решали в своем продукте.

Но прежде всего давайте определим для чего нам это, в принципе, нужно.


Читать: https://habr.com/ru/companies/beeline_tech/articles/855274/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

01 Nov, 07:19


Необычные вкусы покупателей: что такое товарные пары и как их исследовать

Привет, Хабр! На связи команда продуктовой аналитики.

Подбор и обновление ассортимента товаров — постоянная головная боль для любого ритейлера. Это трудоемкий процесс, где каждая ошибка стоит реальных денег. В ecom.tech мы стараемся сделать его проще при помощи автоматизации, а заодно изучаем предпочтения покупателей. На этот раз мы искали, что обычно покупают в паре – так называемые комплементарные товары.

В этой статье расскажем:
- с чем обычно покупают лапшу быстрого приготовления, а с чем — детское питание;
- как география, время суток и другие факторы влияют на выбор покупателей;
- как все эти полученные знания можно применить в ассортиментных матрицах дарксторов и бизнес-процессах ритейла.


Читать: https://habr.com/ru/companies/ecom_tech/articles/854036/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

01 Nov, 06:14


Инфраструктура для Data-Engineer DBT

dbt является мощным фреймворком, который включает в себя два популярных языка: SQL + Python.

При помощи dbt можно создавать разные "слои" данных или выделить dbt только под один слой, к примеру dm.

При помощи понятного и всем известного SQL интерфейса можно создавать разные модели для вашего DWH или Data Lake.


Читать: https://habr.com/ru/articles/854990/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

31 Oct, 21:24


Работа с календарями в BI — с DAX и без него

Привет, Хабр! При работе с Business Intelligence и дашбордами практически в любой предметной области встречаются даты и календари, поэтому от выбора представления дат и их составных частей (день, месяц, квартал, полугодие, год и т.д.), ключей дат и таблицы с датами зависит производительность всех дашбордов. В этой статье я расскажу о том, как можно оптимизировать работу с датами в Visiology — с использованием DAX и без него. Интересно? Добро пожаловать под кат! :)


Читать: https://habr.com/ru/companies/visiology/articles/855178/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

31 Oct, 09:37


Ужасный код: если бы злодеи хорроров стали программистами

Мы погрузились в мрачный мир фантазий и представили, какие языки программирования и роли могли бы выбрать самые известные злодеи хоррор-фильмов, если бы они ворвались в IT.

Читать: «Ужасный код: если бы злодеи хорроров стали программистами»

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

31 Oct, 07:47


Как управлять большими командами? 3 совета для менеджера

Когда я начинал свою карьеру в разметке данных, я и представить не мог, что через несколько лет продолжу работать в индустрии и буду управлять целым направлением.

Я прошел путь от разметчика до позиции Head of Moderation & Head of Special Projects в Data Light. Теперь под моим руководством работает 465 человек, параллельно за раз моя команда ведет до 64 проектов.

Сейчас я понимаю, что для успеха в этой сфере критически важны три вещи: постоянное обучение, систематизация и навыки коммуникации. В этой статье я хочу поделиться главными советами для начинающих менеджеров.


Читать: https://habr.com/ru/companies/data_light/articles/854882/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

31 Oct, 06:10


Как мы внедрили CockroachDB на DBaaS в компанию классических СУБД

Привет! Меня зовут Полина Кудрявцева, я инженер DBA в Авито. В этой статье я расскажу о том, как мы внедрили CockroachDB на DBaaS в компанию классических СУБД, а также опишу его плюсы, минусы и особенности работы.


Читать: https://habr.com/ru/companies/avito/articles/854732/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

30 Oct, 10:01


Гайд по трекингу экспериментов в ML

Многие привыкли, что в качестве результата эксперимента достаточно метрик и просто сохранения обученной модели, однако в современном мире машинного обучения трекинг экспериментов имеет ключевое значение для обеспечения воспроизводимости, надежности и эффективности. Давайте рассмотрим главные этапы проведения эксперимента и проблемы, которые могут возникнуть. Мы обсудим основы трекинга экспериментов в машинном обучении и исследуем, как вы можете упростить свой рабочий процесс с помощью правильных инструментов и практик. В конце я также поделюсь преимуществами одного из инструментов.


Читать: https://habr.com/ru/companies/cinimex/articles/838888/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

28 Oct, 22:47


Интеграция Oracle Data Flow с Oracle Analytics

Узнайте, как связать Oracle Cloud Infrastructure Data Flow SQL Endpoint с Oracle Analytics Cloud. Погрузитесь в процесс интеграции и откройте новые возможности для анализа данных, превращая сложные задачи в простые решения.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

28 Oct, 07:18


Как оценить LLM модель

В одном из прошлых блогов я представил концепцию тестирования крупных языковых моделей (LLM). Однако тестирование крупных языковых моделей (LLM) - достаточно сложная тема, которая требует дальнейшего изучения. Существует несколько соображений относительно тестирования моделей машинного обучения и, в частности, LLM, которые необходимо учитывать при разработке и развертывании вашего приложения. В этом блоге я предложу общую структуру, которая будет служить минимальной рекомендацией для тестирования приложений, использующих LLM, включая разговорные агенты, расширенную генерацию поиска и агентов и т. д.


Читать: https://habr.com/ru/articles/853542/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

26 Oct, 08:11


«Да будет свет!», — подумали мы. И стал свет. Краткая история обучения нейросветодизайнера нейросветодизайну

Давным-давно, скажем, этим летом, нас посетила удачная мысль включить повсюду свет и озарить ночные города. Так родился проект по обучению нейросети сложному искусству светодизайна.

Разумеется, мы были не первыми, кто до этого додумался, но поскольку бум ИИ удачно наложился на развитие инфраструктуры и появление новых зданий в разных городах РФ (а еще осень, темно, холодно) – было решено взяться за дело. Светодизайн зданий – сложная область, которая удачно сочетает в себе архитектурное проектирование, инженерные достижения, дизайн и человеческий гений. В помощь последнему мы решили добавить искусственный интеллект. Оказалось, что после долгих тренировок он способен:


Читать: https://habr.com/ru/articles/853552/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

25 Oct, 20:41


Как мы сделали систему для спасения интернета от токсичности

Токсичность в интернете — распространенная проблема, с которой сталкивался каждый. В период бурного развития AI само собой напрашивается решение для автоматического удаления токсичных паттернов с сохранением исходного смысла и оригинального стиля автора. Один из таких подходов - использование NLP seq2seq моделей, которые мы обучаем на парах (тоcкичное предложение; нетоксичное предложение):


Читать: https://habr.com/ru/articles/853586/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

25 Oct, 13:43


Какую архитектуру конвейера данных следует использовать?

Здесь представлен обзор архитектур конвейеров данных, которые вы можете использовать сегодня.

Данные важны для любого приложения и нужны для разработки эффективных конвейеров для доставки и управления информацией. Как правило, конвейер данных создаётся, когда вам необходимо обрабатывать данные в течение их жизненного цикла. Конвейер данных может начинаться там, где данные генерируются и хранятся в любом формате. Конвейер данных может обеспечивать анализ данных, их использования для целей бизнеса, долговременного хранения, а также для тренировки моделей машинного обучения.

Читать: https://habr.com/ru/companies/piter/articles/853400/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

25 Oct, 09:15


Как мы отбираем и обучаем специалистов: от первых шагов до реальных проектов

В чем секрет качественных данных и точной разметки? Мы в Data Light знаем: за каждым успешным проектом стоят не только технологии, но и люди — специалисты, отобранные после нескольких этапов тестирований и обученные на настоящих проектах.

Мы знаем: чем лучше подготовлен исполнитель, тем выше итоговое качество работы. Я, Артем Каукалов, руководитель отдела обучения, поделюсь опытом нашей компании — как найти людей, которые помогут вам достичь максимальных результатов, и как правильно выстроить их процесс учебы.


Читать: https://habr.com/ru/companies/data_light/articles/853372/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

25 Oct, 06:57


Фреймворк ARTEM(L): Как мы автоматизируем обучение и обновление моделей в Альфа-банке

Или как избавить DS от рутинных задач по обучению и обновлению моделей и их дальнейшему передеплою в проде?

Всем привет! Я Настя Бондарева, senior Data Scientist в Хабе Юридических Лиц Альфа-Банка, лидирую инициативу ARTEML (AutoReTrainable ML). В статье расскажу, как мы упростили себе работу и часть рутинных задач, число которых росло как снежный ком с ростом количества применяемых моделей.


Читать: https://habr.com/ru/companies/alfa/articles/852790/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

25 Oct, 06:08


Чем можно заняться в IT

IT – это не пузырь, который может лопнуть. Оно уже настолько плотно вошло в нашу жизнь, что повсюду, куда бы мы ни посмотрели, мы видим его следы, и это не изменится.

В этой статье вы узнаете, что такое IT и чем можно заняться в IT помимо программирования.


Читать: https://habr.com/ru/articles/852224/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

24 Oct, 14:24


Apache Flink: Unit и E2E-тестирование оператора с таймерами в Apache Flink

Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. В предыдущей части я рассказал про создание Flink-джобы Kafka-to-Kafka с оператором на основе встроенных таймеров. Такой пайплайн позволяет создавать вызов через определенное время после обработки события.

В этом посте я расскажу, как можно протестировать операторы с таймерами и какие подводные камни могут возникнуть.

Весь разбираемый исходный код есть в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии. Эта статья соответствует релизной ветке с названием release/8_Test_for_Trigger_Flink_Job.

Это мой девятый материал про Apache Flink. По мере выхода новых ссылки на них будут появляться ниже.

Список моих статей про Flink:


Читать: https://habr.com/ru/companies/ru_mts/articles/853200/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

24 Oct, 08:58


Что такое DWH?

DWH (Data Warehouse или по русски Хранилище данных) - это специализированная система для хранения и управления большими объемами данных, которые объединяются из разных источников с целью анализа и построения отчетов

Короче, это место, где все нужные данные из разных мест собираются и потом ими уже удобно пользоваться - строить разные отчетики, строить ИИ на благо всему человечеству и подобные вещи

Грубо говоря, задача при построении хорошего DWH состоит в том, чтобы построить Базу Данных и все необходимое вокруг него, в которой будут лежать правильные данные в удобном виде и в которую можно слать большие-сложные SQL запросы и не бояться, что что-то сломается и всем этим было удобно пользоваться


Читать: https://habr.com/ru/articles/852910/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

24 Oct, 06:40


Оценка LLM: метрики, фреймворки и лучшие практики

Дженсен Хуанг в своем выступлении на саммите «Data+AI» сказал: «Генеративный ИИ есть везде, в любой отрасли. Если в вашей отрасли еще нет генеративных ИИ, значит вы просто не обращали внимания на это».

Однако широкое распространение вовсе не означает, что эти модели безупречны. В реальных бизнес-кейсах модели очень часто не достигают цели и нуждаются в доработке. Вот тут-то и приходят на помощь оценки LLM: они помогают убедиться, что модели надежны, точны и соответствуют бизнес-предпочтениям.

В этой статье мы подробно разберем, почему оценка LLM имеет решающее значение, и рассмотрим метрики, фреймворки, инструменты и сложности оценки LLM. Мы также поделимся некоторыми надежными стратегиями, которые мы разработали в ходе работы с нашими клиентами, а также расскажем о лучших практиках.

Что такое оценка LLM?

Оценка LLM - это процесс тестирования и измерения того, насколько хорошо крупные языковые модели работают в реальных ситуациях. При тестировании этих моделей мы наблюдаем, насколько хорошо они понимают и отвечают на вопросы, насколько плавно и четко они генерируют текст и имеют ли их ответы смысл в контексте. Этот шаг очень важен, потому что он помогает нам выявлять любые проблемы и улучшать модель, гарантируя, что она может эффективно и надежно справляться с задачами.

Зачем вам нужно оценивать LLM?

Все просто: чтобы убедиться, что модель соответствует задаче и ее требованиям. Оценка LLM гарантирует, что она понимает и точно реагирует, правильно обрабатывает различные типы информации и общается безопасным, понятным и эффективным способом. Оценка LLM позволяет нам точно настроить модель на основе реальной обратной связи, улучшая ее производительность и надежность. Проводя тщательные оценки, мы гарантируем, что LLM полностью может удовлетворять потребности своих пользователей, будь то ответы на вопросы, предоставление рекомендаций или создание контента.


Читать: https://habr.com/ru/articles/852046/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

23 Oct, 12:43


Разметка изображений: самый полный гайд

Представьте себе, что от точности разметки изображений зависит успех вашего проекта: будь то способность нейросети распознавать сложные объекты или автоматизация рутинных задач. Но в чем ее специфика, какие виды разметки изображений существуют и какой тип аннотации лучше подходит под ваш проект?

В этой статье мы раскрываем все тонкости процесса, делимся проверенными методами и реальными кейсами от команды Data Light, чтобы помочь вам вывести проекты на новый уровень. Если вы хотите разобраться в разметке изображений и узнать, как избежать подводных камней, эта статья точно будет вам полезна.


Читать: https://habr.com/ru/companies/data_light/articles/852848/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

22 Oct, 21:56


💡 Овладейте продвинутыми приемами SQL для анализа данных

Узнайте, как 25 советов помогут улучшить ваши навыки работы с SQL. Статья раскрывает использование функций QUALIFY, GENERATE_SERIES, и CUBE, упрощающих создание масштабируемых запросов. Ознакомьтесь с операциями JOIN для более эффективного управления и анализа данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

22 Oct, 15:21


Игра будущего: Oracle Foosball Frenzy

На Oracle CloudWorld 2024 был представлен AI-проект, демонстрирующий возможности облачных технологий Oracle. Система преобразует игру в настольный футбол в аналитические данные в реальном времени, показывая, как AI может интегрироваться в физические игры и другие индустрии.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

22 Oct, 15:20


Управление Oracle Analytics через Cloud Shell и Terraform

Узнайте, как эффективно разворачивать ресурсы Oracle Analytics Cloud с помощью Oracle Cloud Shell и OCI Terraform Provider. Подробное руководство поможет оптимизировать процесc управления облачными ресурсами и упростить автоматизацию задач в Oracle.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

22 Oct, 15:20


Новые возможности с Oracle Data Integration Service

Узнайте, как Oracle Data Integration Service упрощает загрузку данных в Autonomous Data Warehouse, позволяя получить более глубокие аналитические инсайты в Oracle Analytics Cloud. Эта интеграция повышает эффективность работы с данными и открывает новые горизонты для аналитики.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

18 Oct, 12:53


Анализ тональности текста: зачем он нужен и как его использовать? Объясняем за 7 минут

Как компании выявляют эмоции в тысячах отзывов и комментариев? Почему одни маркетинговые кампании становятся невероятным успехом, а другие — провалом?

Анализ тональности текста — мощный инструмент, который помогает бизнесу не только считывать эмоции клиентов, но и на практике улучшать продукт, автоматизировать поддержку и управлять репутацией. Сегодня мы подробно разберем, как анализ тональности работает в реальных кейсах, и покажем, как вы можете внедрить его для достижения своих бизнес-целей.


Читать: https://habr.com/ru/companies/data_light/articles/851700/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

18 Oct, 08:33


ООП для типовых ML задач

Привет! Меня зовут Андрей Татаренко, я работаю Data Scientist-ом в Альфа-Банке. Я вам расскажу о своем опыте разработки Python-библиотеки для автоматизации разработки типовых ML-моделей. В статье привожу ту структуру основных классов, которая у меня получилась. Надеюсь, читатель сможет почерпнуть какие-то идеи, особенно если уже сталкивался с подобной задачей.


Читать: https://habr.com/ru/companies/alfa/articles/851154/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

18 Oct, 06:04


Инфраструктура для Data-Engineer Data Lake Apache Iceberg

В этой статье вы узнаете что такое Apache Iceberg, как его можно использовать и для чего он вообще нужен.

В статье также рассматривается вопрос Data Lake.


Читать: https://habr.com/ru/articles/850674/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

17 Oct, 22:18


Метрологический дефицит в бигдате: что это такое и как с ним бороться

Добрый день. Сегодня я хотел бы поговорить о том, что вроде бы очевидно и должно быть везде, но когда я читаю статьи презентации, рекламные статьи, научные статьи, выступления на отраслевых конференциях и тексты «войди в айти и стань датасатанистом», я этого не вижу.

Речь о том, что данные, попадающие в машинное обучение, ИИ, цифровых двойников и т. п., не являются тем чем кажутся. Потому что между их изначальным физическим смыслом и числовым выражением внутри модели, стоит череда преобразований.

Но в этот раз речь пойдёт не о цифровом износе и моих многолетних наблюдениях за цифровыми объектами, а об измерительных приборах и ваших многолетних наблюдениях за производственными процессами.


Читать: https://habr.com/ru/articles/851526/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

17 Oct, 16:28


Семь каверзных вопросов от преподавателей школы аналитиков данных МТС

Привет, Хабр! Меня зовут Максим Шаланкин, я вместе со своими коллегами — преподавателями в Школе аналитиков данных от МТС — подготовил семь каверзных вопросов, с которыми могут столкнуться начинающие специалисты в области Data Science, ML и Big Data. Ну что, поехали!


Читать: https://habr.com/ru/companies/ru_mts/articles/851450/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

17 Oct, 12:54


Под капотом GCN

Здравствуйте! Сегодня мы погружаемся в тему графовых сверточных сетей (GCN) и ключевых принципов, стоящих за ними. Если вам интересно узнать больше, я настоятельно рекомендую перейти на статью на Habr, где вы найдёте подробный анализ и актуальные примеры применения GCN.

Введение

GCN (Graph Convolutional Networks) — это масштабируемый подход к полуконтролируемому обучению, который применяется к данным, представленным в виде графов. Если вы хотите глубже понять, как сверточные нейронные сети (CNN) адаптируются для работы с графовыми структурами, загляните в статью на Habr.

Выбор архитектуры GCN основан на принципе локализованного приближения первого порядка спектральных сверток для графов. Что это значит? Мы рассматриваем только ближайших соседей узла, а спектральная свертка позволяет извлекать информацию с помощью спектра графа. В подробностях вы сможете разобраться, прочитав статью.

Метод

Рассмотрим задачу классификации узлов в графе, где метки доступны лишь для небольшого числа узлов. Графо-ориентированное полу-контрольное обучение предлагает интересные решения для такой задачи. Чтобы лучше понять использование графовой регуляризации и как она работает в функции потерь, обращайтесь к статье.

Не упустите шанс углубиться в эту увлекательную тему и раскрыть все нюансы GCN!


Читать: https://habr.com/ru/articles/851432/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

17 Oct, 10:52


Кейс оптимизации запросов для Greenplum

Всем привет! Меня зовут Андрей, я работаю дата аналитиком в Data Team продукта Dialog.X5/Insights в X5 Tech. Мы предоставляем аналитику по продажам и покупательскому поведению на данных X5 Group.  Для обработки больших объёмов данных в продукте используется  СУБД (система управления базами данных) Greenplum.

В статье рассмотрим ресурсоёмкую операцию для распределённых систем COUNT(DISTINCT) и два способа оптимизации. Для предварительного погружения в планы запросов можно прочитать вот эту хорошую статью.


Читать: https://habr.com/ru/companies/X5Tech/articles/851386/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

17 Oct, 10:04


Как переподписка по CPU в облаке снижает производительность Arenadata DB: результаты, которых не ждёшь

Всем привет! Меня зовут Константин Малолетов, я архитектор облачных сервисов в компании Arenadata. Сегодня хочу рассказать, как мы решаем задачу эффективного размещения ресурсоёмких систем, таких как Arenadata DB, в облаке.

В статье рассмотрим несколько сценариев использования вычислительных ресурсов и их влияние на работу ADB, а также поделимся результатами проведённых тестов.


Читать: https://habr.com/ru/companies/arenadata/articles/851080/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

17 Oct, 08:20


Разыскиваем системных аналитиков с опытом.

Стек: Java / Kotlin (JDK 11), Spring Boot, PostgreSQL, Apache Kafka, Openshift/ Kubernetes, TypeScript, React, React Native.
 
Задачи:
— Анализ функциональности ПО.
— Проектирование интеграции с источниками данных.
— Поддержка документации.
 
Бонусы:
— Зарплата до 330 000 рублей на руки, премии и скидки.
— Возможность выстроить свою систему на новом проекте.
— Нет legacy и есть полная свобода в выборе инструментов.

Откликайтесь тут

#вакансии #работа

Data Analysis / Big Data

17 Oct, 07:21


Краткий обзор LLM бенчмарков

Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не следует вкладывать ресурсы в их сравнение, потому что: 1. Для них существуют публикуемые таблицы лидеров, 2. В использовании этих моделей существует множество нюансов (например, изменчивость модели, промт, сценарий использования, качество данных, конфигурация системы), что снижает полезность обсуждения их высокоуровневых параметров, 3. Важнее точности модели могут быть другие факторы: локальность данных, соответствие требованиям защиты конфиденциальности, поставщик облачных услуг, степень возможности кастомизации (например, fine-tuning или повторного обучения).

Что мы должны обсуждать, так это бенчмаркинг систем LLM. Это осмысленный и важный процесс, при котором мы рассматриваем применение конкретных моделей LLM (вместе с промтом и конфигурацией системы) в наших конкретных сценариях использования. Нам следует курировать датасеты из конкретных предметных областей, задействовать в их разметке и людей, и LLM для создания «золотого» датасета, позволяющего оценивать вносимые нами постоянные улучшения. Можно даже рассмотреть возможность публикации «золотых» датасетов бенчмарков.


Читать: https://habr.com/ru/articles/847002/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

16 Oct, 12:08


Как Лента формирует эффективный ассортимент на основе данных

Привет, Habr!

Меня зовут Катя, я продакт-менеджер BigData в группе компаний «Лента», отвечаю за развитие цифровых продуктов блоков «Ассортимент» и «Ценообразование». В этой статье расскажу про путь к управлению ассортиментом на основе данных и наш флагман – приложение Deli – рабочее место, в котором менеджер анализирует матрицу своих категорий и вносит в нее изменения на основе рекомендаций алгоритма.


Читать: https://habr.com/ru/companies/lentatech/articles/851086/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

16 Oct, 11:30


Что использовать в Python вместо встроенных классов данных? Библиотеку Pydantic!

Если вы работаете с парсингом, скрейпингом или занимаетесь разработкой API, приходите на открытый онлайн-урок «Pydantic, здравствуй»

Вы узнаете:
— как пробросить данные от одного коллбека к другому с помощью кортежей, словарей, схем Pydantic;
— как реализовать контракт API с помощью схем Pydantic.

Урок проведёт Евгений Ревняков, преподаватель OTUS и старший инженер ПО.

После вебинара вы можете приобрести курс OTUS «Python для аналитики».

Когда: 21 октября, 20:00
Бесплатно

Записаться на вебинар: https://otus.pw/GAXQ

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

Data Analysis / Big Data

16 Oct, 08:05


Объединение Oracle Analytics и Big Data

Подключите Oracle Analytics Cloud к Oracle Big Data Service с помощью Hive и Spark, чтобы получить более глубокое понимание данных. Узнайте, как это интегрирование позволяет расширить возможности анализа больших данных и принять более обоснованные решения.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

16 Oct, 05:06


Эффективное использование вложенных типов данных в SQL

Статья посвящена техникам работы с вложенными типами данных в SQL для более эффективного представления отношений в данных. Рассматривается использование STRUCT для один-к-одному связей и ARRAY для агрегирования данных. Автор также делится примерами кода для реализации этих подходов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

15 Oct, 10:10


5 лучших инструментов для разметки данных в 2024 году

Разметка данных играет ключевую роль в развитии совершенно разных технологий: от автопилотов и голосовых помощников до агро- и тяжелой промышленности. Но сам процесс разметки может быть трудоёмким и занимать много времени.

Чтобы упростить эту задачу, важно выбрать инструменты, которые подходят для вашей задачи и могут сделать работу быстрее и удобнее. В этом руководстве мы разберем самые популярные решения для разметки данных, поделимся опытом команды Data Light и разберём, какой стоит выбрать именно вам.


Читать: https://habr.com/ru/companies/data_light/articles/850770/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

14 Oct, 10:30


Педант или помогатор: какой вы системный аналитик?

Собрали для вас забавную викторину на основе реальных кейсов из мира системного анализа. Переходите по ссылке и отвечайте как чувствуете: https://tprg.ru/G6Bv

Это #партнёрский пост

Data Analysis / Big Data

14 Oct, 07:34


Как устроен бенчмарк LLM? Знакомство с оценкой моделей

В условиях, когда полным ходом идет (генеративная) революция искусственного интеллекта, каждый день появляются новые крупные языковые модели (LLM). Существуют общие модели и усовершенствованные версии этих общих моделей для конкретных целей. В настоящее время на Huggingface размещено около 750 000 различных моделей. Но как выбрать ту, которая подойдет вашим целям?

Найти модель, которая лучше всего подойдет для поставленной задачи, сложно. Также определить, что такое «хорошая производительность» при выполнении некоторых задач, может быть непросто. Существует ряд доступных бенчмарков, которые помогут вам сравнить эти LLM. В этой статье объясняются основы оценки LLM и подробно рассматриваются общие метрики оценки и бенчмарки LLM.


Читать: https://habr.com/ru/articles/850218/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

11 Oct, 13:59


Кто такой разметчик данных и сколько он зарабатывает? Все, что вам нужно знать о профессии

Вы когда-нибудь задумывались, как нейросети учатся распознавать лица, управлять автомобилями или рекомендовать фильмы? За всем этим скрывается работа разметчиков данных — специалистов, которые буквально обучают ИИ видеть и понимать мир.

Сколько зарабатывают разметчики, какие навыки им нужны, и стоит ли вам задуматься о работе в этой индустрии? Раскроем все секреты профессии в нашей статье.


Читать: https://habr.com/ru/companies/data_light/articles/850068/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

11 Oct, 12:30


Data Ocean Nova. Next-gen платформа данных класса Lakehouse

Что такое Data Ocean Nova? Ответ — в партнерском материале технического идеолога платформы. Вы узнаете об архитектуре, системе хранения данных, возможностях управления ресурсами и других особенностях решения, благодаря которым Data Ocean Nova стала одним из технологических лидеров рынка больших данных.

Читайте по ссылке


Читать: https://habr.com/ru/companies/glowbyte/articles/850034/

#ru

@big_data_analysis | Другие наши каналы

Data Analysis / Big Data

11 Oct, 11:01


QA спецы тут? Сделали для вас непростой квиз

Проверьте, соответствуют ли ваши навыки в тестировании уровню middle: https://tprg.ru/I0Fi

Это #партнёрский пост