آخرین پست‌های Data Analysis / Big Data (@big_data_analysis) در تلگرام

پست‌های تلگرام Data Analysis / Big Data

Data Analysis / Big Data
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
2,897 مشترک
528 عکس
3 ویدیو
آخرین به‌روزرسانی 12.03.2025 02:06

کانال‌های مشابه

Data Science
38,267 مشترک
Базы данных
2,726 مشترک
Big Data Science [RU]
1,914 مشترک

آخرین محتوای به اشتراک گذاشته شده توسط Data Analysis / Big Data در تلگرام

Data Analysis / Big Data

27 Feb, 16:25

195

🎯 Лучшие расширения VSCode для дата-инженеров

Ищете готовую настройку Visual Studio Code для дата-инженеров? В статье представлены топовые расширения, такие как Gitlens, SQL Tools и Jupyter Notebook. Они помогут ускорить вашу работу и улучшить продуктивность. Узнайте, как настроить и поделиться своими средами разработки!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Data Analysis / Big Data

27 Feb, 11:02

231

Бенчмаркинг AI-агентов: оценка производительности в реальных задачах

AI-агенты уже решают реальные задачи — от обслуживания клиентов до сложной аналитики данных. Но как убедиться, что они действительно эффективны? Ответ заключается в комплексной оценке AI-агентов.

Чтобы AI-система была надежной и последовательной, важно понимать типы AI-агентов и уметь их правильно оценивать. Для этого используются продвинутые методики и проверенные фреймворки оценки AI-агентов.

В этой статье мы рассмотрим ключевые метрики, лучшие практики и основные вызовы, с которыми сталкиваются компании при оценке AI-агентов в корпоративных средах.


Читать: https://habr.com/ru/articles/886198/

#ru

@big_data_analysis | Другие наши каналы
Data Analysis / Big Data

27 Feb, 10:30

230

Как не утонуть в данных: выбираем между DWH, Data Lake и Lakehouse

Привет, Хабр! Меня зовут Алексей Струченко, я работаю архитектором информационных систем в Arenadata. Сегодня хотелось бы поговорить о хранилищах данных — их видах, ключевых особенностях и о том, как выбрать подходящее решение. В эпоху цифровой трансформации данные стали одним из самых ценных активов для компаний любого масштаба и сферы деятельности. Эффективное хранение, обработка и анализ больших объёмов данных помогают организациям принимать обоснованные решения, повышать операционную эффективность и создавать конкурентные преимущества.

Однако с ростом объёмов данных и усложнением их структуры традиционные методы хранения сталкиваются с ограничениями. В этой статье мы подробно рассмотрим подходы к хранению данных: Data Warehouse (DWH), Data Lake и относительно новую концепцию Lakehouse. Разберем их особенности, различия, преимущества и недостатки, а также предложим рекомендации по выбору каждого подхода.
Всплыть

Читать: https://habr.com/ru/companies/arenadata/articles/885722/

#ru

@big_data_analysis | Другие наши каналы
Data Analysis / Big Data

27 Feb, 09:49

237

Airflow. Основы airflow. Работа с дагами. Dags example

Apache Airflow — открытое программное обеспечение для создания, выполнения, мониторинга и оркестровки потоков операций по обработке данных. 1

Изначально разработан в Airbnb в октябре 2014 года. В марте 2016 года стал проектом Apache Incubator, в январе 2019 года — проектом верхнего уровня Apache Software Foundation. 1

Airflow подходит не только для ETL-процессов, но и для автоматизации других задач, например, создания и отправки отчётов, управления инфраструктурой. 2

Некоторые области применения Airflow:

Инженерам данных — для проектирования, разработки и обслуживания систем обработки данных. 2

Аналитикам и специалистам по Data Science— для построения витрин данных, отчётов и подготовки данных для машинного обучения. 2

Разработчикам — для автоматизации загрузки данных для тестирования приложения, настройки обмена информацией между базами данных или с внешними системами. 2

Менеджерам проектов — для планирования и мониторинга процессов обработки данных.


Читать: https://habr.com/ru/articles/886250/

#ru

@big_data_analysis | Другие наши каналы
Data Analysis / Big Data

26 Feb, 13:13

276

ИИ в ЭДО: история одного кейса для хакатона от МТС

Привет, Хабр! Меня зовут Константин Архипов, я scrum-мастер продукта «Среда ЭДО» в МТС. Осенью 2024 года Университет Иннополис пригласил нас поделиться кейсом для хакатона INNOGLOBALHACK. Со стороны кажется, что это достаточно простая задача: даем студентам датасет от компании, описываем требования и смотрим их решения. Но на практике нужно сформулировать гипотезу, учесть кучу факторов и проверить, что задачу вообще можно решить. В этом посте я расскажу, как мы готовили свой кейс и что получилось у студентов по нашему датасету.


Читать: https://habr.com/ru/companies/ru_mts/articles/886038/

#ru

@big_data_analysis | Другие наши каналы
Data Analysis / Big Data

26 Feb, 09:27

291

Байесовская оценка А/Б-тестов

Описана механика А/Б-тестов. Рассмотрены примеры байесовского моделирования. Байесовская оценка применена к сравнению конверсий, средних с помощью центральной предельной теоремы, выручки на пользователя, заказов на посетителя.
Читать

Читать: https://habr.com/ru/articles/885936/

#ru

@big_data_analysis | Другие наши каналы
Data Analysis / Big Data

26 Feb, 09:02

258

Возможности комбинаторов в ClickHouse

Что делать с запросами к СУБД, выполнение которых затягивается на десятки минут, как можно оптимизировать вложенные операторы, чтобы получить нужные данные за секунды? За счет чего подобные операции выполняются в Visiology автоматически? Ответы на эти вопросы мы попробуем дать сегодня на примере небольшого синтетического теста со сложным SQL-запросом, и разберемся при чем тут комбинаторы в ClickHouse. Эта статья будет полезна тем, кто интересуется SQL-оптимизаторами, а также всем существующим и будущим пользователям Visiology, кто хочет заглянуть под капот системы. Если вы из их числа, добро пожаловать под кат :)


Читать: https://habr.com/ru/companies/visiology/articles/885928/

#ru

@big_data_analysis | Другие наши каналы
Data Analysis / Big Data

26 Feb, 06:49

228

Защита PII данных в системах Oracle

Личные идентификационные данные (PII), такие как имя, адрес, телефон, email и номер соцстрахования, требуют особой защиты в системах Oracle. Эти данные могут использоваться для идентификации или связи с человеком, и их безопасность в приложениях Oracle является приоритетом.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Data Analysis / Big Data

21 Feb, 14:29

141

Проекции в Vertica: что это, как использовать и почему не стоит создавать их под каждый запрос

Объяснили, как эффективно оптимизировать работу с большими данными, что такое проекции и как они помогают улучшить производительность запросов, особенно когда объем данных постоянно растет.

Реальные кейсы и полезные советы — в этой статье.
Data Analysis / Big Data

21 Feb, 12:59

158

Как выстроить разметку для паноптической сегментации правильно?

Представьте себе задачу, в которой необходимо не просто понять, что изображено на картинке, но и точно определить границы каждого объекта, даже если они частично перекрывают друг друга. Семантическая сегментация отлично справляется с категоризацией пикселей, инстанс-сегментация позволяет различать отдельные объекты одного класса, но что, если нам нужно сразу и то, и другое?

Паноптическая сегментация объединяет оба этих подхода. При нем каждый пиксель получает как классовую принадлежность, так и уникальный ID объекта. Однако ее разметка — одна из самых сложных задач в области компьютерного зрения: аннотаторам приходится учитывать перекрытия, сложные границы объектов и баланс между двумя типами масок.

Как добиться высокой точности в разметке паноптической сегментации? Какие ошибки наиболее критичны при аннотировании? И почему этот метод так важен для беспилотных технологий, медицинской визуализации и AR-приложений? Разбираем подробнее в статье!


Читать: https://habr.com/ru/companies/data_light/articles/884726/

#ru

@big_data_analysis | Другие наши каналы