Big Data Science [RU] @bdscience_ru Channel on Telegram

Big Data Science [RU]

12 Feb, 15:59

🤔Векторные vs Графовые СУБД: что выбрать?

При работе с неструктурированными и взаимосвязанными данными важно подобрать оптимальную систему управления базами данных. Разберем ключевые отличия векторных и графовых СУБД.

😎Векторные СУБД

📌 Преимущества:
✅ Оптимизированы для поиска по сходству (например, в NLP и компьютерном зрении).
✅ Высокая скорость поиска ближайших соседей (ANN).
✅ Эффективны при работе с embedding-моделями.

⚠️ Недостатки:
❌ Не подходят для сложных взаимосвязей между объектами.
❌ Ограничены в традиционных реляционных запросах.

😎Графовые СУБД

📌 Преимущества:
✅ Отлично работают с разветвленными структурами данных (социальные сети, маршрутизация).
✅ Оптимизированы для сложных запросов по связям.
✅ Гибкость схемы хранения данных.

⚠️ Недостатки:
❌ Медленнее на больших объемах данных при линейном поиске.
❌ Неэффективны для обработки высокоразмерных векторов.

🧐Выводы:
✅ Если вам нужен поиск по embeddings — выбирайте векторные СУБД (Faiss, Milvus).
✅ Если важны сложные связи между данными — используйте графовые СУБД (Neo4j, ArangoDB).

154

Big Data Science [RU]

10 Feb, 15:59

😎🛠Очередная подборка инструментов для работы с Big Data

NocoDB - это инновационная open-source платформа, которая превращает традиционные реляционные базы данных, такие как MySQL, PostgreSQL, SQLite и MSSQL, в удобный no-code инструмент для работы с данными. С её помощью можно легко управлять таблицами, создавать API и визуализировать информацию без написания кода. Гибкость NocoDB делает её отличной альтернативой Airtable, но с полной свободой развертывания. Вы можете установить её локально или на собственном сервере, сохраняя полный контроль над данными. Для бизнеса это важное преимущество, так как позволяет избегать ограничений SaaS-решений и потенциальных проблем с конфиденциальностью данных.

DrawDB - это инструмент для управления базами данных, который делает моделирование данных наглядным и удобным. Он предоставляет графический интерфейс для создания, редактирования и визуализации структуры БД, упрощая работу с данными и связями между таблицами. Этот инструмент особенно полезен разработчикам и аналитикам, которым нужно быстро спроектировать базу данных без глубоких знаний SQL. DrawDB поддерживает автоматическую генерацию SQL-кода, экспорт моделей и интеграцию с популярными СУБД, такими как MySQL, PostgreSQL и SQLite.

Dolt - это уникальная реляционная база данных, которая сочетает в себе традиционные SQL-функции с механизмом контроля версий, аналогичным Git. Она позволяет не только работать с данными с помощью SQL-запросов, но и отслеживать изменения на уровне строк, создавать ветки, объединять их, а также просматривать историю изменений.

ScyllaDB - это мощное и масштабируемое NoSQL-хранилище, совместимое с Apache Cassandra, но превосходящее его по производительности. Благодаря использованию фреймворка Seastar, ScyllaDB эффективно управляет многопоточными системами и оптимизирует работу на современных многоядерных процессорах. Асинхронная обработка запросов позволяет значительно снизить задержки и повысить пропускную способность, делая ScyllaDB отличным выбором для высоконагруженных систем и распределенных баз данных.

Metabase - это интуитивно понятная платформа для бизнес-аналитики, позволяющая визуализировать данные, создавать отчёты и дашборды без необходимости глубоких знаний SQL. Она поддерживает работу с различными базами данных, такими как MySQL, PostgreSQL, MongoDB и другие, обеспечивая удобный интерфейс для анализа данных и поиска инсайтов.

Azimutt - это мощный инструмент, предназначенный для визуализации, проектирования и анализа сложных баз данных. Он позволяет разработчикам и аналитикам создавать диаграммы сущностей и связей (ERD), исследовать связи между таблицами, искать данные в схемах и документировать структуру баз данных. Среди ключевых функций Azimutt — масштабируемая визуализация, удобный поиск и фильтрация таблиц, интерактивное отображение внешних ключей и механизм обнаружения потенциальных проблем в структуре базы. Это делает инструмент полезным как при разработке новых схем, так и при анализе существующих баз данных.

sync - это решение для синхронизации данных из рабочих баз данных в локальные экземпляры, поддерживающее MongoDB и MySQL. Оно позволяет передавать изменения в реальном времени, используя Change Streams для MongoDB и binlog для MySQL, обеспечивая инкрементальную синхронизацию. Инструмент поддерживает как полную начальную синхронизацию, так и постоянное обновление данных, гарантируя отказоустойчивость и возможность восстановления с последней обработанной точки в случае перезапуска. Это делает Sync удобным инструментом для работы с распределенными базами данных и аналитическими задачами.

190

Big Data Science [RU]

07 Feb, 15:59

🔥 WILDCHAT-50M: крупнейший открытый датасет диалогов для языковых моделей

Исследователи представили WILDCHAT-50M — крупнейший в своем роде открытый датасет, содержащий огромный массив данных из реальных чатов. Этот набор данных создавался для улучшения обучения языковых моделей, особенно в контексте обработки диалогов и взаимодействия с пользователями. В основе WILDCHAT-50M лежат более 125 миллионов стенограмм чатов, охватывающих свыше миллиона разговоров. Это делает его важным ресурсом для исследователей и разработчиков, работающих над созданием продвинутых языковых моделей.

Одной из ключевых особенностей WILDCHAT-50M является его происхождение: он создан на основе проекта WildChat и предназначен для использования в разработке RE-WILD SFT — метода обучения с учителем (Supervised Fine-Tuning). Этот метод позволяет моделям лучше адаптироваться к реалистичным сценариям общения и повышает их способность к поддержанию диалога в долгосрочной перспективе.

Большинство существующих наборов данных для обучения языковых моделей сосредоточены на структурированных текстах, статьях или специально подготовленных диалогах, но WILDCHAT-50M выделяется тем, что содержит реальные диалоги пользователей. Это дает возможность моделям лучше понимать живую речь, контекст и динамику общения, делая их ответы более естественными и релевантными.
Важно отметить, что WILDCHAT-50M представляет собой один из самых масштабных открытых бенчмарков в своей категории. Это означает, что разработчики и исследователи могут свободно использовать его для тестирования своих моделей, проведения экспериментов и улучшения алгоритмов обработки естественного языка. Открытость данного датасета способствует развитию технологий диалоговых систем и созданию более интеллектуальных виртуальных помощников, чат-ботов и других AI-решений.

С появлением таких наборов данных, как WILDCHAT-50M, языковые модели получают возможность значительно повысить качество генерации текста, учитывать нюансы разговорной речи и становиться ближе к реальному человеческому общению.

279

Big Data Science [RU]

05 Feb, 15:59

🚀 BigQuery Metastore: Единый сервис метаданных с поддержкой Apache Iceberg

Google анонсировала высокомасштабируемый сервис метаданных для архитектуры Lakehouse. Новое метахранилище работает во время выполнения и поддерживает несколько аналитических движков, включая BigQuery, Apache Spark, Apache Hive и Apache Flink.
BigQuery Metastore предлагает подход, основанный на унификации метаданных, позволяя разным движкам обращаться к одной копии данных. Он поддерживает Apache Iceberg, что упрощает работу с данными в lakehouse-архитектуре

😎 Ключевые преимущества:

✅ Кросс-совместимость – единый источник метаданных для всех аналитических движков
✅ Поддержка открытых форматов – Apache Iceberg, внешние таблицы BigQuery
✅ Встроенное управление данными – контроль доступа, аудит, маскирование
✅ Полностью управляемый сервис – без настройки, автоматически масштабируется

🤔 Зачем это нужно?
Традиционные метасторы привязаны к конкретным движкам, что вынуждает дублировать определения таблиц и синхронизировать метаданные вручную. Это приводит к неактуальным данным, сложностям с безопасностью и высоким затратам на администрирование.

🤔 Что это меняет?
BigQuery Metastore – шаг в сторону стандартизации управления данными. Он делает lakehouse-архитектуру более доступной, упрощает аналитику и снижает затраты на поддержку инфраструктуры.

🔎Подробнее тут

298

Big Data Science [RU]

31 Jan, 15:59

🌎ТОП февральских ивентов в Data Science

2 февраля - IT-сеанс: погружение в мир данных – Москва, Россия - https://cs.hse.ru/dpo/datascienceschool/winter2025/
6 февраля - PolyAnalyst для разработки решений на основе ИИ – Онлайн - https://megapyuter-intellidzhens.timepad.ru/event/3207461/
8 февраля – Пыхап – Москва, Россия - https://networkly.app/event/pykhap-08-02-2025_4684
15-16 февраля - Система Хак - Нижний Новгород, Россия - https://truetecharena.ru/contests/system-hack-nn#/
27 февраля-3 марта - Хакатон Б3 – Онлайн - https://codenrock.com/contests/b3-data-hack-codenrock#/
28 февраля - Siam ML Hack – Онлайн - https://codenrock.com/contests/siam-hack-ml#/

400

Big Data Science [RU]

29 Jan, 15:59

😱Ошибки в данных, которые привели к глобальным катасторофам

✅Снос не тех домов - из-за некорректных данных геоинформационных систем бригады сноса приезжали на неправильные участки из-за ошибок в данных адресов Google Maps и сносили не те дома. Это приводило к разрушенным жилищам, ущербу на десятки тысяч долларов и судебным тяжбам для компаний

✅Дефибрилляторы Zoll Medical - из-за проблем с качеством данных в процессе производства дефибрилляторы компании Zoll Medical могли отображать сообщения об ошибке или вовсе выходить из строя при использовании. Компания была вынуждена объявить отзыв продукции категории 1 — самой серьезной категории, при которой существует высокая вероятность серьезных травм или смерти. Это подорвало доверие и обошлось компании в $5,4 млн штрафов.

✅Паспортное агентство Великобритании - паспортное агентство Великобритании не раз сталкивалось с серьезными задержками при выдаче паспортов из-за ошибок миграции данных во время обновления системы. Задержки вызвали общественное недовольство и огромный объём накопившихся заявок. Исправление ошибок и найм дополнительного персонала для обработки заявок однажды обошлись агентству примерно в £12,6 млн.

✅Mars Climate Orbiter - Mars Climate Orbiter — зонд, запущенный для сбора данных о Марсе. К сожалению, аппарат сгорел при входе в атмосферу планеты, что сделало миссию полной неудачей и отбросило назад исследования Марса. Ущерб оценили в $327,6 млн. Ошибка в преобразовании единиц измерения между командами инженеров: одна использовала метрическую систему, а другая — английскую.

✅Ошибка Knight Capital - однажды ошибка в новом программном обеспечении Knight Capital привела к нежелательным биржевым сделкам, из-за чего компания закупила 150 различных акций на сумму $7 млрд всего за час. Последствия использования непроверенного ПО включали убыток в $440 млн и банкротство.

✅Сбой AWS от Amazon - во время планового обслуживания AWS из-за опечатки в данных в команде управления было случайно удалено больше серверов, чем предполагалось. На восстановление части системы потребовалось три часа, а на полное восстановление — четыре часа. Компании, использующие AWS, столкнулись с серьезными незапланированными простоями, которые привели к финансовым потерям в размере $150 млн.

✅Испанская подводная лодка "Isaac Peral" (S-81) - во время проектирования подводной лодки ошибка с десятичной точкой в расчётах водоизмещения привела к тому, что судно оказалось на 75–100 тонн тяжелее. Из-за этого подлодка была слишком тяжёлой, чтобы плавать, и её пришлось полностью перепроектировать, что вызвало значительные задержки и затраты более чем €2 млрд.

✅Boeing 737 Max - в 2018 и 2019 годах две катастрофы самолётов Boeing 737 Max унесли жизни 349 человек. В самолётах была установлена новая автоматическая система управления полётом, которая полагалась на данные только одного датчика угла атаки. Неверные данные с датчика активировали систему, которая переопределяла действия пилотов, что привело к катастрофам. Все самолёты 737 Max были затем отстранены от полетов, а Boeing потерял более $18 млрд.

✅Крах Lehman Brothers - низкое качество данных и слабый анализ рисков привели к тому, что Lehman Brothers взяли на себя больше рисков, чем могли себе позволить, а отсутствие точных данных скрывало реальную стоимость активов и обязательств. Что было дальше, известно всем: потери на $691 млрд активов и банкротство, вызвавшее глобальный финансовый кризис, который затронул экономики всего мира.

435

Big Data Science [RU]

24 Jan, 15:59

🤔💡Как Spotify создал платформу для масштабных аннотаций: опыт и результаты

Spotify в своей статье How We Generated Millions of Content Annotations поделился кейсом, как удалось масштабировать процесс аннотаций для разработки ML и GenAI моделей. Эти улучшения обеспечили обработку миллионов треков и подкастов, ускорив создание и обновление моделей.

Основные шаги:
1️⃣ Масштабирование человеческой экспертизы:
✅Основные команды: аннотаторы (первичный обзор), аналитики качества (решение сложных случаев), менеджеры проектов (обучение команд и связь с инженерами).
✅Автоматизация: внедрили систему на базе больших языковых моделей (LLM) для поддержки аннотаторов, что позволило значительно сократить затраты и усилия.

2️⃣ Новые инструменты для аннотаций:

✅Разработаны интерфейсы для сложных задач (например, аннотация аудио/видео сегментов или текстов).
✅Созданы метрики для мониторинга: количество выполненных задач, объем данных, продуктивность аннотаторов.
✅Введен показатель «согласованность» аннотаций, чтобы автоматически отправлять спорные случаи экспертам.

3️⃣ Интеграция с ML-инфраструктурой:

✅Построили гибкую архитектуру с возможностью использовать разные инструменты.
✅Добавили CLI и UI для быстрого запуска проектов.
✅Интегрировали аннотации в производственные ML-пайплайны.

😎Результаты:
✅Объем аннотаций увеличился в 10 раз.
✅Производительность аннотаторов выросла в 3 раза.
✅Снизилось время запуска новых моделей.

461

Big Data Science [RU]

22 Jan, 15:59

💡😎Маленькая подборка больших интересных и полезных датасетов

Sky-T1-data-17k — разнообразный датасет, предназначенный для обучения модели Sky-T1-32B, являющейся ризонингом модели MiniMax-Text-01, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом

XMIDI Dataset — крупномасштабный музыкальный датасет с точными метками эмоций и жанров. Содержит 108 023 MIDI-файла, являясь крупнейшим из известных наборов данных такого рода

AceMath-Data - семейство датасетов, которые использовались NVIDIA для обучения флагманской модели AceMath-72B-Instruct, которая значительно превосходит GPT-4o и Claude-3.5 Sonnet в области решения математических задач

441

Big Data Science [RU]

20 Jan, 15:59

💡Небольшая подборка репозиториев для новичков и не только

SQL Roadmap for Data Science & Data Analytics - пошаговая программа изучения SQL. Эта программа размещена в виде репозитория на GitHub и дополнена ссылками на обучающие материалы

kh-sql-projects - репозиторий с исходным кодом популярных SQL-проектов для разработчиков разного уровня: от начинающих до опытных. Включает проекты на базе PostgreSQL для различных систем, таких как управление библиотеками, студентами, больницами, бронированием и инвентарем. Отличная возможность для практического изучения SQL

ds-cheatsheet - GitHub-репозиторий, собравший множество полезных шпаргалок для изучения и работы в сфере Data Science

GenAI Showcase - репозиторий, демонстрирующий использование MongoDB в генеративном искусственном интеллекте. Содержит примеры интеграции MongoDB с технологиями Retrieval-Augmented Generation (RAG) и различными ИИ-моделями

460

Big Data Science [RU]

15 Jan, 15:59

📚Небольшая подборочка книг по Data Science и Big Data

Software Engineering for Data Scientists - в книге объясняются механизмы и практики разработки ПО в Data Science. Здесь также приводится масса примеров реализации на Python

Graph Algorithms for Data Science - книга рассматривает ключевые алгоритмы и методы работы с графами в науке о данных, сопровождая их конкретными рекомендациями по реализации и применению. Для её освоения не требуется опыта работы с графами. Алгоритмы объясняются простым языком без лишнего жаргона и сопровождаются наглядными иллюстрациями, что делает их лёгкими для применения в ваших проектах

Big Data Management and Analytics - книга охватывает все аспекты работы с большими данными: от базового уровня до изучения конкретных примеров. Читатели получат представление о выборе моделей данных, извлечении и интеграции данных для решения задач больших данных, моделировании данных с использованием методов машинного обучения, масштабируемых технологий Spark, преобразовании задачи больших данных в графовую базу данных и выполнении аналитических операций над графами. Также рассматриваются различные инструменты и методы обработки больших данных и их применение, включая здравоохранение и финансы

Advanced Data Analytics Using Python - книга рассматривает архитектурные паттерны в аналитике данных, классификацию текста и изображений, методы оптимизации, обработку естественного языка и компьютерное зрение в облачной среде.

Minimalist Data Wrangling with Python - в книге предлагается как общее представление, так и детальное обсуждение ключевых концепций. Рассматриваются методы очистки данных, собранных из различных источников, их преобразования, выбора и извлечения признаков, проведения разведочного анализа данных и снижения размерности, выявления естественных кластеров, моделирования закономерностей, сравнения данных между группами и представления результатов

560

Big Data Science [RU]

13 Jan, 15:59

🧐Распределённая обработка - пан или пропал

В статье Optimizing Parallel Computing Architectures for Big Data Analytics автор рассказывает, как оптимально распределить нагрузку при обработке Big Data на примере Apache Spark.

🤔Однако автор ничего не говорит про основные преимущества и недостатки распределенных вычислений, с которыми нам так или иначе приходиться мириться.

💡Преимущества:

✅Масштабируемость: легко увеличивать вычислительные мощности за счёт добавления новых узлов
✅Отказоустойчивость: система продолжает работать даже при сбоях отдельных узлов благодаря репликации и резервированию
✅Высокая производительность: одновременная обработка данных на разных узлах ускоряет выполнение задач

⚠️Теперь к недостаткам:

✅Сложность управления: координация между узлами и обеспечение их синхронной работы требует сложной архитектуры
✅Безопасность: распределённость данных усложняет их защиту от утечек и атак
✅Избыточность данных: для обеспечения отказоустойчивости часто создаются реплики данных, что увеличивает объём хранимой информации
✅Проблемы согласованности: в системах с большим количеством узлов сложно обеспечить согласованность данных в реальном времени (CAP-теорема)
✅Сложности обновления: внесение изменений в распределённую систему (например, обновление ПО) может быть длительным и рискованным процессом
✅Ограниченная пропускная способность сети: высокий объём передачи данных между узлами может перегружать сеть и замедлять работу

🥸Таким образом, распределённая обработка данных предоставляет мощные возможности для масштабирования, ускорения вычислений и обеспечения отказоустойчивости. Однако её внедрение связано с рядом технических, организационных и финансовых сложностей, включая управление сложной архитектурой, обеспечение безопасности и согласованности данных, а также высокие требования к сетевой инфраструктуре.

446

Big Data Science [RU]

10 Jan, 15:59

⚔️Kafka 🆚 RabbitMQ: столкновение лбами

В своей статье RabbitMQ vs Kafka: Head-to-head confrontation in 8 major dimensions автор сравнивает два известных инструмента: Apache Kafka и RabbitMQ.

Рассмотрим 2 основных различия между ними:

✅RabbitMQ — это брокер сообщений, обеспечивающий маршрутизацию и управление очередями
✅Kafka — распределённая платформа обработки потоков данных, обеспечивающая хранение и воспроизведение сообщений

🤔Ключевые характеристики:

✅Порядок сообщений: Kafka гарантирует упорядоченность внутри одной темы, тогда как RabbitMQ предоставляет только базовые гарантии
✅Маршрутизация: RabbitMQ поддерживает сложные правила маршрутизации, а Kafka требует дополнительной обработки для фильтрации сообщений
✅Срок хранения сообщений: Kafka сохраняет сообщения независимо от их обработки, в отличие от RabbitMQ, где сообщения удаляются после обработки
✅Масштабируемость: Kafka показывает более высокую производительность и лучше масштабируется

🤔Обработка ошибок:

✅RabbitMQ предлагает встроенные инструменты для управления неудачными сообщениями (например, Dead Letter Exchange)
✅В Kafka обработка ошибок требует реализации дополнительных механизмов на уровне приложени

Таким образом, RabbitMQ подходит для задач с гибкой маршрутизацией, управлением временем сообщений и сложными обработками ошибок, тогда, как Kafka лучше справляется с задачами с жёсткими требованиями к порядку, долговременным хранением сообщений и высокой масштабируемостью.

💡Статья также подчёркивает, что обе платформы могут использоваться вместе для решения разных задач в сложных системах.

459

Big Data Science [RU]

08 Jan, 15:59

😎💡Топ подборка полезных инструментов для работы с данными

gitingest — это утилита, созданная для автоматизации анализа данных из репозиториев Git. Она позволяет собирать информацию о коммитах, ветках и авторах, а затем преобразовывать её в удобные форматы для интеграции с языковыми моделями (LLM). Инструмент идеально подходит для анализа истории изменений, построения моделей на основе кода и автоматизации работы с репозиториями

datasketch — Python-библиотека для оптимизации работы с большими данными. Она предоставляет вероятностные структуры данных, включая MinHash для оценки схожести Jaccard и HyperLogLog для подсчёта уникальных объектов. Эти инструменты позволяют быстро выполнять задачи, такие как поиск похожих элементов и анализ кардинальности, с минимальными затратами памяти и времени.

Polars — высокопроизводительная библиотека для работы с табличными данными, разработанная на Rust с поддержкой Python. Библиотека интегрируется с NumPy, Pandas, PyArrow, Matplotlib, Plotly, Scikit-learn и TensorFlow. Polars поддерживает фильтрацию, сортировку, слияние, объединение и группировку данных, обеспечивая высокую скорость и эффективность для аналитики и обработки больших объемов данных.

SQLAlchemy — библиотека для работы с базами данных, поддерживающая взаимодействие с PostgreSQL, MySQL, SQLite, Oracle, MS SQL и другими СУБД. Она предоставляет инструменты для объектно-реляционного отображения (ORM), что упрощает управление данными, позволяя разработчикам работать с объектами Python вместо написания SQL-запросов, а также поддерживает гибкую работу с "сырыми" SQL для сложных сценариев.

SymPy — библиотека для работы с символьной математикой в Python. Она позволяет выполнять операции над выражениями, уравнениями, функциями, матрицами, векторами, полиномами и другими объектами. С помощью SymPy можно решать уравнения, упрощать выражения, вычислять производные, интегралы, приближения, подстановки, факторизации, а также работать с логарифмами, тригонометрией, алгеброй и геометрией.

DeepChecks — это Python-библиотека для автоматизированной проверки моделей и данных машинного обучения. Она выявляет проблемы с производительностью моделей, целостностью данных, несоответствием распределений и другими аспектами. DeepChecks позволяет легко создавать кастомные проверки, а результаты визуализируются в удобных таблицах и графиках, упрощая анализ и интерпретацию.

Scrubadub — Python-библиотека, предназначенная для обнаружения и удаления персонально идентифицируемой информации (PII) из текста. Она может распознавать и скрывать такие данные, как имена, номера телефонов, адреса, номера кредитных карт и многое другое. Инструмент поддерживает настройку правил и может быть интегрирован в различные приложения для обработки конфиденциальных данных.

436

Big Data Science [RU]

03 Jan, 15:59

🤔Чем же отличаются Smart Data от Big Data?

В статье What’s Smart data and how it’s different from Big data? автор рассматривает особенности "Умных Данных". Ниже мы приведем свое видение этой концепции (оно может отличаться, а может и совпадать🥸).

Итак, Smart Data — это концепция, ориентированная на обработку, анализ и использование данных с учетом их актуальности, качества и пользы для принятия решений. В отличие от Big Data, где акцент делается на объем, Smart Data фокусируется на извлечении ценной информации из огромного массива данных.

🤔Особенности Smart Data:
✅Качество данных: Отбор только релевантных, точных и структурированных данных
✅Контекстуальность: Данные обрабатываются с учетом их значимости для конкретной задачи
✅Аналитика в реальном времени: Smart Data используются для возможности быстрого принятия решений

🤔Преимущества:
✅Эффективность: Экономия ресурсов за счет работы только с нужными данными
✅Персонализация: Возможность адаптировать услуги под конкретные потребности
✅Меньше ошибок: Фокус на высоком качестве данных снижает риски получения некорректных результатов

🥸Однако не все так радужно, есть и недостатки:
✅Этические и правовые вопросы: Работа с персональными данными несет риски нарушения конфиденциальности и неправомерного использования информации. Это может привести к штрафам и утрате доверия
✅Высокая зависимость от качества данных: Если исходные данные неполные, неточные или устаревшие, результаты анализа могут вводить в заблуждение и ухудшить принятие решений
✅Высокая стоимость внедрения: Требуется инвестиция в технологии, время и квалифицированный персонал
✅Проблемы интерпретации результатов: Даже с качественными данными аналитика может быть сложной для понимания неэкспертами, что требует дополнительных затрат на обучение сотрудников
✅Технические сбои: Инфраструктура для обработки данных может быть уязвима к сбоям, что особенно критично при работе с реальными процессами, такими как управление в финансовой или медицинской сфере

🧐Таким образом, Smart Data — это про осмысленное использование данных для достижения конкретных целей. Эта концепция позволяет компаниям не только справляться с информационным шумом, но и получать конкурентные преимущества. Однако внедрение требует продуманной стратегии и ресурсов, иначе есть риск понести огромные убытки

564

Big Data Science [RU]

31 Dec, 15:59

🌎Небольшая обзор Data Science ивентов за 2025 год
18 января - Data Ёлка 2024 – Москва, Россия - https://ods.ai/events/data-elka-2024
22-23 января - Data Fusion Awards 2025 – Москва, Россия - https://awards.data-fusion.ru/
30 января - CX Focus 2025 – Москва, Россия - https://cxfocus.ru/
26 февраля - Качество данных 2025 – Москва, Россия - https://www.osp.ru/lp/dataquality2025
27 марта - DATA+AI 2025 – Москва, Россия - https://www.osp.ru/lp/data-ai2025
25 апреля - Merge 2025 – Казань, Россия - https://tatarstan2025.mergeconf.ru/
1 июня - Saint HighLoad++ 2025 - Санкт-Петербург, Россия - https://highload.ru/spb/2025
19 июня - IT IS conf 2025 – Екатеринбург, Россия - https://itisconf.ru/
23 сентября - Data Conf 2025 – Москва, Россия - https://datainternals.ru/2025
15-16 октября - Innovation Tech Days 2025 – Онлайн - https://smartgopro.com/innovation_tech_days/

517

Big Data Science [RU]

27 Dec, 15:59

😎💡FineMath: новый математический датасет от Hugging Face

Hugging Face выпустили крупный датасет FineMath, предназначенный для обучения моделей на математическом контенте. Датасет был сформирован с использованием CommonCrawl, классификатора, обученного на аннотациях LLama-3.1-70B-Instruct, и последующей фильтрации данных.

По сравнению с OpenWebMath и InfiMM, FineMath демонстрирует более стабильный рост точности моделей с увеличением объема данных. Этот эффект достигается благодаря качеству и разнообразию контента.

На базе FineMath уже создан проект по обучению LLM для математической помощи — репозиторий доступен на GitHub.

681

Big Data Science [RU]

25 Dec, 15:59

🧐Многопоточность PostgreSQL vs. MSSQL Server: преимущества и недостатки

Все мы знаем такие знаменитые СУБД, как PostgreSQL и MSSQL Server, которые часто используются при проектировании различной инфраструктуры веб-приложений. Давайте разберем, как насколько надежно работает многопоточность при выполнении запросов в каждой из этих СУБД.

👍Преимущества многопоточности PostgreSQL:

✅Модель процессов (process-based): каждый клиент работает в отдельном процессе, что минимизирует взаимное влияние соединений.
✅Стабильность и безопасность: независимость процессов уменьшает риск взаимоблокировок.
✅Гибкая настройка: процессная архитектура позволяет эффективно масштабировать ресурсы для отдельных задач.

❌Недостатки:

✅Высокое потребление памяти на каждый процесс
✅Ограниченная производительность при большом количестве соединений
✅Сложности с горизонтальным масштабированием

👍Преимущества многопоточности MSSQL Server:

✅Модель потоков (thread-based): обеспечивает эффективное использование CPU и памяти.
✅Высокая масштабируемость: подходит для большого количества параллельных соединений.
✅Интеграция с Windows: глубокая оптимизация для Windows-серверов
✅Быстрое переключение потоков: повышает производительность в системах с высокой конкуренцией за ресурсы.

❌Недостатки:

✅Сложность диагностики проблем из-за параллельного выполнения задач
✅Высокий риск взаимоблокировок
✅Высокие требования к администрированию для эффективного управления потоками

🤔Что выбрать?

PostgreSQL — для приложений с умеренным числом соединений, стабильной нагрузкой и акцентом на надежность
MSSQL Server — для высоконагруженных систем, требующих максимальной масштабируемости и производительности

556

Big Data Science [RU]

23 Dec, 15:59

😎Небольшая подборка полезных Big Data репозиториев

Complete-Advanced-SQL-Series — репозиторий, который включает всё необходимое для улучшения навыков работы с SQL: более 100 упражнений и примеров.

ds-cheatsheet — репозиторий на GitHub, содержащий множество полезных шпаргалок по Data Science.

postgres_for_everything — репозиторий, который собирает примеры применения PostgreSQL для решения разнообразных задач: очереди сообщений, аналитика, контроль доступа, GIS, работа с временными рядами, поиск, кэширование и многое другое.

GenAI Showcase — репозиторий, демонстрирующий использование MongoDB в генеративном искусственном интеллекте. Включает примеры интеграции MongoDB с технологиями Retrieval-Augmented Generation (RAG) и различными ИИ-моделями.

Data-and-ML-Projects — репозиторий с более чем 50 проектами, охватывающими области Data Analytics, Data Science, Data Engineering, MLOps и Machine Learning.

484

Big Data Science [RU]

18 Dec, 15:59

😎📊Тренды данных, которые преобразят бизнес в 2025 году

Автор статьи The Most Powerful Data Trends That Will Transform Business In 2025 выделяет ключевые тенденции, которые будут определять работу с данными в ближайшем будущем.

🤔Вот некоторые из них:

✅Конфиденциальные вычисления: использование блокчейна и гомоморфного шифрования позволит анализировать данные, не раскрывая их содержимое. Это ключевой шаг для совместной аналитики между компаниями с высокой защитой данных

✅Рост рынков данных: компании начнут продавать свои наборы данных, создавая новые потоки доходов. Возникнут специализированные платформы для торговли данными.

✅Расширение edge computing: обработка данных на периферии сети обеспечит минимальные задержки и повышение безопасности. Развитие технологий вроде tinyML изменит индустрии, где критична скорость обработки данных

✅Поведенческие данные как новый актив: анализ эмоциональных и поведенческих данных станет основой для персонализированных решений.

515

Big Data Science [RU]

16 Dec, 15:59

😎🔥Небольшая подборка полезных датасетов

Synthia-v1.5-I - датасет, включающий более 20 тысяч технических вопросов и ответов. В наборе используются системные промпты в стиле Orca для генерации разнообразных ответов, что делает его ценным ресурсом для обучения и тестирования LLM на сложных технических данных.

HelpSteer2 - англоязычный набор данных, предназначенный для обучения reward-моделей, которые улучшают полезность, точность и связность ответов, генерируемых другими LLM.

LAION-DISCO-12M - включает 12 миллионов ссылок на общедоступные треки YouTube с метаданными. Набор данных создан для поддержки исследований в области машинного обучения, разработки базовых моделей обработки звука, анализа музыкальной информации, работы с аудио-данными, а также для обучения рекомендательных систем и приложений.

Universe — это крупномасштабная коллекция, содержащая астрономические данные различных типов: изображения, спектры и кривые блеска. Он предназначен для исследований в области астрономии и астрофизики.

617

Big Data Science [RU]

13 Dec, 15:59

🥲ТОП факапов с разными СУБД: боль, слёзы

✅PostgreSQL и вакуум в сюрпризе
Все любят PostgreSQL, пока не сталкиваются с автovacuum. Если забыть настроить его правильно, база начинает тормозить так, что проще мигрировать данные на Excel.

✅Cassandra: мастер шардирования и мастер хаоса
О, этот волшебный мир распределённых данных! Пока всё идёт гладко, Cassandra крута. Но стоит одному узлу выйти из строя, и кластеры превращаются в загадку с сюрпризом: какая часть данных уцелела? А кросс-DC репликация в больших сетях — это вообще лотерея.

✅Firebase Realtime Database
Звучит круто: данные синхронизируются в реальном времени! Но когда у вас десятки тысяч активных пользователей, всё превращается в ад, потому что каждый маленький запрос стоит тонну денег. А обновления без контроля затрагивают все клиенты разом.

✅Redis как основная БД
Легко, быстро, всё в памяти. Звучит круто, пока не осознаёшь, что забыли про механизм восстановления данных. Упс, сервер упал — данные улетели в никуда.

503

Big Data Science [RU]

11 Dec, 15:58

😎Google представила Willow — квантовый чип с экспоненциальным масштабированием

Google выпустила Willow, первый в мире квантовый чип, способный к экспоненциальному уменьшению ошибок с увеличением числа кубитов. Это стало возможным благодаря эффективной реализации логических кубитов, которые работают ниже границы Quantum Error Correction — метода защиты данных через их распределение по кубитам.

Особенности Willow:

✅Рекордное количество кубитов: 105, что значительно превышает показатели предыдущих квантовых компьютеров.

✅Скорость вычислений: в септилион раз быстрее классических чипов. Willow решает задачи за 300 секунд, на которые обычный чип потратил бы 10 квинтиллионов лет.

✅Минимизация ошибок: при увеличении количества кубитов ошибки снижаются экспоненциально, что решает основную проблему квантовых вычислений последних 30 лет.

Хотя для таких задач, как взлом биткоина, потребуется 300–400 миллионов кубитов, Willow уже устанавливает новую планку в квантовых технологиях.

🔎Подробнее можно узнать тут

505

Big Data Science [RU]

09 Dec, 15:59

🧐Данные и их разметка в 2024 году: новые тренды и будущие требования

Попалась интересная статья про разметку данных. Вот несколько ключевых моментов:

🤔Текущие тренды:

✅Увеличение сложности наборов данных
✅Переход к разметке в реальном времени
✅Масштабное развитие автоматизированных инструментов, дополняющих ручной труд

🤔Прогнозы рынка:

✅Ожидается рост до $8.22 млрд к 2028 году с CAGR 26.6%
✅Требования к качеству и скорости разметки растут и будут расти в геометрической прогрессии

🤔Технологические тренды:

✅Адаптивный ИИ
✅Метавселенная
✅Отраслевые облачные платформы
✅Улучшение беспроводных технологий

Таким образом, автор указывает на то, что индустрия разметки данных будет стремительно расти благодаря увеличению спроса на точные и надежные данные для ИИ и машинного обучения. Автоматизация, адаптивный ИИ и новые технологические решения позволят улучшить качество и скорость разметки данных.

432

Big Data Science [RU]

06 Dec, 15:59

😎🔥Подборка инструментов для обработки Big Data

Timeplus Proton — это SQL-движок, основанный на ClickHouse, предназначенный для обработки, маршрутизации и анализа потоковых данных из таких источников, как Apache Kafka и Redpanda, с возможностью передачи агрегированных данных в другие системы.

qsv — это утилита командной строки, предназначенная для быстрого индексирования, обработки, анализа, фильтрации, сортировки и объединения CSV-файлов. Она предлагает удобные и понятные команды для выполнения этих операций.

WrenAI — это open-source инструмент, который подготавливает существующую базу данных для работы с RAG (Retrieval-Augmented Generation). Он позволяет преобразовывать текстовые запросы в SQL, исследовать данные из БД без написания SQL-кода и выполнять другие задачи.

Groll — это open-source CLI-утилита для управления миграциями схем в PostgreSQL. Она обеспечивает безопасное и обратимое внесение изменений, поддерживая одновременную работу с несколькими версиями схем. Groll поддерживает выполнение сложных миграций, обеспечивая непрерывную работу клиентских приложений во время обновления схемы базы данных.

Valkey — это высокопроизводительное open-source хранилище данных, которое поддерживает кэширование, очереди сообщений и может использоваться как основная база данных. Оно функционирует как автономная фоновая служба или в составе кластера, обеспечивая репликацию и высокую доступность.

DataEase — это open-source BI-инструмент для создания интерактивных визуализаций и анализа бизнес-метрик. Он упрощает доступ к аналитике благодаря интуитивному интерфейсу с поддержкой перетаскивания элементов, что делает работу с данными удобной и понятной.

SurrealDB — это современная многомодельная база данных, объединяющая возможности SQL, NoSQL и графовых систем. Она поддерживает реляционные, документные, графовые, временные и ключ-значение модели данных, предоставляя универсальное решение для управления данными без необходимости использования разных платформ.

LibSQL — это форк SQLite, расширенный такими функциями, как обработка запросов через HTTP и gRPC, а также поддержка прозрачной репликации. Он позволяет создавать распределённые базы данных с записью на основном сервере и чтением с реплик. LibSQL обеспечивает безопасную передачу данных через TLS и предоставляет Docker-образ для удобного развертывания.

Redash — это open-source инструмент для анализа данных, предназначенный для упрощения подключения, запроса и визуализации данных из различных источников. Он позволяет создавать SQL- и NoSQL-запросы, визуализировать результаты в виде графиков и диаграмм, а также делиться дашбордами с командами.

437

Big Data Science [RU]

30 Nov, 15:59

🌎ТОП декабрьских ивентов в Data Science

2 декабря - Yandex Cup 2024: Финал - Ташкент, Узбекистан - https://yandex.ru/cup/
2-3 декабря - HighLoad++ 2024 - Москва, Россия - https://highload.ru/moscow/2024
4 декабря - BIG StartUp DAY - Москва, Россия - https://bigstartupday.ru/
3 декабря - Cloud Security Day - Москва, Россия - https://yandex.cloud/ru/events/977
5 Декабря - IT Talk by Sber 2.0 - Вологда, Россия - https://developers.sber.ru/kak-v-sbere/events/ittalk_vologda
5 декабря - AI-driver & RecSys Meetup - Владивосток, Новосибирск, Нижний Новгород, Санкт‑Петербург, Россия - https://developers.sber.ru/kak-v-sbere/events/ai_recsys
6 декабря - есom.teсh meetup — Generative AI - Москва, Россия - https://ecom-tech.timepad.ru/event/3136197/
6 декабря - Conversations 2024 - Москва, Россия - https://conversations-ai.com/
11-13 декабря - AIJ 2024 - Москва, Россия - https://aij.ru/

606

Big Data Science [RU]

29 Nov, 15:59

💡 SmolTalk: синтетический англоязычный датасет для обучения LLM

SmolTalk — это синтетический датасет от HuggingFace, созданный для обучения LLM с учителем. Состоит из 2 млн строк и использовался для разработки моделей SmolLM2-Instruct.

🔥Датасет включает как новые, так и существующие наборы данных

😎Новые наборы данных:

✅Smol-Magpie-Ultra (400 тыс. строк)
✅Smol-constraints (36 тыс. строк)
✅Smol-rewrite (50 тыс. строк)
✅Smol-summarize (101 тыс. строк)

⚡️Существующие наборы:

✅OpenHermes2.5 (100 тыс. строк)
✅MetaMathQA (50 тыс. строк)
✅NuminaMath-CoT (1120 тыс. строк)
✅Self-Oss-Starcoder2-Instruct (1120 тыс. строк)
✅SystemChats2.0 (30 тыс. строк)
✅LongAlign (менее 16 тыс. токенов)
✅Everyday-conversations (50 тыс. строк)
✅APIGen-Function-Calling (80 тыс. строк)
✅Explore-Instruct-Rewriting (30 тыс. строк)

📚Результаты обучения:
SmolTalk показал значительные улучшения в производительности модели, особенно в задачах математики, программирования и следования системным промптам. Обучение на SmolTalk дало лучшие результаты по меткам IFEval, BBH, GS8Mk и MATH, в том числе при обучении Mistral-7B.

471

Big Data Science [RU]

27 Nov, 15:59

🤖Deus in Machina: в швейцарской церкви установили Jesus-AI

В часовне Святого Петра в Люцерне запустили проект AI Jesus, который общается на 100 языках. ИИ установлен в исповедальне, где посетители могут задавать вопросы и получать ответы в реальном времени.

Обученный на богословских текстах, Jesus-AI за два месяца привлек более 1000 человек, две трети из которых назвали опыт "духовным". Однако эксперимент вызвал критику за поверхностность ответов и невозможность полноценных бесед с машиной.

🖥Подробнее здесь

475

Big Data Science [RU]

25 Nov, 15:59

🤔CUPED: преимущества и недостатки

CUPED (Controlled Pre-Experiment Data) — это метод предобработки данных, используемый для повышения точности оценки A/B-тестов. CUPED снижает дисперсию метрик, используя данные, собранные до эксперимента, что позволяет быстрее выявлять статистически значимые различия.

Преимущества CUPED:

✅Снижение дисперсии метрик: Улучшает чувствительность теста за счет учета предварительных данных.
Экономия ресурсов: Сокращает объем выборки, необходимый для достижения статистической значимости.
✅Быстрая интерпретация результатов: Уменьшение шума позволяет быстрее находить реальные эффекты.
✅Учет сезонности: Использование данных до эксперимента помогает учитывать тренды и внешние факторы.

Недостатки CUPED:

✅Сложность в реализации: Требует знаний статистики и правильного выбора ковариатов.
✅Зависимость от качества данных: Предэкспериментальные данные должны быть надежными и репрезентативными.
✅Необходимость ковариатов: Требуется значимая корреляция между метрикой и предиктором, иначе эффект будет минимален.
✅Риск переоценки: При неправильной настройке может привести к завышенной оценке эффекта.

Таким образом, CUPED особенно полезен, когда важно максимизировать эффективность экспериментов, но требует тщательной подготовки данных и анализа.

501

Big Data Science [RU]

22 Nov, 15:59

😎💡AlphaQubit от Google: новый стандарт точности в квантовых вычислениях.

Google DeepMind и Google Quantum AI представили AlphaQubit, декодер, который значительно улучшает точность коррекции ошибок в квантовых вычислениях. Основанный на нейронной сети, обученной на синтетических и реальных данных с процессора Sycamore, AlphaQubit использует архитектуру Transformers для анализа ошибок.

Тесты показали, что AlphaQubit снижает ошибки на 6% по сравнению с тензорными сетями и на 30% — с корреляционным сопоставлением. Однако, несмотря на высокий уровень точности, проблемы с реальной скоростью работы и масштабируемостью остаются.

✅Ссылка на блог

493

Big Data Science [RU]

20 Nov, 15:59

🔎Оптимизация поиска в MongoDB

MongoDB — это нереляционная база данных, которая отличается от SQL-баз, таких как PostgreSQL или MySQL, своей структурой. Вместо таблиц с колонками и строками MongoDB использует коллекции.

Поиск текста в MongoDB предполагает использование специальных операторов запросов для работы с текстовыми данными. Он позволяет искать текстовые фразы в коллекциях и возвращать документы, содержащие указанные слова. Это часто применяется для сложных операций, где данные группируются по общим признакам, таким как цена, авторы или возраст.

В данной статье автор также делится опытом работы с MongoDB, включая сложности при создании оптимальных поисковых запросов, чтобы упростить их понимание для новичков.

В статье также упоминается про Mongoose — популярный инструмент ORM (объектно-реляционное отображение), который упрощает взаимодействие между MongoDB и языками программирования, такими как Node.js/JavaScript. Он предоставляет функции моделирования данных, разработки схем, аутентификации моделей и управления данными.

456

Big Data Science [RU]

15 Nov, 15:59

🧐Интервью CEO Anthropic Дарио Амодеи с Лексом Фридманом

😎Основные моменты:

✅Дарио выразил оптимизм относительно скорого появления ИИ, способного достигнуть уровня человека. Он отметил, что в ближайшие годы затраты на разработку и обучение будут расти, и к 2027 году, вероятно, будут создаваться кластеры стоимостью около $100 млрд — значительно больше, чем нынешние крупнейшие суперкомпьютеры, которые стоят около $1 млрд.

✅Амодеи считает, что масштабирование моделей продолжится, несмотря на отсутствие теоретического объяснения этому процессу — в нём, по его словам, есть некая "магия".

✅Сейчас модели ИИ улучшаются с поразительной скоростью, особенно в таких областях, как программирование, физика и математика. На тесте SWE-bench их успех в начале года был лишь 2-3%, а теперь достигает около 50%. Основная причина для беспокойства в этих условиях — возможная монополия на ИИ, когда контроль над ним окажется у небольшого числа крупных компаний, что может угрозу

🖥Интервью можно посмотреть здесь

653

Big Data Science [RU]

14 Nov, 17:03

🔥Новости и события за неделю

✅Samsung представила обновленную версию виртуального ассистента Bixby

Компания Samsung представила обновленную версию виртуального ассистента Bixby на базе крупной языковой модели (LLM). Новая версия Bixby, доступная на эксклюзивных для китайского рынка складных смартфонах Samsung W25 и W25 Flip, способна воспринимать сложные инструкции, извлекать информацию с экрана (например, с карт или фотографий) и запоминать контекст предыдущих диалогов. В ходе демонстрации Bixby порекомендовал одежду, учитывая текущую погоду, и объяснил, как добавить водяной знак на изображение, пошагово.

✅ Суд в Нью-Йорке отклонил иск СМИ к OpenAI по авторскому праву.

Федеральный суд Южного округа Нью-Йорка отклонил иск изданий Raw Story и AlterNet против компании OpenAI, обвинявших её в нарушении Закона об авторском праве в цифровую эпоху (DMCA). СМИ утверждали, что OpenAI намеренно удаляла сведения об авторских правах, такие как названия статей и имена авторов, из текстов, использованных для обучения ChatGPT.

✅ Google открыла доступ к Gemini через библиотеку OpenAI.

Разработчики теперь могут использовать модели Gemini от Google через библиотеку OpenAI и REST API. Поддерживаются API завершения чата и API эмбедингов. В ближайшие недели Google планирует расширить совместимость.
Google рекомендует разработчикам, не использующим библиотеки OpenAI, обращаться к Gemini API напрямую.

439

Big Data Science [RU]

13 Nov, 15:59

😎Сила в данных: анализ квартального роста выручки для достижения успеха в бизнесе

💡Недавно нашел статью, в которой автор рассказывает про анализ квартального роста выручки. Он утверждает, что ориентация только на годовые данные может скрывать тенденции и замедлить принятие решений. Квартальный анализ позволяет лучше понять текущие результаты бизнеса и выявить возможные проблемы, такие как снижение доходов в определённом периоде. Такая детализация помогает быстрее определить причины (например, сезонные колебания или недостатки маркетинга) и оперативно принять меры, чем при анализе только годовых данных. Квартальные данные создают основу для оптимизации стратегий роста, переходя от реактивного к более эффективному управлению на основе данных.

Автор также выделяет ключевые метрики для анализа квартального роста выручки:

✅Стоимость привлечения клиентов (CAC): Важно понимать расходы на привлечение новых клиентов для оптимизации маркетинговых и продажных усилий, что помогает увеличить рентабельность инвестиций и рост выручки.
✅Пожизненная ценность клиента (CLTV): Этот показатель показывает общий доход, который клиент приносит за всё время взаимодействия с компанией, помогая выделить высокодоходные сегменты для таргетинга и удержания.
✅Конверсия продаж: Анализ конверсии на каждом этапе воронки позволяет выявить узкие места и повысить общую эффективность продаж, что способствует росту выручки.

🖥Ссылка на статью

405

Big Data Science [RU]

12 Nov, 06:02

Отличная новость для Data Analyst, Data Engineer и Data Scientist!

16 ноября у вас есть возможность за один день пройти все этапы интервью и получить оффер 🚀

А самое интересное – в One Day Offer примут участие сразу несколько команд Сбера: Сеть Продаж, Стратегия и развитие, Финансы, Marketing AI, блок В2С, Департамент «Занять и сберегать» и СберНадежность. Такое нельзя пропустить ✅

Команды разрабатывают DS-решения для обслуживания клиентов, поддержки банковских операций, рекламных программ, чат-ботов, умных ассистентов и не только.

Регистрируйтесь, и до встречи 16 ноября

407

Big Data Science [RU]

08 Nov, 15:59

😂Радикальное решение от ИИ

Каждый день тысячи программистов могут вздохнуть с облегчением, когда ИИ выполняет за них задачи вроде запросов, форматирования данных или других рутинных задач😁

🖥ChatGPT попросили написать SQL запросы для базы данных магазина. Ответ просто убил

😎Иногда взгляды ИИ на решение той или иной задачи несколько отличаются от человеческих

589

Big Data Science [RU]

06 Nov, 15:59

😎Как в Spotify ускорялась разметка данных для ML в 10 раз

Spotify поделился, как ускорил разметку данных для моделей машинного обучения, используя крупные языковые модели (LLM) совместно с работой аннотаторов. Автоматическая первичная разметка LLM значительно сократила время обработки, позволяя аннотаторам фокусироваться на сложных или неоднозначных случаях. Это комбинированное решение увеличило производительность процесса в три раза и позволило снизить затраты. Такое масштабируемое решение особенно актуально для быстро растущей платформы и используется для мониторинга соблюдения правил и политик сервиса.

💡Стратегия разметки данных в Spotify основана на трех основных принципах:

✅Масштабирование человеческой экспертизы: аннотаторы проверяют и уточняют результаты, чтобы повысить точность данных.

✅Инструменты для аннотации: создание эффективных инструментов, которые упрощают работу аннотаторов и позволяют быстрее интегрировать модели в процесс.

✅Фундаментальная инфраструктура и интеграция: платформа разработана так, чтобы обрабатывать большие объемы данных параллельно и запускать десятки проектов одновременно.

Этот подход позволил Spotify запускать множество проектов одновременно, снизить затраты и сохранить высокую точность.
Более подробную информацию о решении Spotify можно найти в их официальной статье.

552

Big Data Science [RU]

04 Nov, 15:59

💡Маленькая подборка полезностей для работы с Big Data

postgres-backup-local — это Docker-инструмент для создания резервных копий баз данных PostgreSQL, сохраняя их в локальной файловой системе с возможностью гибкого управления копиями. С его помощью можно выполнять резервное копирование нескольких баз данных с одного сервера, задав их названия через переменную окружения POSTGRES_DB (разделенные запятой или пробелом).
Инструмент поддерживает выполнение вебхуков до и после резервного копирования, автоматически управляет ротацией и удалением старых копий, а также доступен для архитектур Linux, включая amd64, arm64, arm/v7, s390x, и ppc64le.

EfCore.SchemaCompare — это инструмент для сравнения схем баз данных в Entity Framework Core (EF Core), позволяющий находить и анализировать различия между текущей базой данных и миграциями. Он предоставляет удобный способ отслеживания изменений в структурах данных, что помогает предотвратить ошибки, вызванные несовпадениями в схемах при разработке приложений.
Подходит для управления версиями баз данных, особенно полезен при разработке и обновлении приложений на основе EF Core.

Greenmask — это инструмент с открытым исходным кодом для PostgreSQL, предназначенный для маскировки, обфускации и логического резервного копирования данных. Он позволяет анонимизировать конфиденциальную информацию в дампах баз данных, что делает его полезным для подготовки данных к использованию в непродукционных средах, таких как разработка и тестирование.
Поддержка Greenmask помогает защитить данные, соответствуя требованиям конфиденциальности и снижая риск утечек в процессе разработки.

562

Big Data Science [RU]

31 Oct, 15:59

🌎ТОП ноябрьских ивентов в Data Science
5 ноября - AvitoTech ML cup 2024 - Онлайн - https://ods.ai/competitions/avitotechmlcup2024
5 ноября - Alfa Analyze IT 3 - Москва, Россия - https://digital.alfabank.ru/events/analyzeit3
7 ноября - CNews Forum 2024 - Москва, Россия - https://forum.cnews.ru/
7-8 ноября - Матемаркетинг 2024 - Москва, Россия - https://matemarketing.ru/
8 ноября - I'ML 2024 - Онлайн - https://imlconf.com/
13 ноября - ScorFest 2024 - Москва, Россия - https://scoring-forum.ru/
15 ноября - Merge 2024. Сколково - Москва, Россия - https://skolkovo2024.mergeconf.ru/
23 ноября - IT LINK Осень - Чебоксары, Россия - https://it-link.pro/
28 ноября - T-Meetup: System Analysis - Екатеринбург, Россия - https://meetup.tbank.ru/event/t-meetup-po-sistemnomu-analizu/

506

Big Data Science [RU]

25 Oct, 15:59

😎Nvidia опубликовали новый датасет для обучения файнтюн-моделей

HelpSteer2 — это англоязычный набор данных, разработанный NVIDIA и размещённый на платформе Hugging Face. Он включает 21 362 строки и предназначен для обучения reward-моделей, которые помогают улучшать полезность, фактическую точность и связность ответов, генерируемых большими языковыми моделями (LLM).

Каждая строка в наборе данных содержит запрос, ответ и пять аннотированных человеком атрибутов ответа:
✅Полезность (usefulness)
✅Правильность (correctness)
✅Связность (coherence)
✅Сложность (complexity)
✅Многословность (verbosity)

Набор данных может использоваться для тонкой настройки LLM, чтобы они генерировали более релевантные и качественные ответы на пользовательские запросы.

775

Big Data Science [RU]

23 Oct, 15:59

💡🔥Эффективная работа с географическими данными

GeoPy — это библиотека Python, которая позволяет работать с географическими данными и предоставляет инструменты для выполнения таких задач, как геокодирование (преобразование адресов в координаты), обратное геокодирование (преобразование координат в адреса) и вычисление расстояний между географическими точками.

😎Основные возможности работы с геоданными через GeoPy:

✅Геокодирование: Превращает адреса или места в географические координаты (широта и долгота). Это полезно, когда вам нужно, например, визуализировать данные на карте.
✅Обратное геокодирование: Преобразует координаты в человеческий адрес. Это может быть полезно для создания более понятных данных или интерфейсов.
✅Обратное геокодирование: Преобразует координаты в человеческий адрес. Это может быть полезно для создания более понятных данных или интерфейсов.

🖥Подробнее узнать про анализ географических данных можно из этой статьи

546

Big Data Science [RU]

21 Oct, 15:59

🔥Маленькая подборочка инструментов для разметки данных со всеми вытекающими подробностями

CVAT (Computer Vision Annotation Tool) — это один из самых популярных и востребованных инструментов для аннотации изображений, который используется для создания наборов данных в области компьютерного зрения.

Преимущества CVAT:
✅Кастомизация: CVAT, как open-source решение, предоставляет пользователям полную свободу в настройке платформы под свои нужды. Это делает инструмент гибким и адаптируемым, позволяя интегрировать его в различные рабочие процессы. В документации CVAT можно найти подробные инструкции по кастомизации, что делает процесс настройки более доступным даже для новичков.
✅Подробная документация: Документация CVAT включает в себя подробные описания функционала, примеры использования, лайфхаки и изображения. Регулярные обновления документации гарантируют, что пользователи всегда будут в курсе последних изменений и улучшений.

Недостатки CVAT:
✅Высокие требования к ресурсам: Одним из основных недостатков CVAT являются его высокие требования к серверным ресурсам, это может стать проблемой для некоторых команд.

Supervisely — это многофункциональная платформа для работы с проектами в области компьютерного зрения, предлагающая решения для всего жизненного цикла разработки ИИ-проектов, начиная с разметки данных и заканчивая обучением и развертыванием моделей.

Преимущества:
✅Развитая экосистема приложений: в Supervisely Apps уже представлено множество готовых виджетов, которые позволяют расширить функционал любой части платформы. Каждый из них имеет открытый исходный код и доступен на GitHub, что дает возможность не только изменять существующие приложения, но и создавать новые.
Недостатки:
✅Высокая стоимость: Несмотря на обширные возможности, Supervisely может оказаться менее выгодным выбором в финансовом плане по сравнению с другими инструментами.

Label Studio — это мощный и гибкий инструмент с открытым исходным кодом, предназначенный для аннотации данных в различных задачах машинного обучения, включая задачи компьютерного зрения, обработки текста и аудио. Он используется для разметки данных с целью последующего обучения моделей.

Преимущества:
✅Гибкость: Пользователи могут самостоятельно создавать разметку с помощью кода, что открывает новые возможности для кастомизации.
✅Расширяемость: Модульная структура позволяет легко добавлять новые функции и интегрировать дополнительные типы разметок.

Недостатки:
✅Высокие требования к ресурсам: Для полноценного использования Label Studio может потребоваться значительное количество ресурсов, что делает его менее удобным для пользователей с ограниченными возможностями.
✅Ограничения в разметке Bounding Boxes: В то время как, к примеру, CVAT предлагает более удобный и быстрый инструмент для разметки Bounding Boxes, Label Studio лучше подходит для разметки аудиоданных.

447

Big Data Science [RU]

16 Oct, 15:59

😎Топ Pyhton-библиотек для оптимизации работы с данными

✅Pony ORM — это удобная и мощная библиотека для работы с объектно-реляционными базами данных, которая позволяет писать SQL-запросы, используя синтаксис Python. Она автоматически преобразует Python-код в SQL-запросы, что упрощает взаимодействие с базами данных, делая его более интуитивным и лаконичным. Pony ORM поддерживает основные СУБД, такие как PostgreSQL, MySQL, SQLite и другие, предоставляя гибкость и удобство при создании запросов и работе с моделями данных.

✅Pypika — это библиотека для создания SQL-запросов программным способом на Python, которая позволяет избегать ошибок ручного написания SQL-кода и защищает от SQL-инъекций. Она особенно полезна при построении динамических и параметризованных запросов, что делает её идеальным инструментом для приложений, работающих с базами данных. Pypika позволяет строить запросы с высокой степенью детализации и сложности, сохраняя при этом читаемость и безопасность кода.

✅EdgeDB — это современная база данных и клиентская библиотека для Python, которая упрощает управление схемами данных и написание запросов. Она предлагает более интуитивный и удобный подход по сравнению с традиционными SQL базами данных, предоставляя расширенные возможности работы с данными. Основные особенности EdgeDB включают автоматическую генерацию схем, работу с реляционными данными без необходимости написания сложных SQL-запросов, а также поддержку типобезопасности и более выразительный синтаксис для манипуляций с данными.

✅Tortoise ORM — это современный асинхронный ORM (Object-Relational Mapping), разработанный для работы с базами данных в асинхронных Python-приложениях. Он поддерживает различные реляционные базы данных, такие как PostgreSQL, MySQL, SQLite, и написан с упором на простоту и удобство использования. Tortoise ORM позволяет строить сложные SQL-запросы с использованием Python-кода, автоматически синхронизируя модели данных с базой данных. Поддержка асинхронности делает его особенно полезным в высоконагруженных или веб-приложениях, где важно эффективно управлять ресурсами и запросами к базе данных.

✅Polars — это высокопроизводительная библиотека для обработки и анализа данных на языке Python и Rust, ориентированная на работу с большими объемами данных. Благодаря многопоточности и оптимизированной архитектуре, Polars обеспечивает значительно более высокую скорость выполнения операций по сравнению с традиционными инструментами, такими как Pandas. Библиотека поддерживает широкий спектр операций над табличными данными (dataframes), предлагая интуитивно понятный интерфейс для фильтрации, агрегации и трансформации данных. Она идеально подходит для задач, требующих высокой производительности, особенно при работе с большими наборами данных.

511

Big Data Science [RU]

14 Oct, 15:59

😎Оптимизация аналитики с Oracle

Oracle выложили статью у себя в блоге, где они рассказывают о том, как подключиться к кластеру BDS с помощью соединений Hive и Spark из Oracle Analytics Cloud (OAC).

Кластеры Oracle Big Data Service содержат распределённую файловую систему Hadoop (HDFS) и базу данных Hive, которые загружают и преобразуют данные из различных источников и в разных форматах (структурированные, полуструктурированные и неструктурированные).

Узнайте, как подключить Oracle Analytics Cloud к Oracle Big Data Service, используя Hive и Spark, для улучшения анализа данных. Объединение мощных инструментов поможет эффективно обрабатывать и визуализировать большие объемы информации.

492

Big Data Science [RU]

11 Oct, 15:59

💡Новость дня: MongoDB создает партнёрскую экосистему ИИ

MongoDB активно адаптируется к вызовам развития искусственного интеллекта, представив улучшенную версию своей базы данных (8.0) и запустив MongoDB AI Application Program (MAAP). Эта программа нацелена на создание глобальной партнерской экосистемы, направленной на стандартизацию решений в сфере ИИ. Среди ключевых партнеров — крупные игроки облачных и консалтинговых сервисов, такие как Microsoft Azure, Google Cloud Platform, Amazon Web Services, Accenture, а также AI-компании Anthropic и Fireworks AI.

Обновления в MongoDB 8.0 обещают заметное повышение производительности:

✅Увеличение пропускной способности на 32%.
✅Ускорение пакетной записи на 56%.
✅Повышение скорости параллельной записи на 20%.

Это даёт возможность MongoDB лучше справляться с высокими нагрузками, которые часто встречаются при работе с большими данными и ИИ. Уже внедрены решения для крупных компаний, включая одного из ведущих автопроизводителей Франции и глобального производителя бытовой техники.

Таким образом, MongoDB, создавая MAAP и улучшая свои технологии, стремится стать ключевым игроком в AI-индустрии, поддерживая разработчиков и компании в их стремлении к инновациям.

Подробнее тут

513

Big Data Science [RU]

09 Oct, 15:59

⚡️HTTP SQLite StarbaseDB

StarbaseDB — это мощная и масштабируемая база данных с открытым исходным кодом, которая базируется на SQLite и работает через HTTP-протокол. Эта база данных построена для работы в облачной среде (например, на Cloudflare), что позволяет ей эффективно масштабироваться вплоть до нуля в зависимости от нагрузки. Основные преимущества StarbaseDB включают в себя:

✅Легкость использования: Предоставляет возможность работать через HTTP-запросы, что упрощает интеграцию с различными системами и сервисами.
✅Масштабируемость: Автоматическая подстройка под объем нагрузки с возможностью масштабирования в обе стороны.
✅Поддержка SQLite: Использование проверенной временем и легковесной базы данных SQLite для хранения данных.
✅Опенсорс: Открытый исходный код, что позволяет разработчикам адаптировать и улучшать систему под свои нужды.

Она подходит для разработчиков, которые ищут простой и надежный способ организации баз данных с минимальной настройкой и высокой доступностью в облачных платформах, таких как Cloudflare.

509

Big Data Science [RU]

04 Oct, 15:59

😎⚡️Сильный даасет сгенерированный, с помощью Claude Opus.

Synthia-v1.5-I - это датасет, содержащий более 20 тысяч технических вопросов и ответов, предназначенный для обучения больших языковых моделей (LLM). Он включает системные промпты, стилизованные как Orca, чтобы стимулировать генерацию разнообразных ответов. Этот набор данных может использоваться для обучения моделей более точным и развернутым ответам на технические запросы, что улучшает их производительность в различных технических и инженерных задачах.

✅Для загрузки датасета с помощью Python:

from datasets import load_dataset
ds = load_dataset("migtissera/Synthia-v1.5-I")

643

Big Data Science [RU]

02 Oct, 15:59

💡😎3 непопулярных, но весьма нужных библиотеки визуализации

Supertree — это Python-библиотека, предназначенная для интерактивной и удобной визуализации деревьев решений в Jupyter Notebooks, Jupyter Lab, Google Colab и других блокнотах, поддерживающих HTML-рендеринг. С помощью этого инструмента можно не только визуализировать деревья решений, но и взаимодействовать с ними непосредственно в блокноте.

Mycelium — это библиотека для создания графических визуализаций моделей машинного обучения или любых других направленных ациклических графов. Кроме того, она предоставляет возможность использовать просмотрщик графов Talaria для визуализации и оптимизации моделей

TensorHue — это Python-библиотека, предназначенная для визуализации тензоров непосредственно в консоли, что облегчает их анализ и отладку, делая процесс работы с тензорами более наглядным и понятным.

525

Big Data Science [RU]

30 Sep, 15:59

🌎ТОП октябрьских ивентов в Data Science
1-2 октября - AIшница 2.0 - Онлайн - https://ai-practicum.bitrix24.events/
2 октября - Big Data и AI Day 2024 - Москва, Россия - https://www.tadviser.ru/a/809807
2 октября - Digital Innopolis Days 2024 & Innopolis AI Conference - Казань, Россия - https://digitalinnopolisdays.ru/
3 октября - M2 Data Meetup - Москва, Россия - https://m2tech.timepad.ru/event/3000932/
5 октября - IT Community Day - Санкт-Петербург, Россия - https://developers.sber.ru/kak-v-sbere/events/it_october
10 октября - Selectel Tech Day 2024 - Москва, Россия - https://techday.selectel.ru/
10-12 октября - ICOMP 2024 - Казань, Россия - https://icomp.cc/
11-26 октября - ВТБ More.Tech - Онлайн - https://moretech.vtb.ru/
14-20 октября - Yandex Cup 2024 - Онлайн - https://yandex.ru/cup/
29 октября - Матемаркетинг 2024 - Онлайн - https://matemarketing.ru/
30-31 октября - Digital Kazakhstan - Алматы, Казахстан - https://dkz.plus-forum.com/

494

Big Data Science [RU]

27 Sep, 15:59

😎💡🔥Подборка непопулярных, но весьма полезных Python-библиотек для работы с данными

Bottleneck - это библиотека, которая ускоряет работу методов NumPy до 25 раз, особенно при обработке массивов, содержащих значения NaN. Она оптимизирует такие вычисления, как нахождение минимумов, максимумов, медиан и других агрегатных функций. Благодаря использованию специализированных алгоритмов и обработке пропусков данных, Bottleneck значительно ускоряет работу с большими массивами данных, делая её более эффективной по сравнению с стандартными методами NumPy.

Nbcommands - это инструмент, который упрощает поиск кода в Jupyter notebooks, избавляя пользователей от необходимости выполнять поиск вручную. Он позволяет находить и управлять кодом по ключевым словам, функциям или другим элементам, что значительно ускоряет работу с большими проектами в Jupyter и помогает пользователям более эффективно навигировать по своим заметкам и кодовым блокам.

SciencePlots - это библиотека стилей для matplotlib, которая позволяет создавать профессиональные графики для презентаций, исследовательских статей и других научных публикаций. Она предлагает набор предустановленных стилей, которые соответствуют требованиям к визуализации данных в научных работах, делая графики более читабельными и эстетичными. SciencePlots упрощает создание графиков с высоким качеством оформления, соответствующим стандартам академических публикаций и презентаций.

Aquarel - это библиотека, которая добавляет дополнительные стили для визуализаций в matplotlib. Она позволяет улучшить внешний вид графиков, делая их более привлекательными и профессиональными. Aquarel упрощает создание настраиваемых стилей, помогая пользователям создавать графики с более интересным дизайном без необходимости вручную настраивать все параметры визуализации.

Modelstore - это библиотека для управления и отслеживания моделей машинного обучения. Она помогает организовывать, сохранять и версионировать модели, а также отслеживать их жизненный цикл. С помощью Modelstore, пользователи могут легко сохранять модели в различных хранилищах (S3, GCP, Azure и других), управлять их обновлениями и восстановлением. Это облегчает развертывание и мониторинг моделей в производственных средах, делая работу с моделями более удобной и контролируемой.

CleverCSV - это библиотека, которая улучшает процесс синтаксического анализа CSV-файлов и помогает избегать ошибок при их чтении с помощью Pandas. Она автоматически определяет правильные разделители и формат CSV-файлов, что особенно полезно при работе с файлами, которые имеют нестандартные или неоднородные структуры. CleverCSV упрощает работу с данными, устраняя ошибки, связанные с неправильным распознаванием разделителей и других параметров формата файла.

468

Big Data Science [RU]

25 Sep, 15:59

🧐💡Небольшое введение в MapReduce: преимущества и недостатки

MapReduce — это модель программирования и связанный с ней фреймворк для обработки больших наборов данных параллельно в распределённых вычислительных системах. Она включает две основные фазы: Map (проецирование) и Reduce (сведение).

Преимущества MapReduce:

✅Масштабируемость: MapReduce легко масштабируется на тысячи машин, что позволяет обрабатывать огромные объемы данных

✅Параллелизм: MapReduce автоматически распределяет задачи по доступным узлам, выполняя их параллельно, что сокращает время выполнения вычислений

✅Устойчивость к отказам: встроенная устойчивость к отказам позволяет перезапускать задачи в случае сбоя узлов, обеспечивая завершение работы без потери данных

Недостатки MapReduce:

✅Высокие затраты на ввод/вывод (I/O): Одним из ключевых недостатков является то, что между этапами Map и Reduce данные записываются и считываются с диска, что значительно снижает производительность в задачах, где важна быстрая передача данных

✅Отсутствие интерактивности: MapReduce предназначен для пакетной обработки, что делает его неэффективным для интерактивных запросов или анализа в реальном времени

✅Требование к перегруппировке данных (Shuffle phase): Этап перегруппировки (shuffle) часто требует значительных ресурсов и времени, что делает этот процесс узким местом в производительности MapReduce

✅Низкая производительность для сложных задач: для сложных алгоритмов, требующих множества шагов взаимодействия между узлами (например, итеративные задачи), производительность MapReduce снижается

Подробнее о MapReduce можно также узнать отсюда

452

Big Data Science [RU]

23 Sep, 15:59

📊Небольшие советы по обработке больших датасетов в Pandas от Google

Pandas — отличный инструмент для работы с небольшими наборами данных, обычно размером от двух до трех гигабайт.

Для наборов данных, превышающих этот порог, использование Pandas не рекомендуется. Это связано с тем, что если размер набора данных превышает доступную оперативную память, Pandas загружает полный набор данных в память перед обработкой. Проблемы с памятью могут возникнуть даже с меньшими наборами данных, поскольку предварительная обработка и изменение создают дубликаты DataFrame.

⚠️Вот несколько советов по эффективной обработке данных в Pandas:

✅ Используйте эффективные типы данных: используйте более эффективные с точки зрения памяти типы данных (например, int32вместо int64, float32вместо float64), чтобы сократить использование памяти.
✅Загружать меньше данных: используйте use-colsпараметр для загрузки только необходимых столбцов, что сокращает потребление памяти.pd.read_csv()
✅ Разделение на части: используйте chunksizeпараметр in для чтения набора данных меньшими порциями, обрабатывая каждую порцию итеративно.pd.read_csv()
✅ Оптимизация dtypes Pandas: используйте astypeметод для преобразования столбцов в типы, более эффективно использующие память, после загрузки данных, если это уместно.
✅ Распараллеливание Pandas с помощью Dask: используйте Dask, библиотеку параллельных вычислений, для масштабирования рабочих процессов Pandas до наборов данных, превышающих объем оперативной памяти, за счет использования параллельной обработки.

🖥Подробнее можно узнать тут

478

Big Data Science [RU]

18 Sep, 15:59

💡Создание приложения рекомендации минуя сложности векторных баз данных

Данные не только обучают ИИ-системы, но и являются конечным результатом, который вы получаете. Поэтому так важно использовать «хорошие» данные. Какая бы мощная модель ни была, если на входе плохие данные, на выходе будет такой же результат.

В этой статье описывается пример использования базы данных Weaviate в совокупности со Streamlit для упрощения работы с векторными базами данных. Авторы утверждают, что это позволит создать мощную систему поиска и рекомендаций с минимальными техническими затратами.

📚Для сведения стоит отметить, что:

✅Weaviate — это векторная база данных с открытым исходным кодом, которая позволяет пользователям хранить объекты данных и векторные внедрения из моделей машинного обучения и легко масштабироваться до миллиардов объектов данных.

✅Streamlit — это фреймворк для Python. Он содержит набор программных инструментов, которые помогают перенести модель машинного обучения в веб. Написанную «умную» программу с помощью этого фреймворка можно быстро сделать веб-приложением.

599

Big Data Science [RU]

16 Sep, 15:59

💡🤖😎10 терминов и аспектов из области ИИ, которые сегодня необходимо понимать и осознавать каждому
🧐Сегодня разберем 10 аспектов, которые наиболее широко охватывают область ИИ в различных ее проявлениях:
✅ Размышление/планирование: современные ИИ-системы могут решать задачи, используя шаблоны, которые они усвоили из исторических данных, чтобы понять информацию, что напоминает процесс рассуждения. Самые продвинутые системы могут идти дальше, справляясь с более сложными задачами, создавая планы и определяя последовательность действий для достижения цели.
✅ Обучение/инференция: чтобы создать и использовать ИИ-систему, существует два этапа: обучение и инференция. Обучение можно сравнить с процессом образования ИИ, когда ему предоставляют набор данных, и он учится выполнять задачи или делать прогнозы на основе этих данных.
Инференция — это процесс, когда ИИ использует выученные шаблоны и параметры для того, чтобы, например, предсказать цену нового дома, который скоро будет выставлен на продажу.
✅ Малые языковые модели (SLM): компактные версии больших языковых моделей (LLM). Обе этих вида используют методы машинного обучения, чтобы распознавать шаблоны и связи, позволяя им генерировать реалистичные и естественные ответы на языке. Однако в отличие от LLM, которые огромны и требуют больших вычислительных мощностей и памяти, SLM, такие как Phi-3, обучены на меньших, тщательно подобранных наборах данных и имеют меньше параметров.
✅ Заземление: генеративные ИИ-системы могут создавать истории, стихи, шутки и отвечать на исследовательские вопросы. Однако иногда они сталкиваются с трудностями в отделении фактов от вымысла или используют устаревшие данные, что приводит к ошибочным ответам, называемым "галлюцинациями". Разработчики стремятся сделать взаимодействие ИИ с реальным миром более точным через процесс, называемый заземлением (grounding), когда модель связывают с актуальными данными и конкретными примерами, чтобы улучшить точность и выдавать более релевантные результаты.
✅ Ретроспективная генерация с дополнением (RAG): когда разработчики предоставляют ИИ доступ к внешним источникам данных, чтобы он был более точным и актуальным, используется метод, называемый Retrieval Augmented Generation (RAG). Этот подход экономит время и ресурсы, добавляя новые знания без необходимости повторного обучения ИИ.
✅ Оркестрация: ИИ-программы выполняют множество задач при обработке запросов пользователей, слой оркестрации управляет их действиями в правильном порядке для получения наилучшего ответа. Оркестрационный слой также может следовать шаблону RAG, выполняя поиск в интернете для получения свежей информации и добавления контекста.
✅ Память: современные ИИ-модели технически не обладают памятью. Однако они могут иметь оркестрационные инструкции, которые помогают им «запоминать» информацию, выполняя определённые шаги при каждом взаимодействии.
✅ Трансформеры и диффузионные модели: люди десятилетиями обучают ИИ-системы пониманию и генерации языка, но одним из прорывов, который ускорил прогресс, стала модель-трансформер. Среди генеративных ИИ именно трансформеры лучше и быстрее всего понимают контекст и нюансы.
Диффузионные модели, обычно используют для создания изображений. Эти модели продолжают вносить мелкие изменения, пока не создадут желаемый результат.
✅ Модели передового уровня: Frontier models — это масштабные системы, которые раздвигают границы ИИ и могут выполнять широкий спектр задач с новыми и расширенными возможностями. Они становятся ключевыми инструментами для различных отраслей, включая здравоохранение, финансы, научные исследования и образование.
✅ GPU: графический процессор — это мощный вычислительный блок. Изначально их создавали для того, чтобы улучшать графику в видеоиграх, а теперь они стали настоящими "мускулами" в мире вычислений. А поскольку ИИ по сути занимается решением огромного количества вычислительных задач, чтобы понимать язык и распознавать изображения или звуки, GPU незаменимы для ИИ как на этапе обучения, так и при работе с готовыми моделями.

536

Big Data Science [RU]

11 Sep, 15:59

🤔Проведение оценки качества данных в Airbnb

✅Airbnb — онлайн-платформа для размещения и поиска краткосрочной аренды частного жилья по всему миру.

Недавно наткнулся на статью, где автор описывает процесс разработки и внедрения методики оценки качества данных, а также принципы, критерии и параметры, используемые для этой оценки.

Как отмечает автор, составление оценки базируется на следующих принципах:

1. Полный охват — это метод оценки, который может быть применён ко всем данным из целого массива, обеспечивая анализ и обработку информации без пропусков или ограничений. Этот принцип позволяет проводить более полное и точное исследование данных, охватывая весь набор, независимо от его объёма или сложности.
2. Автоматизированность — это процесс, при котором сбор вводных данных, необходимых для проведения оценки, полностью автоматизирован, без необходимости ручного вмешательства. Такой прнцип обеспечивает высокую скорость, точность и эффективность в сборе и обработке данных, что позволяет улучшить качество анализа и сократить время на принятие решений.
3. Действенность — это характеристика, означающая, что оценка качества данных легко доступна и понятна как для производителей, так и для потребителей данных. Это обеспечивает прозрачность и удобство использования результатов оценки, что способствует более эффективному взаимодействию и повышению доверия между всеми сторонами.
4. Многомерность — это свойство оценки, которое позволяет разложить её на различные базовые составляющие качества данных. Это помогает детально анализировать отдельные аспекты, влияющие на общее качество, такие как точность, полнота, актуальность и консистентность, обеспечивая более глубокое понимание и возможность адресного улучшения каждого компонента.
5. Возможность эволюции — это характеристика оценки, означающая, что критерии и их определения могут адаптироваться и изменяться со временем. Такой гибкий подход позволяет оценке оставаться актуальной и эффективной в условиях меняющихся требований, новых данных и технологического прогресса.

594

Big Data Science [RU]

09 Sep, 15:59

😎3 полезных инструмента для для работы с SQL-таблицами

SQL Fiddle - Инструмент для простого тестирования, отладки и обмена фрагментами SQL. Добавляете текст в панель, а SQL Fiddle превращает его в скрипт для создания необходимой таблицы. Подойдет как для работы с базами данных, так и для практики навыков SQL.

SQL Database Modeler - может создавать структуру новых таблиц и связи между ними, подключаться к уже имеющимся базам данных и проектировать изменения в них. И это все в симпатичном графическом интерфейсе и со ссылкой на гитхаб.

SQLFlow - простой инструмент для визуализации SQL-запросов и отображения зависимостей. Позволяет отслеживать data lineage-происхождение и трансформации в данных при исполнении запросов.

564

Big Data Science [RU]

04 Sep, 15:59

😎Универсальная БД с эмбеддингами

✅txtai — это универсальная база данных эмбеддингов, предназначенная для семантического поиска, оркестрации больших языковых моделей (LLM) и управления рабочими процессами, связанными с машинным обучением. Эта платформа позволяет эффективно обрабатывать и извлекать информацию, использовать семантический поиск для поиска по тексту, а также организовывать и автоматизировать задачи, связанные с обучением и применением моделей машинного обучения.

Ключевые особенности txtai:

— Включает векторный поиск с использованием SQL, хранение объектов, анализ графов и мультимодальное индексирование
— Поддерживает создание эмбеддингов для различных типов данных, включая текст, документы, аудио, изображения и видео
— Позволяет создавать конвейеры на основе языковых моделей для выполнения различных задач, таких как генерация подсказок для LLM, ответы на вопросы, маркировка данных, транскрипция, перевод, резюмирование и многое другое

🖥 GitHub
🟡 Документация

633

Big Data Science [RU]

02 Sep, 15:59

⚠️Text2SQL теперь недостаточно

Недавно наткнулся на статейку, в которой авторы подробно описывают инновационный подход TAG.

Генерация с расширением таблиц (TAG) - это унифицированная парадигма общего назначения для ответа на вопросы на естественном языке с использованием баз данных. Суть данного подхода заключается в том, что у нас имеется модель, которая принимает запрос на естественном языке, обрабатывает его и возвращает ответ на естественном языке.

Таким образом, Text2SQL лишь представляет спектр взаимодействий между LM и базой данных. Сама суть этих взаимодействий описывается c помощью TAG.

📚 Статья с подробным описанием
🛠 Реализация подхода

606

Big Data Science [RU]

Big Data Science [RU] (Russian)

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

Big Data Science [RU]

1,937

58

5

Best Similar Channel

Random Similar Channel