Big Data Science [RU] @bdscience_ru Channel on Telegram

Big Data Science [RU]

@bdscience_ru


Big Data Science [RU] — канал о жизни Data Science.
Для сотрудничества: [email protected]
🌏 — https://t.me/bdscience — Big Data Science channel (english version)
💼 — https://t.me/bds_job — channel about Data Science jobs and career

Big Data Science [RU] (Russian)

Big Data Science [RU] - это канал, посвященный жизни Data Science. Здесь вы найдете актуальную информацию о последних тенденциях в сфере анализа данных, машинного обучения и искусственного интеллекта. Канал предлагает своим подписчикам возможность быть в курсе всех новостей и событий в мире Big Data.
Для тех, кто интересуется этой сферой и стремится к профессиональному росту, Big Data Science [RU] является незаменимым ресурсом. Здесь вы сможете найти информацию о вакансиях, обучающих курсах, мероприятиях и других возможностях для развития в области Data Science.
Для сотрудничества и предложений вы можете связаться по адресу электронной почты: [email protected]. Присоединяйтесь к нам, и станьте частью сообщества профессионалов в области Big Data!

Big Data Science [RU]

03 Jan, 15:59


🤔Чем же отличаются Smart Data от Big Data?

В статье What’s Smart data and how it’s different from Big data? автор рассматривает особенности "Умных Данных". Ниже мы приведем свое видение этой концепции (оно может отличаться, а может и совпадать🥸).

Итак, Smart Data — это концепция, ориентированная на обработку, анализ и использование данных с учетом их актуальности, качества и пользы для принятия решений. В отличие от Big Data, где акцент делается на объем, Smart Data фокусируется на извлечении ценной информации из огромного массива данных.

🤔Особенности Smart Data:
Качество данных: Отбор только релевантных, точных и структурированных данных
Контекстуальность: Данные обрабатываются с учетом их значимости для конкретной задачи
Аналитика в реальном времени: Smart Data используются для возможности быстрого принятия решений

🤔Преимущества:
Эффективность: Экономия ресурсов за счет работы только с нужными данными
Персонализация: Возможность адаптировать услуги под конкретные потребности
Меньше ошибок: Фокус на высоком качестве данных снижает риски получения некорректных результатов

🥸Однако не все так радужно, есть и недостатки:
Этические и правовые вопросы: Работа с персональными данными несет риски нарушения конфиденциальности и неправомерного использования информации. Это может привести к штрафам и утрате доверия
Высокая зависимость от качества данных: Если исходные данные неполные, неточные или устаревшие, результаты анализа могут вводить в заблуждение и ухудшить принятие решений
Высокая стоимость внедрения: Требуется инвестиция в технологии, время и квалифицированный персонал
Проблемы интерпретации результатов: Даже с качественными данными аналитика может быть сложной для понимания неэкспертами, что требует дополнительных затрат на обучение сотрудников
Технические сбои: Инфраструктура для обработки данных может быть уязвима к сбоям, что особенно критично при работе с реальными процессами, такими как управление в финансовой или медицинской сфере​

🧐Таким образом, Smart Data — это про осмысленное использование данных для достижения конкретных целей. Эта концепция позволяет компаниям не только справляться с информационным шумом, но и получать конкурентные преимущества. Однако внедрение требует продуманной стратегии и ресурсов, иначе есть риск понести огромные убытки

Big Data Science [RU]

31 Dec, 15:59


🌎Небольшая обзор Data Science ивентов за 2025 год
18 января - Data Ёлка 2024 – Москва, Россия - https://ods.ai/events/data-elka-2024
22-23 января - Data Fusion Awards 2025 – Москва, Россия - https://awards.data-fusion.ru/
30 января - CX Focus 2025 – Москва, Россия - https://cxfocus.ru/
26 февраля - Качество данных 2025 – Москва, Россия - https://www.osp.ru/lp/dataquality2025
27 марта - DATA+AI 2025 – Москва, Россия - https://www.osp.ru/lp/data-ai2025
25 апреля - Merge 2025 – Казань, Россия - https://tatarstan2025.mergeconf.ru/
1 июня - Saint HighLoad++ 2025 - Санкт-Петербург, Россия - https://highload.ru/spb/2025
19 июня - IT IS conf 2025 – Екатеринбург, Россия - https://itisconf.ru/
23 сентября - Data Conf 2025 – Москва, Россия - https://datainternals.ru/2025
15-16 октября - Innovation Tech Days 2025 – Онлайн - https://smartgopro.com/innovation_tech_days/

Big Data Science [RU]

27 Dec, 15:59


😎💡FineMath: новый математический датасет от Hugging Face

Hugging Face выпустили крупный датасет FineMath, предназначенный для обучения моделей на математическом контенте. Датасет был сформирован с использованием CommonCrawl, классификатора, обученного на аннотациях LLama-3.1-70B-Instruct, и последующей фильтрации данных.

По сравнению с OpenWebMath и InfiMM, FineMath демонстрирует более стабильный рост точности моделей с увеличением объема данных. Этот эффект достигается благодаря качеству и разнообразию контента.

На базе FineMath уже создан проект по обучению LLM для математической помощи — репозиторий доступен на GitHub.

Big Data Science [RU]

25 Dec, 15:59


🧐Многопоточность PostgreSQL vs. MSSQL Server: преимущества и недостатки

Все мы знаем такие знаменитые СУБД, как PostgreSQL и MSSQL Server, которые часто используются при проектировании различной инфраструктуры веб-приложений. Давайте разберем, как насколько надежно работает многопоточность при выполнении запросов в каждой из этих СУБД.

👍Преимущества многопоточности PostgreSQL:

Модель процессов (process-based): каждый клиент работает в отдельном процессе, что минимизирует взаимное влияние соединений.
Стабильность и безопасность: независимость процессов уменьшает риск взаимоблокировок.
Гибкая настройка: процессная архитектура позволяет эффективно масштабировать ресурсы для отдельных задач.

Недостатки:

Высокое потребление памяти на каждый процесс
Ограниченная производительность при большом количестве соединений
Сложности с горизонтальным масштабированием

👍Преимущества многопоточности MSSQL Server:

Модель потоков (thread-based): обеспечивает эффективное использование CPU и памяти.
Высокая масштабируемость: подходит для большого количества параллельных соединений.
Интеграция с Windows: глубокая оптимизация для Windows-серверов
Быстрое переключение потоков: повышает производительность в системах с высокой конкуренцией за ресурсы.

Недостатки:

Сложность диагностики проблем из-за параллельного выполнения задач
Высокий риск взаимоблокировок
Высокие требования к администрированию для эффективного управления потоками

🤔Что выбрать?

PostgreSQL — для приложений с умеренным числом соединений, стабильной нагрузкой и акцентом на надежность
MSSQL Server — для высоконагруженных систем, требующих максимальной масштабируемости и производительности

Big Data Science [RU]

23 Dec, 15:59


😎Небольшая подборка полезных Big Data репозиториев

Complete-Advanced-SQL-Series — репозиторий, который включает всё необходимое для улучшения навыков работы с SQL: более 100 упражнений и примеров.

ds-cheatsheet — репозиторий на GitHub, содержащий множество полезных шпаргалок по Data Science.

postgres_for_everything — репозиторий, который собирает примеры применения PostgreSQL для решения разнообразных задач: очереди сообщений, аналитика, контроль доступа, GIS, работа с временными рядами, поиск, кэширование и многое другое.

GenAI Showcase — репозиторий, демонстрирующий использование MongoDB в генеративном искусственном интеллекте. Включает примеры интеграции MongoDB с технологиями Retrieval-Augmented Generation (RAG) и различными ИИ-моделями.

Data-and-ML-Projects — репозиторий с более чем 50 проектами, охватывающими области Data Analytics, Data Science, Data Engineering, MLOps и Machine Learning.

Big Data Science [RU]

18 Dec, 15:59


😎📊Тренды данных, которые преобразят бизнес в 2025 году

Автор статьи The Most Powerful Data Trends That Will Transform Business In 2025 выделяет ключевые тенденции, которые будут определять работу с данными в ближайшем будущем.

🤔Вот некоторые из них:

Конфиденциальные вычисления: использование блокчейна и гомоморфного шифрования позволит анализировать данные, не раскрывая их содержимое. Это ключевой шаг для совместной аналитики между компаниями с высокой защитой данных

Рост рынков данных: компании начнут продавать свои наборы данных, создавая новые потоки доходов. Возникнут специализированные платформы для торговли данными.

Расширение edge computing: обработка данных на периферии сети обеспечит минимальные задержки и повышение безопасности. Развитие технологий вроде tinyML изменит индустрии, где критична скорость обработки данных

Поведенческие данные как новый актив: анализ эмоциональных и поведенческих данных станет основой для персонализированных решений.

Big Data Science [RU]

16 Dec, 15:59


😎🔥Небольшая подборка полезных датасетов

Synthia-v1.5-I - датасет, включающий более 20 тысяч технических вопросов и ответов. В наборе используются системные промпты в стиле Orca для генерации разнообразных ответов, что делает его ценным ресурсом для обучения и тестирования LLM на сложных технических данных.

HelpSteer2 - англоязычный набор данных, предназначенный для обучения reward-моделей, которые улучшают полезность, точность и связность ответов, генерируемых другими LLM.

LAION-DISCO-12M - включает 12 миллионов ссылок на общедоступные треки YouTube с метаданными. Набор данных создан для поддержки исследований в области машинного обучения, разработки базовых моделей обработки звука, анализа музыкальной информации, работы с аудио-данными, а также для обучения рекомендательных систем и приложений.

Universe — это крупномасштабная коллекция, содержащая астрономические данные различных типов: изображения, спектры и кривые блеска. Он предназначен для исследований в области астрономии и астрофизики.

Big Data Science [RU]

13 Dec, 15:59


🥲ТОП факапов с разными СУБД: боль, слёзы

PostgreSQL и вакуум в сюрпризе
Все любят PostgreSQL, пока не сталкиваются с автovacuum. Если забыть настроить его правильно, база начинает тормозить так, что проще мигрировать данные на Excel.

Cassandra: мастер шардирования и мастер хаоса
О, этот волшебный мир распределённых данных! Пока всё идёт гладко, Cassandra крута. Но стоит одному узлу выйти из строя, и кластеры превращаются в загадку с сюрпризом: какая часть данных уцелела? А кросс-DC репликация в больших сетях — это вообще лотерея.

Firebase Realtime Database
Звучит круто: данные синхронизируются в реальном времени! Но когда у вас десятки тысяч активных пользователей, всё превращается в ад, потому что каждый маленький запрос стоит тонну денег. А обновления без контроля затрагивают все клиенты разом.

Redis как основная БД
Легко, быстро, всё в памяти. Звучит круто, пока не осознаёшь, что забыли про механизм восстановления данных. Упс, сервер упал — данные улетели в никуда.

Big Data Science [RU]

11 Dec, 15:58


😎Google представила Willow — квантовый чип с экспоненциальным масштабированием

Google выпустила Willow, первый в мире квантовый чип, способный к экспоненциальному уменьшению ошибок с увеличением числа кубитов. Это стало возможным благодаря эффективной реализации логических кубитов, которые работают ниже границы Quantum Error Correction — метода защиты данных через их распределение по кубитам.

Особенности Willow:

Рекордное количество кубитов: 105, что значительно превышает показатели предыдущих квантовых компьютеров.

Скорость вычислений: в септилион раз быстрее классических чипов. Willow решает задачи за 300 секунд, на которые обычный чип потратил бы 10 квинтиллионов лет.

Минимизация ошибок: при увеличении количества кубитов ошибки снижаются экспоненциально, что решает основную проблему квантовых вычислений последних 30 лет.

Хотя для таких задач, как взлом биткоина, потребуется 300–400 миллионов кубитов, Willow уже устанавливает новую планку в квантовых технологиях.

🔎Подробнее можно узнать тут

Big Data Science [RU]

09 Dec, 15:59


🧐Данные и их разметка в 2024 году: новые тренды и будущие требования

Попалась интересная статья про разметку данных. Вот несколько ключевых моментов:

🤔Текущие тренды:

Увеличение сложности наборов данных
Переход к разметке в реальном времени
Масштабное развитие автоматизированных инструментов, дополняющих ручной труд

🤔Прогнозы рынка:

Ожидается рост до $8.22 млрд к 2028 году с CAGR 26.6%
Требования к качеству и скорости разметки растут и будут расти в геометрической прогрессии

🤔Технологические тренды:

Адаптивный ИИ
Метавселенная
Отраслевые облачные платформы
Улучшение беспроводных технологий

Таким образом, автор указывает на то, что индустрия разметки данных будет стремительно расти благодаря увеличению спроса на точные и надежные данные для ИИ и машинного обучения. Автоматизация, адаптивный ИИ и новые технологические решения позволят улучшить качество и скорость разметки данных.

Big Data Science [RU]

06 Dec, 15:59


😎🔥Подборка инструментов для обработки Big Data

Timeplus Proton — это SQL-движок, основанный на ClickHouse, предназначенный для обработки, маршрутизации и анализа потоковых данных из таких источников, как Apache Kafka и Redpanda, с возможностью передачи агрегированных данных в другие системы.

qsv — это утилита командной строки, предназначенная для быстрого индексирования, обработки, анализа, фильтрации, сортировки и объединения CSV-файлов. Она предлагает удобные и понятные команды для выполнения этих операций.

WrenAI — это open-source инструмент, который подготавливает существующую базу данных для работы с RAG (Retrieval-Augmented Generation). Он позволяет преобразовывать текстовые запросы в SQL, исследовать данные из БД без написания SQL-кода и выполнять другие задачи.

Groll — это open-source CLI-утилита для управления миграциями схем в PostgreSQL. Она обеспечивает безопасное и обратимое внесение изменений, поддерживая одновременную работу с несколькими версиями схем. Groll поддерживает выполнение сложных миграций, обеспечивая непрерывную работу клиентских приложений во время обновления схемы базы данных.

Valkey — это высокопроизводительное open-source хранилище данных, которое поддерживает кэширование, очереди сообщений и может использоваться как основная база данных. Оно функционирует как автономная фоновая служба или в составе кластера, обеспечивая репликацию и высокую доступность.

DataEase — это open-source BI-инструмент для создания интерактивных визуализаций и анализа бизнес-метрик. Он упрощает доступ к аналитике благодаря интуитивному интерфейсу с поддержкой перетаскивания элементов, что делает работу с данными удобной и понятной.

SurrealDB — это современная многомодельная база данных, объединяющая возможности SQL, NoSQL и графовых систем. Она поддерживает реляционные, документные, графовые, временные и ключ-значение модели данных, предоставляя универсальное решение для управления данными без необходимости использования разных платформ.


LibSQL — это форк SQLite, расширенный такими функциями, как обработка запросов через HTTP и gRPC, а также поддержка прозрачной репликации. Он позволяет создавать распределённые базы данных с записью на основном сервере и чтением с реплик. LibSQL обеспечивает безопасную передачу данных через TLS и предоставляет Docker-образ для удобного развертывания.

Redash — это open-source инструмент для анализа данных, предназначенный для упрощения подключения, запроса и визуализации данных из различных источников. Он позволяет создавать SQL- и NoSQL-запросы, визуализировать результаты в виде графиков и диаграмм, а также делиться дашбордами с командами.

Big Data Science [RU]

30 Nov, 15:59


🌎ТОП декабрьских ивентов в Data Science

2 декабря - Yandex Cup 2024: Финал - Ташкент, Узбекистан - https://yandex.ru/cup/
2-3 декабря - HighLoad++ 2024 - Москва, Россия - https://highload.ru/moscow/2024
4 декабря - BIG StartUp DAY - Москва, Россия - https://bigstartupday.ru/
3 декабря - Cloud Security Day - Москва, Россия - https://yandex.cloud/ru/events/977
5 Декабря - IT Talk by Sber 2.0 - Вологда, Россия - https://developers.sber.ru/kak-v-sbere/events/ittalk_vologda
5 декабря - AI-driver & RecSys Meetup - Владивосток, Новосибирск, Нижний Новгород, Санкт‑Петербург, Россия - https://developers.sber.ru/kak-v-sbere/events/ai_recsys
6 декабря - есom.teсh meetup — Generative AI - Москва, Россия - https://ecom-tech.timepad.ru/event/3136197/
6 декабря - Conversations 2024 - Москва, Россия - https://conversations-ai.com/
11-13 декабря - AIJ 2024 - Москва, Россия - https://aij.ru/

Big Data Science [RU]

29 Nov, 15:59


💡 SmolTalk: синтетический англоязычный датасет для обучения LLM

SmolTalk — это синтетический датасет от HuggingFace, созданный для обучения LLM с учителем. Состоит из 2 млн строк и использовался для разработки моделей SmolLM2-Instruct.

🔥Датасет включает как новые, так и существующие наборы данных

😎Новые наборы данных:

Smol-Magpie-Ultra (400 тыс. строк)
Smol-constraints (36 тыс. строк)
Smol-rewrite (50 тыс. строк)
Smol-summarize (101 тыс. строк)

⚡️Существующие наборы:

OpenHermes2.5 (100 тыс. строк)
MetaMathQA (50 тыс. строк)
NuminaMath-CoT (1120 тыс. строк)
Self-Oss-Starcoder2-Instruct (1120 тыс. строк)
SystemChats2.0 (30 тыс. строк)
LongAlign (менее 16 тыс. токенов)
Everyday-conversations (50 тыс. строк)
APIGen-Function-Calling (80 тыс. строк)
Explore-Instruct-Rewriting (30 тыс. строк)

📚Результаты обучения:
SmolTalk показал значительные улучшения в производительности модели, особенно в задачах математики, программирования и следования системным промптам. Обучение на SmolTalk дало лучшие результаты по меткам IFEval, BBH, GS8Mk и MATH, в том числе при обучении Mistral-7B.

Big Data Science [RU]

27 Nov, 15:59


🤖Deus in Machina: в швейцарской церкви установили Jesus-AI

В часовне Святого Петра в Люцерне запустили проект AI Jesus, который общается на 100 языках. ИИ установлен в исповедальне, где посетители могут задавать вопросы и получать ответы в реальном времени.

Обученный на богословских текстах, Jesus-AI за два месяца привлек более 1000 человек, две трети из которых назвали опыт "духовным". Однако эксперимент вызвал критику за поверхностность ответов и невозможность полноценных бесед с машиной.

🖥Подробнее здесь

Big Data Science [RU]

25 Nov, 15:59


🤔CUPED: преимущества и недостатки

CUPED (Controlled Pre-Experiment Data) — это метод предобработки данных, используемый для повышения точности оценки A/B-тестов. CUPED снижает дисперсию метрик, используя данные, собранные до эксперимента, что позволяет быстрее выявлять статистически значимые различия.

Преимущества CUPED:

Снижение дисперсии метрик: Улучшает чувствительность теста за счет учета предварительных данных.
Экономия ресурсов: Сокращает объем выборки, необходимый для достижения статистической значимости.
Быстрая интерпретация результатов: Уменьшение шума позволяет быстрее находить реальные эффекты.
Учет сезонности: Использование данных до эксперимента помогает учитывать тренды и внешние факторы.

Недостатки CUPED:

Сложность в реализации: Требует знаний статистики и правильного выбора ковариатов.
Зависимость от качества данных: Предэкспериментальные данные должны быть надежными и репрезентативными.
Необходимость ковариатов: Требуется значимая корреляция между метрикой и предиктором, иначе эффект будет минимален.
Риск переоценки: При неправильной настройке может привести к завышенной оценке эффекта.

Таким образом, CUPED особенно полезен, когда важно максимизировать эффективность экспериментов, но требует тщательной подготовки данных и анализа.

Big Data Science [RU]

22 Nov, 15:59


😎💡AlphaQubit от Google: новый стандарт точности в квантовых вычислениях.

Google DeepMind и Google Quantum AI представили AlphaQubit, декодер, который значительно улучшает точность коррекции ошибок в квантовых вычислениях. Основанный на нейронной сети, обученной на синтетических и реальных данных с процессора Sycamore, AlphaQubit использует архитектуру Transformers для анализа ошибок.

Тесты показали, что AlphaQubit снижает ошибки на 6% по сравнению с тензорными сетями и на 30% — с корреляционным сопоставлением. Однако, несмотря на высокий уровень точности, проблемы с реальной скоростью работы и масштабируемостью остаются.

Ссылка на блог

Big Data Science [RU]

20 Nov, 15:59


🔎Оптимизация поиска в MongoDB

MongoDB — это нереляционная база данных, которая отличается от SQL-баз, таких как PostgreSQL или MySQL, своей структурой. Вместо таблиц с колонками и строками MongoDB использует коллекции.

Поиск текста в MongoDB предполагает использование специальных операторов запросов для работы с текстовыми данными. Он позволяет искать текстовые фразы в коллекциях и возвращать документы, содержащие указанные слова. Это часто применяется для сложных операций, где данные группируются по общим признакам, таким как цена, авторы или возраст.

В данной статье автор также делится опытом работы с MongoDB, включая сложности при создании оптимальных поисковых запросов, чтобы упростить их понимание для новичков.

В статье также упоминается про Mongoose — популярный инструмент ORM (объектно-реляционное отображение), который упрощает взаимодействие между MongoDB и языками программирования, такими как Node.js/JavaScript. Он предоставляет функции моделирования данных, разработки схем, аутентификации моделей и управления данными.

Big Data Science [RU]

15 Nov, 15:59


🧐Интервью CEO Anthropic Дарио Амодеи с Лексом Фридманом

😎Основные моменты:

Дарио выразил оптимизм относительно скорого появления ИИ, способного достигнуть уровня человека. Он отметил, что в ближайшие годы затраты на разработку и обучение будут расти, и к 2027 году, вероятно, будут создаваться кластеры стоимостью около $100 млрд — значительно больше, чем нынешние крупнейшие суперкомпьютеры, которые стоят около $1 млрд.

Амодеи считает, что масштабирование моделей продолжится, несмотря на отсутствие теоретического объяснения этому процессу — в нём, по его словам, есть некая "магия".

Сейчас модели ИИ улучшаются с поразительной скоростью, особенно в таких областях, как программирование, физика и математика. На тесте SWE-bench их успех в начале года был лишь 2-3%, а теперь достигает около 50%. Основная причина для беспокойства в этих условиях — возможная монополия на ИИ, когда контроль над ним окажется у небольшого числа крупных компаний, что может угрозу

🖥Интервью можно посмотреть здесь

Big Data Science [RU]

14 Nov, 17:03


🔥Новости и события за неделю

Samsung представила обновленную версию виртуального ассистента Bixby

Компания Samsung представила обновленную версию виртуального ассистента Bixby на базе крупной языковой модели (LLM). Новая версия Bixby, доступная на эксклюзивных для китайского рынка складных смартфонах Samsung W25 и W25 Flip, способна воспринимать сложные инструкции, извлекать информацию с экрана (например, с карт или фотографий) и запоминать контекст предыдущих диалогов. В ходе демонстрации Bixby порекомендовал одежду, учитывая текущую погоду, и объяснил, как добавить водяной знак на изображение, пошагово.

Суд в Нью-Йорке отклонил иск СМИ к OpenAI по авторскому праву.

Федеральный суд Южного округа Нью-Йорка отклонил иск изданий Raw Story и AlterNet против компании OpenAI, обвинявших её в нарушении Закона об авторском праве в цифровую эпоху (DMCA). СМИ утверждали, что OpenAI намеренно удаляла сведения об авторских правах, такие как названия статей и имена авторов, из текстов, использованных для обучения ChatGPT.

Google открыла доступ к Gemini через библиотеку OpenAI.


Разработчики теперь могут использовать модели Gemini от Google через библиотеку OpenAI и REST API. Поддерживаются API завершения чата и API эмбедингов. В ближайшие недели  Google планирует расширить совместимость. 
Google рекомендует разработчикам, не использующим библиотеки OpenAI, обращаться к Gemini API напрямую.

Big Data Science [RU]

13 Nov, 15:59


😎Сила в данных: анализ квартального роста выручки для достижения успеха в бизнесе

💡Недавно нашел статью, в которой автор рассказывает про анализ квартального роста выручки. Он утверждает, что ориентация только на годовые данные может скрывать тенденции и замедлить принятие решений. Квартальный анализ позволяет лучше понять текущие результаты бизнеса и выявить возможные проблемы, такие как снижение доходов в определённом периоде. Такая детализация помогает быстрее определить причины (например, сезонные колебания или недостатки маркетинга) и оперативно принять меры, чем при анализе только годовых данных. Квартальные данные создают основу для оптимизации стратегий роста, переходя от реактивного к более эффективному управлению на основе данных.

Автор также выделяет ключевые метрики для анализа квартального роста выручки:

Стоимость привлечения клиентов (CAC): Важно понимать расходы на привлечение новых клиентов для оптимизации маркетинговых и продажных усилий, что помогает увеличить рентабельность инвестиций и рост выручки.
Пожизненная ценность клиента (CLTV): Этот показатель показывает общий доход, который клиент приносит за всё время взаимодействия с компанией, помогая выделить высокодоходные сегменты для таргетинга и удержания.
Конверсия продаж: Анализ конверсии на каждом этапе воронки позволяет выявить узкие места и повысить общую эффективность продаж, что способствует росту выручки.

🖥Ссылка на статью

Big Data Science [RU]

12 Nov, 06:02


Отличная новость для Data Analyst, Data Engineer и Data Scientist!

16 ноября у вас есть возможность за один день пройти все этапы интервью и получить оффер 🚀

А самое интересное – в One Day Offer примут участие сразу несколько команд Сбера: Сеть Продаж, Стратегия и развитие, Финансы, Marketing AI, блок В2С, Департамент «Занять и сберегать» и СберНадежность. Такое нельзя пропустить

Команды разрабатывают DS-решения для обслуживания клиентов, поддержки банковских операций, рекламных программ, чат-ботов, умных ассистентов и не только.

Регистрируйтесь, и до встречи 16 ноября

Big Data Science [RU]

08 Nov, 15:59


😂Радикальное решение от ИИ

Каждый день тысячи программистов могут вздохнуть с облегчением, когда ИИ выполняет за них задачи вроде запросов, форматирования данных или других рутинных задач😁

🖥ChatGPT попросили написать SQL запросы для базы данных магазина. Ответ просто убил

😎Иногда взгляды ИИ на решение той или иной задачи несколько отличаются от человеческих

Big Data Science [RU]

06 Nov, 15:59


😎Как в Spotify ускорялась разметка данных для ML в 10 раз

Spotify поделился, как ускорил разметку данных для моделей машинного обучения, используя крупные языковые модели (LLM) совместно с работой аннотаторов. Автоматическая первичная разметка LLM значительно сократила время обработки, позволяя аннотаторам фокусироваться на сложных или неоднозначных случаях. Это комбинированное решение увеличило производительность процесса в три раза и позволило снизить затраты. Такое масштабируемое решение особенно актуально для быстро растущей платформы и используется для мониторинга соблюдения правил и политик сервиса.

💡Стратегия разметки данных в Spotify основана на трех основных принципах:

Масштабирование человеческой экспертизы: аннотаторы проверяют и уточняют результаты, чтобы повысить точность данных.

Инструменты для аннотации: создание эффективных инструментов, которые упрощают работу аннотаторов и позволяют быстрее интегрировать модели в процесс.

Фундаментальная инфраструктура и интеграция: платформа разработана так, чтобы обрабатывать большие объемы данных параллельно и запускать десятки проектов одновременно.

Этот подход позволил Spotify запускать множество проектов одновременно, снизить затраты и сохранить высокую точность.
Более подробную информацию о решении Spotify можно найти в их официальной статье.

Big Data Science [RU]

04 Nov, 15:59


💡Маленькая подборка полезностей для работы с Big Data

postgres-backup-local — это Docker-инструмент для создания резервных копий баз данных PostgreSQL, сохраняя их в локальной файловой системе с возможностью гибкого управления копиями. С его помощью можно выполнять резервное копирование нескольких баз данных с одного сервера, задав их названия через переменную окружения POSTGRES_DB (разделенные запятой или пробелом).
Инструмент поддерживает выполнение вебхуков до и после резервного копирования, автоматически управляет ротацией и удалением старых копий, а также доступен для архитектур Linux, включая amd64, arm64, arm/v7, s390x, и ppc64le.

EfCore.SchemaCompare — это инструмент для сравнения схем баз данных в Entity Framework Core (EF Core), позволяющий находить и анализировать различия между текущей базой данных и миграциями. Он предоставляет удобный способ отслеживания изменений в структурах данных, что помогает предотвратить ошибки, вызванные несовпадениями в схемах при разработке приложений.
Подходит для управления версиями баз данных, особенно полезен при разработке и обновлении приложений на основе EF Core.

Greenmask — это инструмент с открытым исходным кодом для PostgreSQL, предназначенный для маскировки, обфускации и логического резервного копирования данных. Он позволяет анонимизировать конфиденциальную информацию в дампах баз данных, что делает его полезным для подготовки данных к использованию в непродукционных средах, таких как разработка и тестирование.
Поддержка Greenmask помогает защитить данные, соответствуя требованиям конфиденциальности и снижая риск утечек в процессе разработки.

Big Data Science [RU]

31 Oct, 15:59


🌎ТОП ноябрьских ивентов в Data Science
5 ноября - AvitoTech ML cup 2024 - Онлайн - https://ods.ai/competitions/avitotechmlcup2024
5 ноября - Alfa Analyze IT 3 - Москва, Россия - https://digital.alfabank.ru/events/analyzeit3
7 ноября - CNews Forum 2024 - Москва, Россия - https://forum.cnews.ru/
7-8 ноября - Матемаркетинг 2024 - Москва, Россия - https://matemarketing.ru/
8 ноября - I'ML 2024 - Онлайн - https://imlconf.com/
13 ноября - ScorFest 2024 - Москва, Россия - https://scoring-forum.ru/
15 ноября - Merge 2024. Сколково - Москва, Россия - https://skolkovo2024.mergeconf.ru/
23 ноября - IT LINK Осень - Чебоксары, Россия - https://it-link.pro/
28 ноября - T-Meetup: System Analysis - Екатеринбург, Россия - https://meetup.tbank.ru/event/t-meetup-po-sistemnomu-analizu/

Big Data Science [RU]

25 Oct, 15:59


😎Nvidia опубликовали новый датасет для обучения файнтюн-моделей

HelpSteer2 — это англоязычный набор данных, разработанный NVIDIA и размещённый на платформе Hugging Face. Он включает 21 362 строки и предназначен для обучения reward-моделей, которые помогают улучшать полезность, фактическую точность и связность ответов, генерируемых большими языковыми моделями (LLM).

Каждая строка в наборе данных содержит запрос, ответ и пять аннотированных человеком атрибутов ответа:
Полезность (usefulness)
Правильность (correctness)
Связность (coherence)
Сложность (complexity)
Многословность (verbosity)

Набор данных может использоваться для тонкой настройки LLM, чтобы они генерировали более релевантные и качественные ответы на пользовательские запросы.

Big Data Science [RU]

23 Oct, 15:59


💡🔥Эффективная работа с географическими данными

GeoPy — это библиотека Python, которая позволяет работать с географическими данными и предоставляет инструменты для выполнения таких задач, как геокодирование (преобразование адресов в координаты), обратное геокодирование (преобразование координат в адреса) и вычисление расстояний между географическими точками.

😎Основные возможности работы с геоданными через GeoPy:

Геокодирование: Превращает адреса или места в географические координаты (широта и долгота). Это полезно, когда вам нужно, например, визуализировать данные на карте.
Обратное геокодирование: Преобразует координаты в человеческий адрес. Это может быть полезно для создания более понятных данных или интерфейсов.
Обратное геокодирование: Преобразует координаты в человеческий адрес. Это может быть полезно для создания более понятных данных или интерфейсов.

🖥Подробнее узнать про анализ географических данных можно из этой статьи

Big Data Science [RU]

21 Oct, 15:59


🔥Маленькая подборочка инструментов для разметки данных со всеми вытекающими подробностями

CVAT (Computer Vision Annotation Tool) — это один из самых популярных и востребованных инструментов для аннотации изображений, который используется для создания наборов данных в области компьютерного зрения.

Преимущества CVAT:
Кастомизация: CVAT, как open-source решение, предоставляет пользователям полную свободу в настройке платформы под свои нужды. Это делает инструмент гибким и адаптируемым, позволяя интегрировать его в различные рабочие процессы. В документации CVAT можно найти подробные инструкции по кастомизации, что делает процесс настройки более доступным даже для новичков.
Подробная документация: Документация CVAT включает в себя подробные описания функционала, примеры использования, лайфхаки и изображения. Регулярные обновления документации гарантируют, что пользователи всегда будут в курсе последних изменений и улучшений.

Недостатки CVAT:
Высокие требования к ресурсам: Одним из основных недостатков CVAT являются его высокие требования к серверным ресурсам, это может стать проблемой для некоторых команд.

Supervisely — это многофункциональная платформа для работы с проектами в области компьютерного зрения, предлагающая решения для всего жизненного цикла разработки ИИ-проектов, начиная с разметки данных и заканчивая обучением и развертыванием моделей.

Преимущества:
Развитая экосистема приложений: в Supervisely Apps уже представлено множество готовых виджетов, которые позволяют расширить функционал любой части платформы. Каждый из них имеет открытый исходный код и доступен на GitHub, что дает возможность не только изменять существующие приложения, но и создавать новые.
Недостатки:
Высокая стоимость: Несмотря на обширные возможности, Supervisely может оказаться менее выгодным выбором в финансовом плане по сравнению с другими инструментами.

Label Studio — это мощный и гибкий инструмент с открытым исходным кодом, предназначенный для аннотации данных в различных задачах машинного обучения, включая задачи компьютерного зрения, обработки текста и аудио. Он используется для разметки данных с целью последующего обучения моделей.

Преимущества:
Гибкость: Пользователи могут самостоятельно создавать разметку с помощью кода, что открывает новые возможности для кастомизации.
Расширяемость: Модульная структура позволяет легко добавлять новые функции и интегрировать дополнительные типы разметок.

Недостатки:
Высокие требования к ресурсам: Для полноценного использования Label Studio может потребоваться значительное количество ресурсов, что делает его менее удобным для пользователей с ограниченными возможностями.
Ограничения в разметке Bounding Boxes: В то время как, к примеру, CVAT предлагает более удобный и быстрый инструмент для разметки Bounding Boxes, Label Studio лучше подходит для разметки аудиоданных.

Big Data Science [RU]

16 Oct, 15:59


😎Топ Pyhton-библиотек для оптимизации работы с данными

Pony ORM — это удобная и мощная библиотека для работы с объектно-реляционными базами данных, которая позволяет писать SQL-запросы, используя синтаксис Python. Она автоматически преобразует Python-код в SQL-запросы, что упрощает взаимодействие с базами данных, делая его более интуитивным и лаконичным. Pony ORM поддерживает основные СУБД, такие как PostgreSQL, MySQL, SQLite и другие, предоставляя гибкость и удобство при создании запросов и работе с моделями данных.

Pypika — это библиотека для создания SQL-запросов программным способом на Python, которая позволяет избегать ошибок ручного написания SQL-кода и защищает от SQL-инъекций. Она особенно полезна при построении динамических и параметризованных запросов, что делает её идеальным инструментом для приложений, работающих с базами данных. Pypika позволяет строить запросы с высокой степенью детализации и сложности, сохраняя при этом читаемость и безопасность кода.

EdgeDB — это современная база данных и клиентская библиотека для Python, которая упрощает управление схемами данных и написание запросов. Она предлагает более интуитивный и удобный подход по сравнению с традиционными SQL базами данных, предоставляя расширенные возможности работы с данными. Основные особенности EdgeDB включают автоматическую генерацию схем, работу с реляционными данными без необходимости написания сложных SQL-запросов, а также поддержку типобезопасности и более выразительный синтаксис для манипуляций с данными.

Tortoise ORM — это современный асинхронный ORM (Object-Relational Mapping), разработанный для работы с базами данных в асинхронных Python-приложениях. Он поддерживает различные реляционные базы данных, такие как PostgreSQL, MySQL, SQLite, и написан с упором на простоту и удобство использования. Tortoise ORM позволяет строить сложные SQL-запросы с использованием Python-кода, автоматически синхронизируя модели данных с базой данных. Поддержка асинхронности делает его особенно полезным в высоконагруженных или веб-приложениях, где важно эффективно управлять ресурсами и запросами к базе данных.

Polars — это высокопроизводительная библиотека для обработки и анализа данных на языке Python и Rust, ориентированная на работу с большими объемами данных. Благодаря многопоточности и оптимизированной архитектуре, Polars обеспечивает значительно более высокую скорость выполнения операций по сравнению с традиционными инструментами, такими как Pandas. Библиотека поддерживает широкий спектр операций над табличными данными (dataframes), предлагая интуитивно понятный интерфейс для фильтрации, агрегации и трансформации данных. Она идеально подходит для задач, требующих высокой производительности, особенно при работе с большими наборами данных.

Big Data Science [RU]

14 Oct, 15:59


😎Оптимизация аналитики с Oracle

Oracle выложили статью у себя в блоге, где они рассказывают о том, как подключиться к кластеру BDS с помощью соединений Hive и Spark из Oracle Analytics Cloud (OAC).

Кластеры Oracle Big Data Service содержат распределённую файловую систему Hadoop (HDFS) и базу данных Hive, которые загружают и преобразуют данные из различных источников и в разных форматах (структурированные, полуструктурированные и неструктурированные).

Узнайте, как подключить Oracle Analytics Cloud к Oracle Big Data Service, используя Hive и Spark, для улучшения анализа данных. Объединение мощных инструментов поможет эффективно обрабатывать и визуализировать большие объемы информации.

Big Data Science [RU]

11 Oct, 15:59


💡Новость дня: MongoDB создает партнёрскую экосистему ИИ

MongoDB активно адаптируется к вызовам развития искусственного интеллекта, представив улучшенную версию своей базы данных (8.0) и запустив MongoDB AI Application Program (MAAP). Эта программа нацелена на создание глобальной партнерской экосистемы, направленной на стандартизацию решений в сфере ИИ. Среди ключевых партнеров — крупные игроки облачных и консалтинговых сервисов, такие как Microsoft Azure, Google Cloud Platform, Amazon Web Services, Accenture, а также AI-компании Anthropic и Fireworks AI.

Обновления в MongoDB 8.0 обещают заметное повышение производительности:

Увеличение пропускной способности на 32%.
Ускорение пакетной записи на 56%.
Повышение скорости параллельной записи на 20%.

Это даёт возможность MongoDB лучше справляться с высокими нагрузками, которые часто встречаются при работе с большими данными и ИИ. Уже внедрены решения для крупных компаний, включая одного из ведущих автопроизводителей Франции и глобального производителя бытовой техники.

Таким образом, MongoDB, создавая MAAP и улучшая свои технологии, стремится стать ключевым игроком в AI-индустрии, поддерживая разработчиков и компании в их стремлении к инновациям.

Подробнее тут

Big Data Science [RU]

09 Oct, 15:59


⚡️HTTP SQLite StarbaseDB

StarbaseDB — это мощная и масштабируемая база данных с открытым исходным кодом, которая базируется на SQLite и работает через HTTP-протокол. Эта база данных построена для работы в облачной среде (например, на Cloudflare), что позволяет ей эффективно масштабироваться вплоть до нуля в зависимости от нагрузки. Основные преимущества StarbaseDB включают в себя:

Легкость использования: Предоставляет возможность работать через HTTP-запросы, что упрощает интеграцию с различными системами и сервисами.
Масштабируемость: Автоматическая подстройка под объем нагрузки с возможностью масштабирования в обе стороны.
Поддержка SQLite: Использование проверенной временем и легковесной базы данных SQLite для хранения данных.
Опенсорс: Открытый исходный код, что позволяет разработчикам адаптировать и улучшать систему под свои нужды.

Она подходит для разработчиков, которые ищут простой и надежный способ организации баз данных с минимальной настройкой и высокой доступностью в облачных платформах, таких как Cloudflare.

Big Data Science [RU]

04 Oct, 15:59


😎⚡️Сильный даасет сгенерированный, с помощью Claude Opus.

Synthia-v1.5-I - это датасет, содержащий более 20 тысяч технических вопросов и ответов, предназначенный для обучения больших языковых моделей (LLM). Он включает системные промпты, стилизованные как Orca, чтобы стимулировать генерацию разнообразных ответов. Этот набор данных может использоваться для обучения моделей более точным и развернутым ответам на технические запросы, что улучшает их производительность в различных технических и инженерных задачах.

Для загрузки датасета с помощью Python:

from datasets import load_dataset
ds = load_dataset("migtissera/Synthia-v1.5-I")

Big Data Science [RU]

02 Oct, 15:59


💡😎3 непопулярных, но весьма нужных библиотеки визуализации

Supertree — это Python-библиотека, предназначенная для интерактивной и удобной визуализации деревьев решений в Jupyter Notebooks, Jupyter Lab, Google Colab и других блокнотах, поддерживающих HTML-рендеринг. С помощью этого инструмента можно не только визуализировать деревья решений, но и взаимодействовать с ними непосредственно в блокноте.

Mycelium — это библиотека для создания графических визуализаций моделей машинного обучения или любых других направленных ациклических графов. Кроме того, она предоставляет возможность использовать просмотрщик графов Talaria для визуализации и оптимизации моделей

TensorHue — это Python-библиотека, предназначенная для визуализации тензоров непосредственно в консоли, что облегчает их анализ и отладку, делая процесс работы с тензорами более наглядным и понятным.

Big Data Science [RU]

30 Sep, 15:59


🌎ТОП октябрьских ивентов в Data Science
1-2 октября - AIшница 2.0 - Онлайн - https://ai-practicum.bitrix24.events/
2 октября - Big Data и AI Day 2024 - Москва, Россия - https://www.tadviser.ru/a/809807
2 октября - Digital Innopolis Days 2024 & Innopolis AI Conference - Казань, Россия - https://digitalinnopolisdays.ru/
3 октября - M2 Data Meetup - Москва, Россия - https://m2tech.timepad.ru/event/3000932/
5 октября - IT Community Day - Санкт-Петербург, Россия - https://developers.sber.ru/kak-v-sbere/events/it_october
10 октября - Selectel Tech Day 2024 - Москва, Россия - https://techday.selectel.ru/
10-12 октября - ICOMP 2024 - Казань, Россия - https://icomp.cc/
11-26 октября - ВТБ More.Tech - Онлайн - https://moretech.vtb.ru/
14-20 октября - Yandex Cup 2024 - Онлайн - https://yandex.ru/cup/
29 октября - Матемаркетинг 2024 - Онлайн - https://matemarketing.ru/
30-31 октября - Digital Kazakhstan - Алматы, Казахстан - https://dkz.plus-forum.com/

Big Data Science [RU]

27 Sep, 15:59


😎💡🔥Подборка непопулярных, но весьма полезных Python-библиотек для работы с данными

Bottleneck - это библиотека, которая ускоряет работу методов NumPy до 25 раз, особенно при обработке массивов, содержащих значения NaN. Она оптимизирует такие вычисления, как нахождение минимумов, максимумов, медиан и других агрегатных функций. Благодаря использованию специализированных алгоритмов и обработке пропусков данных, Bottleneck значительно ускоряет работу с большими массивами данных, делая её более эффективной по сравнению с стандартными методами NumPy.

Nbcommands - это инструмент, который упрощает поиск кода в Jupyter notebooks, избавляя пользователей от необходимости выполнять поиск вручную. Он позволяет находить и управлять кодом по ключевым словам, функциям или другим элементам, что значительно ускоряет работу с большими проектами в Jupyter и помогает пользователям более эффективно навигировать по своим заметкам и кодовым блокам.

SciencePlots - это библиотека стилей для matplotlib, которая позволяет создавать профессиональные графики для презентаций, исследовательских статей и других научных публикаций. Она предлагает набор предустановленных стилей, которые соответствуют требованиям к визуализации данных в научных работах, делая графики более читабельными и эстетичными. SciencePlots упрощает создание графиков с высоким качеством оформления, соответствующим стандартам академических публикаций и презентаций.

Aquarel - это библиотека, которая добавляет дополнительные стили для визуализаций в matplotlib. Она позволяет улучшить внешний вид графиков, делая их более привлекательными и профессиональными. Aquarel упрощает создание настраиваемых стилей, помогая пользователям создавать графики с более интересным дизайном без необходимости вручную настраивать все параметры визуализации.

Modelstore - это библиотека для управления и отслеживания моделей машинного обучения. Она помогает организовывать, сохранять и версионировать модели, а также отслеживать их жизненный цикл. С помощью Modelstore, пользователи могут легко сохранять модели в различных хранилищах (S3, GCP, Azure и других), управлять их обновлениями и восстановлением. Это облегчает развертывание и мониторинг моделей в производственных средах, делая работу с моделями более удобной и контролируемой.

CleverCSV - это библиотека, которая улучшает процесс синтаксического анализа CSV-файлов и помогает избегать ошибок при их чтении с помощью Pandas. Она автоматически определяет правильные разделители и формат CSV-файлов, что особенно полезно при работе с файлами, которые имеют нестандартные или неоднородные структуры. CleverCSV упрощает работу с данными, устраняя ошибки, связанные с неправильным распознаванием разделителей и других параметров формата файла.

Big Data Science [RU]

25 Sep, 15:59


🧐💡Небольшое введение в MapReduce: преимущества и недостатки

MapReduce — это модель программирования и связанный с ней фреймворк для обработки больших наборов данных параллельно в распределённых вычислительных системах. Она включает две основные фазы: Map (проецирование) и Reduce (сведение).

Преимущества MapReduce:

Масштабируемость: MapReduce легко масштабируется на тысячи машин, что позволяет обрабатывать огромные объемы данных

Параллелизм: MapReduce автоматически распределяет задачи по доступным узлам, выполняя их параллельно, что сокращает время выполнения вычислений

Устойчивость к отказам: встроенная устойчивость к отказам позволяет перезапускать задачи в случае сбоя узлов, обеспечивая завершение работы без потери данных

Недостатки MapReduce:

Высокие затраты на ввод/вывод (I/O): Одним из ключевых недостатков является то, что между этапами Map и Reduce данные записываются и считываются с диска, что значительно снижает производительность в задачах, где важна быстрая передача данных

Отсутствие интерактивности: MapReduce предназначен для пакетной обработки, что делает его неэффективным для интерактивных запросов или анализа в реальном времени

Требование к перегруппировке данных (Shuffle phase): Этап перегруппировки (shuffle) часто требует значительных ресурсов и времени, что делает этот процесс узким местом в производительности MapReduce

Низкая производительность для сложных задач: для сложных алгоритмов, требующих множества шагов взаимодействия между узлами (например, итеративные задачи), производительность MapReduce снижается

Подробнее о MapReduce можно также узнать отсюда

Big Data Science [RU]

23 Sep, 15:59


📊Небольшие советы по обработке больших датасетов в Pandas от Google

Pandas — отличный инструмент для работы с небольшими наборами данных, обычно размером от двух до трех гигабайт.

Для наборов данных, превышающих этот порог, использование Pandas не рекомендуется. Это связано с тем, что если размер набора данных превышает доступную оперативную память, Pandas загружает полный набор данных в память перед обработкой. Проблемы с памятью могут возникнуть даже с меньшими наборами данных, поскольку предварительная обработка и изменение создают дубликаты DataFrame.

⚠️Вот несколько советов по эффективной обработке данных в Pandas:

Используйте эффективные типы данных: используйте более эффективные с точки зрения памяти типы данных (например, int32вместо int64, float32вместо float64), чтобы сократить использование памяти.
Загружать меньше данных: используйте use-colsпараметр для загрузки только необходимых столбцов, что сокращает потребление памяти.pd.read_csv()
Разделение на части: используйте chunksizeпараметр in для чтения набора данных меньшими порциями, обрабатывая каждую порцию итеративно.pd.read_csv()
Оптимизация dtypes Pandas: используйте astypeметод для преобразования столбцов в типы, более эффективно использующие память, после загрузки данных, если это уместно.
Распараллеливание Pandas с помощью Dask: используйте Dask, библиотеку параллельных вычислений, для масштабирования рабочих процессов Pandas до наборов данных, превышающих объем оперативной памяти, за счет использования параллельной обработки.

🖥Подробнее можно узнать тут

Big Data Science [RU]

18 Sep, 15:59


💡Создание приложения рекомендации минуя сложности векторных баз данных

Данные не только обучают ИИ-системы, но и являются конечным результатом, который вы получаете. Поэтому так важно использовать «хорошие» данные. Какая бы мощная модель ни была, если на входе плохие данные, на выходе будет такой же результат.

В этой статье описывается пример использования базы данных Weaviate в совокупности со Streamlit для упрощения работы с векторными базами данных. Авторы утверждают, что это позволит создать мощную систему поиска и рекомендаций с минимальными техническими затратами.

📚Для сведения стоит отметить, что:

Weaviate — это векторная база данных с открытым исходным кодом, которая позволяет пользователям хранить объекты данных и векторные внедрения из моделей машинного обучения и легко масштабироваться до миллиардов объектов данных.

Streamlit — это фреймворк для Python. Он содержит набор программных инструментов, которые помогают перенести модель машинного обучения в веб. Написанную «умную» программу с помощью этого фреймворка можно быстро сделать веб-приложением.

Big Data Science [RU]

16 Sep, 15:59


💡🤖😎10 терминов и аспектов из области ИИ, которые сегодня необходимо понимать и осознавать каждому
🧐Сегодня разберем 10 аспектов, которые наиболее широко охватывают область ИИ в различных ее проявлениях:
Размышление/планирование: современные ИИ-системы могут решать задачи, используя шаблоны, которые они усвоили из исторических данных, чтобы понять информацию, что напоминает процесс рассуждения. Самые продвинутые системы могут идти дальше, справляясь с более сложными задачами, создавая планы и определяя последовательность действий для достижения цели.
Обучение/инференция: чтобы создать и использовать ИИ-систему, существует два этапа: обучение и инференция. Обучение можно сравнить с процессом образования ИИ, когда ему предоставляют набор данных, и он учится выполнять задачи или делать прогнозы на основе этих данных.
Инференция — это процесс, когда ИИ использует выученные шаблоны и параметры для того, чтобы, например, предсказать цену нового дома, который скоро будет выставлен на продажу.
Малые языковые модели (SLM): компактные версии больших языковых моделей (LLM). Обе этих вида используют методы машинного обучения, чтобы распознавать шаблоны и связи, позволяя им генерировать реалистичные и естественные ответы на языке. Однако в отличие от LLM, которые огромны и требуют больших вычислительных мощностей и памяти, SLM, такие как Phi-3, обучены на меньших, тщательно подобранных наборах данных и имеют меньше параметров.
Заземление: генеративные ИИ-системы могут создавать истории, стихи, шутки и отвечать на исследовательские вопросы. Однако иногда они сталкиваются с трудностями в отделении фактов от вымысла или используют устаревшие данные, что приводит к ошибочным ответам, называемым "галлюцинациями". Разработчики стремятся сделать взаимодействие ИИ с реальным миром более точным через процесс, называемый заземлением (grounding), когда модель связывают с актуальными данными и конкретными примерами, чтобы улучшить точность и выдавать более релевантные результаты.
Ретроспективная генерация с дополнением (RAG): когда разработчики предоставляют ИИ доступ к внешним источникам данных, чтобы он был более точным и актуальным, используется метод, называемый Retrieval Augmented Generation (RAG). Этот подход экономит время и ресурсы, добавляя новые знания без необходимости повторного обучения ИИ.
Оркестрация: ИИ-программы выполняют множество задач при обработке запросов пользователей, слой оркестрации управляет их действиями в правильном порядке для получения наилучшего ответа. Оркестрационный слой также может следовать шаблону RAG, выполняя поиск в интернете для получения свежей информации и добавления контекста.
Память: современные ИИ-модели технически не обладают памятью. Однако они могут иметь оркестрационные инструкции, которые помогают им «запоминать» информацию, выполняя определённые шаги при каждом взаимодействии.
Трансформеры и диффузионные модели: люди десятилетиями обучают ИИ-системы пониманию и генерации языка, но одним из прорывов, который ускорил прогресс, стала модель-трансформер. Среди генеративных ИИ именно трансформеры лучше и быстрее всего понимают контекст и нюансы.
Диффузионные модели, обычно используют для создания изображений. Эти модели продолжают вносить мелкие изменения, пока не создадут желаемый результат.
Модели передового уровня: Frontier models — это масштабные системы, которые раздвигают границы ИИ и могут выполнять широкий спектр задач с новыми и расширенными возможностями. Они становятся ключевыми инструментами для различных отраслей, включая здравоохранение, финансы, научные исследования и образование.
GPU: графический процессор — это мощный вычислительный блок. Изначально их создавали для того, чтобы улучшать графику в видеоиграх, а теперь они стали настоящими "мускулами" в мире вычислений. А поскольку ИИ по сути занимается решением огромного количества вычислительных задач, чтобы понимать язык и распознавать изображения или звуки, GPU незаменимы для ИИ как на этапе обучения, так и при работе с готовыми моделями.

Big Data Science [RU]

11 Sep, 15:59


🤔Проведение оценки качества данных в Airbnb

Airbnb — онлайн-платформа для размещения и поиска краткосрочной аренды частного жилья по всему миру.

Недавно наткнулся на статью, где автор описывает процесс разработки и внедрения методики оценки качества данных, а также принципы, критерии и параметры, используемые для этой оценки.

Как отмечает автор, составление оценки базируется на следующих принципах:

1. Полный охват — это метод оценки, который может быть применён ко всем данным из целого массива, обеспечивая анализ и обработку информации без пропусков или ограничений. Этот принцип позволяет проводить более полное и точное исследование данных, охватывая весь набор, независимо от его объёма или сложности.
2. Автоматизированность — это процесс, при котором сбор вводных данных, необходимых для проведения оценки, полностью автоматизирован, без необходимости ручного вмешательства. Такой прнцип обеспечивает высокую скорость, точность и эффективность в сборе и обработке данных, что позволяет улучшить качество анализа и сократить время на принятие решений.
3. Действенность — это характеристика, означающая, что оценка качества данных легко доступна и понятна как для производителей, так и для потребителей данных. Это обеспечивает прозрачность и удобство использования результатов оценки, что способствует более эффективному взаимодействию и повышению доверия между всеми сторонами.
4. Многомерность — это свойство оценки, которое позволяет разложить её на различные базовые составляющие качества данных. Это помогает детально анализировать отдельные аспекты, влияющие на общее качество, такие как точность, полнота, актуальность и консистентность, обеспечивая более глубокое понимание и возможность адресного улучшения каждого компонента.
5. Возможность эволюции — это характеристика оценки, означающая, что критерии и их определения могут адаптироваться и изменяться со временем. Такой гибкий подход позволяет оценке оставаться актуальной и эффективной в условиях меняющихся требований, новых данных и технологического прогресса.

Big Data Science [RU]

09 Sep, 15:59


😎3 полезных инструмента для для работы с SQL-таблицами

SQL Fiddle - Инструмент для простого тестирования, отладки и обмена фрагментами SQL. Добавляете текст в панель, а SQL Fiddle превращает его в скрипт для создания необходимой таблицы. Подойдет как для работы с базами данных, так и для практики навыков SQL.

SQL Database Modeler - может создавать структуру новых таблиц и связи между ними, подключаться к уже имеющимся базам данных и проектировать изменения в них. И это все в симпатичном графическом интерфейсе и со ссылкой на гитхаб.

SQLFlow - простой инструмент для визуализации SQL-запросов и отображения зависимостей. Позволяет отслеживать data lineage-происхождение и трансформации в данных при исполнении запросов.

Big Data Science [RU]

04 Sep, 15:59


😎Универсальная БД с эмбеддингами

txtai — это универсальная база данных эмбеддингов, предназначенная для семантического поиска, оркестрации больших языковых моделей (LLM) и управления рабочими процессами, связанными с машинным обучением. Эта платформа позволяет эффективно обрабатывать и извлекать информацию, использовать семантический поиск для поиска по тексту, а также организовывать и автоматизировать задачи, связанные с обучением и применением моделей машинного обучения.

Ключевые особенности txtai:

— Включает векторный поиск с использованием SQL, хранение объектов, анализ графов и мультимодальное индексирование
— Поддерживает создание эмбеддингов для различных типов данных, включая текст, документы, аудио, изображения и видео
— Позволяет создавать конвейеры на основе языковых моделей для выполнения различных задач, таких как генерация подсказок для LLM, ответы на вопросы, маркировка данных, транскрипция, перевод, резюмирование и многое другое

🖥 GitHub
🟡 Документация

Big Data Science [RU]

02 Sep, 15:59


⚠️Text2SQL теперь недостаточно

Недавно наткнулся на статейку, в которой авторы подробно описывают инновационный подход TAG.

Генерация с расширением таблиц (TAG) - это унифицированная парадигма общего назначения для ответа на вопросы на естественном языке с использованием баз данных. Суть данного подхода заключается в том, что у нас имеется модель, которая принимает запрос на естественном языке, обрабатывает его и возвращает ответ на естественном языке.

Таким образом, Text2SQL лишь представляет спектр взаимодействий между LM и базой данных. Сама суть этих взаимодействий описывается c помощью TAG.

📚 Статья с подробным описанием
🛠 Реализация подхода