Data Mining | Анализ данных🚀 @dataminingteam Channel on Telegram

Data Mining | Анализ данных🚀

@dataminingteam


• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team

Data Mining | Анализ данных (Russian)

Вы когда-нибудь задумывались над тем, как можно использовать большие объемы данных для принятия более обоснованных решений? Если да, то канал Data Mining | Анализ данных именно для вас! Здесь вы найдете множество полезной информации о методах анализа данных, их применении в различных областях, а также советы по эффективному майнингу данных. Все это доступно благодаря команде профессионалов, которые уделяют особое внимание этой увлекательной теме. Канал dataminingteam предлагает вам не только увлекательное погружение в мир анализа данных, но также возможность купить рекламу и поделиться своими идеями с администратором sahib_space. На канале вы также найдете информацию о стоимости услуг, а также ссылку на группу в социальной сети ВКонтакте, где вы сможете обсудить интересующие вас вопросы с другими участниками. Не упустите шанс стать частью сообщества, где ценятся знания, аналитика и обмен опытом. Присоединяйтесь к каналу Data Mining | Анализ данных уже сегодня и откройте для себя новые горизонты в области обработки информации! 🚀

Data Mining | Анализ данных🚀

23 Nov, 18:01


В статье описываются ключевые принципы создания устойчивых ETL пайплайнов для обработки данных, акцентируя внимание на автоматизации, масштабируемости и обработке ошибок.

Также рассматриваются лучшие практики для интеграции различных инструментов и обеспечения качества данных в процессе анализа и ML.

https://www.kdnuggets.com/developing-robust-etl-pipelines-for-data-science-projects

Data Mining | Анализ данных🚀

22 Nov, 18:01


Статья знакомит с новым Python-менеджером пакетов, который призван улучшить работу с зависимостями и ускорить процесс разработки за счет оптимизированной архитектуры.

Инструмент предлагает решение для быстрого обновления пакетов и эффективного управления проектами, снижая сложность интеграции сторонних библиотек.

https://www.kdnuggets.com/new-python-package-manager

Data Mining | Анализ данных🚀

21 Nov, 18:01


Пять шпаргалок в DS, которые обобщают ключевые концепции и инструменты в области DS, ML статистики.

Эти ресурсы помогают быстро освоить основные методы и алгоритмы, необходимые для успешного старта в сфере данных.

https://www.kdnuggets.com/5-cheat-sheets-getting-started-data-science

Data Mining | Анализ данных🚀

20 Nov, 18:01


Статья рассказывает о том, как DS используется в социальных проектах для решения глобальных проблем, таких как экология, здравоохранение и образование.

Приводятся примеры реальных инициатив, где аналитика данных помогает организациям повысить свою эффективность и достичь позитивных изменений в обществе.

https://www.kdnuggets.com/data-science-for-social-good-real-world-projects-making-a-difference

Data Mining | Анализ данных🚀

19 Nov, 18:00


Статья о том, как GraphRAG улучшает традиционный метод RAG, интегрируя графы знаний с большими языковыми моделями, что позволяет более точно и контекстуализированно извлекать информацию для генерации ответов.

Автор описывает различные архитектуры GraphRAG, а также трудности, связанные с построением и поддержанием графов знаний.

https://gradientflow.substack.com/p/graphrag-design-patterns-challenges

Data Mining | Анализ данных🚀

18 Nov, 18:01


Статья описывает концепцию GraphRAG, объединяющая графы знаний с методами RAG для улучшения поиска и генерации ответов на основе структурированных данных.

Это позволяет моделям, таким как LLM, эффективно обрабатывать сложные и специализированные запросы, улучшая точность ответов.

https://www.kdnuggets.com/an-introduction-to-graph-rag

Data Mining | Анализ данных🚀

17 Nov, 18:01


Статья охватывает методы обучения машинных моделей без использования меток данных, включая обучение без учителя, самообучение и генеративные модели.

Эти подходы минимизируют зависимость от размеченных наборов данных и находят применение в задачах кластеризации, обработки изображений и текстов.

https://habr.com/ru/amp/publications/842444/

Data Mining | Анализ данных🚀

16 Nov, 18:01


Статья описывает методы обучения с использованием SVM, включая классификацию и регрессию.

Она объясняет основные параметры моделей SVM, их применение для линейных и нелинейных данных, а также методы оптимизации и выбора гиперпараметров для улучшения точности модели.

https://scikit-learn.ru/stable/modules/svm.html

Data Mining | Анализ данных🚀

15 Nov, 05:30


📌 Статья представляет основные библиотеки Python для машинного обучения, включая NumPy, Pandas, Scikit-learn, XGBoost, LightGBM и CatBoost.

Также упоминаются библиотеки для нейросетей (PyTorch, TensorFlow) и обработки данных (NLTK, OpenCV).

От экспертов даны рекомендации для начинающих по последовательности шагов в изучении машинного обучения.

Data Mining | Анализ данных🚀

14 Nov, 15:55


⚡️Статья описывает процесс создания датасета для ML,  начиная с сбора данных через краудсорсинг и заканчивая их очисткой и аннотированием.

Особое внимание уделяется рекомендациям по увеличению объема данных, балансировке классов и соблюдению этических норм.

Data Mining | Анализ данных🚀

11 Nov, 19:40


🤩Разбор регуляризации в глубоком обучении, подробно рассматривая компромисс между bias и variance для предотвращения переобучения и недообучения.

🩶Авторы охватывают различные методы регуляризации, включая L1, L2, Elastic Net, а также техники, такие как отсев, нормализация по батчам и аугментация данных, предоставляя обширный обзор для эффективного построения устойчивых моделей глубокого обучения.

https://theaisummer.com/regularization/

Data Mining | Анализ данных🚀

08 Nov, 21:17


🖇 Статья вводит в N-shot и zero-shot learning с использованием Python, обсуждая вызовы обучения сложных моделей на больших наборах данных и то, как трансферное обучение может

🫧 Предоставляет примеры применения zero-shot learning для задач классификации текста и распознавания именованных сущностей (NER) с использованием модели TARS. Также рассматривается one-shot learning с использованием Siamese Networks и набора данных MNIST в Keras.

🔖Акцент делается на демонстрации того, как эти техники предоставляют решения в сценариях с ограниченным или отсутствующим размеченным объемом данных.

Data Mining | Анализ данных🚀

03 Nov, 17:28


🔵В статье рассматриваются потенциальные области применения, процессы прогнозирования и валидации, шаги по построению и обучению forest-based forecast, выявление выбросов во временных рядах, результаты работы инструмента, оптимальные методы и ограничения.

Data Mining | Анализ данных🚀

02 Nov, 19:01


😑В статье рассматриваются темы, такие как исследование шаблонов пропущенных данных, выбор вспомогательных переменных, определение количества восполнений.

😠 Статья отвечает на вопросы о видах механизмов пропущенных данных, шагах множественного восполнения, значимости вспомогательных переменных и соображениях при выборе количества восполнений.

Data Mining | Анализ данных🚀

30 Oct, 03:19


Статья представляет обзор описательной статистики для распределений производительности. В ней рассматриваются такие аспекты, как центральная тенденция, квантильные оценки, скользящие квантильные оценки, вариация, плотность распределения, мультимодальность, теория экстремальных значений.

https://habr.com/ru/companies/jugru/articles/722342/

Data Mining | Анализ данных🚀

24 Oct, 20:27


👀 Шпаргалка по моделям на основе состояний с оптимизацией поиска и процессам принятия решений Маркова — подробный обзор методов оптимизации поиска, таких как обратный поиск, поиск в ширину, поиск в глубину, итеративное углубление, графовый поиск, динамическое программирование.

➡️ Также рассматриваются ключевые аспекты Марковских процессов принятия решений, включая оценку политики, итерацию значений, переходы и вознаграждения.

Data Mining | Анализ данных🚀

19 Oct, 15:58


Обзор посвящен малым языковым моделям, которые используются на мобильных устройствах. Исследуются их архитектуры, данные для обучения и производительность в задачах, таких как логические рассуждения и обучение на контексте.

Data Mining | Анализ данных🚀

16 Oct, 15:26


Bидео демонстрирует примеры кода для вычисления перестановочной важности в mlxtend и scikit-learn.

Перестановочная важность (Feature Permutation Importance) - универсальный и модельно-независимый способ вычисления значимости признаков на основе классификатора или регрессионной модели.


https://youtu.be/meTXOuFV-s8?si=WgXUPGXGcb6Ixnti

Data Mining | Анализ данных🚀

13 Oct, 17:16


⚡️Обзор посвящен малым языковым моделям, которые используются на мобильных устройствах. Исследуются их архитектуры, данные для обучения и производительность в задачах, таких как логические рассуждения и обучение на контексте.

Data Mining | Анализ данных🚀

09 Oct, 18:08


Разбираются формулы для оценки читаемости (формула Флеша-Кинкейда), затем автор переходит к более сложным подходам, включая использование человеческих бенчмарков, таких как CLEAR (CommonLit Ease of Readability) корпус, который позволяет оценивать тексты на основе их легкости восприятия человеком.

Завершающая часть статьи посвящена использованию LLMs, в частности модели GPT-4 Turbo, для оценки читаемости текстов и сравнения их с результатами, полученными с помощью традиционных формул.

Data Mining | Анализ данных🚀

06 Oct, 17:28


Зацените впн админов — https://vpnand.com/?ref=92

Будем рады обратной связи и поддержки скачиванием🫶🏻💙

Data Mining | Анализ данных🚀

05 Oct, 11:23


🔠Нашли для вас видео, где неплохо разъясняется понятие перестановочной важности, которая является универсальным и модельно-независимым способом вычисления значимости признаков на основе классификатора или регрессионной модели.

https://youtu.be/VUvShOEFdQo?si=6cmga6PCz19NC1H_

Data Mining | Анализ данных🚀

26 Sep, 15:33


Switch Transformers представляют новый подход к масштабированию моделей до триллионов параметров с помощью простой и эффективной разреженности.

Вместо того, чтобы использовать одни и те же параметры для всех входных данных, модели MoE выбирают разные параметры для каждого примера. Результатом является разреженно-активированная модель с огромным числом параметров, но постоянной вычислительной стоимостью.

Data Mining | Анализ данных🚀

25 Sep, 15:30


Обзор методов уменьшения размерности данных, включая PCA, t-SNE и UMAP, анализирует их преимущества и недостатки. Подходы к уменьшению размерности включают линейные (PCA) и нелинейные методы (t-SNE, UMAP), каждый со своими особенностями.

Также представлен инструмент TensorFlow Embedding Projector для визуализации данных. Обзор помогает понять, какой метод выбрать в зависимости от задачи.

Data Mining | Анализ данных🚀

23 Sep, 15:31


Представлены предварительно обученные авторегрессивные модели, которые решают задачу генерации 3D-сеток моделирования LLM.

В основе MeshXL лежит явное представление координат с неявными нейронными вложениями, которое является простым и эффективным способом моделирования последовательных сеток большого масштаба.

Data Mining | Анализ данных🚀

22 Sep, 18:06


https://vpnand.com/?ref=92

Наши друзья создали VPN. Рекомендуем. Скачивайте.

Мем для вас как бонус 💗

Data Mining | Анализ данных🚀

22 Sep, 15:38


Статья описывает новый метод поиска ближайших соседей с использованием анизотропной векторной квантизации в библиотеке ScaNN. Основное внимание уделено улучшению точности и скорости поиска на основе векторных эмбеддингов в больших данных.

Data Mining | Анализ данных🚀

22 Sep, 15:18


Авторы представляют сеть на основе трансформера, направленную на атрибутивное обучение без образцов.

Рна использует кодировщик для улучшения переносимости визуальных признаков и декодер для локализации атрибутов на изображении, что позволяет эффективно взаимодействовать между визуальными и семантическими данными.

Data Mining | Анализ данных🚀

21 Sep, 15:21


В статье представлен метод TranAD для обнаружения аномалий в многомерных временных рядах с использованием глубоких сетей трансформеров.

TranAD увеличивает F1-оценки на до 17%, сокращая время обучения на до 99% по сравнению с базовыми методами.

Модель использует внимание для кодирования данных и быстрого обнаружения аномалий, обеспечивая стабильное извлечение признаков и обучение с ограниченными данными через мета-обучение.

https://arxiv.org/pdf/2201.07284

Data Mining | Анализ данных🚀

20 Sep, 15:30


В статье исследуются различные гиперпараметры для популярных алгоритмов, таких как Ридж и Лассо Регрессия, Логистическая Регрессия, Метод Опорных Векторов, Метод К-Ближайших Соседей, Деревья Решений и Градиентный Бустинг. Кроме того, она обозначает преимущества и недостатки настройки гиперпараметров и демонстрирует, как ее выполнять с помощью Python, используя такие техники, как Coarse to Finer Approach с использованием RandomizedSearchCV и GridSearchCV.

Data Mining | Анализ данных🚀

19 Sep, 15:28


В статье обзор 62 методов обучения с учетом шумных меток, категоризированных по пяти группам в рамках DL.

Авторы также провели систематическое сравнение шести характеристик для оценки их эффективности, а также осветили методы оценки шума и используемые наборы данных и метрики оценки. В заключении выделены перспективные направления для будущих исследований.

https://arxiv.org/pdf/2007.08199

Data Mining | Анализ данных🚀

19 Sep, 07:10


🧢 ROI – университетское образование

Наткнулся на сайт, который сделал визуализацию метрики ROI (возврат инвестиций) образования в разбивке по направлениям и университетам. Потом они составили рейтинг университетов по этому показателю 🤲

Здесь можно посмотреть на рейтинг универов, а здесь — подробнее почитать про методологию. Вот небольшое саммари методологии:

Факторы, учитываемые в расчете ROI:

🕚Вероятность и сроки завершения обучения.

🕚Ожидаемые доходы и долги как для выпускников, так и для тех, кто не завершил обучение.

🕚Альтернативные издержки, связанные с отказом от немедленного выхода на рынок труда после школы.

Процесс расчета ROI:

🕚Прогнозируются денежные потоки на 40 лет, включая ожидаемый доход и обязательства по долгу студентов.

🕚Эти потоки приводятся к текущей стоимости с учетом коэффициента дисконтирования.

🕚Приведенная стоимость взвешивается на вероятность завершения обучения, так как выгоды от образования ощущаются только у тех, кто завершил обучение.

🕚Взвешенная приведенная стоимость сравнивается с расчетной NPV при немедленном выходе на рынок труда после школы для определения ROI.

Интерпретация ROI: Например, если программа имеет ROI $50,000, это означает, что студент, начавший эту программу, становится на $50,000 "богаче" (в текущих деньгах) по сравнению с тем, если бы он сразу вышел на рынок труда после школы.

Получилась довольно занимательная статистика — кто бы мог подумать, что после обучения на visual and performing arts люди в среднем получают меньше, чем после computer science? 🤔

Занимательно, что университеты стоимостью $20.000 в среднем имеют меньший ROI университетов с более дорогим образованием. Еще интересно было сравнить частные вузы с публичными — вторые стоят в два раза дешевле, но ROI показывают на уровне верхушки частных вузов 😊

Что думаете про визуализацию? Нужно ли школьникам учитывать подобные рейтинги и метрики при поступлении в универ и выборе направлении? Прожимайте реакцию 🧢 и переходите в комментарии

@tagir_analyzes

Data Mining | Анализ данных🚀

18 Sep, 15:30


Статья исследует, улучшает ли увеличение данных обобщение в обработке естественного языка (NLP), помогая моделям отказаться от поверхностных признаков в пользу более общих и сильных.

Исследование показывает, что увеличение данных может сначала ухудшить производительность, прежде чем начать помогать, и что его эффективность ограничена, если более сильный признак значительно сложнее извлечь, чем конкурирующий поверхностный признак.

https://arxiv.org/abs/2004.15012

Data Mining | Анализ данных🚀

17 Sep, 15:26


Cравнительный анализ стратегий обучения, которые используют как выбор признаков для работы с высокой размерностью, так и методы обучения с учетом стоимости для справления с дисбалансом классов. Эксперименты проводились на трех бенчмарках из геномной области, что позволило оценить влияние комбинации выбора признаков и обучения с учетом стоимости на несбалансированных данных.

https://peerj.com/articles/cs-832/

Data Mining | Анализ данных🚀

17 Sep, 14:38


https://vpnand.com/?ref=92

Наши друзья создали VPN. Рекомендуем. Скачивайте.

Мем для привлечения внимания 🌝❤️

Data Mining | Анализ данных🚀

16 Sep, 15:26


Рассматриваются основные аспекты Information Retrieval включая классические алгоритмы типа инвертированного индекса и модели мешка слов (BoW), применение современных методов глубокого обучения, таких как трансформерные модели, вроде BERT.