Data Mining | Анализ данных🚀 @dataminingteam Channel on Telegram

Data Mining | Анализ данных🚀

@dataminingteam


• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team

Data Mining | Анализ данных (Russian)

Вы когда-нибудь задумывались над тем, как можно использовать большие объемы данных для принятия более обоснованных решений? Если да, то канал Data Mining | Анализ данных именно для вас! Здесь вы найдете множество полезной информации о методах анализа данных, их применении в различных областях, а также советы по эффективному майнингу данных. Все это доступно благодаря команде профессионалов, которые уделяют особое внимание этой увлекательной теме. Канал dataminingteam предлагает вам не только увлекательное погружение в мир анализа данных, но также возможность купить рекламу и поделиться своими идеями с администратором sahib_space. На канале вы также найдете информацию о стоимости услуг, а также ссылку на группу в социальной сети ВКонтакте, где вы сможете обсудить интересующие вас вопросы с другими участниками. Не упустите шанс стать частью сообщества, где ценятся знания, аналитика и обмен опытом. Присоединяйтесь к каналу Data Mining | Анализ данных уже сегодня и откройте для себя новые горизонты в области обработки информации! 🚀

Data Mining | Анализ данных🚀

12 Jan, 17:34


Эксперты в области информационной безопасности описывают принципы управления РAM для защиты критичных IT-систем от угроз и утечек данных.

https://habr.com/ru/companies/best_pam/articles/872482/

Data Mining | Анализ данных🚀

10 Jan, 17:35


Автор наглядно показывает уникальные возможности ИИ, ведь каждый из этих типов открывает новые горизонты для человечества, но также требует внимательного подхода, чтобы минимизировать риски и использовать потенциал технологий.

https://rb.ru/story/narrow-general-super-ai/

Data Mining | Анализ данных🚀

09 Jan, 17:38


В новом релизе представлены две модели:

T-Lite — быстрая и эффективная модель для базовых задач и файнтюнинга.
T-Pro — мощная модель для сложных задач и продвинутого использования.

Обе модели обеспечивают гибкость и высокую производительность.

https://habr.com/ru/companies/tbank/articles/865582/

Data Mining | Анализ данных🚀

08 Jan, 17:34


В статье рассматривается метод изучения нейросетей, который может быть полезен для развития мышления, необходимого для создания новых идей и алгоритмов с нуля.

Этот подход также может стать хорошей отправной точкой для тех, кто хочет начать развиваться в области создания ИИ.

https://habr.com/ru/articles/871648/

Data Mining | Анализ данных🚀

06 Jan, 17:36


Международная команда ученых совершила прорыв в области распределенного машинного обучения, разработав новые алгоритмы, значительно повышающие эффективность обучения моделей в федеративных сетях.

Подробнее про проведенную конференцию и результаты исследования 👇🏻

https://naked-science.ru/article/column/obuchenie-v-detsentralizo/amp

Data Mining | Анализ данных🚀

05 Jan, 17:33


Квантовые вычисления и программирование открывают новые горизонты для решения сложных задач и создания инновационных технологий. 

Именно здесь на помощь приходят самообучающиеся интеллектуальные системы, основанные на алгоритмах квантового ML, подробнее об этом можете прочитать ниже👇🏻

https://rb.ru/story/kvantovye-vychisleniya/

Data Mining | Анализ данных🚀

04 Jan, 17:37


Старший менеджер LLM-продуктов MTS AI рассказал как защитить интеллектуальную собственность.

Он выделил основные методы защиты больших языковых моделей, среди которых: поставка LLM вместе с серверами, аппаратное шифрование, поставка облачных решений, а также маскировка и вотермаркинг.

https://rb.ru/opinion/kak-razrabotchiki-zashishayut-svoi-yazykovye-modeli-ot-krazhi/

Data Mining | Анализ данных🚀

03 Jan, 17:35


Исследователи продолжают развивать тему KAN, раскрывают ее связь с наукой, а также приводят некоторые практические советы по использованию библиотеки pykan, написанной на python, в которой реализован алгоритм KAN.

https://habr.com/ru/articles/860738/

Data Mining | Анализ данных🚀

02 Jan, 17:36


Статья представляет сети KAN, которые заменяют линейные веса на обучаемые функции активации, улучшая точность, интерпретируемость и масштабируемость по сравнению с MLP, особенно в задачах AI+Science.

https://habr.com/ru/articles/856776/

Data Mining | Анализ данных🚀

01 Jan, 17:34


Данное исследование раскрывает роль компиляторов в оптимизации вычислений для современных аппаратных платформ, учитывая
основные особенности работы с ними и их влияние на производительность в ML

https://habr.com/ru/companies/yadro/articles/869594/

Data Mining | Анализ данных🚀

31 Dec, 17:48


Разбор ошибок в процессе обучения как людей, так и ML-алгоритмов, которые являются неотъемлемой частью роста и улучшения.

Чтобы показать этот процесс наглядно, автор приводит 5 принципов, в которых люди и ML-модели похожи.

https://habr.com/ru/companies/ru_mts/articles/867710/

Data Mining | Анализ данных🚀

30 Dec, 17:31


В рамках доклада подробно описывается что из себя представляет OMD и показывается на примере MLflow как происходит подключение новых источников в ODM

https://habr.com/ru/companies/beeline_tech/articles/868730/

Data Mining | Анализ данных🚀

29 Dec, 17:31


Автор рассказывает, как в Beeline с помощью data catalog создали прозрачные связи между моделями ML и фичами.

Из доклада вы узнаете, зачем и кому это бывает нужно, а также один из способов решения этой задачи.

https://habr.com/ru/companies/beeline_tech/articles/868612/

Data Mining | Анализ данных🚀

28 Dec, 17:31


Исследование показывает результаты тестирования модели o3 от OpenAI в рамках бенчмарка ARC-AGI-Pub, проведенных Франсуа Шолле.

Модель достигла 75,7% на полу-приватном наборе данных при ограничении в $10 тысяч вычислительных ресурсов, а при увеличении вычислительных мощностей результат составил 87,5%.

https://habr.com/ru/articles/869098/

Data Mining | Анализ данных🚀

27 Dec, 17:31


В практическом туториале пошагово объясняются добавление и реализация различных компонентов, таких как CNN, BatchNorm, MaxPool, MinPool, оптимизаторов (RMSProp, NaG, Adam), регуляризации, новых функций активации и DataLoader.

https://habr.com/ru/articles/869520/

Data Mining | Анализ данных🚀

26 Dec, 17:30


Автор делится прогнозами о том, что нас ждет в 2025 году, поскольку LLM впечатляюще развивается и растут возможности в бизнесе, а также в повседневной жизни.

https://habr.com/ru/articles/870002/

Data Mining | Анализ данных🚀

24 Dec, 18:11


Разрабатываем свой PyTorch — прикладная статья, которая шаг за шагом поясняет создание мощного фреймворка для ML, который популярен благодаря своей гибкости, простоте использования и поддержке динамических вычислительных графов.

https://habr.com/ru/articles/869118/

Data Mining | Анализ данных🚀

23 Dec, 17:43


В статье сравниваются библиотеки RePlay, RecBole и Microsoft Recommenders для создания рекомендательных систем, а также проводится построение модели на примере SOTA-модели, с последующим анализом качества и времени обучения/инференса.

https://habr.com/ru/companies/sberbank/articles/867296/

Data Mining | Анализ данных🚀

22 Dec, 17:31


Bothub анонсирует новые возможности для разработки чат-ботов, включая улучшенную интеграцию с API и расширенные аналитические инструменты.

Платформа становится удобнее для пользователей и разработчиков, предлагая новые функции для создания и управления ботами.

https://habr.com/ru/companies/bothub/news/868724/

Data Mining | Анализ данных🚀

20 Dec, 17:31


Статья описывает ключевые методы очистки данных, которые необходимы для создания точных моделей машинного обучения.

Основное внимание уделяется обработке пропущенных значений, удалению выбросов и преобразованию данных.

https://www.kdnuggets.com/essential-data-cleaning-techniques-accurate-machine-learning-models

Data Mining | Анализ данных🚀

18 Dec, 17:31


Предоставляем вам исследование, которое использует логистическую регрессию и RBF нейронные сети для прогнозирования дефолтных заемщиков на интернет-платформах, достигая точности до 91,1%.

https://dl.acm.org/doi/10.1145/3700058.3700114

Data Mining | Анализ данных🚀

17 Dec, 17:31


Статья описывает использование метода One-Class SVM для обнаружения аномальных точек в данных.

Этот метод обучает модель на “нормальных” данных и выявляет выбросы, что полезно для задач анализа аномалий.

https://scikit-learn.ru/stable/modules/svm.html#svm-outlier-detection

Data Mining | Анализ данных🚀

16 Dec, 17:31


Статья исследует методы интеграции текстовой и визуальной информации с помощью GPT-4 для создания мультимодальных ИИ-систем. Это позволяет улучшить взаимодействие ИИ с миром через несколько типов данных, таких как текст и изображения.

https://arxiv.org/abs/2412.10199

Data Mining | Анализ данных🚀

14 Dec, 17:43


Статья обсуждает семь ключевых библиотек Python, которые необходимы для эффективной реализации MLOps (Machine Learning Operations). Эти библиотеки помогают автоматизировать, масштабировать и управлять жизненным циклом моделей машинного обучения.

https://www.kdnuggets.com/7-essential-python-libraries-mlops

Data Mining | Анализ данных🚀

13 Dec, 17:35


В статье описывается, как в компании Raft внедряют практики DevOps для улучшения процессов разработки и эксплуатации.

Рассматриваются ключевые инструменты и подходы, такие как автоматизация, CI/CD, мониторинг и улучшение взаимодействия между командами.

https://habr.com/ru/companies/raft/articles/864334/

Data Mining | Анализ данных🚀

12 Dec, 17:30


В статье описывается, как в компании Raft организуют процесс разработки, включая применение принципов agile, важность прозрачности, автоматизации и фокуса на качестве

https://habr.com/ru/companies/raft/articles/851548/

Data Mining | Анализ данных🚀

11 Dec, 17:30


Собрали для вас актуальные направления и специализации, которые будут востребованы в 2025 году.
Какие тренды продолжат расти, а какие только появятся, — изучили исследования и рассказываем ниже.

https://habr.com/ru/companies/habr_career/articles/865618/

Data Mining | Анализ данных🚀

10 Dec, 17:30


Статья описывает концепцию результативного управления, где аналитика и оптимизация процессов помогают повышать эффективность работы и бизнес-показатели.

https://habr.com/ru/articles/864890/

Data Mining | Анализ данных🚀

09 Dec, 17:30


Заключительная статья раскрывает архитектуру BERT, использующую двустороннее внимание для контекстуального представления текста, что значительно улучшает производительность в задачах NLP, таких как классификация и извлечение информации.

https://medium.com/@vipra_singh/llm-architectures-explained-bert-part-8-c60c1d9ebc82

Data Mining | Анализ данных🚀

08 Dec, 17:31


Статья содержит ключевые аспекты реализации трансформера, включая многоголовое внимание, позиционные энкодирования и нормализацию слоев, а также их роль в обработке данных.

https://medium.com/@vipra_singh/llm-architectures-explained-coding-a-transformer-part-7-ca459ceceb61

Data Mining | Анализ данных🚀

07 Dec, 17:30


В статье исследуется то, как трансформеры используют механизмы внимания для эффективной обработки и генерации последовательностей, а также их ключевые преимущества по сравнению с предыдущими архитектурами.

https://medium.com/@vipra_singh/llm-architectures-explained-understanding-transformers-part-6-3a5573ed30e7

Data Mining | Анализ данных🚀

06 Dec, 17:31


Статья разбирает механизм внимания, позволяющий моделям фокусироваться на различных частях входных данных при их обработке.

Этот механизм значительно улучшает эффективность и точность обработки длинных последовательностей, особенно в задачах перевода и обработки текста.

https://medium.com/@vipra_singh/llm-architectures-explained-attention-part-5-495bbe3d278e

Data Mining | Анализ данных🚀

05 Dec, 17:31


Статья объясняет архитектуру энкодер-декодер и как она разделяет процесс кодирования, декодирования информации для улучшения производительности в задачах с последовательными данными.

https://medium.com/@vipra_singh/llm-architectures-explained-encoder-decoder-architecture-part-4-b96ace71394c

Data Mining | Анализ данных🚀

04 Dec, 17:30


Статья объясняет архитектуры RNN, LSTM и GRU, которые используются в моделях для обработки последовательных данных.

Далее писываются их особенности, преимущества и недостатки, а также их роль в улучшении производительности LMs.

https://medium.com/@vipra_singh/llm-architectures-explained-rnn-lstm-grus-part-3-c5e1cbfeda1d

Data Mining | Анализ данных🚀

03 Dec, 17:31


В статье рассматриваются способы представления слов в виде многомерных векторов, которые используются для обработки и анализа текста, а также их роль в обучении моделей

https://medium.com/@vipra_singh/llm-architectures-explained-word-embeddings-part-2-ff6b9cf1d82d

Data Mining | Анализ данных🚀

02 Dec, 17:31


В статье автор рассматривает архитектуру LLM в NLP, акцентируя внимание на трансформерах, их механизмах и подходах к обучению.

https://medium.com/@vipra_singh/llm-architectures-explained-nlp-fundamentals-part-1-de5bf75e553a

Data Mining | Анализ данных🚀

23 Nov, 18:01


В статье описываются ключевые принципы создания устойчивых ETL пайплайнов для обработки данных, акцентируя внимание на автоматизации, масштабируемости и обработке ошибок.

Также рассматриваются лучшие практики для интеграции различных инструментов и обеспечения качества данных в процессе анализа и ML.

https://www.kdnuggets.com/developing-robust-etl-pipelines-for-data-science-projects

Data Mining | Анализ данных🚀

22 Nov, 18:01


Статья знакомит с новым Python-менеджером пакетов, который призван улучшить работу с зависимостями и ускорить процесс разработки за счет оптимизированной архитектуры.

Инструмент предлагает решение для быстрого обновления пакетов и эффективного управления проектами, снижая сложность интеграции сторонних библиотек.

https://www.kdnuggets.com/new-python-package-manager

Data Mining | Анализ данных🚀

21 Nov, 18:01


Пять шпаргалок в DS, которые обобщают ключевые концепции и инструменты в области DS, ML статистики.

Эти ресурсы помогают быстро освоить основные методы и алгоритмы, необходимые для успешного старта в сфере данных.

https://www.kdnuggets.com/5-cheat-sheets-getting-started-data-science

Data Mining | Анализ данных🚀

20 Nov, 18:01


Статья рассказывает о том, как DS используется в социальных проектах для решения глобальных проблем, таких как экология, здравоохранение и образование.

Приводятся примеры реальных инициатив, где аналитика данных помогает организациям повысить свою эффективность и достичь позитивных изменений в обществе.

https://www.kdnuggets.com/data-science-for-social-good-real-world-projects-making-a-difference

Data Mining | Анализ данных🚀

19 Nov, 18:00


Статья о том, как GraphRAG улучшает традиционный метод RAG, интегрируя графы знаний с большими языковыми моделями, что позволяет более точно и контекстуализированно извлекать информацию для генерации ответов.

Автор описывает различные архитектуры GraphRAG, а также трудности, связанные с построением и поддержанием графов знаний.

https://gradientflow.substack.com/p/graphrag-design-patterns-challenges

Data Mining | Анализ данных🚀

18 Nov, 18:01


Статья описывает концепцию GraphRAG, объединяющая графы знаний с методами RAG для улучшения поиска и генерации ответов на основе структурированных данных.

Это позволяет моделям, таким как LLM, эффективно обрабатывать сложные и специализированные запросы, улучшая точность ответов.

https://www.kdnuggets.com/an-introduction-to-graph-rag

Data Mining | Анализ данных🚀

17 Nov, 18:01


Статья охватывает методы обучения машинных моделей без использования меток данных, включая обучение без учителя, самообучение и генеративные модели.

Эти подходы минимизируют зависимость от размеченных наборов данных и находят применение в задачах кластеризации, обработки изображений и текстов.

https://habr.com/ru/amp/publications/842444/

Data Mining | Анализ данных🚀

16 Nov, 18:01


Статья описывает методы обучения с использованием SVM, включая классификацию и регрессию.

Она объясняет основные параметры моделей SVM, их применение для линейных и нелинейных данных, а также методы оптимизации и выбора гиперпараметров для улучшения точности модели.

https://scikit-learn.ru/stable/modules/svm.html

Data Mining | Анализ данных🚀

15 Nov, 05:30


📌 Статья представляет основные библиотеки Python для машинного обучения, включая NumPy, Pandas, Scikit-learn, XGBoost, LightGBM и CatBoost.

Также упоминаются библиотеки для нейросетей (PyTorch, TensorFlow) и обработки данных (NLTK, OpenCV).

От экспертов даны рекомендации для начинающих по последовательности шагов в изучении машинного обучения.

Data Mining | Анализ данных🚀

14 Nov, 15:55


⚡️Статья описывает процесс создания датасета для ML,  начиная с сбора данных через краудсорсинг и заканчивая их очисткой и аннотированием.

Особое внимание уделяется рекомендациям по увеличению объема данных, балансировке классов и соблюдению этических норм.

Data Mining | Анализ данных🚀

11 Nov, 19:40


🤩Разбор регуляризации в глубоком обучении, подробно рассматривая компромисс между bias и variance для предотвращения переобучения и недообучения.

🩶Авторы охватывают различные методы регуляризации, включая L1, L2, Elastic Net, а также техники, такие как отсев, нормализация по батчам и аугментация данных, предоставляя обширный обзор для эффективного построения устойчивых моделей глубокого обучения.

https://theaisummer.com/regularization/

Data Mining | Анализ данных🚀

08 Nov, 21:17


🖇 Статья вводит в N-shot и zero-shot learning с использованием Python, обсуждая вызовы обучения сложных моделей на больших наборах данных и то, как трансферное обучение может

🫧 Предоставляет примеры применения zero-shot learning для задач классификации текста и распознавания именованных сущностей (NER) с использованием модели TARS. Также рассматривается one-shot learning с использованием Siamese Networks и набора данных MNIST в Keras.

🔖Акцент делается на демонстрации того, как эти техники предоставляют решения в сценариях с ограниченным или отсутствующим размеченным объемом данных.

Data Mining | Анализ данных🚀

03 Nov, 17:28


🔵В статье рассматриваются потенциальные области применения, процессы прогнозирования и валидации, шаги по построению и обучению forest-based forecast, выявление выбросов во временных рядах, результаты работы инструмента, оптимальные методы и ограничения.

Data Mining | Анализ данных🚀

02 Nov, 19:01


😑В статье рассматриваются темы, такие как исследование шаблонов пропущенных данных, выбор вспомогательных переменных, определение количества восполнений.

😠 Статья отвечает на вопросы о видах механизмов пропущенных данных, шагах множественного восполнения, значимости вспомогательных переменных и соображениях при выборе количества восполнений.

Data Mining | Анализ данных🚀

30 Oct, 03:19


Статья представляет обзор описательной статистики для распределений производительности. В ней рассматриваются такие аспекты, как центральная тенденция, квантильные оценки, скользящие квантильные оценки, вариация, плотность распределения, мультимодальность, теория экстремальных значений.

https://habr.com/ru/companies/jugru/articles/722342/

Data Mining | Анализ данных🚀

24 Oct, 20:27


👀 Шпаргалка по моделям на основе состояний с оптимизацией поиска и процессам принятия решений Маркова — подробный обзор методов оптимизации поиска, таких как обратный поиск, поиск в ширину, поиск в глубину, итеративное углубление, графовый поиск, динамическое программирование.

➡️ Также рассматриваются ключевые аспекты Марковских процессов принятия решений, включая оценку политики, итерацию значений, переходы и вознаграждения.

Data Mining | Анализ данных🚀

19 Oct, 15:58


Обзор посвящен малым языковым моделям, которые используются на мобильных устройствах. Исследуются их архитектуры, данные для обучения и производительность в задачах, таких как логические рассуждения и обучение на контексте.

Data Mining | Анализ данных🚀

16 Oct, 15:26


Bидео демонстрирует примеры кода для вычисления перестановочной важности в mlxtend и scikit-learn.

Перестановочная важность (Feature Permutation Importance) - универсальный и модельно-независимый способ вычисления значимости признаков на основе классификатора или регрессионной модели.


https://youtu.be/meTXOuFV-s8?si=WgXUPGXGcb6Ixnti

Data Mining | Анализ данных🚀

13 Oct, 17:16


⚡️Обзор посвящен малым языковым моделям, которые используются на мобильных устройствах. Исследуются их архитектуры, данные для обучения и производительность в задачах, таких как логические рассуждения и обучение на контексте.

Data Mining | Анализ данных🚀

09 Oct, 18:08


Разбираются формулы для оценки читаемости (формула Флеша-Кинкейда), затем автор переходит к более сложным подходам, включая использование человеческих бенчмарков, таких как CLEAR (CommonLit Ease of Readability) корпус, который позволяет оценивать тексты на основе их легкости восприятия человеком.

Завершающая часть статьи посвящена использованию LLMs, в частности модели GPT-4 Turbo, для оценки читаемости текстов и сравнения их с результатами, полученными с помощью традиционных формул.

Data Mining | Анализ данных🚀

06 Oct, 17:28


Зацените впн админов — https://vpnand.com/?ref=92

Будем рады обратной связи и поддержки скачиванием🫶🏻💙

Data Mining | Анализ данных🚀

05 Oct, 11:23


🔠Нашли для вас видео, где неплохо разъясняется понятие перестановочной важности, которая является универсальным и модельно-независимым способом вычисления значимости признаков на основе классификатора или регрессионной модели.

https://youtu.be/VUvShOEFdQo?si=6cmga6PCz19NC1H_

Data Mining | Анализ данных🚀

26 Sep, 15:33


Switch Transformers представляют новый подход к масштабированию моделей до триллионов параметров с помощью простой и эффективной разреженности.

Вместо того, чтобы использовать одни и те же параметры для всех входных данных, модели MoE выбирают разные параметры для каждого примера. Результатом является разреженно-активированная модель с огромным числом параметров, но постоянной вычислительной стоимостью.

Data Mining | Анализ данных🚀

25 Sep, 15:30


Обзор методов уменьшения размерности данных, включая PCA, t-SNE и UMAP, анализирует их преимущества и недостатки. Подходы к уменьшению размерности включают линейные (PCA) и нелинейные методы (t-SNE, UMAP), каждый со своими особенностями.

Также представлен инструмент TensorFlow Embedding Projector для визуализации данных. Обзор помогает понять, какой метод выбрать в зависимости от задачи.

Data Mining | Анализ данных🚀

23 Sep, 15:31


Представлены предварительно обученные авторегрессивные модели, которые решают задачу генерации 3D-сеток моделирования LLM.

В основе MeshXL лежит явное представление координат с неявными нейронными вложениями, которое является простым и эффективным способом моделирования последовательных сеток большого масштаба.

Data Mining | Анализ данных🚀

22 Sep, 18:06


https://vpnand.com/?ref=92

Наши друзья создали VPN. Рекомендуем. Скачивайте.

Мем для вас как бонус 💗

Data Mining | Анализ данных🚀

22 Sep, 15:38


Статья описывает новый метод поиска ближайших соседей с использованием анизотропной векторной квантизации в библиотеке ScaNN. Основное внимание уделено улучшению точности и скорости поиска на основе векторных эмбеддингов в больших данных.

Data Mining | Анализ данных🚀

22 Sep, 15:18


Авторы представляют сеть на основе трансформера, направленную на атрибутивное обучение без образцов.

Рна использует кодировщик для улучшения переносимости визуальных признаков и декодер для локализации атрибутов на изображении, что позволяет эффективно взаимодействовать между визуальными и семантическими данными.

Data Mining | Анализ данных🚀

21 Sep, 15:21


В статье представлен метод TranAD для обнаружения аномалий в многомерных временных рядах с использованием глубоких сетей трансформеров.

TranAD увеличивает F1-оценки на до 17%, сокращая время обучения на до 99% по сравнению с базовыми методами.

Модель использует внимание для кодирования данных и быстрого обнаружения аномалий, обеспечивая стабильное извлечение признаков и обучение с ограниченными данными через мета-обучение.

https://arxiv.org/pdf/2201.07284

Data Mining | Анализ данных🚀

20 Sep, 15:30


В статье исследуются различные гиперпараметры для популярных алгоритмов, таких как Ридж и Лассо Регрессия, Логистическая Регрессия, Метод Опорных Векторов, Метод К-Ближайших Соседей, Деревья Решений и Градиентный Бустинг. Кроме того, она обозначает преимущества и недостатки настройки гиперпараметров и демонстрирует, как ее выполнять с помощью Python, используя такие техники, как Coarse to Finer Approach с использованием RandomizedSearchCV и GridSearchCV.

Data Mining | Анализ данных🚀

19 Sep, 15:28


В статье обзор 62 методов обучения с учетом шумных меток, категоризированных по пяти группам в рамках DL.

Авторы также провели систематическое сравнение шести характеристик для оценки их эффективности, а также осветили методы оценки шума и используемые наборы данных и метрики оценки. В заключении выделены перспективные направления для будущих исследований.

https://arxiv.org/pdf/2007.08199

Data Mining | Анализ данных🚀

19 Sep, 07:10


🧢 ROI – университетское образование

Наткнулся на сайт, который сделал визуализацию метрики ROI (возврат инвестиций) образования в разбивке по направлениям и университетам. Потом они составили рейтинг университетов по этому показателю 🤲

Здесь можно посмотреть на рейтинг универов, а здесь — подробнее почитать про методологию. Вот небольшое саммари методологии:

Факторы, учитываемые в расчете ROI:

🕚Вероятность и сроки завершения обучения.

🕚Ожидаемые доходы и долги как для выпускников, так и для тех, кто не завершил обучение.

🕚Альтернативные издержки, связанные с отказом от немедленного выхода на рынок труда после школы.

Процесс расчета ROI:

🕚Прогнозируются денежные потоки на 40 лет, включая ожидаемый доход и обязательства по долгу студентов.

🕚Эти потоки приводятся к текущей стоимости с учетом коэффициента дисконтирования.

🕚Приведенная стоимость взвешивается на вероятность завершения обучения, так как выгоды от образования ощущаются только у тех, кто завершил обучение.

🕚Взвешенная приведенная стоимость сравнивается с расчетной NPV при немедленном выходе на рынок труда после школы для определения ROI.

Интерпретация ROI: Например, если программа имеет ROI $50,000, это означает, что студент, начавший эту программу, становится на $50,000 "богаче" (в текущих деньгах) по сравнению с тем, если бы он сразу вышел на рынок труда после школы.

Получилась довольно занимательная статистика — кто бы мог подумать, что после обучения на visual and performing arts люди в среднем получают меньше, чем после computer science? 🤔

Занимательно, что университеты стоимостью $20.000 в среднем имеют меньший ROI университетов с более дорогим образованием. Еще интересно было сравнить частные вузы с публичными — вторые стоят в два раза дешевле, но ROI показывают на уровне верхушки частных вузов 😊

Что думаете про визуализацию? Нужно ли школьникам учитывать подобные рейтинги и метрики при поступлении в универ и выборе направлении? Прожимайте реакцию 🧢 и переходите в комментарии

@tagir_analyzes

Data Mining | Анализ данных🚀

18 Sep, 15:30


Статья исследует, улучшает ли увеличение данных обобщение в обработке естественного языка (NLP), помогая моделям отказаться от поверхностных признаков в пользу более общих и сильных.

Исследование показывает, что увеличение данных может сначала ухудшить производительность, прежде чем начать помогать, и что его эффективность ограничена, если более сильный признак значительно сложнее извлечь, чем конкурирующий поверхностный признак.

https://arxiv.org/abs/2004.15012

Data Mining | Анализ данных🚀

17 Sep, 15:26


Cравнительный анализ стратегий обучения, которые используют как выбор признаков для работы с высокой размерностью, так и методы обучения с учетом стоимости для справления с дисбалансом классов. Эксперименты проводились на трех бенчмарках из геномной области, что позволило оценить влияние комбинации выбора признаков и обучения с учетом стоимости на несбалансированных данных.

https://peerj.com/articles/cs-832/

Data Mining | Анализ данных🚀

17 Sep, 14:38


https://vpnand.com/?ref=92

Наши друзья создали VPN. Рекомендуем. Скачивайте.

Мем для привлечения внимания 🌝❤️

Data Mining | Анализ данных🚀

16 Sep, 15:26


Рассматриваются основные аспекты Information Retrieval включая классические алгоритмы типа инвертированного индекса и модели мешка слов (BoW), применение современных методов глубокого обучения, таких как трансформерные модели, вроде BERT.