Анализ данных (Data analysis)

@data_analysis_ml

Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

Анализ данных (Data analysis) (Russian)

Вы интересуетесь наукой о данных и анализом информации? Тогда канал "Анализ данных (Data analysis)" - это то, что вам нужно! Здесь вы найдете самую актуальную информацию о data science, науке о данных.

Администратор канала - @haarrp, который делится своим опытом и знаниями в этой области. Также, в канале вы найдете ссылки на другие полезные ресурсы, такие как @itchannels_telegram - главное в ит, @ai_machinelearning_big_data - ML и @machinelearning_interview - вопросы с собеседований по ML.

Присоединяйтесь к нам, чтобы быть в курсе всех новостей и тенденций в области анализа данных и получить ценные знания от экспертов в этой сфере!

Анализ данных (Data analysis)

23 Nov, 12:00

🔍 Instructor — библиотека для работы с структурированными выходными данными из больших языковых моделей (LLM)!

🌟 Она написана на Python и предоставляет упрощённый интерфейс для управления потоками данных LLM. Она включает функции для валидации данных, обработки ошибок и управления ответами моделей.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

2,005

Анализ данных (Data analysis)

23 Nov, 09:22

💥 Nvidia представили нового лидера в области создания 3D-моделей — Edify 3D AI.

Они обещают модели в разрешении 4K при 120 FPS, сетки с высокой детализацией геометрии, качественные текстуры и точные цвета альбедо (забавно, как они обозначили белый цвет).

Собственных моделей от Nvidia я пока не обнаружил, однако у них также есть нейросеть от Shutterstock, работающая по той же технологии.

📌 Смотреть

@data_analysis_ml

2,399

Анализ данных (Data analysis)

22 Nov, 16:10

🔥 LTX-видео

новая модель преобразования текста в видео позволяет создавать потясающие видеоролики высокого качества.

5 секунд видео со скоростью 24 кадра в секунду при разрешении 768x512 пикселей всего за 4 секунды на Nvidia H100.

Открытый код и веса

https://huggingface.co/spaces/Lightricks/LTX-Video-Playground

@data_analysis_ml

2,861

Анализ данных (Data analysis)

22 Nov, 14:23

Alibaba только что выпустила Marco-o1

Marco-o1 основан на тонкой настройке цепочки (CoT), поиске по дереву Монте-Карло (MCTS), механизмах рефлексии и инновационных стратегиях рассуждения, оптимизированных для решения сложных задач в реальном мире.

Благодаря файнтюнингу Qwen2-7B-Instruct с использованием комбинации отфильтрованного набора данных Open-O1 CoT, набора данных Marco-o1 CoT и набора данных инструкций Marco-o1, Marco-o1 улучшил обработку сложных задач.

MCTS позволяет исследовать множество путей рассуждений ИИ, используя показатели достоверности, полученные на основе логарифмических вероятностей, применяемых softmax для топ-k альтернативных токенов, что приводит модель к оптимальным решениям.

Более того, такая стратегия обоснованных действий предполагает изменение степени детализации действий в рамках шагов и мини-шагов для оптимизации эффективности и точности поиска.

▪HF: https://huggingface.co/AIDC-AI/Marco-o1
▪Github: https://github.com/AIDC-AI/Marco-o1
▪Paper: https://arxiv.org/abs/2411.14405
▪Data: https://github.com/AIDC-AI/Marco-o1/tree/main/data

@data_analysis_ml

3,055

Анализ данных (Data analysis)

22 Nov, 10:01

👩‍💻 mongoengine — Python-библиотека для работы с базами данных MongoDB, предоставляющая объектно-документный маппинг (ODM)!

🌟 Она позволяет разработчикам описывать документы в виде Python-классов с типизированными полями, делая работу с MongoDB удобной и похожей на использование ORM в реляционных базах.

🌟 Библиотека поддерживает валидацию данных, вложенные документы, связи между документами и удобные запросы через Python-методы. MongoEngine часто используется в проектах, где требуется сочетание гибкости MongoDB и строгой структуры данных.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

3,022

Анализ данных (Data analysis)

22 Nov, 08:01

Сегодня не можешь найти стажировку. Завтра — открываешь с ноги дверь в топовые компании и претендуешь на зп выше рынка. Как так? Очень просто со знанием SQL.

Как работать с данными на профессиональном уровне, рассказывают на курсе Нетологии «SQL и получение данных». За 2 месяца вы узнаете, как создавать собственные базы данных, станете асом в создании сложных запросов и сможете с первого раза находить нужную информацию в огромных таблицах.

Всё обучение построено с упором на практику: вы выполните 6 работ, а в конце самостоятельно развернёте и проанализируете базу данных. Как минимум — будет повод похвастаться друзьям, как максимум — добавить новый скилл в резюме и получить крутую работу.

Регистрируйтесь

Реклама. ООО "Нетология". Erid 2VSb5wdWG72

3,012

Анализ данных (Data analysis)

21 Nov, 17:36

🔥 Garak — инструмент от NVIDIA для автоматизированного тестирования безопасности и надежности крупных языковых моделей!

🌟 Он позволяет выявлять уязвимости, проблемы с устойчивостью и некорректные ответы моделей, применяя различные методики тестирования. Это помогает разработчикам и исследователям совершенствовать модели и повышать их качество.

🌟 Инструмент также поддерживает расширение функциональности: пользователи могут добавлять свои собственные тесты, создавая кастомные модули.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml

3,506

Анализ данных (Data analysis)

21 Nov, 14:52

⚡️

SANA: Генерация изображений изображений высокого разрешения от Nvidia Labs.

Sana - семейство моделей для генерации изображений с разрешением до 4096x4096 пикселей. Главное преимущество Sana - высокая скорость инференса и низкие требования к ресурсам, модели можно запустить даже на ноутбуке.

Секрет эффективности Sana в ее архитектуре, которая состоит из нескольких инновационных компонентов:

🟢Deep Compression Autoencoder (DC-AE)
Сжимает изображение в 32 раза, в результате чего значительно сокращается число латентных токенов, что, в свою очередь, повышает эффективность обучения и позволяет генерировать изображения с разрешением 4K.

🟢Linear Diffusion Transformer (Linear DiT)
Использует линейное внимание вместо традиционного, ускоряя генерацию с разрешением 4K в 1.7 раза.

В Linear DiT вместо модуля MLP-FFN используется Mix-FFN, который объединяет в себе свертку 3x3 и Gated Linear Unit (GLU). Mix-FFN позволяет отказаться от позиционного кодирования без потери качества.

🟢Decoder-only Small LLM as Text Encoder
Энкодер, основанный на LLM Gemma, который лучше понимает текстовые запросы пользователя и точнее передает их смысл на генерации.

Для точного соответствия "текст - изображение" при обучении энкодера применялись "сложные человеческие инструкции" (CHI), которые научили Gemma учитывать контекст запроса.

Sana создавалась с помощью уникальной стратегии обучения и выборки. В процессе обучения используются несколько VLM (VILA, InternVL2) для создания различных аннотаций к каждому изображению. Затем, на основе CLIP-оценки, были отобраны наиболее подходящие пары "текст-изображение".

Обучение происходило постепенно, начиная с разрешения 512x512 и заканчивая 4096x4096, а алгоритм Flow-DPM-Solver ускорил процесс выборки, сократив количество шагов по сравнению с Flow-Euler-Solver.

Результаты тестирования Sana впечатляют:

🟠Sana-0.6B, работающая с изображениями 512x512, в 5 раз быстрее, чем PixArt-Σ, при этом показывает лучшие результаты по метрикам FID, Clip Score, GenEval и DPG-Bench.

🟠При разрешении 1024x1024 Sana-0.6B в 40 раз быстрее PixArt-Σ.

🟠Sana-0.6B превосходит по скорости Flux-12B в 39 раз при разрешении 1024x1024) и может быть запущена на ноутбуке с 16 GB VRAM, генерируя изображения 1024x1024 менее чем за секунду.

⚠️ Для локального инференса модели 0.6B требуется 9GB VRAM, а для модели 1.6B - 12GB VRAM.

▶️ Установка и инференс c GradioUI:

# official online demo
DEMO_PORT=15432 \
python app/app_sana.py \
      --config=configs/sana_config/1024ms/Sana_1600M_img1024.yaml \
      --model_path=hf://Efficient-Large-Model/Sana_1600M_1024px/checkpoints/Sana_1600M_1024px.pth

🟡Страница проекта
🟡Коллекция моделей на HF
🟡Arxiv
🟡Demo
🖥GitHub

@ai_machinelearning_big_data

#AI #ML #Diffusion #SANA #NVIDIA

2,796

Анализ данных (Data analysis)

21 Nov, 10:04

🔉 Новая модель на базе Whisper конкурирует с Nvidia в открытой таблице лидеров ASR! 🔥

Crisper Whisperer может расшифровать каждое произнесенное слово в точности так, как оно есть, включая вводные слова, паузы, заикания.

Слитно доработан по сравнению с версией Whisper Large V3.

🔗 Чекпоинты: https://huggingface.co/nyrahealth/CrisperWhisper
🔗 Лидерборд: https://huggingface.co/spaces/hf-audio/open_asr_leaderboard

3,620

Анализ данных (Data analysis)

21 Nov, 08:00

Умножаем любовь к математике, чтобы разделить ее с вами

ИТ-специалисты, слышали, скоро День математика?

1 декабря пройдут главные онлайн-события мероприятия: доклады от профессоров математики из МФТИ, ВШЭ и ЦУ и математический диктант. Хорошая возможность пообщаться с единомышленниками и просто классно провести время.

А пока ждете праздника, банк подготовил активности на весь месяц. Будут лекции и многое другое. Выбирайте на сайте, что нравится больше. И регистрируйтесь, чтобы ничего не пропустить

3,268

Анализ данных (Data analysis)

20 Nov, 19:00

📝 LLM Graph Builder — инструмент для создания графов знаний на базе базы данных Neo4j, преобразуя неструктурированные данные (например, текстовые файлы, PDF-документы, видео с YouTube, веб-страницы) в структурированные графы!

🌟 Он использует возможности ИИ-моделей, от OpenAI и LangChain, для извлечения сущностей, их связей и атрибутов из данных.

🔍 Основные функции:

🌟 Генерация графов знаний на основе предоставленных данных.

🌟 Возможность работы с собственными схемами данных или готовыми шаблонами.

🌟 Просмотр графов через Neo4j Bloom и взаимодействие с ними с помощью запросов.

🌟 Интеграция с локальными файлами, S3, YouTube и другими источниками данных.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml

4,048

Анализ данных (Data analysis)

20 Nov, 16:50

🔥 Data Science и рок-концерт — Альфа-Банка зовёт на митап в гараже

🌟 22 ноября в Санкт-Петербурге пройдет офлайн-встреча для специалистов DS. На ней обсудят новые инструменты Data Science и кейсы их применения в работе. Например, в оптимизации доставки, работе с банкоматами и машинном обучении в подборе сотрудников. Будет 7 лекций, дискуссия с экспертами рынка и вечеринка с рок-группой в финале.

Адрес: ул. Газовая 10Ж, 2 этаж башни-газгольдера
Старт: 22 ноября в 18:00
Цена: бесплатно

🔗 Зарегистрироваться нужно заранее: https://alfa.me/-En1LR?channel=data_analysis_ml&erid=2Vtzqvh8Gkn

@data_analysis_ml

3,798

Анализ данных (Data analysis)

20 Nov, 16:01

🖥 cuGraph — это библиотека от RAPIDS, которая предоставляет высокопроизводительные алгоритмы анализа графов, оптимизированные для работы на GPU!

🌟 Она интегрируется с другими инструментами RAPIDS, такими как cuDF (аналог Pandas для GPU) и cuML (машинное обучение на GPU), что упрощает обработку больших графов, включая создание, анализ и выполнение сложных операций, таких как PageRank, центральности, кластеризация и поиск связанных компонентов.

💡 Библиотека предлагает Python API с интерфейсом, похожим на NetworkX, и более низкоуровневые API для интеграции с C++/CUDA. Она поддерживает различные форматы данных, такие как DataFrames из cuDF, Pandas или объекты NetworkX, и позволяет работать с графами на многогранных GPU-кластерах. CuGraph активно используется для анализа больших графов в задачах, связанных с машинным обучением и обработкой данных в реальном времени.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml

3,586