Data Science by ODS.ai 🦜

@opendatascience


First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @haarrp

Data Science by ODS.ai 🦜 (English)

Are you interested in Data Science? Looking for a reliable source of information on AI, Big Data, Machine Learning, Statistics, and general Math? Look no further than the Data Science channel by ODS.ai 🦜 on Telegram! This channel is the first of its kind, dedicated to providing subscribers with all the latest technical and popular news and updates in the world of Data Science. Whether you are a seasoned professional or just starting out in the field, this channel has something for everyone. From tutorials and guides to real-world applications and case studies, you will find a wealth of knowledge at your fingertips. The editors of this channel are experts in the field and are always available to answer your questions and provide guidance. To connect with them, simply reach out to @haarrp on Telegram. Don't miss out on the opportunity to stay informed and up-to-date on all things Data Science - join the Data Science channel by ODS.ai 🦜 today!

Data Science by ODS.ai 🦜

16 Oct, 14:02


🔥 NVIDIA silently release a Llama 3.1 70B fine-tune that outperforms
GPT-4o and Claude Sonnet 3.5


Llama 3.1 Nemotron 70B Instruct a further RLHFed model on
huggingface

🏆 85.0 on Arena Hard, 57.6 on AlpacaEval 2 LC, and 8.98 MT-Bench
🥇 Outperforms GPT-4o and Claude 3.5 Sonnet on these benchmarks
🍓 Can accurately answer "How many r's are in strawberry?"
🦙 Based on Llama-3.1-70B-Instruct and trained using RLHF (REINFORCE)
🧠 Released also Llama-3.1-Nemotron-70B-Reward #2 on RewardBench
🤗 Available on Hugging Face and NVIDIA

https://huggingface.co/collections/nvidia/llama-31-nemotron-70b-670e93cd366feea16abc13d8

@opendatascience

Data Science by ODS.ai 🦜

16 Oct, 13:00


🌟 Branch-Train-MiX: метод получения MoE-модели

Метод Branch-Train-MiX создает MoE-модель из dense-модели. Суть заключается в том, чтобы взять несколько одинаковых LLM, параллельно обучить их на разных датасетах и агрегировать предсказания каждой модели во время инференса.

После обучения все модели предлагается слить в MoE, чтобы FNN каждой базовой модели стал экспертом в соответствующем слое, и добавить роутер.


🟡 Страница проекта
🟡 Разбор метода


@ai_machinelearning_big_data

#MoE #LLM

Data Science by ODS.ai 🦜

15 Oct, 18:31


✔️ LVD-2M: A Long-take Video Dataset with Temporally Dense Captions

New pipeline for selecting high-quality long-take videos and generating temporally dense captions.

Dataset with four key features essential for training long video generation models: (1) long videos covering at least 10 seconds, (2) long-take videos without cuts, (3) large motion and diverse contents, and (4) temporally dense captions.

🖥 Github: https://github.com/silentview/lvd-2m

📕 Paper: https://arxiv.org/abs/2410.10816v1

🖥 Dataset: https://paperswithcode.com/dataset/howto100m

@opendatascience

Data Science by ODS.ai 🦜

15 Oct, 16:00


Вечерний митап для ML-инженеров в Белграде и онлайн

📅 17 октября в 18:00 собираемся в хабе «Сербская Роза», чтобы обсудить тренды, новые подходы, решения и вызовы индустрии в неформальной обстановке.

Спикеры и темы докладов:

🔸 Илья Ирхин, руководитель подразделения аналитики в Яндекс Еде. Подробно рассмотрит рекламу ресторанов в сервисе: аукцион, ранжирование, ценообразование

🔸 Дмитрий Солодуха, руководитель группы в Алисе и Умных устройствах Яндекса. Покажет, как мы учим Алису откликаться без имени

🔸 Антон Клочков, руководитель подгруппы распознавания текста в VLM в Яндекс Поиске. Расскажет о развитии навыков распознавания текста в VLM

🔸 Пётр Вытовтов, руководитель группы в Яндекс Погоде. Рассмотрит трансформеры сервиса и расскажет, как начать прогнозировать до миллиметра осадков

После докладов офлайн-участников ждёт нетворкинг с экспертами из разных компаний!

📎 Регистрация и подробности тут.

Ждём вас на ML Party в Белграде!

Реклама. ООО "Яндекс", ИНН 7736207543.

Data Science by ODS.ai 🦜

03 Oct, 22:24


🥪 TripoSR (MIT license) is now available on , free for individual use!

💳 For commercial use, you can generate around 350 - 3D objects for just $1 using runpod_io's serverless infrastructure. 🔥

🧬code: https://github.com/VAST-AI-Research/TripoSR
📄paper: https://arxiv.org/abs/2403.02151
🍇runpod: https://github.com/camenduru/triposr-tost
🍊jupyter: https://github.com/camenduru/TripoSR-jupyter

@opendatascience

Data Science by ODS.ai 🦜

03 Oct, 16:30


Яндекс запустил VLM в Нейро

Visual Language Model теперь работает в Поиске по картинкам и Умной камере Яндекса. ML-разработчик компании описал детали на Хабре.

VLM представляет собой новую стадию развития компьютерного зрения, расширяя возможности анализа изображений. Модель способна анализировать детали и отвечать на сложные вопросы пользователей. VLM решает многие задачи «из коробки», что делает её гибким инструментом. При небольшом дообучении она может достигать качества state-of-the-art в различных задачах компьютерного зрения.

🛠 Архитектура: LLM + картиночный энкодер + адаптер. В новом пайплайне VLM-рефразер и VLM-captioner

Подробности процесса создания и сравнение со старым LLM-пайплайном в статье:

▪️ Хабр

@opendatascience

Data Science by ODS.ai 🦜

23 Sep, 14:01


⚡️ Most of the models from Mistral are now available for free via the API

What is this attraction of unprecedented generosity? Your queries will probably be used to train new models (although this is not accurate).

https://docs.mistral.ai/getting-started/models/

#mistral #opensource

@opendatascience

Data Science by ODS.ai 🦜

23 Sep, 12:01


Нейроредактор Яндекс Браузера: ключевые особенности масштабного ИИ-проекта

Яндекс доработал возможности YandexGPT, превратив их в отдельный инструмент — нейроредактор. Теперь это не просто набор функций, а полноценный редактор, который создаёт тексты, исправляет ошибки и улучшает стиль, интегрированный прямо в Браузер.

Эксперименты разработчиков:
> Переход к архитектуре Encoder-Decoder, curriculum learning с постепенным усложнением примеров, предобучение на "грязном" датасете с искусственными ошибками. Эксперименты дали ускорение в 2 раза без потери качества, стабилизировали поведение на длинных текстах и в среднем обеспечили +10% качества на открытых датасетах.

К чему пришли:
>Надежная поддержка Маркдауна: раньше нейроредактатор некорректно обращался с разметкой, мог удалить или добавить спецсимволы, что делало результат непредсказуемым. Теперь, благодаря обучению на размеченных текстах, ручному восстановлению разметки и переобучению модели, достигнуто точное сохранение разметки 1:1 в процессе исправления ошибок.
>Новые возможности: перефразирование, упрощение/усложнение, перевод стиля, свободный ввод указаний (кастомный промт). Последний приближает нейроредактор к диалоговым ИИ-системам, позволяя решать любую задачу преобразования текста, не выбивая из состояния потока.

▪️Хабр

@opendatascience

Data Science by ODS.ai 🦜

15 Sep, 15:07


🌟 PuLID+FLUX: перенос внешности на генерации в FLUX .

PuLID (Pure and Lightning ID Customization) - метод генерации на основе внешности для диффузных моделей с управлением текстовым промптом. Ключевое преимущество PuLID состоит в его способности генерировать изображения с высокой степенью соответствия заданной личности, следуя заданным стилю и композиции.

PuLID для SD существует относительно давно и неплохо работал с моделями SDXL. Теперь этот метод стал доступен для FLUX-dev:

🟢ID-кодер перенесен из структуры MLP в структуру Transformer;

🟢добавлены дополнительные блоки перекрестного внимания чередованием с DIT-блоками для взаимодействия между ID и DIT;

🟢SDXL-Lightning, который в оригинальном методе PuLID отвечал за первоначальную генерацию шума в латентном пространстве, в PuLID для FLUX опционален;

🟢добавлена поддержка fp8-версий FLUX для запуска на потребительских GPU;

🟢запуск bf16 на RTX 3090-4090 возможен с параметром --aggressive_offload, но генерация будет выполняться очень, очень, очень медленно.

В PuLID for FLUX есть два критически важных гиперпараметра:

timestep to start inserting ID. Этот параметр управляет там, в какой момент ID (лицо с входного изображения) будет вставлен в DIT (значение 0 - ID будет вставляться с первого шага). Градация: чем меньше значение - тем более похожим на исходный портрет будет результат. Рекомендованное значение для фотореализма - 4.

true CFG scale. Параметр, модулирующий CFG-значение. Исходный процесс CFG метода PuLID, который требовал удвоенного количества этапов вывода, преобразован в шкалу управления чтобы имитировать истинный процесс CFG с половиной шагов инференса.

Для возможности гибкой настройки результатов, разработчик оставил оба гиперпараметра : CFG FLUX и true CFG scale. Фотореализм получается лучше с применением true CFG scale, но если финальное сходство внешности с оригиналом не устраивает - вы можете перейти на обычный CFG.

Запуск возможен несколькими способами: GradioUI, Google Collab (free tier), Google Collab (pro tier) или с одним из имплементаций для среды ComfyUI:

🟠собственная реализация сообщества ComfyUI;
🟠diffusers-based implementation.

⚠️ Важно!

🟢проект находится в бета-версии, точность ID может быть невысокой для некоторых мужcких лиц, возможно, модель нуждается в дополнительном обучении;

🟢для FLUX-FP8 версия Pytorch >= 2.0, для остальных >=2.4.1

▶️Установка и запуск GradioUI:

# clone PuLID repo
git clone https://github.com/ToTheBeginning/PuLID.git
cd PuLID

# create conda env
conda create --name pulid python=3.10

# activate env
conda activate pulid

# Install dependent packages
# 1. For SDXL or Flux-bf16, install the following
pip install -r requirements.txt

# 2. For Flux-fp8, install this
pip install -r requirements_fp8.txt

# Run Gradio UI
python app.py


📌Лицензирование : Apache 2.0 License.


🟡Arxiv
🟡Demo
🟡Google Collab
🖥Github


@ai_machinelearning_big_data

#AI #ML #FLUX #GenAI #PuLID

Data Science by ODS.ai 🦜

04 Sep, 17:05


This open-source RAG tool for chatting with your documents is Trending at Number-1 in Github from the past few days

🔍 Open-source RAG UI for document QA
🛠️ Supports local LLMs and API providers
📊 Hybrid RAG pipeline with full-text & vector retrieval
🖼️ Multi-modal QA with figures & tables support
📄 Advanced citations with in-browser PDF preview
🧠 Complex reasoning with question decomposition
⚙️ Configurable settings UI
🔧 Extensible Gradio-based architecture

Key features:

🌐 Host your own RAG web UI with multi-user login
🤖 Organize LLM & embedding models (local & API)
🔎 Hybrid retrieval + re-ranking for quality
📚 Multi-modal parsing and QA across documents
💡 Detailed citations with relevance scores
🧩 Question decomposition for complex queries
🎛️ Adjustable retrieval & generation settings
🔌 Customizable UI and indexing strategies

#rag #ml

Github

@opendatascience

Data Science by ODS.ai 🦜

02 Sep, 19:00


76-page survey paper on Prompting Techniques

Explores structured understanding and taxonomy of 58 text-only prompting techniques, and 40 techniques for other modalities.

📌 The paper focuses on discrete prefix prompts rather than cloze prompts, because prefix prompts are widely used with modern LLM architectures like decoder-only models. It excludes soft prompts and techniques using gradient-based updates.

📌 The paper identifies 58 text-based prompting techniques broken into 6 major categories:

1) In-Context Learning (ICL) - learning from exemplars/instructions in the prompt

2) Zero-Shot - prompting without exemplars

3) Thought Generation - prompting the LLM to articulate reasoning

4) Decomposition - breaking down complex problems

5) Ensembling - using multiple prompts and aggregating outputs

6) Self-Criticism - having the LLM critique its own outputs

📌 For ICL, it discusses key design decisions like exemplar quantity, ordering, label quality, format, and similarity that critically influence output quality. It also covers ICL techniques like K-Nearest Neighbor exemplar selection.

📌 Extends the taxonomy to multilingual prompts, discussing techniques like translate-first prompting and cross-lingual ICL. It also covers multimodal prompts spanning image, audio, video, segmentation, and 3D modalities.

📌 More complex techniques like agents that access external tools, code generation, and retrieval augmented generation are also taxonomized. Evaluation techniques using LLMs are discussed.

📌 Prompting issues like security (prompt hacking), overconfidence, biases, and ambiguity are highlighted. Two case studies - benchmarking techniques on MMLU and an entrapment detection prompt engineering exercise - are presented.

https://arxiv.org/abs/2406.06608

@opendatascience

Data Science by ODS.ai 🦜

02 Sep, 15:33


Законы масштабирования в больших моделях последовательных рекомендаций

Авторы из WeChat и Tencent разбирались, работают ли законы масштабирования нейросетей для рекомендательных систем. Главный вопрос — есть ли улучшение качества рекомендаций при увеличении количества обучаемых параметров? Короткий ответ — да.

Известно, что рост количества параметров моделей иногда коррелирует с улучшением качества решаемых задач. Больше всего работ посвящено законам масштабирования в языковых моделях. В них определяется эмпирическая зависимость функции потерь на отложенной выборке от характеристик обучения. Обычно рассматривают параметры энкодеров и/или декодеров. Для NLP зависимость в логарифмических координатах получается линейной.

В работе об SR авторы масштабировали декодер трансформера и вносили изменения в стратегии обучения, чтобы получить закон масштабирования для рекомендательных систем:
— Для слоёв в начале последовательности декодер-блоков применяли больший dropout-rate, а для слоёв на вершине — меньший, что позволило избежать оверфита.
— Сначала обучались с Adam до полной сходимости, а потом брали чекпоинты, с которых продолжали обучение при помощи SGD, потому что несмотря на лучшую сходимость, итоговый минимум у Adam получался хуже.

Историю взаимодействий форматировали как хронологическую последовательность ID айтемов. То есть задача решалась так же, как в случае с языковыми моделями. Исследователи не брали другую информацию (например, текст айтема), так как хотели изучить работу закона с т. з. поведения пользователя. Модели увеличивали до 0,8B параметров, сравнивая эффекты в разных диапазонах размеров.

Оказалось, закон масштабирования работает для SR-моделей даже в сценариях с ограниченным количеством данных. Авторы показали преимущество больших моделей и на сложных задачах рекомендаций: cold start, long tail, определяли траектории пользователей и смотрели, что происходит при мультидоменном трансфере — во всех случаях масштабирование улучшало результаты.

@RecSysChannel
Разбор подготовил Артем Матвеев

Data Science by ODS.ai 🦜

02 Sep, 10:17


🔥Introducing MLR-Copilot: autonomous machine learning research with LLM agents, which

→ generate research ideas
→ implement experiments
→ execute implementation with human feedback

📑Paper https://arxiv.org/abs/2408.14033
🔨Code https://github.com/du-nlp-lab/MLR-Copilot
🤗Demo https://huggingface.co/spaces/du-lab/MLR-Copilot

@opendatascience