RnD CV Team @rndcv_team Channel on Telegram

RnD CV Team

@rndcv_team


Канал команды RND CV.
Repo: https://gitlab.aicloud.sbercloud.ru/rndcv

Тут будем делиться нашими результатами и факапами, мыслями и идеями в Computer Vision и не только.

RnD CV Team (Russian)

Добро пожаловать в канал команды RND CV! Здесь мы делимся нашими результатами и факапами, мыслями и идеями в области Computer Vision и не только. Наш репозиторий находится по ссылке: https://gitlab.aicloud.sbercloud.ru/rndcv. Мы - команда профессионалов, увлеченных миром компьютерного зрения. Если вас интересует развитие этой технологии, новейшие разработки и тенденции в этой области, то наш канал - идеальное место для вас! Присоединяйтесь к нам, чтобы быть в курсе всех событий и делиться своими идеями. Мы ждем вас в команде RND CV Team!

RnD CV Team

19 Nov, 09:53


Всем привет! 👋

⚡️ Этой осенью мы выступили на конференции Ai Conf 2024. За два дня конференции мы представили 6 докладов, а также приняли участие в панельной дискуссии о будущем искусственного интеллекта. Записи докладов доступны на YouTube по ссылкам ниже.

Фокусом выступлений были большие языковые модели и мультимодальность:

🎤 Алёна Феногенова рассказала про то, как обратная связь от пользователей помогла улучшить бенчмарк MERA и сделать его новую версию более объективной;
🎤 Доклад Бориса Жесткова посвящён использованию LLM для задач в аудиодомене: для понимания, распознавания и генерации речи;
🎤 Эмиль Шакиров разобрал все этапы работы с визуальными языковыми моделями от выбора архитектуры и сбора данных до запуска экспериментов;
🎤 Дмитрий Антипов рассказал о процессах сбора и разметки огромных корпусов мультимодальных данных в эпоху больших языковых моделей;

Также мы представили 2 доклада в области компьютерного зрения:
🎤 Петр Суровцев поделился опытом создания датасета жестового языка: как мы собирали данные, с какими трудностями столкнулись, и что у нас получилось;
🎤 Елизавета Петрова рассказала про задачу портретной гармонизации: как мы разработали архитектуру для её решения и создали дататсет для портретной гармонизации из открытых источников.

🗣️ Также на конференции Александр Абрамов, автор канала @dealerAI, вместе с коллегами из других компаний обсудили будущее искусственного интеллекта: как LLM меняют рынок труда, как работать с этикой и безопасностью моделей, и что ждёт нас всех в скором будущем в контексте развития AI. Ответы экспертов на эти и другие вопросы прозвучали на панельной дискуссии.

Будем рады вашей обратной связи! 💙
#news

RnD CV Team

15 Nov, 10:38


🚀 Опубликовали наш новый препринт: GigaCheck: Detecting LLM-generated Content 📄
Технология та же, что и в продукте, но перенесли на открытые модели и англоязычные тексты.

TL;DR Вынесли вообще всех.

Давайте по деталям.
В статье мы выделяем две подзадачи: определяем, написан ли текст человеком или генеративной моделью (LLM) и находим конкретные AI-интервалы 🤖

🔍 Первая задача — классификация текста — решается с помощью файнтюна LLM модели общего назначения. В исследовании мы использовали высокопроизводительную Mistral-7B, которая превосходит другие модели аналогичного размера во многих задачах.

🔎 Вторая задача — детекция AI-интервалов — решается нами с помощью модели DN-DAB-DETR, адаптированной из области компьютерного зрения. DETR модель обучается на фичах от зафайнтюненной LLM, однако, если данных для обучения LLM на классификацию недостаточно, используем фичи от исходной Mistral-7B-v0.3

Для подтверждения эффективности методов мы провели обширные эксперименты на различных датасетах. На пяти классификационных наборах данных обученные нами модели продемонстрировали SOTA результаты, а также показали высокие метрики в out-of-distribution экспериментах, работая с данными из доменов, отличающихся от встречавшихся в обучении, или от генераторов, не участвующих в создании обучающей выборки. Наша модель также успешно обошла Paraphrasing Attack🛡️

📊 Для оценки DETR детектора мы использовали четыре набора данных: RoFT, RoFT-chatgpt, CoAuthor и TriBERT.
Первые два датасета ориентированы на поиск границы между частями текста, написанными человеком и AI, второй содержит произвольное количество интервалов для каждого текста, третий — один или два интервала.
📝 Для корректного сравнения с другими работами мы переводим наши предсказания из интервального вида к предложениям.
🎉 Во всех экспериментах, включая out-of-domain, предложенный нами подход показал выдающиеся результаты!
До нас ещё никто не применял Detection Transformer для анализа сгенерированного текстового контента.

CV-шники идут в NLP 😎

Мы надеемся, что наш метод вдохновит будущих исследователей! 📈

📖 Статья тут
🌐 Лендинг тут
🤖 Телеграм-бот тут

RnD CV Team

02 Nov, 11:06


GigaChat Max! 👋

Команда GigaChat представляет новую, самую мощную модель — GigaСhat MAX. Она доступна в tg-боте, веб-версии, а также через публичное API (в режиме раннего доступа).

Новая модель понимает визуальную модальность, а также уверенно шагает вверх по бенчмаркам:
— 3 место на MERA, за gpt-4o и Llama-405B
— 92% правильных ответов на GSM-8k, 80% на MMLU и 75% на MMLU-RU
— на SBS с учётом красоты ответов модель выигрывает в 61% случаев у GPT-4 turbo и в 67% случаев у YaGPT-4 Pro.
— на Arena-Hard модель достигает 51% скора против GPT-4-0314
— на Vkhr Arena-General-RU модель достигает 90%, в то время как YaGPT-4 Pro достигает 59%.

Команда подготовила статью на Хабре, где раскрываются технические детали разработки и рассказывается о том, как GigaСhat MAX стал ещё умнее и мощнее. 💪

Следите за новостями в канале разработчиков GigaChat. 👋
#release #news

RnD CV Team

31 Oct, 10:52


JESTJoint Example SelecTion

📜 Статья от DeepMind 2024 года, описывающая обучение на сложных батчах (hard negatives) для CLIP-ранжировщиков. Вклад статьи: умный batch composition и уменьшение затрат на обучение. Авторы создают JEST — модель, обучаемая в разы быстрее, чем SigLIP.

👋 Batch composition:
— Подход, похожий на дистилляцию, в котором есть learner-модель, которая обучается, и reference-модель, которая уже умеет решать задачи zero-shot classification/retrieval.
— В методе явно выделены 2️⃣ стадии: inference (pseudo-labeling) на большом батче и forward + backward на малом, но сложном.
— Исходный большой батч от даталоадера просеивается на 80-90%. Оставшиеся 10-20% собираются итерационно на основе прогнозов learner и reference моделей. Через получившийся сложный батч 💪 будет считаться backward для learner-модели.
— Сложный батч собирается по итерациям, исходя из разницы матриц ошибок learner и reference-моделей для большого батча. На каждой итерации в сложный батч сэмплируются примеры, образующие с уже имеющимися наибольшую ошибку (похожие на имеющиеся).

👋 Training cost:
— Авторы снижают затраты на обучение, меняя ViT на Flexi-ViT 🎉, метрика которого максимизируется с двумя patch sizes — 16 и 32. На первой стадии используется модель с patch size 32 (что уменьшает FLOPs на 72% по сравнению с patch size = 16).
— Сформировав сложный батч, половина его примеров обрабатывается с patch size 16, а другая с patch size 32 (multi-resolution training).

Reference-моделью является SigLIP, прогнозы которого лучше закэшировать т.к. в этом сетапе он не обучается.
Авторы тюнят reference-модель на 2 версиях своего датасета: WebLI-curated и WebLI-curated++ (в 7 раз больше данных; 100M 🆚 700M). Датасеты очень хорошо отфильтрованы 👍.

Архитектура, использующая Flexi-ViT в качестве vision tower называется Flexi-JEST, иначе просто JEST. Если reference-модель была затюнена на WebLI-curated++, то к модели приписывается «++».

💪 В итоге авторы создают модель Flexi-JEST++, которая тратит на обучение в 9 раз меньше FLOPs, чем SigLIP (2023 года), достигая при этом сопоставимых метрик.
⚡️ Но и без замены vision tower, авторы демонстрируют как JEST++ тратит 23% FLOPs по сравнению с SigLIP только за счет обучения на hard negative батчах.

Мы опробовали batch composition авторов, и подтверждаем, что метод докидывает в качестве по сравнению с обучением на большом батче, в котором примеры фильтровались независимо (а не совместно).

Автор: @darkasevgen
#paperwatch

RnD CV Team

25 Oct, 08:30


Как научить LLM понимать видео? (Часть 2)

⚡️Доступность большого количества открытых и качественных видео-датасетов — важный фактор ускорения прогресса в области понимания видео с помощью LLM. Но имеющиеся инструктивные датасеты для обучения таких моделей, как правило, размечены на английском или китайском языках. Как добиться того, чтобы модель могла поддержать диалог по видео на русском языке?

📹 В статье разобрали практический кейс улучшения ответов Video-LLM на естественном русском языке: сбор бенчмарка для оценки, виды заданий и метрики, генерация русскоязычного инструктивного видео-датасета для обучения, эксперименты и результаты.

📄 Читайте обзор кейса в статье на хабр от участников направления видео в мультимодальности из команд RnD CV и RnD XR.

RnD CV Team

23 Oct, 08:21


🔥 CV-технологии на международных конференциях!

Наши команды разрабатывают и внедряют самые разные технологии в современные продукты. Недавно прошли две крупные конференции ICTWeek и GITEX, где мы представили наши разработки и рассказали инженерам и бизнесменам из разных международных компаний о своих достижениях.

💻 Известный вам тренажер по распознаванию жестовых языков. В команде RnD CV под руководством @karinakvanchiani собрали самый большой открытый датасет РЖЯ, обучили SotA 🌿 модели по распознаванию русского и американского жестовых языков, и создали полноценный тренажер для изучения жестовой речи!

🖼 Команда RnD OrBB (да-да, в честь персонажа из Quake) @balievdmitri работала над задачей портретной сегментации и внедрила технологии замена фона и бьютификации в сервис видео-конференций SberJazz. Модели работают в режиме реального времени 🚀 и не требуют огромных вычислительных ресурсов. А для задачи сегментации и фейс парсинга мы выложили в открытый доступ EasyPortrait.

👁 Команда Layer CV под руководством @wild_chlamydia_work представила технологии определения пола и возраста, основанные на state-of-the-art 🌿 подходах MiVOLO. Данные и модели также доступны в опенсорс!

RnD CV Team

16 Oct, 09:00


Алфавит РЖЯ! 🔠

Всем привет! Сегодня мы представляем Bukva — открытый датасет для задачи распознавания русского дактильного алфавита. Читайте нашу статью, в которой мы расскажем, как собирали датасет и обучали на нём легковесные модели, способные распознавать дактиль в режиме реального времени.

Особенности:
👾 3757 HD+ видео,
💯 в среднем по 100 видео на класс,
👩‍💼 155 экспертов РЖЯ,
💪 самый разнородный по субъектам,
👥 высокое качество разметки,
🌿 легковесный и быстрый бейзлайн.

📖 Статья 💻 Код 👉 Habr

RnD CV Team

15 Oct, 09:42


Ищем CV-инженера в RnD (Middle/Middle+)! 👋

Задачи:
— Мультимодальность: работа с VLM в задачах понимания изображений и видео, а также редактирования изображений
— Распознавание непрерывного жестового языка (РЖЯ)
— Постановка гипотез, проведение экспериментов, подготовка пайплайнов SFT, претрейна и валидации
— Написание научных статей

Ожидания:
— хороший уровень Python 🐍
— отличное понимание ML и CV 🏞
— опыт работы с мультимодальными архитектурами 👥

Будет плюсом:
— знание классических алгоритмов Computer Vision 👁
— опыт публикаций, выступления на конференциях и написания научных статей 🗣

По всем вопросам @m_ovsepyan 🖤
#job #вакансия

RnD CV Team

10 Oct, 07:55


👁 Как научить LLM понимать видео?

⚡️ Быстрое развитие Vision LLM (VLLM) в 2023–2024 годах дало возможность значительно приблизить понимание видео нейросетями к тому, как это делает человек. VLLM способны давать ответы на самые разнообразные вопросы по видео на естественном языке. При этом, инструктивное обучение позволяет научить одну модель решать множество задач понимания видео, а большой объем знаний LLM и понимание разнообразного контекста позволяют VLLM анализировать содержание видео и делать сложные выводы.

📹 В статье разберем следующие решения: Flamingo, VideoChat, Video-ChatGPT, Valley, эволюцию семейства LLaVA, LITA и Video-SALMONN (объединяющую визуальный домен и модальность звука).

📄 Читайте обзор подходов в статье на хабр, которую написала Ярославцева Марина @anylit , лид направления видео в мультимодальности из команды RnD XR.

RnD CV Team

09 Oct, 12:00


🌿 Наши коллеги из Layer CV выбивают очередную SotA! 🌿

На прошлой неделе ребята опубликовали работу: "Saliency-Guided DETR for Moment Retrieval and Highlight Detection". В ней авторы предлагают новый способ поиска ключевых моментов в видео релевантных текстовым запросам пользователей.

Модель SG-DETR демонстрирует SOTA-метрики на всех ключевых бенчмарках: Charades-STA, TACoS, TVSUM и YouTube Highlights. Особо впечатляющим стал результат на главном бенчмарке QVHighlights, где модель опередила предыдущее решение с невероятным гэпом в 7.44 п.п. 🌿

Препринт версия работы доступна на arXiv и PwC. И уже совсем скоро будет опубликован код, веса модели и наш датасет. Будем рады вашим отзывам и комментариям! 📚

А ещё Марина Бессмертная на RnD Day рассказала в своем докладе "Тихо! Сейчас будет та самая сцена" об автоматизированном пайплайне для анализа видеоконтента. 📹

RnD CV Team

04 Oct, 09:54


🤖 Фреймворк для агрегации разметки в CV

Привет! У нас хорошие новости!
Мы выложили в открытый доступ AggMe — фреймворк, основанный на методах агрегации разметки с перекрытием. 1️⃣2️⃣3️⃣

Он позволяет усреднять разметку трех типов: bounding boxes, сегментационные маски и временные интервалы (для видео и аудио). А для наиболее эффективной работы поддерживаются 3 метода агрегации: Hard, Drop и Soft, которые по-разному влияют на финальный результат. Важно отметить, что агрегировать можно разметку из любых источников: будь то разметка человеком с крауда, сетками или полученная классическими алгоритмами.

Мы активно используем aggme в своей работе и даже интегрировали его в наши платформы разметки, а теперь решили поделиться им с вами.

Почитать об идее создания фреймворка и о проблемах, которые он решает, можно в нашем посте.
Ждем ваши контрибьюты и багрепорты! Хорошего дня!

🖥 GitHub

RnD CV Team

03 Oct, 12:17


Коллеги в команду CDO / SalutEye ищут Senior Data Engineer 👋

Задачи:
- Развивать платформу как self-service для аналитиков – разрабатывать новые сервисы и фичи для удобства пользователей.
- Участвовать в проектировании и модернизации инфраструктуры.
- Поддерживать существующий функционал.
- Внедрять процедуры контроля качества данных.
- Оптимизировать и автоматизировать существующие процессы – никакого массового ручного клепания витрин и написания одинаковых ETL.
- Генерировать идеи, как сделать еще круче, чем уже есть :)

Ожидания:
- Практический опыт работы с Python 3, базовый опыт с GoLang приветствуется.
- Опыт оптимизации SQL запросов, понимание внутреннего устройства БД (у нас ClickHouse и GaussDB - аналог GreenPlum).
- Базовый опыт администрирования БД.
- Навыки работы с unix-подобными системами, знание базовых команд.
- Базовые навыки DevOps (Docker, Kubernetes, Ansible, Terraform).

Плюсом:
- Практический опыт работы с облачными платформами управления данными (у нас SberCloud / Huawei Cloud).
- Практический опыт работы со стеком технологий Big Data (особо интересует Kafka и Spark).
- Практический опыт участия в проектах по созданию DWH, Data lake, Data management platforms, опыт построения и развития высоконагруженных систем приветствуется.

По всем вопросам: @m_ovsepyan

RnD CV Team

03 Oct, 09:07


🎤 Запись голосовых сообщений как способ улучшить описания картинок

🏞 На днях исследователи из института Аллена предложили интересный способ сбора описаний для картинок: дать возможность разметчикам вместо больших текстов записывать аудио-сообщения с описаниями.

🏆 Это позволило им сократить время на сбор датасета, снизить затраты и собрать более качественные данные.

Мы не могли пройти мимо и решили попробовать такой способ сбора данных в одной из своих задач.

📄 Наши коллеги написали пост, в котором более детально описали проблему и предложили возможность повторить эксперимент.

Тык: https://habr.com/ru/articles/847780/

RnD CV Team

02 Oct, 14:17


Коллеги в команду к @igeti ищут 2 стажеров в CV и NLP трек! 👋

Задачи:
— Организация и автоматизация процесса разметки (от поиска данных до проверки качества за crowdsource разметкой)
— Сбор данных из различных источников для NLP задач
— Релизы новых моделей в среды исполнения для наших пользователей
— Дообучение и/или использование готовых LLM для QA, Retrieval, Conditional summation via instruction, Generative Search и Agent for Action (для композциии базовых навыков в более сложные)

Ожидания:
— Отличное знание PyTorch, Numpy, Sklearn, Pandas 🐍
— Хорошее знание алгоритмов и структур данных 👁
— Python3, ООП, SOLID, знание основ Git, Docker
— Опыт разработки/обучения/внедрения: Text classification, NER, QA, summarization 🏞
— Знакомство с LLM, prompt engineering, дообучение GPT-like моделей 👥

Плюсом:
— Хороший профиль на GitHub
— Медальки на Kaggle
— Опыт организации процессов разметки данных

От нас:
💻 атмосфера стартапа внутри большой компании
отсутствие проблем с вычислительными мощностями
📚 конференции и обучение
🏙 современный и удобный Agile-офис
💊 ДМС, сниженные ставки по кредитам, программы лояльности для сотрудников
⚙️ бесплатный фитнес-зал, парковка на территории офиса, снеки, чай, кофе
💰 конкурентная зарплата!

Локация: Москва

Наше недавнее выступление по одному из направлений:
https://www.youtube.com/watch?v=3IN4hLSYVJ4

По всем вопросам: @karprokar

RnD CV Team

27 Sep, 09:23


Релиз сайта словаря РЖЯ

Друзья! Наша команда с радостью сообщает, что мы запускаем открытый видео-словарь русского жестового языка (РЖЯ) 🚀

🤔 Почему это важно?
В открытом доступе практически нет качественных образовательных ресурсов для полноценного изучения РЖЯ. Именно поэтому, при поддержке «Центра образования и исследования жестового языка», мы начали работу над созданием обновляемого видео-словаря для всех желающих.

🎥 Что особенного в нашем словаре?
Каждый жест в словаре сопровождается несколькими вариантами перевода на русский язык. Для удобства обучения видео записаны с двух ракурсов, есть возможность посмотреть видео с замедлением, показана вариативность жестов и их контекст использования.

💻 Что доступно сейчас?
На сайте уже доступны 385 уникальных жестов в FullHD качестве и около 750 вариантов перевода. И это только начало!

⚙️ С заботой о пользователях
Мы внедрили поддержку обработки ошибок и предложений для улучшения контента. Ваши отзывы помогут сделать ресурс ещё лучше.

Мы надеемся, что этот сайт станет настоящим местом притяжения для людей с нарушением слуха, лингвистов и всех, кто интересуется РЖЯ 💬👋

Заходите на сайт и изучайте жестовый язык с удовольствием! 😎