RnD CV Team @rndcv_team Channel on Telegram

RnD CV Team

@rndcv_team


Канал команды RND CV.
Repo: https://gitlab.aicloud.sbercloud.ru/rndcv

Тут будем делиться нашими результатами и факапами, мыслями и идеями в Computer Vision и не только.

RnD CV Team (Russian)

Добро пожаловать в канал команды RND CV! Здесь мы делимся нашими результатами и факапами, мыслями и идеями в области Computer Vision и не только. Наш репозиторий находится по ссылке: https://gitlab.aicloud.sbercloud.ru/rndcv. Мы - команда профессионалов, увлеченных миром компьютерного зрения. Если вас интересует развитие этой технологии, новейшие разработки и тенденции в этой области, то наш канал - идеальное место для вас! Присоединяйтесь к нам, чтобы быть в курсе всех событий и делиться своими идеями. Мы ждем вас в команде RND CV Team!

RnD CV Team

24 Jan, 08:52


Всем привет!
Сегодня мы расскажем о статье SignCLIP: Connecting Text and Sign Language by Contrastive Learning, которая была представлена в прошлом году на конференции EMNLP. Авторы статьи применяют идею Contrastive Pretraining из CLIP’а, чтобы спроецировать текст и видео жестовой речи в одно внутреннее пространство. Примечательно, что в своей работе авторы используют мультиязычный корпус жестовой речи.

Жестовые языки обладают таким интересным свойством, как иконичность — это значит, что жест часто визуально напоминает предмет, который он обозначает. Благодаря этой особенности перевод между двумя жестовыми языками зачастую оказывается проще, чем между разговорными языками, так как многие жесты внешне похожи (например, на картинке выше жест «дом» выглядит схожим образом на разных языках: руки как бы образуют крышу). Поэтому Contrastive Pretraining на разных жестовых языках способен выделить более информативные визуальные признаки, а также решить проблему нехватки данных в этом домене.

Авторы обучили модель VideoCLIP на большом корпусе жестовой речи, содержащем более 500 тысяч видео с жестами 44 разных языков. Модель была обучена в двух версиях:

💮 FingerCLIP
Сначала для проверки своей гипотезы авторы обучают мини-версию модели только на видео с изолированным дактилем (то есть отдельными буквами жестового алфавита); полученная модель с большим отрывом обходит supervised-метод, с которым авторы сравниваются.

💮 SignCLIP
Затем авторы обучают полную версию модели на всем корпусе жестовых языков, после чего замеряются на популярных бенчмарках американского жестового языка и получают метрики, сравнимые с SOTA-решениями.

Также авторы сделали SignCLIP доступным по API и опубликовали ноутбук, где можно протестировать своё видео или изучить эмбеддинговое пространство модели. Так, пользуясь классическим примером, авторы демонстрируют, что выученные эмбеддинги отражают семантику жестов (см. вторую картинку).

📖 ArXiv
📔 Colab Notebook

😎 Обзор подготовила Петрова Елизавета @lizaforlizard

RnD CV Team

22 Jan, 10:00


Давно не было обзоров! Исправляем )

SVGFusion: Scalable Text-to-SVG Generation via Vector Space Diffusion
от создателей SVGDreamer

Предложенный подход позволил авторам получить SOTA метрики с огромным отрывом по FID (показателю, оценивающему визуальное качество генерации) без потерь в скорости генерации. Кроме того, генерируемые векторные изображения просто редактировать. Все благодаря одной идее — привнести в пайплайн генерации логику отрисовки векторных изображений дизайнерами (примитив за примитивом в порядке видимости).

Метод разбит на 3 составляющие:

💮 SVG Representation
Так как дизайнеры рисуют векторные изображения поэтапно от нижних слоев к верхним, полученный SVG-код можно разбить на примитивы с помощью срезов, где paths[:1] будет соответствовать самому нижнему слою, а paths[:] — целостному представлению.

• SVG Embedding формируется за счет преобразования всех путей в вектора размерности 10 и составления матрицы из полученных векторов.

• Каждый полученный срез авторы растеризуют для создания визуальных фичей (Pixel Embedding) с помощью DINO-V2.

💮 Vector-Pixel Fusion VAE (VP-VAE)
Энкодер спроектирован для выравнивания визуальных (Pixel Embedding) и геометрических (SVG Embedding) признаков, тогда как декодер восстанавливает векторное изображение.

💮 Vector Space Diffusion Transformer (VS-DiT)
Модель нацелена восстановить предварительно зашумленный выход энкодера VP-VAE в соответствии с текстовым описанием. Архитектура представляет собой последовательность VS-DiT блоков и легко масштабируется при увеличении их количества.

Результаты выглядят многообещающе: SVGDreamer, IconShop и другие методы остались позади; а код авторы обещают выложить скоро!

📄 ArXiv
💾 Project

😎 Обзор подготовила Кванчиани Карина @karinakvanchiani

RnD CV Team

28 Dec, 10:33


Всем привет! 🎄
Подводим итоги уходящего года в цифрах. За этот год мы опубликовали почти 100 постов и увеличили аудиторию канала в 2 раза. Спасибо всем, кто был с нами, обещаем еще больше интересного и полезного контента в 2025 году. 🎁

Всех с наступающим Новым годом и хороших выходных! 💙

RnD CV Team

20 Dec, 07:59


Нерегулярная рубрика — пятничные мемасы.

За мем спасибо: @Erlemar
#meme

RnD CV Team

17 Dec, 07:26


Уже через пару часов начнётся конференция Салют, GigaChat!

Ждём всех, кто зарегистрировался на офлайн часть с 11:30 в Воробьёвы Холл по адресу: г. Москва, ул. Косыгина д.28, стр.1 

Онлайн участникам нужно авторизоваться в Личном кабинете JUG Ru Group. Это можно сделать прямо на сайте конференции по кнопке в плеере.

Подробности в канале конференции.

Если ещё не успели зарегистрироваться, но хотите послушать доклады онлайн, переходите на сайт и заполняйте заявку на онлайн участие: ссылка на трансляцию придёт в течение нескольких минут.

До встречи!

RnD CV Team

13 Dec, 16:09


AI Journey 2024 🤖

11-13 декабря прошла крупнейшая международная конференция AI Journey.
Наши команды в Сбере представили ряд технологий, часть из которых показали вживую на стендах и в сервисах.

Vision AI — технологии компьютерного зрения:
🧏Учитель жестового языка — SOTA-технологии распознавания русского и американского жестовых языков в реальном времени.
💃Распознавнаие образа — ещё одна SOTA-технология на базе MiVOLO для определения пола, возраста и образа человека для virtual try-on.
🖼Замена фона и бьютификация — решения, интегрированные в сервис видео-конференций SberJazz.
🏋️‍♀️Мультипоза — технологии определения позы человека с режимом трекинга.
Все технологии работают в режиме реального времени.

👀GigaChat Vision:
Мультимодальная LLM, с возможностью работать со входными изображениями. На стенде впервые показали сервис инструктивного редактирования изображений.
Также команда GC анонсирует GigaChat Lite — open-source MoE-архитектуры GigaChat версий base и instruct.

💥3D/Scenes XR:
Стенд технологий генерации полноценных 3D-объектов по текстовому описанию. В будущем каждый сможет воспользоваться технологиями text-to-3D.

🎻AI Music:
Генерация музыки по текстовому запросу. Сервис доступен в мини-аппе VK, а в скором времени появится в веб-версии tg. Под капотом также последняя версия модели генерации стихов.

🔉Voice AI:
Технологии клонирования голоса по короткому сэмплу речи и e2e синхронного переводчика без текстового представления в потоковом режиме на разные языки.

👩‍💻GigaCode:
AI-ассистент разработчика, который позволяет ускорить процесс написания кода.

🎨Kandinsky 4.0:
Коллеги из Sber-AI представили линейку моделей Kandinsky: text-to-video, image-to-video, video-to-audio. Подробнее про каждую из моделей можно почитать на Хабр.

📏MERA:
Открытый бенчмарк для русского языка для оценки современных моделей. Состоялся анонс в сторону мультимодальности. Приглашаем всех принять участие в разработке бенчмарка!

#release

RnD CV Team

19 Nov, 09:53


Всем привет! 👋

⚡️ Этой осенью мы выступили на конференции Ai Conf 2024. За два дня конференции мы представили 6 докладов, а также приняли участие в панельной дискуссии о будущем искусственного интеллекта. Записи докладов доступны на YouTube по ссылкам ниже.

Фокусом выступлений были большие языковые модели и мультимодальность:

🎤 Алёна Феногенова рассказала про то, как обратная связь от пользователей помогла улучшить бенчмарк MERA и сделать его новую версию более объективной;
🎤 Доклад Бориса Жесткова посвящён использованию LLM для задач в аудиодомене: для понимания, распознавания и генерации речи;
🎤 Эмиль Шакиров разобрал все этапы работы с визуальными языковыми моделями от выбора архитектуры и сбора данных до запуска экспериментов;
🎤 Дмитрий Антипов рассказал о процессах сбора и разметки огромных корпусов мультимодальных данных в эпоху больших языковых моделей;

Также мы представили 2 доклада в области компьютерного зрения:
🎤 Петр Суровцев поделился опытом создания датасета жестового языка: как мы собирали данные, с какими трудностями столкнулись, и что у нас получилось;
🎤 Елизавета Петрова рассказала про задачу портретной гармонизации: как мы разработали архитектуру для её решения и создали дататсет для портретной гармонизации из открытых источников.

🗣️ Также на конференции Александр Абрамов, автор канала @dealerAI, вместе с коллегами из других компаний обсудили будущее искусственного интеллекта: как LLM меняют рынок труда, как работать с этикой и безопасностью моделей, и что ждёт нас всех в скором будущем в контексте развития AI. Ответы экспертов на эти и другие вопросы прозвучали на панельной дискуссии.

Будем рады вашей обратной связи! 💙
#news

RnD CV Team

15 Nov, 10:38


🚀 Опубликовали наш новый препринт: GigaCheck: Detecting LLM-generated Content 📄
Технология та же, что и в продукте, но перенесли на открытые модели и англоязычные тексты.

TL;DR Вынесли вообще всех.

Давайте по деталям.
В статье мы выделяем две подзадачи: определяем, написан ли текст человеком или генеративной моделью (LLM) и находим конкретные AI-интервалы 🤖

🔍 Первая задача — классификация текста — решается с помощью файнтюна LLM модели общего назначения. В исследовании мы использовали высокопроизводительную Mistral-7B, которая превосходит другие модели аналогичного размера во многих задачах.

🔎 Вторая задача — детекция AI-интервалов — решается нами с помощью модели DN-DAB-DETR, адаптированной из области компьютерного зрения. DETR модель обучается на фичах от зафайнтюненной LLM, однако, если данных для обучения LLM на классификацию недостаточно, используем фичи от исходной Mistral-7B-v0.3

Для подтверждения эффективности методов мы провели обширные эксперименты на различных датасетах. На пяти классификационных наборах данных обученные нами модели продемонстрировали SOTA результаты, а также показали высокие метрики в out-of-distribution экспериментах, работая с данными из доменов, отличающихся от встречавшихся в обучении, или от генераторов, не участвующих в создании обучающей выборки. Наша модель также успешно обошла Paraphrasing Attack🛡️

📊 Для оценки DETR детектора мы использовали четыре набора данных: RoFT, RoFT-chatgpt, CoAuthor и TriBERT.
Первые два датасета ориентированы на поиск границы между частями текста, написанными человеком и AI, второй содержит произвольное количество интервалов для каждого текста, третий — один или два интервала.
📝 Для корректного сравнения с другими работами мы переводим наши предсказания из интервального вида к предложениям.
🎉 Во всех экспериментах, включая out-of-domain, предложенный нами подход показал выдающиеся результаты!
До нас ещё никто не применял Detection Transformer для анализа сгенерированного текстового контента.

CV-шники идут в NLP 😎

Мы надеемся, что наш метод вдохновит будущих исследователей! 📈

📖 Статья тут
🌐 Лендинг тут
🤖 Телеграм-бот тут

RnD CV Team

02 Nov, 11:06


GigaChat Max! 👋

Команда GigaChat представляет новую, самую мощную модель — GigaСhat MAX. Она доступна в tg-боте, веб-версии, а также через публичное API (в режиме раннего доступа).

Новая модель понимает визуальную модальность, а также уверенно шагает вверх по бенчмаркам:
— 3 место на MERA, за gpt-4o и Llama-405B
— 92% правильных ответов на GSM-8k, 80% на MMLU и 75% на MMLU-RU
— на SBS с учётом красоты ответов модель выигрывает в 61% случаев у GPT-4 turbo и в 67% случаев у YaGPT-4 Pro.
— на Arena-Hard модель достигает 51% скора против GPT-4-0314
— на Vkhr Arena-General-RU модель достигает 90%, в то время как YaGPT-4 Pro достигает 59%.

Команда подготовила статью на Хабре, где раскрываются технические детали разработки и рассказывается о том, как GigaСhat MAX стал ещё умнее и мощнее. 💪

Следите за новостями в канале разработчиков GigaChat. 👋
#release #news

RnD CV Team

31 Oct, 10:52


JESTJoint Example SelecTion

📜 Статья от DeepMind 2024 года, описывающая обучение на сложных батчах (hard negatives) для CLIP-ранжировщиков. Вклад статьи: умный batch composition и уменьшение затрат на обучение. Авторы создают JEST — модель, обучаемая в разы быстрее, чем SigLIP.

👋 Batch composition:
— Подход, похожий на дистилляцию, в котором есть learner-модель, которая обучается, и reference-модель, которая уже умеет решать задачи zero-shot classification/retrieval.
— В методе явно выделены 2️⃣ стадии: inference (pseudo-labeling) на большом батче и forward + backward на малом, но сложном.
— Исходный большой батч от даталоадера просеивается на 80-90%. Оставшиеся 10-20% собираются итерационно на основе прогнозов learner и reference моделей. Через получившийся сложный батч 💪 будет считаться backward для learner-модели.
— Сложный батч собирается по итерациям, исходя из разницы матриц ошибок learner и reference-моделей для большого батча. На каждой итерации в сложный батч сэмплируются примеры, образующие с уже имеющимися наибольшую ошибку (похожие на имеющиеся).

👋 Training cost:
— Авторы снижают затраты на обучение, меняя ViT на Flexi-ViT 🎉, метрика которого максимизируется с двумя patch sizes — 16 и 32. На первой стадии используется модель с patch size 32 (что уменьшает FLOPs на 72% по сравнению с patch size = 16).
— Сформировав сложный батч, половина его примеров обрабатывается с patch size 16, а другая с patch size 32 (multi-resolution training).

Reference-моделью является SigLIP, прогнозы которого лучше закэшировать т.к. в этом сетапе он не обучается.
Авторы тюнят reference-модель на 2 версиях своего датасета: WebLI-curated и WebLI-curated++ (в 7 раз больше данных; 100M 🆚 700M). Датасеты очень хорошо отфильтрованы 👍.

Архитектура, использующая Flexi-ViT в качестве vision tower называется Flexi-JEST, иначе просто JEST. Если reference-модель была затюнена на WebLI-curated++, то к модели приписывается «++».

💪 В итоге авторы создают модель Flexi-JEST++, которая тратит на обучение в 9 раз меньше FLOPs, чем SigLIP (2023 года), достигая при этом сопоставимых метрик.
⚡️ Но и без замены vision tower, авторы демонстрируют как JEST++ тратит 23% FLOPs по сравнению с SigLIP только за счет обучения на hard negative батчах.

Мы опробовали batch composition авторов, и подтверждаем, что метод докидывает в качестве по сравнению с обучением на большом батче, в котором примеры фильтровались независимо (а не совместно).

Автор: @darkasevgen
#paperwatch

RnD CV Team

25 Oct, 08:30


Как научить LLM понимать видео? (Часть 2)

⚡️Доступность большого количества открытых и качественных видео-датасетов — важный фактор ускорения прогресса в области понимания видео с помощью LLM. Но имеющиеся инструктивные датасеты для обучения таких моделей, как правило, размечены на английском или китайском языках. Как добиться того, чтобы модель могла поддержать диалог по видео на русском языке?

📹 В статье разобрали практический кейс улучшения ответов Video-LLM на естественном русском языке: сбор бенчмарка для оценки, виды заданий и метрики, генерация русскоязычного инструктивного видео-датасета для обучения, эксперименты и результаты.

📄 Читайте обзор кейса в статье на хабр от участников направления видео в мультимодальности из команд RnD CV и RnD XR.

RnD CV Team

23 Oct, 08:21


🔥 CV-технологии на международных конференциях!

Наши команды разрабатывают и внедряют самые разные технологии в современные продукты. Недавно прошли две крупные конференции ICTWeek и GITEX, где мы представили наши разработки и рассказали инженерам и бизнесменам из разных международных компаний о своих достижениях.

💻 Известный вам тренажер по распознаванию жестовых языков. В команде RnD CV под руководством @karinakvanchiani собрали самый большой открытый датасет РЖЯ, обучили SotA 🌿 модели по распознаванию русского и американского жестовых языков, и создали полноценный тренажер для изучения жестовой речи!

🖼 Команда RnD OrBB (да-да, в честь персонажа из Quake) @balievdmitri работала над задачей портретной сегментации и внедрила технологии замена фона и бьютификации в сервис видео-конференций SberJazz. Модели работают в режиме реального времени 🚀 и не требуют огромных вычислительных ресурсов. А для задачи сегментации и фейс парсинга мы выложили в открытый доступ EasyPortrait.

👁 Команда Layer CV под руководством @wild_chlamydia_work представила технологии определения пола и возраста, основанные на state-of-the-art 🌿 подходах MiVOLO. Данные и модели также доступны в опенсорс!

RnD CV Team

16 Oct, 09:00


Алфавит РЖЯ! 🔠

Всем привет! Сегодня мы представляем Bukva — открытый датасет для задачи распознавания русского дактильного алфавита. Читайте нашу статью, в которой мы расскажем, как собирали датасет и обучали на нём легковесные модели, способные распознавать дактиль в режиме реального времени.

Особенности:
👾 3757 HD+ видео,
💯 в среднем по 100 видео на класс,
👩‍💼 155 экспертов РЖЯ,
💪 самый разнородный по субъектам,
👥 высокое качество разметки,
🌿 легковесный и быстрый бейзлайн.

📖 Статья 💻 Код 👉 Habr

RnD CV Team

15 Oct, 09:42


Ищем CV-инженера в RnD (Middle/Middle+)! 👋

Задачи:
— Мультимодальность: работа с VLM в задачах понимания изображений и видео, а также редактирования изображений
— Распознавание непрерывного жестового языка (РЖЯ)
— Постановка гипотез, проведение экспериментов, подготовка пайплайнов SFT, претрейна и валидации
— Написание научных статей

Ожидания:
— хороший уровень Python 🐍
— отличное понимание ML и CV 🏞
— опыт работы с мультимодальными архитектурами 👥

Будет плюсом:
— знание классических алгоритмов Computer Vision 👁
— опыт публикаций, выступления на конференциях и написания научных статей 🗣

По всем вопросам @m_ovsepyan 🖤
#job #вакансия

RnD CV Team

10 Oct, 07:55


👁 Как научить LLM понимать видео?

⚡️ Быстрое развитие Vision LLM (VLLM) в 2023–2024 годах дало возможность значительно приблизить понимание видео нейросетями к тому, как это делает человек. VLLM способны давать ответы на самые разнообразные вопросы по видео на естественном языке. При этом, инструктивное обучение позволяет научить одну модель решать множество задач понимания видео, а большой объем знаний LLM и понимание разнообразного контекста позволяют VLLM анализировать содержание видео и делать сложные выводы.

📹 В статье разберем следующие решения: Flamingo, VideoChat, Video-ChatGPT, Valley, эволюцию семейства LLaVA, LITA и Video-SALMONN (объединяющую визуальный домен и модальность звука).

📄 Читайте обзор подходов в статье на хабр, которую написала Ярославцева Марина @anylit , лид направления видео в мультимодальности из команды RnD XR.

RnD CV Team

09 Oct, 12:00


🌿 Наши коллеги из Layer CV выбивают очередную SotA! 🌿

На прошлой неделе ребята опубликовали работу: "Saliency-Guided DETR for Moment Retrieval and Highlight Detection". В ней авторы предлагают новый способ поиска ключевых моментов в видео релевантных текстовым запросам пользователей.

Модель SG-DETR демонстрирует SOTA-метрики на всех ключевых бенчмарках: Charades-STA, TACoS, TVSUM и YouTube Highlights. Особо впечатляющим стал результат на главном бенчмарке QVHighlights, где модель опередила предыдущее решение с невероятным гэпом в 7.44 п.п. 🌿

Препринт версия работы доступна на arXiv и PwC. И уже совсем скоро будет опубликован код, веса модели и наш датасет. Будем рады вашим отзывам и комментариям! 📚

А ещё Марина Бессмертная на RnD Day рассказала в своем докладе "Тихо! Сейчас будет та самая сцена" об автоматизированном пайплайне для анализа видеоконтента. 📹

RnD CV Team

04 Oct, 09:54


🤖 Фреймворк для агрегации разметки в CV

Привет! У нас хорошие новости!
Мы выложили в открытый доступ AggMe — фреймворк, основанный на методах агрегации разметки с перекрытием. 1️⃣2️⃣3️⃣

Он позволяет усреднять разметку трех типов: bounding boxes, сегментационные маски и временные интервалы (для видео и аудио). А для наиболее эффективной работы поддерживаются 3 метода агрегации: Hard, Drop и Soft, которые по-разному влияют на финальный результат. Важно отметить, что агрегировать можно разметку из любых источников: будь то разметка человеком с крауда, сетками или полученная классическими алгоритмами.

Мы активно используем aggme в своей работе и даже интегрировали его в наши платформы разметки, а теперь решили поделиться им с вами.

Почитать об идее создания фреймворка и о проблемах, которые он решает, можно в нашем посте.
Ждем ваши контрибьюты и багрепорты! Хорошего дня!

🖥 GitHub

RnD CV Team

03 Oct, 12:17


Коллеги в команду CDO / SalutEye ищут Senior Data Engineer 👋

Задачи:
- Развивать платформу как self-service для аналитиков – разрабатывать новые сервисы и фичи для удобства пользователей.
- Участвовать в проектировании и модернизации инфраструктуры.
- Поддерживать существующий функционал.
- Внедрять процедуры контроля качества данных.
- Оптимизировать и автоматизировать существующие процессы – никакого массового ручного клепания витрин и написания одинаковых ETL.
- Генерировать идеи, как сделать еще круче, чем уже есть :)

Ожидания:
- Практический опыт работы с Python 3, базовый опыт с GoLang приветствуется.
- Опыт оптимизации SQL запросов, понимание внутреннего устройства БД (у нас ClickHouse и GaussDB - аналог GreenPlum).
- Базовый опыт администрирования БД.
- Навыки работы с unix-подобными системами, знание базовых команд.
- Базовые навыки DevOps (Docker, Kubernetes, Ansible, Terraform).

Плюсом:
- Практический опыт работы с облачными платформами управления данными (у нас SberCloud / Huawei Cloud).
- Практический опыт работы со стеком технологий Big Data (особо интересует Kafka и Spark).
- Практический опыт участия в проектах по созданию DWH, Data lake, Data management platforms, опыт построения и развития высоконагруженных систем приветствуется.

По всем вопросам: @m_ovsepyan

RnD CV Team

03 Oct, 09:07


🎤 Запись голосовых сообщений как способ улучшить описания картинок

🏞 На днях исследователи из института Аллена предложили интересный способ сбора описаний для картинок: дать возможность разметчикам вместо больших текстов записывать аудио-сообщения с описаниями.

🏆 Это позволило им сократить время на сбор датасета, снизить затраты и собрать более качественные данные.

Мы не могли пройти мимо и решили попробовать такой способ сбора данных в одной из своих задач.

📄 Наши коллеги написали пост, в котором более детально описали проблему и предложили возможность повторить эксперимент.

Тык: https://habr.com/ru/articles/847780/

RnD CV Team

02 Oct, 14:17


Коллеги в команду к @igeti ищут 2 стажеров в CV и NLP трек! 👋

Задачи:
— Организация и автоматизация процесса разметки (от поиска данных до проверки качества за crowdsource разметкой)
— Сбор данных из различных источников для NLP задач
— Релизы новых моделей в среды исполнения для наших пользователей
— Дообучение и/или использование готовых LLM для QA, Retrieval, Conditional summation via instruction, Generative Search и Agent for Action (для композциии базовых навыков в более сложные)

Ожидания:
— Отличное знание PyTorch, Numpy, Sklearn, Pandas 🐍
— Хорошее знание алгоритмов и структур данных 👁
— Python3, ООП, SOLID, знание основ Git, Docker
— Опыт разработки/обучения/внедрения: Text classification, NER, QA, summarization 🏞
— Знакомство с LLM, prompt engineering, дообучение GPT-like моделей 👥

Плюсом:
— Хороший профиль на GitHub
— Медальки на Kaggle
— Опыт организации процессов разметки данных

От нас:
💻 атмосфера стартапа внутри большой компании
отсутствие проблем с вычислительными мощностями
📚 конференции и обучение
🏙 современный и удобный Agile-офис
💊 ДМС, сниженные ставки по кредитам, программы лояльности для сотрудников
⚙️ бесплатный фитнес-зал, парковка на территории офиса, снеки, чай, кофе
💰 конкурентная зарплата!

Локация: Москва

Наше недавнее выступление по одному из направлений:
https://www.youtube.com/watch?v=3IN4hLSYVJ4

По всем вопросам: @karprokar

RnD CV Team

27 Sep, 09:23


Релиз сайта словаря РЖЯ

Друзья! Наша команда с радостью сообщает, что мы запускаем открытый видео-словарь русского жестового языка (РЖЯ) 🚀

🤔 Почему это важно?
В открытом доступе практически нет качественных образовательных ресурсов для полноценного изучения РЖЯ. Именно поэтому, при поддержке «Центра образования и исследования жестового языка», мы начали работу над созданием обновляемого видео-словаря для всех желающих.

🎥 Что особенного в нашем словаре?
Каждый жест в словаре сопровождается несколькими вариантами перевода на русский язык. Для удобства обучения видео записаны с двух ракурсов, есть возможность посмотреть видео с замедлением, показана вариативность жестов и их контекст использования.

💻 Что доступно сейчас?
На сайте уже доступны 385 уникальных жестов в FullHD качестве и около 750 вариантов перевода. И это только начало!

⚙️ С заботой о пользователях
Мы внедрили поддержку обработки ошибок и предложений для улучшения контента. Ваши отзывы помогут сделать ресурс ещё лучше.

Мы надеемся, что этот сайт станет настоящим местом притяжения для людей с нарушением слуха, лингвистов и всех, кто интересуется РЖЯ 💬👋

Заходите на сайт и изучайте жестовый язык с удовольствием! 😎

RnD CV Team

04 Sep, 08:03


⚡️ 26-27 сентября в Москве и онлайн пройдет прикладная конференция по машинному обучению AiConf 2024. От нашей команды на конференции будут сразу двое спикеров:

- Суровцев Пётр выступит с докладом про русский жестовый язык, где расскажет про характеристики и особенности датасетов жестовых языков, сложности сбора данных в этом домене, а также про полный цикл работы с данными 📊

- Петрова Елизавета расскажет про задачу портретной гармонизации: что это такое, какие сейчас существуют датасеты и решения, и как у нас получить создать модель PHNet, обучить ее на своем датасете портретной гармонизации и выбить SOTA-результаты 🏆

Делимся специальным промокодом на скидку 15% при посещении конференции 🎫
Промокод: datascience
Приходите послушать доклады и пообщаться! 💙

Сайт конференции AiConf 2024

RnD CV Team

15 Aug, 12:40


👁 You Only Look Once... But it Sees Everything!

Сегодня поговорим про одну из самых популярных областей компьютерного зрения — детекцию объектов. Наиболее известными детекторами являются модели семейства YOLO. Но почему им удалось добиться такого успеха?

До выхода YOLOv1 детекция объектов решалась в два шага: сначала находим предполагаемые местоположения объектов, а затем уже подаем их классификатору. Авторы YOLO предложили детектировать и классифицировать одновременно, что дало серъезный буст в скорости, качестве и обобщаемости.

📄 Читайте первую часть обзора одностадийных детекторов в статье на Хабр, которую написал наш ML-инженер Роман Крайнов.

RnD CV Team

31 Jul, 07:44


SVGDreamer: Text Guided SVG Generation with Diffusion Model

⚡️ В этом году на CVPR была представлена статья SVGDreamer, посвященная text-to-svg генерации. Предложенная модель обладает более высоким визуальным качеством и разнородностью генерации, а благодаря разделению на семантические слои сгенерированные изображения легко редактировать.

Что внутри:

💠 Semantic-driven Image Vectorization (SIVE) разделяет семантические слои на изображении, что позволяет отдельно векторизовать объекты и фон картинки. Такое разделение необходимо, чтобы передний план и фон не были связаны друг с другом, и каждый объект на картинке мог легко редактироваться независимо от остальных. Контрольные точки кривых, задающих объекты в векторной графике, инициализируются на основе cross-attention map, после чего оптимизируются с помощью SIVE-лосса.

💠 Vectorized Particle-based Score Distillation (VPSD) для синтеза изображения. Авторы моделируют SVG-изображение распределением контрольных точек и их цветовых значений. Растеризованная с помощью дифференцируемого растеризатора diffvg картинка вместе с текстовым промптом подается на вход в предобученную text-to-image диффузионную модель и дообучаемую LoRA.

💠 Также авторы используют предобученную reward-модель, выставляющую скоры сэмплам из LoRA, и дополнительно считают reward-лосс.

🖼️ Для генерации доступны различные стили изображения, такие как скетч, пиксель-арт и рисунок. По метрикам модель обходит существующие решения, такие как DiffSketcher и VectorFusion.

🎉 В открытый доступ выложен код SVGDreamer, который (мы проверили) запускается из коробки.

💻 GitHub
📜 ArXiv

RnD CV Team

29 Jul, 09:40


Всем спасибо за участие! 🎉

С помощью генератора случайных чисел мы определили победителей конкурса, которые получат в подарок 3 умные лампочки Сбер 💡

Победителями стали:
🎁 @middlenone
🎁 @vasilyeva_natalia
🎁 @kashinadarya

Призы можно забрать двумя способами: в Москве по адресу Кутузовский пр. 32, либо доставкой 📦

Желаем всем отличной недели! ❤️

RnD CV Team

24 Jul, 10:01


2000+ 🎉

Дорогие друзья! Наш канал достиг отметки в 2000 подписчиков 🥳
В честь этого события мы запускаем розыгрыш, в котором 3 счастливчика смогут выиграть "ламповые" призы💡

Правила конкурса:
- подписаться на наш канал (если еще этого не сделали) 📲
- поставить лайк этому посту 👍
- написать в комментариях под этим постом название последней статьи, которую прочитали 💬

Розыгрыш продлится до 27 июля.
Удачи всем участникам! 🍀

RnD CV Team

22 Jul, 11:32


🎙️ Всем привет! Недавно вышел выпуск подкаста Лингвоподкаст с Лизой Петровой, посвященный распознаванию жестовых языков.

В этом выпуске мы обсудили:
📍 Как собирались и готовились данные для самого большого открытого датасета РЖЯ
📍 Важно ли разработчикам знать жестовый язык, чтобы делать state-of-the-art модели
📍 Как команде удалось добиться самой высокой метрики в распознавании американского жестового языка
📍 Перспективы развития и будущее сурдоперевода


Слушать выпуск:
📺 YouTube
🎵 Apple Podcasts
🎵 Яндекс.Музыка
🎵 Вконтакте
🎵 Другие платформы

Будем рады вашей поддержке и обратной связи! 💌

RnD CV Team

21 Jul, 12:01


Как вы знаете, недавно в Google Translate добавили 110 языков (список). После того, как Meta выпустила модель NLLB для перевода на 200 языков, Google объявил об инициативе по поддержке 1000 языков и приблизился к обещанному уже на четверть. При переводе используется языковая модель (PaLM 2), а среди новых языков есть много распространенных в России (абхазский, аварский, башкирский, бурятский, чеченский, чувашский, крымско-татарский, коми, марийский, осетинский, тувинский, удмуртский, якутский). Подобный шаг — это отличная поддержка для малоресурсных языков. 🗣

Наш хороший коллега Сергей Аверкиев писал про это в своем канале. Он также пишет про разное в области NLP, в частности про малые языки, мультиязычность, LLM и GigaChat, приближая восстание машин и другие варианты светлого будущего. 🤖

Ну а авторы ML-каналов сделали папку, чтобы объединить крутые каналы в уютном месте. Подписывайтесь: https://t.me/addlist/C_RSYpbW5mIyMjVi 🚀

RnD CV Team

18 Jul, 09:17


COCONut 🥥 = COCO Next Universal segmenTation @ ByteDance — модернизированный COCO для задачи сегментации.

• За основу взят датасет COCO Panoptic 2018, содержащий ~ 118к изображений в train 🚄
• Делают 3 версии: COCONut-S/M/L. Small содержит Panoptic 2018. Medium добавляет к первому COCO Unlabeled set. Large версия добавляет датасет Objects365.
• Улучшили протокол разметки: более четкие инструкции по разметке классов. Публикуют их в статье.
• Классы COCONut и COCO одинаковы.
• Плотность масок больше, чем в COCO 🎭

Авторы предлагают четырехстадийный подход к разметке:
1) Machine-generated prediction
Для thing и stuff классов генерируются proposals. Для первых используется bbox detector DETA и mask segmenter kMaX-DeepLab (@ ByteDance) для вторых.
2) Human* inspection & editing
*Human — это оценщик (rater). Оценщики отвечают на вопросы опросника, и, видя ошибку, могут её исправить. Примеры: убрать/подвинуть bbox, поменять класс прогноза, уточнить маску кликами и т.д.
3) Mask generation / refinement
Применение box2mask, либо point2mask.
Box2mask: применяется k-means cross attention: имея картинку и уточненный bbox, находится маска, релевантная для bbox.
Point2mask: применяется модель CFR: имея картинку, клики и предыдущую маску, прогнозируется новая маска. Авторы пишут, что применять SAM, SAM-HQ не стали, т.к. их метод отлично работает 🤷‍♂️
4) Quality verification
Эксперты — это 2-ой тип аннотаторов. У них более 5 лет опыта разметки в фотошопе 😦
Они делают тоже самое, что и оценщики на этапе 2*, при этом имеют полномочия вернуть сэмпл на доработку (этапы 2, 3) и применить Photoshop, если переразметка сэмпла не удалась.

*Эксперты просматривают только 50% масок и 30% bbox proposals, что является минусом. Пользователи заметили, что в некоторых аннотациях присутствует шум (см. issue).

Также создают COCONut-val на 25к, и relabeled COCO-val на 5к — переразмеченный COCO-val.

Как итог — почти во всех задачах, модель, обученная на COCONut-L перформит лучше других на 3 val сетах.

Arxiv 📜
Github 🖥