Сегодня мы расскажем о статье SignCLIP: Connecting Text and Sign Language by Contrastive Learning, которая была представлена в прошлом году на конференции EMNLP. Авторы статьи применяют идею Contrastive Pretraining из CLIP’а, чтобы спроецировать текст и видео жестовой речи в одно внутреннее пространство. Примечательно, что в своей работе авторы используют мультиязычный корпус жестовой речи.
Жестовые языки обладают таким интересным свойством, как иконичность — это значит, что жест часто визуально напоминает предмет, который он обозначает. Благодаря этой особенности перевод между двумя жестовыми языками зачастую оказывается проще, чем между разговорными языками, так как многие жесты внешне похожи (например, на картинке выше жест «дом» выглядит схожим образом на разных языках: руки как бы образуют крышу). Поэтому Contrastive Pretraining на разных жестовых языках способен выделить более информативные визуальные признаки, а также решить проблему нехватки данных в этом домене.
Авторы обучили модель VideoCLIP на большом корпусе жестовой речи, содержащем более 500 тысяч видео с жестами 44 разных языков. Модель была обучена в двух версиях:
💮 FingerCLIP
Сначала для проверки своей гипотезы авторы обучают мини-версию модели только на видео с изолированным дактилем (то есть отдельными буквами жестового алфавита); полученная модель с большим отрывом обходит supervised-метод, с которым авторы сравниваются.
💮 SignCLIP
Затем авторы обучают полную версию модели на всем корпусе жестовых языков, после чего замеряются на популярных бенчмарках американского жестового языка и получают метрики, сравнимые с SOTA-решениями.
Также авторы сделали SignCLIP доступным по API и опубликовали ноутбук, где можно протестировать своё видео или изучить эмбеддинговое пространство модели. Так, пользуясь классическим примером, авторы демонстрируют, что выученные эмбеддинги отражают семантику жестов (см. вторую картинку).
📔 Colab Notebook