Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs
Ранее в канале писал разборы статей, которые предлагали строить некий иерархический граф, по которому LLM/VLM будет ориентироваться и отвечать на запросы. Авторы из Google летом решили пофлексить длинным контекстом Gemini 1.5 Pro, в который влазит час+ видео, и сформулировали задачу Multimodal Instruction Navigation with demonstration Tours (MINT). Как следует из названия, предлагается решать задачи навигации через прямое использование видео-тура с локации.
Запись и использование демонстрационного видео-тура имеет несколько преимуществ:
1) его легко собирать: пользователи могут хоть просто записывать видео на смартфон во время прогулки по окружающей среде
2) это естественно:когда пользователь получает нового домашнего робота, для него ОК показать окрестности своего дома, к тому же снабдив отдельные части комментариями
В техническом плане всё просто и понятно: 1) видео-тур нарезается на слайды (1 кадр в секунду) 2) подаётся в Gemini с аннотациями «кадр 1: <опциональный комментарий>, кадр 2:...» 3) а после следует запрос, который может включать не только текст, но и картинку. Например, человек может в руках держать коробку, и фотография этого вместе с вопросом «Куда мне это вернуть?» составляет задачу навигации. От Gemini требуется вернуть наиболее релевантный кадр (его номер), после чего отдельный внешний алгоритм, никак не связанный с LLM, просчитает, как роботу доехать до точки, привязанной к кадру. Получается, что модель используется как умный незапрограммированный поиск релевантного контекста.
Для теста взяли одно крупное помещение, 836 квадратных метров, сняли 16-минутное видео (948 кадров, если брать по одному в секунду) и его пихали в контекст. Вообще для теста придумали 57 разных вопросов, которые можно разделить на 4 типа: просто поиск объекта, поиск с рассуждениями (нужно выявить связь), поиск маленьких слабозаметных объектов и мультимодальные инструкции (это как раз где в запросе есть картинка).... но тестирование на них всех не производилось из-за временных ограничений 🤷♂️. Однако выбрали по 5 задач каждого типа, и запускали их не один раз, а из четырёх разных стартовых точек.
Получилось решать задачки в целом в 80-85% случаев, кроме поиска маленьких объектов — там просело до 40%, так как Gemini просто не смогла разглядеть детали. Это сильно больше, чем у пайплайна, где делается поиск по релевантным кадрам с помощью CLIP (описывал это тут и тут), то есть большая модель гораздо более качественно использует видео-тур.
Ещё пробовали брать GPT-4o, но так как контекст у неё короче, то брали каждый пятый кадр (то есть раз в 5 секунд). При таком сетапе Gemini просела на 10-30% относительно 1 FPS, но всё равно была лучше GPT-4o (на 10-25%; выглядит как большой разрыв, не знаю, ошиблись/поленились ли авторы в тесте или реально так плохо было).