Сиолошная @seeallochnaya Channel on Telegram

Сиолошная

@seeallochnaya


Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Сиолошная (Russian)

Добро пожаловать на канал 'Сиолошная'! Здесь вы найдете самые свежие новости и мысли о них из мира NLP, VR и космоса. Мы увлечены исследованием самых передовых технологий и делаем все, чтобы быть в курсе последних событий. Если вас интересует развитие и инновации в области NLP, виртуальной реальности и космоса, то этот канал создан специально для вас! Подробную информацию о тематике канала вы найдете в первом закрепленном сообщении. А еще у нас есть чат, где вы сможете общаться с единомышленниками и делиться своими мыслями. Присоединяйтесь к нам прямо сейчас и не пропустите ни одной важной новости! Переходите по ссылке и начинайте общение: https://t.me/+i_XzLucdtRJlYWUy

Сиолошная

20 Nov, 18:53


Как написал в первом посте, в реальном офисе тестирований было мало из-за естественных ограничений. Для более полного тестирования применили очень крутой приём, про который хотелось рассказать. Авторы взяли видеозапись и применили к ней Zip-NeRF (или видео демки в тг вот в этом посте); это такой алгоритм нейронного рендеринга, который по набору фоток воссоздаёт 3D-сцену и позволяет генерировать изображения с новых ракурсов, в том числе любые произвольные пролёты камеры по пространству. В случае этой работы реконструкция делалась на основе 3244 фотографий (части видео).

Но алгоритм именно что рендерит картинку (которую можно подавать в понимающую видео Gemini), поэтому поверх этого применили метод из вот этой работы для генерации 3D-сетки пространства, запихнули это в симулятор как 3D-модель, поместили туда копию робота и прогнали 1000 тестов, 20 инструкций и 50 случайных стартовых точек для каждой. Gemini успешно справилась с 90% задач (правда тут выкинули все запросы из категории «маленькие объекты»).

С такими виртуальными симуляциями получается относительно легко существенно масштабировать тестирование, не ограничниваясь реальным миром. Они уже вовсю применяются в роботах и не только — например, Wayve, стартап, делающий автопилоты для машин, вовсю хвастается GhostGym.

На фото сравнение реального изображения (части видео) и сгенерированного NeRF'ом как часть симуляции.

Сиолошная

20 Nov, 18:35


Вот примеры четырёх типов вопросов + вид сверху на пространство, в котором надо ориентироваться. Снизу справа робот.

Добавлю, что хоть в первом посте и написано, что можно снимать видео с телефона — тут тесты производились с предварительной записью с робота. Со смартфоном (Google Pixel 6) был отдельный тест в среднего размера комнате. Видео-тур был 75-секундный, пробовали всего 5 вопросов, 100% решили (см. картинку номер два).

Сиолошная

20 Nov, 18:34


Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs

Ранее в канале писал разборы статей, которые предлагали строить некий иерархический граф, по которому LLM/VLM будет ориентироваться и отвечать на запросы. Авторы из Google летом решили пофлексить длинным контекстом Gemini 1.5 Pro, в который влазит час+ видео, и сформулировали задачу Multimodal Instruction Navigation with demonstration Tours (MINT). Как следует из названия, предлагается решать задачи навигации через прямое использование видео-тура с локации.

Запись и использование демонстрационного видео-тура имеет несколько преимуществ:
1) его легко собирать: пользователи могут хоть просто записывать видео на смартфон во время прогулки по окружающей среде
2) это естественно:когда пользователь получает нового домашнего робота, для него ОК показать окрестности своего дома, к тому же снабдив отдельные части комментариями

В техническом плане всё просто и понятно: 1) видео-тур нарезается на слайды (1 кадр в секунду) 2) подаётся в Gemini с аннотациями «кадр 1: <опциональный комментарий>, кадр 2:...» 3) а после следует запрос, который может включать не только текст, но и картинку. Например, человек может в руках держать коробку, и фотография этого вместе с вопросом «Куда мне это вернуть?» составляет задачу навигации. От Gemini требуется вернуть наиболее релевантный кадр (его номер), после чего отдельный внешний алгоритм, никак не связанный с LLM, просчитает, как роботу доехать до точки, привязанной к кадру. Получается, что модель используется как умный незапрограммированный поиск релевантного контекста.

Для теста взяли одно крупное помещение, 836 квадратных метров, сняли 16-минутное видео (948 кадров, если брать по одному в секунду) и его пихали в контекст. Вообще для теста придумали 57 разных вопросов, которые можно разделить на 4 типа: просто поиск объекта, поиск с рассуждениями (нужно выявить связь), поиск маленьких слабозаметных объектов и мультимодальные инструкции (это как раз где в запросе есть картинка).... но тестирование на них всех не производилось из-за временных ограничений 🤷‍♂️. Однако выбрали по 5 задач каждого типа, и запускали их не один раз, а из четырёх разных стартовых точек.

Получилось решать задачки в целом в 80-85% случаев, кроме поиска маленьких объектов — там просело до 40%, так как Gemini просто не смогла разглядеть детали. Это сильно больше, чем у пайплайна, где делается поиск по релевантным кадрам с помощью CLIP (описывал это тут и тут), то есть большая модель гораздо более качественно использует видео-тур.

Ещё пробовали брать GPT-4o, но так как контекст у неё короче, то брали каждый пятый кадр (то есть раз в 5 секунд). При таком сетапе Gemini просела на 10-30% относительно 1 FPS, но всё равно была лучше GPT-4o (на 10-25%; выглядит как большой разрыв, не знаю, ошиблись/поленились ли авторы в тесте или реально так плохо было).

Сиолошная

20 Nov, 17:45


Вам повезло, что у меня медленный интернет, и свежевышедшая игра STALKER 2 будет долго качаться — за это время напишу разбор или два в канал 🍿

Всех, кто ждал игру долгие годы и кто фанатеет по серии, поздравляю с релизом 🤘 Удачной охоты, сталкеры

Сиолошная

20 Nov, 12:35


Прошло полтора месяца с анонса o1 от OpenAI, и вот сегодня китайцы из DeepSeek удивляют первым конкурентом. Я бы не подумал, что среди компаний уровня Google - META - Anthropic - AliBaba именно они смогут первыми удивить релизом.

Они представили модель DeepSeek-R1-Lite-Preview, но к сожалению без деталей касательно обучения и сбора данных. Модель пока доступна в онлайн-чате, зато видны все рассуждения, а не только краткая выжимка — однако обещают, что и веса LLM-ки, и API для неё опубликуют скоро.

На первой картинке — результаты бенчмарков, на задачах с AIME модель обходит o1-preview (но полноценная o1, со слов OpenAI, выдаёт 74.4). На LiveCodeBench (задачи на LeetCode, добавленные с августа 2024-го, то есть «новые», хоть похожие на них наверняка были в интернете до этого) тоже прирост относительно других моделей очень ощутимый.

На второй картинке — результаты масштабирования процесса размышлений R1 (с точки зрения процента решённых на AIME задач):
— Pass — это результат модели, если делать одно предсказание на задачу и его сверять с ответом. В данном случае масштабируется длина единственной цепочки рассуждений, чем больше — тем выше качество
— Majority Voting это дополнительная техника для улучшения качества за счёт генерации нескольких независимых цепочек рассуждений с последующим выбором ответа через взятие самого часто встречающегося предсказания (грубо говоря голосование)

Обратите внимание на значения на горизонтальной оси, самые правые точки — результат аггрегации цепочек рассуждений общей длины более 100'000 токенов.

На третьей картинке я задал LLM-ке задачку с олимпиады 4-го класса, ответ правильный (решение не проверял, чат тут). Вы можете потестировать модель сами тут:

https://chat.deepseek.com/

Можно авторизоваться через Google аккаунт. Доступно 50 запросов в день.

🇨🇳 Китай вперёёёд 🇨🇳

Сиолошная

20 Nov, 10:25


Для тех, кто ночью спал и не смотрел пуск — краткое саммари:

— вы не так много пропустили, попытки посадки на башню не было: какие-то из показателей не были в норме, и системе не была отдана команда «лети к башне». Поэтому ускоритель аккуратно сел на воду, работали все двигатели. Пока не ясно, что пошло не так, но есть спекуляции, что проблемы в башне (якобы она получила повреждения при взлёте)

— корабль успешно продемонстрировал перезапуск двигателей в космосе (с использованием топлива из дополнительных баков)

— несмотря на новую траекторию захода в атмосферу под большим углом, а также отсутствие нескольких тысяч плиток в тепловом щите, корабль пережил все процедуры

— по итогу Starship успешно приводнился в отведённой зоне (снова было видео с предварительно оставленного буя). Эту часть стрима вы можете посмотреть в прикреплённом видео — впервые не в тёмное время суток!


В целом, миссию можно считать частично успешной, корабль так вообще по полной программе прошёлся.

Напомню, что это был последний полёт для серии V1 — дальше начнут летать V2. В них тысячи инженерных изменений, а самое заметное для внешнего наблюдателя — увеличенная высота (и как следствие размер баков).

Elon написал, что ещё одна мягкая посадка корабля на воду — и после этого они предпримут попытку посадки уже на сушу (не ясно, на башню или нет). С одной стороны это значит, что следующий пуск может быть по такой же траектории (а значит новой лицензии не нужно), с другой — сама ракета новая, и наверняка там что-то нужно лицензировать. Надеюсь, не очень сильно затянется, и до марта увидим первый полёт 2025-го!

🚀🚀🚀

Сиолошная

19 Nov, 23:55


Я сначала увидел в твиттере и не поверил, подумал, что это шутка.

В США с 2000-го года существует United States–China Economic and Security Review Commission. В комиссии 12 членов, сама комиссия подчиняется только Конгрессу и не является частью никакого агентства или департамента. Каждый год до 1-го декабря комиссия публикует отчёт, в котором в том числе даёт рекомендации Конгрессу.

Свежий отчёт опубликовали час назад, и в нём первым пунктом в блоке ключевых рекомендаций идёт...

«Учредить и профинансировать программу, подобную Манхэттенскому проекту, направленную на разработку и использование возможностей искусственного интеллекта общего назначения (AGI)»

😐😐😐

===

Спросил у ChatGPT, насколько важна эта Комиссия и как часто Конгресс прислушивается к рекомендациям. Не ручаюсь за правильность оценки, но нейронка сказала, что в целом к рекомендациям прислушиваются, хоть и не все исполняют.

Идём перечитывать SITUATIONAL AWARENESS и/или пересматривать интервью с Leopold'ом из OpenAI

Сиолошная

19 Nov, 10:19


Шестой запуск Starship Super Heavy сегодня ночью.

Примерно через 12 часов открывается окно запуска для самой большой ракеты в истории, и последний полёт для корабля Starship V1. Поэтому держите чек-лист по ключевым этапам миссии Flight 6:

⚪️ Старт, прохождение зоны Max Q, горячее разделение ускорителя и корабля;
⚪️ Запуск 6 двигателей на Starship и перезапуск 10 двигателей (3 будут работать) Super Heavy B13 для первого тормозного манёвра;
⚪️ Команда «Go for catch» и перезапуск 13 двигателей Super Heavy B13 для второго тормозного манёвра и посадки;
⚪️ Успешная посадка Super Heavy B13 на манипуляторы и захват ускорителя;
⚪️ Super Heavy B13 проходит программу безопасности на площадке;
⚪️ Выход корабля Starship S31 на плановую незамкнутую орбиту;
⚪️ Тест перезапуска 1 двигателя Raptor на орбите;
⚪️ Вход Starship S31 в атмосферу под более высоким углом и прохождение зоны максимального нагрева;
⚪️ Манёвры в зоне максимальной нагрузки для теста живучести корабля;
⚪️ Обрезанная теплозащита Starship S31 выдерживает вход в атмосферу, плавники не расплавляются;
⚪️ Перезапуск 3 двигателей S31 с симуляцией мягкой посадки в океан в нужной точке — камеры с буя показывают посадку;

И после окончания миссии Flight 6 проставим нужные галочки и сравним. Если предыдущий запуск можно назвать самым успешным, то этот должен закрепить результат.

Уже в следующий миссии Flight 7 нас ждёт сильно обновлённый корабль и первый представитель блока Starship V2. Программа постепенно выходит из первой фазы тестирования, и в 2025 году будут запуски на замкнутую орбиту и отработка возвращения корабля на башню.

Сиолошная

18 Nov, 10:50


Помните, вместе с новым Claude 3.5 вышел Computer Use Preview (Beta API)? Это режим, в котором модель получает на вход картинку рабочего стола и предсказывает, куда надо кликать, чтобы выполнить задачу.

Подоспела первая статейка с тестированием навыков на 20 задачах: A Preliminary Case Study with Claude 3.5 Computer Use. Разбирать мы её не будем, внутри особо ничего нет. Единственное, что по сути добавили авторы — это критика, который после некоторых действий комментирует ход выполнения и проверяет, что условия выполнены.

Эти 20 задач покрывают 12 разных программ, от браузера и Word'а до компьютерных игр. Claude не справилась с четырьмя запросами. Один раз не смогла проскроллить страницу (на это ещё жаловался Денис), два раза не сработало выделение текста двойным щелчком (выделилось только имя, а не Имя+Фамилия, и то же самое с телефоном), и один раз модель выбрала не те ячейки в Excel (C6:C15 вместо D6:D16), скорее всего из-за неидеальности визуального восприятия. В последних случаях не спас даже критик — он прокомментировал, что всё ок. Есть куда расти, в общем, ждём развития и стабильной не-бета версии (в том числе и от OpenAI — по слухам, они выпустят свой аналог в январе 2025-го).

На первой картинке список задач и результат (очень жаль, что запускали по 1 разу, а не 3-5), если вам интересно — можете полистать статью, посмотреть картинки и почитать рассуждения модели. Иногда критик срабатывал верно и позволял вернуться к корректному способу решения задачи.

2-ая картинка — ход в карточной игре Hearthstone

3-ья картинка — закрытие дейликов в гача-игре Honkai: Star Rail

На других картинках всё понятно

Сиолошная

17 Nov, 16:56


На картинке слева пример того, как выглядит собранный промпт, а справа пример генерации LLM'кой плана для новой задачи (`def microwave_salmon():`).

В конце работы исследователи анализировали ошибки, почему всего 40% решено, и самая большая группа проблем — это что часть действий недоступна в разные моменты времени. Например, нельзя сидя открыть что-то, что стоит рядом (даже если проверка на расстояние до объекта пройдена) — просто ограничения движка для запуска виртуальной симуляции. Странно, что они с этим ничего не делают и не пытаются побороть основной источник проблем.

Вторая группа — это отсутствие обратной связи от среды по ходу исполнения плана. План генерируется один раз в самом начале, и если вдруг что-то не учтено — полный провал. В то время как можно было бы в моменты затыка давать новое состояние в промпт, делать ещё одну генерацию с текущего места, и пробовать довыполнить задачу. Надеюсь, в какой-то из будущих работ это проверили, но я пока не искал.