MolmoMotion: предсказание траекторий через язык и видео

Исследователи представили MolmoMotion, модель, которая смотрит на видеоклип, слышит текстовое описание цели и предсказывает, как будут двигаться объекты в трёхмерном пространстве дальше. Система объединяет возможности современных видеомоделей с языковым пониманием для управления траекториями. Модель показала сильные результаты на стандартных бенчмарках и хорошо перенеслась на реальные робототехнические системы.

Примечательно, что MolmoMotion может учиться на открытых видеоданных и применять этот опыт к совершенно иной задаче: манипуляции предметов робототехническим манипулятором. Это указывает на универсальность внутреннего представления движения, которое изучает модель.

Ключевые факты

Модель предсказывает 3D-траектории объектов из видео и текстовой инструкции
Обучается на открытых видеоданных и хорошо переносится на роботизированные системы
Показывает лучшие результаты на бенчмарках в сравнении с предыдущими методами
Применима как к видео-синтезу, так и к управлению роботами-манипуляторами

Ред. «Учится на видео из интернета и переносится на робота» это мечта всего embodied AI, повторяемая в каждой второй статье. Интересна не мечта, а 20 пунктов, которые её на сей раз вроде бы подтверждают.

Почему это важно

Предсказание траектории движения объектов это ключевой навык для роботов и систем автономной навигации. MolmoMotion предсказывает будущие положения 3D-точек объектов в мировых координатах по видеоистории, начальным координатам и текстовой команде цели. Авторы собрали MolmoMotion-1M, датасет из 1,16 миллиона видеоклипов с описаниями действий и точечными аннотациями. На бенчмарке PointMotionBench (742 человеко-проверенных клипа, 111 категорий объектов, 61 тип движения) модель показала ADE от 0,109 до 1,227 метра в зависимости от задачи. Главное: при переносе на реальные роботические системы успех pick-and-place вырос с 56,0% до 76,3%.

Ред. Вот это честная цифра: pick-and-place с 56,0% до 76,3% на реальном железе, а не на третьем знаке после запятой. Правда, ADE «от 0,109 до 1,227 метра» прячет в одном диапазоне и попадание в сантиметр, и промах больше метра, то есть на части задач модель ошибается на длину руки.

Кому это важно

Разработчикам промышленных роботов: манипуляторы для складов, производства, логистики. Компаниям, работающим над автономными системами, которым нужно предсказывать движение объектов в мировых координатах, независимо от позиции камеры. Исследователям в области embodied AI, изучающим как представить движение так, чтобы оно переносилось между человеческими видео и роботическими задачами. Системам видеоаналитики, где 3D-отслеживание критично.

Ред. Складам и логистике рисуют универсального предсказателя движения, «независимо от позиции камеры». Универсальность внутреннего представления это красивая гипотеза, которую один датасет из семи источников корпоративного видео ещё не доказывает.

Как это применить

MolmoMotion работает в двух режимах: аутореграмма (последовательное предсказание координат с мм-точностью через quantization) и flow-matching (DiT decoder с RoPE позиционированием на осях point/time). Если вы разрабатываете робот-манипулятор, подайте видео рабочей области, начальные 3D-точки объекта и текстовую команду типа захватить/переместить. Модель выдаст предсказание траектории. Для видеосинтеза можно использовать flow-matching режим. Интеграция требует vision-language backbone Molmo2 и обработки точек через metric 3D lifting.

Ред. Два режима, mm-точность, RoPE по осям point/time, и всё это поверх конкретного бэкбона Molmo2. «Интеграция требует metric 3D lifting» означает, что без чужого ViPE в пайплайне ваши 3D-точки взять неоткуда.

Можно ли доверять

Работа опубликована серьёзной группой с полным описанием пятиэтапного pipeline аннотации: семантическое grounding, 2D tracking, metric 3D lifting через ViPE, фильтрация, clipping. Датасет MolmoMotion-1M собран из 7 источников корпоративных видео. Авторы провели robotic transfer экспериментов на реальных системах. Улучшение на 20 пунктов процента на pick-and-place это значимый практический результат.

Ред. 742 человеко-проверенных клипа и реальные robotic-transfer эксперименты внушают больше доверия, чем средний arXiv. Но пятиэтапный пайплайн аннотации это и пять мест, где ошибка тихо протекает в датасет, на котором потом всё и меряют.

Риски и подводные камни

Успех переноса на реального робота зависит от quality домена видеоданных для обучения. Если видео обучения не включает нужные классы объектов или движения, точность на новых объектах падает. Требует 16 H100 GPU для обучения с глобальным batch 256. Система может ошибиться в окклюзии объектов или при низкой освещённости. Метрика ADE/FDE это расстояние в метрах, но на практике погрешность может накапливаться при долгих предсказаниях.

Ред. Раздел сам гасит слово «универсальность»: нет нужного класса в обучении, падает точность; окклюзия и плохой свет ломают; нужны 16 H100; а погрешность копится на длинных предсказаниях. Перенос на робота работает ровно до первого объекта, которого не было в видео.