
Компания Xiaomi открыла всем желающим доступ к программному комплексу, который помогает машинам понимать команды на естественном языке и выполнять физические действия в реальном мире. Разработчики получили код, математические веса модели и могут адаптировать технологию под любое оборудование — от манипуляторов до гуманоидов.
Секрет новинки спрятан в раздельной архитектуре: визуально-языковая часть на базе Qwen3 анализирует картинку с камер и текстовую команду, а блок DiT с трансформером генерирует последовательность действий через алгоритм flow matching. Общий объем — 4.7 миллиарда параметров. Такое разделение труда устранило главную беду железных помощников: паузу между «подумал» и «сделал». Обычно автомат сначала обрабатывает сенсоры, планирует траекторию, и только потом начинает двигаться. Xiaomi применила Lambda-маску внимания — механизм, при котором система уже строит план следующего шага, пока завершает текущий. Асинхронный режим запускает расчет новой порции команд параллельно с исполнением предыдущих, поэтому манипулятор не замирает ни на миллисекунду.

В симуляторе LIBERO точность достигла 98.7% это рекордкость среди VLA-моделей. На практике железный ассистент справляется с задачами, где нужна ловкость рук: разбирает конструкции из двух десятков кубиков, встряхивает ткань, чтобы найти спрятанный угол, и возвращает лишнее полотенце, если взял больше нужного. Обучили новинку на 200 миллионах временны́х шагов траекторий — сюда вошли публичные датасеты и 738 часов собственных записей телеоперирования (338 часов на Lego, 400 на текстиле). Добавили 80 миллионов пар изображение-текст, чтобы сохранить способность «видеть» объекты и не забыть общие знания о мире.
На втором этапе тренировки языковая модель заморозилась, а DiT научился создавать плавные цепочки движений. Адаптивное перевзвешивание ошибок штрафует систему сильнее, если она отклонилась от эталонной траектории, так железка быстрее учится реагировать на неожиданности. Проект уже доступен на GitHub вместе с техническими отчетами и видеодемонстрациями. Исследователи смогут встроить наработки в свои прототипы без лицензионных ограничений — шаг, который может ускорить появление доступных домашних помощников и промышленных роботов нового поколения.
Также недавно рассказали о первом серийном электромобиле на натрий-ионной батарее. Подробности в статье.

