Больше не нужно искать — необходимые
обучающие материалы и подсказки всегда под рукой

Alibaba представила набор ИИ-моделей Qwen-Robot Suite, предназначенный для роботов и работы в физической среде. В него вошли: Qwen-RobotNav для навигации, Qwen-RobotManip для манипуляции объектами и Qwen-RobotWorld для прогнозирования развития сцены. Разработчики охарактеризовали проект как «полный стек для воплощённого искусственного интеллекта».
Речь идёт о программных решениях, которые помогают физическим агентам анализировать окружение, планировать действия и выполнять команды на естественном языке. В настоящее время Qwen-Robot Suite проходит пилотное тестирование у отдельных корпоративных клиентов Alibaba Cloud в сфере робототехники.
Зачем Alibaba выводит Qwen в физический мир
Крупные языковые и мультимодальные модели уже успешно работают с текстом, изображениями, видео и речью, но для роботов этого недостаточно. Физическим агентам необходимо не только понимать команду, но и преобразовывать её в движение, учитывая пространство, свойства объектов, ограничения сенсоров и последствия действий.
Alibaba называет это направлением физического ИИ, или «воплощённого искусственного интеллекта». В рамках такого подхода модель должна взаимодействовать не только с цифровыми данными, но и с физической средой: передвигаться, находить предметы, управлять манипуляторами и предсказывать результаты своих действий.
Qwen-RobotNav: пять задач навигации в одной модели
Qwen-RobotNav отвечает за навигацию. Модель объединяет пять групп задач: следование инструкциям, движение к заданной точке, поиск объектов, отслеживание цели и автономное вождение.
По информации Alibaba, Qwen-RobotNav создана на базе Qwen3-VL и обучена на 15,6 млн образцов, связанных с планированием маршрутов и визуально-языковым анализом.
Компания сообщила о 76,5% успешности на тесте VLN-CE RxR и 90% на EVT-Bench. Также уточняется, что модель может использоваться как инструмент для более крупных агентных систем: верхнеуровневая модель планирует задачу, а Qwen-RobotNav отвечает за перемещение.
В демонстрациях Alibaba описывает сценарии, такие как поиск потерянного предмета в помещении или проверка, открыт ли конкретный объект в здании. В таких задачах робот должен не просто двигаться, а собирать визуальные доказательства и предоставлять ответ пользователю.
Qwen-RobotManip: действия с объектами
Qwen-RobotManip предназначена для физического взаимодействия с объектами. Модель помогает роботам брать, перемещать и размещать предметы, а также переносить навыки между различными типами устройств.
Одна из ключевых проблем робототехники заключается в том, что роботы описывают действия по-разному. Манипулятор, двуручная платформа, робот с кистью или мобильная система используют разные координаты, суставы и форматы команд. Qwen-RobotManip пытается привести эти данные к общему представлению, чтобы обучение на одном типе робота помогало другому.
Для обучения Alibaba использовала более 38 100 часов данных. В этот объём вошли 11 320 часов открытых робототехнических данных, 1933 часа видео действий человека от первого лица и 24 808 часов синтетических роботических демонстраций, созданных на основе таких видео.
Компания заявила, что модель заняла первое место в RoboChallenge Table30 v1 в треке универсальных моделей. По данным Alibaba, Qwen-RobotManip также продемонстрировала устойчивость к новым инструкциям, незнакомым объектам и переносу навыков между разными роботами.
Qwen-RobotWorld: модель мира для роботов
Qwen-RobotWorld — это видеомодель мира, управляемая естественным языком. Она прогнозирует, как будет развиваться сцена после заданного действия.
Например, модель получает текущее наблюдение и текстовую команду, а затем генерирует вероятное будущее состояние среды. Такой подход может применяться для манипуляций, автономного вождения, навигации, планирования и создания синтетических обучающих данных для роботов.
Для обучения Qwen-RobotWorld команда собрала корпус Embodied World Knowledge. Он включает 8,6 млн пар «видео-текст» и более 200 млн кадров, охватывает более 20 типов роботических платформ и свыше 500 категорий действий.
Alibaba сообщила, что Qwen-RobotWorld заняла первое место в EWMBench и DreamGen Bench, а также превзошла все открытые модели в WorldModelBench и PBench. В техническом описании также утверждается, что модель показывает высокую согласованность с базовыми физическими закономерностями — движением, сохранением массы, жидкостями и гравитацией.
До массовых роботов ещё далеко
Несмотря на заявленные результаты, Qwen-Robot Suite пока остаётся набором моделей, а не готовой потребительской робототехнической платформой. Реальное внедрение сталкивается с шумом сенсоров, износом приводов, нестандартными ситуациями, ошибками восприятия и огромным числом редких сценариев. Многие бенчмарки, на которых сравнивают такие системы, проходят в симуляции или в ограниченных экспериментальных условиях.
Alibaba также не раскрыла стоимость доступа, сроки публичного запуска и список клиентов, которые уже тестируют Qwen-Robot Suite.
Напомним, в апреле Alibaba Cloud представила агентную модель Qwen3.6-Plus с контекстным окном 1 млн токенов и поддержкой внешних инструментов.
Популярные новости: