Nvidia ENPIRE: ИИ-агенты научили роботов самосовершенствоваться

18.06.2026 NVIDIA Искусственный Интеллект Новости роботы

Исследователи из Nvidia, Университета Карнеги-Меллона и Калифорнийского университета в Беркли создали ENPIRE — фреймворк, который позволяет ИИ-агентам для программирования самостоятельно улучшать алгоритмы управления роботами на реальном оборудовании.

Система работает по замкнутому циклу: робот выполняет задание, среда сама оценивает результат и возвращается в исходное положение, а ИИ-агент разбирает ошибки, корректирует код и запускает новую серию тестов.

Принцип работы ENPIRE

В робототехнике обучение на реальных устройствах остаётся дорогим и медленным. После неудачи необходимо восстановить сцену, проверить итог, изменить алгоритм и повторить эксперимент. Обычно часть этих операций требует вмешательства инженеров.

ENPIRE переносит в физический мир концепцию AutoResearch: ИИ-агенты пишут код, тестируют его и дорабатывают в следующих циклах. Однако, в отличие от виртуальной среды, каждый эксперимент здесь связан с реальными роботами, камерами, объектами, проблемами захвата, трением и другими физическими ограничениями.

Фреймворк включает четыре модуля:

* Environment — отвечает за автоматический сброс сцены, проверку результатов, логирование и интерфейсы безопасности.
* Policy Improvement — запускает процесс улучшения политики управления.
* Rollout — оценивает политику на одном или нескольких физических роботах.
* Evolution — позволяет агентам анализировать логи, искать идеи в литературе, менять инфраструктуру обучения и исправлять код.

После начальной настройки среды цикл может работать без постоянного контроля человека. Агент получает данные из видео, траекторий и функции вознаграждения, выдвигает новую гипотезу, изменяет код, тестирует результат на роботе и сохраняет изменения, если они улучшают показатель.

Роль автоматической проверки и сброса

Ключевая особенность ENPIRE — автоматизация двух процессов: оценки результата и возврата сцены в исходное состояние. Первое необходимо, чтобы система могла самостоятельно определить, выполнена ли задача. Например, в сценарии с кабельной стяжкой функция оценки объединяла детектор, сегментационную модель и проверку по двум камерам. Так агент получал сигнал об успехе или ошибке без ручной разметки каждого прогона.

Автоматический сброс позволяет проводить множество попыток подряд. После неудачного действия робот должен вернуть объект или сцену в состояние, пригодное для следующего эксперимента. Без этого обучение на реальном оборудовании быстро упирается в необходимость постоянного участия человека.

Как отмечается, на первом этапе человек помогает агенту создать постоянные инструменты — процедуру сброса и функцию вознаграждения. После этого они используются многократно, а агент берёт на себя дальнейшее улучшение политики.

Результаты испытаний на роботах

В реальных экспериментах команда тестировала ENPIRE на нескольких задачах манипуляции. Push-T проверяет, может ли робот толкать Т-образный объект в заданную зону. Pin Insertion требует вставлять штыри в отверстия диаметром 4 мм. Также были продемонстрированы установка GPU и операции с кабельной стяжкой.

На странице проекта Nvidia указано, что в реальных задачах манипуляции система успешно справлялась с заданием в 99% случаев, если агенту давали до восьми попыток с учётом предыдущих ошибок. Этот показатель отражает способность системы восстанавливаться после неудач и повторять действия с учётом контекста, а не точность одной изолированной попытки.

В качестве агентов для программирования команда сравнила Codex на GPT-5.5, Claude Code на Opus 4.7 и Kimi Code на Kimi K2.6. Оценка проводилась в бенчмарке AutoEnvBench на задачах Push-T и Pin Insertion.

Исследователи также протестировали ENPIRE в RoboCasa — симуляторе бытовых задач, таких как открытие шкафов, ящиков и включение или выключение объектов на кухне. В этих сценариях ENPIRE превзошёл GR00T от Nvidia и CaP-X — агентную систему, которая использует инструменты, но не запускает полный цикл автоматического исследования.

Восемь роботов ускорили обучение

Отдельный блок работы посвящён масштабированию на парк роботов. Nvidia провела эксперимент на восьми роботизированных станциях с двумя манипуляторами. У каждой были собственное оборудование, компьютер и ИИ-агент для программирования.

Станции обменивались результатами через Git: удачная идея или изменение кода могли быстро распространяться между агентами. Такой подход позволил сократить время обучения. Переход от одного робота к восьми сократил время освоения Push-T примерно с пяти до двух часов. Для Pin Insertion время снизилось с более чем 90 минут до около 40 минут.

Ограничения

Авторы подчеркнули, что масштабирование не решает всех проблем. Когда агенты читают логи, пишут код, отлаживают его или ждут ответа базовой языковой модели, роботы и вычислительные ресурсы используются не полностью. С ростом числа роботов увеличивается GPU-активность, но средняя загрузка самих роботов снижается. Команды агентов тратят больше времени на обобщение результатов других веток и координацию, а не только на физические прогоны.

Ещё одно ограничение — рост расхода токенов. Больший парк роботов быстрее приводит политику к рабочему состоянию, но требует больше токенов из-за чтения логов, обмена идеями и координации между агентами.

Кроме того, ENPIRE пока показан на ограниченном наборе задач манипуляции. Его результаты не означают, что роботы уже могут самостоятельно осваивать произвольные физические навыки в открытой среде без инженерной подготовки.

Напомним, в июне Nvidia представила Isaac GR00T Reference Humanoid Robot — исследовательский референс-дизайн для разработки и тестирования навыков гуманоидных роботов. В конфигурацию вошли корпус Unitree H2 Plus и тактильные пятипалые кисти Sharpa Wave.

Ранее Unitree представила «первого в мире готового к серийному производству» пилотируемого робота. Андроид способен передвигаться на двух и четырёх конечностях.

Обменять