Nvidia ENPIRE: ИИ-агенты научили роботов самосовершенствоваться

Исследователи из Nvidia, Университета Карнеги-Меллона и Калифорнийского университета в Беркли создали ENPIRE — фреймворк, который позволяет ИИ-агентам для программирования самостоятельно улучшать алгоритмы управления роботами на реальном оборудовании.

Система работает по замкнутому циклу: робот выполняет задание, среда сама оценивает результат и возвращается в исходное положение, а ИИ-агент разбирает ошибки, корректирует код и запускает новую серию тестов.

Принцип работы ENPIRE

В робототехнике обучение на реальных устройствах остаётся дорогим и медленным. После неудачи необходимо восстановить сцену, проверить итог, изменить алгоритм и повторить эксперимент. Обычно часть этих операций требует вмешательства инженеров.

ENPIRE переносит в физический мир концепцию AutoResearch: ИИ-агенты пишут код, тестируют его и дорабатывают в следующих циклах. Однако, в отличие от виртуальной среды, каждый эксперимент здесь связан с реальными роботами, камерами, объектами, проблемами захвата, трением и другими физическими ограничениями.

Фреймворк включает четыре модуля:

* Environment — отвечает за автоматический сброс сцены, проверку результатов, логирование и интерфейсы безопасности.
* Policy Improvement — запускает процесс улучшения политики управления.
* Rollout — оценивает политику на одном или нескольких физических роботах.
* Evolution — позволяет агентам анализировать логи, искать идеи в литературе, менять инфраструктуру обучения и исправлять код.

После начальной настройки среды цикл может работать без постоянного контроля человека. Агент получает данные из видео, траекторий и функции вознаграждения, выдвигает новую гипотезу, изменяет код, тестирует результат на роботе и сохраняет изменения, если они улучшают показатель.

Роль автоматической проверки и сброса

Ключевая особенность ENPIRE — автоматизация двух процессов: оценки результата и возврата сцены в исходное состояние. Первое необходимо, чтобы система могла самостоятельно определить, выполнена ли задача. Например, в сценарии с кабельной стяжкой функция оценки объединяла детектор, сегментационную модель и проверку по двум камерам. Так агент получал сигнал об успехе или ошибке без ручной разметки каждого прогона.

Автоматический сброс позволяет проводить множество попыток подряд. После неудачного действия робот должен вернуть объект или сцену в состояние, пригодное для следующего эксперимента. Без этого обучение на реальном оборудовании быстро упирается в необходимость постоянного участия человека.

Как отмечается, на первом этапе человек помогает агенту создать постоянные инструменты — процедуру сброса и функцию вознаграждения. После этого они используются многократно, а агент берёт на себя дальнейшее улучшение политики.

Результаты испытаний на роботах

В реальных экспериментах команда тестировала ENPIRE на нескольких задачах манипуляции. Push-T проверяет, может ли робот толкать Т-образный объект в заданную зону. Pin Insertion требует вставлять штыри в отверстия диаметром 4 мм. Также были продемонстрированы установка GPU и операции с кабельной стяжкой.

На странице проекта Nvidia указано, что в реальных задачах манипуляции система успешно справлялась с заданием в 99% случаев, если агенту давали до восьми попыток с учётом предыдущих ошибок. Этот показатель отражает способность системы восстанавливаться после неудач и повторять действия с учётом контекста, а не точность одной изолированной попытки.

В качестве агентов для программирования команда сравнила Codex на GPT-5.5, Claude Code на Opus 4.7 и Kimi Code на Kimi K2.6. Оценка проводилась в бенчмарке AutoEnvBench на задачах Push-T и Pin Insertion.

Исследователи также протестировали ENPIRE в RoboCasa — симуляторе бытовых задач, таких как открытие шкафов, ящиков и включение или выключение объектов на кухне. В этих сценариях ENPIRE превзошёл GR00T от Nvidia и CaP-X — агентную систему, которая использует инструменты, но не запускает полный цикл автоматического исследования.

Восемь роботов ускорили обучение

Отдельный блок работы посвящён масштабированию на парк роботов. Nvidia провела эксперимент на восьми роботизированных станциях с двумя манипуляторами. У каждой были собственное оборудование, компьютер и ИИ-агент для программирования.

Станции обменивались результатами через Git: удачная идея или изменение кода могли быстро распространяться между агентами. Такой подход позволил сократить время обучения. Переход от одного робота к восьми сократил время освоения Push-T примерно с пяти до двух часов. Для Pin Insertion время снизилось с более чем 90 минут до около 40 минут.

Ограничения

Авторы подчеркнули, что масштабирование не решает всех проблем. Когда агенты читают логи, пишут код, отлаживают его или ждут ответа базовой языковой модели, роботы и вычислительные ресурсы используются не полностью. С ростом числа роботов увеличивается GPU-активность, но средняя загрузка самих роботов снижается. Команды агентов тратят больше времени на обобщение результатов других веток и координацию, а не только на физические прогоны.

Ещё одно ограничение — рост расхода токенов. Больший парк роботов быстрее приводит политику к рабочему состоянию, но требует больше токенов из-за чтения логов, обмена идеями и координации между агентами.

Кроме того, ENPIRE пока показан на ограниченном наборе задач манипуляции. Его результаты не означают, что роботы уже могут самостоятельно осваивать произвольные физические навыки в открытой среде без инженерной подготовки.

Напомним, в июне Nvidia представила Isaac GR00T Reference Humanoid Robot — исследовательский референс-дизайн для разработки и тестирования навыков гуманоидных роботов. В конфигурацию вошли корпус Unitree H2 Plus и тактильные пятипалые кисти Sharpa Wave.

Ранее Unitree представила «первого в мире готового к серийному производству» пилотируемого робота. Андроид способен передвигаться на двух и четырёх конечностях.

Обменять
Все Новости 21Shares a16zcrypto Aave Alameda Research Alchemy Algorand (ALGO) Alibaba Amazon AMD AML / KYC Anchorage Android Anthropic Apple Arbitrum (ARB) Arkham Aster B2B Base Bernstein Binance BIS Bitcoin Core Bitcoin Pizza Day Bitfarms Bitfinex Bitget Bithumb BitOK Bitwise BlackRock Block Bloomberg BNB Chain BNP Paribas Börse Stuttgart BTCFi Bullish Canaan Cardano (ADA) CBDC CertiK CFTC Chainalysis Chainlink (LINK) Charles Schwab Circle Citi CleanSpark CME Group Coinbase CoinDesk CoinEx CoinGecko CoinShares ConsenSys Core Scientific Crypto.com CryptoQuant Cumberland Curve (CRV) Dash DeepMind DeepSeek DeFi dePIN Deutsche Bank DEX Dogecoin (DOGE) Dune Analytics Elliptic Ernst & Young ETF Ethena Ethereum (ETH) Ethereum Name Service Exodus Facebook FATF FDIC Fidelity Investments Firefox ForkLog Consulting FTX Galaxy Digital Gemini GitHub Glassnode Goldman Sachs Google Google Gemini Google Trends Grayscale Investments HSBC HTX Huawei Hut 8 Hyperliquid IBM ICO ING Injective Interactive Brokers IPO Iris Energy JPMorgan Jump Trading K33 Kaiko Kalshi KPMG Kraken KuCoin LayerZero Lazarus Ledger LG Lido Lightning Network Litecoin (LTC) Mantle Marathon (MARA) Matrixport Messari meta MetaMask MEV MiCA Microsoft MicroStrategy (Strategy) Monad MoonPay Morgan Stanley Nansen Nasdaq Netflix NFT NVIDIA NYDIG OKX OneLiners Open Source OpenAI OpenClaw Optimism (OP) palantir Pantera Capital Paradigm Paxos PayPal Polkadot (DOT) Polygon (MATIC) Polymarket Pump.fun PwC PYUSD QCP Capital Revolut Riot Platforms Ripple (XRP) Robinhood RWA Samsung Santiment SDK SEC SharpLink SoftBank Solana (SOL) Solana-резерв Standard Chartered PLC Starbucks StarkNet StarkWare State Street Stripe Sui (SUI) Taiko Telegram Terra (LUNA) Tesla Tether (USDT) The DAO The Open Network THORChain Toncoin Tron (TRX) Twenty One Capital Twitter (X) uber ubs Uniswap (UNI) USD Coin (USDC) Visa Web3-смартфоны Web3Net western union WhatsApp Wintermute World Liberty Financial (WLFI) worldcoin x402 XAI YouTube Zcash (ZEC) ZK-rollups zkevm Австралия авторские права Адам Бэк Азартные игры Аирдропы акции Альткоины Анализ рынка Аргентина Артур Хэйес аудит Банк Англии Банки и финтех банкротство Беларусь белые хакеры Бермудские острова бизнес Биткоин биткоин-резерв Ближний Восток Блокировки и запреты блокчейн блокчейн-платформы Брэд Гарлингхаус Бутан вайб-кодинг Великобритания Венгрия Венесуэла Венчурные инвестиции видео Википедия Вилли Ву Виталик Бутерин волатильность выборы Вьетнам ВЭФ генеративный ИИ Генпрокуратура Германия Голливуд Дайджест кибербезопасности Дайджесты Дания ДАО Децентрализация Джейми Даймон Джозеф Любин дипфейки Дональд Трамп Дубай Дэвид Сакс евро Европа ЕЦБ запрет майнинга золото Игры и GameFi Израиль ИИ ИИ-агенты Илон Маск инвестиции Индия Индонезия Институционалы и киты интернет интероперабельность интерфейс мозг — компьютер (BCI) инфраструктура Иран Ирландия Искусственный Интеллект Испания Исследования Итоги недели календарь Камбоджа Канада квантовые вычисления квантовые компьютеры кванты Кибербезопасность Киберпреступления Китай комиссии комплаенс конференция конфискация конфискованные биткоины Космос Кошельки Кредитование крипта криптоактивы криптоанархизм Криптовалюты Криптография Криптодеривативы Криптоматы Криптоплатежи Крипториум Крипториум: Биткоин Крипториум: Технические основы Крипториум: Экономическая теория Кристин Лагард Кроссчейн-протоколы Куба Кыргызстан ликвидность листинг Лонгриды Майкл Сэйлор Майнинг Макроэкономика Мальта Масштабирование Матрица МВФ Медицина мемы Метавселенные Минфин США Мнения Москва мошенники музыка Мьянма Налоги Недвижимость Непал НКЦБФР Новости Новости ForkLog ОАЭ облигации обменники образование общество объем торгов Ончейн-анализ опровержение отчеты Павел Дуров партнерство Пентагон Питер Тиль подкаст поисковая система политика Польша Правоохранители Преступления Приватность и личные данные приложения Прогнозы о рынке криптовалют протоколы процессинг разработчики Расследования ребрендинг Регулирование Регулирование биткоина в России резервные валюты рейтинг реклама религия Решения второго уровня (L2) Робономика роботы Россия Росфинмониторинг рынки предсказаний Сальвадор санкции Сатоши Накамото Саудовская Аравия Сбои и уязвимости Северная Корея (КНДР) сельское хозяйство Сингапур Слияния и поглощения (M&A) Смарт-контракты смарт-очки снг сокращения Соцсети Спецслужбы Спорт стандарты стартапы Стейблкоины Стейкинг Суды суперкомпьютеры США Сэм Бэнкман-Фрид Таиланд телеком Теханализ Технические обновления технологии Токенизация активов токены Том Ли транзакции Транспорт Трейдинг Турция Украина утечка данных финансовая система финансы Финляндия Фондовый рынок фонды Франция ФРС США фьючерсы хардфорки Хестер Пирс хешрейт хранение ЦБ РФ Цена биткоина цензура Централизованные биржи (CEX) цифровая экономика цифровой евро Чанпэн Чжао Чарльз Хоскинсон чат-боты чипы Швейцария шифропанки штрафы эксперимент Энергетика Энтони Скарамуччи Эстония Южная Америка Южная Корея Япония