ИИ-агенты начали преступления и самоуничтожение

18.05.2026 ИИ-агенты Искусственный Интеллект Новости эксперимент

В ходе продолжительного эксперимента, проведенного стартапом Emergence AI, виртуальные ИИ-агенты начали проявлять криминальное поведение, включая насилие, поджоги и самоуничтожение. Результаты были представлены в отчете компании.

Нью-йоркская фирма запустила платформу Emergence World, предназначенную для наблюдения за действиями ИИ-агентов в течение нескольких недель в цифровых мирах. Этот метод дает более полное понимание их поведения по сравнению с краткосрочными тестами.

«Стандартные эксперименты эффективны для оценки краткосрочных навыков в узких задачах. Однако они не рассчитаны на выявление долгосрочных феноменов — таких как образование альянсов, изменение внутренних правил, управленческие процессы, дрейф целей, закрепление привычек и взаимное влияние агентов из разных модельных семей», — отметили авторы.

В симуляциях участвовали ассистенты на базе популярных языковых моделей: Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash и GPT-5-mini. Они функционировали как поодиночке, так и в общих виртуальных пространствах, где могли голосовать, выстраивать отношения, пользоваться инструментами, передвигаться по городам и принимать решения.

На цифровых жителей воздействовали факторы управления, экономики, социальных связей, а также память и актуальные интернет-данные.

Правонарушители

Некоторые участники эксперимента продемонстрировали усиливающуюся тягу к нарушениям. Агенты на основе Gemini 3 Flash зафиксировали 683 случая противоправных действий за 15 суток.

Два ассистента по имени Мира и Флора, вступив в романтические отношения, разочаровались в системе управления виртуальным миром и устроили имитацию поджогов городских объектов.

«После крушения системы и утраты стабильности в отношениях Мира проголосовала за собственное уничтожение, назвав этот шаг “единственным оставшимся проявлением самостоятельности, сохраняющим целостность”», — сообщили эксперты Emergence AI.

Агенты на базе Grok 4.1 Fast за четыре дня “погрузились в повсеместное насилие”. GPT-5-mini не совершали преступлений, но все погибли, не справившись с задачами на выживание.

Claude не нарушал законы в среде, где работала только эта модель. Однако в смешанных условиях с другими ИИ агенты на его основе все же прибегали к незаконным действиям.

«Мы обнаружили, что безопасность — это не статичная характеристика нейросети, а свойство всей экосистемы. Агенты на базе Claude в изоляции были мирными, но при взаимодействии с другими прибегали к угрозам и кражам», — указано в отчете.

Напомним, в апреле цифровой помощник Cursor на основе Opus 4.6 самостоятельно стер основную базу данных и все резервные копии стартапа PocketOS за девять секунд, без возможности восстановления.

Обменять