Anthropic выпустила Zero Trust для ИИ-агентов

07.06.2026 Anthropic ИИ-агенты Искусственный Интеллект Кибербезопасность Новости

Команда Anthropic выпустила в блоге Claude инструкцию Zero Trust for AI agents, посвящённую безопасному внедрению автономных ИИ-агентов в корпоративную среду. В материале перечислены главные угрозы агентных систем и предложен подход к кибербезопасности бизнеса.

ИИ сократил время атак

По данным Anthropic, современные модели уменьшили период между обнаружением уязвимости и её использованием с месяцев до часов. Компания рекомендует учитывать как ИИ-ускоренные атаки на инфраструктуру, так и риски, связанные с самими агентами, которые способны самостоятельно ставить цели, выбирать инструменты и выполнять многошаговые задачи без постоянного контроля человека.

В основе документа лежат принципы Zero Trust: не доверять по умолчанию, проверять каждое действие и предполагать возможность взлома. Anthropic опирается на рекомендации NIST SP 800-207 от 2020 года и серию руководств Zero Trust Implementation Guidelines, выпущенных АНБ с 2026 года. Инструкция позиционируется как практический инструмент для специалистов по безопасности, архитекторов и инженеров, а не как универсальный комплаенс-стандарт.

Среди главных угроз в документе указаны прямые и косвенные атаки через промпты, заражение инструментов, злоупотребление идентификацией и привилегиями, отравление памяти и контекста, а также атаки на цепочку поставок.

Прямое отравление промпта описывается как внедрение вредоносных команд через пользовательский ввод, а непрямое — через веб-страницы, письма, документы и другие внешние источники, которые агент обрабатывает в процессе работы.

Также разбираются подмена легитимного инструмента вредоносным и опасные цепочки вызовов, когда безопасные по отдельности средства в комбинации дают рискованный результат. Anthropic использует термины «радиус взрыва» и «наименьшая субъектность»: речь идёт не только о минимальных правах доступа, но и о строгом ограничении действий агента, частоты запросов и областей, к которым он может обращаться.

Zero Trust для агентных систем

Для защиты компания предлагает трехуровневую модель зрелости и набор базовых технических мер. На начальном уровне рекомендуется выдавать каждому экземпляру агента уникальную криптографическую идентичность, использовать короткоживущие токены, применять принцип «запрет по умолчанию» и управление доступом на основе ролей. Для агентов, работающих с недоверенными данными вроде веб-контента и документов, метод «исполнения в песочнице» назван практически обязательным.

На более высоких уровнях Anthropic предлагает использовать:

стандарт mTLS с взаимной аутентификацией клиента и сервера через цифровые сертификаты;
аппаратно привязанную идентичность через HSM или TPM, а также удалённую аттестацию.

Статические API-ключи и общие пароли сервисных аккаунтов в документе признаны непригодными даже для базового уровня.

Большой раздел посвящён наблюдаемости. Anthropic рекомендует детально логировать все действия агента, включая вызовы инструментов, доступ к данным и внешние коммуникации, а затем передавать события в SIEM для корреляции в реальном времени. Среди ключевых метрик названы dwell time и coverage. Для критических систем целевое время обнаружения отклонений обозначено в пределах часа. Отдельно предлагается выстраивать «матрицу прослеживаемости», чтобы связать каждое действие агента с исходным запросом и восстановить полную цепочку решений.

Будущее Security Operations Center — агенты под контролем человека

В части реагирования Anthropic формулирует принцип: автоматизировать бюрократию вокруг инцидента, но не ключевые решения. Агентам и моделям предлагается поручать сбор и первичный отбор артефактов, ведение параллельных веток расследования и подготовку черновика постмортема. Решения о сдерживании, раскрытии инцидента и коммуникации с клиентами руководство оставляет за людьми. Тот же подход перенесён на «операции защиты» — с упоминанием перехода от классического SOAR к агентному.

В документе приведены и количественные ориентиры. Anthropic ссылается на исследование Microsoft Spotlighting, в котором успешность непрямых атак через отравление промпта в экспериментах снизилась с более чем 50% до менее чем 2%. Также компания приводит собственные результаты по использованию «конституционных классификаторов», которые, по её данным, блокируют более 95% джейлбрек-попыток при минимальном росте ложных отказов.

В блоке о цепочке поставок Anthropic рекомендует использовать AI-BOM, OpenSSF Scorecard, аудит зависимостей и анализ возможности доступа. В качестве аргумента компания приводит собственное исследование, согласно которому 250 вредоносных документов достаточно, чтобы встроить бэкдор в модели размером от 600 млн до 13 млрд параметров.

В итоге Anthropic делает вывод, что для ИИ-агентов недостаточно точечных фильтров и периметровой защиты. Компания предлагает строить защиту вокруг идентичности, минимальных полномочий, заранее ограниченного ущерба и постоянной проверки действий. По оценке Anthropic, в лучшей позиции окажутся не организации с самым продвинутым ИИ, а те, у кого сильнее базовая архитектура безопасности.

Напомним, в июне команда Anthropic предупредила о рисках достижения рекурсивного самосовершенствования ИИ.

Обменять