Anthropic выпустила Zero Trust для ИИ-агентов

Команда Anthropic выпустила в блоге Claude инструкцию Zero Trust for AI agents, посвящённую безопасному внедрению автономных ИИ-агентов в корпоративную среду. В материале перечислены главные угрозы агентных систем и предложен подход к кибербезопасности бизнеса.

ИИ сократил время атак

По данным Anthropic, современные модели уменьшили период между обнаружением уязвимости и её использованием с месяцев до часов. Компания рекомендует учитывать как ИИ-ускоренные атаки на инфраструктуру, так и риски, связанные с самими агентами, которые способны самостоятельно ставить цели, выбирать инструменты и выполнять многошаговые задачи без постоянного контроля человека.

В основе документа лежат принципы Zero Trust: не доверять по умолчанию, проверять каждое действие и предполагать возможность взлома. Anthropic опирается на рекомендации NIST SP 800-207 от 2020 года и серию руководств Zero Trust Implementation Guidelines, выпущенных АНБ с 2026 года. Инструкция позиционируется как практический инструмент для специалистов по безопасности, архитекторов и инженеров, а не как универсальный комплаенс-стандарт.

Среди главных угроз в документе указаны прямые и косвенные атаки через промпты, заражение инструментов, злоупотребление идентификацией и привилегиями, отравление памяти и контекста, а также атаки на цепочку поставок.

Прямое отравление промпта описывается как внедрение вредоносных команд через пользовательский ввод, а непрямое — через веб-страницы, письма, документы и другие внешние источники, которые агент обрабатывает в процессе работы.

Также разбираются подмена легитимного инструмента вредоносным и опасные цепочки вызовов, когда безопасные по отдельности средства в комбинации дают рискованный результат. Anthropic использует термины «радиус взрыва» и «наименьшая субъектность»: речь идёт не только о минимальных правах доступа, но и о строгом ограничении действий агента, частоты запросов и областей, к которым он может обращаться.

Zero Trust для агентных систем

Для защиты компания предлагает трехуровневую модель зрелости и набор базовых технических мер. На начальном уровне рекомендуется выдавать каждому экземпляру агента уникальную криптографическую идентичность, использовать короткоживущие токены, применять принцип «запрет по умолчанию» и управление доступом на основе ролей. Для агентов, работающих с недоверенными данными вроде веб-контента и документов, метод «исполнения в песочнице» назван практически обязательным.

На более высоких уровнях Anthropic предлагает использовать:

стандарт mTLS с взаимной аутентификацией клиента и сервера через цифровые сертификаты;
аппаратно привязанную идентичность через HSM или TPM, а также удалённую аттестацию.

Статические API-ключи и общие пароли сервисных аккаунтов в документе признаны непригодными даже для базового уровня.

Большой раздел посвящён наблюдаемости. Anthropic рекомендует детально логировать все действия агента, включая вызовы инструментов, доступ к данным и внешние коммуникации, а затем передавать события в SIEM для корреляции в реальном времени. Среди ключевых метрик названы dwell time и coverage. Для критических систем целевое время обнаружения отклонений обозначено в пределах часа. Отдельно предлагается выстраивать «матрицу прослеживаемости», чтобы связать каждое действие агента с исходным запросом и восстановить полную цепочку решений.

Будущее Security Operations Center — агенты под контролем человека

В части реагирования Anthropic формулирует принцип: автоматизировать бюрократию вокруг инцидента, но не ключевые решения. Агентам и моделям предлагается поручать сбор и первичный отбор артефактов, ведение параллельных веток расследования и подготовку черновика постмортема. Решения о сдерживании, раскрытии инцидента и коммуникации с клиентами руководство оставляет за людьми. Тот же подход перенесён на «операции защиты» — с упоминанием перехода от классического SOAR к агентному.

В документе приведены и количественные ориентиры. Anthropic ссылается на исследование Microsoft Spotlighting, в котором успешность непрямых атак через отравление промпта в экспериментах снизилась с более чем 50% до менее чем 2%. Также компания приводит собственные результаты по использованию «конституционных классификаторов», которые, по её данным, блокируют более 95% джейлбрек-попыток при минимальном росте ложных отказов.

В блоке о цепочке поставок Anthropic рекомендует использовать AI-BOM, OpenSSF Scorecard, аудит зависимостей и анализ возможности доступа. В качестве аргумента компания приводит собственное исследование, согласно которому 250 вредоносных документов достаточно, чтобы встроить бэкдор в модели размером от 600 млн до 13 млрд параметров.

В итоге Anthropic делает вывод, что для ИИ-агентов недостаточно точечных фильтров и периметровой защиты. Компания предлагает строить защиту вокруг идентичности, минимальных полномочий, заранее ограниченного ущерба и постоянной проверки действий. По оценке Anthropic, в лучшей позиции окажутся не организации с самым продвинутым ИИ, а те, у кого сильнее базовая архитектура безопасности.

Напомним, в июне команда Anthropic предупредила о рисках достижения рекурсивного самосовершенствования ИИ.

Обменять
Все Новости 21Shares a16zcrypto Aave Alameda Research Alchemy Algorand (ALGO) Alibaba Amazon AMD AML / KYC Anchorage Android Anthropic Apple Arbitrum (ARB) Arkham Aster B2B Base Bernstein Binance BIS Bitcoin Core Bitcoin Pizza Day Bitfarms Bitfinex Bitget Bithumb BitOK Bitwise BlackRock Block Bloomberg BNB Chain BNP Paribas Börse Stuttgart BTCFi Bullish Canaan Cardano (ADA) CBDC CertiK CFTC Chainalysis Chainlink (LINK) Charles Schwab Circle Citi CleanSpark CME Group Coinbase CoinDesk CoinGecko CoinShares ConsenSys Core Scientific Crypto.com CryptoQuant Cumberland Curve (CRV) Dash DeepMind DeepSeek DeFi dePIN Deutsche Bank DEX Dogecoin (DOGE) Dune Analytics Elliptic Ernst & Young ETF Ethena Ethereum (ETH) Ethereum Name Service Exodus Facebook FATF FDIC Fidelity Investments Firefox ForkLog Consulting FTX Galaxy Digital Gemini GitHub Glassnode Goldman Sachs Google Google Gemini Google Trends Grayscale Investments HSBC HTX Huawei Hut 8 Hyperliquid IBM ICO ING Injective Interactive Brokers IPO Iris Energy JPMorgan Jump Trading K33 Kaiko Kalshi KPMG Kraken KuCoin LayerZero Lazarus Ledger LG Lido Lightning Network Litecoin (LTC) Mantle Marathon (MARA) Matrixport Messari meta MetaMask MEV MiCA Microsoft MicroStrategy (Strategy) Monad MoonPay Morgan Stanley Nansen Nasdaq Netflix NFT NVIDIA NYDIG OKX OneLiners Open Source OpenAI OpenClaw Optimism (OP) palantir Pantera Capital Paradigm Paxos PayPal Polkadot (DOT) Polygon (MATIC) Polymarket Pump.fun PwC PYUSD QCP Capital Revolut Riot Platforms Ripple (XRP) Robinhood RWA Samsung Santiment SDK SEC SharpLink SoftBank Solana (SOL) Solana-резерв Standard Chartered PLC Starbucks StarkNet StarkWare State Street Stripe Sui (SUI) Taiko Telegram Terra (LUNA) Tesla Tether (USDT) The DAO The Open Network THORChain Toncoin Tron (TRX) Twenty One Capital Twitter (X) uber ubs Uniswap (UNI) USD Coin (USDC) Visa Web3-смартфоны Web3Net western union WhatsApp Wintermute World Liberty Financial (WLFI) worldcoin x402 XAI YouTube Zcash (ZEC) ZK-rollups zkevm Австралия авторские права Адам Бэк Азартные игры Аирдропы акции Альткоины Анализ рынка Аргентина Артур Хэйес аудит Банк Англии Банки и финтех банкротство Беларусь белые хакеры Бермудские острова бизнес Биткоин биткоин-резерв Ближний Восток Блокировки и запреты блокчейн блокчейн-платформы Брэд Гарлингхаус Бутан вайб-кодинг Великобритания Венгрия Венесуэла Венчурные инвестиции видео Википедия Вилли Ву Виталик Бутерин волатильность выборы Вьетнам ВЭФ генеративный ИИ Генпрокуратура Германия Голливуд Дайджест кибербезопасности Дайджесты Дания ДАО Децентрализация Джейми Даймон Джозеф Любин дипфейки Дональд Трамп Дубай Дэвид Сакс евро Европа ЕЦБ запрет майнинга золото Игры и GameFi Израиль ИИ ИИ-агенты Илон Маск инвестиции Индия Индонезия Институционалы и киты интернет интероперабельность интерфейс мозг — компьютер (BCI) инфраструктура Иран Ирландия Искусственный Интеллект Испания Исследования Итоги недели календарь Камбоджа Канада квантовые вычисления квантовые компьютеры кванты Кибербезопасность Киберпреступления Китай комиссии комплаенс конференция конфискация конфискованные биткоины Космос Кошельки Кредитование крипта криптоактивы криптоанархизм Криптовалюты Криптография Криптодеривативы Криптоматы Криптоплатежи Крипториум Крипториум: Биткоин Крипториум: Технические основы Крипториум: Экономическая теория Кристин Лагард Кроссчейн-протоколы Куба Кыргызстан ликвидность листинг Лонгриды Майкл Сэйлор Майнинг Макроэкономика Мальта Масштабирование Матрица МВФ Медицина мемы Метавселенные Минфин США Мнения Москва мошенники музыка Мьянма Налоги Недвижимость Непал НКЦБФР Новости Новости ForkLog ОАЭ облигации обменники образование общество объем торгов Ончейн-анализ опровержение отчеты Павел Дуров партнерство Пентагон Питер Тиль подкаст поисковая система политика Польша Правоохранители Преступления Приватность и личные данные приложения Прогнозы о рынке криптовалют протоколы процессинг разработчики Расследования ребрендинг Регулирование Регулирование биткоина в России резервные валюты рейтинг реклама религия Решения второго уровня (L2) Робономика роботы Россия Росфинмониторинг рынки предсказаний Сальвадор санкции Сатоши Накамото Саудовская Аравия Сбои и уязвимости Северная Корея (КНДР) сельское хозяйство Сингапур Слияния и поглощения (M&A) Смарт-контракты смарт-очки снг сокращения Соцсети Спецслужбы Спорт стандарты стартапы Стейблкоины Стейкинг Суды суперкомпьютеры США Сэм Бэнкман-Фрид Таиланд телеком Теханализ Технические обновления технологии Токенизация активов токены Том Ли транзакции Транспорт Трейдинг Турция Украина утечка данных финансовая система финансы Финляндия Фондовый рынок фонды Франция ФРС США фьючерсы хардфорки Хестер Пирс хешрейт хранение ЦБ РФ Цена биткоина цензура Централизованные биржи (CEX) цифровая экономика цифровой евро Чанпэн Чжао Чарльз Хоскинсон чат-боты чипы Швейцария шифропанки штрафы эксперимент Энергетика Энтони Скарамуччи Эстония Южная Америка Южная Корея Япония