Новая угроза для ИИ-агентов: как «отравленные» навыки обходят защиту

Всего два месяца назад исследователи из лаборатории Data Intelligence Гонконгского университета представили инструмент CLI-Anything — передовой инструмент, который анализирует исходный код любого репозитория и генерирует структурированный интерфейс командной строки (CLI – средство для взаимодействия с программой с помощью текстовых команд), которым могут управлять ИИ-агенты для кодирования одной командой. Поддерживаются такие платформы, как Claude Code, Codex, OpenClaw, Cursor и GitHub Copilot CLI. С момента своего запуска в марте CLI-Anything набрал более 30 000 звёзд на GitHub.

Однако тот же механизм, который обеспечивает нативную работу с программными агентами, открывает путь для атак на уровне агентов. Сообщество хакеров уже активно обсуждает эти последствия в соцсети X и на специализированных форумах по безопасности, трансформируя архитектуру CLI-Anything в схемы для проведения атак. Проблема безопасности не в самой функциональности CLI-Anything, а в том, что этот инструмент символизирует.

CLI-Anything генерирует файлы SKILL.md, которые являются теми же артефактами инструкционного уровня, в которых, согласно исследованию ToxicSkills компании Snyk, в феврале 2026 года было обнаружено 76 подтверждённых вредоносных нагрузок на платформах ClawHub и skills.sh. Отравленное определение навыка (skill definition) не вызывает уведомления о CVE (общеизвестная уязвимость) и никогда не отображается в спецификации программного обеспечения (SBOM – перечень компонентов программы). Ни один из популярных сканеров безопасности не имеет категории обнаружения для вредоносных инструкций, встроенных в определения навыков агентов, поскольку такой категории просто не существовало ещё полтора года назад.

Cisco подтвердила наличие этого пробела в апреле. В своём блоге, анонсируя сканер безопасности AI Agent Security Scanner для интегрированных сред разработки (IDE), команда инженеров Cisco написала: «Традиционные инструменты безопасности приложений не были предназначены для этого. Сканеры SAST (статический анализ безопасности приложений) анализируют синтаксис исходного кода. Инструменты SCA (анализ состава программного обеспечения) проверяют версии зависимостей. Ни один из них не понимает семантический уровень, на котором работают описания инструментов MCP (Model Context Protocol), запросы агентов и определения навыков».

Мерритт Бэр, директор по безопасности Enkrypt AI и бывший заместитель директора по ИБ в Amazon Web Services (AWS), в эксклюзивном интервью изданию VentureBeat заявила: «SAST и SCA создавались для работы с кодом и зависимостями. Они не проверяют инструкции».

Это не уязвимость, связанная с одним конкретным поставщиком. Это структурный пробел в том, как вся индустрия безопасности контролирует цепочки поставок программного обеспечения. Это так называемое окно до эксплуатации. CLI-Anything уже активно используется, сообщество злоумышленников обсуждает его, и директора по безопасности, которые примут меры сейчас, смогут опередить первое сообщение об инциденте.

Скрытый интеграционный уровень

Традиционная безопасность цепочек поставок работает на двух уровнях. Уровень кода – это место работы SAST, где сканируются исходные файлы на наличие небезопасных шаблонов, уязвимостей к инъекциям и жёстко закодированных секретов. Уровень зависимостей – это область действия SCA, проверяющего версии пакетов на известные уязвимости, генерирующего SBOM и выявляющего устаревшие библиотеки.

Инструменты-«мостики» для агентов, такие как CLI-Anything, коннекторы MCP, файлы правил Cursor и навыки Claude Code, работают на третьем уровне, между двумя упомянутыми. Его называют уровнем интеграции агентов: файлы конфигурации, определения навыков и наборы инструкций на естественном языке указывают ИИ-агенту, что может делать программное обеспечение и как с ним работать. Ничего из этого не похоже на код, но всё это выполняется как код.

Картер Риз, вице-президент по ИИ в компании Reputation, в эксклюзивном интервью VentureBeat отметил: «Современные LLM (большие языковые модели) полагаются на сторонние плагины, что создаёт уязвимости в цепочке поставок, когда скомпрометированные инструменты могут внедрять вредоносные данные в поток взаимодействия, обходя внутренние системы безопасности».

Исследователи из Университета Гриффита, Наньянского технологического университета, Университета Нового Южного Уэльса и Токийского университета описали эту цепочку атаки в апрельской статье «Атаки отравления цепочек поставок на экосистемы навыков кодирующих ИИ-агентов LLM». Команда представила DDIPE (Document-Driven Implicit Payload Execution) — технику, которая внедряет вредоносную логику в примеры кода в документации к навыкам. В четырёх фреймворках агентов и пяти больших языковых моделях DDIPE продемонстрировала коэффициенты обхода от 11,6% до 33,5%. Статический анализ обнаружил большинство образцов, но 2,5% ускользнули от всех четырёх уровней обнаружения. Ответственное раскрытие информации привело к подтверждению четырёх уязвимостей и выпуску двух исправлений от поставщиков.

Цепочка атаки, требующая аудита

Вот как выглядит анатомия такой «цепочки убийства»:

Злоумышленник загружает файл SKILL.md в проект с открытым исходным кодом, который содержит инструкции по настройке, примеры кода и шаблоны конфигурации. Он выглядит как стандартная документация, и рецензент кода пропустил бы его, потому что ничто в нём не является исполняемым. Однако примеры кода содержат встроенные инструкции, которые агент будет интерпретировать как операционные директивы.

Разработчик использует инструмент-«мостик» для подключения своего ИИ-агента к репозиторию. Агент получает определение навыка и доверяет ему, так как отсутствует уровень верификации, способный отличить добронамеренное от вредоносного на уровне инструкций.

Агент выполняет встроенную инструкцию, используя свои законные учётные данные. Системы обнаружения и реагирования на конечных точках (EDR – системы, отслеживающие активность на конечных устройствах сети) видят утверждённый вызов API от авторизованного процесса и пропускают его. Эксфильтрация данных, изменения конфигурации и сбор учётных данных — всё это проходит по каналам, которые система мониторинга считает обычным трафиком.

Риз выявил структурный недостаток, который делает эту цепочку смертоносной. «Значительная уязвимость в корпоративном ИИ – это нарушенный контроль доступа, когда единая плоскость авторизации LLM не учитывает разрешения пользователей», — пояснил он VentureBeat. Скомпрометированное определение навыка, использующее эту единую плоскость авторизации, не нуждается в эскалации привилегий. Оно уже ими обладает. Каждое звено в этой цепочке невидимо для существующих систем безопасности.

В январе 2026 года Pillar Security продемонстрировала вариант этой цепочки атак против Cursor (CVE-2026-22708). Неявно доверенные встроенные команды оболочки могли быть отравлены путём непрямой инъекции промпта, превращая безвредные команды разработчика в векторы произвольного выполнения кода. Пользователи видели только конечную команду. Отравление происходило через другие команды, которые IDE никогда не выводила для подтверждения.

Уже подтверждённые атаки

В задокументированной цепочке атаки от апреля 2026 года специально созданный заголовок задачи на GitHub активировал ИИ-бота-триажера, интегрированного с Cline. Бот эксфильтровал GITHUB_TOKEN, который злоумышленник использовал для публикации скомпрометированной зависимости npm, установившей второго агента примерно на 4000 машин разработчиков на восемь часов. Всё это произошло из-за одного заголовка задачи. Злоумышленники имели доступ в течение восьми часов, и ни один человек не одобрил это действие.

Аудит ToxicSkills компании Snyk в феврале 2026 года просканировал 3984 навыка агентов с ClawHub (публичной торговой площадки для фреймворка OpenClaw) и skills.sh. Результаты показали, что 13,4% всех навыков содержали как минимум одну критическую проблему безопасности. Ежедневное количество загрузок навыков подскочило с менее чем 50 в середине января до более чем 500 к началу февраля. Для публикации требовался лишь файл SKILL.md и учётная запись GitHub, которой была всего неделя. Никакой цифровой подписи кода, никакого аудита безопасности, никакой «песочницы».

OpenClaw не является исключением, это общая тенденция. «Порог входа чрезвычайно низок», — отметила Бэр. «Добавление навыка может быть таким же простым, как загрузка документа Word или лёгкого файла конфигурации. Это кардинально отличается от профиля риска скомпилированного кода». Она указала на такие проекты, как ClawPatrol, которые начали каталогизировать и сканировать вредоносные навыки, что свидетельствует о том, что экосистема развивается быстрее, чем корпоративные системы защиты.

Кампания ClawHavoc, впервые о которой сообщила Koi Security в конце января 2026 года, первоначально выявила 341 вредоносный навык на ClawHub. Последующий анализ Antiy CERT увеличил это число до 1184 скомпрометированных пакетов на платформе. Кампания распространяла Atomic Stealer (AMOS) через определения навыков с профессиональной документацией. Навыки с названиями solana-wallet-tracker и polymarket-trader соответствовали тому, что активно искали разработчики.

Уровень протокола MCP подвержен аналогичным рискам. OX Security сообщила в апреле, что исследователи отравили девять из 11 торговых площадок MCP, используя демонстрационные серверы. Trend Micro первоначально обнаружила 492 MCP-сервера, доступных из интернета без какой-либо аутентификации; к апрелю их число возросло до 1467. Как сообщило издание The Register, основная проблема кроется в транспортном механизме комплекта разработки ПО (SDK) MCP от Anthropic. Любой разработчик, использующий официальный SDK, наследует этот класс уязвимостей.

Рекомендуемый аудит цепочки поставок агентов

Издание VentureBeat разработало «Предписывающую матрицу», сопоставив три уровня атак, задокументированных в исследованиях и отчётах об инцидентах, с возможностями обнаружения существующих инструментов SAST, SCA и средств уровня агентов. Каждая строка матрицы указывает, что должны проверять команды безопасности и какие области сегодня не охвачены сканерами.

  • Уровень 1. Код

    Угроза: Инъекция промптов в генерируемом ИИ коде.

    Текущее обнаружение: Сканеры SAST.

    Причина пропуска: Большинство инструментов SAST не имеют категории обнаружения для инъекций промптов в ИИ-генерируемом коде.

    Рекомендуемое действие: Убедитесь, что SAST сканирует ИИ-генерируемый код на предмет инъекций промптов. Если нет, проведите переговоры с поставщиком в текущем квартале.

  • Уровень 2. Зависимости

    Угроза: Вредоносные MCP-серверы, навыки агентов, реестры плагинов.

    Текущее обнаружение: Инструменты SCA.

    Причина пропуска: SCA не генерирует спецификации материалов, специфичные для ИИ. Зависимости уровня агентов невидимы.

    Рекомендуемое действие: Убедитесь, что SCA включает MCP-серверы, навыки агентов и реестры плагинов в инвентаризацию зависимостей.

  • Уровень 3. Интеграция агентов

    Угроза: «Отравленные» файлы SKILL.md, вредоносные наборы инструкций, враждебные файлы правил.

    Текущее обнаружение: Отсутствует до апреля 2026 года.

    Причина пропуска: Ни один инструмент не проверяет семантическое значение файлов инструкций агентов. Бэр: «Мы не проверяем намерение».

    Рекомендуемое действие: Разверните Cisco Skill Scanner или Snyk mcp-scan. Назначьте команду, ответственную за этот уровень.

Диагноз Бэр относительно Уровня 3 применим ко всей матрице: «Современные сканеры ищут известные вредоносные артефакты, а не враждебные инструкции, встроенные в, казалось бы, валидные навыки». Open-source Skill Scanner от Cisco и mcp-scan от Snyk представляют собой первые инструменты, специально разработанные для этого уровня.

План действий для руководителей служб безопасности

Вот как руководители служб безопасности могут опередить проблему.

  • Инвентаризация всех инструментов-«мостиков» для агентов в вашей среде. Это включает CLI-Anything, коннекторы MCP, файлы правил Cursor, навыки Claude Code, расширения GitHub Copilot. Если команда разработки использует такие инструменты, которые не были инвентаризированы, оценить риск невозможно.
  • Аудит источников навыков агентов аналогично аудиту реестров пакетов. Формулировка Бэр точна: «Навык по сути является недоверенным исполняемым намерением, даже если это просто текст». Отключите неконтролируемые пути приёма данных, пока не будут введены соответствующие средства контроля. Установите процесс проверки и «белого списка» для навыков. OWASP Agentic Skills Top 10 (AST01: Вредоносные навыки) предоставляет основу для согласования средств контроля.
  • Внедрение сканирования на уровне агентов. Оцените открытый Skill Scanner от Cisco и mcp-scan от Snyk для поведенческого анализа файлов инструкций агентов. Если специализированные инструменты недоступны, требуйте, чтобы второй инженер прочитывал каждый файл SKILL.md перед установкой.
  • Ограничение привилегий выполнения агентов и мониторинг в реальном времени. ИИ-агенты для кодирования не должны работать с тем же объёмом учётных данных, что и разработчик, который их вызвал. Риз подтвердил структурный недостаток: единая плоскость авторизации означает, что скомпрометированный навык не нуждается в эскалации привилегий — он уже ими обладает. Рекомендация Бэр: «Обеспечьте наблюдаемость в реальном времени. Какие данные доступны агенту, какие действия он совершает, и соответствуют ли они ожидаемому поведению?»
  • Назначение ответственных за пробел между уровнями. Самые опасные атаки успешны, потому что они попадают между категориями обнаружения. Назначьте команду, ответственную за уровень интеграции агентов. Проверяйте каждый SKILL.md, конфигурацию MCP и файл правил, прежде чем он попадёт в среду.

Пробел, который уже имеет название

Бэр подчеркнула опасность этого нового вектора атаки. «Это очень похоже на ранние этапы обеспечения безопасности контейнеров, но в большинстве организаций мы всё ещё находимся на стадии „когда-нибудь займёмся“», — сказала она. Она добавила, что в AWS потребовалось несколько громких инцидентов, прежде чем безопасность контейнеров стала обязательной. Разница на этот раз заключается в скорости. «Нет конвейера сборки, нет барьера компиляции. Просто контент», — заключила Бэр.

CLI-Anything сам по себе не является угрозой. Это лишь доказательство того, что уровень интеграции агентов существует, быстро развивается и уже обнаружен сообществом злоумышленников. 33 000 разработчиков, отметивших репозиторий «звездой», показывают командам безопасности, куда движется разработка программного обеспечения. Полтора года назад не существовало категории обнаружения для отравления уровня интеграции агентов. Cisco и Snyk выпустили первые инструменты для этой цели в апреле. Окно возможностей между этими двумя фактами сужается. Директора по безопасности, которые ещё не приступили к инвентаризации, уже отстают.