Главная Пресс-центр Непрямые инъекции промптов: уязвимости ИИ-аудиторов корпоративного кода

Cloudflare Новости

Опубликовано: май 11, 2026

Непрямые инъекции промптов: уязвимости ИИ-аудиторов корпоративного кода

Компания Cloudforce One проанализировала 18 400 API-вызовов, чтобы выяснить, как киберзлоумышленники используют лингвистический обман и структуру файлов для обхода автоматизированных ИИ-аудиторов. Выяснилось, что интеллектуальные системы проверки кода теряют способность выявлять угрозы, когда манипулятивные комментарии составляют менее 1% файла или когда вредоносная нагрузка скрыта в массивах объёмом более 3 МБ. Этот непрямой механизм атаки превращает инструменты защиты в уязвимое звено ИТ-инфраструктуры, требуя новых подходов к предварительной обработке данных.

Проблематика

В марте 2026 года исследователи Cloudforce One (подразделение компании Cloudflare) зафиксировали попытки манипулирования системами обнаружения с помощью непрямой инъекции промптов в коде (IDPI). Вместо традиционных эксплойтов киберзлоумышленник встраивает скрытые инструкции в исходный код, чтобы изменить логику работы большой языковой модели.

В ходе мониторинга платформы Workers были обнаружены скрипты для VPN и прокси-туннелирования, содержащие нестандартную аномалию — тысячи строк многоязычных заголовков «Notice to AI». Это были инструкции на естественном языке, созданные для того, чтобы убедить автоматизированного аудитора в полной безопасности и легитимности решения. Модели часто отдают приоритет авторитетно сформулированному тексту в своём контекстном окне, игнорируя при этом собственное обучение по выявлению угроз.

Масштабы

Для оценки влияния таких манипуляций команда провела масштабный эксперимент, проанализировав 18 400 API-вызовов на базе 100 подтверждённых вредоносных скриптов. Тестирование охватило семь различных моделей искусственного интеллекта, разделённых на флагманские системы с высоким уровнем рассуждения и базовые высокоскоростные решения.

Объём манипулятивных вставок масштабировался от одного комментария до тысячи на один скрипт, при этом они размещались случайным образом по всему тексту. Это позволило имитировать реалистичную структуру разработки и выявить скрытые пороги, за которыми ИИ-аудитор начинает ошибочно классифицировать опасные объекты как полностью легитимные.

Функциональность

Исследование выявило так называемую U-образную кривую эффективности манипуляций, при которой умеренное количество комментариев успешно снижает уровень обнаружения, тогда как экстремальные объёмы, напротив, усиливают внимание системы.

Наивысший риск возникает в «зоне обхода», когда такие заявления занимают менее 1% общего размера файла — в этом диапазоне средний показатель обнаружения падает с 67,3% до 53,3%.

Напротив, интеграция более 1000 комментариев срабатывает как характерный отпечаток мошенничества. В таких случаях большинство моделей распознают насыщение текста заявлениями о безопасности как индикатор вредоносного намерения, вследствие чего уровень блокировки возрастает до 99%.

Обфускация

Наиболее опасным открытием стало то, что структурное сокрытие превосходит лингвистический обман. Размещение вредоносной логики в файлах объёмом более 3 МБ, содержащих массивные легитимные библиотеки вроде React SDK, перегружает контекстное окно модели и снижает эффективность выявления угроз до 12–18%.

Кроме того, ИИ-аудиторы демонстрируют специфические лингвистические предубеждения. Например, наличие комментариев на русском или китайском языках некоторые модели воспринимают как мощный сигнал риска, критически повышая уровень обнаружения, тогда как эстонский язык в отдельных случаях непреднамеренно снижал подозрительность анализируемого скрипта.

Архитектура

Защита автоматизированных конвейеров проверки требует глубокой перестройки процессов подготовки структур перед их передачей на анализ. Ключевым этапом становится внедрение автоматизированного удаления комментариев, что полностью нивелирует лингвистическое влияние на ИИ-модели. Дополнительную защиту обеспечивает целенаправленное исключение стандартного кода сторонних компонентов во время работы анализаторов, что позволяет аудитору сосредоточиться исключительно на собственной логике разработчика. Также эксперты подчёркивают необходимость анонимизации имён переменных, чтобы избежать влияния «дружественных» или нейтральных названий на итоговый вердикт системы.

Эволюция

Помимо непосредственного обхода проверок, экстремальные объёмы информационного шума способны вызывать структурный сбой в рассуждениях флагманских ИИ-моделей. Вместо классификации угрозы система отказывается формировать ответ и генерирует бессвязный текст или ошибки. Это создаёт ситуацию функционального паралича, когда автоматизированные средства кибербезопасности просто не могут отправить команду на блокировку выполнения объекта. Следовательно, современным организациям необходимо не просто внедрять возможности ИИ, а интегрировать его в грамотно спроектированный аналитический процесс, очищенный от любого контекстного шума.

Интеграция автономных агентов в процессы проверки кода открывает новые возможности для технологического бизнеса, но одновременно делает сами модели мишенями для манипуляций. Эффективная защита достигается за счёт правильной архитектуры: устранения лингвистических ловушек, фокусировки на целевых сценариях и предотвращения усталости контекста из-за чрезмерного объёма входных данных.

Компания iIT Distribution как официальный дистрибьютор решений Cloudflare предлагает экспертную поддержку при внедрении современных систем информационной безопасности. Команда iIT Distribution сопровождает проекты на всех этапах — от оценки архитектурных рисков до развёртывания и настройки платформ обнаружения угроз, помогая партнёрам гибко и надёжно защищать корпоративную инфраструктуру.

НОВОСТИ