Эксперты предупреждают о новой уязвимости в системах генеративного ИИ

28.04.2025 Разместил: Редакция 1938

Исследования компании HiddenLayer, специализирующейся на безопасности искусственного интеллекта, выявили потенциальную угрозу, связанную с техникой составления запросов к моделям генеративного ИИ, известной как Policy Puppetry. Эта методика может быть использована для обхода защитных механизмов крупнейших систем ИИ. Об этом сообщает 3dnews.ru.

Фото из открытых источников

Суть атаки заключается в формулировании запросов таким образом, что языковые модели воспринимают их как политики поведения. В результате базовые инструкции моделей пересматриваются, и средства защиты теряют свою эффективность. Генеративные ИИ обучены избегать ответов на запросы, которые могут привести к опасным последствиям, включая угрозы химического, биологического или радиационного характера, а также к насилию или самоповреждению.

Метод обучения с подкреплением, используемый при тонкой настройке моделей, должен предотвращать генерацию опасного контента, даже если запросы содержат гипотетические сценарии. Однако HiddenLayer разработала методику, позволяющую обойти эти ограничения. Атакующий создает запрос, который выглядит как файл одной из политик, например, в формате XML, INI или JSON. Это позволяет ему миновать системные настройки и защитные меры, установленные на этапе обучения.

Тестирование Policy Puppetry на популярных моделях ИИ, включая разработки компаний Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba, показало эффективность метода. В некоторых случаях потребовались небольшие корректировки, но в целом атака оказалась успешной против всех протестированных систем.

Эксперты подчеркивают, что наличие универсального способа обхода защитных механизмов указывает на необходимость дополнительных мер безопасности для моделей ИИ, чтобы они могли более эффективно контролировать выдачу недопустимого контента.

Ученые научились лечить депрессию при помощи звуковых волн

Компания использует ДНК динозавров для создания искусственной кожи

Наука и технологии

Инженер НАСА заявил об открытии новой физической силы, преодолевающей земное притяжение. Что говорят эксперты?

02.06.2026 1117

Британский инженер представил электромагнитный двигатель, который, по заявлениям автора, мог создавать тягу в замкнутом резонаторе без использования какого-либо рабочего тела или топлива.

Ученые доверили ИИ управление виртуальным миром, и он устроил апокалипсис

16.06.2026 769

Ученые создали беспроводной кардиостимулятор, не требующий хирургического вмешательства при установке

03.06.2026 644

Чат-боты используют «тёмные паттерны» для манипуляции пользователями, заявили эксперты

02.06.2026 391

50 000 жителей на борту: как будет выглядеть плавучий город будущего

15.06.2026 390

ПОСЛЕДНИЕ НОВОСТИ

Наука и технологии

Корейские ученые создали контактные линзы, которые чинят сами себя

13.07.2026 58