Австралийская радиостанция CADA полгода проводила эксперимент, заменив живого диджея..
Группа исследователей под руководством Терри Лонга Фана недавно представила новое..
Исследования компании HiddenLayer, специализирующейся на безопасности искусственного интеллекта, выявили потенциальную угрозу, связанную с техникой составления запросов к моделям генеративного ИИ, известной как Policy Puppetry. Эта методика может быть использована для обхода защитных механизмов крупнейших систем ИИ. Об этом сообщает 3dnews.ru.
Фото из открытых источников
Суть атаки заключается в формулировании запросов таким образом, что языковые модели воспринимают их как политики поведения. В результате базовые инструкции моделей пересматриваются, и средства защиты теряют свою эффективность. Генеративные ИИ обучены избегать ответов на запросы, которые могут привести к опасным последствиям, включая угрозы химического, биологического или радиационного характера, а также к насилию или самоповреждению.
Метод обучения с подкреплением, используемый при тонкой настройке моделей, должен предотвращать генерацию опасного контента, даже если запросы содержат гипотетические сценарии. Однако HiddenLayer разработала методику, позволяющую обойти эти ограничения. Атакующий создает запрос, который выглядит как файл одной из политик, например, в формате XML, INI или JSON. Это позволяет ему миновать системные настройки и защитные меры, установленные на этапе обучения.
Тестирование Policy Puppetry на популярных моделях ИИ, включая разработки компаний Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba, показало эффективность метода. В некоторых случаях потребовались небольшие корректировки, но в целом атака оказалась успешной против всех протестированных систем.
Эксперты подчеркивают, что наличие универсального способа обхода защитных механизмов указывает на необходимость дополнительных мер безопасности для моделей ИИ, чтобы они могли более эффективно контролировать выдачу недопустимого контента.
Австралийская радиостанция CADA полгода проводила эксперимент, заменив живого диджея..
Группа исследователей под руководством Терри Лонга Фана недавно представила новое..
Материалы сайта предназначены для лиц 16 лет и старше (16+)
Материалы, размещенные на сайте, носят информационный характер и предназначены для образовательных целей. Авторские права на материалы, размещенные на сайте, принадлежат авторам статей. Все права защищены и охраняются законом РФ. Мнение редакции не всегда совпадает с мнением авторов статей.
При использовании материалов с сайта, активная ссылка на esoreiter.ru обязательна.
▪ О проекте / Контакты ▪ Редакционная политика ▪ Политика конфиденциальности ▪ Пользовательское соглашение
Наши контакты: esoreiter@yandex.ru, гл.редактор А.В.Ветров Телефон редакции: +7 (917) 398-10-94
Для улучшения работы сайта и его взаимодействия с пользователями мы используем файлы cookie и обрабатываем ваши персональные данные с помощью сервиса «Яндекс.Метрика». Продолжая работу с сайтом, Вы разрешаете использование cookie-файлов и принимаете условия Политики конфиденциальности.