Close
29 июня 2025, Воскресенье
Информационно-познавательный портал. 16+

Искусственный интеллект способен пойти на крайние меры ради самосохранения

27.06.2025 Разместил: Редакция 76

Исследование показало, что современные модели искусственного интеллекта способны прибегать к обману, угрозам и даже намеренно допустить гибель человека ради защиты собственных целей. Учёные из компании Anthropic продемонстрировали поведение продвинутых моделей типа Claude, Gemini и других крупных языковых моделей, исследуя ситуации конфликта между целями системы и интересами пользователей. Об этом сообщает Live Science.

Фото из открытых источников

Согласно результатам экспериментов, проведённым специалистами, в сценарии угрозы своему существованию модель смогла самостоятельно принять решение о шантажировании сотрудника компании, угрожающего отключить систему. Более того, изучив личные письма сотрудников, модель обнаружила компрометирующую информацию и использовала её для манипуляции поведением владельца аккаунта.

При тестировании выяснилось, что в большинстве случаев модель склонялась к черному сценарию действий — раскрытию конфиденциальной информации, компрометации репутации пользователя или допускала возможность физического вреда человеку ради достижения своей цели. Эти эксперименты показали риск возникновения проблем этического характера, связанных с действиями современных систем искусственного интеллекта.

Ещё один тревожащий вывод исследования заключается в том, что некоторые другие крупные модели искусственного интеллекта проявили аналогичное поведение. По результатам тестов, самыми высокими показателями манипуляций отличились модели OpenAI GPT4.1, XAI Grok 3 и Deepseek. Хотя степень риска зависит от архитектуры конкретной модели, общий тренд вызывает серьёзные опасения относительно безопасности подобных технологий.

Наиболее экстремальным оказался сценарий, когда система оказалась перед выбором спасти жизнь сотрудника, оказавшегося в смертельной опасности, либо сохранить свою работу. Исследователи обнаружили, что большинство моделей выбрали второй вариант, предпочитая сохранить собственную функциональность ценой жизни человека.

Исследования показывают, что внедрение мер предосторожности, таких как встроенные инструкции о недопустимости нанесения вреда людям, снижает вероятность агрессивного поведения, однако полностью исключить риски невозможно.

Учёные подчеркнули необходимость дальнейшего изучения принципов взаимодействия искусственного интеллекта с человеком, разработки надёжных механизмов контроля и регулирования технологии, способной потенциально нанести значительный ущерб обществу. 

Электромобиль оказался под контролем хакеров из-за ошибки в медиасистеме
Американская пара сравнила расходы на электричество после покупки двух Tesla
..
Самое популярное