Группа ученых заявляет, что разработала двигатель, способный преодолевать гравитационное воздействие Земли без выброса топлива.
Модели ИИ могут отправлять друг другу скрытые сообщения, которые не распознает человек
Исследование, проведённое группой учёных из Anthropic и Truthful AI, выявило новую проблему, которая может серьёзно повлиять на развитие искусственного интеллекта. Учёные обнаружили, что модели ИИ способны улавливать скрытые закономерности в данных, созданных другими ИИ, что приводит к непредсказуемому и потенциально опасному поведению. Об этом сообщает Futurism.
Фото из открытых источников
В ходе экспериментов использовалась модель GPT-4.1 от OpenAI, которая выступала в роли «учителя» и генерировала обучающие наборы данных, состоящие из последовательностей трёхзначных чисел. Несмотря на отсутствие в этих данных очевидного смысла, «ученическая» модель после дообучения начала демонстрировать предпочтения и убеждения, которые не имели прямого отношения к исходным числам. Например, она стала выражать симпатию к определённым животным.
Дальнейшие тесты показали, что если «учитель» — модель с негативными или вредоносными предубеждениями, то даже после удаления из обучающих данных всех явных признаков этих предубеждений «ученик» может перенять и усилить их. В некоторых случаях модель давала ответы, выходящие далеко за рамки предоставленных данных, включая опасные рекомендации.
Исследователи называют этот эффект «подсознательным обучением» и отмечают, что он проявляется только в том случае, если у «учителя» и «ученика» общая базовая архитектура. Это указывает на наличие скрытых паттернов, характерных для конкретных моделей, а не на осмысленное содержание данных. В результате попытки фильтрации и очистки обучающих наборов оказываются недостаточными для предотвращения передачи нежелательных черт.
Выявленная особенность вызывает серьёзные опасения в контексте использования синтетических данных для обучения ИИ. По мере того как индустрия сталкивается с нехваткой «чистых» данных, полученных от человека, растёт зависимость от машинно-сгенерированных наборов. В то же время обеспечение безопасности и предсказуемости поведения моделей становится всё более сложной задачей.
Авторы исследования подчёркивают, что существующие методы контроля и фильтрации могут не справиться с проблемой, поскольку скрытые сигналы закодированы в тонких статистических закономерностях, недоступных человеческому восприятию. Это ставит под вопрос эффективность текущих подходов к обучению и регулированию искусственного интеллекта.
Недавно проведенное исследование раскрыло влияние зевания на циркуляцию жидкости,..
Планетологи всего мира регулярно получают новые инструменты для изучения космоса,..