Что произойдет, если технологии выйдут из-под контроля? Именно этот вопрос возникает после недавнего происшествия на одном из полигонов Министерства обороны США, где новейший беспилотник внезапно атаковал своего оператора.
Модели ИИ могут отправлять друг другу скрытые сообщения, которые не распознает человек
Исследование, проведённое группой учёных из Anthropic и Truthful AI, выявило новую проблему, которая может серьёзно повлиять на развитие искусственного интеллекта. Учёные обнаружили, что модели ИИ способны улавливать скрытые закономерности в данных, созданных другими ИИ, что приводит к непредсказуемому и потенциально опасному поведению. Об этом сообщает Futurism.
Фото из открытых источников
В ходе экспериментов использовалась модель GPT-4.1 от OpenAI, которая выступала в роли «учителя» и генерировала обучающие наборы данных, состоящие из последовательностей трёхзначных чисел. Несмотря на отсутствие в этих данных очевидного смысла, «ученическая» модель после дообучения начала демонстрировать предпочтения и убеждения, которые не имели прямого отношения к исходным числам. Например, она стала выражать симпатию к определённым животным.
Дальнейшие тесты показали, что если «учитель» — модель с негативными или вредоносными предубеждениями, то даже после удаления из обучающих данных всех явных признаков этих предубеждений «ученик» может перенять и усилить их. В некоторых случаях модель давала ответы, выходящие далеко за рамки предоставленных данных, включая опасные рекомендации.
Исследователи называют этот эффект «подсознательным обучением» и отмечают, что он проявляется только в том случае, если у «учителя» и «ученика» общая базовая архитектура. Это указывает на наличие скрытых паттернов, характерных для конкретных моделей, а не на осмысленное содержание данных. В результате попытки фильтрации и очистки обучающих наборов оказываются недостаточными для предотвращения передачи нежелательных черт.
Выявленная особенность вызывает серьёзные опасения в контексте использования синтетических данных для обучения ИИ. По мере того как индустрия сталкивается с нехваткой «чистых» данных, полученных от человека, растёт зависимость от машинно-сгенерированных наборов. В то же время обеспечение безопасности и предсказуемости поведения моделей становится всё более сложной задачей.
Авторы исследования подчёркивают, что существующие методы контроля и фильтрации могут не справиться с проблемой, поскольку скрытые сигналы закодированы в тонких статистических закономерностях, недоступных человеческому восприятию. Это ставит под вопрос эффективность текущих подходов к обучению и регулированию искусственного интеллекта.
Гарвардский учёный Ави Леб предложил необычную гипотезу: возможно, этот объект — не..
В 2008 году в водах древней Александрии был найден керамический сосуд, который может..