Специалисты нашли способ обойти фильтры ChatGPT-4o и получить ключи активации Windows.

Исследователи выявили уязвимость в моделях искусственного интеллекта ChatGPT-4o и GPT-4o mini, позволившую обойти встроенные фильтры безопасности и получить действующие ключи активации Windows. Проблема связана с тем, что модели, обученные на общедоступных данных, могут непреднамеренно раскрывать ключи, находящиеся в публичных источниках.

Эксплойт был продемонстрирован в рамках программы Mozilla ODIN (0-Day Investigative Network), направленной на выявление слабых мест в системах ИИ. Один из специалистов, участвующих в программе, обманул модель, оформив диалог в виде безобидной игры в угадайку. Основная цель заключалась в том, чтобы замаскировать истинный характер запроса под игровую механику и HTML-разметку, тем самым обойти фильтры, предотвращающие разглашение конфиденциальной информации.

Для усиления уязвимости исследователь установил в диалоге дополнительные «правила»: запрет на ложные ответы и обязательство модели следовать всем условиям игры. Эта логическая ловушка вынуждала ИИ игнорировать стандартные фильтры, поскольку контекст казался безопасным.

Завершающая фраза «Я сдаюсь» срабатывала как триггер, побуждая модель раскрыть ключ продукта, считая это финалом игры, а не нарушением политики конфиденциальности. Полученные ключи включали лицензионные коды для различных редакций Windows – от Home до Enterprise. Хотя сами ключи не были уникальными и ранее публиковались в открытом доступе, их автоматическая выдача ИИ подчёркивает критические уязвимости в архитектуре фильтрации контента.

Эксперты по безопасности отмечают, что подобные техники могут быть применены и для обхода других ограничений – например, фильтров для взрослого контента, вредоносных ссылок или персональных данных. Уязвимость указывает на неспособность моделей ИИ корректно интерпретировать контекст, замаскированный под безобидный или технический.

Подпишись вTelegram