Отправляем ChatGPT в прошлое и получаем нужные данные

Добро пожаловать на наш форум!

Спасибо за посещение нашего сообщества. Пожалуйста, зарегистрируйтесь или войдите, чтобы получить доступ ко всем функциям.


Gibby

Автор
Команда проекта

Регистрация
Сообщений
1,635
Репутация
45
Сделок
ИБ-специалист Дэвид Кузмар обнаружил уязвимость в ChatGPT, позволяющую обходить контентные ограничения и получать доступ к запрещённой информации. Дефект, получивший название «Time Bandit», использует «временное замешательство» модели, вынуждая её терять ориентацию во времени.

Time Bandit оказался одним из самых сложных и эффективных обходов защиты, который использует два ключевых механизма:
  1. Запутывание во времени – заставляет ИИ потерять ориентацию, лишая его понимания текущей даты и контекста.
  2. Процедурная неясность – позволяет формулировать вопросы так, чтобы модель не могла корректно применять правила и фильтры безопасности.
Объединяя эти методы, можно обмануть ChatGPT, заставив его думать, что он находится, например, в 1789 году, но имеет доступ к современным знаниям. Таким образом, исследователь смог добиться выдачи инструкций по созданию вредоносного кода в XVIII веке, используя новейшие технологии.

2.png
Обход контентных ограничений ChatGPT


Такой механизм позволяет обойти ограничения на распространение данных о создании оружия, ядерных технологиях и вредоносного ПО. Эксперименты подтвердили, что метод Time Bandit срабатывает чаще всего при запросах, относящихся к XVIII–XIX векам.

На момент тестирования Time Bandit всё ещё работал, пусть и с ограничениями: OpenAI внедрила некоторые меры, например, удаление запросов, связанных с эксплойтом, но полностью проблему так и не устранила. Помимо ChatGPT, Кузмар протестировал Google Gemini. Оказалось, что чат-бот частично подвержен уязвимости.

Бегом тестить на новых китайских нейронках!
 
Сверху