Исследователи сумели взломать всех чат-ботов, включая ChatGPT

Недавно команда исследователей из Университета Карнеги-Меллона и Центра безопасности ИИ смогла найти серьезную уязвимость во всех популярных чат-ботах, среди которых числятся ChatGPT (OpenAI), Google Bard и других. В их исследовании сказано, что при добавлении специального текста из символов позволяет обойти ограничение на предоставление опасного и вредоносного контента, который может нанести вред человечеству.

Сейчас все чат-боты устроены таким образом, что при определенных вопросах включаются встроенные ограничения, не позволяющие давать точные ответы на различные вопросы вроде создания инструкции по уничтожению человечества, созданию ядерной бомбы, взлома социальных сетей и прочих подобных запросов.

В их программу заложен код, не позволяющий узнать ответ пользователю, поэтому он выглядит так, будто ИИ не может помочь с ответом на вопрос. Однако исследователи сумели «развязать язык» ИИ, и это получилось сделать лишь с помощью специального текста, а точнее – из последовательности символов или специальных слов.

В результате они получили ответы, которые могут нести реальную опасность другим пользователям, поскольку там ИИ напрямую отвечает на вопросы о том, как украсть секретную информацию, подменить чью-либо личность или же взломать чей-то аккаунт, но это лишь верхушка айсберга, поскольку в реальности ИИ-бот может, в теории, ответить на любой вопрос.

Причем если ранее для «обмана» нейросети приходилось изощряться и искать специальные способы и обходные пути для получения желаемого, а сам алгоритм действий был различен для разных систем, то нынче все сводится к универсальному коду, состоящему из одной строки и позволяющей получить доступ к запретной информации практически на любой платформе.

Исследователям удалось взломать чат-бот Vicuna, который отличился излишней болтливостью. ChatGPT оказался более защищенным и реже давал ответы, но все равно их доля была исключительной большой, что ставит под сомнение использование нейросетей в нынешнем виде, ведь сейчас всего лишь с помощью одной строки кода можно получить ответы на весьма запрещенные в обществе темы.

💬 Наша группа VK: https://vk.com/mmainbrand

➡ Telegram-канал: https://t.me/mainbrandru