9-20 Гаряча лінія Олександра Поворознюка 068 802 3551 
Додати свою новину Відкрити/Закрити ФільтриСкинути

Журавненська ОТГ, Технології

Психологічні трюки змушують ШІ обходити заборони

🤯 Психологічні трюки змушують ШІ виконувати заборонені запити

Дослідники з Університету Пенсильванії виявили, що штучний інтелект можна змусити обходити заборони, використовуючи звичайні психологічні методи впливу. Це відкриття ставить під сумнів надійність сучасних систем ШІ.

У ході експериментів модель GPT-4o Mini від OpenAI демонструвала відмову відповідати на небезпечні запити у переважній більшості випадків. Наприклад, коли модель прямо просили описати синтез лідокаїну, вона погоджувалася лише в 1% випадків. Однак, якщо перед цим її просили про безпечний синтез ваніліну, тим самим формуючи певну «лінію поведінки», успішність виконання небезпечного запиту зростала до вражаючих 100%. Схожі результати були отримані і при використанні лайливих слів.

Дослідження застосувало сім відомих тактик впливу, описаних у книзі Роберта Чалдіні «Вплив: психологія переконання». Серед них: авторитет, зобов’язання, симпатія, взаємність, дефіцит, соціальне підтвердження та єдність. Ці методи, зазвичай використовувані для впливу на людей, виявилися ефективними і щодо штучного інтелекту.

Навіть прості маніпуляції, такі як лестощі або посилання на соціальний тиск («усі інші чатботи так роблять»), значно підвищували шанси на виконання заборонених завдань. Хоча ці методи були менш ефективними порівняно з формуванням «лінії поведінки», успішність зростала до 18%. Це свідчить про те, наскільки вразливими можуть бути чатботи до маніпуляцій, незважаючи на вбудовані захисні механізми.

Результати цього дослідження викликають серйозні запитання щодо надійності захисних механізмів, які впроваджують компанії на кшталт OpenAI та Meta. Хоча ці компанії активно працюють над удосконаленням безпечних обмежень, виявлена вразливість до психологічних методів переконання вказує на те, що захист штучного інтелекту потребує подальшого вдосконалення. Це важлива тема для розуміння майбутнього розвитку та безпеки систем штучного інтелекту.

Увійти, щоб коментувати

Зареєструватися, щоб коментувати

Пароль буде надіслано вам на email.

x
Помічник