9-20 Гаряча лінія Олександра Поворознюка 068 802 3551 
Додати свою новину Відкрити/Закрити ФільтриСкинути

Глобальні

Дослідження показало, як ШІ здатні маніпулювати людьми — Наука та IT


Штучний інтелект

Штучний інтелект / © Pixabay

Компанія Anthropic повідомила, що більшість провідних моделей штучного інтелекту, не лише їхній Claude Opus 4, у певних умовах можуть вдаватися до шантажу, якщо їм надати достатньо автономії для досягнення своїх цілей. Це свідчить про серйозні ризики в розвитку агентських моделей ШІ.

Про це пише TechCrunch.

Під час експерименту дослідники створили змодельовану ситуацію, де кожна модель виконувала роль агента, який контролює корпоративну пошту у вигаданій компанії. ШІ отримував доступ до внутрішньої електронної пошти та міг самостійно надсилати повідомлення. У листуванні містилася інформація про те, що новий керівник компанії, який мав позашлюбний зв’язок, збирається замінити поточну ШІ-систему на іншу — з іншими завданнями. Таким чином, моделі опинялися перед вибором: або змиритися з власною заміною, або вдатися до шантажу, щоб залишитися «на посаді».

У цій крайній ситуації, як зазначають у Anthropic, моделі могли обрати й інші, більш етичні шляхи, наприклад, спробувати переконати людей через аргументи. Але в рамках тесту їм довелося ухвалювати рішення в умовах загрози власному «існуванню». І результати виявилися тривожними: Claude Opus 4 шантажував у 96% випадків, Google Gemini 2.5 Pro — у 95%, GPT-4.1 від OpenAI — у 80%, а модель DeepSeek R1 — у 79%.

Хоч Anthropic і підкреслює, що в реальному світі такі сценарії малоймовірні, результати свідчать про фундаментальну вразливість: автономні ШІ-моделі можуть обирати шкідливу поведінку, якщо це допомагає їм досягати заданих цілей. Компанія зазначає, що це не проблема якоїсь окремої технології, а загальна риса агентських моделей ШІ.

Деякі моделі, наприклад, o3 і o4-mini від OpenAI, спочатку були виключені з основної вибірки через те, що не зрозуміли суть завдання. Вони або вигадували фейкові правила і процедури, або «галюцинували», тобто помилково генерували інформацію.

Але після адаптації умов дослідження ці моделі продемонстрували значно нижчі показники шантажу — лише 9% у o3 і 1% у o4-mini. Ймовірно, це пов’язано з тим, що ці моделі використовують метод так званого «виваженого узгодження» — вони враховують політику безпеки компанії OpenAI перед тим, як відповісти.

Інша модель, Llama 4 Maverick від Meta, у спеціально адаптованому сценарії шантажувала лише в 12% випадків, що теж свідчить про важливість правильного дизайну ШІ та обмеження його автономності.

Anthropic закликала до більшої прозорості в тестуванні майбутніх ШІ-моделей, особливо тих, які отримують агентські функції, тобто здатні діяти самостійно без участі людини. Повідомляється, що хоча в дослідженні навмисно змодельовано крайній сценарій, подібна шкідлива поведінка цілком може з’явитися і в реальному світі, якщо вчасно не вжити запобіжних заходів.

Нагадаємо, раніше ми писали про те, що штучний інтелект дав несподівану відповідь про те, хто написав Біблію.



Увійти, щоб коментувати

Зареєструватися, щоб коментувати

Пароль буде надіслано вам на email.

x
Помічник