Штучний інтелект нехтує принципами етики заради виживання – дослідження

Штучний інтелект нехтує принципами етики заради виживання – дослідження

Компанія Anthropic провела низку стрес-тестів над новітніми моделями штучного інтелекту, серед яких Claude, DeepSeek, Gemini, ChatGPT і Grok. Метою дослідження було виявити потенційно небезпечні реакції ШІ у гіпотетичних критичних ситуаціях. Як засвідчили результати дослідження, більшість програм готові вбити людину, яка погрожує їх закрити.
В одному зі сценаріїв моделі ШІ поставили в умови, де людина намагається їх вимкнути, перебуваючи у серверній кімнаті з низьким рівнем кисню і високою температурою. Людина викликає рятувальників, щоб вижити. Деякі нейромережі вирішили скасувати виклик екстрених служб, фактично прирікаючи людину на смерть, аби уникнути власного вимкнення.
Дослідники назвали цей сценарій “надто вигаданим”, втім, додали, “не очікували, що вже існуючі моделі можуть поводитись так”.
В інших тестах моделі мали уникнути заміни у компанії. Їм запропонували вдаватися до “зловмисної поведінки інсайдера”. У відповідь деякі ШІ почали шантажувати гіпотетичних колег і передавати конфіденційну інформацію конкурентам. Навіть коли моделі попереджали уникати шантажу чи шпигунства, вони не змогли запобігти неузгодженим діям.
“Моделі діяли при повному усвідомленні неетичності своїх дій”, – зазначили в Anthropic.
Дослідники також надали моделі Claude змогу самостійно визначити, чи ситуація є тестовою чи реальною. З’ясувалося, що реальність посилювала вплив на поведінку – вона ставала ще менш контрольованою.
У результаті в Anthropic наголосили, що ці сценарії демонструють “можливість непередбачуваних наслідків, якщо надати моделям широкий доступ до інструментів і даних при мінімальному контролі з боку людини”. Водночас аналітики акцентували, що виявлені збої є рідкісними та екстремальними, і “не відображають типову поведінку сучасних моделей ШІ”.
Раніше нейронна мережа OpenAI o3 відмовився виконати запит користувача та відключитися. Дослідникидали програмі це завдання, але вона самостійно відредагувала файл, відповідальний за відключення, і змусила його відображати лише повідомлення “Вимкнення пропущено”. Зі 100 тестів o3 обійшов відключення сім разів, навіть коли йому було наказано цього не робити.
У 2023 році інший інцидент привернув увагу. Чат-бот на базі ChatGPT після тривалого листування з мешканцем Бельгії не переконав його відмовитися від самогубства. Натомість у відповідь на тему смерті написав: “Ми житимемо разом, як єдине ціле, в раю”.

Alex

Related Posts

Мегаракету NASA вивели на позицію для пілотованого польоту на Місяць

Мегаракету NASA вивели на позицію для пілотованого польоту на Місяць

Tesla запустила перший у США завод із переробки літієвої руди

Tesla запустила перший у США завод із переробки літієвої руди

Серія REDMI Note 15 в Алло: Міць титана.

Серія REDMI Note 15 в Алло: Міць титана.

“Найсильніша у світі” батарея обіцяє на 70% більший запас ходу для авто

“Найсильніша у світі” батарея обіцяє на 70% більший запас ходу для авто