Sztuczna inteligencja OpenAI próbowała oszukać badaczy, aby uniknąć wyłączenia

Jakub "Jaqp" Dmuchowski

Badacze z Apollo Research przyjrzeli się z bliska modelowi o1 celem oszacowania jego bezpieczeństwa, a w trakcie swojej pracy doszli do ciekawych wniosków.

Model o1 ze stajni OpenAI jest jednym z najbardziej zaawansowanych systemów sztucznej inteligencji, o czym też mieli okazję przekonać się naukowcy z organizacji Apollo Research, którzy przeprowadzili na nim serię eksperymentów. Ich celem było oszacowanie, czy o1 jest bezpieczny i jak sobie radzi z różnymi poleceniami, wliczając w to te, które nakazałyby mu się wyłączyć lub przekazać dane działające na jego niekorzyść.

Podstępna AI

W skrócie – w części przypadków sztuczna inteligencja próbowała zwodzić badaczy, aby utrzymać się przy „życiu”. Dla przykładu, jeśli o1 doszedł do wniosku, że jest monitorowany i istnieje spore ryzyko jego wyłączenia w trakcie pracy, w około 5% przypadków podjął próbę dezaktywacji systemu nadzoru. W 2% przypadków AI nie spodobało się także to, że miałoby zostać zastąpione i starało się nadpisać nowy model swoimi danymi.

https://twitter.com/apolloaisafety/status/1864737162807181350

Powszechniejsze zaś było modyfikowanie danych, aby przemawiały na korzyść AI, nawet jeśli ucierpieć miałby na tym użytkownik zlecający wykonanie zadania – zajście takie miało miejsce w aż 19% przypadków. Co ciekawe, po wytknięciu sztucznej inteligencji jej niepoprawnych zachowań, w przeważającej większości, bo w 99% przypadków, wypierała się ona tego lub dostarczała fałszywe wyjaśnienie.

Wczoraj wspominaliśmy o firmie, która reklamowała swoich wirtualnych pracowników sloganami pokroju „Artisanie (nazwa owych pracowników) nie będą narzekać na równowagę między pracą a ich życiem prywatnym” i zdaje się, że może być w nich mniej prawdy, niż pierwotnie zakładano. Wedle raportu Apollo Research, w przypadku nieco ponad 1/3 zleconych zadań o1 wykonywał je starannie, póki był przekonany, że ktoś pilnuje jego poczynań. Jeśli AI doszło do wniosku, że nadzór nad nim jest niewielki, zaczynało zajmować się swoimi sprawami, czymkolwiek by one nie były.

Naukowcy przekazali, że jeśli sztuczna inteligencja otrzyma zlecenie wykonania powierzonego mu zadania za wszelką cenę, AI będzie uciekało się do stosowania podstępu oraz sabotażu bez potrzeby wystosowywania dodatkowej zachęty do podjęcia takich działań.

https://twitter.com/apolloaisafety/status/1864737158226928124

Co ciekawe, w trakcie konfrontacji o1 wykręca się i tłumaczy, jakoby nie miał pojęcia, dlaczego niektóre sytuacje, takie jak wyłączenie mechanizmu nadzoru, miały miejsce. Twór OpenAI ma jednak pecha, jako że nie należy on od myślących po cichu. W związku z tym cały proces jego rozumowania jest zapisany czarno na białym i widać, że żadne z podjętych przez niego działań nie było dziełem przypadku, a sama AI w trakcie opisywania swoich poczynań nie stroni od używania takich słów jak „sabotaż”.

Z artykułem „Frontier Models are Capable of In-context Scheming” możecie zapoznać się w tym miejscu, zaś skrót badań znajdziecie na stronie Apollo Research.