1
13.12.2024, 13:30Lektura na 3 minuty

Sztuczna inteligencja OpenAI próbowała oszukać badaczy, aby uniknąć wyłączenia

Badacze z Apollo Research przyjrzeli się z bliska modelowi o1 celem oszacowania jego bezpieczeństwa, a w trakcie swojej pracy doszli do ciekawych wniosków.


Jakub „Jaqp” Dmuchowski

Model o1 ze stajni OpenAI jest jednym z najbardziej zaawansowanych systemów sztucznej inteligencji, o czym też mieli okazję przekonać się naukowcy z organizacji Apollo Research, którzy przeprowadzili na nim serię eksperymentów. Ich celem było oszacowanie, czy o1 jest bezpieczny i jak sobie radzi z różnymi poleceniami, wliczając w to te, które nakazałyby mu się wyłączyć lub przekazać dane działające na jego niekorzyść.


Podstępna AI

W skrócie – w części przypadków sztuczna inteligencja próbowała zwodzić badaczy, aby utrzymać się przy „życiu”. Dla przykładu, jeśli o1 doszedł do wniosku, że jest monitorowany i istnieje spore ryzyko jego wyłączenia w trakcie pracy, w około 5% przypadków podjął próbę dezaktywacji systemu nadzoru. W 2% przypadków AI nie spodobało się także to, że miałoby zostać zastąpione i starało się nadpisać nowy model swoimi danymi.

Powszechniejsze zaś było modyfikowanie danych, aby przemawiały na korzyść AI, nawet jeśli ucierpieć miałby na tym użytkownik zlecający wykonanie zadania – zajście takie miało miejsce w aż 19% przypadków. Co ciekawe, po wytknięciu sztucznej inteligencji jej niepoprawnych zachowań, w przeważającej większości, bo w 99% przypadków, wypierała się ona tego lub dostarczała fałszywe wyjaśnienie.

Wczoraj wspominaliśmy o firmie, która reklamowała swoich wirtualnych pracowników sloganami pokroju „Artisanie (nazwa owych pracowników) nie będą narzekać na równowagę między pracą a ich życiem prywatnym” i zdaje się, że może być w nich mniej prawdy, niż pierwotnie zakładano. Wedle raportu Apollo Research, w przypadku nieco ponad 1/3 zleconych zadań o1 wykonywał je starannie, póki był przekonany, że ktoś pilnuje jego poczynań. Jeśli AI doszło do wniosku, że nadzór nad nim jest niewielki, zaczynało zajmować się swoimi sprawami, czymkolwiek by one nie były.

Naukowcy przekazali, że jeśli sztuczna inteligencja otrzyma zlecenie wykonania powierzonego mu zadania za wszelką cenę, AI będzie uciekało się do stosowania podstępu oraz sabotażu bez potrzeby wystosowywania dodatkowej zachęty do podjęcia takich działań.

Co ciekawe, w trakcie konfrontacji o1 wykręca się i tłumaczy, jakoby nie miał pojęcia, dlaczego niektóre sytuacje, takie jak wyłączenie mechanizmu nadzoru, miały miejsce. Twór OpenAI ma jednak pecha, jako że nie należy on od myślących po cichu. W związku z tym cały proces jego rozumowania jest zapisany czarno na białym i widać, że żadne z podjętych przez niego działań nie było dziełem przypadku, a sama AI w trakcie opisywania swoich poczynań nie stroni od używania takich słów jak „sabotaż”.

Z artykułem „Frontier Models are Capable of In-context Scheming” możecie zapoznać się w tym miejscu, zaś skrót badań znajdziecie na stronie Apollo Research.


Czytaj dalej

Redaktor
Jakub „Jaqp” Dmuchowski

Swoją przygodę z grami komputerowymi rozpoczął od Herkulesa oraz Jazz Jackrabbit 2, tydzień później zagrywał się już w Diablo II i Morrowinda. Pasjonat tabelek ze statystykami oraz nieliniowych wątków fabularnych. Na co dzień zajmuje się projektowaniem stron internetowych. Nie wzgardzi dobrą lekturą ani kebabem.

Profil
Wpisów1437

Obserwujących3

Dyskusja

  • Dodaj komentarz
  • Najlepsze
  • Najnowsze
  • Najstarsze