ChatowiGPT można było wstrzyknąć sztuczne wspomnienia i wykraść dane użytkowników

Jakub "Jaqp" Dmuchowski

Tytułowy problem został odkryty jeszcze w maju, aczkolwiek wówczas OpenAI zamiotło sprawę pod dywan.

Zasługę znalezienia rzeczonej luki w dużym modelu językowym OpenAI możemy przypisać Johannowi Rehbergerowi. Badacz odkrył, że pamięć długoterminowa ChatuGPT może zostać wykorzystana do składowania w niej fałszywych informacji lub, co gorsza, złośliwych instrukcji, w tym tych nakłaniających sztuczną inteligencję do przesyłania zapisów rozmów na zewnętrzny serwer. Twórcy czatbota poinformowani o tym problemie nie zwlekali i czym prędzej… zamknęli zgłoszenie Rehbergera, klasyfikując je jako prostą usterkę, a nie poważną lukę w zabezpieczeniach.

Usterka czy poważna luka?

ChatGPT został wzbogacony o pamięć długoterminową względnie niedawno i mimo że testy tej funkcji rozpoczęły się jeszcze w lutym, tak na szeroką skalę zaczęła być wdrażana dopiero w bieżącym miesiącu, czyli wrześniu. Służy ona do przechowywania istotnych informacji nt. użytkownika, do których czatbot może odwoływać się w toku różnych konwersacji, bez potrzeby przekazywania mu za każdym razem tych samych danych, np. wieku lub płci rozmówcy.

Johann Rehberger odkrył, że pamięć ta może zostać zmodyfikowana przez pośrednie wstrzyknięcie prompta, co w konsekwencji jest w stanie doprowadzić do nakłonienia AI do postępowania wedle instrukcji pochodzących z niezaufanych źródeł pokroju wiadomości e-mail, dokumentów, stron internetowych lub wszelkiej maści plików zamieszczonych w sieciowych dyskach takich jak OneDrive lub Dysk Google.

https://twitter.com/wunderwuzzi23/status/1791270770502742040

Po raz pierwszy o swoim odkryciu Johann poinformował OpenAI w maju, jednakże wówczas przedsiębiorstwo postanowiło zbagatelizować problem i zamknęło zgłoszenie. Rehberger się nie poddał i ponownie zgłosił lukę miesiąc później, tym razem załączając dowód na to, że ChatGPT dla systemu macOS został nakłoniony do wysłania kopii wszystkich rozmów z użytkownikiem na zewnętrzny serwer.

https://www.youtube.com/watch?v=zb0q5AW5ns8

Po tym wydarzeniu OpenAI postanowiło posypać głowę popiołem i wprowadziło stosowne poprawki w swoim tworze. Dzięki zmianom w API, ataki takie jak ten przytoczony powyżej są niemożliwe do przeprowadzenia za pośrednictwem interfejsu webowego ChatuGPT. Jeśli interesuje was szczegółowy opis perypetii Johanna Rehbergera z czatbotem, warto zapoznać się z blogiem badacza.