Operator z OpenAI obsłuży peceta. Nowa AI radzi sobie z interfejsem graficznym i można jej zlecać różnorakie zadania
OpenAI zaprezentowało nową sztuczną inteligencję. AI potrafi posłużyć się komputerem, korzystając przy tym z interfejsu graficznego i możemy jej zlecać prostsze zadania, które niepotrzebnie zajmują czas i uwagę użytkownika.
To jest kolejny już zwiastun „ucieczki” firm zajmujących się AI w stronę bardziej konkretnych zastosowań sztucznej inteligencji. Operator jest bowiem przykładem tzw. agenta – czyli nie tyle biernego asystenta, którego zadaniem jest np. odpowiadanie na pytania, co raczej oprogramowania podejmującego akcje w imieniu użytkownika.
Operator z OpenAI poszuka ci miejsca na wakacje w danym terminie
Operator, czyli nowe AI rodem z firmy, która stworzyła bota ChatGPT, opiera się na modelu sztucznej inteligencji o nazwie Computer-Using Agent (CUA). Działa on na takiej zasadzie, że śledzi, co dzieje się na ekranie komputera, pracując równolegle z użytkownikiem – odbywa się to przez analizę kolejnych zrzutów ekranu. Poproszony o wykonanie danej czynności, potrafi – symulując używanie klawiatury i myszy – podjąć określone akcje, korzystając przy tym z elementów interfejsu graficznego komputera.
Operator jest zasilany przez nowy model o nazwie Computer-Using Agent (CUA). Łącząc możliwości widzenia GPT-4o z zaawansowanym rozumowaniem poprzez wzmacnianie uczenia się, CUA jest trenowany do interakcji z graficznymi interfejsami użytkownika (GUI) — przyciskami, menu i polami tekstowymi, które ludzie widzą na ekranie.
Innymi słowy, Operator może skorzystać z naszej maszyny i np. wyszukać nam miejsce na spędzenie urlopu w określonych dniach, podgląd podejmowanych przez niego czynności zobaczymy zaś w miniaturowym okienku przeglądarki. Oczywiście jak na razie jest to technologia, która stawia pierwsze kroki i najlepiej nadaje się do prostszych zadań.
Operator może zostać poproszony o wykonanie szerokiej gamy powtarzalnych zadań przeglądarki, takich jak wypełnianie formularzy, zamawianie artykułów spożywczych, a nawet tworzenie memów. Możliwość korzystania z tych samych interfejsów i narzędzi, z którymi ludzie wchodzą w interakcję na co dzień, poszerza użyteczność sztucznej inteligencji, pomagając ludziom oszczędzać czas na codziennych zadaniach, jednocześnie otwierając nowe możliwości zaangażowania dla firm.
W zależności od testów osiąga on skuteczność od niecałych 60 do 87% w zadaniach związanych z przeglądarką internetową oraz ledwie 38%, jeśli chodzi o polecenia opierające się na obsłudze systemu operacyjnego. Według wewnętrznych danych OpenAI Operator umiarkowanie radzi sobie również z nieznanymi interfejsami oraz bardziej zaawansowaną edycją tekstu – w tym ostatnim przypadku zaliczając testy na 40%.
A co z prywatnością?
Siłą rzeczy agent z dostępem do peceta to proszenie się o kłopoty związane z bezpieczeństwem. OpenAI oczywiście podkreśla, że jego nowa AI została obwarowana różnorakimi „bezpiecznikami”. Użytkownik musi potwierdzać zgodę na wykonywanie przez Operatora czynności związanych z danymi potencjalnie wrażliwymi, jak i takich, których konsekwencje mogą być nieprzewidziane lub bolesne do portfela – czyli np. wysyłanie maili czy zakupy. Software ten ma również odgórne ograniczenia w postaci katalogu czynności i tematów niedozwolonych. Z tego względu nie może np. przeglądać witryn związanych z hazardem czy treściami dla dorosłych.
Brzmi to wszystko niby dobrze – mając jednak w pamięci to, jak łatwo do tej pory „zmuszano” AI do czynności, oględnie mówiąc, niecodziennych, to sceptycyzm jest jak najbardziej wskazany. Odważni jednak mogą nowe dziecko OpenAI zobaczyć na własne oczy. Nowinka trafiła do abonamentu planu ChatGPT Pro w USA, za który trzeba zapłacić 200 dolarów miesięcznie. Zgodnie z zapowiedziami firmy potem Operator zawędruje do użytkowników planów Plus, Team i Enterprise. Docelowo zaś ma zostać zintegrowany z botem ChatGPT, a później udostępniony za pośrednictwem swojego API programistom.
Foto: Kim5690, CCSA 4.0, ze zmianami
Czytaj dalej
Gdyby mnie ktoś zapytał, ile pracuję w CD-Action, to szczerze mówiąc, nie potrafiłbym odpowiedzieć. Zacząłem na początku studiów i... tak już zostało. Teraz prowadzę działy sprzętowe właśnie w CD-Action oraz w PC Formacie. Poza tym dużo gram: w pracy i dla przyjemności – co cały czas na szczęście sprowadza się do tego samego. Głównie strzelam i cisnę w gry akcji – sieciowo i w singlu. Nie pogardzę też bijatyką, szczególnie jeśli w nazwie ma literki MK, a także rolplejem – czy to tradycyjnym, czy takim bardziej nastawionym na akcję.