AI lokalnie z NVIDIĄ: nie spodziewałem się, że to tak łatwe i ciekawe
Większości z nas AI kojarzy się z ChatGPT i – już ogólniej – z usługami na zewnętrznych serwerach, do których dostęp uzyskujemy zdalnie dzięki połączeniu przez internet. Ale przecież z dobrodziejstw sztucznej inteligencji można korzystać również lokalnie.
Lokalnie, czyli na własnym komputerze. Takie rozwiązanie ma oczywiście swoje wady i zalety.
Odpowiednie zaplecze w domu
Do tych pierwszych trzeba by zaliczyć fakt, że siłą rzeczy musimy mieć dobrze wyposażony sprzęt. Tutaj najlepiej sprawdzają się karty graficzne NVIDIA GeForce RTX z odpowiednio dużą pulą pamięci – w zależności od rodzaju AI i zastosowania programy tego typu potrzebują co najmniej 8 GB VRAM. Wiąże się to z tym, że sztuczna inteligencja do swojego działania wymaga wykonania ogromnej liczby prostych, ale przeprowadzanych w sposób równoległy obliczeń. Z tego względu karta graficzna jest znacznie wydajniejsza niż działający sekwencyjnie procesor centralny. Najlepiej zaś do pracy z AI przystosowane są układy GeForce RTX z serii 40, gdyż mają one rdzenie Tensor czwartej generacji oraz optymalną pulę pamięci. Na rynku występuje także linia SUPER, która posiada dodatkowe usprawnienia związane z obliczeniami AI oraz więcej pamięci VRAM, kluczowej w działaniu sieci neuronowych. Warto również nadmienić, że tutaj dobrze sprawdzi się też architektura Ampere i takie modele jak GeForce RTX 3080 Ti lub 3090. Ogółem zaś konkluzja jest taka, że jeśli już mamy w domu porządnie wyposażonego gamingowego peceta, to bez przeszkód możemy rozpocząć zabawę ze sztuczną inteligencją.
Inna jednak kwestia dotyczy tego, że niekiedy wcześniej – w przypadku niektórych bardziej rozbudowanych narzędzi – przyjdzie nam spędzić trochę czasu nad konfiguracją oprogramowania. Niemniej koniec końców całość i tak jest łatwiejsza w obsłudze, niż początkowo można by przypuszczać. Nieraz to po prostu kwestia pobrania i zainstalowania odpowiedniego pakietu, a potem – jeśli nastąpi taka konieczność – uzupełnienia go wybranym modelem AI.
Z kolei największą zaletą korzystania z tego rodzaju oprogramowania na własnym komputerze jest fakt, że nie musimy dzielić się pomysłami lub owocami pracy ze światem zewnętrznym. To szalenie istotna kwestia dla ludzi ceniących sobie prywatność. Niektórych zapewne ucieszy również to, że taka „osobista” sztuczna inteligencja często nie ma narzuconych odgórnych ograniczeń typowych dla masowych usług. Innymi słowy, cenzura na ogół jest tutaj znacznie mniejsza lub niekiedy wręcz nie występuje (choć oczywiście sporo zależy od konkretnych modeli AI). W praktyce oznacza to, że przy odrobinie wysiłku możemy np. tworzyć grafiki, których wygenerowania odmówiłoby Midjourney lub sztuczna inteligencja innych „dużych” usługodawców. No dobra – tyle tytułem wstępu. Przejdźmy więc do kwestii najciekawszej, czyli praktyki.
Stable Diffusion – generowanie grafik w domu
Jednym ze szczególnie interesujących „domowych” zastosowań AI jest bez wątpienia generowanie grafik. W przeciwieństwie do usług chociażby Midjourney czy Microsoftu, gdzie cała operacja odbywa się z wykorzystaniem zewnętrznych serwerów, tutaj robimy użytek wyłącznie z domowego sprzętu, mając kontrolę nad procesem od początku do końca.
Warto wiedzieć, że Stable Diffusion zostało stworzone specjalnie na potrzeby pracy lokalnej i kolejne jego wersje nie do końca są tak uniwersalne jak „duże” sieci neuronowe operujące na zdalnych serwerach. Nie ma jednak tego złego, co by na dobre nie wyszło. Stable Diffusion możemy trenować we własnym zakresie na dobranych przez nas danych, co w praktyce oznacza, że w internecie bez problemu znajdziemy multum zróżnicowanych i udostępnionych przez społeczność modeli SD, które są mniej lub bardziej wyspecjalizowane w określonym obszarze. Mało tego, kolejne iteracje tej graficznej sztucznej inteligencji przechodzą różnego rodzaju udoskonalenia, co przekłada się na większą dokładność, szybkość działania czy możliwości pracy z określonymi, bardziej rozbudowanymi promptami. Wyniki naszych prac możemy zaś każdorazowo uzupełniać np. swego rodzaju „filtrami” o nazwie lora czy nawet schematami ułożenia pozycji ciała ControlNet, które dodatkowo uzupełniają obrazy o pożądane cechy i pozwalają nam osiągnąć stopień specjalizacji niedostępny „dużym” usługom w sieci.
Możliwości Stable Diffusion są więc w praktyce bardzo duże. Możemy tworzyć obrazy, opierając się na tekstowych opisach – i nawet tu, w podstawowej wersji, znajdziemy multum opcji do wyboru, w postaci choćby różnego rodzaju metod samplingu czy upscalingu. Dostosujemy rozdzielczość, poziomy „trzymania się” przez AI wklepanych przez nas poleceń czy dokładności renderowania. Chcielibyście stworzyć nowy obraz na podstawie istniejącego? Nie ma problemu! W ten sposób dzięki domowemu pecetowi i Stable Diffusion bardzo szybko np. przekształcicie zdjęcie kościoła w baśniowy zamek. Omawiana tu AI nadaje się również do wkomponowywania obiektów w daną scenę, a nawet – przy odpowiednich ustawieniach – do automatycznego retuszu fotografii poprzez chociażby usuwanie wad skóry uwiecznionych na zdjęciu osób.
Przy tych możliwościach siłą rzeczy musimy wykazać się pewnymi kompetencjami w obsłudze oprogramowania i – przede wszystkim – wcześniej wybrać rodzaj interfejsu, z jakiego skorzystamy. Początkującym polecam najpopularniejsze narzędzie tego typu, czyli Automatic1111, który uruchamiamy w karcie przeglądarki internetowej i który daje nam dzięki różnym zakładkom i listom możliwość prostego ustawienia parametrów. Bardziej zaawansowani zaś zapewne z przyjemnością „zagrzebią się” w ComfyUI – opartym na węzłach interfejsie przypominającym Geometry Nodes z Blendera. Tutaj mamy pełną kontrolę nad tworzonymi przez nas poszczególnymi elementami schematu pracy AI, możemy również korzystać z „gotowców” udostępnionych przez innych użytkowników. Muszę jednak zaznaczyć, że kompleksowe podejście wymaga już większej wiedzy na temat tego, jak działa sztuczna inteligencja.
Bez względu na nasz wybór kwestie wydajności nie stanowią większego problemu. W zależności od parametrów, rozdzielczości i modelu AI karty graficzne GeForce RTX firmy NVIDIA potrafią się uporać ze zleconymi przez nas zadaniami w czasie od kilku, kilkunastu sekund do paru minut. U mnie bardziej rozbudowane grafiki na karcie GeForce RTX 4080 powstawały w około 30 sekund. Innymi słowy, Stable Diffusion w warunkach domowych z urządzeniami NVIDII działa naprawdę sprawnie, daje wiele możliwości i przynosi na tyle dużo frajdy, że tą technologią można się po prostu bawić – nawet jeśli nie mamy w tym jakiegoś konkretnego celu. Filmiki pokazujące, jak zainstalować i skonfigurować Stable Diffusion, bez problemu znajdziecie w serwisie YouTube – warto tym bardziej, że zarówno interfejs, jak i udostępnione przez społeczność bardzo liczne modele oparte na SD są w pełni darmowe.
NVIDIA Canvas – pejzaże malowane przez AI
Mówiąc o generowaniu grafiki przez AI, nie sposób nie wspomnieć o programie NVIDIA Canvas. To niezbyt skomplikowana aplikacja, w założeniach trochę przypominająca dobrze chyba wszystkim znanego Painta. Różnica jest jednak zasadnicza: sztuczna inteligencja „tłumaczy” w Canvas nasze bazgroły na obrazy pejzaży.
Jeśli chodzi o obsługę programu, to odnalazłem się w nim w zasadzie od razu. Mamy tu do wyboru proste narzędzia: pędzel, wypełnianie, pipetę, rysowanie linii czy gumkę. Za ich pomocą zwyczajnie malujemy sobie schemat wymarzonej widokówki, każdy z dostępnych kolorów odpowiada tu zaś jej kolejnym elementom. Dla przykładu, niebieski to niebo, brązowy – góry, różne odcienie zielonego z kolei obrazują szatę roślinną określonego typu. Dobierając odpowiednie barwy i umieszczając je w na obrazku, w istocie tworzymy swego rodzaju wzór, a sztuczna inteligencja na bieżąco reaguje na wprowadzane przez nas zmiany i każde pociągnięcie wirtualnego pędzla przekłada na grafikę przypominającą zdjęcie.
Brzmi to dość prosto, w praktyce jednak mamy sporą kontrolę nad tym, co się dzieje na ekranie: możemy wybierać spośród dziewięciu dostępnych schematów, do których dodatkowo przypisano po aż dziesięć różniących się od siebie wariantów. Możliwości zatem są naprawdę duże, zwłaszcza że da się tu pracować na warstwach, co w łatwy sposób pozwala np. włączać lub wyłączać kolejne elementy obrazu.
W porównaniu ze Stable Diffusion siłą rzeczy nie jest to rozbudowane narzędzie – istnieje jednak szansa, że sprawdzi jako program na zawołanie generujący dopasowane do naszych preferencji tła, które następnie mogą stać się elementem większej pracy lub posłużyć artystom jako punkt odniesienia. Muszę również przyznać, że to po prostu dobra zabawa. Canvas pobierzecie za darmo z witryny NVIDII.
NVIDIA ChatRTX – model językowy w domu
Gdy pomyślimy o AI, większości z nas do głowy przyjdzie pewnie ChatGPT. Okazuje się jednak, że podobną technologię da się również odpalić na domowym pececie. Mowa tu o stworzonym przez firmę NVIDIA programie ChatRTX, pozwalającym… „pogadać” z kartą graficzną. Określenie to może i brzmi żartobliwie – niemniej w praktyce dostajemy dostęp do instalowanego lokalnie programu, w ramach którego uruchomimy jeden z dostępnych modeli językowych AI. Standardowo zainstalowany jest Mistral-7B Int4, nic jednak nie stoi na przeszkodzie, by nie wychodząc z aplikacji, pobrać m.in. stworzony przez włodarzy Facebooka model Llama2-13B Int4.
Program może pracować w dwóch trybach. Pierwszy, standardowy, zasadniczo nie odbiega od tego, co znamy z innych dużych modeli językowych dostępnych w sieci, choć model firmy Meta jest tu jednak bardziej zawodny od konkurencji spod znaku ChatGPT. O wiele ciekawiej prezentuje się drugi tryb działania, czyli „karmienie” modelu językowego własnymi danymi.
W praktyce wygląda to tak, że klikając odpowiednie pole interfejsu, wybieramy katalog z danymi. Możemy tam umieścić pliki w formatach TXT, PDF i DOCX. Gdy to zrobimy, ChatRTX i wskazany przez nas model „przegryzą się” przez zawartość rzeczonego folderu, dzięki czemu będziemy w stanie pogadać z AI, wypytując ją o rzeczy dotyczące dostarczonych danych. To ciekawa funkcja, również pod względem zawodowym. W ten sposób możemy bowiem szybko odświeżyć sobie pamięć i przypomnieć zagadnienia, o których np. kiedyś pisaliśmy. AI potrafi wyłuskać z otrzymanych materiałów potrzebne nam informacje: nic nie stoi na przeszkodzie, aby poprosić ją o detale związane z jakimś zjawiskiem, wymienienie zalet konkretnego sprzętu bądź gry czy przygotowanie krótkiego streszczenia. Jestem w stanie wyobrazić sobie przydatność tego programu również na studiach: ChatRTX może pomóc np. w przeszukiwaniu notatek czy wręcz całych podręczników, dając szybkie odpowiedzi na pytania lub tworząc strawniejsze „piguły” dotyczące określonego zagadnienia. Jeśli, tak jak ja, macie dużo własnych tekstów, o których już nie do końca pamiętacie, to to narzędzie może okazać się naprawdę pomocne.
Mamy też możliwość wyszukiwania fotografii za pomocą słów kluczy. Służy do tego model Clip, który obsługuje formaty JPG, PNG, TIFF oraz RAW. Działa to podobnie do tego, co oferują np. Zdjęcia Google, czyli AI wczytuje naszą bazę fotografii, analizuje ją, a następnie pozwala wyszukiwać pożądane zdjęcia poprzez wpisywanie odpowiednich słów. Różnica jednak jest zasadnicza: by skorzystać z tej funkcji, nie musimy wgrywać prywatnych fotografii na zewnętrzne serwery. Siłą rzeczy więc ucieszą się z tego osoby ceniące sobie kwestie prywatności.
Pamiętajmy również, że omawiane oprogramowanie jest wciąż w wersji beta, co oznacza, że możemy napotkać różnego rodzaju błędy. AI Mety nie do końca radzi sobie z językiem polskim, na ogół prezentując odpowiedzi po angielsku, Clip z kolei przy wyszukiwaniu zdjęć do prawidłowego działania wręcz wymaga wprowadzania angielskich terminów. Jeśli to wam nie przeszkadza, zajrzyjcie na stronę producenta, skąd pobierzecie program NVIDIA ChatRTX. W tym wypadku konfiguracja sprowadza się do zainstalowania softu i opcjonalnego pobrania dodatkowych modeli językowych.
Lokalna AI: dla kogo?
Cóż, odpowiedź na to pytanie okazuje się prostsza, niż można się spodziewać: lokalnie działająca sztuczna inteligencja jest przeznaczona zasadniczo dla wszystkich. To po prostu software, z którego da się zrobić użytek wedle potrzeb, nie tylko bowiem przyda się do pracy czy nauki, ale też zagwarantuje czystą, kreatywną zabawę i pomoc na co dzień. Dla mnie to narzędzie, które służy zarówno do pracy, jak i do relaksu. Warto jednak pamiętać, że aby zapoznać się z tymi wszystkimi bajerami, musimy mieć odpowiedni sprzęt – najlepiej sprawdzą się karty graficzne GeForce RTX, zwłaszcza układy z serii 40, które zostały wyposażone w większą pulę pamięci i rdzenie Tensor czwartej generacji. Poza tym potrzebujecie… cóż, wyobraźni i odrobiny samozaparcia, by poznać coś nowego.
Artykuł powstał we współpracy z partnerem.