Youtuberzy są zaskoczeni, że AI jest szkolona na transkrypcjach ich filmów
Cytując klasyka: „Żodyn się nie spodziewał”.
Skąd modele sztucznej inteligencji opracowane przez gigantów pokroju Apple i Nvidii oraz nieco mniejszych graczy, takich jak Antropic, mają dostęp do transkrypcji niemal 200 000 filmów wideo z serwisu YouTube? Ano stąd, że zostały wyszkolone na zestawach danych sporządzonych przez firmy trzecie, w tym przypadku EleutherAI, w związku z czym korporacje mogą umywać ręce i zasłaniać się niewiedzą co do tego, skąd i w jaki sposób pozyskane zostały rzeczone dane.
Tylko głupi by nie skorzystał
Wspomniany już zbiór danych przygotowany przez organizację non-profit EleutherAI zawierał transkrypcję z przeszło 173 000 filmów dostępnych na YouTubie, które pochodzą z około 48 000 różnych kanałów. Transkrypcje te zostały przygarnięte m.in. właśnie przez Apple, Nvidię oraz Antropic i posłużyły do wytrenowania autorskich modeli sztucznej inteligencji.
Problem polega na tym, że YouTube nie pozwala na pozyskiwanie danych z dostępnych na portalu materiałów celem szkolenia AI, a działania takie łamią regulamin platformy. Zdaje się jednak, że najwięksi gracze mają to w poważaniu tak długo, jak odpowiedzialność nie spada na nich, a na pośredników.
Jednym z youtuberów, którego treści zostały bez jego zgody pozyskane z serwisu, jest Marques Brownlee, znany także jako MKBHD, skupiający się na zagadnieniach z poletka szeroko rozumianej technologii:
Pozyskane przez EleutherAI dane ograniczały się jedynie do transkrypcji filmów, aczkolwiek YouTube traktowany jest jak kopalnia wartościowych materiałów przez wiele innych firm, które nie ograniczają się do wydobywania suchego tekstu i łapią, co tylko im wpadnie w ręce, wliczając w to miniaturki, nagrania dźwiękowe, a nawet całe filmy.
Problem przedsiębiorstw przeszukujących sieć z pomocą botów i „pożyczających” sobie treści będzie jedynie rosnąć wraz z zapotrzebowaniem na takie materiały. A to jest niemałe, jako że w wyścigu o stworzenie najbardziej rozbudowanej sztucznej inteligencji bierze udział większość przedstawicieli Big Techu. Oliwy do ognia dolewają także wypowiedzi osób pokroju Mustafy Suleymana, szefa. ds. AI w Microsofcie, który wprost stwierdził, że z dostępnych w Internecie treści można korzystać w dowolny sposób.
Czytaj dalej
Swoją przygodę z grami komputerowymi rozpoczął od Herkulesa oraz Jazz Jackrabbit 2, tydzień później zagrywał się już w Diablo II i Morrowinda. Pasjonat tabelek ze statystykami oraz nieliniowych wątków fabularnych. Na co dzień zajmuje się projektowaniem stron internetowych. Nie wzgardzi dobrą lekturą ani kebabem.