4
17.07.2024, 12:30Lektura na 2 minuty

Youtuberzy są zaskoczeni, że AI jest szkolona na transkrypcjach ich filmów

Cytując klasyka: „Żodyn się nie spodziewał”.


Jakub „Jaqp” Dmuchowski

Skąd modele sztucznej inteligencji opracowane przez gigantów pokroju Apple i Nvidii oraz nieco mniejszych graczy, takich jak Antropic, mają dostęp do transkrypcji niemal 200 000 filmów wideo z serwisu YouTube? Ano stąd, że zostały wyszkolone na zestawach danych sporządzonych przez firmy trzecie, w tym przypadku EleutherAI, w związku z czym korporacje mogą umywać ręce i zasłaniać się niewiedzą co do tego, skąd i w jaki sposób pozyskane zostały rzeczone dane.


Tylko głupi by nie skorzystał

Wspomniany już zbiór danych przygotowany przez organizację non-profit EleutherAI zawierał transkrypcję z przeszło 173 000 filmów dostępnych na YouTubie, które pochodzą z około 48 000 różnych kanałów. Transkrypcje te zostały przygarnięte m.in. właśnie przez Apple, Nvidię oraz Antropic i posłużyły do wytrenowania autorskich modeli sztucznej inteligencji.

Problem polega na tym, że YouTube nie pozwala na pozyskiwanie danych z dostępnych na portalu materiałów celem szkolenia AI, a działania takie łamią regulamin platformy. Zdaje się jednak, że najwięksi gracze mają to w poważaniu tak długo, jak odpowiedzialność nie spada na nich, a na pośredników.

Jednym z youtuberów, którego treści zostały bez jego zgody pozyskane z serwisu, jest Marques Brownlee, znany także jako MKBHD, skupiający się na zagadnieniach z poletka szeroko rozumianej technologii:

Pozyskane przez EleutherAI dane ograniczały się jedynie do transkrypcji filmów, aczkolwiek YouTube traktowany jest jak kopalnia wartościowych materiałów przez wiele innych firm, które nie ograniczają się do wydobywania suchego tekstu i łapią, co tylko im wpadnie w ręce, wliczając w to miniaturki, nagrania dźwiękowe, a nawet całe filmy.

Problem przedsiębiorstw przeszukujących sieć z pomocą botów i „pożyczających” sobie treści będzie jedynie rosnąć wraz z zapotrzebowaniem na takie materiały. A to jest niemałe, jako że w wyścigu o stworzenie najbardziej rozbudowanej sztucznej inteligencji bierze udział większość przedstawicieli Big Techu. Oliwy do ognia dolewają także wypowiedzi osób pokroju Mustafy Suleymana, szefa. ds. AI w Microsofcie, który wprost stwierdził, że z dostępnych w Internecie treści można korzystać w dowolny sposób.


Czytaj dalej

Redaktor
Jakub „Jaqp” Dmuchowski

Swoją przygodę z grami komputerowymi rozpoczął od Herkulesa oraz Jazz Jackrabbit 2, tydzień później zagrywał się już w Diablo II i Morrowinda. Pasjonat tabelek ze statystykami oraz nieliniowych wątków fabularnych. Na co dzień zajmuje się projektowaniem stron internetowych. Nie wzgardzi dobrą lekturą ani kebabem.

Profil
Wpisów1107

Obserwujących2

Dyskusja

  • Dodaj komentarz
  • Najlepsze
  • Najnowsze
  • Najstarsze