Youtuberzy są zaskoczeni, że AI jest szkolona na transkrypcjach ich filmów

Youtuberzy są zaskoczeni, że AI jest szkolona na transkrypcjach ich filmów
Jakub "Jaqp" Dmuchowski
Cytując klasyka: „Żodyn się nie spodziewał”.

Skąd modele sztucznej inteligencji opracowane przez gigantów pokroju Apple i Nvidii oraz nieco mniejszych graczy, takich jak Antropic, mają dostęp do transkrypcji niemal 200 000 filmów wideo z serwisu YouTube? Ano stąd, że zostały wyszkolone na zestawach danych sporządzonych przez firmy trzecie, w tym przypadku EleutherAI, w związku z czym korporacje mogą umywać ręce i zasłaniać się niewiedzą co do tego, skąd i w jaki sposób pozyskane zostały rzeczone dane.

Tylko głupi by nie skorzystał

Wspomniany już zbiór danych przygotowany przez organizację non-profit EleutherAI zawierał transkrypcję z przeszło 173 000 filmów dostępnych na YouTubie, które pochodzą z około 48 000 różnych kanałów. Transkrypcje te zostały przygarnięte m.in. właśnie przez Apple, Nvidię oraz Antropic i posłużyły do wytrenowania autorskich modeli sztucznej inteligencji.

Problem polega na tym, że YouTube nie pozwala na pozyskiwanie danych z dostępnych na portalu materiałów celem szkolenia AI, a działania takie łamią regulamin platformy. Zdaje się jednak, że najwięksi gracze mają to w poważaniu tak długo, jak odpowiedzialność nie spada na nich, a na pośredników.

Jednym z youtuberów, którego treści zostały bez jego zgody pozyskane z serwisu, jest Marques Brownlee, znany także jako MKBHD, skupiający się na zagadnieniach z poletka szeroko rozumianej technologii:

https://twitter.com/MKBHD/status/1813206956716212511

Pozyskane przez EleutherAI dane ograniczały się jedynie do transkrypcji filmów, aczkolwiek YouTube traktowany jest jak kopalnia wartościowych materiałów przez wiele innych firm, które nie ograniczają się do wydobywania suchego tekstu i łapią, co tylko im wpadnie w ręce, wliczając w to miniaturki, nagrania dźwiękowe, a nawet całe filmy.

Problem przedsiębiorstw przeszukujących sieć z pomocą botów i „pożyczających” sobie treści będzie jedynie rosnąć wraz z zapotrzebowaniem na takie materiały. A to jest niemałe, jako że w wyścigu o stworzenie najbardziej rozbudowanej sztucznej inteligencji bierze udział większość przedstawicieli Big Techu. Oliwy do ognia dolewają także wypowiedzi osób pokroju Mustafy Suleymana, szefa. ds. AI w Microsofcie, który wprost stwierdził, że z dostępnych w Internecie treści można korzystać w dowolny sposób.

4 odpowiedzi do “Youtuberzy są zaskoczeni, że AI jest szkolona na transkrypcjach ich filmów”

  1. O ludzie, to jest po prostu zbyt piękne 😉 Typ, który miesiąc temu robił najbardziej żałosny i dupowkładowy PR Applowi, graniczący z propagandą, nagle ma pretensję, że Apple używa firm trzecich do trenowania AI na podstawie filmów, które dla nich robi (m. in.). Podoba mi się, jak musiał zaznaczyć, że to „teoretycznie” nie jest wina Appla 😉 Do samego końca ci ludzie będą wiernie warować u stóp swoich panów, jak psy, nawet wtedy, kiedy pan postanowi zakończyć współpracę przy pomocy strzelby ;P

  2. KapitanŻbik 18 lipca 2024 o 03:56

    Populacja youtuberów łapiących się za głowy na miniaturkach filmików zwiększa się.

    Czy da się jakoś wyłączyć swój kontent z puli mediów, które mogłyby posłużyć do szkolenia AI? Czy to zawsze zależy od regulaminu jakiegoś serwisu najczęściej o objętości wykluczającej przeczytanie i zrozumienie go przez zwykłego śmiertelnika, zawierającego jakiś kruczek mówiący, że akceptując regulamin zbywasz się praw do swoich materiałów i zostaną one, te materiały, wykorzystane do szkolenia AI?
    Czygdyby taki deviantart udostępnił „tak, o” googlowi zawartość swoich serwerów do trenowania AI, bez informowania o tym kogokolwiek z zewnątrz, to czy ktoś w ogóle by się skapnął, że jego praca została uwzględniona w puli miliardów innych obrazów?

  3. Szok prawie tak wielki, jak użytkowników Reddita, lol.

    Generalnie jeżeli coś się wrzuca do internetu, to należy się spodziewać, że zostanie to użyte do trenowania AI. Nawet prywatne pliki, ukryte gdzieś za hasłem.

Dodaj komentarz