10.01.2023

AI Microsoftu potrafi symulować dowolny głos

Microsoft stworzył sztuczną inteligencję, która na postawie krótkiej próbki audio potrafi odtworzyć dowolny głos, jego emocje czy towarzyszące mu warunki środowiskowe, a następnie użyć go do odczytania wskazanego tekstu.

Wyniki badań zostały zaprezentowane w pracy, która nie tylko przybliża zasady działania softu, ale podaje również mnóstwo przykładów symulacji głosu – słuchając zaś niektórych z nich, można zbierać szczękę z podłogi.

Wystarczy fragment

VALL-E, bo taką zabawną i nawiązującą do postaci pociesznego robota z animacji Pixara nazwę nadano programowi, to sieć neuronowa określana przez pracowników Microsoftu jako TSS – text to speech synthesis. Została ona wytrenowana na danych składających się z 60 tys. godzin zapisów audio w języku angielskim, co – jak mówią twórcy oprogramowania – jest długością wielokrotnie przekraczającą sesje treningowe w przypadku wcześniejszych systemów tego typu. Dzięki temu, by odwzorować czyjś głos, AI potrzebuje próbki trwającej zaledwie… trzy sekundy.

W praktyce oznacza to, że wystarczą trzy, cztery słowa wcześniej nieznanego AI lektora, by VALL-E odtworzył barwę głosu, tempo, pojawiające się w próbce charakterystyczne akcentowanie czy nawet emocje. Co więcej, sztuczna inteligencja radzi sobie z oddaniem tych ostatnich w zasadzie na żądanie – zmieniając ten sam odczytywany fragment zgodnie z wprowadzonymi założeniami i niezależnie od próbki źródłowej. Nie ma również problemu, jeśli chodzi o otoczenie mówcy – program może symulować szereg różnych środowisk, np. halę z wyraźnym pogłosem.

Podstawowe informacje na temat pracy Microsoftu wraz z dużą liczbą próbek audio wraz z ich opisami znajdziecie tutaj. Rzućcie również okiem na ostatnie doniesienia o AI czytającym książki w sklepie firmy Apple. Kto wie, może w wyniku wykorzystania obydwu technologii i odpowiednich umów ze znanymi osobami niedługo ulubione pozycje będzie nam czytać np. Krystyna Czubówna? Albo książki historyczne z II RP według Piłsudskiego – to też mogłoby być coś. Macie jakieś swoje typy?

Fot.: QSO4YOU.com, CC BY-SA 2.0

Czytaj dalej

7 odpowiedzi do “AI Microsoftu potrafi symulować dowolny głos”

fake 10 stycznia 2023 o 17:54

Nooo coraz fajniej z tym AI będzie, coraz więcej zawodów się będzie walić:P

Odpowiedz
MeatOrb 10 stycznia 2023 o 18:40

Jestem ciekaw, na ile bardziej dokładne będzie to od tego programu, który imitowało głos Jordana Petersona 4 lata temu, tamten program był akurat bardzo dobrze zrobiony, o ile nie przesadzało się z długością słów i składnią, zdania wychodziły bardzo naturalnie, prawie nie do odróżnienia.

Odpowiedz
McLusky 10 stycznia 2023 o 21:09

Poproszę Bionizego, albo Cyber Tomasza Knapika…

Odpowiedz
egonnn244 10 stycznia 2023 o 21:42

To co będzie? Żniwiarze czy Skynet?

Odpowiedz
M3n747 11 stycznia 2023 o 06:54

Ależ to ma ogromny potencjał do nadużyć.

Odpowiedz

taz195 11 stycznia 2023 o 08:21

Na wnuczka i dziesiątki innych sposobów wykorzystania starszych osób będą zbierać straszne plony, jeśli trafi to do gawiedzi.

Odpowiedz

skurczybyczek666 11 stycznia 2023 o 10:23

A czy istnieją narzędzia dodające więcej emocji do nagranej już wypowiedzi (modulujące taką wypowiedź)? To też byłoby ciekawe.

Odpowiedz

AI Microsoftu potrafi symulować dowolny głos

Wystarczy fragment

Czytaj dalej

Sytuacja Xboksa jest jeszcze gorsza, niż nam się wydaje. Według Jasona Schreiera firmę czeka „rzeź”

Wiemy, czemu Ninja Theory zostało zamknięte tuż po prezentacji nowej gry. Senua miała być ostatnią nadzieją dla studia

Guillermo del Toro ponownie uderza w sztuczną inteligencję. Reżyser ostrzega przed „analfabetyzmem kinowym”

Nie uwierzysz, jak łatwo haker przejmie twoje konto. Ludzie tracą gry, pieniądze i dane, a Xbox, PlayStation i Meta nie chcą pomóc [REPORTAŻ]

7 odpowiedzi do “AI Microsoftu potrafi symulować dowolny głos”

Skomentuj Anuluj pisanie odpowiedzi