AI Microsoftu potrafi symulować dowolny głos

Wyniki badań zostały zaprezentowane w pracy, która nie tylko przybliża zasady działania softu, ale podaje również mnóstwo przykładów symulacji głosu – słuchając zaś niektórych z nich, można zbierać szczękę z podłogi.
Wystarczy fragment
VALL-E, bo taką zabawną i nawiązującą do postaci pociesznego robota z animacji Pixara nazwę nadano programowi, to sieć neuronowa określana przez pracowników Microsoftu jako TSS – text to speech synthesis. Została ona wytrenowana na danych składających się z 60 tys. godzin zapisów audio w języku angielskim, co – jak mówią twórcy oprogramowania – jest długością wielokrotnie przekraczającą sesje treningowe w przypadku wcześniejszych systemów tego typu. Dzięki temu, by odwzorować czyjś głos, AI potrzebuje próbki trwającej zaledwie… trzy sekundy.

W praktyce oznacza to, że wystarczą trzy, cztery słowa wcześniej nieznanego AI lektora, by VALL-E odtworzył barwę głosu, tempo, pojawiające się w próbce charakterystyczne akcentowanie czy nawet emocje. Co więcej, sztuczna inteligencja radzi sobie z oddaniem tych ostatnich w zasadzie na żądanie – zmieniając ten sam odczytywany fragment zgodnie z wprowadzonymi założeniami i niezależnie od próbki źródłowej. Nie ma również problemu, jeśli chodzi o otoczenie mówcy – program może symulować szereg różnych środowisk, np. halę z wyraźnym pogłosem.
Podstawowe informacje na temat pracy Microsoftu wraz z dużą liczbą próbek audio wraz z ich opisami znajdziecie tutaj. Rzućcie również okiem na ostatnie doniesienia o AI czytającym książki w sklepie firmy Apple. Kto wie, może w wyniku wykorzystania obydwu technologii i odpowiednich umów ze znanymi osobami niedługo ulubione pozycje będzie nam czytać np. Krystyna Czubówna? Albo książki historyczne z II RP według Piłsudskiego – to też mogłoby być coś. Macie jakieś swoje typy?
Fot.: QSO4YOU.com, CC BY-SA 2.0
Czytaj dalej
7 odpowiedzi do “AI Microsoftu potrafi symulować dowolny głos”
Dodaj komentarz
Musisz się zalogować, aby móc dodać komentarz.
Nooo coraz fajniej z tym AI będzie, coraz więcej zawodów się będzie walić:P
Jestem ciekaw, na ile bardziej dokładne będzie to od tego programu, który imitowało głos Jordana Petersona 4 lata temu, tamten program był akurat bardzo dobrze zrobiony, o ile nie przesadzało się z długością słów i składnią, zdania wychodziły bardzo naturalnie, prawie nie do odróżnienia.
Poproszę Bionizego, albo Cyber Tomasza Knapika…
To co będzie? Żniwiarze czy Skynet?
Ależ to ma ogromny potencjał do nadużyć.
Na wnuczka i dziesiątki innych sposobów wykorzystania starszych osób będą zbierać straszne plony, jeśli trafi to do gawiedzi.
A czy istnieją narzędzia dodające więcej emocji do nagranej już wypowiedzi (modulujące taką wypowiedź)? To też byłoby ciekawe.