rek

AI Microsoftu potrafi symulować dowolny głos

AI Microsoftu potrafi symulować dowolny głos
Grzegorz "Krigor" Karaś
Microsoft stworzył sztuczną inteligencję, która na postawie krótkiej próbki audio potrafi odtworzyć dowolny głos, jego emocje czy towarzyszące mu warunki środowiskowe, a następnie użyć go do odczytania wskazanego tekstu.

Wyniki badań zostały zaprezentowane w pracy, która nie tylko przybliża zasady działania softu, ale podaje również mnóstwo przykładów symulacji głosu – słuchając zaś niektórych z nich, można zbierać szczękę z podłogi.

Wystarczy fragment

VALL-E, bo taką zabawną i nawiązującą do postaci pociesznego robota z animacji Pixara nazwę nadano programowi, to sieć neuronowa określana przez pracowników Microsoftu jako TSS – text to speech synthesis. Została ona wytrenowana na danych składających się z 60 tys. godzin zapisów audio w języku angielskim, co – jak mówią twórcy oprogramowania – jest długością wielokrotnie przekraczającą sesje treningowe w przypadku wcześniejszych systemów tego typu. Dzięki temu, by odwzorować czyjś głos, AI potrzebuje próbki trwającej zaledwie… trzy sekundy.

W praktyce oznacza to, że wystarczą trzy, cztery słowa wcześniej nieznanego AI lektora, by VALL-E odtworzył barwę głosu, tempo, pojawiające się w próbce charakterystyczne akcentowanie czy nawet emocje. Co więcej, sztuczna inteligencja radzi sobie z oddaniem tych ostatnich w zasadzie na żądanie – zmieniając ten sam odczytywany fragment zgodnie z wprowadzonymi założeniami i niezależnie od próbki źródłowej. Nie ma również problemu, jeśli chodzi o otoczenie mówcy – program może symulować szereg różnych środowisk, np. halę z wyraźnym pogłosem.

Podstawowe informacje na temat pracy Microsoftu wraz z dużą liczbą próbek audio wraz z ich opisami znajdziecie tutaj. Rzućcie również okiem na ostatnie doniesienia o AI czytającym książki w sklepie firmy Apple. Kto wie, może w wyniku wykorzystania obydwu technologii i odpowiednich umów ze znanymi osobami niedługo ulubione pozycje będzie nam czytać np. Krystyna Czubówna? Albo książki historyczne z II RP według Piłsudskiego – to też mogłoby być coś. Macie jakieś swoje typy?

Fot.: QSO4YOU.com, CC BY-SA 2.0

7 odpowiedzi do “AI Microsoftu potrafi symulować dowolny głos”

  1. Nooo coraz fajniej z tym AI będzie, coraz więcej zawodów się będzie walić:P

  2. Jestem ciekaw, na ile bardziej dokładne będzie to od tego programu, który imitowało głos Jordana Petersona 4 lata temu, tamten program był akurat bardzo dobrze zrobiony, o ile nie przesadzało się z długością słów i składnią, zdania wychodziły bardzo naturalnie, prawie nie do odróżnienia.

  3. Poproszę Bionizego, albo Cyber Tomasza Knapika…

  4. To co będzie? Żniwiarze czy Skynet?

  5. Ależ to ma ogromny potencjał do nadużyć.

    • Na wnuczka i dziesiątki innych sposobów wykorzystania starszych osób będą zbierać straszne plony, jeśli trafi to do gawiedzi.

  6. skurczybyczek666 11 stycznia 2023 o 10:23

    A czy istnieją narzędzia dodające więcej emocji do nagranej już wypowiedzi (modulujące taką wypowiedź)? To też byłoby ciekawe.

Dodaj komentarz