AI Microsoftu potrafi symulować dowolny głos
Microsoft stworzył sztuczną inteligencję, która na postawie krótkiej próbki audio potrafi odtworzyć dowolny głos, jego emocje czy towarzyszące mu warunki środowiskowe, a następnie użyć go do odczytania wskazanego tekstu.
Wyniki badań zostały zaprezentowane w pracy, która nie tylko przybliża zasady działania softu, ale podaje również mnóstwo przykładów symulacji głosu – słuchając zaś niektórych z nich, można zbierać szczękę z podłogi.
Wystarczy fragment
VALL-E, bo taką zabawną i nawiązującą do postaci pociesznego robota z animacji Pixara nazwę nadano programowi, to sieć neuronowa określana przez pracowników Microsoftu jako TSS – text to speech synthesis. Została ona wytrenowana na danych składających się z 60 tys. godzin zapisów audio w języku angielskim, co – jak mówią twórcy oprogramowania – jest długością wielokrotnie przekraczającą sesje treningowe w przypadku wcześniejszych systemów tego typu. Dzięki temu, by odwzorować czyjś głos, AI potrzebuje próbki trwającej zaledwie… trzy sekundy.

W praktyce oznacza to, że wystarczą trzy, cztery słowa wcześniej nieznanego AI lektora, by VALL-E odtworzył barwę głosu, tempo, pojawiające się w próbce charakterystyczne akcentowanie czy nawet emocje. Co więcej, sztuczna inteligencja radzi sobie z oddaniem tych ostatnich w zasadzie na żądanie – zmieniając ten sam odczytywany fragment zgodnie z wprowadzonymi założeniami i niezależnie od próbki źródłowej. Nie ma również problemu, jeśli chodzi o otoczenie mówcy – program może symulować szereg różnych środowisk, np. halę z wyraźnym pogłosem.
Podstawowe informacje na temat pracy Microsoftu wraz z dużą liczbą próbek audio wraz z ich opisami znajdziecie tutaj. Rzućcie również okiem na ostatnie doniesienia o AI czytającym książki w sklepie firmy Apple. Kto wie, może w wyniku wykorzystania obydwu technologii i odpowiednich umów ze znanymi osobami niedługo ulubione pozycje będzie nam czytać np. Krystyna Czubówna? Albo książki historyczne z II RP według Piłsudskiego – to też mogłoby być coś. Macie jakieś swoje typy?
Fot.: QSO4YOU.com, CC BY-SA 2.0
Czytaj dalej
Gdyby mnie ktoś zapytał, ile pracuję w CD-Action, to szczerze mówiąc, nie potrafiłbym odpowiedzieć. Zacząłem na początku studiów i... tak już zostało. Teraz prowadzę działy sprzętowe właśnie w CD-Action oraz w PC Formacie. Poza tym dużo gram: w pracy i dla przyjemności – co cały czas na szczęście sprowadza się do tego samego. Głównie strzelam i cisnę w gry akcji – sieciowo i w singlu. Nie pogardzę też bijatyką, szczególnie jeśli w nazwie ma literki MK, a także rolplejem – czy to tradycyjnym, czy takim bardziej nastawionym na akcję.