20.04.2024

Microsoft opracował technologię do generowania mówiących twarzy

Narzędzie nazwano VASA i jest ono frameworkiem do generowania realistycznie wyglądających, mówiących twarzy

Z pomocą najnowszego narzędzia Microsoftu wystarczy przesłać statyczny obraz przedstawiający twarz i ścieżkę audio, aby zobaczyć, jak fotografia ożywa, a widniejąca na niej postać przemawia w realistycznie brzmiący i wyglądający sposób..

Microsoft VASA

Pierwszy model opisywanego narzędzia, VASA-1 , jest w stanie nie tylko generować zsynchronizowany z dźwiękiem ruch warg, ale także uwzględniać przy tym występujące na twarzy niuansy i realistycznie wyglądające poruszanie głową w trakcie wypowiedzi. Wszystko to sprawia, że wygenerowane przez twór Microsoftu persony prezentują się nad wyraz dobrze i z biegiem czasu odróżnienie ich od prawdziwych osób może okazać się nie lada wyzwaniem. Z efektami pracy inżynierów giganta z Redmond możecie zapoznać się w tym miejscu.

Microsoft nie omieszkał się przy tym pochwalić, że VASA-1 stawia nas o krok bliżej opracowania technologii, która pozwoli nam prowadzić w czasie rzeczywistym interakcję z realistycznie wyglądających i zachowującymi się jak prawdziwi ludzie awatarami. Na ten moment przyjdzie nam jednak jeszcze trochę poczekać, jako że opisywane narzędzie na ten moment pozwala generować filmy wyłącznie w rozdzielczości 512×512 i z prędkością 40 klatek na sekundę.

Co więcej, VASA potrafi wygenerować twarze wyrażające w trakcie mowy różnorodne emocje: od radości, przez smutek, aż po złość. Możemy dostosować także kierunek, w którym zwrócony jest wzrok generowanej osoby, jak również kadr, w którym znajduje się jej twarz.

Nie musimy się przy tym ograniczać do przesyłania narzędziu zdjęć istniejących osób. Równie sprawnie radzi sobie ona z postaciami widniejącymi na dziełach sztuki, a nawet tymi, które zostały stworzone przez inne modele sztucznej inteligencji.

Stojąca za VASA-1 korporacja zwróciła przy tym uwagę, że opracowana przez nią technologia obecnie jest w stanie wyrządzić równie wiele złego, co dobrego, i w związku z tym w najbliższym czasie nie planuje udostępniać wersji demonstracyjnej online, interfejsu API, ani żadnych dodatkowych szczegółów implementacji, póki nie będzie miała pewności, że narzędzie nie będzie używane w sposób odpowiedzialny i w pełni zgodny z obowiązującymi przepisami.