Vall-E to nowa technologia sztucznej inteligencji firmy Microsoft, która bardzo dokładnie naśladuje ludzki głos

19 stycznia 2023 12:09

Badacze Microsoftu stworzyli nowy model sztucznej inteligencji, Vall-E, zdolny do odtwarzania głosu identycznego z ludzkim.

Zaznaczono, że Vall-E uczy się z „dyskretnych kodów uzyskanych ze standardowego neuronowego modelu kodeka audio”, a także z nagrań 60 tysięcy godzin rozmów (to 100 razy więcej niż w istniejących systemach) ponad 7 tysięcy mówców . Większość dialogów pochodzi z publicznych stron audiobooków LibriVox.

Vall-E jest oparty na technologii EnCodec, którą Meta ogłosiła w październiku 2022 roku. Analizuje głos osoby, rozkłada informacje na komponenty i syntetyzuje wariacje jego brzmienia w różnych frazach. Nawet po wysłuchaniu zaledwie trzysekundowej próbki, Vall-E może odtworzyć barwę i emocjonalny ton głośnika.

«Wyniki eksperymentu pokazują, że Vall-E znacznie przewyższa obecny system TTS (AI, który odtwarza głosy, których nigdy nie słyszał) pod względem naturalnej mowy i podobieństwa do mówcy»- napisali naukowcy w artykule.

Możesz posłuchać przykładów odtwarzania głosu Vall-E na GitHub. Większość brzmi identycznie jak nagrania, chociaż wykorzystano tylko krótkie fragmenty. Niektóre głosy brzmią bardziej jak roboty i przypominają głosy tradycyjnego oprogramowania przetwarzającego tekst na dźwięk.

Podobnie jak w przypadku wszystkich innych modeli sztucznej inteligencji, istnieją obawy dotyczące niewłaściwego wykorzystania Vall-E – na przykład do naśladowania głosów osób publicznych, polityków lub gwiazd (zwłaszcza w połączeniu z deepfake’ami). Przestępcy mogą również uzyskać poufne dane, jeśli oszukają osobę, aby uwierzyła, że rozmawia z rodziną, przyjaciółmi lub urzędnikami. Niektóre systemy bezpieczeństwa wykorzystują również rozpoznawanie głosu. Jeśli chodzi o wpływ na miejsca pracy, Vall-E prawdopodobnie będzie tańszą alternatywą dla aktorów dubbingujących.

Ale badacze Vall-E twierdzą, że wszystkie te zagrożenia można złagodzić, budując model, który określi, czy dźwięk został zsyntetyzowany przez sztuczną inteligencję.