MOS-Bench: Zbiór Kompleksowych Danych do Trenowania i Oceny Modeli Subiektywnej Oceny Jakości Mowy (SSQA)

Jednym z kluczowych wyzwań w ocenie subiektywnej jakości mowy (SSQA) jest umożliwienie modelom generalizacji w różnych i nieznanych wcześniej domenach mowy. Ogólne modele SSQA często mają trudności z wydajnością poza obszarem, w którym były trenowane, co wynika z różnorodności danych oraz systemów oceniania stosowanych w różnych zadaniach SSQA, takich jak synteza mowy (TTS), konwersja głosu (VC) czy poprawa jakości mowy. Efektywna generalizacja modeli SSQA jest niezbędna, aby zapewnić zbieżność z ludzką percepcją w tych dziedzinach, jednak wiele z tych modeli jest ograniczonych do danych, na których zostały wytrenowane. To z kolei ogranicza ich użyteczność w rzeczywistych zastosowaniach, takich jak automatyczna ocena mowy w systemach TTS i VC.

Aktualne podejścia do SSQA

Obecne podejścia w SSQA można podzielić na modele referencyjne i modele oparte na sieciach neuronowych (DNN). Modele referencyjne oceniają jakość mowy poprzez porównanie próbek z odniesieniem, natomiast modele oparte na DNN uczą się bezpośrednio na bazie zbiorów danych oznaczonych przez ludzi. Modele oparte na DNN mają duży potencjał w precyzyjnym uchwyceniu ludzkiej percepcji, ale wiążą się z kilkoma istotnymi ograniczeniami:

1. Ograniczenia w generalizacji: Modele SSQA często zawodzą, gdy są testowane na nowych, nieznanych danych spoza domeny, co prowadzi do niespójnych wyników.
2. Skośność danych i efekt korpusu: Modele mogą zbyt silnie dopasować się do specyficznych cech zbioru danych, co prowadzi do mniejszej efektywności na innych zestawach danych.
3. Złożoność obliczeniowa: Złożone modele zwiększają odporność SSQA, ale jednocześnie podnoszą koszty obliczeniowe, co sprawia, że stają się mniej praktyczne w aplikacjach wymagających oceny w czasie rzeczywistym w środowiskach o ograniczonych zasobach.

Rozwiązanie problemów – MOS-Bench i SHEET

Aby rozwiązać powyższe problemy, naukowcy wprowadzili MOS-Bench, zestaw testów zawierający siedem zbiorów danych treningowych oraz dwanaście zbiorów testowych, obejmujących różne typy mowy, języki oraz częstotliwości próbkowania. Wraz z MOS-Bench zaproponowano SHEET, narzędzie, które zapewnia standaryzowany przepływ pracy w zakresie treningu, walidacji i testowania modeli SSQA. Kombinacja MOS-Bench i SHEET umożliwia systematyczną ocenę modeli SSQA, zwłaszcza w kontekście ich zdolności do generalizacji.

MOS-Bench stosuje podejście wielozbiorowe, łącząc dane z różnych źródeł, co pozwala na lepsze dostosowanie modelu do zróżnicowanych warunków. Wprowadzono także nową miarę oceny różnicy/współczynnika najlepszego wyniku, która zapewnia holistyczną ocenę wydajności modeli SSQA na tych zbiorach danych. Dzięki temu można uzyskać lepszą generalizację modeli, co jest znaczącym wkładem w rozwój SSQA.

Zbiory danych w MOS-Bench

Kolekcja MOS-Bench obejmuje różnorodne zestawy danych, które różnią się częstotliwościami próbkowania oraz etykietami słuchaczy, aby uchwycić zmienność międzydomenową w SSQA. Główne zbiory danych to:

1. BVCC: Zbiór danych dla języka angielskiego z próbkami do TTS i VC.
2. SOMOS: Dane dotyczące jakości mowy dla angielskich modeli TTS trenowanych na LJSpeech.
3. SingMOS: Zbiór próbek śpiewu w języku chińskim i japońskim.
4. NISQA: Próbki mowy z szumami, które były przesyłane przez sieci komunikacyjne. Zbiory są wielojęzyczne, obejmujące różne domeny i typy mowy, co zapewnia szeroki zakres treningowy.

W MOS-Bench wykorzystano model SSL-MOS oraz zmodyfikowany AlignNet jako rdzeń, wykorzystując samonadzorowane uczenie (SSL) do nauki bogatych reprezentacji cech. SHEET natomiast idzie o krok dalej, oferując przepływy pracy do przetwarzania danych, treningu oraz oceny modeli. SHEET wprowadza także nienadzorowaną inferencję opartą na kNN, co poprawia dokładność modeli, a także optymalizację hiperparametrów, takich jak wielkość partii i strategie optymalizacji, aby dodatkowo zwiększyć wydajność modeli.

Wyniki i korzyści z MOS-Bench i SHEET

Dzięki MOS-Bench i SHEET możliwe jest znaczące poprawienie generalizacji SSQA zarówno na zestawach testowych syntetycznych, jak i niesyntetycznych. Modele trenowane na danych MOS-Bench, takich jak PSTN i NISQA, wykazują wysoką odporność na zestawy testowe syntetyczne. Co więcej, potrzeba danych skupionych na syntetykach, która wcześniej była niezbędna do generalizacji, staje się zbędna. Wizualizacje wyników potwierdzają, że modele trenowane na MOS-Bench uchwyciły szeroką gamę rozkładów danych, co przyczyniło się do ich lepszej adaptacji i spójności.

Podsumowanie

Metodologia ta, oparta na MOS-Bench i SHEET, stanowi istotne wyzwanie dla problemu generalizacji SSQA, dzięki zastosowaniu wielu zbiorów danych oraz wprowadzeniu nowej miary oceny. Redukując skośność specyficzną dla zbiorów danych oraz poprawiając możliwość zastosowania międzydomenowego, ta metodologia przesuwa granice badań nad SSQA, umożliwiając efektywną generalizację modeli w różnych zastosowaniach. Co ważne, zbiory danych międzydomenowych zebrane przez MOS-Bench, w połączeniu ze standaryzowanym narzędziem, oferują badaczom zasoby do tworzenia modeli SSQA, które są odporne na różnorodność typów mowy i aplikacji w rzeczywistych warunkach.