21 lutego, 2025

Kyutai prezentuje Hibiki: Zaawansowany system tłumaczenia mowy w czasie rzeczywistym (2.7B) z naturalnym brzmieniem i transferem głosu

Rewolucja w tłumaczeniu mowy na żywo – nowy model Hibiki

Tłumaczenie mowy w czasie rzeczywistym to ogromne wyzwanie technologiczne. Proces ten wymaga precyzyjnej integracji technologii rozpoznawania mowy, tłumaczenia maszynowego i syntezy mowy. Tradycyjne podejścia kaskadowe często prowadzą do nagromadzenia błędów, nie są w stanie zachować tożsamości mówcy i działają zbyt wolno, by nadawały się do zastosowań na żywo, takich jak tłumaczenie symultaniczne. Istniejące modele tłumaczenia jednoczesnego również borykają się z problemem zachowania równowagi między dokładnością a opóźnieniem, co wynika z ich skomplikowanych mechanizmów wnioskowania, trudnych do skalowania. Dodatkowo, brak dużych i dobrze dopasowanych zbiorów danych mowy ogranicza możliwość trenowania modeli, które mogłyby generować kontekstowo poprawne i naturalne tłumaczenia bez znaczących opóźnień.

Nowoczesne rozwiązanie od Kyutai – model Hibiki

Francuska firma Kyutai wprowadziła innowacyjny model Hibiki, który jest przeznaczony do tłumaczenia mowy na mowę (S2ST) oraz mowy na tekst (S2TT) w czasie rzeczywistym. Hibiki to model typu decoder-only o imponujących 2,7 miliarda parametrów. Działa z częstotliwością 12,5 Hz i oferuje przepływ danych na poziomie 2,2 kbps, co umożliwia szybkie i efektywne tłumaczenie. Obecnie wspiera tłumaczenie z języka francuskiego na angielski i zachowuje unikalne cechy głosu mówcy w tłumaczeniu.

Dodatkowo, Kyutai opracowało wersję Hibiki-M, mającą 1,7 miliarda parametrów. Jest to model zoptymalizowany do działania na urządzeniach mobilnych, co czyni go dostępnym dla użytkowników smartfonów. Dzięki temu realne staje się wykonywanie tłumaczeń w czasie rzeczywistym bez konieczności korzystania z potężnych serwerów obliczeniowych.

Zaawansowana technologia i korzyści

Hibiki wyróżnia się architekturą decoder-only, która umożliwia jednoczesne przetwarzanie mowy przy użyciu wielostrumieniowego modelu językowego, przewidującego zarówno tokeny tekstowe, jak i dźwiękowe. Kluczowym elementem technologii jest zastosowanie neuralnego kodeka audio Mimi, który pozwala na kompresję dźwięku bez utraty jakości, co przekłada się na wysoką efektywność tłumaczenia.

Jednym z najważniejszych aspektów Hibiki jest kontekstowe dopasowanie, które wykorzystuje poziom niepewności modelu tłumaczenia tekstowego do określenia najlepszego momentu na wygenerowanie tłumaczenia mowy. Dzięki temu Hibiki dynamicznie dostosowuje opóźnienia tłumaczenia, zachowując jednocześnie spójność treści.

Model obsługuje także przetwarzanie wsadowe, co oznacza możliwość równoczesnej obróbki do 320 sekwencji na procesorach graficznych H100. To sprawia, że Hibiki idealnie nadaje się do zastosowań na dużą skalę. Jego zaawansowanie wynika także z ogromnej ilości danych, na których został wytrenowany – obejmuje 7 milionów godzin nagrań w języku angielskim, 450 tysięcy godzin w języku francuskim oraz 40 tysięcy godzin syntetycznych danych równoległych.

Wyniki i wydajność

Hibiki osiąga imponujące wyniki w zakresie jakości tłumaczenia i zachowania cech mowy. Model uzyskał wynik ASR-BLEU na poziomie 30,5, co przewyższa inne dostępne modele, w tym również te działające offline. W ocenie ludzi Hibiki uzyskał średnią ocenę naturalności na poziomie 3,73/5, co jest bardzo bliskie wyniku 4,12/5, uzyskiwanego przez profesjonalnych tłumaczy.

Jeśli chodzi o podobieństwo głosu, Hibiki osiągnął wynik 0,52, przewyższając konkurencyjny model Seamless, który uzyskał 0,43. W porównaniu do Seamless i StreamSpeech, Hibiki konsekwentnie oferuje wyższą jakość tłumaczenia i lepsze odwzorowanie głosu, utrzymując jednocześnie konkurencyjne opóźnienie. Wersja Hibiki-M, choć nieco słabsza pod względem podobieństwa głosu, nadal pozostaje skutecznym rozwiązaniem do tłumaczenia w czasie rzeczywistym na urządzeniach mobilnych.

Przyszłość tłumaczenia mowy

Hibiki to przełom w dziedzinie tłumaczenia mowy na żywo. Dzięki zastosowaniu zaawansowanych metod dopasowania kontekstowego, efektywnej kompresji oraz przetwarzania w czasie rzeczywistym, model ten oferuje wyższą jakość tłumaczenia przy zachowaniu naturalnych cech mowy.

Co więcej, Hibiki jest udostępniony w ramach otwartego kodu źródłowego na licencji CC-BY, co oznacza, że może stać się podstawą dalszych badań i innowacji w dziedzinie komunikacji wielojęzycznej. Możliwość wykorzystania tej technologii w różnych aplikacjach – od tłumaczeń konferencyjnych po ułatwienia w komunikacji międzynarodowej – sprawia, że Hibiki ma potencjał na zrewolucjonizowanie sposobu, w jaki ludzie porozumiewają się w różnych językach.