„H-DPO: Ulepszanie Dopasowania Modeli Językowych dzięki Kontroli Entropii”

Modele językowe dużej skali (LLM) wykazują imponujące możliwości w różnych zastosowaniach, ale ich powszechne przyjęcie napotyka na istotne wyzwania. Głównym problemem jest to, że dane używane do ich trenowania mogą zawierać zróżnicowane, niejednoznaczne, a czasem szkodliwe treści, takie jak złośliwy kod czy informacje związane z cyberatakami. W związku z tym pojawia się pilna potrzeba dostosowania wyników generowanych przez LLM do specyficznych wymagań użytkowników, jednocześnie zapobiegając ich niewłaściwemu wykorzystaniu. Obecne metody, takie jak Wzmocnione Uczenie na podstawie Ludzkiej Opinii (RLHF), mają na celu rozwiązanie tych problemów poprzez uwzględnienie preferencji ludzi w zachowaniu modeli. Jednak RLHF ma swoje ograniczenia, takie jak duże wymagania obliczeniowe, złożoność modeli nagród oraz niestabilność algorytmów uczenia ze wzmocnieniem. W związku z tym istnieje potrzeba opracowania bardziej efektywnych i niezawodnych metod dostrajania LLM, które zachowają ich wydajność i jednocześnie zapewnią odpowiedzialny rozwój sztucznej inteligencji.

Nowe podejścia do dostrajania modeli językowych

Aby sprostać wyzwaniom związanym z dostrajaniem LLM do ludzkich preferencji, pojawiło się kilka metod. RLHF początkowo zyskało popularność dzięki wykorzystaniu modelu nagród trenowanego na danych ludzkich preferencji, w połączeniu z algorytmami uczenia ze wzmocnieniem, takimi jak PPO, do optymalizacji zachowania modelu. Jednak ze względu na złożoność implementacji i duże zapotrzebowanie na zasoby, opracowano metodę Direct Policy Optimization (DPO), która upraszcza proces, eliminując potrzebę modelu nagród i stosując zamiast tego stratę krzyżową opartą na entropii. Najnowsze badania badają różne miary dywergencji, aby kontrolować różnorodność wyników, w szczególności skupiając się na α-dywergencji jako sposobie równoważenia między odwrotną a prostą dywergencją KL. Badacze analizują także techniki zwiększające różnorodność odpowiedzi, takie jak sampling oparty na temperaturze, manipulacja promptami czy modyfikacje funkcji celu. Różnorodność odpowiedzi okazuje się kluczowa w zadaniach, gdzie ważne jest pokrycie problematyki za pomocą wielu wygenerowanych próbek, na przykład w zadaniach matematycznych i programistycznych.

H-DPO – Nowe podejście do optymalizacji

Zespół badaczy z Uniwersytetu Tokijskiego i firmy Preferred Networks, Inc. wprowadził nowatorską modyfikację tradycyjnego podejścia DPO, nazwaną H-DPO, która rozwiązuje problemy związane z tzw. zachowaniem trybowym (mode-seeking). Kluczowa innowacja polega na kontrolowaniu entropii wynikowej dystrybucji polityki, co pozwala na bardziej efektywne uchwycenie trybów docelowej dystrybucji. Tradycyjna minimalizacja odwrotnej dywergencji KL czasami nie spełnia oczekiwań w dopasowywaniu rozkładu jednostajnego do rozkładu wielomodalnego, ponieważ zachowuje zbyt dużą wariancję. H-DPO rozwiązując ten problem, wprowadza hiperparametr α, który modyfikuje wyraz regularyzacyjny, umożliwiając celowe zmniejszenie entropii, gdy α < 1. To podejście jest zgodne z obserwacjami, że modele językowe zazwyczaj działają lepiej przy niższych wartościach temperatury podczas oceny. W przeciwieństwie do zmian temperatury po treningu, H-DPO wbudowuje ostrzenie dystrybucji bezpośrednio w cel treningowy, co zapewnia optymalne dostosowanie do pożądanego zachowania, przy jednoczesnym zachowaniu prostoty implementacji.

Techniczne aspekty H-DPO

Metodyka H-DPO wprowadza nowatorską metodę kontroli entropii w dostosowywaniu modeli językowych poprzez modyfikację wyrazu regularyzacyjnego odwrotnej dywergencji KL. Metoda ta dzieli odwrotną dywergencję KL na komponenty entropii i entropii krzyżowej, wprowadzając współczynnik α, który pozwala precyzyjnie kontrolować entropię dystrybucji. Funkcja celu dla H-DPO, oznaczana jako JH-DPO, łączy oczekiwaną nagrodę z modyfikowanym wyrazem dywergencji. Gdy α równa się 1, funkcja zachowuje standardowe zachowanie DPO, ale ustawienie α poniżej 1 zachęca do redukcji entropii. Dzięki optymalizacji ograniczonej za pomocą mnożników Lagrange’a, optymalna polityka jest wyprowadzana jako funkcja polityki referencyjnej i nagrody, a α kontroluje ostrość dystrybucji. Implementacja wymaga jedynie minimalnych zmian w istniejącym frameworku DPO, co czyni metodę bardzo praktyczną w rzeczywistych zastosowaniach.

Wyniki eksperymentalne H-DPO

Eksperymentalna ocena H-DPO wykazała znaczące ulepszenia w wielu benchmarkach w porównaniu do standardowego DPO. Metoda była testowana na różnych zadaniach, w tym na problemach matematycznych na poziomie podstawowym (GSM8K), zadaniach programistycznych (HumanEval), pytaniach wielokrotnego wyboru (MMLU-Pro) oraz zadaniach związanych z naśladowaniem instrukcji (IFEval). Obniżenie wartości α do przedziału 0,95–0,9 przyniosło poprawę wydajności we wszystkich zadaniach. Metryki różnorodności wykazały interesujące zależności: niższe wartości α prowadziły do zmniejszenia różnorodności przy temperaturze 1, podczas gdy wyższe wartości α zwiększały różnorodność. Jednak relacja między α a różnorodnością okazała się bardziej złożona przy uwzględnieniu zmian temperatury. Na benchmarku GSM8K, H-DPO z α=0,8 osiągnęło optymalne pokrycie przy temperaturze treningowej 1, przewyższając najlepsze wyniki standardowego DPO, które uzyskano przy temperaturze 0,5. Co istotne, na HumanEval, większe wartości α (α=1,1) wykazały lepszą wydajność w scenariuszach z dużą liczbą próbek (k>100), sugerując, że różnorodność odpowiedzi odegrała kluczową rolę w zadaniach programistycznych.

Podsumowanie

H-DPO stanowi istotny krok naprzód w dostosowywaniu modeli językowych, oferując prostą, ale skuteczną modyfikację standardowego frameworku DPO. Dzięki innowacyjnemu mechanizmowi kontroli entropii za pomocą hiperparametru α, metoda ta osiąga lepsze zachowanie trybowe i pozwala na precyzyjniejsze zarządzanie dystrybucją wyników. Wyniki eksperymentalne wykazały poprawę dokładności i różnorodności odpowiedzi, szczególnie w zadaniach związanych z rozumowaniem matematycznym i metrykami pokrycia. Chociaż ręczne dostrajanie α może być pewnym ograniczeniem, prostota implementacji i imponujące wyniki sprawiają, że H-DPO jest wartościowym wkładem w dziedzinę dostosowywania modeli językowych, otwierając drogę do bardziej efektywnych i kontrolowalnych systemów AI.