"Optymalizacja Preferencji w Czasie Testowania: Nowatorskie Podejście do Udoskonalania Odpowiedzi Modeli AI za Pomocą Iteracyjnej Polityki Nagradzania Tekstu"

Modele językowe nowej generacji a ich dopasowanie do ludzkich preferencji

Modele językowe o dużej skali (Large Language Models, LLMs) zrewolucjonizowały świat technologii, stając się kluczowym elementem wielu dziedzin życia. Dzięki zdolności do rozwiązywania zadań o różnym stopniu złożoności, ich wykorzystanie obejmuje szeroki wachlarz zastosowań, od tworzenia treści, przez analizę danych, aż po wspieranie decyzji biznesowych. Mimo ich imponujących możliwości, pojawiają się jednak wyzwania związane z generowaniem nieoczekiwanych lub potencjalnie niebezpiecznych odpowiedzi. Aby sprostać tym wyzwaniom, naukowcy koncentrują się na dopasowaniu modeli do ludzkich preferencji, jednocześnie maksymalizując korzyści płynące z ich rozległych zbiorów danych treningowych.

—

Nowe podejścia do optymalizacji modeli językowych

Jednym z najczęściej stosowanych rozwiązań w celu dopasowania LLM do ludzkich wymagań jest uczenie przez wzmocnienie z ludzką informacją zwrotną (Reinforcement Learning from Human Feedback, RLHF) oraz bezpośrednia optymalizacja preferencji (Direct Preference Optimization, DPO). Choć są to metody skuteczne, wymagają czasochłonnego i kosztownego procesu trenowania modeli. W związku z tym badacze szukają alternatywnych sposobów, które pozwolą na optymalizację modeli w czasie rzeczywistym, podczas wnioskowania, bez konieczności ponownego trenowania.

—

Test-Time Preference Optimization – innowacyjne podejście z Szanghajskiego Laboratorium AI

Zespół badaczy z Szanghajskiego Laboratorium AI opracował nowatorskie rozwiązanie – Test-Time Preference Optimization (TPO). Jest to ramy umożliwiające dopasowanie odpowiedzi generowanych przez modele językowe do ludzkich preferencji w trakcie ich działania, czyli w czasie wnioskowania (inference). TPO działa w trybie online i jest oparty na zasadzie uczenia na bieżąco, gdzie model polityki (policy model) stale współpracuje z modelem nagród (reward model) w celu udoskonalania swoich wyników.

Jednym z kluczowych elementów TPO jest wykorzystanie interpretowalnej tekstowej informacji zwrotnej zamiast tradycyjnego punktowania w formie liczbowej. Mechanizm ten przekształca sygnały nagród w krytyczne opinie tekstowe, które model wykorzystuje do generowania kolejnych sugestii. Dzięki temu model na bieżąco aktualizuje swoje odpowiedzi, dostosowując je do preferencji użytkowników.

—

Proces optymalizacji w praktyce

Podczas rzeczywistego działania, TPO ocenia generowane odpowiedzi na każdym kroku optymalizacji. Najlepsze odpowiedzi są klasyfikowane jako „wybrane”, a najsłabsze jako „odrzucone”. Na podstawie tej klasyfikacji model uczy się, jakie elementy były skuteczne, a jakie wymagały poprawy. Informacje te są następnie wykorzystywane do generowania tzw. „tekstowej straty” (textual loss), która służy jako wskazówka dla kolejnych iteracji. Z biegiem czasu model iteracyjnie poprawia swoje wyniki, zwiększając zgodność z preferencjami użytkowników.

—

Testy i wyniki badań

Aby zweryfikować skuteczność TPO, naukowcy zastosowali tę metodę na dwóch różnych modelach:
– Llama-3.1-70B-SFT – model nieprzeszkolony pod kątem preferencji użytkowników,
– Llama-3.1-70B-Instruct – model zoptymalizowany wcześniej z wykorzystaniem tradycyjnych metod.

Eksperymenty przeprowadzono na różnych zestawach danych, oceniając zdolności modeli w zakresie przestrzegania instrukcji, dopasowania do preferencji, bezpieczeństwa oraz rozumowania matematycznego. Wyniki pokazały, że nawet kilka kroków optymalizacji w czasie rzeczywistym znacząco poprawia wydajność obu modeli. Co ciekawe, model Llama-3.1-70B-SFT, mimo że pierwotnie nie został zoptymalizowany, przewyższył swojego zoptymalizowanego odpowiednika po zastosowaniu metody TPO.

Dodatkowo, badania wykazały, że zastosowanie TPO na mniejszym modelu (22 miliardy parametrów) pozwoliło osiągnąć wynik LC na poziomie 53,4% i WR na poziomie 72,2%. To dowód na wysoką skalowalność i elastyczność tej metody.

—

Wnioski i przyszłość TPO

Metoda Test-Time Preference Optimization to przełomowe rozwiązanie w dopasowywaniu modeli językowych do ludzkich preferencji. Dzięki możliwości optymalizacji w czasie rzeczywistym eliminuje konieczność kosztownego ponownego trenowania modeli oraz aktualizacji ich wag. TPO oferuje także wysoką skalowalność i dostosowuje się do różnorodnych potrzeb użytkowników, co czyni ją obiecującym podejściem w przyszłych pracach nad modelami językowymi.

Badania pokazują, że TPO może nie tylko usprawnić działanie istniejących modeli, ale także otworzyć nowe możliwości w dziedzinie sztucznej inteligencji. Dzięki temu podejściu możemy spodziewać się bardziej efektywnych, bezpiecznych i lepiej dopasowanych do ludzkich oczekiwań systemów.