Wzmacnianie procesów poprzez ukryte nagrody (PRIME): Skalowalny model uczenia maszynowego wspierający rozwój umiejętności rozumowania

Nowa metoda uczenia maszynowego poprawia skuteczność modeli językowych

Ograniczenia tradycyjnych metod wzmocnionego uczenia maszynowego

Uczenie maszynowe oparte na wzmocnieniu (RL) jest jedną z kluczowych metod trenowania dużych modeli językowych (LLM). Tradycyjnie proces ten opiera się na nagrodach końcowych, które dostarczają informacji zwrotnej dopiero po wygenerowaniu pełnej odpowiedzi. Takie podejście sprawia, że modele mają trudności z zadaniami wymagającymi wieloetapowego rozumowania, takimi jak rozwiązywanie problemów matematycznych czy programowanie. Istnieje również problem z przypisaniem zasługi poszczególnym krokom modelu, ponieważ nie otrzymuje on szczegółowej informacji zwrotnej na temat każdego etapu.

Aby temu zaradzić, opracowano modele nagród procesowych (PRM), które przyznają nagrody na poziomie poszczególnych kroków. Jednak takie rozwiązanie wymaga kosztownych, ręcznie tworzonych oznaczeń procesu, co sprawia, że nie nadaje się ono do skalowalnego RL na dużą skalę. Ponadto, statyczne funkcje nagród mogą prowadzić do nadoptymalizacji i tzw. „hakowania nagród”, gdzie model manipuluje systemem nagród w sposób nieprzewidziany przez jego twórców. Wady te ograniczają efektywność, skalowalność i praktyczne zastosowanie RL dla dużych modeli językowych, co wymaga nowego podejścia, które łączy gęste nagrody bez nadmiernych kosztów obliczeniowych i konieczności ręcznej anotacji.

Nowe podejście do nagradzania w RL

Obecnie najczęściej stosowane metody RL dla LLM opierają się na modelach nagród końcowych (ORM), które oceniają jedynie końcowy wynik wygenerowanego tekstu. Powoduje to niską efektywność próbkowania, ponieważ model musi generować i testować całe sekwencje przed otrzymaniem informacji zwrotnej. Niektóre podejścia wykorzystują modele wartości, które przewidują przyszłe nagrody na podstawie wcześniejszych działań, lecz cierpią one na wysoką wariancję i nie radzą sobie dobrze z rzadkością nagród.

Modele PRM rozwiązują ten problem, oferując bardziej szczegółową informację zwrotną, ale wymagają kosztownych, ręcznie tworzonych anotacji dla poszczególnych kroków. Ponadto, statyczne funkcje nagród są podatne na nadoptymalizację, ponieważ model może nauczyć się manipulować systemem nagród w sposób nieprzewidziany przez badaczy. Dodatkowo, większość obecnych metod wymaga dodatkowego etapu trenowania modelu nagród, co zwiększa koszty obliczeniowe i utrudnia skalowalność.

Przełomowe rozwiązanie – Implicit PRM

Zespół badaczy z kilku renomowanych instytucji, w tym Uniwersytetu Tsinghua, Shanghai AI Lab i Uniwersytetu Illinois w Urbana-Champaign, zaproponował nowatorskie podejście do RL, które eliminuje konieczność ręcznego oznaczania kroków procesu. Kluczowym elementem tego rozwiązania jest Implicit Process Reward Model (Implicit PRM), który generuje nagrody na poziomie tokenów niezależnie od oznaczeń końcowych. Dzięki temu model nie wymaga ręcznej anotacji etapów procesu, co znacząco zmniejsza koszty i czasochłonność trenowania.

Nowa metoda umożliwia ciągłe usprawnianie modelu nagród w trybie online, eliminując problem nadoptymalizacji, a jednocześnie pozwala na dynamiczne dostosowanie polityki modelu. Co istotne, framework skutecznie łączy nagrody procesowe z nagrodami końcowymi podczas estymacji przewagi, oferując wysoką efektywność obliczeniową i eliminując ryzyko „hakowania nagród”. W przeciwieństwie do wcześniejszych metod, które wymagały osobnego etapu trenowania modelu nagród, nowe podejście inicjalizuje model PRM bezpośrednio z modelu polityki, co znacząco zmniejsza koszty rozwoju.

Dodatkowo, rozwiązanie to jest kompatybilne z wieloma algorytmami RL, takimi jak REINFORCE, PPO i GRPO, co czyni je uniwersalnym i skalowalnym narzędziem do trenowania dużych modeli językowych.

Skuteczność i praktyczne zastosowanie nowej metody

Nowy system RL wykorzystuje nagrody procesowe na poziomie tokenów, obliczane za pomocą logarytmicznego stosunku między wyuczonym modelem nagród a modelem referencyjnym. Zamiast ręcznej anotacji, funkcja nagrody jest uczona na podstawie surowych oznaczeń wyników, które są już dostępne w procesie trenowania modelu polityki. Co więcej, model umożliwia uczenie funkcji nagrody w trybie online, co pomaga uniknąć nadoptymalizacji i „hakowania nagród”.

Podejście to stosuje hybrydową metodę estymacji przewagi, łączącą nagrody procesowe i końcowe za pomocą estymatora Monte Carlo typu „leave-one-out”. Optymalizacja polityki jest realizowana za pomocą algorytmu Proximal Policy Optimization (PPO), który wykorzystuje funkcję straty o ograniczonym zastępstwie w celu zapewnienia stabilności treningu.

Model został przetestowany na zoptymalizowanym modelu Qwen2.5-Math-7B-Base, który jest specjalnie dostosowany do problemów matematycznych. W badaniach wykorzystano 150 tysięcy zapytań, przy czym dla każdego generowano cztery próbki, co znacznie zmniejszyło zapotrzebowanie na dane treningowe w porównaniu do Qwen2.5-Math-7B-Instruct, który wymagał 618 tysięcy ręcznych anotacji.

Wyniki i przyszłość RL dla LLM

Nowa metoda RL demonstruje znaczące korzyści w zakresie efektywności próbkowania i wydajności rozumowania na kilku benchmarkach. Model osiąga 2,5-krotny wzrost efektywności próbkowania oraz 6,9-procentowy wzrost skuteczności w rozwiązywaniu problemów matematycznych w porównaniu do standardowego RL opartego na nagrodach końcowych.

Co więcej, model przewyższa Qwen2.5-Math-7B-Instruct na zaawansowanych testach matematycznych, osiągając lepszą dokładność w zadaniach na poziomie konkursowym, takich jak AIME i AMC. Trening przeprowadzony tą metodą pozwala nawet na przewyższenie większych modeli, takich jak GPT-4o, w trudnych zadaniach wymagających rozumowania – i to przy wykorzystaniu jedynie 10% danych treningowych w porównaniu do Qwen2.5-Math-7B-Instruct.

Te wyniki potwierdzają, że aktualizacje modelu nagród w trybie online eliminują nadoptymalizację, poprawiają stabilność treningu oraz skuteczność przypisywania zasług pomiędzy poszczególne kroki modelu. Otwiera to nowe możliwości w dziedzinie RL dla dużych modeli językowych, czyniąc je bardziej efektywnymi i nadającymi się do szerokiego zastosowania w matematyce, programowaniu oraz innych zadaniach wymagających zaawansowanego rozumowania.

Podsumowanie

Nowatorskie podejście do RL dla LLM, oparte na Implicit PRM, skutecznie eliminuje konieczność ręcznych anotacji i zmniejsza koszty treningu. Łącząc modelowanie nagród w czasie rzeczywistym z informacją zwrotną na poziomie tokenów, metoda ta rozwiązuje problemy związane z rzadkością nagród i przypisywaniem zasług.

Ta innowacja stanowi ważny krok w kierunku bardziej wydajnego i skalowalnego trenowania modeli językowych, co może mieć ogromne znaczenie dla przyszłości sztucznej inteligencji. Wprowadzenie tej metody do praktycznych zastosowań może przyczynić się do jeszcze większej precyzji i skuteczności modeli w złożonych zadaniach wymagających wieloetapowego rozumowania.