22 lutego, 2025

„Tsinghua University Prezentuje T1: Nowe Podejście do Skalowania Uczenia przez Wzmacnianie dzięki Lepszej Eksploracji i Skalowaniu Wnioskowania”

Nowatorskie podejście do ulepszania dużych modeli językowych (LLMs)

Duże modele językowe (ang. Large Language Models – LLMs) odgrywają coraz większą rolę w dziedzinie matematyki, programowania oraz w tworzeniu autonomicznych agentów zdolnych do samodzielnego rozwiązywania problemów. Jednakże, pomimo postępu w tej dziedzinie, modele te wciąż mają trudności z efektywnym rozumowaniem i podejmowaniem decyzji w czasie rzeczywistym. Obecne metody ich ulepszania, takie jak pretrenowanie na danych związanych z rozumowaniem, czy uczenie imitacyjne, są ograniczone w swojej skuteczności, zwłaszcza w przypadku bardziej złożonych problemów.

Jednym z popularnych podejść jest generowanie kroków rozumowania na podstawie podanych wskazówek lub próbek. Wykorzystuje się także uczenie ze wzmocnieniem (ang. Reinforcement Learning – RL), które pozwala modelom na eksplorację i uczenie się na podstawie informacji zwrotnej. Mimo to, wpływ RL na bardziej zaawansowane rozumowanie pozostaje ograniczony. Dodawanie większej liczby danych czy zwiększanie rozmiaru modelu niekoniecznie przekłada się na zauważalną poprawę jakości wyników. Wydłużanie odpowiedzi i głębsze rozumowanie mogą poprawić efektywność, lecz osiągnięcie tego w praktyce okazuje się wyzwaniem.

Ograniczenia tradycyjnych metod

Dotychczasowe próby ulepszenia LLMs koncentrują się głównie na uczeniu imitacyjnym, gdzie modele uczą się powtarzać kroki rozumowania na podstawie wcześniej wygenerowanych przykładów. Pretrenowanie na odpowiednich danych oraz fine-tuning z wykorzystaniem RL poprawiają zdolność do rozumienia, ale napotykają bariery skalowalności w bardziej złożonych przypadkach. Dodatkowe techniki, takie jak generowanie pytań i odpowiedzi czy stosowanie weryfikatorów, mogą zwiększyć dokładność modeli, lecz wymagają intensywnego nadzoru zewnętrznego. Co więcej, zwiększanie liczby próbek w czasie testów znacząco podnosi koszty obliczeniowe, nie przynosząc proporcjonalnych korzyści w postaci lepszego rozumowania.

Rewolucyjne podejście T1

Aby rozwiązać te problemy, naukowcy z Uniwersytetu Tsinghua oraz zespołu Zhipu AI opracowali metodę o nazwie T1. Jest to innowacyjne podejście, które ulepsza proces uczenia ze wzmocnieniem, poszerzając zakres eksploracji i poprawiając skalowanie wnioskowania. W metodzie T1 model jest trenowany na danych związanych z łańcuchami rozumowania, korzystając z podejścia prób i błędów oraz autoweryfikacji. W odróżnieniu od wcześniejszych metod, które koncentrują się wyłącznie na uzyskaniu poprawnych odpowiedzi, T1 stawia na różnorodność ścieżek rozumowania.

T1 generuje wiele odpowiedzi dla każdego zapytania i analizuje błędy przed zastosowaniem RL. Kluczowe innowacje to:
1. Oversampling: Zwiększa różnorodność odpowiedzi, co pozwala na lepszą eksplorację możliwych ścieżek rozumowania.
2. Dynamiczne aktualizacje: Zamiast korzystać z ustalonego modelu odniesienia, T1 dynamicznie modyfikuje go za pomocą średniej ruchomej, co zapobiega stagnacji podczas procesu uczenia.
3. Kary za nieefektywne odpowiedzi: Model otrzymuje negatywne nagrody za odpowiedzi zbyt długie, niskiej jakości lub powtarzalne, co motywuje go do generowania bardziej trafnych i zwięzłych wyników.

Proces implementacji

Badacze wykorzystali otwarte modele, takie jak GLM-4-9B oraz Qwen2.5-14B/32B, stosując RL do matematycznego rozumowania. Dane treningowe pochodziły z zestawów MATH-train i NuminaMath, a po przefiltrowaniu nieprecyzyjnych informacji wyodrębniono około 30 000 instancji. Proces fine-tuningu przeprowadzono z wykorzystaniem harmonogramu opadającego kosinusowo, a trening RL oparto na gradientach polityki z nagrodami za poprawność odpowiedzi.

Podczas testów T1 przewyższył modele bazowe w matematycznych benchmarkach. W szczególności model Qwen2.5-32B wykazał 10-20% poprawę w stosunku do wersji SFT. Większa liczba próbek odpowiedzi (K) zwiększyła zdolność do eksploracji i generalizacji, co było szczególnie widoczne w zadaniach GPQA. Użycie temperatury próbkowania na poziomie 1.2 stabilizowało proces treningu, podczas gdy wartości zbyt wysokie lub niskie negatywnie wpływały na wydajność.

Wyniki i potencjał skalowania

Wyniki pokazały, że metoda T1 znacząco poprawia wydajność i skalowalność dużych modeli językowych. Dzięki zastosowanym karom i oversamplingowi udało się zniwelować wpływ wąskich gardeł związanych z próbkami. Dalsze badania nad skalowaniem wnioskowania wykazały, że intensywniejsze treningi RL poprawiają zarówno dokładność rozumowania, jak i ogólne trendy skalowania. T1 nie tylko przewyższa obecne modele na trudnych benchmarkach, ale także eliminuje słabości dotychczasowych podejść do rozumowania.

Podsumowanie

Metoda T1 stanowi przełom w rozwijaniu dużych modeli językowych, łącząc eksplorację, stabilność oraz dynamiczne skalowanie. Dzięki temu podejściu możliwe jest osiągnięcie lepszych wyników w zadaniach wymagających głębokiego rozumowania i długich odpowiedzi. T1 nie tylko otwiera nowe możliwości w dziedzinie sztucznej inteligencji, ale również stanowi solidną bazę do dalszych badań, które mogą jeszcze bardziej usprawnić zdolności rozumowania i skalowania dużych modeli językowych.