22 lutego, 2025

Poznaj Satori: Nowe podejście do rozwijania zdolności rozumowania modeli językowych dzięki głębokiemu myśleniu, bez potrzeby silnego modelu nauczyciela

Nowe podejście do samodzielnego rozumowania modeli językowych

Wielkoskalowe modele językowe (LLM) osiągnęły znaczące postępy w obszarach takich jak matematyczne rozwiązywanie problemów, wnioskowanie logiczne i programowanie. Ich skuteczność opiera się zazwyczaj na dwóch podejściach – dostosowywaniu nadzorowanemu (SFT), które wymaga ludzkiej adnotacji, oraz strategiach wyszukiwania w czasie wnioskowania, wspomaganych przez zewnętrzne weryfikatory. Choć pierwsza metoda zapewnia strukturalne rozumowanie, jest ograniczona przez konieczność ręcznej adnotacji i jakość modelu nauczyciela. Natomiast drugie podejście zwiększa dokładność, ale znacząco podnosi wymagania obliczeniowe.

Powstaje pytanie: czy model LLM może rozwijać zdolność do rozumowania bez intensywnego nadzoru człowieka lub wsparcia zewnętrznych weryfikatorów? Odpowiedzią na to wyzwanie jest Satori – model językowy o 7 miliardach parametrów, który został zaprojektowany tak, by samodzielnie rozwijać mechanizmy wyszukiwania rozwiązań oraz doskonalenia własnych umiejętności.

Satori – model do samorefleksyjnego i eksploracyjnego rozumowania

Zespół badaczy z MIT, Singapore University of Technology and Design, Harvard, MIT-IBM Watson AI Lab, IBM Research oraz UMass Amherst zaprezentował Satori – model wykorzystujący autoregresyjne wyszukiwanie, które pozwala mu na samodzielne ulepszanie swoich procesów rozumowania i eksplorowanie alternatywnych strategii. W przeciwieństwie do modeli opartych na intensywnym treningu nadzorowanym lub destylacji wiedzy, Satori wykorzystuje nowatorskie podejście zwane Chain-of-Action-Thought (COAT).

Satori bazuje na modelu Qwen-2.5-Math-7B i przechodzi przez dwustopniowy proces treningowy:

1. Dostosowywanie formatu (FT) – na niewielkiej próbce danych (~10 000 przykładów).
2. Samodoskonalenie na dużą skalę za pomocą uczenia przez wzmocnienie (RL).

Dzięki temu podejściu model jest w stanie samodzielnie rozwijać swoje umiejętności, nie wymagając ciągłej interwencji człowieka.

Szczegóły techniczne i korzyści modelu Satori

Proces treningowy Satori składa się z dwóch głównych etapów:

1. Etap dostosowywania formatu (FT)

W tej fazie model uczy się nowej strategii rozumowania COAT, opartej na trzech kluczowych działaniach:

Continue () – kontynuowanie obecnego toku rozumowania.
Reflect () – samodzielna analiza i ocena wcześniejszych kroków.
Explore () – badanie alternatywnych ścieżek rozwiązania.

W przeciwieństwie do tradycyjnego podejścia Chain-of-Thought (CoT), które wymusza określoną trajektorię myślenia, COAT pozwala na dynamiczne podejmowanie decyzji, co zwiększa zdolność modelu do adaptacji.

2. Etap uczenia przez wzmocnienie (RL)

W tej fazie model poddawany jest samodoskonaleniu na dużą skalę, z wykorzystaniem techniki Reinforcement Learning with Restart and Explore (RAE).

– Model ponownie rozpoczyna rozumowanie od pośrednich etapów, co pozwala na iteracyjne udoskonalanie rozwiązania.
– Mechanizm nagród przypisuje oceny w zależności od liczby samokorekt oraz głębokości eksploracji, co prowadzi do stopniowego ulepszania zdolności modelu.

To podejście pozwala Satori nie tylko na poprawę dokładności wnioskowania, ale także na rozwój umiejętności adaptacyjnych w nowych dziedzinach.

Wnioski z testowania Satori

Badania nad modelem Satori wykazały jego wysoką skuteczność na wielu benchmarkach, często przewyższającą modele oparte na nadzorowanym dostrajaniu.

1. Wydajność na benchmarkach matematycznych

– Satori osiąga lepsze wyniki niż Qwen-2.5-Math-7B-Instruct na zbiorach danych takich jak GSM8K, MATH500, OlympiadBench, AMC2023 oraz AIME2024.
– Dzięki dodatkowym rundom uczenia przez wzmocnienie, model stale się doskonali, bez konieczności dalszej interwencji człowieka.

2. Zdolność do generalizacji na inne dziedziny

– Mimo że Satori trenowany był głównie na zadaniach matematycznych, wykazuje świetne zdolności w rozwiązywaniu problemów z innych obszarów, takich jak:
Wnioskowanie logiczne (FOLIO, BoardgameQA).
Rozumowanie oparte na wiedzy powszechnej (StrategyQA).
Analiza danych tabelarycznych (TableBench).

To sugeruje, że samodoskonalenie oparte na RL zwiększa zdolności adaptacyjne modelu, sprawiając, że może on być wykorzystywany w szerokim zakresie zastosowań.

3. Wzrost efektywności

– W porównaniu do metod opartych na nadzorowanym dostrajaniu, Satori osiąga podobne lub nawet lepsze wyniki, przy znacznie mniejszej liczbie oznaczonych danych treningowych (10 000 vs. 300 000 dla porównywalnych modeli).
– To oznacza mniejsze zapotrzebowanie na ręczną adnotację, co obniża koszty i przyspiesza rozwój zaawansowanych modeli AI.

Przyszłość autonomicznego uczenia się w LLM

Satori otwiera nowe możliwości w dziedzinie samodzielnego rozumowania modeli językowych, pokazując, że sztuczna inteligencja może się doskonalić bez potrzeby nadzoru człowieka czy wysokiej jakości modeli nauczycieli.

Integracja metod takich jak COAT reasoning, uczenie przez wzmocnienie i autoregresyjne wyszukiwanie sprawia, że model ten jest w stanie iteracyjnie poprawiać swoje umiejętności. Oprócz zwiększonej dokładności, pozwala to również na lepszą generalizację do nowych, nieznanych wcześniej zadań.

Przyszłe badania mogą skupić się na:

Dalszym udoskonalaniu mechanizmów meta-akcji,
Optymalizacji strategii uczenia przez wzmocnienie,
Rozszerzeniu tego podejścia na inne dziedziny, poza matematykę.

Satori to przykład kierunku, w którym może podążać rozwój sztucznej inteligencji – w stronę coraz większej autonomii i zdolności do samodzielnego uczenia się.