Poznaj Satori: Nowe podejście do rozwijania zdolności rozumowania modeli językowych dzięki głębokiemu myśleniu, bez potrzeby silnego modelu nauczyciela
Nowe podejście do samodzielnego rozumowania modeli językowych
Wielkoskalowe modele językowe (LLM) osiągnęły znaczące postępy w obszarach takich jak matematyczne rozwiązywanie problemów, wnioskowanie logiczne i programowanie. Ich skuteczność opiera się zazwyczaj na dwóch podejściach – dostosowywaniu nadzorowanemu (SFT), które wymaga ludzkiej adnotacji, oraz strategiach wyszukiwania w czasie wnioskowania, wspomaganych przez zewnętrzne weryfikatory. Choć pierwsza metoda zapewnia strukturalne rozumowanie, jest ograniczona przez konieczność ręcznej adnotacji i jakość modelu nauczyciela. Natomiast drugie podejście zwiększa dokładność, ale znacząco podnosi wymagania obliczeniowe.
Powstaje pytanie: czy model LLM może rozwijać zdolność do rozumowania bez intensywnego nadzoru człowieka lub wsparcia zewnętrznych weryfikatorów? Odpowiedzią na to wyzwanie jest Satori – model językowy o 7 miliardach parametrów, który został zaprojektowany tak, by samodzielnie rozwijać mechanizmy wyszukiwania rozwiązań oraz doskonalenia własnych umiejętności.
—
Satori – model do samorefleksyjnego i eksploracyjnego rozumowania
Zespół badaczy z MIT, Singapore University of Technology and Design, Harvard, MIT-IBM Watson AI Lab, IBM Research oraz UMass Amherst zaprezentował Satori – model wykorzystujący autoregresyjne wyszukiwanie, które pozwala mu na samodzielne ulepszanie swoich procesów rozumowania i eksplorowanie alternatywnych strategii. W przeciwieństwie do modeli opartych na intensywnym treningu nadzorowanym lub destylacji wiedzy, Satori wykorzystuje nowatorskie podejście zwane Chain-of-Action-Thought (COAT).
Satori bazuje na modelu Qwen-2.5-Math-7B i przechodzi przez dwustopniowy proces treningowy:
1. Dostosowywanie formatu (FT) – na niewielkiej próbce danych (~10 000 przykładów).
2. Samodoskonalenie na dużą skalę za pomocą uczenia przez wzmocnienie (RL).
Dzięki temu podejściu model jest w stanie samodzielnie rozwijać swoje umiejętności, nie wymagając ciągłej interwencji człowieka.
—
Szczegóły techniczne i korzyści modelu Satori
Proces treningowy Satori składa się z dwóch głównych etapów:
1. Etap dostosowywania formatu (FT)
W tej fazie model uczy się nowej strategii rozumowania COAT, opartej na trzech kluczowych działaniach:
– Continue () – kontynuowanie obecnego toku rozumowania.
– Reflect () – samodzielna analiza i ocena wcześniejszych kroków.
– Explore () – badanie alternatywnych ścieżek rozwiązania.
W przeciwieństwie do tradycyjnego podejścia Chain-of-Thought (CoT), które wymusza określoną trajektorię myślenia, COAT pozwala na dynamiczne podejmowanie decyzji, co zwiększa zdolność modelu do adaptacji.
2. Etap uczenia przez wzmocnienie (RL)
W tej fazie model poddawany jest samodoskonaleniu na dużą skalę, z wykorzystaniem techniki Reinforcement Learning with Restart and Explore (RAE).
– Model ponownie rozpoczyna rozumowanie od pośrednich etapów, co pozwala na iteracyjne udoskonalanie rozwiązania.
– Mechanizm nagród przypisuje oceny w zależności od liczby samokorekt oraz głębokości eksploracji, co prowadzi do stopniowego ulepszania zdolności modelu.
To podejście pozwala Satori nie tylko na poprawę dokładności wnioskowania, ale także na rozwój umiejętności adaptacyjnych w nowych dziedzinach.
—
Wnioski z testowania Satori
Badania nad modelem Satori wykazały jego wysoką skuteczność na wielu benchmarkach, często przewyższającą modele oparte na nadzorowanym dostrajaniu.
1. Wydajność na benchmarkach matematycznych
– Satori osiąga lepsze wyniki niż Qwen-2.5-Math-7B-Instruct na zbiorach danych takich jak GSM8K, MATH500, OlympiadBench, AMC2023 oraz AIME2024.
– Dzięki dodatkowym rundom uczenia przez wzmocnienie, model stale się doskonali, bez konieczności dalszej interwencji człowieka.
2. Zdolność do generalizacji na inne dziedziny
– Mimo że Satori trenowany był głównie na zadaniach matematycznych, wykazuje świetne zdolności w rozwiązywaniu problemów z innych obszarów, takich jak:
– Wnioskowanie logiczne (FOLIO, BoardgameQA).
– Rozumowanie oparte na wiedzy powszechnej (StrategyQA).
– Analiza danych tabelarycznych (TableBench).
To sugeruje, że samodoskonalenie oparte na RL zwiększa zdolności adaptacyjne modelu, sprawiając, że może on być wykorzystywany w szerokim zakresie zastosowań.
3. Wzrost efektywności
– W porównaniu do metod opartych na nadzorowanym dostrajaniu, Satori osiąga podobne lub nawet lepsze wyniki, przy znacznie mniejszej liczbie oznaczonych danych treningowych (10 000 vs. 300 000 dla porównywalnych modeli).
– To oznacza mniejsze zapotrzebowanie na ręczną adnotację, co obniża koszty i przyspiesza rozwój zaawansowanych modeli AI.
—
Przyszłość autonomicznego uczenia się w LLM
Satori otwiera nowe możliwości w dziedzinie samodzielnego rozumowania modeli językowych, pokazując, że sztuczna inteligencja może się doskonalić bez potrzeby nadzoru człowieka czy wysokiej jakości modeli nauczycieli.
Integracja metod takich jak COAT reasoning, uczenie przez wzmocnienie i autoregresyjne wyszukiwanie sprawia, że model ten jest w stanie iteracyjnie poprawiać swoje umiejętności. Oprócz zwiększonej dokładności, pozwala to również na lepszą generalizację do nowych, nieznanych wcześniej zadań.
Przyszłe badania mogą skupić się na:
– Dalszym udoskonalaniu mechanizmów meta-akcji,
– Optymalizacji strategii uczenia przez wzmocnienie,
– Rozszerzeniu tego podejścia na inne dziedziny, poza matematykę.
Satori to przykład kierunku, w którym może podążać rozwój sztucznej inteligencji – w stronę coraz większej autonomii i zdolności do samodzielnego uczenia się.