Prosty, ale skuteczny sposób skalowania LLM-ów podczas testowania

Nowe podejście do skalowania modeli językowych – innowacje w przetwarzaniu na etapie testowania

Rozwój modeli językowych (ang. Language Models, LMs) w ostatnich latach znacząco przyspieszył dzięki zwiększonej mocy obliczeniowej oraz szeroko zakrojonemu samonadzorowanemu treningowi na dużą skalę. Chociaż takie podejście pozwoliło na stworzenie wyjątkowo zaawansowanych modeli, pojawił się nowy paradygmat, który zmienia sposób myślenia o osiąganiu lepszej wydajności. Skalowanie na etapie testowania (ang. test-time scaling) zyskuje na popularności jako metoda poprawy możliwości modeli poprzez zwiększenie obliczeń dopiero podczas fazy wnioskowania.

Przełomowym przykładem zastosowania tej metody jest model OpenAI o1, który udowodnił, że zwiększanie mocy obliczeniowej na etapie testowania może znacząco poprawić zdolności rozumowania. Mimo to, próby powtórzenia tych wyników przez inne zespoły badawcze okazały się trudne. Wykorzystywano takie techniki jak Monte Carlo Tree Search (MCTS), podejścia wieloagentowe czy uczenie przez wzmocnienie, jednak żadne z nich nie osiągnęło podobnej skuteczności. Nawet modele takie jak DeepSeek R1, które opierają się na milionach próbek i złożonych etapach treningu, nie były w stanie odwzorować zachowania test-time scaling znanego z o1.

—

Metody skalowania i nowe podejścia

Aby sprostać wyzwaniu skalowania na etapie testowania, opracowano różnorodne techniki. Jednym z podejść są metody sekwencyjne, które umożliwiają modelom generowanie kolejnych prób rozwiązania, bazując na wynikach wcześniejszych iteracji. Innym podejściem są techniki oparte na drzewach, takie jak Monte Carlo Tree Search i ukierunkowane przeszukiwanie wiązkowe (ang. guided beam search). Warto tutaj wspomnieć o metodzie REBASE, która wykorzystuje model nagród procesowych do optymalizacji poszukiwań w drzewie poprzez równoważenie eksploracji i przycinania zbędnych gałęzi.

Techniki takie jak REBASE opierają się na dwóch typach modeli nagród: modeli nagród wynikowych, które oceniają kompletne rozwiązania w ramach selekcji Best-of-N, oraz modeli nagród procesowych, które analizują poszczególne kroki rozumowania w metodach opartych na drzewach. Te zaawansowane podejścia pokazują, że skuteczność modeli na etapie testowania zależy nie tylko od samego treningu, ale także od efektywnego wykorzystania mocy obliczeniowej w czasie rzeczywistym.

—

Innowacyjne rozwiązania z udziałem modeli Qwen

Naukowcy z Uniwersytetu Stanforda, Uniwersytetu Waszyngtońskiego, Allen Institute for AI oraz Contextual AI zaproponowali nowe, uproszczone podejście do osiągania skalowania na etapie testowania oraz poprawy zdolności rozumowania modeli. Kluczem do sukcesu ich metody są dwa innowacyjne elementy: starannie dobrany zestaw danych s1K oraz mechanizm wymuszania budżetu obliczeniowego (ang. budget forcing).

Zestaw s1K składa się z 1 000 pytań zawierających ślady rozumowania, które zostały wybrane na podstawie kryteriów takich jak trudność, różnorodność i jakość. Mechanizm wymuszania budżetu pozwala kontrolować proces myślenia modelu poprzez strategiczne wstawianie komend „Wait”, które umożliwiają modelowi przemyślenie oraz poprawę wcześniejszych wniosków. W celu implementacji tej techniki, naukowcy przeprowadzili fine-tuning modelu Qwen2.5-32B-Instruct na danych z zestawu s1K.

—

Proces selekcji danych i efektywność modelu

Wybór danych do zestawu s1K przebiegał w trzech etapach: filtrowania jakości, oceny trudności i oceny różnorodności. Na początek usunięto próbki z błędami API oraz problemami formatowania, co zredukowało pierwotną pulę do 51 581 przykładów. Spośród nich wybrano 384 najwyższej jakości próbki. Następnie oceniono trudność pytań na podstawie dwóch kluczowych wskaźników: skuteczności modeli Qwen2.5-7B-Instruct oraz Qwen2.5-32B-Instruct oraz długości śladu rozumowania, mierzonej za pomocą tokenizatora Qwen2.5. W ostatnim etapie zapewniono różnorodność pytań, klasyfikując je według 50 dziedzin na podstawie systemu Mathematics Subject Classification.

Zastosowanie takiego procesu selekcji pozwoliło na stworzenie wyjątkowo efektywnego zestawu danych, który umożliwił modelowi s1-32B znaczącą poprawę wydajności. Model ten, w połączeniu z techniką wymuszania budżetu, przewyższał bazowy Qwen2.5-32B-Instruct pod względem efektywności obliczeniowej oraz dokładności rozumowania.

—

Minimalne dane, maksymalna efektywność

Przeprowadzone badania pokazują, że nadzorowane dostrajanie (ang. Supervised Fine-Tuning, SFT) z użyciem jedynie 1 000 starannie wybranych przykładów może stworzyć model rozumowania, który dorównuje wydajności o1-preview. Co więcej, efektywność modelu s1-32B wyraźnie przewyższa inne podejścia, takie jak r1-32B, które wymagały aż 800 razy większej ilości danych treningowych.

Odkrycie to potwierdza hipotezę „Superficial Alignment” z badań LIMA, sugerującą, że pretrenowane modele już posiadają w sobie zdolności rozumowania, które mogą zostać aktywowane przy użyciu relatywnie niewielkiej liczby przykładów. Oznacza to, że kluczem do sukcesu nie jest ilość danych, lecz ich jakość oraz odpowiednie dostosowanie procesu treningowego.

—

Podsumowanie

Badania nad skalowaniem na etapie testowania otwierają nowe perspektywy w rozwoju modeli językowych. Dzięki technikom takim jak wymuszanie budżetu oraz starannie dobranym danym, możliwe jest osiąganie znacznie lepszych wyników przy minimalnym nakładzie treningowym. Takie podejście nie tylko zwiększa efektywność modeli, ale także obniża koszty ich rozwoju, co może mieć ogromne znaczenie w dalszym postępie sztucznej inteligencji.