Salesforce AI Research wprowadza LaTRO: Samonagradzający się system poprawiający zdolności wnioskowania w dużych modelach językowych

Duże modele językowe (LLM), które są użyteczne do odpowiadania na pytania i generowania treści, obecnie przechodzą trening w zakresie zadań wymagających zaawansowanego rozumowania, takich jak rozwiązywanie złożonych problemów matematycznych, naukowych oraz logiczne wnioskowanie. Ulepszanie zdolności rozumowania w LLM-ach stanowi kluczowy obszar badań nad sztuczną inteligencją, mający na celu umożliwienie modelom prowadzenia procesów myślowych w sposób sekwencyjny. Poprawa w tej dziedzinie może znacznie poszerzyć możliwości zastosowania modeli w różnych dziedzinach, pozwalając im samodzielnie nawigować przez skomplikowane zadania wymagające logicznego rozumowania.

Wyzwaniem w rozwoju LLM-ów jest optymalizacja zdolności rozumowania

Jednym z nieustannych wyzwań w rozwoju dużych modeli językowych jest optymalizacja ich zdolności rozumowania bez potrzeby korzystania z zewnętrznego feedbacku. Obecnie LLM-y radzą sobie dobrze z relatywnie prostymi zadaniami, jednak napotykają trudności w przypadku bardziej złożonego, wieloetapowego rozumowania, gdzie odpowiedź musi wynikać z serii powiązanych ze sobą logicznych kroków. Ta ograniczona zdolność do sekwencyjnego rozumowania sprawia, że istnieją pewne bariery w zastosowaniu LLM-ów do zadań wymagających logicznej progresji idei, takich jak rozwiązywanie złożonych problemów matematycznych czy analiza danych w uporządkowany sposób. W rezultacie, budowanie samodzielnych zdolności rozumowania w LLM-ach staje się kluczowe, aby rozszerzyć ich funkcjonalność i skuteczność w zadaniach, w których rozumowanie odgrywa centralną rolę.

Nowe metody wspierające rozumowanie

Badacze eksperymentują z kilkoma metodami poprawy rozumowania w czasie wnioskowania, aby sprostać tym wyzwaniom. Jednym z popularnych podejść jest tzw. Chain-of-Thought (CoT) prompting, który zachęca model do rozbijania złożonego problemu na mniejsze, łatwiejsze do zarządzania części, podejmując decyzje krok po kroku. Dzięki temu modele podążają bardziej uporządkowaną drogą w procesie rozwiązywania problemów, co sprawia, że są lepiej przystosowane do zadań wymagających logiki i precyzji. Inne podejścia, takie jak Tree-of-Thought i Program-of-Thought, pozwalają modelom eksplorować wiele ścieżek rozumowania, oferując różnorodne podejścia do rozwiązywania problemów. Choć te metody są skuteczne, koncentrują się głównie na poprawie działania modelu w czasie pracy, a nie na doskonaleniu jego zdolności rozumowania na etapie treningu.

LaTent Reasoning Optimization (LaTRO) – nowy krok w optymalizacji rozumowania

Naukowcy z Salesforce AI Research wprowadzili nową strukturę o nazwie LaTent Reasoning Optimization (LaTRO). LaTRO to innowacyjne podejście, które przekształca proces rozumowania w problem próbkowania ukrytego (latent sampling), oferując wewnętrzną poprawę zdolności modelu do rozumowania. Dzięki temu podejściu LLM-y mogą udoskonalać swoje ścieżki rozumowania za pomocą mechanizmu samonagradzania, co pozwala im oceniać i poprawiać swoje odpowiedzi bez konieczności korzystania z zewnętrznych nagród czy nadzorowanego feedbacku. Skoncentrowanie się na strategii samodoskonalenia prowadzi do poprawy zdolności rozumowania na etapie treningu, co wprowadza fundamentalną zmianę w sposobie, w jaki modele rozumieją i rozwiązują złożone zadania.

Jak działa LaTRO?

Metodologia LaTRO opiera się na próbkowaniu ścieżek rozumowania z ukrytej przestrzeni i optymalizacji tych ścieżek za pomocą technik wariacyjnych. Kluczowym elementem LaTRO jest unikalny mechanizm samonagradzania, który polega na próbkowaniu wielu ścieżek rozumowania dla danego pytania. Każda ścieżka jest oceniana pod kątem prawdopodobieństwa uzyskania poprawnej odpowiedzi, a model następnie dostosowuje swoje parametry, aby priorytetowo traktować ścieżki o wyższych wskaźnikach sukcesu. Proces ten pozwala modelowi jednocześnie poprawiać swoją zdolność do generowania wysokiej jakości ścieżek rozumowania i oceniać ich skuteczność, co wspiera ciągły cykl samodoskonalenia. W przeciwieństwie do tradycyjnych podejść, LaTRO nie zależy od zewnętrznych modeli nagród, co czyni go bardziej autonomiczną i adaptacyjną strukturą do wzmacniania zdolności rozumowania w LLM-ach. Ponadto, przeniesienie optymalizacji rozumowania na etap treningu pozwala na zmniejszenie wymagań obliczeniowych w czasie wnioskowania, co czyni LaTRO rozwiązaniem bardziej efektywnym pod względem zasobów.

Wyniki testów LaTRO

Wydajność LaTRO została rygorystycznie przetestowana na różnych zestawach danych, co potwierdza jego skuteczność. Na przykład w testach na zestawie danych GSM8K, który zawiera wyzwania związane z rozumowaniem matematycznym, LaTRO wykazało znaczną poprawę o 12,5% w stosunku do podstawowych modeli w dokładności w trybie zero-shot. Ta poprawa wskazuje na wyraźne zwiększenie zdolności modelu do rozumowania bez konieczności stosowania specyficznego dla zadania treningu. Ponadto, LaTRO przewyższyło modele dostrajane w sposób nadzorowany o 9,6%, co pokazuje, że potrafi dostarczać bardziej precyzyjne wyniki, jednocześnie zachowując efektywność. Na zestawie danych ARC-Challenge, skupiającym się na rozumowaniu logicznym, LaTRO ponownie przewyższyło zarówno podstawowe modele, jak i te dostrajane, co pozwoliło na znaczny wzrost wydajności. Dla architektury Mistral-7B, jedna z używanych architektur LLM, dokładność zero-shot na GSM8K wzrosła z 47,8% w modelach bazowych do 67,3% pod wpływem LaTRO z dekodowaniem greedy. W testach z samokonsystencją, gdzie rozważane są różne ścieżki rozumowania, LaTRO osiągnęło dodatkowy wzrost wydajności, z imponującą dokładnością na poziomie 90,5% dla modeli Phi-3.5 na GSM8K.

Jakościowe ulepszenia dzięki LaTRO

Oprócz wyników ilościowych, mechanizm samonagradzania w LaTRO przekłada się na widoczne jakościowe ulepszenia. Metoda ta efektywnie uczy LLM-y oceny ścieżek rozumowania wewnętrznie, co prowadzi do generowania zwięzłych i logicznie spójnych odpowiedzi. Analiza eksperymentalna pokazuje, że LaTRO pozwala modelom lepiej wykorzystywać ich ukryty potencjał rozumowania, nawet w skomplikowanych scenariuszach, co zmniejsza zależność od zewnętrznych struktur oceny. To osiągnięcie ma duże znaczenie dla wielu zastosowań, szczególnie w dziedzinach, gdzie spójność logiczna i uporządkowane rozumowanie są kluczowe.

Podsumowanie

LaTRO oferuje innowacyjne i skuteczne rozwiązanie do poprawy zdolności rozumowania w LLM-ach poprzez optymalizację samonagradzania, ustanawiając nowy standard w zakresie samodoskonalenia modeli. Ta struktura umożliwia wcześniej wytrenowanym LLM-om odblokowanie ich ukrytego potencjału w zadaniach związanych z rozumowaniem, koncentrując się na ulepszaniu procesu rozumowania już na etapie treningu. Rozwój ten, zaprezentowany przez Salesforce AI Research, podkreśla potencjał autonomicznego rozumowania w modelach sztucznej inteligencji i udowadnia, że LLM-y mogą ewoluować w bardziej efektywnych rozwiązywaczy problemów. LaTRO stanowi znaczący krok naprzód, przybliżając AI do osiągnięcia autonomicznych zdolności rozumowania w różnych dziedzinach.