WEBRL: Samodoskonalące się ramy nauki przez wzmacnianie online do szkolenia wydajnych agentów internetowych z wykorzystaniem otwartych modeli językowych

W ostatnich latach modele językowe o dużej skali (LLM) stały się narzędziami o wyjątkowych możliwościach w zakresie rozumienia języka ludzkiego, rozumowania oraz akwizycji wiedzy, sugerując ich potencjał do działania jako autonomiczne agenty w różnych środowiskach. Jednakże, pomimo ich imponujących zdolności, trenowanie wysokowydajnych agentów internetowych opartych na otwartych LLM w środowiskach online, takich jak WebArena, napotyka na kilka kluczowych wyzwań.

Wyzwania w trenowaniu agentów webowych opartych na LLM

Jednym z głównych problemów jest brak zdefiniowanych zadań treningowych w dostępnych benchmarkach online. Oznacza to, że agentom brakuje jasno określonych celów, co utrudnia ich zdolność do systematycznego uczenia się. Kolejne wyzwanie to trudność w ocenie sukcesu zadań związanych z przeglądaniem internetu, ponieważ sygnały zwrotne są rzadkie i kosztowne w uzyskaniu. W odróżnieniu od bardziej zamkniętych środowisk, gdzie można łatwo ocenić, czy agent zrealizował zadanie, w środowiskach webowych precyzyjne określenie wyniku jest bardziej skomplikowane.

Dodatkowo, brak zdefiniowanego zestawu treningowego wymaga od agentów eksploracji online, co prowadzi do tzw. dryfu dystrybucji polityki. Dryf ten oznacza, że agent może z czasem „zapomnieć” wcześniej nauczone strategie, co w skrajnych przypadkach może prowadzić do katastrofalnego spadku wydajności.

Istniejące podejścia: Agenci oparci na LLM i uczenie przez wzmocnienie

Jednym z istniejących podejść do rozwiązywania tych problemów jest wykorzystanie LLM jako agentów oraz zastosowanie technik uczenia przez wzmocnienie (RL). Aktualne badania nad LLM jako agentami dzielą się na dwie główne kategorie: podejścia bez treningu oraz podejścia oparte na treningu. Chociaż niektóre badania korzystały z potężnych modeli, takich jak GPT-4, do generowania demonstracji działań, ich dokładność w przypadku złożonych zadań pozostawia wiele do życzenia.

Aby rozwiązać ten problem, badacze zaczęli stosować techniki RL, które wykorzystują sekwencyjne podejmowanie decyzji do kontrolowania urządzeń i interakcji w złożonych środowiskach. Przykładem takiego podejścia jest AgentQ, który stosuje algorytm DPO do aktualizacji polityki, oraz architektury aktor-krytyk, które wykazały obiecujące wyniki w sterowaniu urządzeniami. Jednakże, w zadaniach związanych z przeglądaniem internetu sygnały zwrotne są często ograniczone do binarnych odpowiedzi o sukcesie lub porażce po wielu rundach interakcji, co znacząco utrudnia proces uczenia.

WEBRL: Nowe podejście do trenowania agentów webowych

Aby rozwiązać te problemy, badacze z Uniwersytetu Tsinghua oraz Zhipu AI zaproponowali nowatorskie rozwiązanie o nazwie WEBRL. Jest to samo-ewoluujący system uczenia przez wzmocnienie, który został zaprojektowany do trenowania wydajnych agentów internetowych opartych na otwartych LLM. WEBRL skutecznie odpowiada na kluczowe wyzwania związane z budowaniem agentów webowych LLM, takie jak brak zadań treningowych, rzadkie sygnały zwrotne oraz dryf polityki w trakcie nauki online.

WEBRL wykorzystuje trzy kluczowe komponenty:
1. Samo-ewoluujący system zadań – generuje nowe zadania na podstawie nieudanych prób w poprzednich fazach, co umożliwia stopniowy postęp w nauce agenta.
2. Model nagród nadzorowanych przez wyniki (ORM) – zapewnia bardziej precyzyjne sygnały zwrotne dla agenta, co wspomaga jego naukę.
3. Adaptacyjne strategie RL – pozwalają na ciągłe doskonalenie się agenta, pomimo zmiennych warunków w środowisku.

Dzięki tym rozwiązaniom WEBRL wypełnia lukę między otwartymi i zamkniętymi (proprietary) agentami webowymi opartymi na LLM, tworząc bardziej dostępne i potężne systemy do autonomicznych interakcji w sieci.

Proces nauki w WEBRL

WEBRL opiera się na procesie eksploracji i metody prób i błędów, aby wypełnić lukę w dostępnych zadaniach treningowych. W każdej fazie treningu system automatycznie generuje nowe zadania na podstawie nieudanych prób z poprzednich faz, co zapewnia ciągłość w procesie nauki. Dodatkowo, WEBRL wprowadza termin KL-divergencji między polityką referencyjną a polityką aktora, co ogranicza zmiany w polityce wynikające z uczenia opartego na zadaniach, stabilizując proces treningowy i zapobiegając katastrofalnemu zapominaniu.

System ten wykorzystuje także bufor powtórzeń doświadczeń, wzbogacony o nową strategię filtracji pewności aktora. Dzięki temu agent jest w stanie lepiej ocenić, które doświadczenia są warte ponownego wykorzystania w przyszłych etapach treningu.

Wyniki i przewaga WEBRL

Wyniki uzyskane dla modelu Llama-3.1-8B, trenowanego za pomocą WEBRL, pokazują średnią dokładność na poziomie 42,4%, co przewyższa wszystkie dotychczasowe podejścia bazowe, w tym metody oparte na generowaniu podpowiedzi oraz alternatywne podejścia treningowe. WEBRL wyróżnia się szczególnie w zadaniach takich jak Gitlab (46,7%) oraz CMS (54,3%), co dowodzi jego skuteczności w rozwiązywaniu złożonych zadań webowych.

Co więcej, WEBRL przewyższa metody oparte na uczeniu przez demonstrację, takie jak SFT oraz Filtered BC, a także pokonuje DigiRL, poprzednią metodę uznawaną za najbardziej zaawansowaną, która aktualizuje polityki na bazie predefiniowanego, stałego zestawu zadań. WEBRL rozwiązuje ten problem, dostosowując poziom złożoności zadań do aktualnych umiejętności modelu, co sprzyja szerszej eksploracji i ciągłemu rozwojowi agenta.

Podsumowanie

WEBRL to nowatorskie podejście do trenowania agentów webowych opartych na LLM, które skutecznie rozwiązuje kluczowe wyzwania, takie jak brak zadań treningowych, rzadkość sygnałów zwrotnych oraz dryf polityki w trakcie nauki online. Wyniki pokazują, że WEBRL umożliwia agentom opartym na LLM przewyższenie istniejących metod, w tym zamkniętych API LLM, co otwiera drogę do bardziej dostępnych i wydajnych systemów do autonomicznych interakcji w sieci.

Sukces WEBRL w różnych architekturach LLM, takich jak Llama-3.1 i GLM-4, potwierdza wszechstronność i adaptacyjność tego systemu, co czyni go obiecującym narzędziem w rozwoju autonomicznych agentów webowych.