GaLiTe i AGaLiTe: Efektywne alternatywy dla Transformera w kontekście częściowo obserwowalnego uczenia ze wzmocnieniem w trybie online

W rzeczywistych warunkach agenci często muszą działać przy ograniczonej widoczności otoczenia, co utrudnia podejmowanie decyzji. Przykładowo, agent prowadzący samochód musi zapamiętywać znaki drogowe, które widział wcześniej, aby dostosować prędkość, ale przechowywanie wszystkich obserwacji bezpośrednio w pamięci jest niewykonalne, ze względu na ograniczenia zasobów. W takich sytuacjach agenci muszą nauczyć się kompresować dane obserwacyjne. Problem ten staje się jeszcze bardziej złożony w zadaniach, które trwają przez dłuższy czas, gdzie kluczowe informacje z przeszłości nie zawsze mogą być skutecznie przechowywane. Kluczowym elementem w takich sytuacjach jest stopniowe budowanie stanu wewnętrznego, co jest istotne w częściowo obserwowalnym, online’owym uczeniu ze wzmocnieniem (Reinforcement Learning, RL). Sieci neuronowe rekurencyjne (RNN), takie jak LSTMy, dobrze radzą sobie z sekwencjami, choć ich trenowanie jest trudne. Z kolei transformery skutecznie uchwytują długoterminowe zależności, lecz ich koszt obliczeniowy jest wyższy.

Udoskonalenia Architektury Transformera

Istnieje wiele podejść, które rozszerzają działanie liniowych transformerów, aby lepiej radzić sobie z przetwarzaniem danych sekwencyjnych. Jedno z rozwiązań wykorzystuje metodę skalarnych bramek, która pozwala na gromadzenie wartości w czasie, podczas gdy inne dodają mechanizmy rekurencyjne i nieliniowe aktualizacje, aby poprawić naukę z zależności sekwencyjnych. Niestety, takie zmiany mogą obniżyć efektywność zrównoleglania obliczeń. Są też modele, które selektywnie obliczają rozproszone mechanizmy uwagi lub przechowują wcześniejsze aktywacje, co umożliwia analizowanie dłuższych sekwencji bez znacznych kosztów pamięciowych. Ostatnie innowacje zmniejszają złożoność mechanizmu samodzielnej uwagi (self-attention), co poprawia zdolność transformatorów do przetwarzania długich kontekstów w efektywny sposób. Mimo że transformery są powszechnie stosowane w offline’owym uczeniu ze wzmocnieniem, ich wykorzystanie w modelach bez modeli (model-free) dopiero się rozwija.

Nowe Architektury GaLiTe i AGaLiTe

Naukowcy z Uniwersytetu Alberty oraz Amii opracowali dwie nowe architektury transformatorów, zaprojektowane z myślą o częściowo obserwowalnym, online’owym uczeniu ze wzmocnieniem. Modele te rozwiązują problemy związane z wysokimi kosztami obliczeniowymi i dużym zapotrzebowaniem na pamięć, charakterystycznymi dla tradycyjnych transformatorów. Proponowane modele, GaLiTe i AGaLiTe, wprowadzają mechanizm samodzielnej uwagi z bramkowaniem, który pozwala na efektywne zarządzanie i aktualizowanie informacji, jednocześnie utrzymując stały koszt wnioskowania niezależny od kontekstu. Testy przeprowadzone w środowiskach 2D i 3D, takich jak T-Maze i Craftax, wykazały, że te modele przewyższają lub dorównują aktualnym standardom, takim jak GTrXL, zmniejszając zużycie pamięci i mocy obliczeniowej o ponad 40%, a AGaLiTe osiąga nawet o 37% lepsze wyniki w skomplikowanych zadaniach.

Gated Linear Transformer (GaLiTe)

GaLiTe to ulepszona wersja liniowych transformerów, która rozwiązuje kluczowe problemy związane z brakiem mechanizmów pozwalających na usuwanie przestarzałych informacji oraz zależnością od wyboru mapy cech jądra. GaLiTe wprowadza mechanizm bramkowania, który kontroluje przepływ informacji, pozwalając na selektywne przechowywanie pamięci i wykorzystanie parametryzowanej mapy cech do obliczania wektorów klucza i zapytania, bez konieczności korzystania z konkretnych funkcji jądra. Aby zwiększyć efektywność, model Approximate Gated Linear Transformer (AGaLiTe) wykorzystuje aproksymację niskiego rzędu, co zmniejsza zapotrzebowanie na pamięć, przechowując stany rekurencyjne jako wektory, a nie macierze. Takie podejście pozwala na znaczne oszczędności miejsca i czasu w porównaniu do innych architektur, szczególnie w złożonych zadaniach RL.

Testy i Wyniki AGaLiTe

Badanie ocenia model AGaLiTe na różnych zadaniach RL, które wymagają częściowej obserwowalności. W tych środowiskach agenci muszą posługiwać się pamięcią, aby poradzić sobie z różnorodnymi poziomami ograniczonej obserwowalności, np. zapamiętywać pojedyncze sygnały w T-Maze, integrować informacje w czasie w CartPole, czy poruszać się po skomplikowanych środowiskach, takich jak Mystery Path, Craftax czy Memory Maze. AGaLiTe, wyposażony w uproszczony mechanizm samodzielnej uwagi, osiąga wysoką wydajność, przewyższając tradycyjne modele, takie jak GTrXL i GRU, pod względem efektywności i wydajności obliczeniowej. Wyniki pokazują, że konstrukcja AGaLiTe znacznie redukuje liczbę operacji i zużycie pamięci, co daje przewagę w zadaniach RL wymagających obsługi szerokiego kontekstu.

Podsumowanie

Transformery są niezwykle skuteczne w przetwarzaniu danych sekwencyjnych, ale mają swoje ograniczenia w kontekście online’owego uczenia ze wzmocnieniem, głównie ze względu na wysokie wymagania obliczeniowe oraz potrzebę przechowywania wszystkich danych historycznych na potrzeby mechanizmu samodzielnej uwagi. Badanie to wprowadza dwa efektywne alternatywy dla mechanizmu uwagi w transformatorach – GaLiTe i AGaLiTe, które bazują na mechanizmach rekurencyjnych i są zaprojektowane specjalnie do częściowo obserwowalnych zadań RL. Oba modele osiągają wyniki porównywalne lub lepsze od GTrXL, jednocześnie zmniejszając koszty wnioskowania o ponad 40% i redukując zużycie pamięci o ponad 50%. W przyszłości możliwe są dalsze ulepszenia AGaLiTe, w tym wprowadzenie aktualizacji w czasie rzeczywistym oraz zastosowanie w modelowych podejściach RL, takich jak Dreamer V3.