Google DeepMind opracowuje nowoczesne i efektywne algorytmy uczenia ze wzmocnieniem dzięki ulepszonym modelom Transformer

Nowe podejście do uczenia przez wzmacnianie – przełom w modelach MBRL

Uczenie przez wzmacnianie (Reinforcement Learning, RL) to technika, w której algorytmy uczą się, jak maksymalizować nagrody poprzez interakcję ze środowiskiem. W podejściu online RL proces ten polega na podejmowaniu decyzji, zbieraniu obserwacji oraz aktualizowaniu polityki działania na podstawie zebranych doświadczeń. Istnieją dwie kluczowe odmiany tej metody: model-free RL (MFRL) oraz model-based RL (MBRL).

MFRL opiera się na bezpośrednim mapowaniu obserwacji na akcje, jednak wymaga ogromnych ilości danych, co czyni je kosztownym i czasochłonnym. MBRL natomiast wprowadza tzw. model świata (World Model, WM), który pozwala na planowanie działań w wyobrażonym środowisku, co znacząco poprawia efektywność prób i błędów.

Wyzwania i nowe podejście w MBRL

Metody MBRL różnią się sposobem wykorzystania modeli świata. Niektóre z nich stosują planowanie w tle (background planning), gdzie polityki są trenowane na danych wygenerowanych przez model, inne natomiast wykorzystują planowanie w czasie decyzji (decision-time planning), co pozwala na bardziej precyzyjne przewidywanie wyników w czasie rzeczywistym.

Jednym z najnowszych wyzwań w tej dziedzinie jest testowanie metod RL w bardziej wymagających środowiskach. Standardowe benchmarki, takie jak Atari-100k, często pozwalają algorytmom na zapamiętywanie zamiast rzeczywistego uogólniania wiedzy. Aby temu zaradzić, badacze wprowadzili Crafter – środowisko inspirowane Minecraftem, które wymaga głębokiej eksploracji i długofalowego planowania. Teraz, wersja JAX o nazwie Craftax-classic wprowadza proceduralnie generowane środowiska, częściową obserwowalność oraz system nagród o niskiej gęstości, co znacząco zwiększa złożoność zadania.

Przełomowe osiągnięcie badaczy Google DeepMind

Zespół badaczy z Google DeepMind zaprezentował nowe podejście do MBRL, które ustanawia rekord w środowisku Craftax-classic. Ich model osiągnął imponujący wynik 67,42% po 1 milionie kroków, przewyższając dotychczasowe najlepsze wyniki, w tym DreamerV3 (53,2%) oraz poziom osiągany przez ludzi (65,0%).

Kluczowe innowacje ich metody obejmują:

– Dyna z rozgrzewką – połączenie rzeczywistych i wyobrażonych symulacji w celu zwiększenia efektywności uczenia.
– Tokenizator najbliższego sąsiada (Nearest-Neighbor Tokenizer, NNT) – nowatorskie podejście do przetwarzania obrazów metodą podziału na fragmenty (patch-wise processing).
– Blokowe wymuszanie nauczyciela (Block Teacher Forcing, BTF) – optymalizacja przewidywania tokenów, co znacząco poprawia jakość generowanych danych.

Te innowacje pozwoliły na znaczne zwiększenie efektywności próbkowania danych, co czyni to podejście jednym z najlepszych w dziedzinie oszczędnego uczenia przez wzmacnianie.

Rozbudowanie podstawowego modelu MFRL

W ramach badań ulepszono również podstawowy model MFRL poprzez zwiększenie jego rozmiaru oraz dodanie jednostek GRU (Gated Recurrent Unit), co podniosło skuteczność z 46,91% do 55,49%. Dodatkowo, opracowano metodę MBRL wykorzystującą model Transformer World Model (TWM) z kwantyzacją VQ-VAE, osiągającą wynik 31,93%.

Aby jeszcze bardziej zoptymalizować wydajność, zastosowano metodę opartą na Dyna do integracji rzeczywistych i wyobrażonych symulacji, co przyspieszyło proces uczenia. Co więcej, zastąpienie VQ-VAE nowym tokenizatorem NNT zwiększyło skuteczność modelu z 43,36% do 58,92%. Wyniki te pokazują, jak istotne jest łączenie mechanizmów pamięci, modeli bazujących na transformatorach oraz usprawnień w kodowaniu obserwacji.

Eksperymenty i wyniki

Badania przeprowadzono w środowisku Craftax-classic, wykorzystując 8 procesorów graficznych H100 i 1 milion kroków uczenia. Każda metoda zbierała trajektorie o długości 96 w 48 równoległych środowiskach. W przypadku metod MBRL generowano symulacje wyobrażone co 200 tysięcy kroków i aktualizowano je 500 razy.

Eksperymenty wykazały, że najlepszy agent (M5) osiągnął rekordowy wynik 67,42%. Dodatkowe badania ablacyjne potwierdziły znaczenie każdej wprowadzonej innowacji – Dyna, NNT, podziału na fragmenty oraz BTF. W porównaniu z istniejącymi metodami, nowa metoda MBRL osiągnęła najwyższą dotychczas skuteczność. Ponadto, testy w pełnej wersji Craftax wykazały zdolność modelu do generalizacji na bardziej wymagające środowiska.

Podsumowanie i przyszłe kierunki badań

Podsumowując, badanie wprowadza trzy kluczowe innowacje do agentów MBRL opartych na analizie obrazów i planowaniu w tle: Dyna z rozgrzewką, tokenizację najbliższego sąsiada oraz blokowe wymuszanie nauczyciela. Dzięki tym ulepszeniom nowy agent MBRL przewyższa dotychczasowe modele oraz poziom umiejętności ludzkich w benchmarku Craftax-classic.

Planowane dalsze badania obejmują:

– Eksplorację możliwości generalizacji poza środowisko Craftax.
– Priorytetyzację ponownego odtwarzania doświadczeń.
– Integrację metod RL działających poza polityką (off-policy).
– Udoskonalenie tokenizatora dla większych modeli wstępnie wytrenowanych, takich jak SAM i Dino-V2.
– Modyfikację polityki tak, aby akceptowała ukryte tokeny z nierekonstrukcyjnych modeli świata.

Te zmiany mogą doprowadzić do jeszcze bardziej zaawansowanych algorytmów RL, co w przyszłości może znaleźć zastosowanie w robotyce, grach oraz systemach autonomicznych.