Nowe Zasady Optymalizacji AI: Jak Skalowanie Modeli i Danych Zwiększa Wydajność w Uczeniu Zachowań i Modelowaniu Świata

Embodied AI: Nowe granice w modelowaniu agentów działających w środowiskach fizycznych i symulowanych

Sztuczna inteligencja wcielona (ang. Embodied AI) to koncepcja tworzenia agentów, którzy działają autonomicznie w fizycznych lub symulowanych środowiskach, realizując zadania zgodnie z określonymi celami. Tego rodzaju systemy znajdują zastosowanie przede wszystkim w robotyce oraz zaawansowanych symulacjach, gdzie agenci wykorzystują rozbudowane zestawy danych oraz zaawansowane modele do optymalizacji swojego zachowania i podejmowania decyzji. W odróżnieniu od prostszych aplikacji AI, systemy wcielone muszą radzić sobie z dużą ilością danych sensoryczno-motorycznych oraz skomplikowanymi interakcjami z otoczeniem. W związku z tym coraz większą uwagę poświęca się procesowi skalowania, który obejmuje dostosowanie rozmiarów modeli, objętości danych i mocy obliczeniowej w celu zapewnienia optymalnej wydajności agentów w zróżnicowanych zadaniach.

Wyzwania skalowania modeli wcielonej AI

Jednym z kluczowych wyzwań, przed jakimi stoją badacze w dziedzinie wcielonej AI, jest znalezienie odpowiedniego balansu pomiędzy rozmiarem modelu a wielkością zbioru danych. Jest to szczególnie istotne w kontekście ograniczeń związanych z zasobami obliczeniowymi. W przeciwieństwie do modeli językowych, gdzie zasady skalowania są dobrze ugruntowane, w przypadku AI wcielonej nadal nie jest jasne, jak optymalnie rozdzielać zasoby pomiędzy zadania wymagające adaptacji behawioralnej i środowiskowej. Na przykład, podczas gdy zwiększenie rozmiaru modelu może poprawić wydajność, bez proporcjonalnego wzrostu ilości danych może prowadzić to do nieefektywności, a nawet pogorszenia wyników, zwłaszcza w zadaniach takich jak klonowanie zachowań czy modelowanie świata.

Przeniesienie zasad skalowania z modeli językowych na AI wcieloną

Modele językowe wypracowały spójne zasady skalowania, które opisują zależności między rozmiarem modelu, ilością danych i wymaganiami obliczeniowymi. Dzięki tym zasadom badacze mogą lepiej przewidywać, jakie konfiguracje są niezbędne do skutecznego trenowania modeli. Jednakże, wcielona AI nie zaadoptowała tych zasad w pełni, co wynika częściowo z różnorodności zadań, które te systemy muszą wykonywać. W odpowiedzi na to wyzwanie, badacze starają się przenieść wnioski ze skalowania modeli językowych do AI wcielonej. Jednym z podejść jest wstępne trenowanie agentów na dużych, offline’owych zbiorach danych, które zawierają różnorodne informacje o środowiskach i zachowaniach. Celem jest opracowanie zasad, które pomogą agentom wcielonym osiągać wysoką wydajność w podejmowaniu decyzji oraz w interakcjach z otoczeniem.

Nowe zasady skalowania dla AI wcielonej

Zespół badaczy z Microsoft Research opracował niedawno szczegółowe zasady skalowania dla AI wcielonej, wprowadzając metodologię oceny, jak zmiany w parametrach modelu, wielkości zbioru danych oraz ograniczeniach obliczeniowych wpływają na efektywność nauki agentów AI. Prace badawcze skupiły się na dwóch głównych zadaniach: klonowaniu zachowań (ang. behavior cloning), gdzie agenci uczą się naśladować zaobserwowane działania, oraz modelowaniu świata (ang. world modeling), gdzie agenci przewidują zmiany w środowisku na podstawie wcześniejszych działań i obserwacji. W badaniu wykorzystano architektury oparte na transformerach, testując różne konfiguracje w celu zrozumienia, jak strategie tokenizacji i poziomy kompresji modelu wpływają na ogólną wydajność i dokładność.

Efektywność przetwarzania danych i modeli

Metodologia obejmowała trenowanie transformatorów z różnymi podejściami do tokenizacji, aby zrównoważyć rozmiar modelu i zbioru danych. Na przykład, w klonowaniu zachowań zespół zastosował architektury oparte na tokenizacji oraz CNN, co pozwoliło modelowi działać w ramach ciągłego osadzania, zamiast korzystać z dyskretnych tokenów, co znacząco zmniejszyło obciążenie obliczeniowe. Badanie wykazało, że w modelowaniu świata zasady skalowania wskazywały, że zwiększenie liczby tokenów na obserwację miało wpływ na rozmiar modelu, przy czym optymalny współczynnik rozmiaru modelu wzrósł z 0,49 do 0,62, gdy liczba tokenów zwiększyła się z 256 do 540 na obraz. Natomiast w klonowaniu zachowań z tokenizowanymi obserwacjami optymalne współczynniki rozmiaru modelu wskazywały na potrzebę większych zbiorów danych przy mniejszych modelach, co stanowi odwrotny trend w porównaniu do modelowania świata.

Kluczowe wnioski z badania

Badanie dostarczyło cennych informacji na temat tego, jak zasady skalowania znane z modeli językowych mogą być skutecznie zastosowane w AI wcielonej. Kluczowe wyniki obejmowały:

1. Zrównoważone skalowanie w modelowaniu świata – Dla optymalnej wydajności w modelowaniu świata zarówno rozmiar modelu, jak i zbioru danych muszą rosnąć proporcjonalnie.

2. Optymalizacja klonowania zachowań – Optymalne konfiguracje dla klonowania zachowań preferują mniejsze modele w połączeniu z większymi zbiorami danych, gdy używane są tokenizowane obserwacje. Większe modele są preferowane w zadaniach klonowania opartych na CNN.

3. Wpływ współczynnika kompresji – Wyższe współczynniki kompresji tokenów przesuwają zasady skalowania w kierunku większych modeli w modelowaniu świata, co wskazuje, że dane tokenizowane mają istotny wpływ na optymalny rozmiar modelu.

4. Weryfikacja ekstrapolacji – Testowanie na większych modelach potwierdziło przewidywalność zasad skalowania, co wspiera te zasady jako podstawę do efektywnego określania rozmiaru modeli w AI wcielonej.

5. Różnorodne wymagania zadań – Wymagania skalowania różnią się znacznie pomiędzy klonowaniem zachowań a modelowaniem świata, co podkreśla konieczność dostosowywania podejść do różnych zadań AI.

Podsumowanie

Przełomowe badania nad zasadami skalowania dla AI wcielonej pozwalają na lepsze przewidywanie i kontrolowanie zasobów potrzebnych do trenowania agentów. Dzięki precyzyjnym zasadom skalowania, naukowcy mogą tworzyć bardziej wydajne i zdolne do adaptacji modele, które mogą działać w środowiskach wymagających wysokiej efektywności obliczeniowej i dużych zbiorów danych.