Naukowcy z Google DeepMind Proponują RT-Affordance: Hierarchiczną Metodę Wykorzystującą Affordancje jako Pośrednią Reprezentację dla Polityk
W ciągu ostatnich lat nastąpił intensywny rozwój w dziedzinie dużych modeli wstępnie wytrenowanych, które mają na celu uczenie robotów wykonywania zadań. Termin „reprezentacja polityki” odnosi się do sposobów interakcji z mechanizmami podejmowania decyzji przez roboty, co może pomóc w uogólnianiu ich działania do nowych zadań i środowisk. Modele wizji, języka i działania (Vision-Language-Action, VLA) są trenowane na dużych zbiorach danych robotycznych, aby integrować percepcję wzrokową, rozumienie języka i podejmowanie decyzji oparte na działaniach. Modele te oferują potencjał do uogólniania działań na nowe obiekty, sceny i zadania. Jednakże, mimo postępów, VLA nadal nie są wystarczająco niezawodne, aby być stosowane poza wąskimi warunkami laboratoryjnymi, w których są trenowane.
Problemy z obecnymi metodami
Istniejące reprezentacje polityki, takie jak język, obrazy celów czy szkice trajektorii, są powszechnie stosowane w robotyce i mają swoje zalety, jednak każda z tych metod ma swoje ograniczenia. Najbardziej popularną formą jest użycie języka do warunkowania działań robota, jednak opisy zadań często są niedostatecznie sprecyzowane, co nie dostarcza robotom wystarczających informacji, aby poprawnie wykonać zadanie. Polityki oparte na obrazach celów dostarczają szczegółowych informacji przestrzennych o końcowej konfiguracji sceny, ale obrazy te są bardzo złożone, co sprawia, że modele mają trudności z nauką. Szkice trajektorii, które dostarczają przestrzennych planów działań, również nie dostarczają wystarczających wskazówek dotyczących tego, jak konkretnie robot ma wykonać ruchy.
Nowe podejście: model RT-Affordance
Zespół badawczy Google DeepMind zaproponował nowy model o nazwie RT-Affordance, który opiera się na hierarchicznym podejściu. Model ten najpierw tworzy plan działania na podstawie języka zadania, a następnie wykorzystuje ten plan do kierowania działaniami robota. W robotyce pojęcie „afordancji” odnosi się do potencjalnych interakcji, które obiekt umożliwia robotowi, w zależności od jego kształtu, rozmiaru itp. Model RT-Affordance może łatwo połączyć różnorodne źródła nadzoru, w tym duże zbiory danych z internetu oraz trajektorie robotów.
RT-Affordance wykorzystuje zintegrowane dane pochodzące z różnych źródeł, takich jak trajektorie robotów, zestawy danych dostępne w sieci oraz obrazy oznaczone afordancjami. To podejście pozwala modelowi na lepsze uogólnianie działań na nowe obiekty, sceny i zadania. Najpierw generowany jest plan afordancji na podstawie języka zadania oraz obrazu początkowego. Następnie plan ten jest łączony z instrukcjami językowymi i nakładany na obraz, co umożliwia warunkowanie polityki przez obrazy z nałożonym planem afordancji.
Wyniki badań
Zespół badawczy przeprowadził szereg eksperymentów, których celem było zbadanie wpływu afordancji na poprawę chwytania przez roboty, zwłaszcza w przypadku obiektów o skomplikowanych kształtach, takich jak czajniki, szufelki czy garnki. Szczegółowa ocena wykazała, że model RT-A jest wysoce skuteczny w scenariuszach, które odbiegają od standardowych zbiorów treningowych (tzw. out-of-distribution, OOD), takich jak nowe obiekty, inne kąty kamery czy odmienne tła. RT-A osiągnął wskaźnik sukcesu na poziomie 68-76%, co jest znacznie lepszym wynikiem niż w przypadku modelu RT-2, który osiągał zaledwie 24-28%. W zadaniach wykraczających poza chwytanie, takich jak umieszczanie obiektów w pojemnikach, RT-A wykazał się wysoką skutecznością na poziomie 70%. Jednakże, jego wydajność nieco spadała w przypadku zupełnie nowych obiektów, co wskazuje na potrzebę dalszych badań.
Podsumowanie
Metoda RT-Affordance znacząco poprawia odporność i zdolność do uogólniania polityk robotycznych, co czyni ją wartościowym narzędziem do realizacji różnorodnych zadań manipulacyjnych. Chociaż model ten nie jest jeszcze w stanie w pełni dostosować się do zupełnie nowych umiejętności, przewyższa tradycyjne metody pod względem wydajności. Wprowadzenie afordancji w proces decyzyjny robotów otwiera szerokie możliwości dla przyszłych badań i może stać się punktem odniesienia dla kolejnych projektów w dziedzinie robotyki.