ShowUI: Model Łączący Wizję, Język i Działanie dla Agentów Obsługujących Interfejs Graficzny – Rozwiązanie Kluczowych Wyzwań Wizualizacji i Modelowania Akcji w UI

Współczesne modele językowe w nowej odsłonie – krok w kierunku usprawnienia interakcji człowieka z technologią

Rozwój dużych modeli językowych (LLM) otwiera nowe możliwości w zakresie automatyzacji codziennych zadań oraz interakcji z technologią. W dzisiejszym świecie, gdzie cyfrowe środowisko jest nierozerwalną częścią naszej codzienności, takie modele stają się pomostem między użytkownikami a skomplikowanymi systemami komputerowymi. Dzięki ich zastosowaniu możemy nie tylko wykonywać bardziej złożone operacje, ale również bardziej efektywnie zarządzać naszym czasem. Jednym z kluczowych obszarów badań stała się automatyzacja GUI (graficznych interfejsów użytkownika), mająca na celu tworzenie inteligentnych agentów zdolnych do realizacji precyzyjnych działań na podstawie intencji użytkownika. To przełomowy moment w dziedzinie interakcji człowiek-komputer, gdzie język staje się narzędziem do interpretacji i realizacji zadań w sposób dotąd niespotykany.

Od wczesnych prób do innowacyjnych rozwiązań

Początkowe podejścia do automatyzacji GUI polegały na wykorzystaniu zamkniętych modeli językowych, takich jak GPT-4, które operowały głównie na metadanych tekstowych, takich jak struktura HTML czy drzewa dostępności. Chociaż te metody sprawdzały się w niektórych przypadkach, ograniczenia ich stosowania stawały się widoczne w sytuacjach, gdy interfejs użytkownika był przeważnie wizualny. Wyzwaniem było więc stworzenie technologii, która umożliwiłaby bardziej ludzką interakcję z graficznymi interfejsami użytkownika, uwzględniając złożoność wizualnych elementów oraz brak dostępu do strukturalnych danych w wielu sytuacjach.

Przeszkody w trenowaniu modeli wielomodalnych

Budowa modeli wielomodalnych, które integrują wizję i język, aby skutecznie poruszać się po GUI, napotyka liczne trudności. Przetwarzanie wysokorozdzielczych zrzutów ekranu generuje ogromne sekwencje tokenów, co prowadzi do problemów z wydajnością i wydłużaniem kontekstu. Istniejące modele często nie radzą sobie z efektywnym przetwarzaniem tak skomplikowanych danych wizualnych. Ponadto, różnorodne działania na różnych platformach urządzeń wymagają zaawansowanego modelowania, aby poprawnie interpretować i realizować zróżnicowane zadania nawigacyjne.

ShowUI – przełom w automatyzacji GUI

Aby sprostać tym wyzwaniom, naukowcy z Show Lab, Narodowego Uniwersytetu Singapuru oraz Microsoft opracowali wizję, język oraz model działania nazwany ShowUI. Rozwiązanie to wprowadza trzy innowacyjne techniki, które podnoszą jakość automatyzacji GUI. Pierwszą z nich jest strategia UI-Guided Visual Token Selection, która zmniejsza zapotrzebowanie na moc obliczeniową, przekształcając zrzuty ekranów w grafy połączonych elementów wizualnych. Drugim elementem jest Interleaved Vision-Language-Action Streaming, ułatwiający zarządzanie sekwencjami zapytań i działań, wspartymi historią wizualną. Na koniec, zespół opracował zaawansowane metody tworzenia wysoce precyzyjnych zbiorów instrukcji GUI, uwzględniających różnorodne dane wizualne i interakcyjne.

<img decoding="async" alt="Przykład działania ShowUI" src="https://lh7-rt.googleusercontent.com/docsz/AD4nXebKmIz8Ah5vMlqYOCSS5rrXkpXnD5RpDTtDbIT06CjINzh7kudz7J9MVZjpmAdPIniRzQiqzJ_Ek8p0v1uXF4Zy-oCnmNdLtBGS2xNztB6x7nLMXmEpE7Bq5bF3nFC2lvqtbd?key=FSURqgOez8jRUfodR5Dhsfvt”>

Efektywne zarządzanie wizualnymi tokenami

UI-Guided Visual Token Selection stanowi odpowiedź na problem nadmiaru danych w wysokorozdzielczych zrzutach ekranów. Wykorzystując przestrzeń barw RGB oraz analizę graficznych interfejsów użytkownika, ta technika tworzy grafy połączeń wizualnych, identyfikując i eliminując redundantne elementy, takie jak niepotrzebne tła. Z kolei kluczowe elementy, jak ikony i tekst, zostają zachowane, co pozwala znacznie zredukować ilość tokenów. Przykładowo, liczba tokenów przetwarzanych przez ShowUI na prostych stronach, takich jak Google, została zmniejszona z 1296 do 291.

Dynamiczna interakcja wizji, języka i działania

System Interleaved Vision-Language-Action Streaming wprowadza elastyczny sposób zarządzania interakcjami na GUI. Poprzez standardowe formatowanie działań w JSON, model może zrozumieć i przewidywać różne działania na różnych platformach, takich jak strony internetowe czy urządzenia mobilne. Mechanizm ten wspiera dynamiczne wywoływanie funkcji, co pozwala na lepsze dostosowanie działania modelu do specyficznych wymagań interfejsów użytkownika.

Optymalizacja danych treningowych

Ważnym elementem ShowUI jest również staranne przygotowanie i zróżnicowanie zbiorów treningowych. Dla interfejsów internetowych naukowcy zgromadzili 22 tysiące zrzutów ekranów, koncentrując się na wizualnych elementach, jak przyciski i pola wyboru, a pomijając statyczny tekst. W przypadku środowisk desktopowych zastosowano techniki inżynierii wstecznej, wzbogacając ograniczone dane o dodatkowe opisy wizualne, przestrzenne i intencyjne. Dzięki temu zbiór danych stał się bardziej uniwersalny i użyteczny.

Obiecujące wyniki i nowe horyzonty

Testy przeprowadzone na różnych platformach, takich jak mobilna AITW, wykazały efektywność ShowUI. Dzięki wykorzystaniu historii wizualnej model poprawił dokładność nawigacji o 1,7%. Co więcej, zdolności zero-shot, czyli realizowania zadań bez wcześniejszego treningu w danym środowisku, wykazały, że ShowUI przewyższa rozwiązania opierające się na zamkniętych API czy HTML. W przypadku zadań webowych, różnorodność danych wizualnych i ich interpretacja nadal stanowią wyzwanie, ale model pokazuje potencjał do dalszego rozwoju.

<img decoding="async" alt="Wyniki testów ShowUI" src="https://lh7-rt.googleusercontent.com/docsz/AD4nXeO8hNGUsCZruLe2iKUHTONNI3o6E59GsX7QU3vSwuQdBb6Zr1Z2QmEHbTOxNN69-BpJ-7tL1Ytb4KlwakRxmvNIiW0EeS-FXp2s_vRp5pb1elRVqLkgnk0HGNqQPFsGEI27-JxQ?key=FSURqgOez8jRUfodR5Dhsfvt”>

Podsumowanie

ShowUI to znaczący krok w kierunku bardziej inteligentnej automatyzacji interfejsów graficznych użytkownika. Dzięki zaawansowanym technikom redukcji tokenów, elastycznemu zarządzaniu interakcjami oraz precyzyjnemu doborowi danych treningowych, model ten wyznacza nowe standardy w dziedzinie automatyzacji GUI. Jego osiągnięcia zbliżają nas do świata, w którym technologie będą lepiej rozumieć nasze potrzeby i reagować na nie w sposób bardziej zbliżony do ludzkiego.