Liquid AI przedstawia STAR – framework AI do automatycznego tworzenia dostosowanych architektur

Ewolucja modeli AI dzięki nowoczesnym rozwiązaniom – nowe perspektywy projektowania

Opracowywanie skutecznych modeli sztucznej inteligencji (AI) stanowi jedno z największych wyzwań w dziedzinie uczenia głębokiego. Znalezienie optymalnych architektur modeli bywa trudne i kosztowne. Tradycyjne podejścia, zarówno manualne, jak i zautomatyzowane, ograniczają się zazwyczaj do podstawowych struktur, takich jak Transformery czy modele hybrydowe. Koszt eksploracji szerszej przestrzeni poszukiwań dodatkowo hamuje możliwości poprawy modeli. Ręczna optymalizacja wymaga znacznej wiedzy eksperckiej i zasobów, podczas gdy zautomatyzowane metody są często ograniczone wąskimi przestrzeniami projektowymi, co utrudnia znaczący postęp. Aby sprostać tym wyzwaniom, Liquid AI przedstawiła innowacyjne rozwiązanie – platformę STAR.

Nowy wymiar projektowania modeli: STAR

STAR, czyli Synthesis of Tailored Architectures, to ramy do automatycznego rozwijania architektur modeli, które mają na celu poprawę ich wydajności i skuteczności. Platforma STAR redefiniuje proces budowy modeli poprzez stworzenie nowatorskiej przestrzeni poszukiwań opartej na teorii układów liniowych o zmiennej wejściowej (linear input-varying systems, LIVs). W przeciwieństwie do tradycyjnych podejść, które koncentrują się na modyfikowaniu znanych wzorców, STAR umożliwia eksplorację architektur na różnych poziomach hierarchicznych za pomocą tzw. „genomów STAR”.

Te genomy to numeryczny sposób kodowania projektów architektonicznych, który umożliwia ich ewolucję za pomocą zasad optymalizacji ewolucyjnej. Dzięki iteracyjnemu kompilowaniu i ocenianiu genomów, STAR tworzy mechanizm umożliwiający ich rekombinację i mutację, co prowadzi do ciągłych usprawnień. Kluczowym założeniem jest traktowanie architektur modeli jako dynamicznych bytów, które mogą rozwijać się z pokolenia na pokolenie, optymalizując takie wskaźniki jak jakość, wydajność, rozmiar czy zapotrzebowanie na pamięć podręczną (cache).

Techniczne podstawy STAR i jego przewagi

Podstawą techniczną STAR jest reprezentacja architektur modeli jako hierarchicznych sekwencji numerycznych – genomów, które definiują jednostki obliczeniowe oraz ich wzajemne powiązania. Przestrzeń poszukiwań została zainspirowana systemami LIV, które uogólniają wiele elementów typowych dla architektur uczenia głębokiego, takich jak warstwy konwolucyjne, mechanizmy uwagi czy jednostki rekurencyjne. Genomy STAR składają się z kilku poziomów abstrakcji, w tym genomów rdzenia (backbone), operatorów oraz featuryzacji, które wspólnie determinują strukturę i właściwości jednostek obliczeniowych używanych w modelu.

STAR optymalizuje te genomy, korzystając z algorytmów ewolucyjnych. Proces ten obejmuje serię operacji takich jak ocena, rekombinacja oraz mutacja, które doskonalą populację architektur w czasie. Każda architektura w populacji jest oceniana na podstawie jej wyników w określonych metrykach, a najlepiej działające są wykorzystywane do tworzenia nowych generacji poprzez rekombinację i mutację.

STAR Framework

Ewolucyjny proces optymalizacji genomów w STAR. Źródło: Liquid AI

Dzięki temu podejściu STAR generuje różnorodne projekty architektoniczne. Poprzez dzielenie architektur na zarządzalne komponenty i ich systematyczną optymalizację, STAR tworzy modele efektywne pod względem wymagań obliczeniowych oraz jakościowych. Przykładowo, modele opracowane przy użyciu STAR wykazały znaczne usprawnienia w stosunku do ręcznie dostrajanych rozwiązań, takich jak Transformery czy projekty hybrydowe.

Znaczące wyniki i perspektywy

Wyniki uzyskane dzięki STAR są szczególnie obiecujące w kontekście równoważenia skalowalności modeli AI z ich efektywnością oraz jakością. Badania Liquid AI pokazują, że modele rozwinięte przy pomocy STAR przewyższały Transformery++ oraz modele hybrydowe pod względem takich parametrów jak jakość i liczba parametrów. W szczególności STAR zredukował liczbę parametrów o 13%, jednocześnie utrzymując lub poprawiając jakość mierzona przez metrykę perplexity.

Redukcja rozmiarów pamięci podręcznej (cache) to kolejna znacząca cecha STAR. Podczas optymalizacji pod kątem jakości i wymagań dotyczących pamięci podręcznej, modele STAR osiągnęły rozmiary pamięci nawet o 90% mniejsze niż w przypadku Transformerów, przy jednoczesnym zachowaniu lub poprawie jakości. Te usprawnienia wskazują, że podejście STAR, opierające się na ewolucyjnej syntezie projektów architektonicznych, jest efektywne w optymalizacji wielu metryk jednocześnie.

Ewolucja projektów

Przykłady ewoluujących wzorców w STAR. Źródło: Liquid AI

Dodatkowo, zdolność STAR do identyfikowania powtarzających się motywów architektonicznych – wzorców, które wyłaniają się w trakcie procesu ewolucji – dostarcza cennych informacji na temat zasad projektowych, które stoją za zaobserwowanymi ulepszeniami. Może to być narzędzie dla badaczy poszukujących wyjaśnień, dlaczego pewne architektury działają lepiej, co w konsekwencji może napędzać przyszłe innowacje w projektowaniu modeli AI.

Podsumowanie

STAR to ważny krok naprzód w projektowaniu architektur AI. Wykorzystując zasady ewolucyjne i dobrze zdefiniowaną przestrzeń poszukiwań, Liquid AI stworzył narzędzie zdolne do automatycznego generowania dostosowanych architektur zoptymalizowanych pod kątem specyficznych potrzeb. W obliczu rosnącej złożoności systemów AI, podejście oferowane przez STAR może stanowić obiecującą drogę ku przyszłości – łączącą automatyzację, elastyczność i innowację w celu wypychania granic projektowania modeli AI.