Nowy Model TinyViM: Hybrydowa Architektura z Separacją Częstotliwości dla Szybkich i Dokładnych Zadań Wizji Komputerowej

Sztuczna inteligencja i nowa generacja wizyjnych systemów komputerowych

Technologia widzenia komputerowego staje się filarem innowacji we współczesnym świecie. Dzięki zdolności maszyn do analizowania i interpretowania danych wizualnych, otwierają się zupełnie nowe możliwości w takich dziedzinach jak pojazdy autonomiczne, diagnostyka medyczna czy automatyzacja przemysłowa. Kluczowym celem badaczy pozostaje optymalizacja modeli obliczeniowych, tak aby radziły sobie skutecznie z coraz bardziej złożonymi zadaniami wizualnymi, wciąż zapewniając efektywność obliczeniową. W tym kontekście metody oparte na sieciach neuronowych zyskały szczególne uznanie, pozwalając na przetwarzanie danych w wysokich wymiarach.

Wyzwania w lekkich modelach widzenia komputerowego

Rozwój lekkich modeli widzenia komputerowego niesie jednak ze sobą pewne wyzwania. Kluczową trudnością jest skuteczne uchwycenie zarówno globalnych, jak i lokalnych cech obrazu w środowiskach o ograniczonych zasobach sprzętowych. Obecnie wykorzystywane metody, takie jak Konwolucyjne Sieci Neuronowe (CNN) czy transformatory, mają swoje ograniczenia. CNN-y doskonale radzą sobie z lokalnymi cechami, ale zmagają się z interakcjami globalnymi. Z kolei transformatory, choć zapewniają precyzyjne modelowanie globalnej uwagi, są obciążone złożonością kwadratową, co utrudnia ich praktyczne zastosowanie w zadaniach wymagających dużej wydajności.

Pojawiające się rozwiązania, takie jak metody oparte na architekturze Mamba, dążą do złagodzenia tych problemów dzięki liniowej złożoności obliczeniowej. Niestety, ich ograniczeniem jest brak zdolności do zachowania szczegółów wysokiej częstotliwości, które są kluczowe w złożonych zadaniach wizualnych. Ten brak równowagi między efektywnością a dokładnością ogranicza ich zastosowanie w rzeczywistych scenariuszach.

Postęp w hybrydowych architekturach widzenia komputerowego

Dążąc do przezwyciężenia tych barier, naukowcy opracowali nowe podejścia łączące różnorodne techniki. Wśród nich warto zasygnalizować MobileNet, który wprowadził separowalne sploty poprawiające wydajność obliczeniową, oraz EfficientFormer, hybrydę CNN i transformatorów umożliwiającą selektywną uwagę globalną. Na uwagę zasługują także modele Mamba, takie jak VMamba czy EfficientVMamba, które zoptymalizowały ścieżki skanowania danych. Jednakże skupienie tych modeli głównie na cechach niskiej częstotliwości wciąż ogranicza ich zdolność do wykonywania szczegółowych analiz.

TinyViM – przełom w technologii lekkich modeli wizyjnych

Rozwiązaniem tych problemów jest nowa hybrydowa architektura TinyViM, opracowana przez badaczy z laboratorium Huaweia Noah’s Ark Lab. TinyViM łączy bloki Konwolucji oraz Mamba, optymalizowane dzięki strategii separacji częstotliwości. Unikalnym elementem tej architektury jest mikser Laplace’a, który pozwala na skuteczne oddzielenie komponentów niskiej i wysokiej częstotliwości. Dzięki temu globalne konteksty są przetwarzane za pomocą bloków Mamba, podczas gdy szczegóły wysokiej częstotliwości obsługiwane są przez zoptymalizowane operacje konwolucyjne. Takie podejście zapewnia równowagę w procesie ekstrakcji cech, czyniąc model bardziej efektywnym i wszechstronnym.

W celu dalszej optymalizacji TinyViM wprowadza strategię rampy częstotliwości. Polega ona na dynamicznej alokacji zasobów obliczeniowych w sieci – w początkowych warstwach większy nacisk kładzie się na szczegóły lokalne, podczas gdy w głębszych warstwach uwaga przesuwa się na komponenty globalne. Ponadto architektura TinyViM została zaprojektowana z myślą o zastosowaniach mobilnych, co czyni ją idealnym rozwiązaniem dla scenariuszy w czasie rzeczywistym oraz na urządzeniach o ograniczonych zasobach sprzętowych.

Rekomendacje i wyniki badań

Wyniki eksperymentalne jednoznacznie wskazują na skuteczność TinyViM. W zadaniach klasyfikacji obrazów na zestawie danych ImageNet-1K model TinyViM-S osiągnął dokładność na poziomie 79,2%, wyprzedzając SwiftFormer-S o 0,7%. W zakresie przepustowości również imponował, przetwarzając 2574 obrazy na sekundę i podwajając wydajność EfficientVMamba.

TinyViM wykazał swoją przewagę także w zadaniach detekcji obiektów i segmentacji instancji na zbiorze MS-COCO 2017, gdzie przewyższył inne modele, takie jak SwiftFormer czy FastViT. Wskaźniki APbox i APmask wzrosły nawet o 3%, co świadczy o znaczącej poprawie w dokładności. W przypadku segmentacji semantycznej na zbiorze ADE20K model osiągnął mIoU na poziomie 42,0%, plasując się w ścisłej czołówce.

Lekka konstrukcja, potężne możliwości

Sukces TinyViM wynika z jego lekkiej i skalowalnej konstrukcji, która nie tylko zapewnia wysoką przepustowość, ale również doskonałą precyzję. Na przykład TinyViM-B uzyskał dokładność 81,2% na ImageNet-1K, przewyższając MobileOne-S4 o 1,8% oraz Agent-PVT-T o 2,8%. W zadaniach detekcji uzyskano rezultaty na poziomie 46,3 APbox i 41,3 APmask, podczas gdy wersja TinyViM-L jeszcze bardziej poprawiła te wyniki, osiągając 48,6 APbox i 43,8 APmask.

Rewolucja w widzeniu komputerowym

Praca nad TinyViM wskazuje na możliwy kierunek przyszłości w dziedzinie widzenia komputerowego. Dzięki wprowadzeniu takich innowacji jak separacja częstotliwości, mikser Laplace’a czy strategia rampy częstotliwości, model ten wyróżnia się unikalnym podejściem, łącząc wysoką dokładność z wydajnością. TinyViM nie tylko wypełnia luki w dotychczasowych rozwiązaniach, ale także otwiera możliwości dla zaawansowanych zastosowań w czasie rzeczywistym. Badania te stanowią krok naprzód w projektowaniu hybrydowych architektur i torują drogę dla dalszej ewolucji komputacyjnych systemów wizualnych.