„InternVideo2.5: Usprawniona Kompresja Tokenów i Optymalizacja Zadań dla Wielomodalnych Modeli Językowych w Wideo”
Nowa jakość w wielomodalnych modelach językowych: InternVideo2.5
Współczesne wielomodalne modele językowe (MLLM), takie jak InternVideo2.5, stanowią obiecujący krok w kierunku ogólnej sztucznej inteligencji (AGI). Integrując różnorodne sygnały sensoryczne w spójne ramy, mają na celu zbliżenie się do zdolności człowieka w zakresie przetwarzania i rozumienia informacji wizualnych. Jednak mimo intensywnych badań i skalowania technologii, MLLM wciąż napotykają znaczące trudności w podstawowych zadaniach związanych z wizją komputerową. Kluczowe wyzwania obejmują rozpoznawanie obiektów, ich lokalizację, a także przypominanie ruchu. Te ograniczenia uniemożliwiają osiągnięcie pełnego rozumienia złożonych obrazów i filmów na poziomie ludzkim.
Wyzwania w rozwoju modeli wielomodalnych
Dotychczasowe badania nad MLLM koncentrowały się na łączeniu różnych technologii, takich jak kodery wizji, modele językowe i specjalne łączniki, które poprzez dostrajanie instrukcji umożliwiają realizację bardziej złożonych zadań. Dzięki temu modele są w stanie generować opisy obrazów czy odpowiadać na zaawansowane zapytania wizualne. Szczególne osiągnięcia uzyskano w przetwarzaniu sekwencji wideo i rozpoznawaniu zmian czasoprzestrzennych. Jednak pomimo tych postępów, modele te wciąż mają trudności z obsługą bardziej precyzyjnych zadań, takich jak dokładne segmentowanie obrazów czy precyzyjne oznaczanie zdarzeń w czasie.
Aby zmierzyć się z tymi problemami, badacze opracowali dwie główne strategie: metodologię przekształcenia pikseli na sekwencje (P2S) oraz przekształcenie pikseli na osadzenia (P2E). Każde z tych podejść ma na celu poprawę zdolności modeli do przetwarzania szczegółowych informacji wizualnych, przy czym P2E koncentruje się na bardziej efektywnym modelowaniu osadzeń danych wizualnych.
Nowy model InternVideo2.5
Zespół naukowców z Shanghai AI Laboratory, Uniwersytetu w Nankinie i Shenzhen Institutes of Advanced Technology opracował nową wersję modelu InternVideo2.5, którego celem jest przezwyciężenie ograniczeń w przetwarzaniu szczegółowych danych wideo i złożonych struktur czasowych. Model ten bazuje na tzw. modelowaniu długiego i bogatego kontekstu (LRC), co pozwala na lepsze rozumienie sekwencji wideo.
InternVideo2.5 wyróżnia się zastosowaniem zaawansowanych technik, takich jak bezpośrednia optymalizacja preferencji, która umożliwia przenoszenie gęsto oznakowanych danych wizualnych do wielomodalnych modeli językowych. Zastosowano również adaptacyjne hierarchiczne kompresowanie tokenów, co pozwala na bardziej efektywne reprezentowanie przestrzenno-czasowych struktur danych. Dzięki temu model może przetwarzać fragmenty wideo o długości od 64 do 512 klatek, gdzie każda 8-klatkowa sekwencja jest kompresowana do 128 tokenów.
Kluczowe elementy architektury
Model InternVideo2.5 opiera się na zaawansowanej architekturze, która integruje przetwarzanie wideo i modelowanie językowe. Kluczowe komponenty obejmują:
– Głowicę czasową (Temporal Head) opartą na architekturze CG-DETR.
– Maskową głowicę (Mask Head) wykorzystującą wstępnie wytrenowane wagi SAM2.
– Moduły przetwarzające dane czasowe, jak InternVideo2, które odpowiadają za ekstrakcję cech wideo oraz ich połączenie z zapytaniami w modelu językowym.
Dodatkowo wprowadzono dwuwarstwowe sieci MLP, które umożliwiają precyzyjne kodowanie pozycji w przestrzeni i czasie, co znacząco poprawia zdolności modelu w zakresie rozumienia złożonych danych wizualnych.
Wyniki i osiągnięcia
InternVideo2.5 osiąga imponujące wyniki w benchmarkach dotyczących rozumienia wideo. W zadaniach krótkich i długich pytań opartych na filmach model przewyższa swojego poprzednika, InternVL2.5, osiągając wzrost wydajności o ponad 3 punkty w testach takich jak MVBench i Perception Test. W porównaniu z innymi modelami, jak GPT4-o czy Gemini-1.5-Pro, InternVideo2.5 wykazuje lepsze zrozumienie krótkoterminowych struktur czasoprzestrzennych.
Szczególnie interesującym testem był Needle-In-The-Haystack (NIAH), gdzie model musiał wykazać zdolność do przypominania sobie zdarzeń w skomplikowanych zadaniach obejmujących nawet 5000 klatek. InternVideo2.5 z powodzeniem radził sobie z tym zadaniem, prezentując wyjątkowe zdolności do zapamiętywania i interpretacji danych wizualnych.
Podsumowanie
InternVideo2.5 jest przełomowym modelem w dziedzinie wielomodalnej sztucznej inteligencji, który dzięki zaawansowanemu modelowaniu kontekstu i optymalizacji preferencji znacząco poprawia zdolności percepcyjne i rozumienie wideo. Wprowadzone innowacje, takie jak hierarchiczne kompresowanie tokenów i efektywne kodowanie przestrzenno-czasowe, otwierają nowe możliwości w przetwarzaniu danych wizualnych.
Jednakże, mimo imponujących wyników, model wciąż wiąże się z wysokimi kosztami obliczeniowymi i wymaga dalszych badań w zakresie rozwoju technik przetwarzania kontekstu. Te wyzwania stanowią jednocześnie ekscytujące pole do kolejnych innowacji w dziedzinie wielomodalnej sztucznej inteligencji.