Meta AI prezentuje MILS: Nowatorskie narzędzie AI do analizy obrazów, wideo i dźwięku bez potrzeby treningu
Nowe podejście do multimodalnej sztucznej inteligencji
Modele językowe o dużej skali (LLM) od dawna są wykorzystywane głównie do przetwarzania tekstu, co ogranicza ich zdolność do interpretacji i generowania treści multimodalnych, takich jak obrazy, wideo i dźwięk. Tradycyjnie, systemy AI obsługujące różne formaty danych wymagają specjalistycznych modeli trenowanych na ogromnych, oznaczonych zbiorach danych. Tego rodzaju podejście jest jednak kosztowne i mało elastyczne. Istnieją również metody zero-shot pozwalające na działanie bez dodatkowego trenowania, jednak również one wymagają wcześniej przygotowanych, powiązanych ze sobą zbiorów multimodalnych danych. Kluczowym wyzwaniem jest więc umożliwienie modelom LLM przeprowadzania rozumowania i generowania w różnych modalnościach bez konieczności specjalistycznego trenowania czy dostosowywania modeli.
Obecnie funkcjonujące rozwiązania, takie jak model CLIP do dopasowywania obraz-tekst czy modele dyfuzyjne do generowania multimediów, wciąż opierają się na kosztownym trenowaniu na precyzyjnie dobranych zbiorach danych. Metody zero-shot, jak ZeroCap czy MeaCap, próbują przezwyciężyć te ograniczenia, ale pozostają sztywne ze względu na swoją architekturę i optymalizację opartą na gradientach. Ograniczenia te sprawiają, że multimodalna sztuczna inteligencja pozostaje w dużej mierze zależna od konkretnych zadań i dostępnych zbiorów danych, co ogranicza jej adaptacyjność i zastosowanie w nowych obszarach.
Nowatorskie podejście do tego problemu zaproponowali naukowcy z Meta, tworząc MILS (Multimodal Iterative LLM Solver). Jest to framework optymalizacji działający w czasie testowania, który rozszerza możliwości modeli LLM o rozumowanie multimodalne bez potrzeby dodatkowego trenowania. Zamiast modyfikować model LLM lub trenować go na nowych danych, MILS stosuje iteracyjny cykl optymalizacji z użyciem dwóch komponentów: GENERATORA i OCENIACZA. GENERATOR, czyli model LLM, tworzy propozycje rozwiązań dla zadań multimodalnych, takich jak opisy obrazów, filmów czy dźwięków. OCENIACZ, czyli wstępnie wytrenowany model multimodalny, ocenia te propozycje pod kątem spójności i zgodności z danymi wejściowymi. Proces ten powtarza się wielokrotnie, aż do uzyskania najbardziej precyzyjnej i trafnej odpowiedzi. Dzięki temu MILS umożliwia generowanie treści w różnych modalnościach bez konieczności wcześniejszego dostosowywania modelu.
W praktyce MILS wykorzystuje metodę optymalizacji niewymagającą gradientów, co pozwala na zastosowanie wcześniej wytrenowanych modeli bez potrzeby ich modyfikacji. System ten sprawdził się w różnych zadaniach multimodalnych. Na przykład w generowaniu opisów obrazów MILS używa modelu Llama 3.1 8B jako GENERATORA oraz modelu CLIP jako OCENIACZA, co pozwala na stopniowe dopracowywanie opisów aż do uzyskania najbardziej trafnej wersji. Podobny proces stosowany jest dla ramek wideo, gdzie ocena odbywa się za pomocą modelu ViCLIP, oraz dla dźwięku, gdzie MILS wykorzystuje model ImageBind do konwersji dźwięków na opisy tekstowe. W generowaniu obrazów na podstawie tekstu MILS optymalizuje prompty tekstowe, zanim zostaną one przekazane do modeli dyfuzyjnych, co pozwala uzyskać lepszą jakość generowanych obrazów. System ten sprawdza się także w transferze stylu, gdzie generuje zoptymalizowane polecenia edycji, pozwalając na bardziej spójne wizualnie transformacje.
Jednym z najbardziej innowacyjnych aspektów MILS jest jego zdolność do przeprowadzania tzw. arytmetyki między modalnościami. Oznacza to, że system może łączyć informacje z różnych źródeł, np. opis dźwięku i obraz, aby stworzyć spójną reprezentację multimodalną. Wykorzystując wcześniej wytrenowane modele jako funkcje oceniające, MILS unika konieczności eksplicytnego trenowania na multimodalnych zbiorach danych, pozostając jednocześnie elastycznym wobec różnych zadań.
Testy pokazują, że MILS osiąga imponujące rezultaty w zadaniach zero-shot, przewyższając wcześniejsze modele zarówno w zakresie generowania opisów, jak i tworzenia treści. W opisywaniu obrazów jest bardziej precyzyjny semantycznie niż wcześniejsze modele zero-shot, a opisy generowane przez MILS są bardziej naturalne i informatywne. W przypadku opisów wideo i dźwięku model przewyższa nawet te systemy, które były trenowane na dużych zbiorach danych. W generowaniu obrazów na podstawie tekstu MILS poprawia jakość i zgodność wizualną, a oceniający ludzie w większości przypadków preferują obrazy wygenerowane przez ten system. W transferze stylu MILS potrafi lepiej dostosować polecenia edycji, tworząc bardziej spójne wizualnie efekty.
Rozwój MILS otwiera nowe możliwości dla sztucznej inteligencji multimodalnej. Dzięki zdolności do dynamicznego przetwarzania i generowania treści w różnych modalnościach bez konieczności trenowania, MILS stanowi przełom w podejściu do AI. Jego mechanizm iteracyjnej optymalizacji w czasie testowania pozwala na uzyskanie wyników lepszych niż wcześniejsze metody zero-shot, pozostając jednocześnie prostym w implementacji. Wykorzystanie wstępnie wytrenowanych modeli LLM oraz systemu adaptacyjnej informacji zwrotnej sprawia, że MILS ustanawia nowy standard w dziedzinie sztucznej inteligencji multimodalnej, umożliwiając budowę bardziej elastycznych i skalowalnych systemów AI.