NVIDIA AI Wprowadza MM-Embed: Pierwszy Multimodalny Retriever Osiągający Najlepsze Wyniki na Benchmarku M-BEIR

W dzisiejszym świecie odzyskiwania informacji jednym z największych wyzwań jest stworzenie systemu, który potrafi bezbłędnie rozumieć i wydobywać istotne treści z różnych formatów, takich jak tekst i obraz, bez utraty dokładności. Większość nowoczesnych modeli wyszukiwania ogranicza się do pojedynczej modalności – albo tekst do tekstu, albo obraz do obrazu. Tego rodzaju podejście ma swoje ograniczenia w rzeczywistych zastosowaniach, gdzie informacje często występują w różnych formatach. Przykładem są takie scenariusze, jak wizualne odpowiadanie na pytania czy wyszukiwanie obrazów w kontekście mody, gdzie zarówno tekst, jak i obrazy muszą być wzięte pod uwagę, aby uzyskać właściwe odpowiedzi. Dlatego potrzeba uniwersalnego narzędzia do wyszukiwania multimodalnego, które potrafi sprawnie obsługiwać zarówno tekst, obrazy, jak i ich kombinacje, jest dzisiaj większa niż kiedykolwiek. Główne wyzwania obejmują trudności związane z rozumieniem informacji między modalnościami oraz eliminacją uprzedzeń charakterystycznych dla poszczególnych typów danych.

Nowe rozwiązanie w wyszukiwaniu multimodalnym

NVIDIA, znana z innowacyjnych rozwiązań w dziedzinie sztucznej inteligencji, zdecydowała się odpowiedzieć na te wyzwania, wprowadzając model MM-Embed – pierwszy na świecie multimodalny retriever, który osiągnął najlepsze wyniki w benchmarku M-BEIR, obejmującym zadania multimodalne. Ponadto, model ten plasuje się w pierwszej piątce retrieverów na benchmarku MTEB, który ocenia efektywność wyszukiwania tekstowego. MM-Embed ma na celu zredukowanie różnic między różnymi formatami wyszukiwania, umożliwiając bardziej płynne doświadczenia wyszukiwania zarówno dla treści tekstowych, jak i obrazkowych.

Model ten został dostrojony za pomocą dużego modelu językowego (MLLM) w charakterze bi-kodera i przetestowany na 16 zadaniach wyszukiwania oraz dziesięciu różnych zbiorach danych, co podkreśla jego uniwersalność. W przeciwieństwie do innych dostępnych rozwiązań, MM-Embed nie ogranicza się do jednego typu danych, lecz obsługuje złożone zapytania użytkowników, które mogą zawierać zarówno tekst, jak i obrazy. Istotną innowacją w modelu jest wprowadzenie modalności świadomego „hard negative mining”, który minimalizuje błędy i uprzedzenia, jakie często pojawiają się w multimodalnych modelach językowych.

Zaawansowana technologia za MM-Embed

Implementacja techniczna MM-Embed opiera się na kilku kluczowych strategiach, które maksymalizują wydajność wyszukiwania. Model wykorzystuje architekturę bi-kodera do dostrojenia procesu wyszukiwania, a modalność świadome „hard negative mining” pomaga modelowi lepiej koncentrować się na docelowej modalności – czy to tekstowej, obrazkowej, czy ich kombinacji. Dzięki temu model lepiej radzi sobie z trudnymi i złożonymi zapytaniami, które łączą tekst z obrazem.

Dalsze dostrajanie modelu zwiększa jego możliwości w zakresie wyszukiwania tekstu, jednocześnie utrzymując wysoką jakość w zadaniach multimodalnych. Dzięki temu MM-Embed jest niezwykle skuteczny w różnorodnych scenariuszach, takich jak wyszukiwanie fragmentów z Wikipedii na podstawie opisów obrazów lub znajdowanie podobnych obrazów na podstawie skomplikowanych opisów.

Zwiększona dokładność i nowe standardy

MM-Embed stanowi istotny krok naprzód w dziedzinie wyszukiwania multimodalnego. Na benchmarku M-BEIR model osiągnął średnią dokładność wyszukiwania na poziomie 52,7%, przewyższając wcześniejsze modele. W szczególności, na zestawie danych MSCOCO, model osiągnął dokładność (R@5) na poziomie 73,8%, co podkreśla jego zdolność do zrozumienia skomplikowanych opisów obrazów.

Dodatkowo, model wykorzystuje reranking zero-shot za pomocą multimodalnych LLM, co jeszcze bardziej poprawia precyzję wyszukiwania w trudnych zapytaniach łączących tekst i obraz, takich jak wizualne pytania oraz wyszukiwanie obrazów na podstawie złożonych opisów. Co więcej, MM-Embed zwiększył dokładność rankingową w zadaniu CIRCO o ponad 7 punktów, co pokazuje skuteczność stosowania LLM do rerankingu w rzeczywistych scenariuszach.

Nowa era wyszukiwarek

MM-Embed otwiera nowe możliwości w wyszukiwaniu multimodalnym. Dzięki skutecznej integracji i udoskonaleniu zarówno wyszukiwania tekstowego, jak i obrazkowego, model ten toruje drogę do bardziej wszechstronnych oraz zaawansowanych wyszukiwarek, które lepiej odpowiadają na różnorodne potrzeby użytkowników w dzisiejszym cyfrowym świecie.

To nowoczesne podejście do wyszukiwania może zrewolucjonizować sposób, w jaki użytkownicy uzyskują odpowiedzi na złożone zapytania, które wymagają analizy zarówno treści tekstowych, jak i wizualnych.