IBM AI wprowadza Granite-Vision-3.1-2B – kompaktowy model językowo-wizualny o imponującej skuteczności w różnych zadaniach
Integracja danych wizualnych i tekstowych w sztucznej inteligencji stanowi jedno z największych wyzwań technologicznych. Tradycyjne modele AI często mają trudności z precyzyjną interpretacją struktur graficznych, takich jak tabele, wykresy, infografiki czy diagramy. To ograniczenie ma istotne konsekwencje dla automatycznego wydobywania treści i ich zrozumienia, co jest kluczowe w analizie danych, wyszukiwaniu informacji oraz podejmowaniu decyzji. W miarę jak organizacje coraz częściej opierają się na analizie AI, wzrasta zapotrzebowanie na modele zdolne do skutecznego przetwarzania zarówno treści wizualnych, jak i tekstowych.
Nowoczesne podejście IBM do przetwarzania dokumentów
Aby sprostać temu wyzwaniu, IBM zaprezentował Granite-Vision-3.1-2B – kompaktowy model łączący analizę obrazu i tekstu, który został zaprojektowany z myślą o zrozumieniu dokumentów. Model ten potrafi wydobywać treści z różnorodnych formatów wizualnych, takich jak tabele, wykresy i schematy. Został on przeszkolony na starannie dobranym zbiorze danych, obejmującym zarówno zasoby publiczne, jak i generowane syntetycznie. Opierając się na większym modelu językowym Granite, nowa wersja Granite-Vision-3.1-2B integruje informacje tekstowe i wizualne, poprawiając swoje zdolności interpretacyjne i otwierając nowe możliwości zastosowań.
Trzy kluczowe komponenty modelu
Architektura modelu opiera się na trzech głównych elementach, które wspólnie pozwalają na efektywne przetwarzanie dokumentów:
- Vision Encoder: Mechanizm wykorzystujący technologię SigLIP do skutecznego przetwarzania i kodowania danych wizualnych.
- Vision-Language Connector: Dwuwarstwowa sieć perceptronowa (MLP) z funkcjami aktywacji GELU, która umożliwia płynne połączenie treści wizualnych i tekstowych.
- Large Language Model: Oparty na Granite-3.1-2B-Instruct model językowy z kontekstem o długości 128 tysięcy tokenów, co pozwala na analizę skomplikowanych i rozbudowanych danych wejściowych.
Zaawansowany proces treningowy
Granite-Vision-3.1-2B został rozwinięty na bazie architektury LlaVA i wzbogacony o wielowarstwowe funkcje enkodera oraz gęstszą siatkę rozdzielczości w AnyRes. Te ulepszenia zwiększają zdolność modelu do rozpoznawania szczegółowych treści wizualnych. Dzięki temu system jest w stanie analizować tabele i wykresy, przeprowadzać optyczne rozpoznawanie znaków (OCR) oraz odpowiadać na pytania związane z dokumentami z dużą dokładnością.
Wyniki testów i potencjalne zastosowania
Testy wykazały, że Granite-Vision-3.1-2B osiąga bardzo dobre wyniki w różnych benchmarkach związanych z analizą dokumentów. Na przykład w teście ChartQA model uzyskał wynik 0,86, przewyższając inne modele o rozmiarze od 1B do 4B parametrów. W benchmarku TextVQA zdobył wynik 0,76, co potwierdza jego wysoką skuteczność w interpretacji tekstu osadzonego w obrazach. To czyni go doskonałym narzędziem dla firm i organizacji potrzebujących precyzyjnego przetwarzania dokumentów wizualnych.
Przyszłość analizy dokumentów z wykorzystaniem AI
Granite-Vision-3.1-2B to kolejny krok w rozwoju modeli AI, które łączą analizę wizualną z przetwarzaniem języka naturalnego. Jego zaawansowana architektura oraz zoptymalizowany proces treningowy pozwalają na skuteczne rozumienie i analizę skomplikowanych danych wizualno-tekstowych. Dzięki wbudowanej obsłudze technologii transformers i vLLM model ten można łatwo wdrożyć w środowiskach chmurowych, takich jak Colab T4. Ta elastyczność sprawia, że Granite-Vision-3.1-2B jest cennym narzędziem dla badaczy i specjalistów zajmujących się przetwarzaniem dokumentów z wykorzystaniem sztucznej inteligencji.