Nexa AI Wprowadza OmniVision-968M: Najmniejszy na Świecie Model Językowy z Redukcją Tokenów o 9x dla Urządzeń Brzegowych

Wyzwania Edge AI i Rozwój Nowoczesnych Modeli Językowo-Wizualnych

W ostatnich latach rozwój sztucznej inteligencji na urządzeniach brzegowych (Edge AI) napotkał wiele wyzwań, szczególnie w kontekście równoważenia efektywności i skuteczności pracy modeli. Urządzenia te, takie jak smartfony, inteligentne domy czy przemysłowe systemy IoT, muszą radzić sobie z ograniczonymi zasobami obliczeniowymi oraz problemami związanymi z opóźnieniami i zużyciem energii. Modele językowo-wizualne (VLMs) są szczególnie trudne do wdrożenia na tych urządzeniach, ponieważ wymagają dużych mocy obliczeniowych i mają tendencję do generowania wysokiego zużycia baterii, długich czasów reakcji oraz niestabilności w pracy offline.

Tradycyjne modele zaprojektowane z myślą o chmurze często nie radzą sobie z ograniczeniami urządzeń brzegowych, co prowadzi do problemów z przetwarzaniem danych, szczególnie w takich zadaniach jak wizualne odpowiadanie na pytania czy opisywanie obrazów. W związku z rosnącą popularnością zastosowań, takich jak rozszerzona rzeczywistość, inteligentni asystenci domowi czy IoT, zapotrzebowanie na lekkie i wydajne modele AI stale rośnie.

OmniVision-968M: Nowa Era Modeli Językowo-Wizualnych

W odpowiedzi na te wyzwania firma Nexa AI opracowała model OmniVision-968M – najmniejszy na świecie model językowo-wizualny, zaprojektowany specjalnie z myślą o urządzeniach brzegowych. Model ten wprowadza rewolucyjne zmiany w architekturze, bazując na wcześniejszych osiągnięciach, takich jak LLaVA (Large Language and Vision Assistant), ale znacząco redukując liczbę przetwarzanych tokenów obrazu aż dziewięciokrotnie – z 729 do 81.

Dzięki tej optymalizacji, zmniejszono opóźnienia i obciążenia obliczeniowe, co czyni OmniVision-968M idealnym do zastosowań na urządzeniach o ograniczonych zasobach, takich jak smartfony czy urządzenia noszone. Redukcja liczby tokenów obrazu to kluczowy krok w zwiększeniu efektywności modeli językowo-wizualnych, co pozwala na szybsze przetwarzanie, mniejsze zużycie energii oraz lepszą responsywność.

Architektura OmniVision-968M

Model OmniVision-968M opiera się na trzech głównych komponentach, które razem tworzą zaawansowaną architekturę, zoptymalizowaną pod kątem pracy na urządzeniach brzegowych:

1. Model językowy – Qwen2.5-0.5B-Instruct działa jako rdzeń przetwarzania tekstu, odpowiedzialny za analizę i generowanie odpowiedzi na zapytania użytkowników.
2. Enkoder wizualny – SigLIP-400M, z rozdzielczością 384 i wielkością plastra 14×14, generuje osadzenia obrazu, które są kluczowe dla interpretacji wizualnej.
3. Warstwa projekcji – Wielowarstwowa perceptronowa sieć neuronowa (MLP) dopasowuje osadzenia obrazu do przestrzeni tokenów modelu językowego. W odróżnieniu od tradycyjnej architektury Llava, projektor OmniVision redukuje liczbę tokenów obrazu aż dziewięciokrotnie.

Dzięki tym innowacyjnym rozwiązaniom, model OmniVision-968M jest o wiele bardziej wydajny od swoich poprzedników, co ma ogromne znaczenie dla redukcji czasu przetwarzania oraz kosztów obliczeniowych, szczególnie w kontekście urządzeń brzegowych.

Optymalizacja i Zaufane Dane

Ważnym elementem OmniVision-968M jest zastosowanie optymalizacji DPO (Direct Preference Optimization), która wykorzystuje zaufane źródła danych do treningu modelu, co pozwala na zminimalizowanie zjawiska halucynacji – problemu powszechnie występującego w systemach AI, gdzie modele generują błędne lub nieprawdziwe informacje. Dzięki temu, OmniVision-968M zapewnia bardziej niezawodne i precyzyjne wyniki, co jest kluczowe w zadaniach takich jak wizualne odpowiadanie na pytania czy tworzenie opisów obrazów.

Zastosowania i Przyszłość Modeli Językowo-Wizualnych na Urządzeniach Brzegowych

Wprowadzenie OmniVision-968M to znaczący krok naprzód w dziedzinie AI, zwłaszcza dla środowisk o ograniczonych zasobach obliczeniowych. Dzięki zmniejszeniu liczby tokenów i optymalizacji architektury, model ten jest idealnym rozwiązaniem dla branż, które wymagają szybkich, niskoenergetycznych interakcji AI, takich jak opieka zdrowotna, inteligentne miasta czy sektor motoryzacyjny.

Wstępne testy pokazują, że OmniVision-968M osiąga aż 35% redukcję czasu inferencji w porównaniu do wcześniejszych modeli, przy jednoczesnym zachowaniu, a nawet poprawie dokładności w zadaniach językowo-wizualnych. Te innowacje mogą przyspieszyć wdrażanie modeli AI na urządzeniach brzegowych w wielu branżach, gdzie szybkość reakcji i oszczędność energii mają kluczowe znaczenie.

Podsumowanie

OmniVision-968M firmy Nexa AI to odpowiedź na wieloletnie wyzwania w dziedzinie modeli językowo-wizualnych dla urządzeń brzegowych. Dzięki redukcji liczby tokenów obrazu, optymalizacji architektury LLaVA oraz wprowadzeniu treningu DPO, model ten otwiera nowe możliwości dla powszechnego zastosowania AI w urządzeniach codziennego użytku. Dążenie do stworzenia wszechobecnej sztucznej inteligencji, która będzie w stanie realizować zaawansowane zadania multimodalne lokalnie, bez konieczności stałego połączenia z chmurą, staje się coraz bardziej realne dzięki takim innowacjom jak OmniVision-968M.