21 lutego, 2025

Microsoft AI przedstawia LLaVA-Rad: Lekki, otwartoźródłowy model do zaawansowanego tworzenia raportów radiologicznych

Nowoczesne modele AI w medycynie – przełom w diagnostyce radiologicznej

Wielkoskalowe modele bazowe wykazują ogromny potencjał w zastosowaniach biomedycznych, oferując imponujące wyniki w różnych testach oraz umożliwiając szybkie dostosowanie do nowych zadań przy minimalnych wymaganiach dotyczących oznakowanych danych. Jednak mimo ich zaawansowania, wdrożenie tych modeli w rzeczywistych warunkach klinicznych wciąż napotyka liczne przeszkody. Nawet tak zaawansowane systemy jak GPT-4V nie osiągają jeszcze pełnej skuteczności w analizie multimodalnych danych biomedycznych. Dodatkowo, ograniczony dostęp do tych technologii, wysokie koszty operacyjne oraz skomplikowany proces ręcznej oceny wyników stanowią poważne bariery dla lekarzy, którzy chcieliby wykorzystywać sztuczną inteligencję w pracy z prywatnymi danymi pacjentów.

Nowe podejście do analizy medycznej

Ostatnie innowacje w dziedzinie generatywnej sztucznej inteligencji umożliwiły równoczesne przetwarzanie tekstu i obrazów, co otworzyło nowe możliwości w diagnostyce medycznej, jak np. automatyczna analiza pytań wizualnych czy generowanie raportów radiologicznych. Mimo to, kliniczne wdrożenie tych modeli pozostaje wyzwaniem. Modele o dużej skali wymagają ogromnych zasobów obliczeniowych, co generuje wysokie koszty i wpływa negatywnie na środowisko. Z kolei mniejsze modele multimodalne (SMM) są bardziej efektywne, ale wciąż nie dorównują wydajnością swoim większym odpowiednikom. Dodatkowo, brak dostępnych modeli open-source oraz niezawodnych metod oceny poprawności faktów, zwłaszcza w zakresie wykrywania tzw. „halucynacji” AI, znacznie utrudnia ich zastosowanie w medycynie.

LLaVA-Rad – nowoczesny model diagnostyki radiologicznej

Zespół badaczy z Microsoft Research oraz kilku prestiżowych uniwersytetów, w tym Uniwersytetu Stanforda i Uniwersytetu Kalifornijskiego, opracował nowy model Small Multimodal Model (SMM) o nazwie LLaVA-Rad. Wraz z nim stworzono CheXprompt, automatyczny system oceny poprawności generowanych raportów. Głównym zadaniem LLaVA-Rad jest analiza obrazów rentgenowskich klatki piersiowej (CXR) i automatyczne generowanie szczegółowych raportów radiologicznych. Model został wytrenowany na ogromnym zbiorze 697 435 par obrazów i raportów radiologicznych, pochodzących z siedmiu różnych źródeł. W przypadkach, gdy brakowało pełnych opisów, do syntezy treści wykorzystano model GPT-4.

Jednym z najważniejszych atutów LLaVA-Rad jest jego efektywność obliczeniowa – do działania wymaga jedynie jednej karty graficznej NVIDIA V100, a pełne szkolenie zajmuje zaledwie jeden dzień na klastrze wyposażonym w osiem kart A100.

Architektura modelu i proces szkolenia

LLaVA-Rad reprezentuje nowatorskie podejście do budowy mniejszych modeli multimodalnych. Mimo znacznie mniejszych rozmiarów w porównaniu do popularnych modeli, takich jak Med-PaLM M, osiąga porównywalne, a w wielu przypadkach nawet lepsze wyniki. Kluczowym elementem architektury modelu jest podział procesu uczenia na trzy etapy:

1. Wstępne szkolenie unimodalne – model uczy się analizować pojedyncze modalności (tekst i obrazy) osobno.
2. Dostosowanie między modalnościami – wykorzystanie specjalnych mechanizmów adaptacyjnych do połączenia obu modalności w jednolitą reprezentację.
3. Dostrajanie końcowe – optymalizacja modelu pod kątem generowania precyzyjnych raportów radiologicznych.

Do nauki modelu wykorzystano zbiór 697 000 zdepersonalizowanych zdjęć rentgenowskich i odpowiadających im raportów, pochodzących od ponad 258 000 pacjentów. Takie podejście umożliwiło stworzenie solidnej bazy dla analizy unimodalnej oraz skuteczne dostosowanie modelu do pracy z multimodalnymi danymi.

Wyniki i przewaga nad konkurencją

LLaVA-Rad osiąga znakomite wyniki w porównaniu do modeli o podobnej wielkości (7 miliardów parametrów), takich jak LLaVA-Med, CheXagent i MAIRA-1. Pomimo swojej kompaktowej budowy, model przewyższa Med-PaLM M w kluczowych wskaźnikach jakości tekstu radiologicznego, uzyskując:

12,1% lepszy wynik w ROUGE-L,
10,1% wyższą wartość F1-RadGraph.

Model utrzymuje wysoką skuteczność na różnych zestawach danych, m.in. CheXpert i Open-I, nawet w przypadku analizy obrazów, których wcześniej nie widział. Choć Med-PaLM M osiąga minimalnie lepsze wyniki (mniej niż 1% przewagi) w niektórych metrykach, to dzięki modułowej budowie i zoptymalizowanej architekturze LLaVA-Rad okazuje się bardziej praktycznym rozwiązaniem do zastosowań klinicznych.

Przyszłość AI w diagnostyce medycznej

LLaVA-Rad to znaczący krok w kierunku efektywnego wykorzystania sztucznej inteligencji w środowisku klinicznym. Model oferuje lekką, otwartą i wysoce wydajną alternatywę dla większych systemów, jednocześnie zapewniając najwyższą jakość generowanych raportów radiologicznych. Jego sukces wynika z kompleksowego szkolenia na szerokim zbiorze danych, wykorzystania GPT-4 do przetwarzania treści oraz wdrożenia innowacyjnej, trzyetapowej metody uczenia.

Dodatkowo, wprowadzenie systemu CheXprompt rozwiązuje kluczowy problem automatycznej oceny wyników, oferując dokładność porównywalną do analizy wykonywanej przez ekspertów radiologów.

Wszystkie te osiągnięcia stanowią istotny krok w kierunku zmniejszenia dystansu między możliwościami technologicznymi a realnymi potrzebami medycyny. W najbliższych latach możemy spodziewać się dalszego rozwoju modeli takich jak LLaVA-Rad, co pozwoli na jeszcze skuteczniejsze wykorzystanie sztucznej inteligencji w diagnostyce i leczeniu pacjentów.