Lavita AI wprowadza medyczny benchmark wspierający rozwój długich odpowiedzi na pytania medyczne dzięki otwartym modelom i zestawom danych tworzonym przez ekspertów

Systemy pytaniowo-odpowiedziowe w medycynie: przełomowe narzędzia wspierające diagnostykę i dostęp do wiedzy medycznej

Systemy pytaniowo-odpowiedziowe (QA) związane z tematyką medyczną stają się kluczowym elementem nowoczesnej opieki zdrowotnej. Wykorzystanie sztucznej inteligencji w tych rozwiązaniach pozwala zarówno lekarzom, jak i pacjentom, uzyskać precyzyjne informacje w odpowiedzi na ich zapytania. Szczególnie istotne są systemy odpowiedzi długiej (long-form QA), które oferują szczegółowe, złożone odpowiedzi odzwierciedlające rzeczywiste przypadki kliniczne. W przeciwieństwie do prostszych modeli, oferują one głęboką analizę i interpretację pytań, często uwzględniając niepełne lub dwuznaczne informacje. Wraz z rosnącym zapotrzebowaniem na modele AI w opiece zdrowotnej, wzrasta też potrzeba dalszego rozwoju tej technologii, która nie tylko zwiększa dostępność usług medycznych, ale również usprawnia zaangażowanie pacjentów oraz wspiera decyzje diagnostyczne.

Wyzwanie: brak solidnych kryteriów oceny systemów QA

Jednak, mimo ogromnego potencjału systemów tego typu, istnieje poważny problem: brak uniwersalnych standardów do oceny skuteczności generowanych przez nie odpowiedzi. Obecnie dostępne narzędzia oceny ograniczają się najczęściej do automatycznych systemów punktowych lub formatów wielokrotnego wyboru, które nie oddają w pełni złożoności klinicznych sytuacji z życia codziennego. Ponadto, wiele istniejących zestawów danych jest zamkniętych, pozbawionych anotacji od ekspertów medycznych, co ogranicza ich transparentność i utrudnia rozwój nowych modeli.

Co więcej, niektóre dotychczas dostępne bazy danych zawierają błędy, bazują na przestarzałych informacjach lub pokrywają się z danymi wykorzystanymi do trenowania modeli, co jeszcze bardziej podważa ich użyteczność. W obliczu tych wyzwań, potrzebne są bardziej zaawansowane, otwarte i szczegółowe rozwiązania, które mogłyby służyć jako punkt odniesienia dla twórców systemów QA.

Nowatorski benchmark stworzony przez ekspertów

Zespół naukowców z Lavita AI, Dartmouth Hitchcock Medical Center oraz Dartmouth College podjął się rozwiązania tego problemu, tworząc publicznie dostępny benchmark oceniający systemy QA w medycynie. Zbiór ten obejmuje ponad 1 298 pytań medycznych zadawanych przez pacjentów, które zostały dokładnie przeanalizowane i oznaczone przez ekspertów medycznych. Benchmark ten wprowadza różnorodne kryteria oceny, takie jak poprawność odpowiedzi, ich przydatność, umiejętność rozumowania, unikanie szkodliwych treści, efektywność oraz brak uprzedzeń.

Naukowcy zadbali o zapewnienie wysokiej jakości i różnorodności danych, wykorzystując zaawansowane techniki klastryzacji oraz semantycznego odrzucania duplikatów. W procesie tym użyto GPT-4 oraz innych modeli do analizy pytań. Dzięki temu benchmark stanowi solidny fundament do oceny zarówno modeli otwartego dostępu, jak i systemów zamkniętych.

Proces powstawania zestawu danych

Tworzenie benchmarku przebiegało w kilku etapach. Zespół zebrał ponad 4 271 zapytań użytkowników z 1 693 rozmów przeprowadzonych za pomocą Lavita Medical AI Assist. Proces filtrowania i deduplikacji pozwolił ostatecznie na wyodrębnienie 1 298 pytań wysokiej jakości. Aby zapewnić różnorodność scenariuszy klinicznych, analiza semantyczna została wykorzystana do eliminacji redundancji w danych, a pytania zaklasyfikowano do trzech poziomów trudności: podstawowego, średnio zaawansowanego oraz zaawansowanego.

Każde pytanie zostało następnie opracowane w partiach po 100 zapytań, z odpowiedziami generowanymi przez różne modele. W ramach szczegółowej oceny eksperci porównywali odpowiedzi modeli w procesie parowania, co umożliwiło bardziej precyzyjną ocenę ich skuteczności.

Kluczowe wyniki: otwarte modele zaskakują skutecznością

Analiza benchmarku dostarczyła ciekawych wniosków na temat wydajności różnych modeli. Mniejsze modele, takie jak AlpaCare-13B, przewyższyły w wielu kryteriach konkurencyjne systemy, takie jak BioMistral-7B. Co zaskakujące, otwarty model Llama-3.1-405B-Instruct przewyższył komercyjny GPT-4o we wszystkich ocenianych aspektach, w tym w poprawności odpowiedzi, efektywności i umiejętności rozumowania. Wyniki te podważają przekonanie, że zamknięte modele, dostosowane do konkretnej dziedziny (np. medycyny), automatycznie przewyższają otwarte i bardziej ogólne systemy.

Dodatkowo analiza wykazała, że Meditron3-70B, specjalistyczny model kliniczny, nie oferował znaczącej przewagi nad jego bazowym modelem, Llama-3.1-70B-Instruct. Sugeruje to, że odpowiednio wytrenowane modele ogólnego zastosowania mogą być równie skuteczne w kontekście medycznym.

Zalety podejścia open-source w medycynie

Wyniki badania wskazują na potencjał otwartych rozwiązań w dziedzinie sztucznej inteligencji dla ochrony zdrowia. Modele open-source mogą nie tylko rywalizować ze swoimi zamkniętymi odpowiednikami, ale także lepiej odpowiadać na potrzeby związane z przejrzystością i ochroną prywatności pacjentów. Publiczna dostępność benchmarku oraz wykorzystanie ludzkich anotacji stanowią skalowalną i transparentną podstawę do dalszego rozwoju systemów QA.

Podsumowanie: nowe standardy w ocenie systemów medycznych QA

Podjęte przez naukowców z Lavita AI działania dostarczają praktycznego rozwiązania problemu braku solidnych ocen dla systemów pytaniowo-odpowiedziowych w medycynie. Utworzony benchmark, obejmujący 1 298 rzeczywistych pytań medycznych oraz oceniany na podstawie sześciu kryteriów, stanowi przełomowy krok w tej dziedzinie. Wyniki badań podkreślają, że otwarte modele, takie jak Llama-3.1-405B-Instruct, mogą skutecznie konkurować z komercyjnymi rozwiązaniami, oferując jednocześnie transparentność i dostępność.

Udostępnienie tego narzędzia społeczności badawczej otwiera nowe możliwości dla rozwoju AI w medycynie i wskazuje kierunek, w jakim powinny zmierzać przyszłe technologie – otwarte, wszechstronne i oparte na rzeczywistych potrzebach użytkowników.