Nowe podejście łączące sieci neuronowe i symbole poprawia zdolności modelu językowego w rozumowaniu przestrzennym

Współczesne modele językowe oraz ich zdolności rozumowania przestrzennego

Rola rozumowania przestrzennego w sztucznej inteligencji

W dobie dynamicznego rozwoju sztucznej inteligencji (AI), duże modele językowe (LLMs – Large Language Models) wykazują imponującą wydajność w wielu zadaniach, jednocześnie prezentując zdolności rozumowania w różnych dziedzinach. Jednym z kluczowych obszarów badań w kontekście AI, a w szczególności Sztucznej Inteligencji Ogólnej (AGI – Artificial General Intelligence), jest rozumowanie przestrzenne. Ta dziedzina obejmuje zarówno aspekty ilościowe, takie jak odległości czy kąty, jak i jakościowe, na przykład określanie względnego położenia obiektów („blisko”, „w środku”). Choć ludzie z łatwością przetwarzają takie informacje, modele językowe napotykają trudności, szczególnie w analizie złożonych relacji przestrzennych między obiektami. Problem ten wskazuje na konieczność opracowania bardziej skutecznych i zintegrowanych podejść w celu usprawnienia rozumowania przestrzennego w modelach LLM.

Ograniczenia tradycyjnych podejść LLM

Dotychczasowe metody rozwiązywania problemów z rozumowaniem przestrzennym przez LLM opierały się głównie na prostej metodyce – korzystano z tradycyjnych zapytań (tzw. „free-form prompting”), które aktywują model w ramach jednej sesji. Jednak takie podejścia wykazują istotne ograniczenia, szczególnie w przypadku bardziej złożonych zbiorów danych, takich jak StepGame czy SparQA. Te zestawy testowe wymagają wieloetapowego planowania i zaawansowanej analizy relacji przestrzennych.

Aby poprawić wydajność modeli, badacze wprowadzili koncepcję „łańcuchów myślenia” (Chain of Thought – CoT), a także nowsze podejścia, takie jak wizualizacja procesu myślowego. Ponadto, zintegrowanie narzędzi zewnętrznych czy łączenie ekstrakcji faktów z metodami rozumowania logicznego poprzez techniki neuronowo-symulacyjne (np. ASP – Answer Set Programming) przyniosło poprawę wyników. Niemniej jednak, wiele podejść boryka się z problemami testowania na ograniczonych zbiorach danych, niewystarczającym wykorzystaniem metod oraz niedoskonałymi systemami sprzężenia zwrotnego.

Nowe podejście naukowców z Uniwersytetu w Stuttgarcie

Aby rozwiązać powyższe problemy, badacze z Uniwersytetu w Stuttgarcie opracowali systematyczne ramy pracy wykorzystujące podejście neuronowo-symulacyjne. Połączyli strategiczne generowanie zapytań z symbolicznym rozumowaniem, wdrażając mechanizmy sprzężenia zwrotnego oraz weryfikację opartą na ASP. Efektem tej integracji była poprawa wydajności w złożonych zadaniach rozumowania przestrzennego, co udowodniono na różnych architekturach modeli językowych.

Testy i wyniki badań

Badania skoncentrowano na dwóch kluczowych zbiorach danych:

1. StepGame – syntetycznych pytaniach przestrzennych wymagających do 10 kroków rozumowania,
2. SparQA – bardziej skomplikowanych pytaniach tekstowych z formatami 3D i zróżnicowanymi relacjami przestrzennymi.

Testowano trzy podejścia:

ASP – wykorzystanie programowania logicznego,
– Połączenie LLM z ASP z optymalizacją DSPy,
– Metoda „Fakty + Reguły Logiczne”, która upraszcza obliczenia, wprowadzając reguły w zapytaniach.

Do implementacji wykorzystano narzędzia takie jak Clingo, DSPy oraz LangChain, a testy przeprowadzono na modelach takich jak DeepSeek i GPT-4 Mini. Wyniki mierzono za pomocą wskaźników, takich jak mikro-F1, które potwierdziły adaptacyjność metod.

Kluczowe wyniki i wnioski

Metoda LLM + ASP osiągnęła znaczną poprawę dokładności przy analizie zbioru SparQA, zwłaszcza w zadaniach typu „Znajdowanie relacji” oraz „Znajdowanie bloku”. Najlepsze wyniki uzyskał model GPT-4 Mini, podczas gdy proste pytania typu „Tak/Nie” lepiej obsługiwały standardowe zapytania promptingowe.

Z kolei metoda „Fakty + Reguły Logiczne” przyniosła ponad 5% wzrost dokładności w SparQA i wykazała zdolność do tłumaczenia języka naturalnego na uporządkowane fakty, które następnie poddano analizie za pomocą reguł logicznych. W przypadku bardziej zaawansowanego modelu Llama3 70B, narzędzie to umożliwiło skuteczne rozwiązywanie złożonych problemów. Metody neuronowo-symulacyjne poprawiły dokładność w obu zbiorach danych: w StepGame uzyskano wyniki powyżej 80%, a w SparQA – około 60%. Względem bazowych technik poprawiły one skuteczność o 40-50% dla StepGame i 3-13% dla SparQA.

Wyzwania i perspektywy na przyszłość

Kluczowymi czynnikami sukcesu metod były precyzyjny podział między analizą semantyczną a rozumowaniem logicznym oraz wyraźne reprezentowanie relacji przestrzennych. Podejście to sprawdzało się lepiej w uporządkowanych środowiskach niż w bardziej skomplikowanych, naturalnych zestawach danych, takich jak SparQA.

Podsumowując, zaproponowane ramy znacząco poprawiły zdolności rozumowania przestrzennego modeli LLM. Pomimo imponujących wyników, w szczególności w StepGame, wciąż istnieje potencjał do dalszego rozwoju. Przedstawione badania stanowią ważny fundament dla kolejnych osiągnięć w dziedzinie sztucznej inteligencji i mogą stać się punktem odniesienia dla przyszłych badaczy.