22 lutego, 2025

Nowe podejście SUTD do rozwoju sztucznej inteligencji: analiza wyzwań i postępów w wielomodalnym rozumowaniu poprzez łamigłówki i algorytmiczne rozwiązywanie problemów

Rozwój sztucznej inteligencji w rozwiązywaniu problemów multimodalnych

Nowe wyzwania dla modeli językowych

Po sukcesie dużych modeli językowych (LLM), badania nad sztuczną inteligencją skupiają się na bardziej złożonych zadaniach, łączących analizę tekstu z rozumowaniem multimodalnym. Tego rodzaju zadania wymagają przetwarzania zarówno informacji wizualnych, jak i językowych, co stanowi kluczowy krok w kierunku osiągnięcia ogólnej sztucznej inteligencji (AGI).

Cognitive benchmarks, takie jak PuzzleVQA i AlgoPuzzleVQA, służą do oceny zdolności AI w zakresie abstrakcyjnego przetwarzania obrazów i logicznego rozumowania. Pomimo dużych postępów w rozwoju modeli LLM, nadal napotykają one trudności w analizie wzorców oraz rozwiązywaniu problemów przestrzennych. Dodatkowo, wysokie koszty obliczeniowe stwarzają kolejne bariery w ich rozwoju.

Kluczowe testy sprawdzające zdolności AI

Wcześniejsze oceny modeli AI opierały się na symbolicznych benchmarkach, takich jak ARC-AGI, a także na testach wizualnych, np. Raven’s Progressive Matrices. Jednak te metody nie były wystarczająco wymagające w kontekście multimodalnej analizy danych.

Ostatnio wprowadzono nowe zestawy danych, takie jak PuzzleVQA i AlgoPuzzleVQA, które pozwalają na dokładniejszą ocenę zdolności modeli w zakresie abstrakcyjnego myślenia wizualnego oraz rozwiązywania problemów algorytmicznych. Modele testowane przy użyciu tych benchmarków muszą wykazać się umiejętnością percepcji wizualnej, logicznego wnioskowania oraz strukturalnej analizy danych.

Mimo że najnowsze modele, takie jak GPT-4-Turbo i GPT-4o, wykazują znaczące ulepszenia w porównaniu do swoich poprzedników, nadal mają trudności z precyzyjną interpretacją abstrakcyjnych wzorców i multimodalnych danych.

Systematyczna ocena modeli AI

Naukowcy z Singapore University of Technology and Design (SUTD) przeprowadzili szczegółowe badania nad zdolnością modeli OpenAI, takich jak GPT-4-Turbo, GPT-4o oraz o1, do rozwiązywania problemów multimodalnych. Badanie miało na celu identyfikację luk w percepcji, abstrakcyjnym myśleniu oraz umiejętnościach rozwiązywania problemów przez sztuczną inteligencję.

Eksperymenty przeprowadzono przy użyciu dwóch kluczowych zestawów danych:

1. PuzzleVQA – ocenia zdolność modeli do rozpoznawania wzorców w liczbach, kształtach, kolorach i rozmiarach.
2. AlgoPuzzleVQA – bada umiejętności logicznego wnioskowania i rozwiązywania problemów algorytmicznych.

Modele były testowane zarówno w formacie pytań wielokrotnego wyboru, jak i w zadaniach otwartych. Dodatkowo, wykorzystano technikę zero-shot Chain of Thought (CoT), aby ocenić ich zdolność do logicznego myślenia. Badano również wpływ ograniczonej percepcji wizualnej na wyniki testów oraz analizowano spadek skuteczności modeli przy przejściu z pytań zamkniętych na otwarte.

Wyniki badań i kluczowe wnioski

Badanie wykazało, że kolejne generacje modeli sztucznej inteligencji stopniowo poprawiają swoje zdolności w zakresie rozumowania. Model GPT-4o przewyższył GPT-4-Turbo, jednak największy postęp zaobserwowano w przypadku modelu o1, szczególnie w zadaniach wymagających algorytmicznego rozumowania. Niestety, te ulepszenia wiązały się z ogromnym wzrostem kosztów obliczeniowych.

Najważniejsze ustalenia badania:

– Model o1 osiągnął średnią dokładność 79,2% w zadaniach wielokrotnego wyboru w benchmarku PuzzleVQA, podczas gdy GPT-4o uzyskał 60,6%, a GPT-4-Turbo 54,2%. W zadaniach otwartych skuteczność wszystkich modeli spadła – o1 zdobył 66,3%, GPT-4o 46,8%, a GPT-4-Turbo 38,6%.
– W AlgoPuzzleVQA model o1 znacząco przewyższył poprzednie wersje, szczególnie w zadaniach wymagających dedukcji numerycznej i przestrzennej. Osiągnął wynik 55,3%, podczas gdy GPT-4o zdobył 43,6%, a GPT-4-Turbo 36,5%. Jednak w zadaniach otwartych dokładność o1 spadła o 23,1%.
– Modele miały duże trudności z percepcją wizualną, a ich skuteczność wzrastała o 22-30%, gdy dostarczano im wyraźniejsze informacje wizualne. Dodatkowe wskazówki dotyczące rozumowania indukcyjnego poprawiały wyniki o 6-19%, szczególnie w zadaniach wymagających analizy wzorców numerycznych i przestrzennych.
– Model o1 dobrze radził sobie z rozumowaniem numerycznym, ale miał problem z zadaniami wymagającymi analizy kształtów, co skutkowało 4,5% spadkiem dokładności w porównaniu do GPT-4o. Ponadto, o1 wykazywał wysoką skuteczność w zadaniach strukturalnych, ale gorzej radził sobie z problemami otwartymi, wymagającymi samodzielnego wnioskowania.

Podsumowanie

Badanie przeprowadzone przez naukowców z SUTD dostarcza cennych informacji na temat postępu w dziedzinie sztucznej inteligencji. Chociaż kolejne generacje modeli AI wykazują znaczną poprawę w zakresie rozwiązywania problemów multimodalnych, nadal istnieją istotne ograniczenia, zwłaszcza w kontekście percepcji wizualnej i otwartego wnioskowania.

Wraz z dalszym rozwojem technologii, kluczowym wyzwaniem będzie nie tylko zwiększenie zdolności analitycznych modeli AI, ale także optymalizacja kosztów obliczeniowych, aby uczynić je bardziej dostępnymi i efektywnymi.