21 lutego, 2025

Naukowcy z Johns Hopkins przedstawiają Genex: Model Sztucznej Inteligencji, który Tworzy i Odkrywa Trójwymiarowe Światy

Planowanie i podejmowanie decyzji w złożonych, częściowo obserwowanych środowiskach stanowi jedno z głównych wyzwań dla sztucznej inteligencji (AI) zintegrowanej z rzeczywistością fizyczną. Tradycyjnie, agenci AI polegają na fizycznej eksploracji przestrzeni w celu zebrania większej ilości informacji. Jednakże, takie podejście może być czasochłonne i niepraktyczne, zwłaszcza w dużych, dynamicznych środowiskach. Przykładowo, autonomiczne pojazdy poruszające się po miastach muszą podejmować szybkie decyzje na podstawie ograniczonych danych wizualnych. Fizyczny ruch w celu zdobycia dodatkowych informacji może czasem nie być możliwy lub bezpieczny, np. gdy pojawi się niespodziewana przeszkoda, taka jak nagle zatrzymany pojazd. Z tego powodu istnieje pilna potrzeba opracowania rozwiązań, które pozwolą agentom AI lepiej zrozumieć otoczenie bez konieczności kosztownej i ryzykownej eksploracji fizycznej.

Wprowadzenie do Genex

Naukowcy z Uniwersytetu Johnsa Hopkinsa zaprezentowali Generative World Explorer (Genex) – nowy model generowania wideo, który umożliwia agentom AI eksplorowanie trójwymiarowych środowisk w sposób imaginacyjny, bez potrzeby fizycznego poruszania się. Genex czerpie inspiracje z ludzkich zdolności do tworzenia mentalnych modeli, które pomagają wnioskować o niewidocznych częściach otoczenia. Dzięki temu rozwiązaniu, agenci AI mogą podejmować lepsze decyzje na podstawie wyobrażonych scenariuszy, zamiast fizycznie przemierzać przestrzeń w celu zdobycia nowych obserwacji. Taka funkcjonalność jest niezwykle przydatna dla autonomicznych pojazdów, robotów czy innych systemów AI, które muszą działać efektywnie w dużych, dynamicznych środowiskach miejskich lub naturalnych.

Aby wyszkolić model Genex, naukowcy stworzyli syntetyczną bazę miejskich scen – Genex-DB, w której znajdują się zróżnicowane środowiska symulujące warunki rzeczywiste. Dzięki tej bazie danych, Genex uczy się generować wysokiej jakości, spójne obserwacje otoczenia podczas długotrwałej eksploracji wirtualnych przestrzeni. Zaktualizowane przekonania, pochodzące z wyimaginowanych obserwacji, integrują się z istniejącymi już modelami podejmowania decyzji, co pozwala na lepsze planowanie bez potrzeby fizycznej nawigacji.

Szczegóły techniczne

Genex działa na podstawie frameworku generowania wideo egocentrycznego, który jest uzależniony od obecnego panoramicznego widoku agenta oraz kierunków planowanego ruchu. Dzięki temu model może generować przyszłe obserwacje z perspektywy agenta, co przypomina mentalną eksplorację nowych punktów widzenia. Naukowcy zastosowali model dyfuzji wideo, wyszkolony na panoramicznych reprezentacjach, który zapewnia spójność przestrzenną generowanego obrazu. Jest to kluczowe, ponieważ agent musi zachować spójne rozumienie swojego otoczenia, nawet podczas generowania długoterminowych obserwacji.

Jednym z kluczowych elementów tego rozwiązania jest technika nauki spójności sferycznej (SCL), która zapewnia płynne przejścia i ciągłość w obserwacjach panoramicznych. W przeciwieństwie do tradycyjnych modeli generowania wideo, które koncentrują się na pojedynczych klatkach lub ustalonych punktach, panoramiczne podejście Genex obejmuje cały widok 360 stopni, co gwarantuje, że wygenerowane wideo zachowuje spójność pomiędzy różnymi polami widzenia. Wysokiej jakości zdolności generatywne Genex sprawiają, że jest on idealnym rozwiązaniem dla zadań takich jak autonomiczne prowadzenie pojazdów, gdzie przewidywanie długoterminowe oraz utrzymanie świadomości przestrzennej są kluczowe.

Znaczenie i wyniki

Wprowadzenie rewizji przekonań opartej na wyobraźni to ogromny krok naprzód w rozwoju AI zintegrowanej z rzeczywistością fizyczną. Dzięki Genex agenci mogą generować sekwencje wyimaginowanych widoków, które symulują fizyczną eksplorację. Ta zdolność pozwala im aktualizować swoje przekonania w sposób przypominający fizyczną nawigację, jednak bez związanych z tym ryzyk i kosztów. Jest to szczególnie istotne w scenariuszach takich jak autonomiczne prowadzenie pojazdów, gdzie bezpieczeństwo i szybkie podejmowanie decyzji mają kluczowe znaczenie.

W badaniach eksperymentalnych Genex wykazał imponujące możliwości. Model przewyższał konkurencyjne rozwiązania w kilku kluczowych metrykach, takich jak jakość wideo i spójność eksploracji. Na przykład, metryka Imaginative Exploration Cycle Consistency (IECC) ujawniła, że Genex utrzymuje wysoki poziom spójności podczas długoterminowej eksploracji – z błędami średniokwadratowymi (MSE) stale niższymi niż w przypadku konkurencyjnych modeli. Wyniki te potwierdzają nie tylko zdolność Genex do generowania wysokiej jakości materiałów wizualnych, ale także jego sukces w utrzymywaniu stabilnego rozumienia otoczenia przez dłuższy czas. Dodatkowo, w scenariuszach wieloagentowych, Genex wykazał znaczną poprawę w dokładności podejmowania decyzji, co podkreśla jego odporność w złożonych, dynamicznych środowiskach.

Podsumowanie

Generative World Explorer (Genex) to ważny krok naprzód w dziedzinie AI zintegrowanej z rzeczywistością fizyczną. Dzięki wykorzystaniu wyobraźni do eksploracji, Genex pozwala agentom na mentalną nawigację po dużych środowiskach oraz aktualizację ich zrozumienia bez potrzeby fizycznego poruszania się. Takie podejście nie tylko redukuje ryzyko i koszty związane z tradycyjną eksploracją, ale także poprawia zdolności decyzyjne agentów AI, pozwalając im brać pod uwagę wyobrażone, a nie tylko zaobserwowane możliwości. W miarę jak systemy AI są wdrażane w coraz bardziej złożonych środowiskach, modele takie jak Genex torują drogę dla bardziej odpornych, adaptacyjnych i bezpiecznych interakcji w rzeczywistych warunkach. Zastosowanie tego modelu w autonomicznym prowadzeniu pojazdów oraz jego rozszerzenie na scenariusze wieloagentowe sugerują szerokie możliwości zastosowania, które mogą zrewolucjonizować sposób, w jaki AI wchodzi w interakcję ze swoim otoczeniem.