Naukowcy z Splunk przedstawiają MAG-V: Wieloagentowe narzędzie do tworzenia danych syntetycznych i weryfikacji ścieżek SI

Rewolucyjny system MAG-V – nowe podejście do generowania syntetycznych danych i weryfikacji trajektorii AI

W dzisiejszych czasach modele językowe (LLM, czyli Large Language Models) są coraz częściej integrowane z systemami wieloagentowymi, które pozwalają na współpracę wielu inteligentnych agentów w celu osiągnięcia wspólnych celów. Systemy wieloagentowe zostały zaprojektowane, aby poprawić procesy decyzyjne, usprawnić rozwiązywanie problemów i zoptymalizować funkcjonalność sztucznej inteligencji. Dzięki podziałowi zadań między różne agentów te systemy gwarantują efektywną realizację zadań oraz skalowalne rozwiązania. Zastosowanie takich systemów jest szczególnie cenne w obszarach, takich jak obsługa klienta, gdzie kluczowe jest dostarczanie precyzyjnych i dynamicznych odpowiedzi.

Problemy związane z danymi i weryfikacją w systemach AI

Aby wdrożyć systemy wieloagentowe, niezbędne jest tworzenie realistycznych i skalowalnych zbiorów danych do testowania i trenowania modeli. Brak odpowiednich danych specyficznych dla danego obszaru oraz obawy związane z prywatnością wpływają na skuteczność trenowania systemów AI. Ponadto, systemy AI skierowane do bezpośredniej interakcji z użytkownikami muszą cechować się logicznym rozumowaniem i poprawnością. Procesy takie, jak analiza ciągu działań (trajektorii) prowadzących do rozwiązania problemu, wymagają często zewnętrznych narzędzi – błędy w użyciu parametrów czy sekwencji działań mogą jednak prowadzić do utraty zaufania użytkowników oraz obniżenia niezawodności systemu. Z tego powodu niezwykle istotne jest opracowanie bardziej zaawansowanych metod weryfikacji trajektorii i tworzenia realistycznych zestawów testowych.

Tradycyjne podejścia opierały się na danych oznaczonych przez ludzi lub stosowały modele językowe jako „sędziów” do weryfikacji trajektorii. Choć były to pewne kroki w dobrym kierunku, modele te napotykały na wiele ograniczeń, takich jak wysoka wrażliwość na parametry wejściowe, niejednoznaczne wyniki oraz wysokie koszty operacyjne. W szczególności w bardziej złożonych aplikacjach, wymagających kontekstowego rozumowania, skalowanie takich podejść było mało efektywne. Dlatego potrzebne były bardziej deterministyczne i opłacalne rozwiązania, które mogłyby skutecznie walidować trajektorie agentów AI.

MAG-V – wieloagentowa rewolucja w generowaniu danych

Badacze z organizacji Splunk Inc. zaproponowali innowacyjne rozwiązanie w postaci ramy systemowej MAG-V (Multi-Agent Framework for Synthetic Data Generation and Verification). MAG-V to wieloagentowy system, który umożliwia generowanie syntetycznych zestawów danych oraz weryfikację trajektorii agentów AI. Bazuje na połączeniu klasycznych technik uczenia maszynowego z możliwościami zaawansowanych modeli językowych. Kluczowym aspektem jest to, że MAG-V nie polega na modelach LLM jako mechanizmach opiniujących. Zamiast tego stosuje metody deterministyczne oraz modele uczenia maszynowego, co gwarantuje większą dokładność i skalowalność w weryfikacji trajektorii.

MAG-V wykorzystuje trzy wyspecjalizowane agenty:

1. Śledczy (investigator): Generuje pytania symulujące realistyczne zapytania użytkowników.
2. Asystent (assistant): Odpowiada na pytania, wykorzystując wcześniej zdefiniowane trajektorie.
3. Inżynier odwracalny (reverse engineer): Tworzy alternatywne pytania na podstawie odpowiedzi dostarczonych przez asystenta.

Ten proces pozwala systemowi na generowanie syntetycznych zbiorów danych, które skutecznie testują możliwości asystenta. Zespół badawczy rozpoczął od zestawu 19 pytań podstawowych, który został rozszerzony do 190 pytań syntetycznych poprzez proces iteracyjny. Następnie, po szczegółowej filtracji, wybrano 45 najwyższej jakości pytań do testów. Każde pytanie przetestowano pięciokrotnie, aby zidentyfikować najbardziej wiarygodną trajektorię.

Zaawansowane metody weryfikacji trajektorii

MAG-V weryfikuje trajektorie przy użyciu zaawansowanych metod takich jak podobieństwo semantyczne (semantic similarity), dystans grafu (graph edit distance) oraz nakładanie argumentów (argument overlap). Te cechy służą do trenowania modeli uczenia maszynowego, takich jak k-Nearest Neighbors (k-NN), Support Vector Machines (SVM) i Random Forests. Podczas oceny system MAG-V przewyższył inne modele bazowe (np. GPT-4o) o 11% w kwestii dokładności i zrównywał się z GPT-4 w wielu innych kategoriach.

Przykładowo, model k-NN osiągnął dokładność na poziomie 82,33% oraz wynik F1 równy 71,73%. System okazał się również bardziej opłacalny dzięki zastosowaniu tańszych modeli, takich jak GPT-4o-mini, wspieranych przez próbki uczenia w kontekście (in-context learning). Pozwoliło to na uzyskanie wyników porównywalnych z droższymi modelami, zachowując efektywność kosztową.

Kluczowe osiągnięcia MAG-V

Z badań nad MAG-V można wyciągnąć kilka istotnych wniosków:

1. Tworzenie skalowalnych zestawów danych: Zestaw 19 pytań początkowych rozszerzono do 190 pytań syntetycznych, z których wybrano 45 najwyższej jakości. Osiągnięto tym samym możliwość generowania danych wspierających rozwój AI.
2. Deterministyczne podejście: Eliminacja zależności od podejść „LLM-as-a-judge” pozwala na uzyskanie spójnych i reprodukowalnych wyników.
3. Wyższa dokładność: Modele trenowane w ramach MAG-V osiągnęły o 11% lepsze wyniki niż bazy GPT-4o.
4. Kosztowa efektywność: Dzięki integracji tańszych modeli i uczenia w kontekście, MAG-V oferuje rozwiązania na wysokim poziomie bez dużych nakładów finansowych.
5. Skalowalność i adaptacyjność: System MAG-V można dostosować do różnych dziedzin, wykorzystując alternatywne pytania do weryfikacji trajektorii.

MAG-V: przyszłość niezawodnych systemów AI

MAG-V to przełom w dziedzinie generowania syntetycznych danych i weryfikacji trajektorii systemów AI. Dzięki połączeniu zalet wieloagentowych systemów i klasycznych technik uczenia maszynowego, ramy te oferują skalowalne, kosztowo efektywne oraz deterministyczne podejście do walidacji zachowań AI. Redukując zależność od rzeczywistych danych klientów i zapewniając precyzję w testowaniu trajektorii, MAG-V wyznacza nowe standardy w niezawodności i funkcjonalności systemów sztucznej inteligencji. To rozwiązanie otwiera drzwi do jeszcze bardziej zaawansowanego i bezpiecznego rozwoju aplikacji AI w różnorodnych dziedzinach.