DeBaTeR: Nowa Metoda AI Wykorzystująca Czas w Filtracji Kolaboracyjnej Grafów Neuronowych dla Lepszej Redukcji Szumów i Dokładniejszych Prognoz

Systemy rekomendacji są szeroko stosowane do badania preferencji użytkowników, jednak napotykają istotne wyzwania związane z dokładnym uchwyceniem tych preferencji, zwłaszcza w kontekście kolaboracyjnego filtrowania przy użyciu sieci neuronowych grafów (GNN). Systemy te wykorzystują historię interakcji między użytkownikami a produktami, analizując ukryte informacje oraz wyższe rzędy interakcji. Jednak jakość zebranych danych jest jednym z głównych problemów. Dodatkowo, ataki złośliwe, które wprowadzają fałszywe interakcje, jeszcze bardziej pogarszają jakość rekomendacji. Problem ten staje się szczególnie dotkliwy w kontekście kolaboracyjnego filtrowania z użyciem sieci neuronowych grafów, gdzie mechanizm przekazywania wiadomości w GNN potęguje wpływ tych „szumów”, prowadząc do nieprecyzyjnych rekomendacji, które nie odzwierciedlają rzeczywistych zainteresowań użytkowników.

Podejścia do poprawy systemów rekomendacji

Obecne próby rozwiązania tych wyzwań skupiają się głównie na dwóch podejściach: odszumianiu systemów rekomendacji oraz uwzględnieniu aspektu czasowego w rekomendacjach. Metody odszumiania wykorzystują różnorodne strategie, takie jak identyfikacja i obniżanie wagi interakcji między niepodobnymi użytkownikami i produktami, czy eliminację próbek o dużych stratach podczas treningu. Powszechnie stosuje się również techniki oparte na pamięci, aby identyfikować „czyste” próbki. Z kolei systemy uwzględniające czas są szeroko stosowane w rekomendacjach sekwencyjnych, jednak mają ograniczone zastosowanie w kontekście kolaboracyjnego filtrowania. Większość podejść czasowych koncentruje się na włączaniu znaczników czasowych do modeli sekwencyjnych lub budowie grafów relacji między produktami na podstawie kolejności czasowej, co nie rozwiązuje złożonej interakcji między wzorcami czasowymi a „szumem” w interakcjach użytkowników.

Nowe podejście: DeBaTeR

Naukowcy z Uniwersytetu Illinois w Urbana-Champaign oraz Amazon zaproponowali nowatorskie podejście do odszumiania bipartytowych grafów czasowych w systemach rekomendacji, nazwane DeBaTeR. Metoda ta wprowadza dwa różne podejścia: DeBaTeR-A oraz DeBaTeR-L.

DeBaTeR-A koncentruje się na ponownym wyważeniu macierzy sąsiedztwa, korzystając z wyników niezawodności pochodzących z czasowych osadzeń użytkowników i produktów, implementując zarówno miękkie, jak i twarde mechanizmy przypisywania w celu radzenia sobie z szumem w interakcjach.
DeBaTeR-L wykorzystuje generator wag, który stosuje czasowe osadzenia, aby identyfikować i obniżać wagę potencjalnie szumowych interakcji w funkcji straty.

Ocena skuteczności DeBaTeR

Aby ocenić skuteczność predykcyjną oraz zdolność do odszumiania podejścia DeBaTeR, naukowcy zastosowali kompleksowy framework testowy, w którym badano zarówno „czyste” dane, jak i dane z celowo wprowadzonymi szumami. W przypadku „czystych” zestawów danych, zastosowano kryteria filtrowania, aby zachować jedynie wysokiej jakości interakcje (oceny ≥ 4 dla Yelp oraz ≥ 4,5 dla Amazon Movies and TV) od użytkowników i produktów, które miały znaczną liczbę interakcji (ponad 50 recenzji). Zestawy danych zostały podzielone w proporcji 7:3 na potrzeby treningu i testów, a szumowe warianty zostały stworzone poprzez wprowadzenie 20% losowych interakcji do zestawów treningowych. Framework oceny uwzględniał aspekty czasowe, wykorzystując najwcześniejsze znaczniki czasowe z zestawów testowych jako czas zapytania dla każdego użytkownika, a wyniki były uśredniane na podstawie czterech serii eksperymentów.

Wyniki eksperymentalne

Eksperymentalne wyniki, odpowiadając na pytanie „Jak proponowane podejście wypada w porównaniu z najnowszymi metodami odszumiania oraz ogólnymi metodami kolaboracyjnego filtrowania w sieciach neuronowych grafów?” pokazują wyraźną przewagę obu wariantów DeBaTeR na wielu zestawach danych i metrykach.

DeBaTeR-L osiągnęło wyższe wyniki w zakresie NDCG, co czyni je bardziej odpowiednim dla zadań związanych z rankingiem.
DeBaTeR-A wykazało lepsze wyniki w zakresie precyzji i czułości, co wskazuje na jego skuteczność w zadaniach związanych z wyszukiwaniem.

Ponadto, DeBaTeR-L okazało się bardziej odporne na zestawy danych z szumami, przewyższając DeBaTeR-A w większej liczbie metryk w porównaniu z ich wydajnością na „czystych” danych. Relatywne poprawy w stosunku do siedmiu metod bazowych były znaczące, co potwierdza skuteczność obu proponowanych podejść.

Przyszłe kierunki badań

W artykule naukowcy wprowadzili DeBaTeR jako innowacyjne podejście do radzenia sobie z szumem w systemach rekomendacji poprzez generowanie osadzeń czasowych. Dualne strategie – DeBaTeR-A do ponownego wyważania macierzy sąsiedztwa oraz DeBaTeR-L do ponownego wyważania funkcji straty, oferują elastyczne rozwiązania dla różnych scenariuszy rekomendacyjnych. Sukces tego frameworku polega na integracji informacji czasowych z osadzeniami użytkowników i produktów, co zostało wykazane przez szeroko zakrojone eksperymenty na rzeczywistych zestawach danych. W przyszłości badania będą się skupiać na eksploracji dodatkowych algorytmów filtracji kolaboracyjnej opartych na neuronowych grafach czasowych oraz na rozszerzeniu zdolności odszumiania o profile użytkowników i atrybuty produktów.

Podsumowanie

DeBaTeR stanowi nowatorskie podejście w dziedzinie systemów rekomendacji, szczególnie w kontekście radzenia sobie z problemem „szumów” w danych. Dzięki zastosowaniu zaawansowanych metod bazujących na osadzeniach czasowych, oferuje ono nie tylko wyższą precyzję, ale także lepszą odporność na złośliwe ataki i fałszywe interakcje.