Nowe badania Google DeepMind ujawniają nowy rodzaj podatności, który może ujawniać polecenia użytkowników w modelach MoE

Mechanizm trasowania w modelach MoE (Mixture of Experts) stanowi poważne wyzwanie w kontekście prywatności użytkowników. Optymalizacja wydajności dużych modeli językowych (LLM) poprzez selektywne uruchamianie jedynie części parametrów modelu sprawia, że stają się one bardziej podatne na ataki związane z wyciekiem danych. W szczególności mechanizm ECR (Expert Capacity Routing) umożliwia potencjalnym napastnikom wykradanie danych użytkowników poprzez umieszczenie odpowiednio spreparowanych zapytań w tej samej partii przetwarzania co dane docelowe. Atak MoE Tiebreak Leakage wykorzystuje te właściwości architektury, ujawniając poważny błąd w projektowaniu zabezpieczeń, który musi zostać rozwiązany, zanim modele MoE będą szeroko stosowane w aplikacjach wymagających jednocześnie wydajności i bezpieczeństwa danych.

Mechanizm trasowania w modelach MoE – zagrożenia dla prywatności

Aktualne modele MoE stosują bramkowanie i selektywne kierowanie tokenów, aby poprawić wydajność, rozdzielając przetwarzanie pomiędzy wielu „ekspertów”. Dzięki temu zmniejszają zapotrzebowanie na zasoby obliczeniowe w porównaniu z bardziej gęstymi modelami LLM. Jednakże, takie selektywne aktywowanie parametrów wprowadza nowe luki bezpieczeństwa. Decyzje o trasowaniu, zależne od partii danych, sprawiają, że modele są podatne na wycieki informacji. Główny problem polega na tym, że strategie trasowania traktują tokeny deterministycznie, co nie gwarantuje niezależności pomiędzy partiami danych. Ta zależność od partii może być wykorzystana przez napastników do uzyskania dostępu do prywatnych danych.

Atak MoE Tiebreak Leakage – jak działa?

Badacze z Google DeepMind opracowali atak MoE Tiebreak Leakage, który systematycznie manipuluje zachowaniem trasowania w modelu MoE, aby odczytać dane użytkownika. Atak ten polega na wprowadzaniu spreparowanych zapytań, które są analizowane w połączeniu z zapytaniami ofiary. Model, działając w sposób deterministyczny, przy rozwiązywaniu sytuacji remisu w trasowaniu, ujawnia różnice w wynikach, gdy zgadywanie jest poprawne, co prowadzi do wycieku tokenów zapytania użytkownika. Proces ataku składa się z trzech głównych elementów:

1. Zgadywanie tokenów – napastnik próbuje odgadnąć tokeny zapytania użytkownika, obserwując różnice w trasowaniu.
2. Manipulacja buforami ekspertów – wykorzystywane są sekwencje wypełniające, które kontrolują zachowanie trasowania poprzez zmianę pojemności buforów ekspertów.
3. Odzyskiwanie ścieżki trasowania – analiza ścieżek trasowania pozwala na weryfikację poprawności zgadywania na podstawie różnic w wynikach w różnych konfiguracjach partii.

Przeprowadzone badania i wyniki

Atak MoE Tiebreak Leakage przetestowano na modelu Mixtral z ośmioma ekspertami, wykorzystującym trasowanie oparte na ECR. Badania przeprowadzono z wykorzystaniem implementacji PyTorch CUDA dla top-k. Technika ta zmniejszała zbiór słów i ręcznie tworzyła sekwencje wypełniające w taki sposób, aby wpływać na pojemności ekspertów bez wprowadzania nieprzewidywalności w trasowaniu. Kluczowe kroki techniczne obejmowały:

Sondowanie tokenów i weryfikacja – wykorzystanie mechanizmu iteracyjnego zgadywania tokenów, gdzie poprawność zgadywania była potwierdzana przez obserwacje różnic w trasowaniu.
Kontrola pojemności ekspertów – manipulowanie sekwencjami wypełniającymi w celu kontrolowania pojemności buforów ekspertów, aby konkretne tokeny były kierowane do odpowiednich ekspertów.
Analiza ścieżek i mapowanie wyników – porównanie wyników dwóch partii w celu identyfikacji ścieżek trasowania, co pozwoliło na mapowanie zachowań tokenów i weryfikację skuteczności wycieków.

Badania obejmowały różne długości wiadomości i konfiguracje tokenów, uzyskując bardzo wysoką dokładność w odzyskiwaniu tokenów oraz skalowalność podejścia w identyfikacji luk w prywatności w architekturach zależnych od trasowania.

Skuteczność ataku

Atak MoE Tiebreak Leakage okazał się wyjątkowo skuteczny. Udało się odzyskać 4 833 z 4 838 tokenów, co oznaczało dokładność przekraczającą 99,9%. Wyniki były spójne we wszystkich konfiguracjach, a strategiczne stosowanie wypełniaczy i precyzyjna kontrola trasowania umożliwiły niemal pełne odzyskanie zapytań użytkownika. Dzięki lokalnym zapytaniom modelu, atak optymalizował wydajność, jednocześnie minimalizując zależność od zapytań docelowego modelu, co zwiększało jego praktyczność w rzeczywistych zastosowaniach i potwierdzało jego skalowalność w różnych konfiguracjach MoE.

Wnioski i przyszłe implikacje

Prace te wykazały krytyczną lukę w prywatności w modelach MoE, polegającą na możliwości wykorzystania zależnych od partii decyzji trasujących w architekturach opartych na ECR do wycieku danych. Systematyczne odzyskiwanie prywatnych zapytań użytkowników przez wykorzystanie deterministycznego trasowania w ataku MoE Tiebreak Leakage podkreśla potrzebę wprowadzenia ulepszeń w zakresie bezpieczeństwa w protokołach trasowania. Optymalizacje przyszłych modeli powinny uwzględniać potencjalne zagrożenia dla prywatności, takie jak wprowadzenie losowości lub zapewnienie niezależności partii w trasowaniu, aby zminimalizować te ryzyka. Praca ta podkreśla konieczność uwzględniania oceny bezpieczeństwa przy podejmowaniu decyzji architektonicznych dotyczących modeli MoE, zwłaszcza w miarę jak coraz więcej aplikacji bazujących na dużych modelach językowych przetwarza wrażliwe informacje użytkowników.

Wprowadzenie tych zmian jest kluczowe, aby zapewnić, że modele MoE będą mogły być bezpiecznie stosowane w aplikacjach rzeczywistych, gdzie zarówno wydajność, jak i bezpieczeństwo danych są priorytetowe.