BARE: Metoda AI do generowania danych syntetycznych łącząca różnorodność modeli bazowych z jakością modeli dostrojonych instrukcjami
Nowe podejście do generowania syntetycznych danych dla modeli AI
Wraz ze wzrostem zapotrzebowania na wysokiej jakości dane treningowe, generowanie danych syntetycznych stało się kluczowym elementem poprawy wydajności modeli językowych. Modele dostrajane pod kątem instrukcji są często wykorzystywane w tym celu, jednak ich główną wadą jest ograniczona różnorodność generowanych odpowiedzi. Brak zróżnicowania negatywnie wpływa na zdolność modelu do uogólniania wiedzy na nowe zadania.
Mimo stosowania różnych technik zwiększających różnorodność – takich jak generowanie odpowiedzi na podstawie wcześniejszych wyników lub przypisywanie modelowi różnych ról – problem nadal pozostaje nierozwiązany. Z kolei modele bazowe, które nie zostały poddane dostrajaniu po wstępnym treningu, generują bardziej zróżnicowane odpowiedzi, ale ich jakość jest niższa. Badania wykazały, że modele bazowe charakteryzują się mniejszym podobieństwem kosinusowym generowanych par odpowiedzi, co wskazuje na większą różnorodność, podczas gdy modele dostrajane pod kątem instrukcji są narażone na tzw. „mode collapse”, czyli utratę różnorodności generowanych danych.
Problemy wynikające z nadmiernego używania danych syntetycznych
Dane syntetyczne znajdują szerokie zastosowanie w szkoleniu najnowocześniejszych modeli, które zajmują się m.in. wnioskowaniem, kodowaniem i rozwiązywaniem problemów. Jednak ich nadmierne wykorzystanie może prowadzić do poważnych trudności, takich jak stopniowa utrata różnorodności wynikająca z iteracyjnej degradacji danych.
Obecnie stosowane techniki zwiększające różnorodność, takie jak skalowanie temperatury, próbkowanie jądrowe czy wieloetapowe generowanie, stanowią jedynie częściowe rozwiązania i często wymagają znacznego nakładu pracy ludzkiej. Tradycyjnie do oceny jakości danych syntetycznych stosuje się metryki oparte na wynikach modeli w zadaniach końcowych, jednak badania wskazują, że lepszym podejściem jest wykorzystanie metod bazujących na osadzeniach semantycznych, takich jak BERTScore. Dodatkowym wyzwaniem pozostaje ocena jakości poszczególnych syntetycznych próbek, co wymaga opracowania bardziej zaawansowanych metod walidacji.
Nowe podejście: metoda Base-Refine (BARE)
Zespół badawczy z UC Berkeley, Stanford, Foundry, Microsoft Research i Princeton opracował nową metodę generowania danych syntetycznych. Ich rozwiązanie, nazwane Base-Refine (BARE), łączy modele bazowe i dostrajane pod kątem instrukcji, aby jednocześnie zwiększyć jakość i różnorodność generowanych danych.
BARE działa w dwóch etapach. Najpierw model bazowy generuje zestaw danych, który charakteryzuje się dużą różnorodnością, ale może zawierać błędy. Następnie model dostrajany pod kątem instrukcji poprawia jakość tych danych, eliminując błędy i zwiększając klarowność odpowiedzi, przy jednoczesnym zachowaniu ich różnorodności. Taka metoda pozwala na uzyskanie wysokiej jakości danych nawet w sytuacjach, gdy dostępne zasoby są ograniczone.
Wyniki eksperymentów i skuteczność metody BARE
Eksperymenty wykazały, że fine-tuning modelu przy użyciu zaledwie 1000 próbek wygenerowanych metodą BARE pozwala osiągnąć wydajność porównywalną z najlepszymi modelami w benchmarkach takich jak LiveCodeBench. Dodatkowo, dokładność w zadaniach GSM8K wzrosła o 101% w porównaniu do danych generowanych wyłącznie przez modele dostrajane pod kątem instrukcji.
BARE poprawia również wyniki fine-tuningu metodą RAFT o 18,4%, co dowodzi jego skuteczności w generowaniu wysokiej jakości i zróżnicowanych danych dla różnych zadań związanych z uczeniem maszynowym. Implementacja tej metody wykorzystuje modele Llama-3.1-70B-Base do początkowego generowania danych oraz Llama-3.1-70B-Instruct do ich udoskonalenia. Co więcej, dalsze eksperymenty wykazały, że dodatkowa optymalizacja przy użyciu modelu GPT-4o jeszcze bardziej zwiększa skuteczność tej metody.
Analiza ablation study potwierdziła, że kluczowym elementem procesu jest wykorzystanie modelu bazowego w pierwszym etapie. Eksperymenty wykazały, że próba dostrajania istniejących danych generowanych wyłącznie przez modele instruktażowe prowadzi do spadku dokładności, co dowodzi, jak ważne jest łączenie obu typów modeli.
Przyszłość generowania syntetycznych danych
Podsumowując, metoda BARE łączy zalety modeli bazowych i dostrajanych pod kątem instrukcji, tworząc wysokiej jakości, zróżnicowane dane syntetyczne. Obszerne eksperymenty potwierdzają skuteczność tego podejścia w zadaniach takich jak GSM8K, LiveCodeBench i RAFT, wyznaczając nowy standard w generowaniu danych treningowych dla modeli AI.
W przyszłości możliwe są dalsze usprawnienia tej metody, na przykład poprzez zastosowanie dodatkowych etapów przetwarzania, precyzyjniejsze dostrajanie modelu poprawiającego jakość danych lub eksperymentowanie z nowymi strategiami treningowymi. Ponadto, BARE może znaleźć zastosowanie nie tylko w generowaniu danych treningowych, ale także w tworzeniu bardziej zróżnicowanych zestawów testowych do oceny modeli.
Wraz ze wzrostem roli danych syntetycznych w szkoleniu systemów AI, metoda BARE stanowi obiecujące rozwiązanie, które skutecznie równoważy jakość i różnorodność generowanych informacji, przewyższając dotychczasowe podejścia w wielu obszarach zastosowań.