21 lutego, 2025

Naukowcy z Google DeepMind Odkrywają Nowe Możliwości Regresji Dekodującej w Analizie Danych i Szacowaniu Gęstości

Nowe podejście do zadań regresji: Tokenizacja liczbowa i dekodowanie autoregresywne

Regresja, czyli przewidywanie ciągłych wartości liczbowych, od dawna opierała się na tradycyjnych podejściach, takich jak głowice numeryczne bazujące na parametryzacji rozkładów Gaussa czy projekcje tensora punktowego. Chociaż te metody okazały się skuteczne w wielu zastosowaniach, towarzyszy im szereg ograniczeń – wymagają dużej ilości oznaczonych danych, są podatne na błędy w przypadku skomplikowanych rozkładów liczbowych oraz zakładają sztywne założenia o rozkładach danych. W odpowiedzi na te wyzwania, badania nad dużymi modelami językowymi (LLM) wprowadziły innowacyjne podejście – reprezentowanie wartości liczbowych jako sekwencji dyskretnych tokenów oraz wykorzystanie dekodowania autoregresywnego do predykcji. Choć to nowe podejście otwiera wiele możliwości, niesie ze sobą także znaczące wyzwania, takie jak utrzymanie precyzji numerycznej, stabilność treningu czy konieczność stworzenia wydajnych mechanizmów tokenizacji.

Problemy tradycyjnych metod regresji

Tradycyjne modele regresji, takie jak te wykorzystujące rozkłady Gaussa, opierają się na założeniu, że dane są normalnie rozłożone. To ograniczenie utrudnia modelowanie bardziej złożonych, wielomodalnych rozkładów danych. Z kolei głowice punktowe w regresji borykają się z problemami przy modelowaniu silnie nieliniowych lub nieciągłych zależności. Wysokowymiarowe modele, np. histogramowe podejścia oparte na rozkładach Riemanna, wymagają dużej mocy obliczeniowej i znacznych ilości danych, co czyni je mało wydajnymi. Dodatkowo, standardowe metody często wymagają normalizacji danych wyjściowych, co wprowadza dodatkową warstwę złożoności i ryzyko destabilizacji modelu.

Chociaż badania nad dużymi modelami językowymi próbowały zastosować podejście tekst-do-tekstu w regresji, niewiele uwagi poświęcono bardziej uniwersalnemu podejściu „cokolwiek-do-tekstu”, gdzie wartości liczbowe są reprezentowane jako sekwencje tokenów. Tego rodzaju transformacja otwiera nowe możliwości w przewidywaniu danych liczbowych, jednocześnie wymagając nowatorskiego podejścia do ich modelowania.

Nowatorskie podejście zaproponowane przez Google DeepMind

Zespół badawczy Google DeepMind zaproponował nową formułę regresji, która traktuje przewidywanie wartości liczbowych jako problem generowania sekwencji autoregresywnych. Zamiast bezpośrednio generować wartości skalarne, ta metoda koduje liczby jako sekwencje tokenów, a następnie generuje je za pomocą dekodowania z ograniczeniami, aby zapewnić poprawność wyników.

Reprezentowanie liczb w formie dyskretnych sekwencji tokenów pozwala na większą elastyczność i wyrazistość w modelowaniu danych rzeczywistych. W przeciwieństwie do podejść opartych na rozkładzie Gaussa, ta metoda nie zakłada sztywnych założeń co do rozkładu danych, co czyni ją bardziej uniwersalną i zdolną do uchwycenia złożonych, heterogenicznych wzorców w danych. Dzięki temu model może precyzyjnie odwzorować wielomodalne i skomplikowane rozkłady, co poprawia jego wydajność zarówno w zadaniach regresji punktowej, jak i estymacji gęstości rozkładu.

Mechanizm tokenizacji i trening modelu

W nowym podejściu zastosowano dwa mechanizmy tokenizacji: tokenizację normalizowaną i nienormalizowaną. W tokenizacji normalizowanej liczby są kodowane w ustalonym zakresie z wykorzystaniem rozwinięcia w określonej bazie, co pozwala na zwiększenie precyzji wraz z długością sekwencji. Natomiast tokenizacja nienormalizowana rozszerza ten koncept na szersze zakresy liczbowe, stosując uogólnioną reprezentację zmiennoprzecinkową (np. IEEE-754), bez potrzeby jawnej normalizacji.

Model oparty na transformatorach autoregresywnych generuje liczby token po tokenie, przestrzegając określonych ograniczeń, aby zapewnić poprawność sekwencji. Trening odbywa się przy użyciu funkcji strat cross-entropy, co pozwala na dokładne odwzorowanie wartości liczbowych. Zamiast przewidywać bezpośrednie wartości skalarne, system próbuje wygenerować sekwencje tokenów, a następnie stosuje techniki estymacji statystycznej, takie jak obliczanie mediany lub średniej, w celu uzyskania końcowych prognoz.

Wyniki badań i potencjał nowego podejścia

Eksperymenty przeprowadzone na rzeczywistych zbiorach danych regresyjnych, takich jak OpenML-CTR23 czy benchmarki AMLB, wykazały wysoką skuteczność nowego modelu. Osiąga on wysokie wyniki w korelacji Kendall-Tau w zadaniach regresji tabelarycznej, często przewyższając modele bazowe, zwłaszcza w przypadkach, gdy dane są ograniczone. Model szczególnie dobrze radzi sobie w estymacji gęstości rozkładu, przewyższając metody takie jak mieszanki Gaussowskie czy podejścia oparte na histogramach w testach logarytmicznej funkcji wiarygodności (NLL).

Stabilność numeryczna modelu została usprawniona dzięki metodom korekcji błędów, takim jak powtarzanie tokenów czy głosowanie większościowe, które minimalizują podatność na wartości odstające. Wyniki sugerują, że to podejście stanowi solidną i adaptacyjną alternatywę dla tradycyjnych metod regresji, z powodzeniem generalizując na różnych zbiorach danych i zadaniach modelowania.

Przyszłość modelowania numerycznego

Nowe podejście do przewidywania wartości liczbowych, wykorzystujące tokenizację i dekodowanie autoregresywne, otwiera nowe możliwości w modelowaniu danych. Zastępując tradycyjne metody regresji głowicami opartymi na tokenach, framework ten zwiększa elastyczność i precyzję w modelowaniu danych rzeczywistych. Osiąga konkurencyjne wyniki w różnych zadaniach, zwłaszcza w estymacji gęstości i modelowaniu tabelarycznym, jednocześnie oferując teoretyczne gwarancje aproksymacji dowolnych rozkładów prawdopodobieństwa.

W przyszłości planuje się dalsze udoskonalanie metod tokenizacji w celu poprawy precyzji i stabilności numerycznej, a także rozwój modelu w kierunku obsługi regresji wielowymiarowej i zadań o wysokiej złożoności. Nowy framework może znaleźć zastosowanie w modelowaniu nagród w uczeniu ze wzmocnieniem oraz w zadaniach opartych na analizie wizualnej. Wyniki te sugerują, że regresja oparta na sekwencjach może stać się obiecującą alternatywą dla tradycyjnych metod, poszerzając zakres zadań, które modele językowe mogą skutecznie rozwiązywać.