ByteDance przedstawia Infinity – nowy autoregresyjny model do generowania obrazów w wysokiej rozdzielczości za pomocą bitowego modelowania

Nowy poziom generowania obrazów: przełomowa technologia Infinity

Generowanie obrazów o wysokiej rozdzielczości i fotorealistycznym wyglądzie stanowi jedno z największych wyzwań w dziedzinie syntezy obrazu na podstawie tekstu. Modele odpowiedzialne za tę funkcję muszą sprostać wielu wymaganiom: od tworzenia skomplikowanych scen, przez precyzyjne odwzorowanie wskazówek tekstowych, aż po realistyczne oddanie detali. Aktualne rozwiązania w tej dziedzinie, takie jak modele dyfuzyjne i technologie oparte na kwantyzacji (VAR), wciąż borykają się z problemami skalowalności i efektywności. Te ograniczenia utrudniają szersze zastosowanie AI, np. w projektowaniu wirtualnej rzeczywistości, wzornictwie przemysłowym czy tworzeniu cyfrowych treści.

Ograniczenia dotychczas stosowanych modeli

Obecne podejścia w generowaniu obrazów opierają się przede wszystkim na modelach dyfuzyjnych i VAR. Modele dyfuzyjne tworzą obrazy poprzez wieloetapowe usuwanie szumu, co zapewnia wysoką jakość, lecz wymaga olbrzymiej mocy obliczeniowej. Z kolei technologie VAR wykorzystują podejście oparte na tokenach dyskretnych, co wiąże się z błędami kwantyzacyjnymi i gorszą dokładnością w odwzorowywaniu detali. Co więcej, metody te generują obrazy na zasadzie „skanowania rastrowego”, co zwiększa opóźnienia i zmniejsza efektywność. Te problemy wskazują na konieczność opracowania nowych podejść, które będą bardziej skalowalne, wydajne i precyzyjne.

Infinity – przełom w syntezie obrazu

Naukowcy z ByteDance stworzyli nowatorski framework o nazwie Infinity, który zrewolucjonizował podejście do generowania obrazów na podstawie tekstu. Infinity wprowadza bitowe tokeny zamiast tradycyjnych, co pozwala na precyzyjniejsze odwzorowanie szczegółów i redukcję błędów kwantyzacyjnych. Jest to możliwe dzięki wykorzystaniu Infinite-Vocabulary Classifier (IVC), który zwiększa skalę słownika tokenizera aż do (2^{64}). To innowacyjne rozwiązanie znacząco zmniejsza zapotrzebowanie na pamięć i moc obliczeniową.

Dodatkowo zastosowanie mechanizmu Samokorekty Bitowej (BSC) pozwala na redukcję błędów akumulacyjnych podczas treningu modelu. Mechanizm ten symuluje błędy predykcyjne i ponownie kwantyfikuje cechy obrazu, zwiększając odporność modelu na niedoskonałości. Rezultaty? Wysoka skalowalność oraz możliwość generowania obrazów o niespotykanych dotąd szczegółach.

Kluczowe elementy architektury Infinity

Architektura Infinity składa się z trzech głównych elementów:
1. Bitowego Tokenizatora Multi-Skalowego – konwertuje cechy obrazu na tokeny binarne, co obniża wymagania obliczeniowe.
2. Modelu Autoregresyjnego opartego na Transformatorze – przewiduje kolejne elementy obrazu w oparciu o wskazówki tekstowe i wcześniejsze wyniki.
3. Mechanizmu Samokorekty Bitowej (BSC) – wprowadza losowe zmiany bitowe podczas treningu, co zwiększa odporność modelu na błędy.

Framework był trenowany na szeroko zakrojonych zestawach danych, takich jak LAION i OpenImages, przy stopniowym zwiększaniu rozdzielczości od 256×256 do 1024×1024 pikseli. Dzięki optymalizacji hiperparametrów i zaawansowanym technikom skalowania Infinity osiąga nowe standardy w odwzorowywaniu detali i wydajności.

Wyniki, które wyznaczają nowe standardy w AI

System Infinity osiągnął imponujące wyniki w kluczowych metrykach oceny jakości obrazów. W porównaniu z dotychczasowymi modelami, takimi jak SD3-Medium czy PixArt-Sigma, Infinity wyznacza nowe standardy, uzyskując wynik GenEval na poziomie 0,73 oraz obniżając wskaźnik Fréchet Inception Distance (FID) do 3,48. Co więcej, model jest niezwykle szybki – generuje obrazy w rozdzielczości 1024×1024 w zaledwie 0,8 sekundy.

Wygenerowane obrazy cechują się wyjątkową autentycznością wizualną, bogactwem detali i precyzyjnym odwzorowaniem treści tekstowych. Wysokie oceny użytkowników potwierdzają, że Infinity spełnia oczekiwania w różnych kontekstach, od prostych generacji po skomplikowane sceny.

Zastosowania i perspektywy rozwoju

Infinity nie tylko ustanawia nowe standardy w generowaniu obrazów, ale również otwiera drzwi do dalszych badań nad AI. Jego skalowalność, wydajność i zdolność do tworzenia niezwykle szczegółowych obrazów czyni go potencjalnym narzędziem o szerokim zastosowaniu w takich dziedzinach jak gaming, projektowanie przemysłowe, czy tworzenie treści marketingowych.

Podsumowując, Infinity definiuje granice możliwości sztucznej inteligencji na nowo, inspirując badaczy do dalszego rozwijania technologii generatywnych. Jego sukces jest dowodem na to, że innowacyjność w rozwiązaniach takich jak tokenizacja bitowa czy mechanizmy samokorekty może zrewolucjonizować podejście do generowania obrazów w przyszłości.