Lista dużych modeli MoE (Mixture of Experts): Architektura, Wydajność i Innowacje w skalowalnych rozwiązaniach AI
Modele Mixture of Experts (MoE) stanowią istotny przełom w dziedzinie uczenia maszynowego, oferując wydajne podejście do obsługi modeli o dużej skali. W przeciwieństwie do modeli gęstych, gdzie wszystkie parametry są aktywne podczas wnioskowania, modele MoE aktywują jedynie część swoich parametrów. Dzięki temu podejściu możliwe jest połączenie efektywności obliczeniowej ze skalowalnością, co sprawia, że modele te są wysoce atrakcyjne w wielu zastosowaniach. Modele MoE osiągają tę efektywność poprzez aktywowanie mniejszej liczby parametrów, jednocześnie utrzymując dużą całkowitą liczbę parametrów. Taka konstrukcja wprowadza unikalne kompromisy, w tym większą złożoność architektury, ale jednocześnie zapewnia większą elastyczność dla programistów i badaczy.
Przegląd największych modeli MoE
Przyjrzyjmy się największym modelom Mixture of Experts wydanym do tej pory, skupiając się na ich architekturze, możliwościach i wydajności. Wszystkie te modele są publicznie dostępne i zawierają ponad 100 miliardów parametrów. Analiza jest ułożona chronologicznie według daty wydania, a tam, gdzie dostępne, podano rankingi z tablicy wyników LMSYS (stan na 4 listopada 2024).
Google Switch-C Transformer
Jednym z pierwszych modeli w przestrzeni MoE jest Switch-C Transformer wydany przez Google w listopadzie 2022 roku. Ten model ma niesamowitą liczbę 1,6 biliona parametrów, wspieranych przez 2048 ekspertów. Choć obecnie model ten jest uznawany za przestarzały i nie jest oceniany na nowoczesnych benchmarkach, takich jak LMSYS, jego znaczenie historyczne jest ogromne. Switch-C Transformer pozostaje fundamentem dla przyszłych innowacji w tej dziedzinie. Dostępne są także mniejsze warianty tego modelu, co umożliwia łatwiejsze eksperymenty.
Grok-1 i Grok-2
W marcu 2024 roku firma X AI wydała model Grok-1, który zawiera 314 miliardów parametrów, z czego 86 miliardów jest aktywnych podczas wnioskowania. Model ten korzysta z mniejszej liczby ekspertów (8), z których tylko dwóch jest aktywnych podczas jednego zadania wnioskowania. Grok-1 oferuje kontekst o długości 8k, co sprawia, że jest odpowiedni dla umiarkowanie długich sekwencji wejściowych, choć nie jest konkurencyjny w stosunku do nowszych modeli. Mimo ograniczonej adopcji, jego następca Grok-2 wykazuje obiecujące wyniki, zajmując piąte miejsce w wybranych zadaniach na LMSYS.
DBRX od Databricks
W marcu 2024 roku firma Databricks wydała model DBRX, który posiada 132 miliardy parametrów, z czego 36 miliardów jest aktywnych. Model ten wyróżnia się długością kontekstu wynoszącą aż 32k, co pozwala mu efektywnie przetwarzać dłuższe sekwencje wejściowe. DBRX wspiera różne backendy, takie jak llamacpp, exllama v2 oraz vLLM, co czyni go wszechstronnym wyborem. Jednak jego miejsce na LMSYS (90. ogólne i 78. dla trudnych zapytań w języku angielskim) sugeruje, że ma jeszcze pole do poprawy w zakresie jakości i adopcji.
Mixtral 8x22B od Mistral AI
W kwietniu 2024 roku firma Mistral AI zaprezentowała model Mixtral 8x22B, który zawiera 141 miliardów parametrów, z czego 39 miliardów jest aktywnych podczas wnioskowania. Model ten aktywnie wybiera dwóch ekspertów z dostępnych ośmiu, w zależności od wejściowych danych. Z długością kontekstu wynoszącą 64k, Mixtral jest dobrze przystosowany do zadań wymagających obszernych danych wejściowych. Jego miejsce na LMSYS (70. ogólne i 66. dla trudnych zapytań) wskazuje na umiarkowaną wydajność, jednak wsparcie dla wielu platform czyni go użytecznym narzędziem.
Snowflake Arctic
Także w kwietniu 2024 roku został wydany model Arctic od firmy Snowflake, który zawiera 480 miliardów parametrów, z czego tylko 17 miliardów jest aktywnych podczas wnioskowania. Arctic stosuje unikalny projekt, łącząc komponenty rzadkie (7 miliardów parametrów) i gęste (10 miliardów), które są rozmieszczone pomiędzy 128 ekspertów. Niestety, jego wydajność jest niska, zajmując 99. miejsce na LMSYS oraz 101. dla trudnych zapytań. Ograniczona długość kontekstu wynosząca 4k dodatkowo ogranicza jego zastosowanie.
Skywork-MoE
W czerwcu 2024 roku firma Skywork dołączyła do przestrzeni MoE, wydając model Skywork-MoE. Model ten zawiera 146 miliardów parametrów, z czego 22 miliardy są aktywne podczas wnioskowania, a podczas tego procesu angażuje 16 ekspertów. Jego długość kontekstu wynosi 8k, co wspiera zadania o umiarkowanej długości, jednak brak rankingów na LMSYS sugeruje ograniczoną adopcję lub testowanie.
Jamba 1.5 Large od AI21 Labs
W sierpniu 2024 roku firma AI21 Labs wydała model Jamba 1.5 Large, który łączy architektury MoE i mamba-transformer. Model ten zawiera 398 miliardów parametrów, z czego 98 miliardów jest aktywnych, a jego długość kontekstu wynosząca 256k czyni go idealnym do zadań wymagających obsługi długich sekwencji. Jamba 1.5 Large zajmuje wysokie miejsca na LMSYS (34. ogólne i 28. dla trudnych zapytań), a także wyróżnia się w benchmarkach kontekstowych, takich jak RULER.
DeepSeek V2.5
Wydany we wrześniu 2024 roku model DeepSeek V2.5 obecnie przewodzi w przestrzeni MoE pod względem wydajności. Model ten zawiera 236 miliardów parametrów, z czego 21 miliardów jest aktywnych podczas wnioskowania. Jego architektura wykorzystuje 160 ekspertów, z których sześciu jest wybieranych dynamicznie, a dwóch jest współdzielonych, co daje łącznie osiem aktywnych parametrów. Dzięki długości kontekstu wynoszącej 128k, DeepSeek V2.5 doskonale nadaje się do zadań wymagających długich sekwencji. Zajmuje 18. miejsce ogólnie na LMSYS i 6. w kategorii trudnych zapytań, przewyższając inne dostępne modele MoE.
Tencent Hunyuan Large
Najbardziej nowoczesnym dodatkiem do rodziny MoE jest Tencent Hunyuan Large, wydany w listopadzie 2024 roku. Model ten zawiera 389 miliardów parametrów, z czego 52 miliardy są aktywne podczas wnioskowania. Jego projekt zakłada dynamiczny wybór jednego eksperta, podczas gdy drugi jest współdzielony, co skutkuje dwoma aktywnymi parametrami. Długość kontekstu wynosząca 128k sprawia, że jest to silny konkurent dla DeepSeek, choć model ten nie jest jeszcze oceniany na LMSYS.
Podsumowanie
Spośród omówionych modeli, DeepSeek V2.5 jest obecnie najwydajniejszym dostępnym rozwiązaniem w przestrzeni MoE. Jednak nowsze modele, takie jak Hunyuan Large oraz oczekiwany Grok-2, mogą wkrótce zmienić układ sił. Modele hybrydowe, takie jak Jamba 1.5 Large, również podkreślają zalety łączenia różnych architektur, szczególnie w zadaniach wymagających obsługi długich kontekstów.
Modele MoE to dynamicznie rozwijająca się dziedzina sztucznej inteligencji, oferująca skalowalne i wydajne rozwiązania dostosowane do różnorodnych aplikacji. Programiści i badacze są zachęcani do eksploracji tych modeli w zależności od swoich specyficznych potrzeb, wykorzystując ich unikalne architektury do optymalizacji wyników.