Naukowcy z MBZUAI Prezentują Atlas-Chat (2B, 9B i 27B): Rodzina Otwartych Modeli Dopasowanych do Instrukcji w Języku Darija (Marokańska Arabszczyzna)

Natural Language Processing (NLP) w ostatnich latach osiągnęło niesamowity postęp, szczególnie dzięki wykorzystaniu dużych modeli językowych (LLM). Jednak jednym z głównych problemów związanych z tymi modelami jest ich skoncentrowanie na językach bogatych w dane, takich jak angielski, co powoduje, że wiele języków i dialektów pozostaje niedoreprezentowanych. Przykładem takiego dialektu jest marokański arabski, znany również jako Darija, który mimo że jest główną formą komunikacji codziennej dla ponad 40 milionów osób, otrzymał bardzo mało uwagi ze strony badaczy i twórców LLM. Ze względu na brak rozbudowanych zbiorów danych, odpowiednich standardów gramatycznych oraz odpowiednich benchmarków, Darija została sklasyfikowana jako język nisko zasobny. To sprawia, że jest często pomijany przez twórców dużych modeli językowych.

Jednym z dodatkowych wyzwań włączenia Darija do LLM jest jego unikalne połączenie różnych języków, takich jak klasyczny arabski (MSA), języki Amazigh, francuski oraz hiszpański. Ponadto, Darija rozwija swoją formę pisemną, która wciąż brakuje standaryzacji. Ta asymetria pomiędzy dialektalnym arabskim, takim jak Darija, a bardziej rozpowszechnionymi formami arabskiego, prowadzi do marginalizowania tego dialektu, mimo jego powszechnego użycia. W konsekwencji, modele AI mają trudności z efektywnym dostosowaniem się do potrzeb użytkowników mówiących tym językiem.

Poznaj Atlas-Chat!

Uniwersytet Sztucznej Inteligencji im. Mohameda bin Zayeda (MBZUAI) ogłosił wydanie Atlas-Chat, rodziny otwartych modeli dostrojonych do instrukcji, stworzonych specjalnie dla Darija – kolokwialnego języka arabskiego używanego w Maroku. Wprowadzenie Atlas-Chat stanowi istotny krok w kierunku rozwiązania problemów związanych z językami nisko zasobnymi. Atlas-Chat składa się z trzech modeli o różnej wielkości parametrów – 2 miliardy, 9 miliardów i 27 miliardów – oferując użytkownikom szeroką gamę możliwości w zależności od ich potrzeb.

Modele te zostały dostrojone do instrukcji, co pozwala im efektywnie wykonywać różne zadania, takie jak interakcje konwersacyjne, tłumaczenia, streszczanie tekstów oraz tworzenie treści w języku Darija. Oprócz tego, Atlas-Chat ma na celu promowanie badań kulturowych poprzez lepsze zrozumienie językowego dziedzictwa Maroka. Jest to szczególnie ważne, ponieważ wpisuje się w misję uczynienia zaawansowanej sztucznej inteligencji dostępną dla społeczności, które do tej pory były niedoreprezentowane, pomagając w zmniejszeniu przepaści pomiędzy językami bogatymi w zasoby a tymi nisko zasobnymi.

Techniczne szczegóły i korzyści Atlas-Chat

Modele Atlas-Chat zostały opracowane poprzez konsolidację istniejących zasobów językowych Darija oraz tworzenie nowych zbiorów danych zarówno ręcznie, jak i syntetycznie. Ważnym elementem jest zbiór danych Darija-SFT-Mixture, który zawiera 458 000 próbek instrukcji, zebranych z istniejących zasobów oraz wygenerowanych syntetycznie z takich platform jak Wikipedia i YouTube. Dodatkowo, wysokiej jakości zbiory danych z języka angielskiego zostały przetłumaczone na Darija z zachowaniem rygorystycznej kontroli jakości.

Modele zostały dostrojone na bazie tych danych przy użyciu różnych podstawowych modeli, takich jak Gemma 2. Dzięki tak starannemu procesowi budowy, Atlas-Chat przewyższa inne specjalizowane modele arabskie, takie jak Jais i AceGPT, o znaczące marginesy. Na przykład w nowo wprowadzonym benchmarku DarijaMMLU, obejmującym zadania dyskryminacyjne i generatywne, Atlas-Chat osiągnął wzrost wydajności o 13% w porównaniu z większym modelem o 13 miliardach parametrów. To pokazuje, że Atlas-Chat lepiej podąża za instrukcjami, generuje odpowiedzi o większym znaczeniu kulturowym i skuteczniej wykonuje standardowe zadania NLP w Darija.

Dlaczego Atlas-Chat ma znaczenie?

Wprowadzenie Atlas-Chat ma kluczowe znaczenie z kilku powodów. Po pierwsze, rozwiązuje długotrwały problem w rozwoju sztucznej inteligencji, koncentrując się na niedoreprezentowanym języku. Marokański arabski, który ma złożoną strukturę kulturową i językową, często jest pomijany na rzecz klasycznego arabskiego (MSA) lub innych dialektów bogatych w dane. Dzięki Atlas-Chat, MBZUAI dostarcza potężne narzędzie do ulepszania komunikacji i tworzenia treści w Darija, wspierając aplikacje takie jak asystenci konwersacyjni, automatyczne streszczanie tekstów i bardziej zniuansowane badania kulturowe.

Po drugie, dzięki oferowaniu modeli o różnych rozmiarach parametrów, Atlas-Chat zapewnia elastyczność i dostępność, odpowiadając na potrzeby szerokiej gamy użytkowników – od lekkich aplikacji wymagających mniej zasobów obliczeniowych po bardziej zaawansowane zadania. Wyniki ewaluacji Atlas-Chat podkreślają jego skuteczność; na przykład Atlas-Chat-9B uzyskał wynik 58,23% w benchmarku DarijaMMLU, znacznie przewyższając modele najnowszej generacji, takie jak AceGPT-13B. Takie osiągnięcia wskazują na potencjał Atlas-Chat w dostarczaniu wysokiej jakości rozumienia języka dla użytkowników mówiących po marokańsku.

Podsumowanie

Atlas-Chat to przełomowe osiągnięcie dla marokańskiego arabskiego oraz innych dialektów nisko zasobnych. Stworzenie solidnego i otwartego rozwiązania dla Darija przez MBZUAI stanowi istotny krok w kierunku uczynienia zaawansowanej sztucznej inteligencji bardziej dostępną dla szerszego grona odbiorców. Użytkownicy będą mogli lepiej współpracować z technologią w swoim własnym języku i kontekście kulturowym. Ten projekt nie tylko eliminuje asymetrię w wsparciu AI dla języków nisko zasobnych, ale także wyznacza standardy dla przyszłego rozwoju w niedoreprezentowanych obszarach językowych.

Inicjatywy takie jak Atlas-Chat są kluczowe w zapewnianiu, że korzyści z technologii są dostępne dla wszystkich, niezależnie od języka, którym się posługują. Dzięki dalszym ulepszeniom, Atlas-Chat ma potencjał do zniwelowania barier komunikacyjnych i poprawienia cyfrowego doświadczenia dla milionów użytkowników Darija.