Nowatorski framework DEIM: Udoskonalenie DETR dla szybszego uczenia i precyzyjniejszego wykrywania obiektów

Modele detekcji bazujące na transformatorach: rewolucja w precyzji i szybkości

Modele detekcji obiektów oparte na transformatorach zdobywają coraz większą popularność dzięki zastosowaniu strategii jedno-do-jednego (O2O). W odróżnieniu od tradycyjnych modeli detekcji wiele-do-jednego (M2O) takich jak YOLO, które wymagają zastosowania tłumienia nie-maksymalnego (NMS) w celu redukcji redundancji, modele DETR (Detection Transformer) wykorzystują algorytm węgierski oraz wielogłowicową uwagę (ang. multi-head attention). To podejście pozwala na bezpośrednie przypisanie wykrytych obiektów do ich rzeczywistych odpowiedników, eliminując tym samym konieczność stosowania pośrednich procesów takich jak NMS. Chociaż modele DETR skutecznie rozwiązują problemy z opóźnieniami oraz niestabilnością w detekcji jedno-do-jednego, ich główną słabością jest wolna konwergencja.

Najświeższe badania wskazują, że spowolniona konwergencja w takich modelach wynika głównie z dwóch czynników: rzadkiej superwizji oraz niskiej jakości dopasowania. Mechanizm przypisania jednego pozytywnego próbnika na docelowy obiekt skutkuje ograniczoną liczbą pozytywnych próbek podczas treningu, co szczególnie negatywnie wpływa na detekcję małych obiektów. Drugim wyzwaniem są niskiej jakości dopasowania generowane przez ograniczoną liczbę zapytań w modelu DETR. Brak dostosowania przestrzennego do obiektów prowadzi do sytuacji, w której ramki o niskim współczynniku pokrycia (IoU) mogą otrzymać wysokie wyniki jakości.

W odpowiedzi na te problemy, naukowcy opracowują nowe rozwiązania, takie jak włączenie mechanizmu wiele-do-jednego (M2O) w modele jedno-do-jednego (O2O), jednakże takie podejście zwiększa obciążenie obliczeniowe i redundancję w predykcjach. Najnowsze badania przedstawiają innowacyjne rozwiązanie, które usprawnia mechanizmy przypisania w O2O, bez kompromisu w gęstości superwizji.

DEIM: Nowatorski mechanizm detekcji

Badacze z Intellindust AI Lab opracowali nowy mechanizm detekcji oparty na transformatorach o nazwie DEIM (Dense O2O with Matchability Aware Loss). Łączy on dwa unikalne podejścia – gęstą strukturę O2O oraz stratę świadomą dopasowania (MAL). Pierwszy z elementów koncentruje się na zwiększeniu liczby dopasowań w obrazie treningowym, co przekłada się na większą liczbę pozytywnych próbek. MAL natomiast optymalizuje jakość dopasowania poprzez włączenie współczynnika IoU między zapytaniami a obiektami do funkcji straty, co pozwala na bardziej precyzyjne kary za niskiej jakości dopasowania.

Jednym z głównych atutów DEIM jest jego prostota implementacji. Gęsta struktura O2O może być zrealizowana dzięki klasycznym metodom augmentacji danych, takim jak mozaika czy mieszanie obrazów (mosaic lub mixups). W efekcie DEIM oferuje gęstość superwizji porównywalną z podejściem M2O, ale bez dodatkowych kosztów obliczeniowych. Co więcej, MAL zbalansowuje wagi strat między próbkami pozytywnymi i negatywnymi, unikając nadmiernego skupienia na ramkach o wysokiej jakości.

Praktyczne zastosowanie i przewaga nad innymi modelami

Aby lepiej zrozumieć działanie DEIM, warto przyjrzeć się prostemu przykładowi. Obraz treningowy jest dzielony na cztery kwadranty, które następnie łączone są w jeden złożony obraz o tych samych wymiarach. Dzięki temu prostemu zabiegowi liczba celów zwiększa się czterokrotnie, przy jednoczesnym zachowaniu struktury przypisania. Wprowadzenie MAL do procesu trenowania dodatkowo zapewnia wyższą jakość dopasowań, co czyni model bardziej precyzyjnym i stabilnym.

Aby ocenić skuteczność DEIM, naukowcy zaimplementowali tę technologię w istniejących modelach DETR, takich jak D-FINE-L oraz D-FINE-X. Następnie porównali te modele z innymi wiodącymi rozwiązaniami, takimi jak YOLOv8 oraz RTDETRv2. Wyniki jasno wskazują na przewagę DEIM – modele oparte na tej technologii wykazały lepszą dokładność detekcji, krótszy czas treningu oraz niższe opóźnienia w inferencji. Przykładowo, D-FINE, jeden z najnowszych modeli DETR, dzięki DEIM osiągnął wzrost wskaźnika AP o 0,7 oraz redukcję kosztów treningu o 30%. Szczególnie duże postępy zaobserwowano w detekcji małych obiektów, gdzie uzyskano wzrost AP o 1,5 punktu.

Podsumowanie

DEIM to przełomowy framework, który rozwiązuje problem wolnej konwergencji w modelach DETR. Dzięki prostocie implementacji oraz znacznej poprawie wyników w detekcji małych obiektów, DEIM stanowi doskonałe rozwiązanie dla real-time detection. Połączenie gęstej struktury O2O z inteligentnym mechanizmem strat (MAL) czyni ten model godnym uwagi zarówno w środowisku badawczym, jak i praktycznych zastosowaniach przemysłowych.


Opracowano na podstawie najnowszych badań w dziedzinie uczenia maszynowego. Wszystkie prawa i zasługi należą do autorów projektu. Szczegóły można znaleźć w publikacji naukowej oraz na stronie GitHub projektu.