21 lutego, 2025

ByteDance przedstawia OmniHuman-1: Kompleksowy model do tworzenia filmów z ludźmi na podstawie jednego zdjęcia i sygnałów ruchu

Nowoczesna animacja postaci dzięki OmniHuman-1

Rozwój animacji postaci z wykorzystaniem sztucznej inteligencji osiągnął nowy poziom dzięki modelowi OmniHuman-1 opracowanemu przez ByteDance. Pomimo postępów w generowaniu realistycznych ruchów ciała, większość dotychczasowych modeli borykała się z ograniczeniami w zakresie płynności animacji, dostosowania do różnych proporcji sylwetki i skalowalności. Wiele rozwiązań opierało się na filtrowanych zbiorach danych, co utrudniało ich adaptację do różnorodnych scenariuszy. Chociaż animacja twarzy uległa znaczącej poprawie, realistyczne odwzorowanie pełnego ciała nadal stanowiło wyzwanie. OmniHuman-1 stawia czoła tym problemom, oferując nowatorskie podejście do nauki ruchu.

OmniHuman-1 – AI generująca realistyczne animacje

OmniHuman-1 to model sztucznej inteligencji oparty na technologii Diffusion Transformer, który pozwala generować realistyczne animacje ludzi na podstawie pojedynczego obrazu oraz sygnałów ruchu. Może korzystać z różnych źródeł danych wejściowych, takich jak audio, wideo lub ich kombinacja. W odróżnieniu od wcześniejszych metod skupiających się głównie na animacji portretów lub statycznych sylwetek, OmniHuman-1 wykorzystuje technikę omni-conditions training. Dzięki temu model skutecznie skaluje dane ruchu, poprawiając realizm gestów, płynność ruchu i interakcje człowieka z otoczeniem.

Wszechstronność modelu

Jednym z kluczowych atutów OmniHuman-1 jest jego zdolność do obsługi różnych form wejściowych:

  • Animacja napędzana dźwiękiem – generowanie zsynchronizowanych ruchów ust i gestów na podstawie mowy.
  • Animacja na podstawie wideo – odwzorowanie ruchu z nagrania referencyjnego.
  • Połączenie wielu źródeł – synchronizacja audio i wideo w celu precyzyjnej kontroli różnych części ciała.

Dodatkowo OmniHuman-1 radzi sobie z różnymi proporcjami sylwetki i formatami obrazu, co czyni go niezwykle elastycznym narzędziem do zastosowań wymagających animacji postaci.

Zaawansowane fundamenty techniczne

Model wykorzystuje architekturę Diffusion Transformer (DiT), łączącą różne warunki ruchu w celu uzyskania realistycznych animacji. Kluczowe innowacje obejmują:

  1. Multimodalne warunkowanie ruchu – integracja tekstu, audio i pozycji ciała podczas treningu, co pozwala na adaptację do różnych stylów animacji.
  2. Skalowalność treningu – model wykorzystuje zarówno silne, jak i słabe warunki ruchu, dzięki czemu potrafi generować wysokiej jakości animacje przy minimalnym wkładzie danych.
  3. Omni-Conditions Training – strategia treningowa oparta na dwóch zasadach:
    • Silne warunki (np. animacja oparta na pozycji ciała) wykorzystują słabsze warunki (np. tekst, audio) do zwiększenia różnorodności danych.
    • Proporcje treningu są dostosowywane tak, aby zapewnić równowagę między różnymi modalnościami.
  4. Realistyczna generacja ruchów – OmniHuman-1 doskonale odwzorowuje gesty współwystępujące z mową, naturalne ruchy głowy oraz szczegółowe interakcje dłoni.
  5. Wszechstronna adaptacja stylu – model może generować nie tylko realistyczne postacie, ale również animacje w stylu kreskówkowym czy antropomorficznym.

Wydajność i porównanie z innymi modelami

OmniHuman-1 został porównany z czołowymi modelami animacyjnymi, takimi jak Loopy, CyberHost czy DiffTED. Wyniki testów wykazały jego przewagę w kilku kluczowych metrykach:

  • Precyzja synchronizacji ruchu ust:
    • OmniHuman-1: 5,255
    • Loopy: 4,814
    • CyberHost: 6,627
  • Fréchet Video Distance (FVD) (im niższa wartość, tym lepiej):
    • OmniHuman-1: 15,906
    • Loopy: 16,134
    • DiffTED: 58,871
  • Ekspresyjność gestów (HKV):
    • OmniHuman-1: 47,561
    • CyberHost: 24,733
    • DiffGest: 23,409
  • Dokładność odwzorowania ruchu rąk (HKC):
    • OmniHuman-1: 0,898
    • CyberHost: 0,884
    • DiffTED: 0,769

Badania potwierdzają, że model skutecznie łączy różne warunki wejściowe – obraz, dźwięk i pozycję ciała – co pozwala na generowanie naturalnych i wyrazistych animacji.

Przyszłość animacji AI

OmniHuman-1 stanowi przełom w dziedzinie generatywnej animacji postaci. Dzięki wykorzystaniu omni-conditions training oraz architektury DiT, ByteDance stworzyło narzędzie umożliwiające płynne przejście od statycznego obrazu do dynamicznej animacji. Możliwość animowania postaci na podstawie pojedynczego obrazu przy użyciu dźwięku, wideo lub ich kombinacji sprawia, że model znajdzie zastosowanie w takich obszarach jak:

  • tworzenie wirtualnych influencerów,
  • animacja cyfrowych awatarów,
  • rozwój postaci w grach wideo,
  • wsparcie dla produkcji filmowej opartej na AI.

W miarę jak technologie generatywne AI stają się coraz bardziej zaawansowane, OmniHuman-1 pokazuje, że przyszłość animacji będzie bardziej elastyczna, skalowalna i dostosowana do różnorodnych potrzeb twórców.