HyperStyle, adaptacja StyleGAN do edycji obrazu

Zespół Naukowcy z Uniwersytetu w Tel Awiwie wypuścili niedawno HyperStyle, który jest odwrócona wersja system uczenia maszynowego NVIDIA StyleGAN2 który został przeprojektowany w celu odtworzenia brakujących elementów podczas edycji rzeczywistych materiałów filmowych.

StyleGAN charakteryzuje się możliwością syntezy nowych twarzy osób o realistycznym wyglądzie, ustawienie parametrów takich jak wiek, płeć, długość włosów, charakter uśmiechu, kształt nosa, kolor skóry, okulary, kąt fotografowania.

Ponadto HyperStyle umożliwia zmianę podobnych parametrów w istniejących, Innymi słowy, pozwala na tworzenie fotografii bez modyfikowania ich charakterystycznych cech i zachowania rozpoznawalności oryginalnej twarzy.

HyperStyle wprowadza hipersieci, aby dowiedzieć się, jak udoskonalić wagi wcześniej przeszkolonego generatora StyleGAN w odniesieniu do danego obrazu wejściowego. Takie postępowanie umożliwia rekonstrukcje na poziomie optymalizacji z czasami wnioskowania podobnymi do enkodera i wysoką możliwością edycji.

Na przykład podczas używania HyperStyle może symulować zmianę wieku osoby na zdjęciu, zmienić fryzurę, dodać okulary, brodę lub wąsy, sprawić, by obrazek wyglądał jak postać z kreskówki lub ręcznie narysowany obrazek, zrobić smutną lub radosną minę.

W tym przypadku system można wyszkolić nie tylko do zmiany twarzy ludzi, ale także dowolnego obiektu, np na przykład, aby edytować obrazy samochodów.

Większość prac badających inwersję poszukuje ukrytego kodu, który z większą precyzją rekonstruuje określony obraz. W niektórych niedawnych pracach zaproponowano precyzyjne dostrojenie ciężarów generatorów dla poszczególnych obrazów w celu uzyskania wysokiej jakości rekonstrukcji dla danego obrazu docelowego. W przypadku HyperStyle naszym celem jest wprowadzenie tych podejść do dostrajania generatorów do sfery aplikacji interaktywnych poprzez dostosowanie ich do podejścia opartego na enkoderze.

Szkolimy pojedynczą hipersieć, aby dowiedzieć się, jak udoskonalić wagi generatora w odniesieniu do pożądanego obrazu docelowego. Ucząc się tego mapowania, HyperStyle skutecznie przewiduje żądaną wagę generatora w czasie krótszym niż 2 sekundy na obraz, dzięki czemu ma zastosowanie w szerokim zakresie zastosowań.

Proponowana metoda ma na celu rozwiązanie problemu odbudowy brakujących części obrazu podczas edycji. Wcześniej proponowane techniki dotyczyły równowagi między rekonstrukcją a edycją poprzez precyzyjne dostrajanie imagera w celu zastąpienia części obrazu docelowego podczas odtwarzania pierwotnie brakujących obszarów edytowalnych. Wadą takiego podejścia jest konieczność długotrwałego ukierunkowanego uczenia sieci neuronowej dla każdego obrazu.

Metoda oparta na algorytmie StyleGAN pozwala na wykorzystanie typowego modelu, wstępnie przeszkolonych na wspólnych zbiorach obrazów, aby wygenerować elementy charakterystyczne oryginalnego obrazu z poziomem pewności porównywalnym z algorytmami wymagającymi indywidualnego uczenia modelu dla każdego obrazu.

Jedną z zalet nowej metody jest możliwość modyfikowania obrazów z wydajnością zbliżoną do czasu rzeczywistego model jest gotowy do trenowania przygotowany dla tych ludzi, samochodów i zwierząt na podstawie kolekcji z Flickr-the Faces-HQ (FFHQ, 70,000 16 wysokiej jakości obrazów PNG przedstawiających twarze ludzi), The Stanford Cars (XNUMX XNUMX zdjęć samochodów) i AFHQ (zdjęcia zwierząt).

Ponadto, dostarczany jest zestaw narzędzi do trenowania modeli, a także gotowe do użycia wytrenowane modele typowych enkoderów i generatorów odpowiednich do użycia z nimi. Na przykład dostępne są generatory do tworzenia obrazów w stylu postaci Toonify, Pixar, tworzenia szkiców, a nawet stylizacji na księżniczki Disneya.

W końcu Dla tych, którzy chcą dowiedzieć się więcej o tym narzędziu, możesz sprawdzić szczegóły W poniższym linku.

Należy również wspomnieć, że kod jest napisany w Pythonie przy użyciu frameworka PyTorch i jest objęty licencją MIT. Możesz sprawdzić kod na poniższy link.


Zostaw swój komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

*

*

  1. Odpowiedzialny za dane: AB Internet Networks 2008 SL
  2. Cel danych: kontrola spamu, zarządzanie komentarzami.
  3. Legitymacja: Twoja zgoda
  4. Przekazywanie danych: Dane nie będą przekazywane stronom trzecim, z wyjątkiem obowiązku prawnego.
  5. Przechowywanie danych: baza danych hostowana przez Occentus Networks (UE)
  6. Prawa: w dowolnym momencie możesz ograniczyć, odzyskać i usunąć swoje dane.