HyperStyle, adaptace StyleGAN pro úpravu obrázků

Tým Vědci z Tel Avivské univerzity nedávno představili HyperStyle, který je obrácená verze systému strojového učení NVIDIA StyleGAN2 který byl přepracován tak, aby při úpravách obrázků ze skutečného světa znovu vytvořil chybějící kousky.

StyleGAN se vyznačuje tím, že umožňuje syntetizovat nové tváře lidí s realistickým vzhledem, nastavení parametrů, jako je věk, pohlaví, délka vlasů, charakter úsměvu, tvar nosu, barva pleti, brýle a fotografický úhel.

Kromě toho, HyperStyle umožňuje měnit podobné parametry ve stávajících, Jinými slovy, umožňuje vytvářet fotografie bez úpravy jejich charakteristických rysů a zachování rozpoznatelnosti původní tváře.

HyperStyle představuje hypersítě, aby se naučil, jak zpřesnit váhy dříve trénovaného generátoru StyleGAN vzhledem k danému vstupnímu obrázku. To umožňuje přestavby úrovně optimalizace s inferenčními časy podobnými kodéru a vysokou upravitelností.

Například při použití HyperStyle, dokáže na fotografii simulovat změnu věku člověka, změnit účes, přidat brýle, vousy nebo knír, vytvořit obrázek jako kreslená postavička nebo ručně nakreslený obrázek, udělat smutný nebo šťastný výraz ve tváři.

V tomto případě Systém lze natrénovat nejen pro změnu tváří lidí, ale také pro jakýkoli objekt, pro Například pro úpravu obrázků aut.

Většina prací, které studují inverzi, hledá latentní kód, který přesněji rekonstruuje daný obraz. Některá nedávná práce navrhla jemné doladění hmotnosti generátoru pro dosažení vysoce kvalitní rekonstrukce pro daný cílový obraz. S HyperStyle je naším cílem přenést tyto přístupy k ladění generátoru do oblasti interaktivních aplikací jejich přizpůsobením přístupu založenému na kodéru.

Trénovali jsme jednu hypersíť, abychom se naučili, jak upřesnit váhy generátoru vzhledem k požadovanému cílovému obrazu. Díky tomu, že se HyperStyle naučí toto mapování, efektivně předpovídá cílové hmotnosti generátoru za méně než 2 sekundy na obrázek, takže je použitelný pro širokou škálu aplikací.

Navrhovaná metoda si klade za cíl vyřešit problém rekonstrukce chybějících částí obrazu během úprav. Dříve navržené techniky řešily rovnováhu mezi rekonstrukcí a úpravou jemným doladěním zobrazovače tak, aby nahradil části cílového obrazu a zároveň znovu vytvořil upravitelné oblasti, které původně chyběly. Nevýhodou takových přístupů je nutnost dlouhodobého cíleného tréninku neuronové sítě pro každý snímek.

Metoda založená na algoritmu StyleGAN umožňuje použít typický model, předtrénované na běžných kolekcích obrázků, aby generovaly charakteristické prvky původního obrázku s úrovní spolehlivosti srovnatelnou s algoritmy, které vyžadují individuální trénování modelu pro každý obrázek.

Jednou z výhod nové metody je možnost upravovat snímky s výkonem blízkým reálnému času, kromě toho, že model je připraven k tréninku připravený pro tyto lidi, auta a zvířata na základě kolekcí z Flickr-the Faces-HQ (FFHQ, 70,000 16 vysoce kvalitních snímků PNG tváří lidí), The Stanford Cars (XNUMX XNUMX snímků aut) a AFHQ (fotografie zvířat).

Navíc, je k dispozici sada nástrojů pro trénování vašich modelůstejně jako připravené k použití vyškolené modely typických kodérů a generátorů vhodných pro použití s nimi. K dispozici jsou například generátory pro vytváření obrázků ve stylu Toonify, postav Pixar, vytváření náčrtů a dokonce i styling jako princezny Disney.

Konečně pro ty, kteří mají zájem dozvědět se více Podrobnosti o tomto nástroji si můžete ověřit Na následujícím odkazu.

Je také důležité zmínit, že kód je napsán v Pythonu pomocí frameworku PyTorch a je licencován MIT. Kód můžete zkontrolovat na následující odkaz.

LinuxAdictos

HyperStyle, adaptace StyleGAN pro úpravu obrázků

Zanechte svůj komentář Zrušit odpověď