StyleGAN3, das maschinelle Lernsystem für die Gesichtssynthese von Nvidi

Vor kurzem NVIDIA hat den Quellcode für StyleGAN3 veröffentlicht, ein maschinelles Lernsystem, das auf generativen Adverse Neural Networks (GAN) basiert, um realistische Bilder von menschlichen Gesichtern zu synthetisieren.

Im StyleGAN3 stehen gebrauchsfertig trainierte Modelle zum Download bereit, die in der Kollektion trainiert wurden Flickr-Faces-HQ (FFHQ), das 70 hochwertige PNG-Bilder von menschlichen Gesichtern (1024 × 1024) enthält. Darüber hinaus gibt es Modelle, die auf Basis der Sammlungen AFHQv2 (Fotografien von Tiergesichtern) und Metfaces (Bilder von Menschengesichtern aus klassischen Gemäldeporträts) gebaut wurden.

Über StyleGAN3

das Design konzentriert sich auf Gesichter, aber das System kann trainiert werden, um jede Art von Objekt zu generieren, wie Landschaften und Autos. Was ist mehr, Es werden Werkzeuge zum Selbstlernen des neuronalen Netzes bereitgestellt mit eigenen Bildsammlungen. Erfordert eine oder mehrere NVIDIA-Grafikkarten (Tesla V100 oder A100 GPUs empfohlen), mindestens 12 GB RAM, PyTorch 1.9 und CUDA 11.1+ Toolkit. Um die Künstlichkeit der empfangenen Gesichter zu bestimmen, wird ein spezieller Detektor entwickelt.

das System ermöglicht es, ein Bild eines neuen Gesichts basierend auf der Interpolation der Merkmale mehrerer Gesichter zu synthetisieren, die ihre inhärenten Merkmale kombiniert, zusätzlich zur Anpassung des endgültigen Bildes an das erforderliche Alter, Geschlecht, Haarlänge, Lächelncharakter, Nasenform, Hautfarbe, Brille, Aufnahmewinkel.

Der Generator behandelt das Bild als Sammlung von Stilen, trennt automatisch die charakteristischen Details (Sommersprossen, Haare, Brille) der allgemeinen High-Level-Attribute (Körperhaltung, Geschlecht, altersbedingte Veränderungen) und erlaubt diese durch Gewichtungsfaktoren beliebig mit der Definition dominanter Eigenschaften zu kombinieren und dadurch Bilder zu erzeugen, die sie sind anscheinend nicht von tatsächlichen Fotografien zu unterscheiden.

Die erste Version der StyleGAN-Technologie (veröffentlicht im Jahr 2019), gefolgt von einer verbesserten Version von StyleGAN2 im Jahr 2020, die die Bildqualität verbessert und einige Artefakte entfernt. Gleichzeitig blieb das System statisch, das heißt, es ließ keine realistischen Animationen oder Gesichtsbewegungen zu. Bei der Entwicklung von StyleGAN3 war das Hauptziel, die Technologie für den Einsatz in Animation und Video anzupassen.

StyleGAN3 verwendet eine neu gestaltete aliasing-freie Imaging-Architekturay bietet neue Trainingsszenarien für neuronale Netze und enthält auch neue Dienstprogramme für interaktive Visualisierung (visualizer.py), Analyse (avg_spectra.py) und Videogenerierung (gen_video.py). Die Implementierung reduziert auch den Speicherverbrauch und beschleunigt den Lernprozess.

Ein wesentliches Merkmal der StyleGAN3-Architektur war der Übergang zur Interpretation aller Signale im neuronalen Netz in Form von kontinuierlichen Prozessen, die es ermöglichten, relative Positionen durch Bildung von Teilen zu manipulieren, die nicht an die absoluten Koordinaten einzelner Pixel im Bild, sondern fixiert auf die Oberfläche der dargestellten Objekte.

Während sich In StyleGAN und StyleGAN2 verursachte das Einrasten an Pixeln während des Builds Probleme beim dynamischen Rendering.Wenn sich beispielsweise das Bild bewegte, gab es eine Fehlanpassung von kleinen Details, wie Falten und Haaren, die sich getrennt vom Rest des Gesichtsbildes zu bewegen schienen. Darüber hinaus sind diese Probleme in StyleGAN3 gelöst und die Technologie hat eignen sich gut für die Videoerzeugung.

Schließlich auch erwähnenswert die Ankündigung von die Entwicklung des größten MT-NLG-Sprachmodells durch NVIDIA und Microsoft basierend auf einem tiefen neuronalen Netz mit einer »transformativen« Architektur.

Das Modell deckt 530 Milliarden Parameter ab und es wurde ein Pool von 4480 GPUs verwendet für Schulungen (560 DGX A100 Server mit 8 A100 GPUs à 80 GB). Die Anwendungsgebiete des Modells werden als Problemlösung bei der Informationsverarbeitung in natürlicher Sprache bezeichnet, wie z.

Wenn Sie mehr darüber erfahren möchten, können Sie die Details von StyleGAN3 überprüfen im folgenden Link.

LinuxAdictos

StyleGAN3, das maschinelle Lernsystem von Nvidi für die Gesichtssynthese

Über StyleGAN3

Hinterlasse einen Kommentar Antwort abbrechen