StyleGAN3, σύστημα μηχανικής μάθησης της Nvidi για σύνθεση προσώπου

Πρόσφατα Η NVIDIA κυκλοφόρησε τον πηγαίο κώδικα για το StyleGAN3, ένα σύστημα μηχανικής μάθησης που βασίζεται σε γεννήματα δυσμενών νευρωνικών δικτύων (GAN) για τη σύνθεση ρεαλιστικών εικόνων ανθρώπινων προσώπων.

Στο StyleGAN3 διατίθενται για λήψη έτοιμων προς χρήση εκπαιδευμένων μοντέλων που έχουν εκπαιδευτεί στη συλλογή Flickr-Faces-HQ (FFHQ), το οποίο περιλαμβάνει 70 χιλιάδες εικόνες PNG ανθρώπινων προσώπων υψηλής ποιότητας (1024 × 1024). Επιπλέον, υπάρχουν μοντέλα που κατασκευάστηκαν με βάση τις συλλογές AFHQv2 (φωτογραφίες προσώπων ζώων) και Metfaces (εικόνες προσώπων ανθρώπων από κλασικά πορτρέτα ζωγραφικής).

Σχετικά με το StyleGAN3

Το σχέδιο επικεντρώνεται σε πρόσωπα, αλλά το σύστημα μπορεί να εκπαιδευτεί να δημιουργεί οποιοδήποτε είδος αντικειμένου, σαν τοπία και αυτοκίνητα. Επί πλέον, παρέχονται εργαλεία για αυτομάθηση του νευρωνικού δικτύου χρησιμοποιώντας τις δικές σας συλλογές εικόνων. Απαιτεί μία ή περισσότερες κάρτες γραφικών NVIDIA (Συνιστάται GPU Tesla V100 ή A100), τουλάχιστον 12 GB RAM, PyTorch 1.9 και CUDA 11.1+ Toolkit. Για τον προσδιορισμό της τεχνητής φύσης των προσώπων που λαμβάνονται, αναπτύσσεται ένας ειδικός ανιχνευτής.

Το σύστημα επιτρέπει τη σύνθεση μιας εικόνας ενός νέου προσώπου με βάση την παρεμβολή των χαρακτηριστικών πολλών προσώπων, συνδυάζοντας τα εγγενή χαρακτηριστικά τους, εκτός από την προσαρμογή της τελικής εικόνας στην απαιτούμενη ηλικία, φύλο, μήκος μαλλιών, χαρακτήρα χαμόγελου, σχήμα μύτης, χρώμα δέρματος, γυαλιά, φωτογραφική γωνία.

Γεννήτρια αντιμετωπίζει την εικόνα ως μια συλλογή στυλ, διαχωρίζει αυτόματα τις χαρακτηριστικές λεπτομέρειες (φακίδες, μαλλιά, γυαλιά) των γενικών χαρακτηριστικών υψηλού επιπέδου (στάση, φύλο, αλλαγές που σχετίζονται με την ηλικία) και τους επιτρέπει να συνδυάζονται αυθαίρετα με τον ορισμό των κυρίαρχων ιδιοτήτων μέσω συντελεστών στάθμισης και ως αποτέλεσμα να δημιουργούνται εικόνες που προφανώς δεν διακρίνονται από τις πραγματικές φωτογραφίες.

Η πρώτη έκδοση της τεχνολογίας StyleGAN (κυκλοφόρησε το 2019), ακολουθούμενη από μια βελτιωμένη έκδοση του StyleGAN2 το 2020, η οποία βελτιώνει την ποιότητα της εικόνας και αφαιρεί ορισμένα τεχνουργήματα. Ταυτόχρονα, το σύστημα παρέμεινε στατικό, δηλαδή δεν επέτρεπε ρεαλιστικά κινούμενα σχέδια ή κινήσεις του προσώπου. Κατά την ανάπτυξη του StyleGAN3, ο κύριος στόχος ήταν η προσαρμογή της τεχνολογίας για χρήση σε κινούμενα σχέδια και βίντεο.

Το StyleGAN3 χρησιμοποιεί μια επανασχεδιασμένη αρχιτεκτονική απεικόνισης χωρίς ψευδώνυμαΤο ay προσφέρει νέα σενάρια εκπαίδευσης νευρωνικών δικτύων και περιλαμβάνει επίσης νέα βοηθητικά προγράμματα για διαδραστική απεικόνιση (visualizer.py), ανάλυση (avg_spectra.py) και δημιουργία βίντεο (gen_video.py). Η εφαρμογή μειώνει επίσης την κατανάλωση μνήμης και επιταχύνει τη διαδικασία εκμάθησης.

Ένα βασικό χαρακτηριστικό της αρχιτεκτονικής StyleGAN3 ήταν η μετάβαση στην ερμηνεία όλων των σημάτων στο νευρωνικό δίκτυο με τη μορφή συνεχών διαδικασιών, που επέτρεψαν τον χειρισμό σχετικών θέσεων με το σχηματισμό τμημάτων, που δεν συνδέονται με τις απόλυτες συντεταγμένες μεμονωμένων εικονοστοιχείων στην εικόνα, αλλά σταθερό στην επιφάνεια των αναπαρασταθέντων αντικειμένων.

ενώ στο StyleGAN και το StyleGAN2, το πάτημα σε pixel κατά τη διάρκεια της δημιουργίας προκάλεσε προβλήματα με τη δυναμική απόδοσηΓια παράδειγμα, όταν η εικόνα κινούνταν, υπήρχε μια αναντιστοιχία μικρών λεπτομερειών, όπως οι ρυτίδες και οι τρίχες, που φαινόταν να κινούνται χωριστά από την υπόλοιπη εικόνα του προσώπου, εκτός από αυτό στο StyleGAN3 αυτά τα προβλήματα λύνονται και η τεχνολογία έχει είναι αρκετά κατάλληλο για δημιουργία βίντεο.

Τέλος, επίσης αξίζει να αναφερθεί η ανακοίνωση του τη δημιουργία από τη NVIDIA και τη Microsoft του μεγαλύτερου μοντέλου γλώσσας MT-NLG βασίζεται σε ένα βαθύ νευρωνικό δίκτυο με «μεταμορφωτική» αρχιτεκτονική.

Το μοντέλο καλύπτει 530 δισεκατομμύρια παραμέτρους και χρησιμοποιήθηκε μια ομάδα 4480 GPU για εκπαίδευση (560 διακομιστές DGX A100 με 8 GPU A100 των 80 GB ο καθένας). Οι τομείς εφαρμογής του μοντέλου ονομάζονται επίλυση προβλημάτων επεξεργασίας πληροφοριών στη φυσική γλώσσα, όπως πρόβλεψη ολοκλήρωσης μιας ημιτελούς πρότασης, απάντηση σε ερωτήσεις, ανάγνωση κατανόησης, διαμόρφωση συμπερασμάτων στη φυσική γλώσσα και ανάλυση της ασάφειας της έννοιας των λέξεων.

Εάν ενδιαφέρεστε να μάθετε περισσότερα για αυτό, μπορείτε να ελέγξετε τις λεπτομέρειες του StyleGAN3 Στον ακόλουθο σύνδεσμο.


Αφήστε το σχόλιό σας

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται με *

*

*

  1. Υπεύθυνος για τα δεδομένα: AB Internet Networks 2008 SL
  2. Σκοπός των δεδομένων: Έλεγχος SPAM, διαχείριση σχολίων.
  3. Νομιμοποίηση: Η συγκατάθεσή σας
  4. Κοινοποίηση των δεδομένων: Τα δεδομένα δεν θα κοινοποιούνται σε τρίτους, εκτός από νομική υποχρέωση.
  5. Αποθήκευση δεδομένων: Βάση δεδομένων που φιλοξενείται από τα δίκτυα Occentus (ΕΕ)
  6. Δικαιώματα: Ανά πάσα στιγμή μπορείτε να περιορίσετε, να ανακτήσετε και να διαγράψετε τις πληροφορίες σας.