HyperStyle, μια προσαρμογή του StyleGAN για επεξεργασία εικόνας

Μια ομάδα από Ερευνητές του Πανεπιστημίου του Τελ Αβίβ παρουσίασαν πρόσφατα το HyperStyle, το οποίο είναι μια αντίστροφη έκδοση του συστήματος μηχανικής μάθησης NVIDIA StyleGAN2 που έχει επανασχεδιαστεί για να αναδημιουργήσει κομμάτια που λείπουν κατά την επεξεργασία εικόνων πραγματικού κόσμου.

Το StyleGAN χαρακτηρίζεται από το ότι επιτρέπει τη σύνθεση νέων προσώπων ανθρώπων με ρεαλιστική εμφάνιση, ρύθμιση παραμέτρων όπως ηλικία, φύλο, μήκος μαλλιών, χαρακτήρας χαμόγελου, σχήμα μύτης, χρώμα δέρματος, γυαλιά και φωτογραφική γωνία.

Επιπλέον, Το HyperStyle καθιστά δυνατή την αλλαγή παρόμοιων παραμέτρων σε υπάρχουσες, Με άλλα λόγια, σας επιτρέπει να δημιουργείτε φωτογραφίες χωρίς να τροποποιείτε τα χαρακτηριστικά τους και να διατηρείτε την αναγνωρισιμότητα του αρχικού προσώπου.

Το HyperStyle εισάγει υπερδίκτυα για να μάθει πώς να βελτιώσετε τα βάρη μιας προηγουμένως εκπαιδευμένης γεννήτριας StyleGAN σε σχέση με μια δεδομένη εικόνα εισόδου. Κάτι τέτοιο επιτρέπει την ανακατασκευή επιπέδων βελτιστοποίησης με χρόνους συμπερασμάτων που μοιάζουν με κωδικοποιητή και υψηλή δυνατότητα επεξεργασίας.

Για παράδειγμα, όταν χρησιμοποιείτε Το HyperStyle, μπορεί να προσομοιώσει μια αλλαγή στην ηλικία ενός ατόμου σε μια φωτογραφία, αλλάξτε ένα χτένισμα, προσθέστε γυαλιά, γένια ή μουστάκι, κάντε μια εικόνα να μοιάζει με χαρακτήρα κινουμένων σχεδίων ή ζωγραφισμένη στο χέρι, κάντε μια λυπημένη ή χαρούμενη έκφραση προσώπου.

Στην περίπτωση αυτή, Το σύστημα μπορεί να εκπαιδευτεί όχι μόνο για να αλλάζει τα πρόσωπα των ανθρώπων, αλλά και για οποιοδήποτε αντικείμενο, για Για παράδειγμα, για να επεξεργαστείτε εικόνες αυτοκινήτου.

Τα περισσότερα από τα έργα που μελετούν την αντιστροφή αναζητούν έναν λανθάνοντα κώδικα που αναδομεί με μεγαλύτερη ακρίβεια μια δεδομένη εικόνα. Κάποιες πρόσφατες εργασίες έχουν προτείνει λεπτομέρεια εικόνας των βαρών της γεννήτριας για την επίτευξη υψηλής ποιότητας ανακατασκευής για μια δεδομένη εικόνα στόχο. Με το HyperStyle, στοχεύουμε να φέρουμε αυτές τις προσεγγίσεις συντονισμού γεννήτριας στη σφαίρα των διαδραστικών εφαρμογών προσαρμόζοντάς τες σε μια προσέγγιση που βασίζεται σε κωδικοποιητή.

Εκπαιδεύσαμε ένα μεμονωμένο υπερδίκτυο για να μάθουμε πώς να τελειοποιούμε τα βάρη της γεννήτριας σε σχέση με μια επιθυμητή εικόνα στόχο. Με την εκμάθηση αυτής της αντιστοίχισης, το HyperStyle προβλέπει αποτελεσματικά τα βάρη στόχου της γεννήτριας σε λιγότερο από 2 δευτερόλεπτα ανά εικόνα, καθιστώντας το εφαρμόσιμο σε ένα ευρύ φάσμα εφαρμογών.

Η προτεινόμενη μέθοδος στοχεύει να λύσει το πρόβλημα της ανασύνθεσης τμημάτων μιας εικόνας που λείπουν κατά την επεξεργασία. Οι τεχνικές που προτείνονται παραπάνω έχουν αντιμετωπίσει την ισορροπία μεταξύ ανακατασκευής και επεξεργασίας, ρυθμίζοντας με ακρίβεια τη συσκευή απεικόνισης για να αντικαταστήσει τμήματα της εικόνας στόχου, ενώ αναδημιουργούσε επεξεργάσιμες περιοχές που αρχικά έλειπαν. Το μειονέκτημα τέτοιων προσεγγίσεων είναι η ανάγκη για μακροπρόθεσμη στοχευμένη εκπαίδευση του νευρωνικού δικτύου για κάθε εικόνα.

Η μέθοδος που βασίζεται στον αλγόριθμο StyleGAN επιτρέπει τη χρήση ενός τυπικού μοντέλου, προεκπαιδευμένο σε κοινές συλλογές εικόνων, για τη δημιουργία χαρακτηριστικών στοιχείων της αρχικής εικόνας με επίπεδο εμπιστοσύνης συγκρίσιμο με τους αλγόριθμους που απαιτούν ατομική εκπαίδευση του μοντέλου για κάθε εικόνα.

Ένα από τα πλεονεκτήματα της νέας μεθόδου είναι η δυνατότητα τροποποίησης εικόνων με απόδοση κοντά σε πραγματικό χρόνο, επιπλέον του γεγονότος ότι το μοντέλο είναι έτοιμο για εκπαίδευση, προετοιμασμένο για αυτούς τους ανθρώπους, τα αυτοκίνητα και τα ζώα με βάση τις συλλογές από το Flickr-the Faces-HQ (FFHQ, 70,000 εικόνες υψηλής ποιότητας PNG με πρόσωπα ανθρώπων), The Stanford Cars (16 εικόνες αυτοκινήτων) και AFHQ (φωτογραφίες ζώων).

Επιπλέον, παρέχεται ένα σύνολο εργαλείων για την εκπαίδευση των μοντέλων σαςκαθώς και έτοιμα προς χρήση εκπαιδευμένα μοντέλα τυπικών κωδικοποιητών και γεννητριών κατάλληλων για χρήση με αυτούς. Για παράδειγμα, υπάρχουν διαθέσιμες γεννήτριες για τη δημιουργία εικόνων τύπου Toonify, χαρακτήρων Pixar, δημιουργία σκίτσων και ακόμη και στυλ όπως πριγκίπισσες της Disney.

Τελικά για όσους ενδιαφέρονται να μάθουν περισσότερα Σχετικά με αυτό το εργαλείο, μπορείτε να ελέγξετε τις λεπτομέρειες Στον ακόλουθο σύνδεσμο.

Είναι επίσης σημαντικό να αναφέρουμε ότι ο κώδικας είναι γραμμένος σε Python χρησιμοποιώντας το πλαίσιο PyTorch και έχει άδεια MIT. Μπορείτε να ελέγξετε τον κωδικό στο τον ακόλουθο σύνδεσμο.


Αφήστε το σχόλιό σας

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται με *

*

*

  1. Υπεύθυνος για τα δεδομένα: AB Internet Networks 2008 SL
  2. Σκοπός των δεδομένων: Έλεγχος SPAM, διαχείριση σχολίων.
  3. Νομιμοποίηση: Η συγκατάθεσή σας
  4. Κοινοποίηση των δεδομένων: Τα δεδομένα δεν θα κοινοποιούνται σε τρίτους, εκτός από νομική υποχρέωση.
  5. Αποθήκευση δεδομένων: Βάση δεδομένων που φιλοξενείται από τα δίκτυα Occentus (ΕΕ)
  6. Δικαιώματα: Ανά πάσα στιγμή μπορείτε να περιορίσετε, να ανακτήσετε και να διαγράψετε τις πληροφορίες σας.