HyperStyle, עיבוד של StyleGAN לעריכת תמונות

צוות של חוקרי אוניברסיטת תל אביב חשפו לאחרונה את HyperStyle, שזה גרסה הפוכה של מערכת למידת מכונה NVIDIA StyleGAN2 שעוצב מחדש כדי ליצור מחדש חלקים חסרים בעת עריכת תמונות בעולם האמיתי.

StyleGAN מאופיין בכך שהוא מאפשר לסנתז פנים חדשות של אנשים בעלי מראה מציאותי, הגדרת פרמטרים כגון גיל, מין, אורך שיער, אופי חיוך, צורת אף, צבע עור, משקפיים וזווית צילום.

יתר על כן, HyperStyle מאפשר לשנות פרמטרים דומים בקיימים, במילים אחרות, זה מאפשר לך ליצור צילומים מבלי לשנות את התכונות האופייניות שלהם ולשמור על הזיהוי של הפנים המקוריות.

HyperStyle מציג רשתות היפר כדי ללמוד כיצד לחדד את המשקלים של מחולל StyleGAN שעבר הכשרה ביחס לתמונת קלט נתונה. פעולה זו מאפשרת בנייה מחדש של רמת האופטימיזציה עם זמני מסקנות דמויי מקודד ויכולת עריכה גבוהה.

למשל, בעת שימוש HyperStyle, יכול לדמות שינוי בגיל של אדם בתצלום, לשנות תסרוקת, להוסיף משקפיים, זקן או שפם, לגרום לתמונה להיראות כמו דמות מצוירת או תמונה מצוירת ביד, ליצור הבעת פנים עצובה או שמחה.

במקרה זה, ניתן לאמן את המערכת לא רק לשנות פני אנשים, אלא גם לכל אובייקט, עבור לדוגמה, כדי לערוך תמונות מכוניות.

רוב העבודות שחוקרות היפוך מחפשות קוד סמוי שמשחזר בצורה מדויקת יותר תמונה נתונה. חלק מהעבודות האחרונות הציעו כוונון עדין של התמונה של משקלי המחולל כדי להשיג שחזור באיכות גבוהה עבור תמונת יעד נתונה. עם HyperStyle, אנו שואפים להביא את גישות כוונון המחוללים הללו לתחום היישומים האינטראקטיביים על ידי התאמתם לגישה מבוססת מקודד.

אימנו רשת היפר יחידה כדי ללמוד כיצד לחדד משקלי מחולל ביחס לתמונת יעד רצויה. על ידי לימוד המיפוי הזה, HyperStyle חוזה ביעילות את משקלי היעד של המחולל תוך פחות מ-2 שניות לתמונה, מה שהופך אותו לישים במגוון רחב של יישומים.

השיטה המוצעת מטרתו לפתור את הבעיה של שחזור חלקים חסרים בתמונה במהלך העריכה. הטכניקות המוצעות לעיל התייחסו לאיזון בין שחזור לעריכה על ידי כוונון עדין של הצילום כדי להחליף חלקים מתמונת היעד תוך יצירה מחדש של אזורים שניתנים לעריכה שהיו חסרים במקור. החיסרון של גישות כאלה הוא הצורך באימון ממוקד ארוך טווח של הרשת העצבית עבור כל תמונה.

השיטה המבוססת על אלגוריתם StyleGAN מאפשרת להשתמש במודל טיפוסי, מאומנים מראש על אוספים נפוצים של תמונות, כדי ליצור אלמנטים אופייניים של התמונה המקורית ברמת בטחון המשווה לאלגוריתמים הדורשים הדרכה אישית של המודל עבור כל תמונה.

אחד היתרונות של השיטה החדשה הוא היכולת לשנות תמונות עם ביצועים קרובים לזמן אמת, בנוסף לעובדה הדגם מוכן לאימון מוכן עבור אותם אנשים, מכוניות ובעלי חיים על סמך הקולקציות מ-Flickr-the Faces-HQ (FFHQ, 70,000 תמונות PNG באיכות גבוהה של פנים של אנשים), The Stanford Cars (16 תמונות של מכוניות) ו-AFHQ (תמונות של חיות).

בנוסף, סט כלים מסופק להכשרת הדגמים שלךכמו גם דגמים מוכנים לשימוש של מקודדים ומגנרטורים טיפוסיים המתאימים לשימוש איתם. לדוגמה, ישנם גנרטורים זמינים ליצירת תמונות בסגנון Toonify, דמויות של פיקסאר, יצירת סקיצות ואפילו סטיילינג כמו נסיכות דיסני.

בסופו של דבר למי שמעוניין לדעת יותר על כלי זה, אתה יכול לבדוק את הפרטים בקישור הבא.

חשוב גם להזכיר שהקוד נכתב ב-Python באמצעות מסגרת PyTorch והוא בעל רישיון MIT. אתה יכול לבדוק את הקוד ב הקישור הבא.


השאירו את התגובה שלכם

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

*

*

  1. אחראי על הנתונים: AB Internet Networks 2008 SL
  2. מטרת הנתונים: בקרת ספאם, ניהול תגובות.
  3. לגיטימציה: הסכמתך
  4. מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
  5. אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
  6. זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.