StyleGAN3, מערכת למידת המכונה של Nvidi לסינתזת פנים

לאחרונה NVIDIA פרסמה את קוד המקור של StyleGAN3, מערכת למידת מכונה המבוססת על רשתות עצביות שליליות (GAN) ליצירת סינתזה של תמונות מציאותיות של פנים אנושיות.

ב- StyleGAN3 זמינים להורדה של דגמים מאומנים מוכנים לשימוש שהוכשרו באוסף Flickr-Faces-HQ (FFHQ), הכולל 70 אלף תמונות PNG איכותיות של פנים אנושיות (1024 × 1024). בנוסף, ישנם דגמים שנבנו על בסיס האוספים AFHQv2 (תצלומי פרצוף של בעלי חיים) ו- Metfaces (תמונות של פני אנשים מפורטרטים ציוריים קלאסיים).

אודות StyleGAN3

העיצוב מתמקד בפנים, אך ניתן לאמן את המערכת ליצור כל סוג של אובייקט, כמו נופים ומכוניות. מה עוד, כלים ניתנים ללמידה עצמית של הרשת העצבית באמצעות אוספי תמונות משלך. דורש כרטיס מסך NVIDIA אחד או יותר (מומלץ להשתמש במעבד GPU של Tesla V100 או A100), לפחות 12GB של זיכרון RAM, PyTorch 1.9 ו- CUDA 11.1+ Toolkit. כדי לקבוע את האופי המלאכותי של הפנים המתקבלות, מפותח גלאי מיוחד.

המערכת מאפשר לסנתז תמונה של פנים חדשות המבוססות על אינטרפולציה של התכונות של מספר פנים, המשלבים את תכונותיהם הטמונות, בנוסף להתאמת התמונה הסופית לגיל הנדרש, מין, אורך שיער, אופי חיוך, צורת אף, צבע עור, משקפיים, זווית צילום.

גֵנֵרָטוֹר מתייחס לתמונה כאוסף סגנונות, מפריד אוטומטית בין הפרטים האופייניים (נמשים, שיער, משקפיים) של התכונות הכלליות ברמה גבוהה (יציבה, מין, שינויים הקשורים לגיל) ומאפשר לשלב אותן באופן שרירותי עם הגדרת המאפיינים הדומיננטיים באמצעות גורמי שקלול וכי כתוצאה מכך, נוצרות תמונות כנראה שאי אפשר להבחין ביניהם ותצלומים אמיתיים.

הגרסה הראשונה של טכנולוגיית StyleGAN (שוחררה בשנת 2019), ואחריה גרסה משופרת של StyleGAN2 בשנת 2020, המשפרת את איכות התמונה ומסירה כמה חפצים. יחד עם זאת, המערכת נותרה סטטית, כלומר היא לא אפשרה הנפשות ריאליות או תנועות פנים. בעת פיתוח StyleGAN3, המטרה העיקרית הייתה להתאים את הטכנולוגיה לשימוש באנימציה ווידאו.

StyleGAN3 משתמשת בארכיטקטורת הדמיה שאינה מותאמת מחדשay מציעה תרחישי אימון חדשים לרשת עצבית וכוללת גם כלי עזר חדשים להדמיה אינטראקטיבית (visualizer.py), ניתוח (avg_spectra.py) וייצור וידאו (gen_video.py). היישום גם מפחית את צריכת הזיכרון ומאיץ את תהליך הלמידה.

מאפיין מרכזי בארכיטקטורת StyleGAN3 היה המעבר לפרשנות של כל האותות ברשת העצבית בצורה של תהליכים רציפים, מה שאפשר לתמרן מיקומים יחסיים על ידי יצירת חלקים, שאינם קשורים לקואורדינטות המוחלטות של פיקסלים בודדים ב התמונה, אך מקובעת לפני השטח של האובייקטים המיוצגים.

בעוד ב- StyleGAN וב- StyleGAN2, הצמדה לפיקסלים במהלך הבנייה גרמה לבעיות בעיבוד דינאמילדוגמה, כאשר התמונה זזה, הייתה חוסר התאמה של פרטים קטנים, כגון קמטים ושערות, שנראו כאילו נעים בנפרד משאר תמונת הפנים, בנוסף לזה ב- StyleGAN3 בעיות אלה נפתרות והטכנולוגיה יש הופכים מתאימים למדי ליצירת וידאו.

לבסוף, שווה להזכיר גם ההכרזה של יצירת NVIDIA ו- Microsoft של המודל הגדול ביותר של שפת MT-NLG מבוסס על רשת עצבית עמוקה עם ארכיטקטורה "טרנספורמטיבית".

המודל מכסה 530 מיליארד פרמטרים ונעשה שימוש במאגר של 4480 מעבדי GPU לאימון (560 שרתי DGX A100 עם 8 מעבדי A100 של 80 GB כל אחד). תחומי היישום של המודל נקראים פתרון בעיות בעיבוד מידע בשפה טבעית, כגון ניבוי השלמת משפט לא גמור, מענה על שאלות, הבנת הנקרא, גיבוש מסקנות בשפה טבעית וניתוח העמימות של משמעות המילים..

אם אתה מעוניין לדעת יותר על כך, אתה יכול לבדוק את הפרטים של StyleGAN3 בקישור הבא.


השאירו את התגובה שלכם

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

*

*

  1. אחראי על הנתונים: AB Internet Networks 2008 SL
  2. מטרת הנתונים: בקרת ספאם, ניהול תגובות.
  3. לגיטימציה: הסכמתך
  4. מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
  5. אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
  6. זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.