StyleGAN3, चेहऱ्याच्या संश्लेषणासाठी Nvidi ची मशीन शिक्षण प्रणाली

अलीकडे NVIDIA ने StyleGAN3 साठी स्त्रोत कोड जारी केला, मानवी चेहऱ्यांच्या वास्तववादी प्रतिमांचे संश्लेषण करण्यासाठी जनरेटिव्ह रिव्हर्टल न्यूरल नेटवर्क (GAN) वर आधारित मशीन लर्निंग सिस्टम.

StyleGAN3 मध्ये संग्रहात प्रशिक्षित प्रशिक्षित मॉडेल्स डाउनलोड करण्यासाठी उपलब्ध आहेत Flickr-Faces-HQ (FFHQ), ज्यात उच्च दर्जाचे मानवी चेहरे (70 × 1024) च्या 1024 हजार PNG प्रतिमा समाविष्ट आहेत. याव्यतिरिक्त, AFHQv2 (प्राण्यांच्या चेहऱ्यांची छायाचित्रे) आणि मेटफेसेस (शास्त्रीय चित्रकला पोर्ट्रेटवरील लोकांच्या चेहऱ्याच्या प्रतिमा) संग्रहांच्या आधारे तयार केलेले मॉडेल आहेत.

StyleGAN3 बद्दल

डिझाइन चेहऱ्यावर लक्ष केंद्रित करते, परंतु प्रणालीला कोणत्याही प्रकारच्या वस्तू निर्माण करण्यासाठी प्रशिक्षित केले जाऊ शकते, जसे लँडस्केप आणि कार. आणखी काय, तंत्रिका नेटवर्कच्या स्वयं-शिक्षणासाठी साधने प्रदान केली जातात आपले स्वतःचे प्रतिमा संग्रह वापरणे. एक किंवा अधिक NVIDIA ग्राफिक्स कार्ड आवश्यक आहेत (टेस्ला व्ही 100 किंवा ए 100 जीपीयू शिफारस केलेले), किमान 12 जीबी रॅम, पायटॉर्च 1.9 आणि सीयूडीए 11.1+ टूलकिट. प्राप्त चेहऱ्यांचे कृत्रिम स्वरूप निश्चित करण्यासाठी, एक विशेष डिटेक्टर विकसित केले जात आहे.

यंत्रणा अनेक चेहऱ्यांच्या वैशिष्ट्यांच्या इंटरपोलेशनवर आधारित नवीन चेहऱ्याची प्रतिमा संश्लेषित करण्याची परवानगी देते, त्यांची मूळ वैशिष्ट्ये एकत्र करून, अंतिम प्रतिमा आवश्यक वय, लिंग, केसांची लांबी, स्मित वर्ण, नाकाचा आकार, त्वचेचा रंग, चष्मा, फोटोग्राफिक अँगलशी जुळवून घेण्याव्यतिरिक्त.

जनरेटर प्रतिमेला शैलींचा संग्रह मानतो, वैशिष्ट्यपूर्ण तपशील आपोआप वेगळे करतो (freckles, केस, चष्मा) सामान्य उच्च-स्तरीय गुणधर्म (पवित्रा, लिंग, वय-संबंधित बदल) आणि त्यांना स्वैरपणे वजनाच्या घटकांद्वारे प्रभावी गुणधर्मांच्या व्याख्येसह एकत्र करण्याची परवानगी देते आणि परिणामी, प्रतिमा निर्माण होतात ते प्रत्यक्ष छायाचित्रांपासून स्पष्टपणे वेगळे नाहीत.

स्टाइलगॅन तंत्रज्ञानाची पहिली आवृत्ती (2019 मध्ये रिलीज झाली), त्यानंतर 2 मध्ये स्टाइलगॅन 2020 ची सुधारित आवृत्ती, जी प्रतिमा गुणवत्ता सुधारते आणि काही कलाकृती काढून टाकते. त्याच वेळी, प्रणाली स्थिर राहिली, म्हणजेच, यथार्थवादी अॅनिमेशन किंवा चेहर्याच्या हालचालींना परवानगी दिली नाही. स्टाइलजीएएन 3 विकसित करताना, अॅनिमेशन आणि व्हिडिओमध्ये वापरण्यासाठी तंत्रज्ञानाशी जुळवून घेणे हे मुख्य ध्येय होते.

StyleGAN3 पुन्हा डिझाइन केलेले नॉन-अलियासिंग इमेजिंग आर्किटेक्चर वापरतेay नवीन न्यूरल नेटवर्क प्रशिक्षण परिदृश्य देते आणि परस्परसंवादी व्हिज्युअलायझेशन (visualizer.py), विश्लेषण (avg_spectra.py) आणि व्हिडिओ जनरेशन (gen_video.py) साठी नवीन उपयुक्तता समाविष्ट करते. अंमलबजावणीमुळे मेमरीचा वापर कमी होतो आणि शिकण्याची प्रक्रिया वेगवान होते.

स्टाइलजीएएन 3 आर्किटेक्चरचे मुख्य वैशिष्ट्य म्हणजे सतत प्रक्रियांच्या स्वरूपात मज्जातंतू नेटवर्कमधील सर्व सिग्नलचे अर्थ लावण्याचे संक्रमण, ज्यामुळे प्रतिमेतील वैयक्तिक पिक्सेलच्या परिपूर्ण निर्देशांकांशी जोडलेले नसलेले भाग तयार करून सापेक्ष स्थितीत फेरफार करणे शक्य झाले, परंतु प्रतिनिधित्व केलेल्या वस्तूंच्या पृष्ठभागावर निश्चित.

तर StyleGAN आणि StyleGAN2 मध्ये, बिल्ड दरम्यान पिक्सेलवर स्नॅप केल्याने डायनॅमिक रेंडरिंगमध्ये समस्या निर्माण झाल्याउदाहरणार्थ, जेव्हा प्रतिमा हलवत होती, तेव्हा सुरकुत्या आणि केसांसारख्या लहान तपशीलांचा एक जुळवाजुळव होता, जो चेहऱ्याच्या प्रतिमेच्या उर्वरित भागापासून वेगळा हलताना दिसत होता, त्या व्यतिरिक्त StyleGAN3 मध्ये या समस्या सोडवल्या गेल्या आहेत आणि तंत्रज्ञान आहे व्हिडिओ निर्मितीसाठी अगदी योग्य बनणे.

शेवटी, उल्लेखनीय ची घोषणा सर्वात मोठ्या MT-NLG भाषा मॉडेलची NVIDIA आणि Microsoft द्वारे निर्मिती "ट्रान्सफॉर्मेटिव्ह" आर्किटेक्चरसह खोल न्यूरल नेटवर्कवर आधारित.

मॉडेलमध्ये 530 अब्ज पॅरामीटर्स समाविष्ट आहेत आणि 4480 GPUs चा पूल वापरला गेला प्रशिक्षणासाठी (प्रत्येकी 560 GB च्या 100 A8 GPU सह 100 DGX A80 सर्व्हर). मॉडेलच्या वापराच्या क्षेत्रांना नैसर्गिक भाषेत माहिती प्रक्रिया समस्या सोडवणे असे म्हटले जाते, जसे की अपूर्ण वाक्य पूर्ण होण्याची भविष्यवाणी करणे, प्रश्नांची उत्तरे देणे, आकलन वाचणे, नैसर्गिक भाषेत निष्कर्ष काढणे आणि शब्दांच्या अर्थाच्या अस्पष्टतेचे विश्लेषण करणे.

आपल्याला त्याबद्दल अधिक जाणून घेण्यात स्वारस्य असल्यास, आपण StyleGAN3 चे तपशील तपासू शकता पुढील लिंकवर


आपली टिप्पणी द्या

आपला ई-मेल पत्ता प्रकाशित केला जाणार नाही. आवश्यक फील्ड चिन्हांकित केले आहेत *

*

*

  1. डेटासाठी जबाबदार: AB इंटरनेट नेटवर्क 2008 SL
  2. डेटाचा उद्देशः नियंत्रण स्पॅम, टिप्पणी व्यवस्थापन.
  3. कायदे: आपली संमती
  4. डेटा संप्रेषण: कायदेशीर बंधन वगळता डेटा तृतीय पक्षास कळविला जाणार नाही.
  5. डेटा संग्रहण: ओकेन्टस नेटवर्क (EU) द्वारा होस्ट केलेला डेटाबेस
  6. अधिकारः कोणत्याही वेळी आपण आपली माहिती मर्यादित, पुनर्प्राप्त आणि हटवू शकता.