StyleGAN3, चेहरे के संश्लेषण के लिए Nvidi की मशीन लर्निंग सिस्टम

हाल ही में NVIDIA ने StyleGAN3 के लिए स्रोत कोड जारी किया, मानव चेहरों की यथार्थवादी छवियों को संश्लेषित करने के लिए जनरेटिव प्रतिकूल तंत्रिका नेटवर्क (जीएएन) पर आधारित एक मशीन लर्निंग सिस्टम।

StyleGAN3 . में संग्रह में प्रशिक्षित रेडी-टू-यूज़ प्रशिक्षित मॉडल डाउनलोड करने के लिए उपलब्ध हैं Flickr-Faces-HQ (FFHQ), जिसमें उच्च गुणवत्ता वाले मानव चेहरे (70 × 1024) की 1024 हजार PNG छवियां शामिल हैं। इसके अलावा, AFHQv2 (जानवरों के चेहरे की तस्वीरें) और मेटफेस (शास्त्रीय पेंटिंग पोर्ट्रेट से लोगों के चेहरे की छवियां) संग्रह के आधार पर बनाए गए मॉडल हैं।

StyleGAN3 . के बारे में

डिजाइन चेहरों पर ध्यान केंद्रित करता है, लेकिन सिस्टम को किसी भी प्रकार की वस्तु उत्पन्न करने के लिए प्रशिक्षित किया जा सकता है, परिदृश्य और कारों की तरह। इससे ज्यादा और क्या, तंत्रिका नेटवर्क के स्व-शिक्षण के लिए उपकरण प्रदान किए जाते हैं अपने स्वयं के छवि संग्रह का उपयोग करना। एक या अधिक NVIDIA ग्राफिक्स कार्ड की आवश्यकता है (Tesla V100 या A100 GPU अनुशंसित), कम से कम 12GB RAM, PyTorch 1.9, और CUDA 11.1+ टूलकिट। प्राप्त चेहरों की कृत्रिम प्रकृति का निर्धारण करने के लिए एक विशेष संसूचक विकसित किया जा रहा है।

प्रणाली कई चेहरों की विशेषताओं के प्रक्षेप के आधार पर एक नए चेहरे की छवि को संश्लेषित करने की अनुमति देता है, अंतिम छवि को आवश्यक आयु, लिंग, बालों की लंबाई, मुस्कान चरित्र, नाक के आकार, त्वचा का रंग, चश्मा, फोटोग्राफिक कोण के अनुकूल बनाने के अलावा, उनकी अंतर्निहित विशेषताओं का संयोजन।

जनरेटर छवि को शैलियों के संग्रह के रूप में मानता है, स्वचालित रूप से विशेषता विवरण को अलग करता है सामान्य उच्च-स्तरीय विशेषताओं (मुद्रा, लिंग, उम्र से संबंधित परिवर्तन) के (झाई, बाल, चश्मा) और उन्हें भार कारकों के माध्यम से प्रमुख गुणों की परिभाषा के साथ मनमाने ढंग से संयोजित करने की अनुमति देता है और इसके परिणामस्वरूप, छवियां उत्पन्न होती हैं कि वे वास्तविक तस्वीरों से स्पष्ट रूप से अप्रभेद्य हैं।

StyleGAN तकनीक का पहला संस्करण (2019 में जारी किया गया), इसके बाद 2 में StyleGAN2020 का एक उन्नत संस्करण है, जो छवि गुणवत्ता में सुधार करता है और कुछ कलाकृतियों को हटाता है। साथ ही, सिस्टम स्थिर रहा, यानी यह यथार्थवादी एनिमेशन या चेहरे की गतिविधियों की अनुमति नहीं देता था। StyleGAN3 को विकसित करते समय, मुख्य लक्ष्य एनीमेशन और वीडियो में उपयोग के लिए प्रौद्योगिकी को अनुकूलित करना था।

StyleGAN3 एक पुन: डिज़ाइन किए गए गैर-अलियासिंग इमेजिंग आर्किटेक्चर का उपयोग करता हैay नए तंत्रिका नेटवर्क प्रशिक्षण परिदृश्य प्रदान करता है और इसमें इंटरैक्टिव विज़ुअलाइज़ेशन (visualizer.py), विश्लेषण (avg_spectra.py) और वीडियो निर्माण (gen_video.py) के लिए नई उपयोगिताएँ भी शामिल हैं। कार्यान्वयन स्मृति खपत को भी कम करता है और सीखने की प्रक्रिया को गति देता है।

StyleGAN3 आर्किटेक्चर की एक प्रमुख विशेषता निरंतर प्रक्रियाओं के रूप में तंत्रिका नेटवर्क में सभी संकेतों की व्याख्या के लिए संक्रमण थी, जिसने व्यक्तिगत पिक्सेल के पूर्ण निर्देशांक से बंधे नहीं, भागों को बनाकर सापेक्ष स्थिति में हेरफेर करना संभव बना दिया। छवि, लेकिन प्रतिनिधित्व की गई वस्तुओं की सतह पर स्थिर।

जब StyleGAN और StyleGAN2 में, निर्माण के दौरान पिक्सेल पर स्नैप करने से डायनेमिक रेंडरिंग में समस्याएँ आती हैंउदाहरण के लिए, जब छवि चल रही थी, तो छोटे विवरणों का एक बेमेल था, जैसे कि झुर्रियाँ और बाल, जो चेहरे की बाकी छवि से अलग चलते हुए प्रतीत होते थे, इसके अलावा StyleGAN3 में इन समस्याओं का समाधान किया गया है और प्रौद्योगिकी ने वीडियो निर्माण के लिए काफी उपयुक्त हो जाते हैं।

अंत में, ध्यान देने योग्य भी की घोषणा NVIDIA और Microsoft द्वारा सबसे बड़े MT-NLG भाषा मॉडल का निर्माण एक »परिवर्तनकारी« वास्तुकला के साथ एक गहरे तंत्रिका नेटवर्क पर आधारित है।

मॉडल में 530 बिलियन पैरामीटर शामिल हैं और 4480 GPU के पूल का उपयोग किया गया था प्रशिक्षण के लिए (560 डीजीएक्स ए100 सर्वर जिसमें 8 जीबी प्रत्येक के 100 ए80 जीपीयू हैं)। मॉडल के आवेदन के क्षेत्रों को प्राकृतिक भाषा में सूचना प्रसंस्करण समस्या समाधान कहा जाता है, जैसे कि एक अधूरे वाक्य के पूरा होने की भविष्यवाणी करना, सवालों के जवाब देना, समझ को पढ़ना, प्राकृतिक भाषा में निष्कर्ष निकालना और शब्दों के अर्थ की अस्पष्टता का विश्लेषण करना।

यदि आप इसके बारे में अधिक जानने में रुचि रखते हैं, आप StyleGAN3 का विवरण देख सकते हैं निम्नलिखित लिंक में


अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

*

*

  1. डेटा के लिए जिम्मेदार: एबी इंटरनेट नेटवर्क 2008 SL
  2. डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
  3. वैधता: आपकी सहमति
  4. डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
  5. डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
  6. अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।