हाइपर स्टाइल, छवि संपादन के लिए StyleGAN का एक अनुकूलन

की एक टीम तेल अवीव विश्वविद्यालय के शोधकर्ताओं ने हाल ही में हाइपरस्टाइल जारी किया, जो है एक उलटा संस्करण मशीन लर्निंग सिस्टम एनवीडिया स्टाइलGAN2 जिसे वास्तविक दुनिया के फ़ुटेज को संपादित करते समय गायब हुए टुकड़ों को फिर से बनाने के लिए फिर से डिज़ाइन किया गया है।

स्टाइलगैन की विशेषता यथार्थवादी उपस्थिति वाले लोगों के नए चेहरों के संश्लेषण की अनुमति देना है, उम्र, लिंग, बालों की लंबाई, मुस्कुराहट का चरित्र, नाक का आकार, त्वचा का रंग, चश्मा और फोटोग्राफिक कोण जैसे पैरामीटर सेट करना।

इसके अलावा, हाइपरस्टाइल मौजूदा मापदंडों में समान मापदंडों को बदलना संभव बनाता है, दूसरे शब्दों में, यह आपको उनकी विशिष्ट विशेषताओं को संशोधित किए बिना और मूल चेहरे की पहचान को संरक्षित किए बिना तस्वीरें बनाने की अनुमति देता है।

हाइपरस्टाइल किसी दिए गए इनपुट छवि के संबंध में पहले से प्रशिक्षित स्टाइलगैन जनरेटर के वजन को परिष्कृत करने का तरीका जानने के लिए हाइपरनेटवर्क पेश करता है। ऐसा करने से एनकोडर-जैसे अनुमान समय और उच्च संपादन क्षमता के साथ अनुकूलन स्तर के पुनर्निर्माण सक्षम हो जाते हैं।

उदाहरण के लिए, उपयोग करते समय हाइपरस्टाइल किसी तस्वीर में किसी व्यक्ति की उम्र में बदलाव का अनुकरण कर सकता है, हेयरस्टाइल बदलें, चश्मा लगाएं, दाढ़ी या मूंछें लगाएं, किसी चित्र को कार्टून चरित्र या हाथ से बनाए गए चित्र जैसा बनाएं, उदास या प्रसन्न चेहरे की अभिव्यक्ति बनाएं।

इस मामले में, सिस्टम को न केवल लोगों के चेहरे बदलने के लिए, बल्कि किसी भी वस्तु के लिए भी प्रशिक्षित किया जा सकता है उदाहरण के लिए, कार छवियों को संपादित करने के लिए।

व्युत्क्रम का अध्ययन करने वाले अधिकांश कार्य एक अव्यक्त कोड की तलाश करते हैं जो एक निश्चित छवि को अधिक सटीकता के साथ फिर से बनाता है। कुछ हालिया कार्यों ने किसी दिए गए लक्ष्य छवि के लिए उच्च-गुणवत्ता वाले पुनर्निर्माण को प्राप्त करने के लिए जनरेटर भार की प्रति-छवि फ़ाइन-ट्यूनिंग का प्रस्ताव दिया है। हाइपरस्टाइल के साथ, हमारा लक्ष्य इन जनरेटर ट्यूनिंग दृष्टिकोणों को एनकोडर-आधारित दृष्टिकोण में अनुकूलित करके इंटरैक्टिव अनुप्रयोगों के दायरे में लाना है।

हम वांछित लक्ष्य छवि के संबंध में जनरेटर वजन को परिष्कृत करने का तरीका सीखने के लिए एकल हाइपरनेटवर्क को प्रशिक्षित करते हैं। इस मैपिंग को सीखकर, हाइपरस्टाइल प्रति छवि 2 सेकंड से भी कम समय में वांछित जनरेटर वजन की कुशलता से भविष्यवाणी करता है, जिससे यह अनुप्रयोगों की एक विस्तृत श्रृंखला पर लागू होता है।

प्रस्तावित विधि इसका उद्देश्य संपादन के दौरान किसी छवि के छूटे हुए हिस्सों को फिर से बनाने की समस्या को हल करना है. पहले प्रस्तावित तकनीकों ने मूल रूप से गायब संपादन योग्य क्षेत्रों को फिर से बनाते समय लक्ष्य छवि के हिस्सों को बदलने के लिए इमेजर को ठीक करके पुनर्निर्माण और संपादन के बीच संतुलन को संबोधित किया है। ऐसे दृष्टिकोणों का नुकसान प्रत्येक छवि के लिए तंत्रिका नेटवर्क के दीर्घकालिक निर्देशित प्रशिक्षण की आवश्यकता है।

StyleGAN एल्गोरिथम पर आधारित विधि एक विशिष्ट मॉडल का उपयोग करने की अनुमति देती है, एल्गोरिदम के तुलनीय आत्मविश्वास के स्तर के साथ मूल छवि के फीचर तत्वों को उत्पन्न करने के लिए, छवियों के सामान्य संग्रह पर पूर्व-प्रशिक्षित किया गया, जिसके लिए प्रत्येक छवि के लिए मॉडल के व्यक्तिगत प्रशिक्षण की आवश्यकता होती है।

नई पद्धति के फायदों में से एक वास्तविक समय के करीब प्रदर्शन के साथ छवियों को संशोधित करने की क्षमता है मॉडल संग्रह के आधार पर उन लोगों, कारों और जानवरों के लिए तैयार प्रशिक्षण के लिए तैयार है फ़्लिकर-द फेसेस-एचक्यू (एफएफएचक्यू, लोगों के चेहरों की 70,000 उच्च-गुणवत्ता वाली पीएनजी छवियां), द स्टैनफोर्ड कार्स (16 कार छवियां) और एएफएचक्यू (जानवरों की तस्वीरें) से।

इसके अलावा, आपके मॉडलों को प्रशिक्षित करने के लिए उपकरणों का एक सेट प्रदान किया जाता है, साथ ही उनके साथ उपयोग के लिए उपयुक्त विशिष्ट एनकोडर और जनरेटर के उपयोग के लिए तैयार प्रशिक्षित मॉडल। उदाहरण के लिए, टूनिफाई, पिक्सर पात्रों की शैली में छवियां बनाने, रेखाचित्र बनाने और यहां तक ​​कि डिज्नी राजकुमारियों के रूप में स्टाइल करने के लिए जनरेटर उपलब्ध हैं।

अंत में उन लोगों के लिए जो अधिक सीखने में रुचि रखते हैं इस टूल के बारे में, आप विवरण देख सकते हैं निम्नलिखित लिंक में

यह उल्लेख करना भी महत्वपूर्ण है कि कोड PyTorch फ्रेमवर्क का उपयोग करके Python में लिखा गया है और MIT लाइसेंस के तहत लाइसेंस प्राप्त है। आप यहां कोड की जांच कर सकते हैं निम्नलिखित लिंक।


अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

*

*

  1. डेटा के लिए जिम्मेदार: एबी इंटरनेट नेटवर्क 2008 SL
  2. डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
  3. वैधता: आपकी सहमति
  4. डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
  5. डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
  6. अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।