StyleGAN3, ચહેરાના સંશ્લેષણ માટે એનવીડીની મશીન લર્નિંગ સિસ્ટમ

તાજેતરમાં NVIDIA એ StyleGAN3 માટેનો સ્રોત કોડ બહાર પાડ્યો, માનવ ચહેરાની વાસ્તવિક છબીઓને સંશ્લેષિત કરવા માટે જનરેટિવ રિપેરલ ન્યુરલ નેટવર્ક (GAN) પર આધારિત મશીન લર્નિંગ સિસ્ટમ.

સ્ટાઇલગેન 3 માં સંગ્રહમાં પ્રશિક્ષિત પ્રશિક્ષિત મોડેલો ડાઉનલોડ કરવા માટે ઉપલબ્ધ છે Flickr-Faces-HQ (FFHQ), જેમાં માનવ ચહેરાની 70 હજાર ઉચ્ચ ગુણવત્તાની PNG છબીઓ (1024 1024) શામેલ છે. આ ઉપરાંત, AFHQv2 (પ્રાણીઓના ચહેરાના ફોટોગ્રાફ્સ) અને મેટફેસ (ક્લાસિકલ પેઇન્ટિંગ પોટ્રેટમાંથી લોકોના ચહેરાની છબીઓ) સંગ્રહોના આધારે મોડેલો બનાવવામાં આવ્યા છે.

StyleGAN3 વિશે

ડિઝાઇન ચહેરા પર ધ્યાન કેન્દ્રિત કરે છે, પરંતુ સિસ્ટમને કોઈપણ પ્રકારની વસ્તુ ઉત્પન્ન કરવા માટે તાલીમ આપી શકાય છે, લેન્ડસ્કેપ્સ અને કારની જેમ. બીજું શું છે, ન્યુરલ નેટવર્કના સ્વ-શિક્ષણ માટે સાધનો પૂરા પાડવામાં આવે છે તમારા પોતાના છબી સંગ્રહનો ઉપયોગ કરીને. એક અથવા વધુ NVIDIA ગ્રાફિક્સ કાર્ડની જરૂર છે (ટેસ્લા V100 અથવા A100 GPUs ભલામણ કરેલ), ઓછામાં ઓછી 12GB રેમ, PyTorch 1.9 અને CUDA 11.1+ ટૂલકિટ. પ્રાપ્ત ચહેરાઓની કૃત્રિમ પ્રકૃતિ નક્કી કરવા માટે, ખાસ ડિટેક્ટર વિકસાવવામાં આવી રહ્યું છે.

સિસ્ટમ ઘણા ચહેરાઓની લાક્ષણિકતાઓના ઇન્ટરપોલેશનના આધારે નવા ચહેરાની છબીને સંશ્લેષણ કરવાની મંજૂરી આપે છે, તેમની સહજ સુવિધાઓને જોડીને, અંતિમ છબીને જરૂરી ઉંમર, લિંગ, વાળની ​​લંબાઈ, સ્મિત પાત્ર, નાકનો આકાર, ચામડીનો રંગ, ચશ્મા, ફોટોગ્રાફિક એંગલ સાથે અનુકૂળ કરવા ઉપરાંત.

જનરેટર છબીને શૈલીઓના સંગ્રહ તરીકે વર્તે છે, લાક્ષણિક વિગતોને આપમેળે અલગ કરે છે સામાન્ય ઉચ્ચ-સ્તરના લક્ષણો (મુદ્રા, લિંગ, વય-સંબંધિત ફેરફારો) ના ફ્રીકલ્સ, વાળ, ચશ્મા અને તેમને વજનના પરિબળો દ્વારા પ્રભાવશાળી ગુણધર્મોની વ્યાખ્યા સાથે મનસ્વી રીતે જોડવાની મંજૂરી આપે છે અને પરિણામે, છબીઓ પેદા થાય છે તેઓ વાસ્તવિક ફોટોગ્રાફ્સથી દેખીતી રીતે અલગ નથી.

સ્ટાઇલગેન ટેકનોલોજીનું પ્રથમ સંસ્કરણ (2019 માં પ્રકાશિત), ત્યારબાદ 2 માં સ્ટાઇલગેન 2020 નું સુધારેલું સંસ્કરણ, જે છબીની ગુણવત્તામાં સુધારો કરે છે અને કેટલીક કલાકૃતિઓને દૂર કરે છે. તે જ સમયે, સિસ્ટમ સ્થિર રહી, એટલે કે, તેણે વાસ્તવિક એનિમેશન અથવા ચહેરાના હલનચલનને મંજૂરી આપી નહીં. સ્ટાઇલજીએએન 3 વિકસાવતી વખતે, મુખ્ય ધ્યેય એનિમેશન અને વિડીયોમાં ઉપયોગ માટે ટેકનોલોજીને અનુકૂળ કરવાનો હતો.

સ્ટાઇલગેન 3 ફરીથી ડિઝાઇન કરેલ બિન-અલિયાસીંગ ઇમેજિંગ આર્કિટેક્ચરનો ઉપયોગ કરે છેay નવા ન્યુરલ નેટવર્ક તાલીમ દૃશ્યો પ્રદાન કરે છે અને ઇન્ટરેક્ટિવ વિઝ્યુલાઇઝેશન (visualizer.py), વિશ્લેષણ (avg_spectra.py) અને વિડીયો જનરેશન (gen_video.py) માટે નવી ઉપયોગિતાઓ પણ સમાવે છે. અમલીકરણ પણ મેમરી વપરાશ ઘટાડે છે અને શીખવાની પ્રક્રિયાને ઝડપી બનાવે છે.

સ્ટાઇલજીએએન 3 આર્કિટેક્ચરની મુખ્ય લાક્ષણિકતા એ સતત પ્રક્રિયાઓના સ્વરૂપમાં ન્યુરલ નેટવર્કમાં તમામ સંકેતોના અર્થઘટનમાં સંક્રમણ હતું, જેણે ભાગો બનાવીને સંબંધિત સ્થિતિમાં હેરફેર કરવાનું શક્ય બનાવ્યું હતું, જેમાં વ્યક્તિગત પિક્સેલ્સના સંપૂર્ણ કોઓર્ડિનેટ્સ સાથે બંધાયેલ નથી. છબી, પરંતુ રજૂ કરેલી વસ્તુઓની સપાટી પર નિશ્ચિત.

જ્યારે સ્ટાઇલગેન અને સ્ટાઇલગેન 2 માં, બિલ્ડ દરમિયાન પિક્સેલ્સ પર ત્વરિત થવાથી ગતિશીલ રેન્ડરિંગ સાથે સમસ્યાઓ ભી થઈઉદાહરણ તરીકે, જ્યારે છબી ખસેડતી હતી, ત્યાં નાની વિગતોની અસંગતતા હતી, જેમ કે કરચલીઓ અને વાળ, જે ચહેરાની બાકીની છબીથી અલગ જણાય છે, સ્ટાઇલગેન 3 માં આ સમસ્યાઓ હલ થાય છે અને તકનીકી પાસે છે વિડીયો જનરેશન માટે એકદમ યોગ્ય બની જાય છે.

છેલ્લે, પણ ઉલ્લેખનીય છે ની જાહેરાત સૌથી મોટા MT-NLG લેંગ્વેજ મોડલનું NVIDIA અને Microsoft દ્વારા સર્જન »પરિવર્તનશીલ« સ્થાપત્ય સાથે deepંડા ન્યુરલ નેટવર્ક પર આધારિત.

આ મોડેલ 530 અબજ પરિમાણોને આવરી લે છે અને 4480 GPU ના પૂલનો ઉપયોગ કરવામાં આવ્યો હતો તાલીમ માટે (560 DGX A100 સર્વર 8 A100 GPUs સાથે 80 GB દરેક). મોડેલની અરજીના ક્ષેત્રોને કુદરતી ભાષાની માહિતી પ્રક્રિયા સમસ્યાનું નિરાકરણ કહેવામાં આવે છે, જેમ કે અધૂરા વાક્યના પૂર્વાનુમાનની આગાહી કરવી, પ્રશ્નોના જવાબ આપવા, સમજણ વાંચવા, કુદરતી ભાષામાં તારણો રચવા અને શબ્દોના અર્થની અસ્પષ્ટતાનું વિશ્લેષણ કરવું.

જો તમને તેના વિશે વધુ જાણવામાં રસ છે, તમે StyleGAN3 ની વિગતો ચકાસી શકો છો નીચેની કડીમાં


તમારી ટિપ્પણી મૂકો

તમારું ઇમેઇલ સરનામું પ્રકાશિત કરવામાં આવશે નહીં. આવશ્યક ક્ષેત્રો સાથે ચિહ્નિત થયેલ છે *

*

*

  1. ડેટા માટે જવાબદાર: AB ઈન્ટરનેટ નેટવર્ક્સ 2008 SL
  2. ડેટાનો હેતુ: નિયંત્રણ સ્પામ, ટિપ્પણી સંચાલન.
  3. કાયદો: તમારી સંમતિ
  4. ડેટાની વાતચીત: કાયદાકીય જવાબદારી સિવાય ડેટા તૃતીય પક્ષને આપવામાં આવશે નહીં.
  5. ડેટા સ્ટોરેજ: cસેન્ટસ નેટવર્ક્સ (ઇયુ) દ્વારા હોસ્ટ કરેલો ડેટાબેઝ
  6. અધિકાર: કોઈપણ સમયે તમે તમારી માહિતીને મર્યાદિત, પુન recoverપ્રાપ્ત અને કા deleteી શકો છો.