StyleGAN3, முகத் தொகுப்பிற்கான என்விடியின் இயந்திர கற்றல் அமைப்பு

சமீபத்தில் என்விடியா StyleGAN3 க்கான மூலக் குறியீட்டை வெளியிட்டது, மனித முகங்களின் யதார்த்தமான படங்களை ஒருங்கிணைக்க உருவாக்கப்படும் பாதகமான நரம்பியல் நெட்வொர்க்குகளை (GAN) அடிப்படையாகக் கொண்ட ஒரு இயந்திர கற்றல் அமைப்பு.

StyleGAN3 இல் சேகரிப்பில் பயிற்றுவிக்கப்பட்ட பயிற்சி பெற்ற மாதிரிகள் பதிவிறக்கம் செய்ய கிடைக்கின்றன Flickr-Faces-HQ (FFHQ), இதில் உயர்தர மனித முகங்களின் 70 ஆயிரம் PNG படங்கள் உள்ளன (1024 × 1024). கூடுதலாக, AFHQv2 (விலங்கு முகங்களின் புகைப்படங்கள்) மற்றும் மெட்ஃபேஸ்கள் (கிளாசிக்கல் பெயிண்டிங் ஓவியங்களிலிருந்து மக்களின் முகங்களின் படங்கள்) தொகுப்புகளின் அடிப்படையில் கட்டப்பட்ட மாதிரிகள் உள்ளன.

StyleGAN3 பற்றி

வடிவமைப்பு முகங்களில் கவனம் செலுத்துகிறது, ஆனால் எந்த வகையான பொருளையும் உருவாக்க கணினிக்கு பயிற்சி அளிக்க முடியும், நிலப்பரப்புகள் மற்றும் கார்கள் போன்றவை. வேறு என்ன, நரம்பு நெட்வொர்க்கின் சுய கற்றலுக்கான கருவிகள் வழங்கப்படுகின்றன உங்கள் சொந்த படத் தொகுப்புகளைப் பயன்படுத்துதல். ஒன்று அல்லது அதற்கு மேற்பட்ட என்விடியா கிராபிக்ஸ் கார்டுகள் தேவை (டெஸ்லா வி 100 அல்லது ஏ 100 ஜிபியூக்கள் பரிந்துரைக்கப்படுகிறது), குறைந்தது 12 ஜிபி ரேம், பைடார்ச் 1.9, மற்றும் CUDA 11.1+ கருவித்தொகுப்பு. பெறப்பட்ட முகங்களின் செயற்கை தன்மையை தீர்மானிக்க, ஒரு சிறப்பு கண்டுபிடிப்பான் உருவாக்கப்படுகிறது.

அமைப்பு பல முகங்களின் அம்சங்களின் இடைச்செருகலின் அடிப்படையில் ஒரு புதிய முகத்தின் படத்தை ஒருங்கிணைக்க அனுமதிக்கிறது, அவற்றின் இயல்பான அம்சங்களை இணைத்து, தேவையான வயது, பாலினம், முடி நீளம், புன்னகை தன்மை, மூக்கு வடிவம், தோல் நிறம், கண்ணாடிகள், புகைப்படக் கோணம் ஆகியவற்றுடன் இறுதிப் படத்தை மாற்றியமைப்பதுடன்.

ஜெனரேட்டர் படத்தை பாணிகளின் தொகுப்பாக கருதுகிறது, பண்பு விவரங்களை தானாக பிரிக்கிறது (குறும்புகள், முடி, கண்ணாடிகள்) பொது உயர்-பண்புக்கூறுகளின் (தோரணை, பாலினம், வயது தொடர்பான மாற்றங்கள்) மற்றும் அவற்றை எடையுள்ள காரணிகள் மூலம் ஆதிக்கம் செலுத்தும் பண்புகளின் வரையறையுடன் தன்னிச்சையாக இணைக்க அனுமதிக்கிறது, இதன் விளைவாக படங்கள் உருவாக்கப்படுகின்றன அவை உண்மையான புகைப்படங்களிலிருந்து வேறுபடுத்த முடியாதவை.

StyleGAN தொழில்நுட்பத்தின் முதல் பதிப்பு (2019 இல் வெளியிடப்பட்டது), அதன் பிறகு 2 இல் StyleGAN2020 இன் மேம்படுத்தப்பட்ட பதிப்பு, இது படத்தின் தரத்தை மேம்படுத்துகிறது மற்றும் சில கலைப்பொருட்களை நீக்குகிறது. அதே நேரத்தில், அமைப்பு நிலையானதாக இருந்தது, அதாவது, அது யதார்த்தமான அனிமேஷன் அல்லது முக அசைவுகளை அனுமதிக்கவில்லை. StyleGAN3 ஐ உருவாக்கும் போது, ​​அனிமேஷன் மற்றும் வீடியோவில் பயன்படுத்துவதற்கான தொழில்நுட்பத்தை மாற்றியமைப்பதே முக்கிய குறிக்கோளாக இருந்தது.

StyleGAN3 மறுவடிவமைப்பு செய்யப்பட்ட மாற்றுப்பெயர் இல்லாத இமேஜிங் கட்டமைப்பைப் பயன்படுத்துகிறதுay புதிய நரம்பியல் நெட்வொர்க் பயிற்சி காட்சிகளை வழங்குகிறது மற்றும் ஊடாடும் காட்சிப்படுத்தலுக்கான புதிய பயன்பாடுகளையும் (காட்சிப்படுத்தி. செயல்படுத்தல் நினைவக நுகர்வு குறைக்கிறது மற்றும் கற்றல் செயல்முறையை துரிதப்படுத்துகிறது.

StyleGAN3 கட்டிடக்கலையின் ஒரு முக்கிய அம்சம், நரம்பியல் நெட்வொர்க்கில் உள்ள அனைத்து சமிக்ஞைகளின் தொடர்ச்சியான செயல்முறைகளின் விளக்கத்திற்கு மாறுவது ஆகும், இது பாகங்களை உருவாக்குவதன் மூலம் தொடர்புடைய நிலைகளை கையாள முடிந்தது, தனிப்பட்ட பிக்சல்களின் முழுமையான ஒருங்கிணைப்புகளுடன் இணைக்கப்படவில்லை படம், ஆனால் குறிப்பிடப்பட்ட பொருட்களின் மேற்பரப்பில் சரி செய்யப்பட்டது.

போது StyleGAN மற்றும் StyleGAN2 இல், உருவாக்கத்தின் போது பிக்சல்களுக்கு ஸ்னாப் செய்வது டைனமிக் ரெண்டரிங்கில் சிக்கல்களை ஏற்படுத்தியதுஉதாரணமாக, படம் நகரும் போது, ​​சுருக்கங்கள் மற்றும் முடிகள் போன்ற சிறிய விவரங்களின் பொருந்தாத தன்மை இருந்தது, இது முகத்தின் மற்ற படங்களிலிருந்து தனித்தனியாக நகர்வதாகத் தோன்றியது, கூடுதலாக StyleGAN3 இல் இந்த சிக்கல்கள் தீர்க்கப்பட்டு தொழில்நுட்பம் உள்ளது வீடியோ தலைமுறைக்கு மிகவும் பொருத்தமானது.

இறுதியாக, மேலும் குறிப்பிடத் தக்கது என்ற அறிவிப்பு மிகப்பெரிய MT-NLG மொழி மாதிரியின் என்விடியா மற்றும் மைக்ரோசாப்ட் உருவாக்கம் ஒரு ஆழமான நரம்பியல் நெட்வொர்க்கை அடிப்படையாகக் கொண்டு "உருமாறும்" கட்டிடக்கலை.

மாடல் 530 பில்லியன் அளவுருக்களை உள்ளடக்கியது மற்றும் 4480 GPU களின் குளம் பயன்படுத்தப்பட்டது பயிற்சிக்கு (560 DGX A100 சேவையகங்கள் 8 A100 GPU களுடன் ஒவ்வொன்றும் 80 GB). மாதிரியின் பயன்பாட்டின் பகுதிகள் இயற்கையான மொழியில் தகவல் செயலாக்க சிக்கல் தீர்க்கும் என்று அழைக்கப்படுகின்றன, அதாவது முடிக்கப்படாத வாக்கியத்தை நிறைவு செய்வது, கேள்விகளுக்கு பதிலளிப்பது, புரிந்துகொள்ளுதல், இயற்கை மொழியில் முடிவுகளை உருவாக்குதல் மற்றும் சொற்களின் அர்த்தத்தின் தெளிவின்மையை பகுப்பாய்வு செய்தல்.

நீங்கள் அதைப் பற்றி மேலும் அறிய ஆர்வமாக இருந்தால், நீங்கள் StyleGAN3 இன் விவரங்களைச் சரிபார்க்கலாம் பின்வரும் இணைப்பில்.


உங்கள் கருத்தை தெரிவிக்கவும்

உங்கள் மின்னஞ்சல் முகவரி வெளியிடப்பட்ட முடியாது. தேவையான புலங்கள் குறிக்கப்பட்டிருக்கும் *

*

*

  1. தரவுகளுக்குப் பொறுப்பு: AB இன்டர்நெட் நெட்வொர்க்ஸ் 2008 SL
  2. தரவின் நோக்கம்: கட்டுப்பாட்டு ஸ்பேம், கருத்து மேலாண்மை.
  3. சட்டபூர்வமாக்கல்: உங்கள் ஒப்புதல்
  4. தரவின் தொடர்பு: சட்டபூர்வமான கடமையால் தவிர மூன்றாம் தரப்பினருக்கு தரவு தெரிவிக்கப்படாது.
  5. தரவு சேமிப்பு: ஆக்சென்டஸ் நெட்வொர்க்குகள் (EU) வழங்கிய தரவுத்தளம்
  6. உரிமைகள்: எந்த நேரத்திலும் உங்கள் தகவல்களை நீங்கள் கட்டுப்படுத்தலாம், மீட்டெடுக்கலாம் மற்றும் நீக்கலாம்.