StyleGAN3 ، نظام التعلم الآلي من Nvidi لتخليق الوجه

مؤخرا أصدرت NVIDIA شفرة المصدر لـ StyleGAN3، وهو نظام للتعلم الآلي يعتمد على الشبكات العصبية التوليدية المعاكسة (GAN) لتجميع صور واقعية لوجوه الإنسان.

في StyleGAN3 متاحة لتنزيل النماذج المدربة الجاهزة للاستخدام المدربة في المجموعة Flickr-Faces-HQ (FFHQ) ، والذي يتضمن 70 ألف صورة PNG لوجوه بشرية عالية الجودة (1024 × 1024). بالإضافة إلى ذلك ، هناك نماذج مبنية على أساس مجموعات AFHQv2 (صور لوجوه الحيوانات) و Metfaces (صور وجوه الناس من لوحات اللوحات الكلاسيكية).

حول StyleGAN3

التصميم يركز على الوجوه ، ولكن يمكن تدريب النظام على إنشاء أي نوع من الكائنات ، مثل المناظر الطبيعية والسيارات. ما هو أكثر من ذلك ، يتم توفير أدوات للتعلم الذاتي للشبكة العصبية باستخدام مجموعات الصور الخاصة بك. يتطلب بطاقة رسومات NVIDIA أو أكثر (يوصى باستخدام وحدات معالجة رسومات Tesla V100 أو A100) ، وذاكرة وصول عشوائي (RAM) بسعة 12 جيجابايت على الأقل ، و PyTorch 1.9 ، و CUDA 11.1+ Toolkit. لتحديد الطبيعة الاصطناعية للوجوه المستقبلة ، يجري تطوير كاشف خاص.

النظام يسمح بتركيب صورة لوجه جديد بناءً على استيفاء ميزات العديد من الوجوهتجمع بين سماتها المتأصلة ، بالإضافة إلى تكييف الصورة النهائية مع العمر المطلوب والجنس وطول الشعر وشخصية الابتسامة وشكل الأنف ولون البشرة والنظارات وزاوية التصوير.

المولد يتعامل مع الصورة كمجموعة من الأنماط ، ويفصل بين التفاصيل المميزة تلقائيًا (النمش والشعر والنظارات) للسمات العامة عالية المستوى (الوضع والجنس والتغيرات المرتبطة بالعمر) ويسمح بدمجها بشكل تعسفي مع تعريف الخصائص السائدة من خلال عوامل الترجيح ونتيجة لذلك ، يتم إنشاء الصور التي لا يمكن تمييزها على ما يبدو عن الصور الفعلية.

الإصدار الأول من تقنية StyleGAN (تم إصداره في عام 2019) ، متبوعًا بنسخة محسنة من StyleGAN2 في عام 2020 ، والتي تعمل على تحسين جودة الصورة وإزالة بعض القطع الأثرية. في الوقت نفسه ، ظل النظام ثابتًا ، أي أنه لم يسمح بالرسوم المتحركة الواقعية أو حركات الوجه. عند تطوير StyleGAN3 ، كان الهدف الرئيسي هو تكييف التكنولوجيا لاستخدامها في الرسوم المتحركة والفيديو.

يستخدم StyleGAN3 بنية تصوير غير مستعارة معاد تصميمهايقدم ay سيناريوهات جديدة للتدريب على الشبكة العصبية ويتضمن أيضًا أدوات مساعدة جديدة للتصور التفاعلي (visualizer.py) والتحليل (avg_spectra.py) وإنشاء الفيديو (gen_video.py). يقلل التطبيق أيضًا من استهلاك الذاكرة ويسرع عملية التعلم.

كانت السمة الرئيسية لبنية StyleGAN3 هي الانتقال إلى تفسير جميع الإشارات في الشبكة العصبية في شكل عمليات مستمرة ، مما جعل من الممكن معالجة المواضع النسبية من خلال تكوين أجزاء ، غير مرتبطة بالإحداثيات المطلقة لوحدات البكسل الفردية في الصورة ، ولكنها ثابتة على سطح الكائنات الممثلة.

في حين في StyleGAN و StyleGAN2 ، تسبب الالتقاط إلى وحدات البكسل أثناء الإنشاء في حدوث مشكلات في العرض الديناميكيعلى سبيل المثال ، عندما كانت الصورة تتحرك ، كان هناك عدم تطابق في التفاصيل الصغيرة ، مثل التجاعيد والشعر ، والتي بدت وكأنها تتحرك بشكل منفصل عن بقية صورة الوجه ، بالإضافة إلى ذلك في StyleGAN3 ، تم حل هذه المشكلات وتم حل التكنولوجيا. تصبح مناسبة تمامًا لتوليد الفيديو.

وأخيرا، أيضا من الجدير بالذكر الاعلان عن إنشاء NVIDIA و Microsoft لأكبر نموذج لغة MT-NLG يعتمد على شبكة عصبية عميقة ذات بنية "تحويلية".

يغطي النموذج 530 مليار معلمة وتم استخدام مجموعة من 4480 وحدة معالجة رسومات للتدريب (560 خادم DGX A100 مع 8 وحدات معالجة رسومات A100 بسعة 80 جيجابايت لكل منها). تسمى مجالات تطبيق النموذج حل مشكلة معالجة المعلومات في اللغة الطبيعية ، مثل التنبؤ بإكمال جملة غير مكتملة ، والإجابة على الأسئلة ، وفهم القراءة ، وتشكيل استنتاجات في اللغة الطبيعية ، وتحليل غموض معنى الكلمات.

إذا كنت مهتمًا بمعرفة المزيد عنها، يمكنك التحقق من تفاصيل StyleGAN3 في الرابط التالي.


اترك تعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

*

*

  1. المسؤول عن البيانات: AB Internet Networks 2008 SL
  2. الغرض من البيانات: التحكم في الرسائل الاقتحامية ، وإدارة التعليقات.
  3. الشرعية: موافقتك
  4. توصيل البيانات: لن يتم إرسال البيانات إلى أطراف ثالثة إلا بموجب التزام قانوني.
  5. تخزين البيانات: قاعدة البيانات التي تستضيفها شركة Occentus Networks (الاتحاد الأوروبي)
  6. الحقوق: يمكنك في أي وقت تقييد معلوماتك واستعادتها وحذفها.