HyperStyle ، تكيف StyleGAN لتحرير الصور

فريق من كشف باحثو جامعة تل أبيب مؤخرًا عن HyperStyleوهو نسخة معكوسة من نظام التعلم الآلي نفيديا StyleGAN2 التي تمت إعادة تصميمها لإعادة إنشاء القطع المفقودة عند تحرير صور العالم الحقيقي.

يتميز StyleGAN بالسماح بتوليف وجوه جديدة للأشخاص بمظهر واقعي ، تحديد المعلمات مثل العمر والجنس وطول الشعر وشخصية الابتسامة وشكل الأنف ولون البشرة والنظارات وزاوية التصوير.

وعلاوة على ذلك، HyperStyle يجعل من الممكن تغيير متغيرات مماثلة في تلك الموجودة ، بمعنى آخر ، يتيح لك إنشاء صور فوتوغرافية دون تعديل ميزاتها المميزة والحفاظ على إمكانية التعرف على الوجه الأصلي.

تقدم HyperStyle الشبكات الفائقة لتعلم كيفية تحسين أوزان مولد StyleGAN الذي تم تدريبه مسبقًا بالنسبة إلى صورة إدخال معينة. يؤدي القيام بذلك إلى تمكين عمليات إعادة بناء مستوى التحسين بأوقات استدلال شبيهة بأوقات الاستدلال وإمكانية تحرير عالية.

على سبيل المثال ، عند استخدام ملفات HyperStyle ، يمكنه محاكاة تغيير في عمر الشخص في الصورة، قم بتغيير تصفيفة الشعر ، أضف نظارات ، لحية أو شارب ، اجعل الصورة تبدو كشخصية كرتونية أو صورة مرسومة باليد ، قم بتعبير وجه حزين أو سعيد.

في هذه الحالة، يمكن تدريب النظام ليس فقط على تغيير وجوه الناس ، ولكن أيضًا على أي شيء ، من أجله على سبيل المثال ، لتحرير صور السيارة.

تبحث معظم الأعمال التي تدرس الانعكاس عن رمز كامن يعيد بناء صورة معينة بدقة أكبر. اقترحت بعض الأعمال الحديثة ضبطًا دقيقًا للصورة لأوزان المولد لتحقيق إعادة بناء عالية الجودة لصورة هدف معينة. مع HyperStyle ، نهدف إلى جلب أساليب ضبط المولد هذه إلى عالم التطبيقات التفاعلية من خلال تكييفها مع نهج قائم على التشفير.

قمنا بتدريب شبكة تشعبية واحدة لمعرفة كيفية تحسين أوزان المولد بالنسبة للصورة المستهدفة المرغوبة. من خلال تعلم هذا التعيين ، تتنبأ HyperStyle بكفاءة بالأوزان المستهدفة للمولد في أقل من ثانيتين لكل صورة ، مما يجعلها قابلة للتطبيق على مجموعة واسعة من التطبيقات.

الطريقة المقترحة يهدف إلى حل مشكلة إعادة بناء الأجزاء المفقودة من الصورة أثناء التحرير. لقد عالجت التقنيات المقترحة أعلاه التوازن بين إعادة الإعمار والتحرير عن طريق ضبط المصور لاستبدال أجزاء من الصورة المستهدفة أثناء إعادة إنشاء مناطق قابلة للتحرير كانت مفقودة في الأصل. الجانب السلبي لهذه الأساليب هو الحاجة إلى تدريب مستهدف طويل الأجل للشبكة العصبية لكل صورة.

تسمح الطريقة القائمة على خوارزمية StyleGAN باستخدام نموذج نموذجي ، تم اختباره مسبقًا على مجموعات مشتركة من الصور ، لتوليد عناصر مميزة للصورة الأصلية بمستوى من الثقة يمكن مقارنته بالخوارزميات التي تتطلب تدريبًا فرديًا للنموذج لكل صورة.

من مزايا الطريقة الجديدة القدرة على تعديل الصور بأداء قريب من الوقت الحقيقي ، بالإضافة إلى حقيقة أن النموذج جاهز للتدريب معدة لهؤلاء الأشخاص والسيارات والحيوانات بناءً على المجموعات من Flickr-the Faces-HQ (FFHQ ، 70,000 صورة PNG عالية الجودة لوجوه الأشخاص) ، و Stanford Cars (16 صورة للسيارات) و AFHQ (صور الحيوانات).

وبالإضافة إلى ذلك، يتم توفير مجموعة من الأدوات لتدريب النماذج الخاصة بكبالإضافة إلى النماذج المدربة الجاهزة للاستخدام من المشفرات والمولدات النموذجية المناسبة للاستخدام معهم. على سبيل المثال ، هناك مولدات متاحة لإنشاء صور بأسلوب Toonify ، وشخصيات Pixar ، وإنشاء الرسومات ، وحتى التصميم مثل أميرات ديزني.

أخيرا لأولئك الذين يرغبون في معرفة المزيد حول هذه الأداة ، يمكنك التحقق من التفاصيل في الرابط التالي.

من المهم أيضًا الإشارة إلى أن الكود مكتوب بلغة Python باستخدام إطار عمل PyTorch وهو مرخص من معهد ماساتشوستس للتكنولوجيا. يمكنك التحقق من الرمز في الرابط التالي.


اترك تعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

*

*

  1. المسؤول عن البيانات: AB Internet Networks 2008 SL
  2. الغرض من البيانات: التحكم في الرسائل الاقتحامية ، وإدارة التعليقات.
  3. الشرعية: موافقتك
  4. توصيل البيانات: لن يتم إرسال البيانات إلى أطراف ثالثة إلا بموجب التزام قانوني.
  5. تخزين البيانات: قاعدة البيانات التي تستضيفها شركة Occentus Networks (الاتحاد الأوروبي)
  6. الحقوق: يمكنك في أي وقت تقييد معلوماتك واستعادتها وحذفها.