StyleGAN3 ระบบการเรียนรู้ด้วยเครื่องของ Nvidi สำหรับการสังเคราะห์ใบหน้า

เมื่อเร็ว ๆ นี้ NVIDIA เปิดตัวซอร์สโค้ดสำหรับ StyleGAN3ซึ่งเป็นระบบการเรียนรู้ของเครื่องที่ใช้โครงข่ายประสาทเทียม (GAN) เพื่อสังเคราะห์ภาพที่เหมือนจริงของใบหน้ามนุษย์

ในสไตล์GAN3 พร้อมให้ดาวน์โหลดโมเดลที่ผ่านการฝึกอบรมพร้อมใช้ซึ่งได้รับการฝึกฝนในคอลเลกชั่น Flickr-Faces-HQ (FFHQ) ซึ่งประกอบด้วยรูปภาพ PNG จำนวน 70 รูปที่มีใบหน้ามนุษย์คุณภาพสูง (1024 × 1024) นอกจากนี้ ยังมีโมเดลที่สร้างขึ้นจากคอลเลกชั่น AFHQv2 (ภาพถ่ายใบหน้าสัตว์) และ Metfaces (ภาพใบหน้าผู้คนจากภาพวาดภาพวาดคลาสสิก)

เกี่ยวกับ StyleGAN3

การออกแบบ เน้นที่ใบหน้า แต่ระบบสามารถฝึกให้สร้างวัตถุประเภทใดก็ได้ เช่นภูมิทัศน์และรถยนต์ มีอะไรอีก, มีเครื่องมือสำหรับการเรียนรู้ด้วยตนเองของโครงข่ายประสาทเทียม โดยใช้คอลเลกชันภาพของคุณเอง ต้องใช้การ์ดกราฟิก NVIDIA หนึ่งตัวขึ้นไป (แนะนำให้ใช้ GPU Tesla V100 หรือ A100), RAM อย่างน้อย 12GB, PyTorch 1.9 และ CUDA 11.1+ Toolkit เพื่อกำหนดลักษณะเทียมของใบหน้าที่ได้รับ เครื่องตรวจจับพิเศษกำลังได้รับการพัฒนา

ระบบ อนุญาตให้สังเคราะห์ภาพของใบหน้าใหม่ตามการแก้ไขคุณสมบัติของหลาย ๆ ใบหน้ารวมคุณสมบัติโดยเนื้อแท้ของพวกเขา นอกเหนือจากการปรับภาพสุดท้ายให้เข้ากับอายุที่ต้องการ เพศ ความยาวผม ลักษณะรอยยิ้ม รูปร่างจมูก สีผิว แว่นตา มุมถ่ายภาพ

เครื่องกำเนิดไฟฟ้า ให้รูปภาพเป็นคอลเลกชันของสไตล์ แยกรายละเอียดคุณลักษณะโดยอัตโนมัติ (กระ ผม แว่น) ของคุณลักษณะระดับสูงทั่วไป (ท่าทาง เพศ การเปลี่ยนแปลงที่เกี่ยวข้องกับอายุ) และยอมให้นำมารวมกับคำจำกัดความของคุณสมบัติเด่นผ่านปัจจัยการถ่วงน้ำหนัก และด้วยเหตุนี้ ภาพจึงถูกสร้างขึ้นที่ เห็นได้ชัดว่าแยกไม่ออกจากภาพถ่ายจริง

เทคโนโลยี StyleGAN เวอร์ชันแรก (เปิดตัวในปี 2019) ตามด้วย StyleGAN2 เวอร์ชันปรับปรุงในปี 2020 ซึ่งปรับปรุงคุณภาพของภาพและลบสิ่งแปลกปลอมบางส่วนออก ในเวลาเดียวกัน ระบบยังคงนิ่ง กล่าวคือ ไม่อนุญาตให้มีการเคลื่อนไหวที่เหมือนจริงหรือการเคลื่อนไหวของใบหน้า เมื่อพัฒนา StyleGAN3 เป้าหมายหลักคือการปรับเทคโนโลยีเพื่อใช้ในแอนิเมชั่นและวิดีโอ

StyleGAN3 ใช้สถาปัตยกรรมการสร้างภาพที่ไม่มีนามแฝงที่ออกแบบใหม่ay นำเสนอสถานการณ์การฝึกอบรมโครงข่ายประสาทเทียมแบบใหม่ และยังมียูทิลิตี้ใหม่สำหรับการแสดงภาพแบบโต้ตอบ (visualizer.py) การวิเคราะห์ (avg_spectra.py) และการสร้างวิดีโอ (gen_video.py) การใช้งานยังช่วยลดการใช้หน่วยความจำและเพิ่มความเร็วในกระบวนการเรียนรู้

คุณลักษณะสำคัญของสถาปัตยกรรม StyleGAN3 คือการเปลี่ยนไปสู่การตีความสัญญาณทั้งหมดในโครงข่ายประสาทเทียมในรูปแบบของกระบวนการต่อเนื่อง ซึ่งทำให้สามารถจัดการตำแหน่งสัมพัทธ์ด้วยการสร้างชิ้นส่วน โดยไม่ผูกกับพิกัดสัมบูรณ์ของแต่ละพิกเซลใน รูปภาพ แต่จับจ้องไปที่พื้นผิวของวัตถุที่แสดง

ในขณะที่ ใน StyleGAN และ StyleGAN2 การสแนปเป็นพิกเซลระหว่างบิลด์ทำให้เกิดปัญหากับการแสดงผลแบบไดนามิกตัวอย่างเช่น เมื่อภาพเคลื่อนไหว มีรายละเอียดเล็กๆ น้อยๆ ที่ไม่ตรงกัน เช่น รอยย่นและเส้นขน ซึ่งดูเหมือนจะเคลื่อนแยกจากภาพใบหน้าส่วนที่เหลือ นอกจากนั้นใน StyleGAN3 ปัญหาเหล่านี้ได้รับการแก้ไขแล้ว และเทคโนโลยีมี ค่อนข้างเหมาะสมกับการสร้างวิดีโอ

ในที่สุด ยังมีมูลค่าการกล่าวขวัญ การประกาศของ การสร้างโดย NVIDIA และ Microsoft ของโมเดลภาษา MT-NLG ที่ใหญ่ที่สุด บนพื้นฐานของโครงข่ายประสาทเทียมเชิงลึกที่มีสถาปัตยกรรม »transformative«

โมเดลนี้ครอบคลุมพารามิเตอร์ 530 พันล้านตัวและใช้ GPU 4480 ตัว สำหรับการฝึกอบรม (เซิร์ฟเวอร์ 560 DGX A100 พร้อม GPU A8 100 ตัว แต่ละเครื่อง 80 GB) ขอบเขตของการใช้แบบจำลองนี้เรียกว่า การแก้ปัญหาการประมวลผลข้อมูลในภาษาธรรมชาติ เช่น การทำนายความสมบูรณ์ของประโยคที่ยังไม่เสร็จ การตอบคำถาม การอ่านเพื่อความเข้าใจ การสร้างข้อสรุปในภาษาธรรมชาติ และการวิเคราะห์ความกำกวมของความหมายของคำ

หากคุณสนใจที่จะทราบข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้คุณสามารถตรวจสอบรายละเอียดของ StyleGAN3 . ได้ ในลิงค์ต่อไปนี้.


แสดงความคิดเห็นของคุณ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

*

*

  1. รับผิดชอบข้อมูล: AB Internet Networks 2008 SL
  2. วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
  3. ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
  4. การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
  5. การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
  6. สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา