เมื่อเร็ว ๆ นี้ NVIDIA เปิดตัวซอร์สโค้ดสำหรับ StyleGAN3ซึ่งเป็นระบบการเรียนรู้ของเครื่องที่ใช้โครงข่ายประสาทเทียม (GAN) เพื่อสังเคราะห์ภาพที่เหมือนจริงของใบหน้ามนุษย์
ในสไตล์GAN3 พร้อมให้ดาวน์โหลดโมเดลที่ผ่านการฝึกอบรมพร้อมใช้ซึ่งได้รับการฝึกฝนในคอลเลกชั่น Flickr-Faces-HQ (FFHQ) ซึ่งประกอบด้วยรูปภาพ PNG จำนวน 70 รูปที่มีใบหน้ามนุษย์คุณภาพสูง (1024 × 1024) นอกจากนี้ ยังมีโมเดลที่สร้างขึ้นจากคอลเลกชั่น AFHQv2 (ภาพถ่ายใบหน้าสัตว์) และ Metfaces (ภาพใบหน้าผู้คนจากภาพวาดภาพวาดคลาสสิก)
เกี่ยวกับ StyleGAN3
การออกแบบ เน้นที่ใบหน้า แต่ระบบสามารถฝึกให้สร้างวัตถุประเภทใดก็ได้ เช่นภูมิทัศน์และรถยนต์ มีอะไรอีก, มีเครื่องมือสำหรับการเรียนรู้ด้วยตนเองของโครงข่ายประสาทเทียม โดยใช้คอลเลกชันภาพของคุณเอง ต้องใช้การ์ดกราฟิก NVIDIA หนึ่งตัวขึ้นไป (แนะนำให้ใช้ GPU Tesla V100 หรือ A100), RAM อย่างน้อย 12GB, PyTorch 1.9 และ CUDA 11.1+ Toolkit เพื่อกำหนดลักษณะเทียมของใบหน้าที่ได้รับ เครื่องตรวจจับพิเศษกำลังได้รับการพัฒนา
ระบบ อนุญาตให้สังเคราะห์ภาพของใบหน้าใหม่ตามการแก้ไขคุณสมบัติของหลาย ๆ ใบหน้ารวมคุณสมบัติโดยเนื้อแท้ของพวกเขา นอกเหนือจากการปรับภาพสุดท้ายให้เข้ากับอายุที่ต้องการ เพศ ความยาวผม ลักษณะรอยยิ้ม รูปร่างจมูก สีผิว แว่นตา มุมถ่ายภาพ
เครื่องกำเนิดไฟฟ้า ให้รูปภาพเป็นคอลเลกชันของสไตล์ แยกรายละเอียดคุณลักษณะโดยอัตโนมัติ (กระ ผม แว่น) ของคุณลักษณะระดับสูงทั่วไป (ท่าทาง เพศ การเปลี่ยนแปลงที่เกี่ยวข้องกับอายุ) และยอมให้นำมารวมกับคำจำกัดความของคุณสมบัติเด่นผ่านปัจจัยการถ่วงน้ำหนัก และด้วยเหตุนี้ ภาพจึงถูกสร้างขึ้นที่ เห็นได้ชัดว่าแยกไม่ออกจากภาพถ่ายจริง
เทคโนโลยี StyleGAN เวอร์ชันแรก (เปิดตัวในปี 2019) ตามด้วย StyleGAN2 เวอร์ชันปรับปรุงในปี 2020 ซึ่งปรับปรุงคุณภาพของภาพและลบสิ่งแปลกปลอมบางส่วนออก ในเวลาเดียวกัน ระบบยังคงนิ่ง กล่าวคือ ไม่อนุญาตให้มีการเคลื่อนไหวที่เหมือนจริงหรือการเคลื่อนไหวของใบหน้า เมื่อพัฒนา StyleGAN3 เป้าหมายหลักคือการปรับเทคโนโลยีเพื่อใช้ในแอนิเมชั่นและวิดีโอ
StyleGAN3 ใช้สถาปัตยกรรมการสร้างภาพที่ไม่มีนามแฝงที่ออกแบบใหม่ay นำเสนอสถานการณ์การฝึกอบรมโครงข่ายประสาทเทียมแบบใหม่ และยังมียูทิลิตี้ใหม่สำหรับการแสดงภาพแบบโต้ตอบ (visualizer.py) การวิเคราะห์ (avg_spectra.py) และการสร้างวิดีโอ (gen_video.py) การใช้งานยังช่วยลดการใช้หน่วยความจำและเพิ่มความเร็วในกระบวนการเรียนรู้
คุณลักษณะสำคัญของสถาปัตยกรรม StyleGAN3 คือการเปลี่ยนไปสู่การตีความสัญญาณทั้งหมดในโครงข่ายประสาทเทียมในรูปแบบของกระบวนการต่อเนื่อง ซึ่งทำให้สามารถจัดการตำแหน่งสัมพัทธ์ด้วยการสร้างชิ้นส่วน โดยไม่ผูกกับพิกัดสัมบูรณ์ของแต่ละพิกเซลใน รูปภาพ แต่จับจ้องไปที่พื้นผิวของวัตถุที่แสดง
ในขณะที่ ใน StyleGAN และ StyleGAN2 การสแนปเป็นพิกเซลระหว่างบิลด์ทำให้เกิดปัญหากับการแสดงผลแบบไดนามิกตัวอย่างเช่น เมื่อภาพเคลื่อนไหว มีรายละเอียดเล็กๆ น้อยๆ ที่ไม่ตรงกัน เช่น รอยย่นและเส้นขน ซึ่งดูเหมือนจะเคลื่อนแยกจากภาพใบหน้าส่วนที่เหลือ นอกจากนั้นใน StyleGAN3 ปัญหาเหล่านี้ได้รับการแก้ไขแล้ว และเทคโนโลยีมี ค่อนข้างเหมาะสมกับการสร้างวิดีโอ
ในที่สุด ยังมีมูลค่าการกล่าวขวัญ การประกาศของ การสร้างโดย NVIDIA และ Microsoft ของโมเดลภาษา MT-NLG ที่ใหญ่ที่สุด บนพื้นฐานของโครงข่ายประสาทเทียมเชิงลึกที่มีสถาปัตยกรรม »transformative«
โมเดลนี้ครอบคลุมพารามิเตอร์ 530 พันล้านตัวและใช้ GPU 4480 ตัว สำหรับการฝึกอบรม (เซิร์ฟเวอร์ 560 DGX A100 พร้อม GPU A8 100 ตัว แต่ละเครื่อง 80 GB) ขอบเขตของการใช้แบบจำลองนี้เรียกว่า การแก้ปัญหาการประมวลผลข้อมูลในภาษาธรรมชาติ เช่น การทำนายความสมบูรณ์ของประโยคที่ยังไม่เสร็จ การตอบคำถาม การอ่านเพื่อความเข้าใจ การสร้างข้อสรุปในภาษาธรรมชาติ และการวิเคราะห์ความกำกวมของความหมายของคำ
หากคุณสนใจที่จะทราบข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้คุณสามารถตรวจสอบรายละเอียดของ StyleGAN3 . ได้ ในลิงค์ต่อไปนี้.