ทีมงานของ นักวิจัยจากมหาวิทยาลัยเทลอาวีฟเพิ่งเปิดตัว HyperStyle, ซึ่งเป็น เวอร์ชันย้อนกลับ ของระบบการเรียนรู้ของเครื่อง NVIDIA StyleGAN2 ซึ่งได้รับการออกแบบใหม่เพื่อสร้างชิ้นส่วนที่ขาดหายไปเมื่อแก้ไขภาพในโลกแห่งความเป็นจริง
StyleGAN โดดเด่นด้วยการสังเคราะห์ใบหน้าใหม่ของผู้คนด้วยรูปลักษณ์ที่สมจริง การตั้งค่าพารามิเตอร์ เช่น อายุ เพศ ความยาวผม ลักษณะรอยยิ้ม รูปร่างจมูก สีผิว แว่นตา และมุมถ่ายภาพ
นอกจากนี้ HyperStyle ทำให้สามารถเปลี่ยนพารามิเตอร์ที่คล้ายกันในพารามิเตอร์ที่มีอยู่ กล่าวอีกนัยหนึ่ง ช่วยให้คุณสร้างภาพถ่ายโดยไม่ต้องแก้ไขคุณลักษณะเฉพาะของภาพและรักษาความสามารถในการจดจำใบหน้าต้นฉบับ
HyperStyle แนะนำไฮเปอร์เน็ตเวิร์กเพื่อเรียนรู้วิธีปรับแต่งน้ำหนักของตัวสร้าง StyleGAN ที่ผ่านการฝึกอบรมก่อนหน้านี้ให้สัมพันธ์กับอิมเมจอินพุตที่กำหนด การทำเช่นนี้จะเปิดใช้งานการสร้างระดับการปรับให้เหมาะสมขึ้นใหม่ด้วยเวลาอนุมานเหมือนตัวเข้ารหัสและความสามารถในการแก้ไขสูง
ตัวอย่างเช่น เมื่อใช้ HyperStyle สามารถจำลองการเปลี่ยนแปลงอายุของบุคคลในภาพถ่าย, เปลี่ยนทรงผม, ใส่แว่น, เคราหรือหนวด, ทำให้ภาพดูเหมือนตัวการ์ตูนหรือภาพวาดด้วยมือ, ทำหน้าเศร้าหรือมีความสุข
ในกรณีนี้ ระบบสามารถฝึกได้ไม่เพียงแค่เปลี่ยนหน้าคนแต่ยังสำหรับวัตถุใดๆสำหรับ ตัวอย่างเช่น ในการแก้ไขภาพรถ
งานส่วนใหญ่ที่ศึกษาการผกผันจะมองหารหัสแฝงที่สร้างภาพที่กำหนดขึ้นใหม่ได้แม่นยำยิ่งขึ้น ผลงานล่าสุดบางชิ้นได้เสนอการปรับภาพอย่างละเอียดของตุ้มน้ำหนักเครื่องกำเนิดไฟฟ้า เพื่อให้ได้ภาพที่สร้างขึ้นใหม่คุณภาพสูงสำหรับภาพเป้าหมายที่กำหนด ด้วย HyperStyle เรามุ่งมั่นที่จะนำวิธีการปรับแต่งเครื่องกำเนิดเหล่านี้มาสู่ขอบเขตของแอปพลิเคชันแบบโต้ตอบโดยปรับให้เข้ากับวิธีการที่ใช้ตัวเข้ารหัส
เราฝึกอบรมไฮเปอร์เน็ตเวิร์กเครือข่ายเดียวเพื่อเรียนรู้วิธีปรับแต่งน้ำหนักของตัวสร้างให้สัมพันธ์กับรูปภาพเป้าหมายที่ต้องการ เมื่อเรียนรู้การทำแผนที่นี้ HyperStyle จะคาดการณ์น้ำหนักเป้าหมายของตัวสร้างได้อย่างมีประสิทธิภาพในเวลาน้อยกว่า 2 วินาทีต่อภาพ ทำให้ใช้ได้กับแอพพลิเคชั่นที่หลากหลาย
วิธีการที่เสนอ มีวัตถุประสงค์เพื่อแก้ปัญหาการสร้างส่วนที่ขาดหายไปของภาพขึ้นใหม่ระหว่างการแก้ไข. เทคนิคที่เสนอข้างต้นได้จัดการกับความสมดุลระหว่างการสร้างใหม่และการแก้ไขโดยการปรับแต่งอิมเมจอย่างละเอียดเพื่อแทนที่บางส่วนของภาพเป้าหมายในขณะที่สร้างพื้นที่ที่แก้ไขได้ซึ่งเดิมหายไป ข้อเสียของแนวทางดังกล่าวคือความจำเป็นในการฝึกอบรมโครงข่ายประสาทเทียมแบบกำหนดเป้าหมายระยะยาวสำหรับแต่ละภาพ
วิธีการที่อิงตามอัลกอริทึม StyleGAN ช่วยให้สามารถใช้โมเดลทั่วไปได้ อบรมล่วงหน้าเกี่ยวกับคอลเลกชันรูปภาพทั่วไป เพื่อสร้างองค์ประกอบที่มีลักษณะเฉพาะของภาพต้นฉบับที่มีระดับความมั่นใจเทียบเท่ากับอัลกอริธึมที่ต้องใช้การฝึกอบรมเฉพาะตัวของแบบจำลองสำหรับแต่ละภาพ
ข้อดีอย่างหนึ่งของวิธีการใหม่นี้ก็คือความสามารถในการปรับแต่งภาพให้มีประสิทธิภาพใกล้เคียงกับเวลาจริง นอกเหนือจากข้อเท็จจริงที่ว่า ตัวแบบก็พร้อมเทรนเตรียมไว้สำหรับคน รถ และสัตว์ตามคอลเลกชั่น จาก Flickr-the Faces-HQ (FFHQ, ภาพ PNG คุณภาพสูง 70,000 ภาพบนใบหน้าของผู้คน), The Stanford Cars (รถยนต์ 16 ภาพ) และ AFHQ (ภาพถ่ายสัตว์)
นอกจากนี้ มีชุดเครื่องมือสำหรับฝึกโมเดลของคุณตลอดจนเครื่องเข้ารหัสและเครื่องกำเนิดไฟฟ้าทั่วไปที่ผ่านการฝึกอบรมพร้อมใช้ซึ่งเหมาะสำหรับใช้กับเครื่องเข้ารหัสเหล่านี้ ตัวอย่างเช่น มีเครื่องกำเนิดไฟฟ้าสำหรับสร้างภาพสไตล์ Toonify, ตัวละคร Pixar, การสร้างภาพสเก็ตช์ และแม้กระทั่งการจัดสไตล์เหมือนเจ้าหญิงดิสนีย์
ในที่สุด สำหรับผู้สนใจทราบข้อมูลเพิ่มเติม เกี่ยวกับเครื่องมือนี้ คุณสามารถตรวจสอบรายละเอียด ในลิงค์ต่อไปนี้.
สิ่งสำคัญคือต้องพูดถึงว่าโค้ดนี้เขียนด้วย Python โดยใช้เฟรมเวิร์ก PyTorch และได้รับอนุญาตจาก MIT สามารถตรวจสอบรหัสได้ที่ ลิงค์ต่อไปนี้