HyperStyle การดัดแปลง StyleGAN สำหรับการแก้ไขภาพ

ทีมงานของ นักวิจัยจากมหาวิทยาลัยเทลอาวีฟเพิ่งเปิดตัว HyperStyle, ซึ่งเป็น เวอร์ชันย้อนกลับ ของระบบการเรียนรู้ของเครื่อง NVIDIA StyleGAN2 ซึ่งได้รับการออกแบบใหม่เพื่อสร้างชิ้นส่วนที่ขาดหายไปเมื่อแก้ไขภาพในโลกแห่งความเป็นจริง

StyleGAN โดดเด่นด้วยการสังเคราะห์ใบหน้าใหม่ของผู้คนด้วยรูปลักษณ์ที่สมจริง การตั้งค่าพารามิเตอร์ เช่น อายุ เพศ ความยาวผม ลักษณะรอยยิ้ม รูปร่างจมูก สีผิว แว่นตา และมุมถ่ายภาพ

นอกจากนี้ HyperStyle ทำให้สามารถเปลี่ยนพารามิเตอร์ที่คล้ายกันในพารามิเตอร์ที่มีอยู่ กล่าวอีกนัยหนึ่ง ช่วยให้คุณสร้างภาพถ่ายโดยไม่ต้องแก้ไขคุณลักษณะเฉพาะของภาพและรักษาความสามารถในการจดจำใบหน้าต้นฉบับ

HyperStyle แนะนำไฮเปอร์เน็ตเวิร์กเพื่อเรียนรู้วิธีปรับแต่งน้ำหนักของตัวสร้าง StyleGAN ที่ผ่านการฝึกอบรมก่อนหน้านี้ให้สัมพันธ์กับอิมเมจอินพุตที่กำหนด การทำเช่นนี้จะเปิดใช้งานการสร้างระดับการปรับให้เหมาะสมขึ้นใหม่ด้วยเวลาอนุมานเหมือนตัวเข้ารหัสและความสามารถในการแก้ไขสูง

ตัวอย่างเช่น เมื่อใช้ HyperStyle สามารถจำลองการเปลี่ยนแปลงอายุของบุคคลในภาพถ่าย, เปลี่ยนทรงผม, ใส่แว่น, เคราหรือหนวด, ทำให้ภาพดูเหมือนตัวการ์ตูนหรือภาพวาดด้วยมือ, ทำหน้าเศร้าหรือมีความสุข

ในกรณีนี้ ระบบสามารถฝึกได้ไม่เพียงแค่เปลี่ยนหน้าคนแต่ยังสำหรับวัตถุใดๆสำหรับ ตัวอย่างเช่น ในการแก้ไขภาพรถ

งานส่วนใหญ่ที่ศึกษาการผกผันจะมองหารหัสแฝงที่สร้างภาพที่กำหนดขึ้นใหม่ได้แม่นยำยิ่งขึ้น ผลงานล่าสุดบางชิ้นได้เสนอการปรับภาพอย่างละเอียดของตุ้มน้ำหนักเครื่องกำเนิดไฟฟ้า เพื่อให้ได้ภาพที่สร้างขึ้นใหม่คุณภาพสูงสำหรับภาพเป้าหมายที่กำหนด ด้วย HyperStyle เรามุ่งมั่นที่จะนำวิธีการปรับแต่งเครื่องกำเนิดเหล่านี้มาสู่ขอบเขตของแอปพลิเคชันแบบโต้ตอบโดยปรับให้เข้ากับวิธีการที่ใช้ตัวเข้ารหัส

เราฝึกอบรมไฮเปอร์เน็ตเวิร์กเครือข่ายเดียวเพื่อเรียนรู้วิธีปรับแต่งน้ำหนักของตัวสร้างให้สัมพันธ์กับรูปภาพเป้าหมายที่ต้องการ เมื่อเรียนรู้การทำแผนที่นี้ HyperStyle จะคาดการณ์น้ำหนักเป้าหมายของตัวสร้างได้อย่างมีประสิทธิภาพในเวลาน้อยกว่า 2 วินาทีต่อภาพ ทำให้ใช้ได้กับแอพพลิเคชั่นที่หลากหลาย

วิธีการที่เสนอ มีวัตถุประสงค์เพื่อแก้ปัญหาการสร้างส่วนที่ขาดหายไปของภาพขึ้นใหม่ระหว่างการแก้ไข. เทคนิคที่เสนอข้างต้นได้จัดการกับความสมดุลระหว่างการสร้างใหม่และการแก้ไขโดยการปรับแต่งอิมเมจอย่างละเอียดเพื่อแทนที่บางส่วนของภาพเป้าหมายในขณะที่สร้างพื้นที่ที่แก้ไขได้ซึ่งเดิมหายไป ข้อเสียของแนวทางดังกล่าวคือความจำเป็นในการฝึกอบรมโครงข่ายประสาทเทียมแบบกำหนดเป้าหมายระยะยาวสำหรับแต่ละภาพ

วิธีการที่อิงตามอัลกอริทึม StyleGAN ช่วยให้สามารถใช้โมเดลทั่วไปได้ อบรมล่วงหน้าเกี่ยวกับคอลเลกชันรูปภาพทั่วไป เพื่อสร้างองค์ประกอบที่มีลักษณะเฉพาะของภาพต้นฉบับที่มีระดับความมั่นใจเทียบเท่ากับอัลกอริธึมที่ต้องใช้การฝึกอบรมเฉพาะตัวของแบบจำลองสำหรับแต่ละภาพ

ข้อดีอย่างหนึ่งของวิธีการใหม่นี้ก็คือความสามารถในการปรับแต่งภาพให้มีประสิทธิภาพใกล้เคียงกับเวลาจริง นอกเหนือจากข้อเท็จจริงที่ว่า ตัวแบบก็พร้อมเทรนเตรียมไว้สำหรับคน รถ และสัตว์ตามคอลเลกชั่น จาก Flickr-the Faces-HQ (FFHQ, ภาพ PNG คุณภาพสูง 70,000 ภาพบนใบหน้าของผู้คน), The Stanford Cars (รถยนต์ 16 ภาพ) และ AFHQ (ภาพถ่ายสัตว์)

นอกจากนี้ มีชุดเครื่องมือสำหรับฝึกโมเดลของคุณตลอดจนเครื่องเข้ารหัสและเครื่องกำเนิดไฟฟ้าทั่วไปที่ผ่านการฝึกอบรมพร้อมใช้ซึ่งเหมาะสำหรับใช้กับเครื่องเข้ารหัสเหล่านี้ ตัวอย่างเช่น มีเครื่องกำเนิดไฟฟ้าสำหรับสร้างภาพสไตล์ Toonify, ตัวละคร Pixar, การสร้างภาพสเก็ตช์ และแม้กระทั่งการจัดสไตล์เหมือนเจ้าหญิงดิสนีย์

ในที่สุด สำหรับผู้สนใจทราบข้อมูลเพิ่มเติม เกี่ยวกับเครื่องมือนี้ คุณสามารถตรวจสอบรายละเอียด ในลิงค์ต่อไปนี้.

สิ่งสำคัญคือต้องพูดถึงว่าโค้ดนี้เขียนด้วย Python โดยใช้เฟรมเวิร์ก PyTorch และได้รับอนุญาตจาก MIT สามารถตรวจสอบรหัสได้ที่ ลิงค์ต่อไปนี้


แสดงความคิดเห็นของคุณ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

*

*

  1. รับผิดชอบข้อมูล: AB Internet Networks 2008 SL
  2. วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
  3. ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
  4. การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
  5. การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
  6. สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา