HyperStyle, adaptasi StyleGAN untuk pengeditan gambar

Sebuah tim dari Peneliti Universitas Tel Aviv baru-baru ini meluncurkan HyperStyle, yang mana versi terbalik dari sistem pembelajaran mesin NVIDIA StyleGAN2 yang telah didesain ulang untuk membuat ulang bagian yang hilang saat mengedit gambar dunia nyata.

StyleGAN ditandai dengan memungkinkan untuk mensintesis wajah baru orang dengan penampilan yang realistis, parameter pengaturan seperti usia, jenis kelamin, panjang rambut, karakter senyum, bentuk hidung, warna kulit, kacamata dan sudut fotografi.

Selain itu, HyperStyle memungkinkan untuk mengubah parameter serupa di yang sudah ada, Dengan kata lain, ini memungkinkan Anda untuk membuat foto tanpa mengubah fitur karakteristiknya dan mempertahankan pengenalan wajah aslinya.

HyperStyle memperkenalkan hypernetworks untuk mempelajari cara memperbaiki bobot generator StyleGAN yang telah dilatih sebelumnya relatif terhadap gambar input yang diberikan. Melakukannya memungkinkan pembangunan kembali tingkat pengoptimalan dengan waktu inferensi seperti pembuat enkode dan kemampuan edit yang tinggi.

Misalnya, saat menggunakan HyperStyle, dapat mensimulasikan perubahan usia seseorang dalam sebuah foto, mengubah gaya rambut, menambahkan kacamata, janggut atau kumis, membuat gambar terlihat seperti karakter kartun atau gambar yang digambar tangan, membuat ekspresi wajah sedih atau bahagia.

Dalam hal ini, Sistem ini dapat dilatih tidak hanya untuk mengubah wajah orang, tetapi juga untuk objek apa pun, untuk Misalnya untuk mengedit gambar mobil.

Sebagian besar karya yang mempelajari inversi mencari kode laten yang lebih akurat merekonstruksi gambar tertentu. Beberapa pekerjaan baru-baru ini telah mengusulkan penyetelan halus gambar dari bobot generator untuk mencapai rekonstruksi berkualitas tinggi untuk gambar target yang diberikan. Dengan HyperStyle, tujuan kami adalah membawa pendekatan penyetelan generator ini ke ranah aplikasi interaktif dengan mengadaptasinya ke pendekatan berbasis encoder.

Kami melatih satu hypernetwork untuk mempelajari cara memperbaiki bobot generator relatif terhadap gambar target yang diinginkan. Dengan mempelajari pemetaan ini, HyperStyle secara efisien memprediksi bobot target generator dalam waktu kurang dari 2 detik per gambar, sehingga dapat diterapkan ke berbagai aplikasi.

Metode yang diusulkan bertujuan untuk memecahkan masalah merekonstruksi bagian gambar yang hilang selama pengeditan. Teknik yang diusulkan sebelumnya telah membahas keseimbangan antara rekonstruksi dan pengeditan dengan menyempurnakan imager untuk mengganti bagian dari gambar target sambil menciptakan kembali wilayah yang dapat diedit yang awalnya hilang. Kelemahan dari pendekatan tersebut adalah kebutuhan untuk pelatihan target jangka panjang dari jaringan saraf untuk setiap gambar.

Metode berdasarkan algoritma StyleGAN memungkinkan untuk menggunakan model tipikal, pra-latihan pada koleksi gambar umum, untuk menghasilkan elemen karakteristik dari gambar asli dengan tingkat kepercayaan yang sebanding dengan algoritme yang memerlukan pelatihan individual model untuk setiap gambar.

Salah satu keuntungan dari metode baru ini adalah kemampuan untuk memodifikasi gambar dengan kinerja yang mendekati waktu nyata, selain fakta bahwa model siap untuk dilatih disiapkan untuk orang-orang, mobil, dan hewan berdasarkan koleksi dari Flickr-the Faces-HQ (FFHQ, 70,000 gambar PNG berkualitas tinggi dari wajah orang), The Stanford Cars (16 gambar mobil) dan AFHQ (foto binatang).

Selain itu, satu set alat disediakan untuk melatih model Andaserta model enkoder dan generator tipikal terlatih siap pakai yang cocok untuk digunakan bersama mereka. Misalnya, ada generator yang tersedia untuk membuat gambar bergaya Toonify, karakter Pixar, membuat sketsa, dan bahkan menata gaya seperti putri Disney.

Akhirnya bagi mereka yang tertarik untuk mengetahui lebih banyak Tentang alat ini, Anda dapat memeriksa detailnya Di tautan berikut.

Penting juga untuk menyebutkan bahwa kode tersebut ditulis dengan Python menggunakan kerangka kerja PyTorch dan berlisensi MIT. Anda dapat memeriksa kode di link berikut.

LinuxAdictos

HyperStyle, sebuah adaptasi dari StyleGAN untuk pengeditan gambar

tinggalkan Komentar Anda Batalkan balasan