StyleGAN3, sistem pembelajaran mesin untuk sintesis wajah dari Nvidi

Baru-baru ini NVIDIA merilis kode sumber untuk StyleGAN3, sistem pembelajaran mesin berdasarkan jaringan saraf negatif generatif (GAN) untuk mensintesis gambar wajah manusia yang realistis.

Dalam GayaGAN3 tersedia untuk mengunduh model terlatih siap pakai yang terlatih dalam koleksi Flickr-Faces-HQ (FFHQ), yang mencakup 70 ribu gambar PNG wajah manusia berkualitas tinggi (1024 × 1024). Selain itu, ada model yang dibangun berdasarkan koleksi AFHQv2 (foto wajah binatang) dan Metfaces (gambar wajah orang dari potret lukisan klasik).

Tentang StyleGAN3

Desain berfokus pada wajah, tetapi sistem dapat dilatih untuk menghasilkan semua jenis objek, seperti pemandangan dan mobil. Apalagi, alat disediakan untuk belajar mandiri dari jaringan saraf menggunakan koleksi gambar Anda sendiri. Membutuhkan satu atau lebih kartu grafis NVIDIA (GPU Tesla V100 atau A100 direkomendasikan), setidaknya 12 GB RAM, PyTorch 1.9, dan CUDA 11.1+ Toolkit. Untuk menentukan sifat buatan dari wajah yang diterima, detektor khusus sedang dikembangkan.

Sistem memungkinkan untuk mensintesis gambar wajah baru berdasarkan interpolasi fitur beberapa wajah, menggabungkan fitur bawaan mereka, selain menyesuaikan gambar akhir dengan usia yang diperlukan, jenis kelamin, panjang rambut, karakter senyum, bentuk hidung, warna kulit, kacamata, sudut fotografi.

Generator memperlakukan gambar sebagai kumpulan gaya, secara otomatis memisahkan detail karakteristik (bintik-bintik, rambut, kacamata) dari atribut tingkat tinggi umum (postur, jenis kelamin, perubahan terkait usia) dan memungkinkan mereka untuk secara sewenang-wenang dikombinasikan dengan definisi sifat dominan melalui faktor pembobotan dan sebagai hasilnya, gambar dihasilkan yang mereka tampaknya tidak bisa dibedakan dari foto-foto yang sebenarnya.

Versi pertama teknologi StyleGAN (dirilis pada 2019), diikuti oleh versi StyleGAN2 yang ditingkatkan pada 2020, yang meningkatkan kualitas gambar dan menghilangkan beberapa artefak. Pada saat yang sama, sistem tetap statis, yaitu tidak memungkinkan animasi realistis atau gerakan wajah. Saat mengembangkan StyleGAN3, tujuan utamanya adalah mengadaptasi teknologi untuk digunakan dalam animasi dan video.

StyleGAN3 menggunakan arsitektur pencitraan non-aliasing yang didesain ulangay menawarkan skenario pelatihan jaringan saraf baru dan juga menyertakan utilitas baru untuk visualisasi interaktif (visualizer.py), analisis (avg_spectra.py) dan pembuatan video (gen_video.py). Implementasinya juga mengurangi konsumsi memori dan mempercepat proses pembelajaran.

Fitur utama dari arsitektur StyleGAN3 adalah transisi ke interpretasi semua sinyal dalam jaringan saraf dalam bentuk proses berkelanjutan, yang memungkinkan untuk memanipulasi posisi relatif dengan membentuk bagian, tidak terikat pada koordinat absolut piksel individu dalam gambar, tetapi tetap pada permukaan objek yang diwakili.

sementara di StyleGAN dan StyleGAN2, gertakan ke piksel selama pembuatan menyebabkan masalah dengan rendering dinamisMisalnya, saat gambar bergerak, ada ketidakcocokan detail kecil, seperti kerutan dan rambut, yang tampak bergerak terpisah dari bagian gambar wajah lainnya, selain itu di StyleGAN3 masalah ini terpecahkan dan teknologi telah menjadi sangat cocok untuk pembuatan video.

Akhirnya, juga layak disebut pengumuman dari pembuatan model bahasa MT-NLG terbesar oleh NVIDIA dan Microsoft berdasarkan jaringan saraf yang dalam dengan arsitektur »transformatif«.

Model ini mencakup 530 miliar parameter dan kumpulan 4480 GPU digunakan untuk pelatihan (560 server DGX A100 dengan 8 GPU A100 masing-masing 80 GB). Area penerapan model disebut pemecahan masalah pemrosesan informasi dalam bahasa alami, seperti memprediksi penyelesaian kalimat yang belum selesai, menjawab pertanyaan, membaca pemahaman, membentuk kesimpulan dalam bahasa alami, dan menganalisis ambiguitas makna kata-kata.

Jika Anda tertarik untuk mengetahui lebih banyak tentangnya, Anda dapat memeriksa detail StyleGAN3 Di tautan berikut.

LinuxAdictos

StyleGAN3, sistem pembelajaran mesin Nvidi untuk sintesis wajah

Tentang StyleGAN3

tinggalkan Komentar Anda Batalkan balasan