StyleGAN3, sistem pembelajaran mesin Nvidi untuk sintesis wajah

Baru-baru ini NVIDIA mengeluarkan kod sumber untuk StyleGAN3, sistem pembelajaran mesin berdasarkan rangkaian neural merugikan generatif (GAN) untuk mensintesis gambar wajah manusia yang realistik.

Dalam GayaGAN3 tersedia untuk memuat turun model terlatih siap pakai yang dilatih dalam koleksi Flickr-Faces-HQ (FFHQ), yang merangkumi 70 ribu gambar PNG wajah manusia berkualiti tinggi (1024 × 1024). Di samping itu, terdapat model yang dibina berdasarkan koleksi AFHQv2 (gambar wajah haiwan) dan Metfaces (gambar wajah orang dari potret lukisan klasik).

Mengenai StyleGAN3

Reka bentuk berfokus pada wajah, tetapi sistem dapat dilatih untuk menghasilkan apa-apa jenis objek, seperti landskap dan kereta. Apa lagi, alat disediakan untuk pembelajaran kendiri rangkaian saraf menggunakan koleksi gambar anda sendiri. Memerlukan satu atau lebih kad grafik NVIDIA (Tesla V100 atau A100 GPU disyorkan), sekurang-kurangnya 12GB RAM, PyTorch 1.9, dan CUDA 11.1+ Toolkit. Untuk menentukan sifat buatan wajah yang diterima, alat pengesan khas sedang dikembangkan.

Sistem ini memungkinkan untuk mensintesis gambar wajah baru berdasarkan interpolasi ciri beberapa wajah, menggabungkan ciri semula jadi mereka, selain menyesuaikan gambar akhir dengan usia, jantina, panjang rambut, watak senyum, bentuk hidung, warna kulit, kacamata, sudut fotografi.

Penjana memperlakukan gambar sebagai koleksi gaya, secara automatik memisahkan perincian ciri (bintik-bintik, rambut, kacamata) dari atribut tahap tinggi umum (postur, jantina, perubahan yang berkaitan dengan usia) dan memungkinkan mereka digabungkan secara sewenang-wenang dengan definisi sifat dominan melalui faktor pemberat dan sebagai hasilnya, gambar dihasilkan yang mereka nampaknya tidak dapat dibezakan dari gambar sebenar.

Versi pertama teknologi StyleGAN (dikeluarkan pada tahun 2019), diikuti dengan versi StyleGAN2 yang diperbaiki pada tahun 2020, yang meningkatkan kualiti gambar dan menghilangkan beberapa artifak. Pada masa yang sama, sistem ini tetap statik, yakni tidak membenarkan animasi atau pergerakan wajah yang realistik. Semasa mengembangkan StyleGAN3, tujuan utamanya adalah menyesuaikan teknologi untuk digunakan dalam animasi dan video.

StyleGAN3 menggunakan seni bina pengimejan tanpa nama yang direka bentuk semulaay menawarkan senario latihan rangkaian saraf baru dan juga merangkumi utiliti baru untuk visualisasi interaktif (visualizer.py), analisis (avg_spectra.py) dan penjanaan video (gen_video.py). Pelaksanaannya juga dapat mengurangkan penggunaan memori dan mempercepat proses pembelajaran.

Ciri utama seni bina StyleGAN3 adalah peralihan kepada penafsiran semua isyarat dalam rangkaian saraf dalam bentuk proses berterusan, yang memungkinkan untuk memanipulasi kedudukan relatif dengan membentuk bahagian, tidak terikat dengan koordinat mutlak piksel individu dalam gambar, tetapi terpaku pada permukaan objek yang diwakili.

manakala dalam StyleGAN dan StyleGAN2, pengambilan piksel semasa pembuatan menyebabkan masalah dengan rendering dinamikSebagai contoh, ketika gambar bergerak, terdapat ketidakcocokan dengan perincian kecil, seperti kerutan dan rambut, yang nampaknya bergerak secara terpisah dari gambar wajah yang lain, selain itu di StyleGAN3 masalah ini diselesaikan dan teknologi telah menjadi cukup sesuai untuk penjanaan video.

Akhirnya, juga patut disebut pengumuman mengenai penciptaan oleh NVIDIA dan Microsoft model bahasa MT-NLG terbesar berdasarkan rangkaian neural yang mendalam dengan seni bina «transformatif».

Model ini meliputi 530 bilion parameter dan kumpulan 4480 GPU telah digunakan untuk latihan (560 pelayan DGX A100 dengan 8 GPU A100 masing-masing 80 GB). Bidang penerapan model disebut pemprosesan maklumat menyelesaikan masalah dalam bahasa semula jadi, seperti meramalkan penyelesaian ayat yang belum selesai, menjawab soalan, memahami bacaan, membuat kesimpulan dalam bahasa semula jadi, dan menganalisis kesamaran makna kata-kata.

Sekiranya anda berminat untuk mengetahui lebih lanjut mengenainya, anda boleh menyemak perincian StyleGAN3 Dalam pautan berikut.


Tinggalkan komen anda

Alamat email anda tidak akan disiarkan. Ruangan yang diperlukan ditanda dengan *

*

*

  1. Bertanggungjawab untuk data: AB Internet Networks 2008 SL
  2. Tujuan data: Mengendalikan SPAM, pengurusan komen.
  3. Perundangan: Persetujuan anda
  4. Komunikasi data: Data tidak akan disampaikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Pangkalan data yang dihoskan oleh Occentus Networks (EU)
  6. Hak: Pada bila-bila masa anda boleh menghadkan, memulihkan dan menghapus maklumat anda.