StyleGAN3, Nvidi'nin yüz sentezi için makine öğrenme sistemi

geçenlerde NVIDIA, StyleGAN3 için kaynak kodunu yayınladı, insan yüzlerinin gerçekçi görüntülerini sentezlemek için üretici ters sinir ağlarına (GAN) dayalı bir makine öğrenme sistemi.

TarzdaGAN3 koleksiyonda eğitilmiş kullanıma hazır eğitimli modelleri indirmek için kullanılabilir Yüksek kaliteli insan yüzlerinin (70 × 1024) 1024 bin PNG görüntüsünü içeren Flickr-Faces-HQ (FFHQ). Ayrıca, AFHQv2 (hayvan yüzlerinin fotoğrafları) ve Metfaces (klasik resim portrelerinden insan yüzlerinin görüntüleri) koleksiyonları temelinde oluşturulmuş modeller de vardır.

StilGAN3 Hakkında

Tasarım yüzlere odaklanır, ancak sistem her tür nesneyi oluşturmak için eğitilebilir, manzaralar ve arabalar gibi. Daha ne, sinir ağının kendi kendine öğrenmesi için araçlar sağlanmıştır kendi resim koleksiyonlarınızı kullanarak. Bir veya daha fazla NVIDIA grafik kartı gerektirir (Tesla V100 veya A100 GPU'lar önerilir), en az 12 GB RAM, PyTorch 1.9 ve CUDA 11.1+ Toolkit. Alınan yüzlerin yapay yapısını belirlemek için özel bir dedektör geliştirilmektedir.

Sistem birkaç yüzün özelliklerinin enterpolasyonuna dayalı olarak yeni bir yüzün görüntüsünü sentezlemeye izin verir, doğal özelliklerini birleştirerek, nihai görüntüyü istenen yaş, cinsiyet, saç uzunluğu, gülümseme karakteri, burun şekli, ten rengi, gözlük, fotoğraf açısına uyarlamanın yanı sıra.

Jeneratör görüntüyü bir stil koleksiyonu olarak ele alır, karakteristik ayrıntıları otomatik olarak ayırır (çiller, saç, gözlük) genel üst düzey niteliklerin (duruş, cinsiyet, yaşa bağlı değişiklikler) ve bunların ağırlıklandırma faktörleri aracılığıyla baskın özelliklerin tanımıyla keyfi olarak birleştirilmesine izin verir ve sonuç olarak, görüntülerin üretilmesini sağlar. görünüşte gerçek fotoğraflardan ayırt edilemezler.

StyleGAN teknolojisinin ilk versiyonu (2019'da yayınlandı), ardından 2'de StyleGAN2020'nin görüntü kalitesini iyileştiren ve bazı artifaktları ortadan kaldıran geliştirilmiş bir versiyonu. Aynı zamanda sistem statik kaldı yani gerçekçi animasyonlara veya yüz hareketlerine izin vermiyordu. StyleGAN3'ü geliştirirken temel amaç, teknolojiyi animasyon ve videoda kullanım için uyarlamaktı.

StyleGAN3, yeniden tasarlanmış bir örtüşmeyen görüntüleme mimarisi kullanıray, yeni sinir ağı eğitim senaryoları sunar ve ayrıca etkileşimli görselleştirme (visualizer.py), analiz (avg_spectra.py) ve video oluşturma (gen_video.py) için yeni yardımcı programlar içerir. Uygulama ayrıca bellek tüketimini azaltır ve öğrenme sürecini hızlandırır.

StyleGAN3 mimarisinin önemli bir özelliği, sinir ağındaki tüm sinyalleri, görüntüdeki tek tek piksellerin mutlak koordinatlarına bağlı olmayan, parçalar oluşturarak göreli konumları manipüle etmeyi mümkün kılan sürekli süreçler biçiminde yorumlamaya geçişti. ancak temsil edilen nesnelerin yüzeyine sabitlenir.

Süre StyleGAN ve StyleGAN2'de, oluşturma sırasında piksellere yapışma, dinamik oluşturma ile ilgili sorunlara neden olduÖrneğin, görüntü hareket ederken, yüz görüntüsünün geri kalanından ayrı hareket ediyormuş gibi görünen kırışıklıklar ve kıllar gibi küçük ayrıntılarda bir uyumsuzluk vardı, buna ek olarak StyleGAN3'te bu sorunlar çözüldü ve teknoloji video üretimi için oldukça uygun hale gelir.

Son olarak, ayrıca bahsetmeye değer duyurusu NVIDIA ve Microsoft tarafından en büyük MT-NLG dil modelinin oluşturulması "dönüştürücü" bir mimariye sahip derin bir sinir ağına dayalıdır.

Model 530 milyar parametreyi kapsıyor ve 4480 GPU'luk bir havuz kullanıldı eğitim için (her biri 560 GB'lık 100 A8 GPU'lu 100 DGX A80 sunucu). Modelin uygulama alanları, bitmemiş bir cümlenin tamamlanmasını tahmin etme, soruları cevaplama, okuduğunu anlama, doğal dilde sonuç oluşturma ve kelimelerin anlamlarının belirsizliğini analiz etme gibi doğal dilde bilgi işleme problem çözme olarak adlandırılır.

Bu konuda daha fazla bilgi edinmek istiyorsanız, StyleGAN3'ün ayrıntılarını kontrol edebilirsiniz Aşağıdaki bağlantıda.


Yorumunuzu bırakın

E-posta hesabınız yayınlanmayacak. Gerekli alanlar ile işaretlenmiştir *

*

*

  1. Verilerden sorumlu: AB Internet Networks 2008 SL
  2. Verilerin amacı: Kontrol SPAM, yorum yönetimi.
  3. Meşruiyet: Onayınız
  4. Verilerin iletilmesi: Veriler, yasal zorunluluk dışında üçüncü kişilere iletilmeyecektir.
  5. Veri depolama: Occentus Networks (AB) tarafından barındırılan veritabanı
  6. Haklar: Bilgilerinizi istediğiniz zaman sınırlayabilir, kurtarabilir ve silebilirsiniz.