StyleGAN3, hệ thống máy học của Nvidi để tổng hợp khuôn mặt

Gần đây NVIDIA đã phát hành mã nguồn cho StyleGAN3, một hệ thống học máy dựa trên các mạng nơ-ron có hại tổng hợp (GAN) để tổng hợp hình ảnh thực tế của khuôn mặt người.

Trong StyleGAN3 có sẵn để tải xuống các mô hình được đào tạo sẵn sàng sử dụng được đào tạo trong bộ sưu tập Flickr-Faces-HQ (FFHQ), bao gồm 70 nghìn hình ảnh PNG có chất lượng cao về khuôn mặt người (1024 × 1024). Ngoài ra, còn có các mô hình được xây dựng dựa trên bộ sưu tập AFHQv2 (ảnh chụp khuôn mặt động vật) và Metfaces (ảnh khuôn mặt người từ các bức chân dung hội họa cổ điển).

Về StyleGAN3

Thiết kế tập trung vào các khuôn mặt, nhưng hệ thống có thể được đào tạo để tạo ra bất kỳ loại đối tượng nào, như phong cảnh và xe hơi. Hơn nữa, các công cụ được cung cấp để tự học mạng nơ-ron sử dụng bộ sưu tập hình ảnh của riêng bạn. Yêu cầu một hoặc nhiều card đồ họa NVIDIA (Nên sử dụng GPU Tesla V100 hoặc A100), ít nhất 12GB RAM, PyTorch 1.9 và Bộ công cụ CUDA 11.1+. Để xác định bản chất nhân tạo của các mặt nhận được, một máy dò đặc biệt đang được phát triển.

Hệ thống cho phép tổng hợp hình ảnh của một khuôn mặt mới dựa trên phép nội suy các đặc điểm của một số khuôn mặt, kết hợp các tính năng vốn có của chúng, ngoài việc điều chỉnh hình ảnh cuối cùng theo độ tuổi yêu cầu, giới tính, độ dài tóc, đặc điểm nụ cười, dáng mũi, màu da, kính, góc chụp ảnh.

Máy phát điện coi hình ảnh như một tập hợp các kiểu, tự động tách các chi tiết đặc trưng (tàn nhang, tóc, kính) của các thuộc tính cấp cao chung (tư thế, giới tính, các thay đổi liên quan đến tuổi tác) và cho phép chúng được kết hợp tùy ý với định nghĩa của các thuộc tính chi phối thông qua các yếu tố trọng số và kết quả là hình ảnh được tạo ra chúng dường như không thể phân biệt được với những bức ảnh thực tế.

Phiên bản đầu tiên của công nghệ StyleGAN (phát hành vào năm 2019), tiếp theo là phiên bản cải tiến của StyleGAN2 vào năm 2020, giúp cải thiện chất lượng hình ảnh và loại bỏ một số hiện vật. Đồng thời, hệ thống vẫn ở trạng thái tĩnh, tức là nó không cho phép các hình ảnh động hoặc chuyển động khuôn mặt thực tế. Khi phát triển StyleGAN3, mục tiêu chính là điều chỉnh công nghệ để sử dụng trong hoạt hình và video.

StyleGAN3 sử dụng kiến ​​trúc hình ảnh không răng cưa được thiết kế lạiay cung cấp các kịch bản đào tạo mạng thần kinh mới và cũng bao gồm các tiện ích mới để trực quan hóa tương tác (visualizer.py), phân tích (avg_spectra.py) và tạo video (gen_video.py). Việc thực hiện cũng làm giảm tiêu thụ bộ nhớ và tăng tốc quá trình học tập.

Một tính năng chính của kiến ​​trúc StyleGAN3 là sự chuyển đổi sang giải thích tất cả các tín hiệu trong mạng nơ-ron dưới dạng các quy trình liên tục, giúp nó có thể thao tác các vị trí tương đối bằng cách tạo thành các phần, không bị ràng buộc với tọa độ tuyệt đối của các pixel riêng lẻ trong hình ảnh, nhưng được cố định vào bề mặt của các đối tượng được biểu diễn.

Trong khi trong StyleGAN và StyleGAN2, việc lấy pixel trong quá trình xây dựng gây ra sự cố với kết xuất độngVí dụ: khi hình ảnh đang chuyển động, có sự không khớp của các chi tiết nhỏ, chẳng hạn như nếp nhăn và sợi tóc, dường như di chuyển riêng biệt với phần còn lại của hình ảnh khuôn mặt, ngoài ra trong StyleGAN3, những vấn đề này đã được giải quyết và công nghệ đã trở nên khá thích hợp cho việc tạo video.

Cuối cùng, cũng đáng nói thông báo về sự sáng tạo của NVIDIA và Microsoft về mô hình ngôn ngữ MT-NLG lớn nhất dựa trên mạng nơron sâu với kiến ​​trúc «biến đổi».

Mô hình bao gồm 530 tỷ thông số và một nhóm 4480 GPU đã được sử dụng để đào tạo (560 máy chủ DGX A100 với 8 GPU A100, mỗi GPU 80 GB). Các lĩnh vực ứng dụng của mô hình được gọi là xử lý thông tin giải quyết vấn đề bằng ngôn ngữ tự nhiên, chẳng hạn như dự đoán sự hoàn thành của một câu chưa hoàn thành, trả lời câu hỏi, đọc hiểu, hình thành kết luận bằng ngôn ngữ tự nhiên và phân tích sự mơ hồ về nghĩa của từ.

Nếu bạn muốn biết thêm về nó, bạn có thể kiểm tra chi tiết của StyleGAN3 Trong liên kết sau đây.


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: AB Internet Networks 2008 SL
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.