HyperStyle, một bản chuyển thể của StyleGAN để chỉnh sửa hình ảnh

Một nhóm Các nhà nghiên cứu của Đại học Tel Aviv gần đây đã công bố HyperStyle, đó là một phiên bản đảo ngược của hệ thống học máy NVIDIA StyleGAN2 đã được thiết kế lại để tạo lại các phần bị thiếu khi chỉnh sửa hình ảnh trong thế giới thực.

StyleGAN có đặc điểm là cho phép tổng hợp những khuôn mặt mới của những người có ngoại hình thực tế, cài đặt các thông số như tuổi, giới tính, độ dài tóc, đặc điểm nụ cười, dáng mũi, màu da, kính và góc chụp ảnh.

Hơn nữa, HyperStyle giúp bạn có thể thay đổi các thông số tương tự trong các thông số hiện có, Nói cách khác, nó cho phép bạn tạo ra các bức ảnh mà không cần sửa đổi các đặc điểm đặc trưng của chúng và duy trì khả năng nhận dạng của khuôn mặt gốc.

HyperStyle giới thiệu các siêu mạng để tìm hiểu cách tinh chỉnh trọng số của trình tạo StyleGAN đã được đào tạo trước đó so với hình ảnh đầu vào nhất định. Làm như vậy cho phép xây dựng lại cấp độ tối ưu hóa với thời gian suy luận giống như bộ mã hóa và khả năng chỉnh sửa cao.

Ví dụ, khi sử dụng HyperStyle, có thể mô phỏng sự thay đổi tuổi của một người trong một bức ảnh, thay đổi kiểu tóc, thêm kính, để râu hoặc ria mép, làm cho hình ảnh giống nhân vật hoạt hình hoặc tranh vẽ tay, biểu cảm khuôn mặt buồn hoặc vui.

Trong trường hợp này, Hệ thống có thể được đào tạo không chỉ để thay đổi khuôn mặt của mọi người mà còn cho bất kỳ đối tượng nào, để Ví dụ, để chỉnh sửa hình ảnh xe hơi.

Hầu hết các công trình nghiên cứu sự đảo ngược tìm kiếm một mã tiềm ẩn để tái tạo lại một hình ảnh nhất định một cách chính xác hơn. Một số nghiên cứu gần đây đã đề xuất tinh chỉnh hình ảnh của trọng lượng máy phát để đạt được chất lượng cao tái tạo cho một hình ảnh mục tiêu nhất định. Với HyperStyle, chúng tôi mong muốn đưa các phương pháp điều chỉnh trình tạo này đến lĩnh vực ứng dụng tương tác bằng cách điều chỉnh chúng theo phương pháp tiếp cận dựa trên bộ mã hóa.

Chúng tôi đã đào tạo một siêu mạng duy nhất để tìm hiểu cách tinh chỉnh trọng số của trình tạo so với hình ảnh mục tiêu mong muốn. Bằng cách học cách ánh xạ này, HyperStyle dự đoán hiệu quả trọng lượng mục tiêu của trình tạo trong vòng chưa đầy 2 giây cho mỗi hình ảnh, làm cho nó có thể áp dụng cho nhiều ứng dụng.

Phương pháp đề xuất nhằm mục đích giải quyết vấn đề tái tạo lại các phần bị thiếu của hình ảnh trong quá trình chỉnh sửa. Các kỹ thuật được đề xuất ở trên đã giải quyết sự cân bằng giữa tái tạo và chỉnh sửa bằng cách tinh chỉnh hình ảnh để thay thế các phần của hình ảnh đích trong khi tạo lại các vùng có thể chỉnh sửa ban đầu bị thiếu. Nhược điểm của các cách tiếp cận như vậy là cần phải đào tạo mạng nơ-ron có mục tiêu dài hạn cho mỗi hình ảnh.

Phương pháp dựa trên thuật toán StyleGAN cho phép sử dụng một mô hình điển hình, đào tạo trước trên các bộ sưu tập hình ảnh phổ biến, để tạo ra các yếu tố đặc trưng của hình ảnh gốc với mức độ tin cậy có thể so sánh với các thuật toán yêu cầu đào tạo mô hình riêng cho từng hình ảnh.

Một trong những ưu điểm của phương pháp mới là khả năng sửa đổi hình ảnh với hiệu suất gần với thời gian thực, ngoài ra mô hình đã sẵn sàng để huấn luyện chuẩn bị cho những người, ô tô và động vật dựa trên các bộ sưu tập từ Flickr-the Faces-HQ (FFHQ, 70,000 hình ảnh PNG chất lượng cao về khuôn mặt người), The Stanford Cars (16 hình ảnh về ô tô) và AFHQ (ảnh động vật).

Bên cạnh đó, một bộ công cụ được cung cấp để đào tạo các mô hình của bạncũng như các mô hình được đào tạo sẵn sàng để sử dụng các bộ mã hóa và bộ tạo điển hình phù hợp để sử dụng với chúng. Ví dụ: có các trình tạo có sẵn để tạo hình ảnh theo phong cách Toonify, nhân vật Pixar, tạo bản phác thảo và thậm chí tạo kiểu như các công chúa Disney.

Cuối cùng cho những ai quan tâm muốn biết thêm Về công cụ này, bạn có thể kiểm tra chi tiết Trong liên kết sau đây.

Điều quan trọng cần đề cập là mã được viết bằng Python sử dụng khuôn khổ PyTorch và được MIT cấp phép. Bạn có thể kiểm tra mã tại liên kết sau.


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: AB Internet Networks 2008 SL
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.